Анализ данных. Подготовка данных

Март 12, 2021

Главная
Информатика
Анализ данных. Подготовка данных

Содержание

2. Основные этапы подготовки данных Загрузка данных в хранилища Разделение данных Приведение данных к одинаковым единицам измерения
3. Анализ данных. Подготовка данных Загрузка данных в хранилища Кафедра информационно-аналитических систем Как правило, в системах хранения
4. Анализ данных. Подготовка данных Разделение данных Кафедра информационно-аналитических систем Простой пример задачи, с которой сталкиваются многие
5. Анализ данных. Подготовка данных Данные, также требующие разделения… Кафедра информационно-аналитических систем
6. Пример (разнообразие имен из реального хранилища) Анализ данных. Подготовка данных Кафедра информационно-аналитических систем
7. Анализ данных. Подготовка данных Кафедра информационно-аналитических систем Преобразование данных к одинаковым единицам измерения Еще один важный
8. Анализ данных. Подготовка данных Кафедра информационно-аналитических систем Пример преобразование данных к одинаковым единицам измерения
9. Преобразование к унифицированной лексике Анализ данных. Подготовка данных Кафедра информационно-аналитических систем Одной из самых трудоемких задач
10. Анализ данных. Подготовка данных Кафедра информационно-аналитических систем Пример преобразования к унифицированной лексике
11. Анализ данных. Подготовка данных Объединение данных из разных источников Кафедра информационно-аналитических систем
12. Анализ данных. Подготовка данных Объединение данных из разных источников. Вариант 1 Кафедра информационно-аналитических систем
13. Анализ данных. Подготовка данных Объединение данных из разных источников. Вариант 2 Кафедра информационно-аналитических систем
14. Анализ данных. Подготовка данных Соединение данных из разных источников Первая проблема – соответствие полей. Так же,
15. Анализ данных. Подготовка данных Пример соединения данных из разных источников Кафедра информационно-аналитических систем
16. Заполнение отсутствующих численных значений Анализ данных. Подготовка данных Кафедра информационно-аналитических систем Одна из самых раздражающих проблем
17. Аппроксимация пропущенных значений В большинстве случаев (особенно во временных рядах) аппроксимация пропущенных значений осуществляется за счет
18. Пример (пропущенные значения) Анализ данных. Подготовка данных Кафедра информационно-аналитических систем
19. Очистка данных Анализ данных. Подготовка данных Кафедра информационно-аналитических систем Как правило, очистка данных может быть сведена
20. Сочетание полей Для проверки данных можно также использовать сочетание полей. Иногда это действительно необходимо, потому что
21. Сравнение с образцом/Регулярные выражения Другой тип проверки данных, включает в себя сравнение с образцом. Такой вид
22. Устранение дубликатов Одна из проблем, решаемая на этапе очистки данных, это устранение дубликатов. Дубликаты могут появляться
23. Контроль диапазонов Анализ данных. Подготовка данных Кафедра информационно-аналитических систем Контроль диапазонов − это на первый взгляд
24. Пример (контроль диапазонов) Анализ данных. Подготовка данных Кафедра информационно-аналитических систем Вот как выглядят первые строки отсортированной
25. Анализ данных. Подготовка данных Контроль диапазонов Кафедра информационно-аналитических систем В примере с оценками визуального анализа вполне
26. Анализ данных. Подготовка данных Дисперсия Кафедра информационно-аналитических систем Дисперсия выборки – среднее арифметическое квадратов отклонений значений
27. Пример (вычисление дисперсии) Анализ данных. Подготовка данных Кафедра информационно-аналитических систем
28. Стандартное отклонение Анализ данных. Подготовка данных Кафедра информационно-аналитических систем Стандартное отклонение вычисляется как корень квадратный из
29. Неравенство Чебышева Анализ данных. Подготовка данных Кафедра информационно-аналитических систем Для интерпретации стандартного отклонения используют неравенство Чебышева.
30. Интерпретация стандартного отклонения Анализ данных. Подготовка данных Кафедра информационно-аналитических систем Можно утверждать, что интервал с границами
31. Интерпретация стандартного отклонения Анализ данных. Подготовка данных Кафедра информационно-аналитических систем В математической статистике доказывают что….
32. Для нормального распределения данных… Анализ данных. Подготовка данных Кафедра информационно-аналитических систем
33. Контроль диапазонов (итоги) Для определения выбросов используется понятие стандартного отклонения. Как правило – достаточно коэффициента k
34. Основные этапы подготовки данных – подведем итог Загрузка данных в хранилища Разделение данных Приведение данных к
35. Анализ данных. Подготовка данных Рассчитайте дисперсию, стандартное отклонение, а затем определите выбросы в одном из своих
37. Скачать презентацию

Слайд 2

Основные этапы подготовки данных
Загрузка данных в хранилища
Разделение данных
Приведение данных к одинаковым единицам

измерения
Преобразование к унифицированной лексике
Объединение данных из разных источников
Соединение данных из разных источников
Заполнение отсутствующих значений
Очистка данных (устранение дубликатов, проверка шаблонов, контроль диапазонов)

Анализ данных.Подготовка данных

Кафедра информационно-аналитических систем

Слайд 3

Анализ данных. Подготовка данных
Загрузка данных в хранилища
Кафедра информационно-аналитических систем
Как правило, в системах

хранения данных существуют специальные утилиты, ориентированные на загрузку данных из внешних источников. Однако, даже на этом, казалось бы простейшем, этапе исследователя могут ожидать многочисленные сюрпризы: например, нечитаемые символы, типы данных не соответствующие обещанным спецификациям и т.п. Рекомендации:
Вычистить из исходных файлов все нечитаемые символы;
Записать все исходные данные как текстовые поля (с типами разбираться потом после загрузки в хранилище).
Саму загрузку (если данных действительно много) проводить непосредственно на сервере, где расположено хранилище.

Слайд 4

Анализ данных. Подготовка данных
Разделение данных
Кафедра информационно-аналитических систем
Простой пример задачи, с которой сталкиваются

многие люди, − это разделение имен и фамилий (или адресов). У вас может быть база данных, где имена и фамилии прописаны в одной ячейке, а вам нужно их отделить друг от друга. Или у вас уже могут быть отдельные ячейки для имен и фамилий, но в некоторых случаях имена с фамилиями все равно записаны вместе. Например:

Слайд 5

Анализ данных. Подготовка данных
Данные, также требующие разделения…
Кафедра информационно-аналитических систем

Слайд 6

Пример (разнообразие имен из реального хранилища)
Анализ данных. Подготовка данных
Кафедра информационно-аналитических систем

Слайд 7

Анализ данных. Подготовка данных
Кафедра информационно-аналитических систем
Преобразование данных к одинаковым единицам измерения
Еще один

важный момент при подготовке данных − проверить, чтобы все данные в одной колонке были представлены в одинаковых единицах. Например, у вас могут быть медицинские данные из разных стран, где в одних странах вес измерен в фунтах, а в других − в килограммах. Важно конвертировать все числа или в килограммы, или в фунты, чтобы они измерялись по одной шкале, иначе их нельзя будет сравнивать и агрегировать, и какую бы вы не делали визуализацию таких необработанных данных, она будет выглядеть довольно странно. Например:

Слайд 8

Анализ данных. Подготовка данных
Кафедра информационно-аналитических систем
Пример преобразование данных к одинаковым единицам измерения

Слайд 9

Преобразование к унифицированной лексике
Анализ данных. Подготовка данных
Кафедра информационно-аналитических систем
Одной из самых трудоемких

задач при очистке данных является работа с несовместимой информацией. Например, одно из текстовых полей в исходных данных содержит сведения о профильной дисциплине студентов. Один студент может ответить «Инф-ка», другой − «Информатика», а третий − «Информ-ка». Даже если вы знаете, что все эти ответы обозначают одну и ту же дисциплину, они крайне ограничат возможности для агрегирования и могут привести к неадекватным результатам. Необходимо преобразовывать данные к унифицированной лексике.

Слайд 10

Анализ данных. Подготовка данных
Кафедра информационно-аналитических систем
Пример преобразования к унифицированной лексике

Слайд 11

Анализ данных. Подготовка данных
Объединение данных из разных источников
Кафедра информационно-аналитических систем

Слайд 12

Анализ данных. Подготовка данных
Объединение данных из разных источников. Вариант 1
Кафедра информационно-аналитических систем

Слайд 13

Анализ данных. Подготовка данных
Объединение данных из разных источников. Вариант 2
Кафедра информационно-аналитических систем

Слайд 14

Анализ данных. Подготовка данных
Соединение данных из разных источников
Первая проблема – соответствие полей.

Так же, как это было в задаче объединения данных из разных источников, необходимо исследовать соответствие полей и преобразовать названия к единому стилю.
Вторая проблема – преобразование данных в различных источниках к единым шкалам, единицам измерения и унифицированной лексике.
Третья проблема – идентификация данных, относящихся к одному и тому же объекту (например, выявление данных, про одного и того же покупателя в разных супермаркетах).
И наконец, сами источники данных могут быть представлены в виде структур различных форматов (таблицы, JSON, XML и т.п.).

Кафедра информационно-аналитических систем

Слайд 15

Анализ данных. Подготовка данных
Пример соединения данных из разных источников
Кафедра информационно-аналитических систем

Слайд 16

Заполнение отсутствующих численных значений
Анализ данных. Подготовка данных
Кафедра информационно-аналитических систем
Одна из самых

раздражающих проблем при работе с данными − пустые или не полностью заполненные поля. Если данные просто не были собраны, возможно, вы сможете вернуться к источнику и заполнить пробелы, но возможно, что у вас больше не будет доступа к этому источнику. Например, это показания датчиков, и никаких других данных просто не будет. Есть два подхода при работе с такими данными:
Выделение таких полей специальными значениями (и исключение их из дальнейшего анализа).
Аппроксимация пропущенных значений на основе исторических данных.

Слайд 17

Аппроксимация пропущенных значений
В большинстве случаев (особенно во временных рядах) аппроксимация пропущенных

значений осуществляется за счет определения ближайших соседей и вычисления их среднего значения. Однако в некоторых случаях приходится пользоваться значительно менее стандартными алгоритмами. Например, при прохождении маршрута были потеряны сведения о времени прохождения нескольких последовательных остановок. Надо восстановить это время на основе исторических данных и временам, зафиксированным до потери и после.

Анализ данных. Подготовка данных

Кафедра информационно-аналитических систем

Слайд 18

Пример (пропущенные значения)
Анализ данных. Подготовка данных
Кафедра информационно-аналитических систем

Слайд 19

Очистка данных
Анализ данных. Подготовка данных
Кафедра информационно-аналитических систем
Как правило, очистка данных может быть

сведена к выполнению следующих работ:
проверка сочетания полей
сравнение с образцом/регулярные выражения
устранение дубликатов
контроль диапазонов

Слайд 20

Сочетание полей
Для проверки данных можно также использовать сочетание полей. Иногда это действительно

необходимо, потому что нужно взглянуть на все поля в записи, чтобы определить одно или несколько неправильных. Представьте, что вы получили данные медицинского обследования пациентов в больнице и отслеживаете принимаемые ежедневно лекарства, используя три отдельных поля для данных: название лекарства, назначенная доза и единица измерения дозы препарата. То есть, если в наборе данных указано «Аспирин, 500, мг», значит, что пациент ежедневно принимал 500 мг аспирина. Теперь представьте, что вы получили запись “Морфин, 200, фунт”. Какой будет ваша реакция? Необходимо предусмотреть правила целостности, которые не допустят использование таких данных.

Анализ данных. Подготовка данных

Кафедра информационно-аналитических систем

Слайд 21

Сравнение с образцом/Регулярные выражения
Другой тип проверки данных, включает в себя сравнение с

образцом. Такой вид проверки можно использовать, например, чтобы удостовериться, что все записи в поле – электронные адреса. Для этого используются, так называемые, “регулярные выражения” (regular expressions – regex) с помощью которых вы задаете шаблон выражения. Способ, которым вы задаете шаблон варьируется от используемого программного обеспечения, но на сегодняшний день присутствует практически в любых системах. Примеры регулярных выражений:
*@*.ru
DDD.DD

Анализ данных. Подготовка данных

Кафедра информационно-аналитических систем

Слайд 22

Устранение дубликатов
Одна из проблем, решаемая на этапе очистки данных, это устранение дубликатов.

Дубликаты могут появляться в исходных данных по причине разного рода технических сбоев и могут быть причиной получения неверных результатов при последующем агрегировании данных. Пример:

Анализ данных. Подготовка данных

Кафедра информационно-аналитических систем

Слайд 23

Контроль диапазонов
Анализ данных. Подготовка данных
Кафедра информационно-аналитических систем
Контроль диапазонов − это на первый

взгляд очень простая процедура, которую мы используем в числовых полях, чтобы увидеть, находятся ли какие-либо значения в этом наборе данных выше или ниже крайних допустимых значений для этой переменной. Возьмем для примера оценки за домашнее задание. Представьте, что вы − преподаватель и внесли первую партию оценок за домашние работы за семестр. Вы хотите убедиться, что все внесено верно, поэтому открываете базу данных и сортируете ее по колонке с оценками за домашнюю работу, оцененную по шкале от 0 до 100. Вот как выглядят первые строки:

Слайд 24

Пример (контроль диапазонов)

Анализ данных. Подготовка данных
Кафедра информационно-аналитических систем
Вот как выглядят

первые строки отсортированной таблицы с отметками:

Вот как выглядят последние строки таблицы:

Слайд 25

Анализ данных. Подготовка данных
Контроль диапазонов
Кафедра информационно-аналитических систем
В примере с оценками визуального

анализа вполне достаточно для обнаружения и последующего исправления <криминальных> случаев. Как быть, когда данных значительно больше и они не так очевидны по содержанию? Как обнаружить редкие, но тем не менее существующие, так называемые, <выбросы данных>? И тут оказывается, что все не так просто, а в математической статистике для этого есть подходящие понятия дисперсии, стандартного отклонения и неравенство Чебышева.

Слайд 26

Анализ данных. Подготовка данных
Дисперсия
Кафедра информационно-аналитических систем
Дисперсия выборки – среднее арифметическое

квадратов отклонений значений выборки от выборочного среднего. Вычисляется по формуле:

Слайд 27

Пример (вычисление дисперсии)
Анализ данных. Подготовка данных
Кафедра информационно-аналитических систем

Слайд 28

Стандартное отклонение

Анализ данных. Подготовка данных
Кафедра информационно-аналитических систем

Стандартное отклонение вычисляется как корень

квадратный из дисперсии:

Стандартное отклонение имеет исключительную важность для
описания распределения данных.

Слайд 29

Неравенство Чебышева
Анализ данных. Подготовка данных
Кафедра информационно-аналитических систем
Для интерпретации стандартного отклонения используют неравенство

Чебышева. Оно имеет следующую трактовку:
В любой совокупности данных доля значений, попадающих в интервал

будет равна, по крайней мере,

где k - любое число, большее 1.

Слайд 30

Интерпретация стандартного отклонения
Анализ данных. Подготовка данных
Кафедра информационно-аналитических систем
Можно утверждать, что интервал с

границами

содержит, по крайней мере, 3/4 всех данных (75%).
Интервал с границами

содержит, по крайней мере, 8/9 всех данных (89,9%).
Значения, которые не попадают в интервал, можно считать выбросами.

Слайд 31

Интерпретация стандартного отклонения
Анализ данных. Подготовка данных
Кафедра информационно-аналитических систем
В математической статистике доказывают что….

Слайд 32

Для нормального распределения данных…
Анализ данных. Подготовка данных
Кафедра информационно-аналитических систем

Слайд 33

Контроль диапазонов (итоги)
Для определения выбросов используется понятие стандартного отклонения. Как правило –

достаточно коэффициента k равного 3. Что делать с пропущенными значениями после исключения выбросов? Аппроксимировать их как средние или (для временных рядов) с помощью ближайших соседей (например, предыдущее и последующее значения).

Анализ данных. Подготовка данных

Кафедра информационно-аналитических систем

Слайд 34

Основные этапы подготовки данных – подведем итог
Загрузка данных в хранилища
Разделение данных
Приведение данных

к одинаковым единицам измерения
Преобразование к унифицированной лексике
Объединение данных из разных источников
Соединение данных из разных источников
Заполнение отсутствующих значений
Очистка данных (контроль диапазонов,сравнение с образцом/регулярные выражения, сочетание полей, устранение дубликатов)

Анализ данных. Подготовка данных

Кафедра информационно-аналитических си.стем

Слайд 35

Анализ данных. Подготовка данных
Рассчитайте дисперсию, стандартное отклонение, а затем определите выбросы в

одном из своих dataset (желательно для данных с нормальным распределением). Аппроксимируйте значения после удаления выбросов. Визуализируйте результат (что было и что стало).
Примечание: Срок сдачи: 2 недели с момента выдачи. Задание отправлять по адреcу: [email protected].
Topic: DataMining_2018_job3

Кафедра информационно-аналитических систем

Задание 3

Анализ данных. Подготовка данных

Содержание

Основные этапы подготовки данныхЗагрузка данных в хранилищаРазделение данныхПриведение данных к одинаковым единицам

Анализ данных. Подготовка данных Загрузка данных в хранилищаКафедра информационно-аналитических системКак правило, в системах

Анализ данных. Подготовка данныхРазделение данныхКафедра информационно-аналитических системПростой пример задачи, с которой сталкиваются

Анализ данных. Подготовка данныхДанные, также требующие разделения…Кафедра информационно-аналитических систем

Пример (разнообразие имен из реального хранилища)Анализ данных. Подготовка данныхКафедра информационно-аналитических систем

Анализ данных. Подготовка данныхКафедра информационно-аналитических системПреобразование данных к одинаковым единицам измеренияЕще один

Анализ данных. Подготовка данныхКафедра информационно-аналитических системПример преобразование данных к одинаковым единицам измерения

Преобразование к унифицированной лексикеАнализ данных. Подготовка данныхКафедра информационно-аналитических системОдной из самых трудоемких

Анализ данных. Подготовка данныхКафедра информационно-аналитических системПример преобразования к унифицированной лексике

Анализ данных. Подготовка данныхОбъединение данных из разных источниковКафедра информационно-аналитических систем

Анализ данных. Подготовка данныхОбъединение данных из разных источников. Вариант 1Кафедра информационно-аналитических систем

Анализ данных. Подготовка данныхОбъединение данных из разных источников. Вариант 2Кафедра информационно-аналитических систем

Анализ данных. Подготовка данныхСоединение данных из разных источниковПервая проблема – соответствие полей.

Анализ данных. Подготовка данныхПример соединения данных из разных источниковКафедра информационно-аналитических систем

Заполнение отсутствующих численных значений Анализ данных. Подготовка данныхКафедра информационно-аналитических системОдна из самых

Аппроксимация пропущенных значений В большинстве случаев (особенно во временных рядах) аппроксимация пропущенных

Пример (пропущенные значения) Анализ данных. Подготовка данныхКафедра информационно-аналитических систем

Очистка данныхАнализ данных. Подготовка данныхКафедра информационно-аналитических системКак правило, очистка данных может быть

Сочетание полейДля проверки данных можно также использовать сочетание полей. Иногда это действительно

Сравнение с образцом/Регулярные выраженияДругой тип проверки данных, включает в себя сравнение с

Устранение дубликатовОдна из проблем, решаемая на этапе очистки данных, это устранение дубликатов.

Контроль диапазоновАнализ данных. Подготовка данныхКафедра информационно-аналитических системКонтроль диапазонов − это на первый

Пример (контроль диапазонов) Анализ данных. Подготовка данныхКафедра информационно-аналитических системВот как выглядят

Анализ данных. Подготовка данныхКонтроль диапазонов Кафедра информационно-аналитических системВ примере с оценками визуального

Анализ данных. Подготовка данныхДисперсия Кафедра информационно-аналитических систем Дисперсия выборки – среднее арифметическое

Пример (вычисление дисперсии)Анализ данных. Подготовка данныхКафедра информационно-аналитических систем

Стандартное отклонение Анализ данных. Подготовка данныхКафедра информационно-аналитических систем Стандартное отклонение вычисляется как корень

Интерпретация стандартного отклоненияАнализ данных. Подготовка данныхКафедра информационно-аналитических системМожно утверждать, что интервал с

Интерпретация стандартного отклоненияАнализ данных. Подготовка данныхКафедра информационно-аналитических системВ математической статистике доказывают что….

Для нормального распределения данных…Анализ данных. Подготовка данныхКафедра информационно-аналитических систем

Контроль диапазонов (итоги)Для определения выбросов используется понятие стандартного отклонения. Как правило –

Основные этапы подготовки данных – подведем итогЗагрузка данных в хранилищаРазделение данныхПриведение данных

Анализ данных. Подготовка данныхРассчитайте дисперсию, стандартное отклонение, а затем определите выбросы в

Похожие презентации

Основные этапы подготовки данных
Загрузка данных в хранилища
Разделение данных
Приведение данных к одинаковым единицам

Анализ данных. Подготовка данных
Загрузка данных в хранилища
Кафедра информационно-аналитических систем
Как правило, в системах

Анализ данных. Подготовка данных
Разделение данных
Кафедра информационно-аналитических систем
Простой пример задачи, с которой сталкиваются

Анализ данных. Подготовка данных
Данные, также требующие разделения…
Кафедра информационно-аналитических систем

Пример (разнообразие имен из реального хранилища)
Анализ данных. Подготовка данных
Кафедра информационно-аналитических систем

Анализ данных. Подготовка данных
Кафедра информационно-аналитических систем
Преобразование данных к одинаковым единицам измерения
Еще один

Анализ данных. Подготовка данных
Кафедра информационно-аналитических систем
Пример преобразование данных к одинаковым единицам измерения

Преобразование к унифицированной лексике
Анализ данных. Подготовка данных
Кафедра информационно-аналитических систем
Одной из самых трудоемких

Анализ данных. Подготовка данных
Кафедра информационно-аналитических систем
Пример преобразования к унифицированной лексике

Анализ данных. Подготовка данных
Объединение данных из разных источников
Кафедра информационно-аналитических систем

Анализ данных. Подготовка данных
Объединение данных из разных источников. Вариант 1
Кафедра информационно-аналитических систем

Анализ данных. Подготовка данных
Объединение данных из разных источников. Вариант 2
Кафедра информационно-аналитических систем

Анализ данных. Подготовка данных
Соединение данных из разных источников
Первая проблема – соответствие полей.

Анализ данных. Подготовка данных
Пример соединения данных из разных источников
Кафедра информационно-аналитических систем

Заполнение отсутствующих численных значений
Анализ данных. Подготовка данных
Кафедра информационно-аналитических систем
Одна из самых

Аппроксимация пропущенных значений
В большинстве случаев (особенно во временных рядах) аппроксимация пропущенных

Пример (пропущенные значения)
Анализ данных. Подготовка данных
Кафедра информационно-аналитических систем

Очистка данных
Анализ данных. Подготовка данных
Кафедра информационно-аналитических систем
Как правило, очистка данных может быть

Сочетание полей
Для проверки данных можно также использовать сочетание полей. Иногда это действительно

Сравнение с образцом/Регулярные выражения
Другой тип проверки данных, включает в себя сравнение с

Устранение дубликатов
Одна из проблем, решаемая на этапе очистки данных, это устранение дубликатов.

Контроль диапазонов
Анализ данных. Подготовка данных
Кафедра информационно-аналитических систем
Контроль диапазонов − это на первый

Пример (контроль диапазонов)

Анализ данных. Подготовка данных
Кафедра информационно-аналитических систем
Вот как выглядят

Анализ данных. Подготовка данных
Контроль диапазонов
Кафедра информационно-аналитических систем
В примере с оценками визуального

Анализ данных. Подготовка данных
Дисперсия
Кафедра информационно-аналитических систем
Дисперсия выборки – среднее арифметическое

Пример (вычисление дисперсии)
Анализ данных. Подготовка данных
Кафедра информационно-аналитических систем

Стандартное отклонение

Анализ данных. Подготовка данных
Кафедра информационно-аналитических систем

Стандартное отклонение вычисляется как корень

Интерпретация стандартного отклонения
Анализ данных. Подготовка данных
Кафедра информационно-аналитических систем
Можно утверждать, что интервал с

Для нормального распределения данных…
Анализ данных. Подготовка данных
Кафедра информационно-аналитических систем

Контроль диапазонов (итоги)
Для определения выбросов используется понятие стандартного отклонения. Как правило –

Основные этапы подготовки данных – подведем итог
Загрузка данных в хранилища
Разделение данных
Приведение данных

Анализ данных. Подготовка данных
Рассчитайте дисперсию, стандартное отклонение, а затем определите выбросы в