Анализ данных. Подготовка данных

Содержание

Слайд 2

Основные этапы подготовки данных
Загрузка данных в хранилища
Разделение данных
Приведение данных к одинаковым единицам

Основные этапы подготовки данных Загрузка данных в хранилища Разделение данных Приведение данных
измерения
Преобразование к унифицированной лексике
Объединение данных из разных источников
Соединение данных из разных источников
Заполнение отсутствующих значений
Очистка данных (устранение дубликатов, проверка шаблонов, контроль диапазонов)


Анализ данных.Подготовка данных

Кафедра информационно-аналитических систем

Слайд 3

Анализ данных. Подготовка данных

Загрузка данных в хранилища

Кафедра информационно-аналитических систем

Как правило, в системах

Анализ данных. Подготовка данных Загрузка данных в хранилища Кафедра информационно-аналитических систем Как
хранения данных существуют специальные утилиты, ориентированные на загрузку данных из внешних источников. Однако, даже на этом, казалось бы простейшем, этапе исследователя могут ожидать многочисленные сюрпризы: например, нечитаемые символы, типы данных не соответствующие обещанным спецификациям и т.п. Рекомендации:
Вычистить из исходных файлов все нечитаемые символы;
Записать все исходные данные как текстовые поля (с типами разбираться потом после загрузки в хранилище).
Саму загрузку (если данных действительно много) проводить непосредственно на сервере, где расположено хранилище.

Слайд 4

Анализ данных. Подготовка данных

Разделение данных

Кафедра информационно-аналитических систем

Простой пример задачи, с которой сталкиваются

Анализ данных. Подготовка данных Разделение данных Кафедра информационно-аналитических систем Простой пример задачи,
многие люди, − это разделение имен и фамилий (или адресов). У вас может быть база данных, где имена и фамилии прописаны в одной ячейке, а вам нужно их отделить друг от друга. Или у вас уже могут быть отдельные ячейки для имен и фамилий, но в некоторых случаях имена с фамилиями все равно записаны вместе. Например:

Слайд 5

Анализ данных. Подготовка данных

Данные, также требующие разделения…

Кафедра информационно-аналитических систем

Анализ данных. Подготовка данных Данные, также требующие разделения… Кафедра информационно-аналитических систем

Слайд 6

Пример (разнообразие имен из реального хранилища)

Анализ данных. Подготовка данных

Кафедра информационно-аналитических систем

Пример (разнообразие имен из реального хранилища) Анализ данных. Подготовка данных Кафедра информационно-аналитических систем

Слайд 7

Анализ данных. Подготовка данных

Кафедра информационно-аналитических систем

Преобразование данных к одинаковым единицам измерения

Еще один

Анализ данных. Подготовка данных Кафедра информационно-аналитических систем Преобразование данных к одинаковым единицам
важный момент при подготовке данных − проверить, чтобы все данные в одной колонке были представлены в одинаковых единицах. Например, у вас могут быть медицинские данные из разных стран, где в одних странах вес измерен в фунтах, а в других − в килограммах. Важно конвертировать все числа или в килограммы, или в фунты, чтобы они измерялись по одной шкале, иначе их нельзя будет сравнивать и агрегировать, и какую бы вы не делали визуализацию таких необработанных данных, она будет выглядеть довольно странно. Например:

Слайд 8

Анализ данных. Подготовка данных

Кафедра информационно-аналитических систем

Пример преобразование данных к одинаковым единицам измерения

Анализ данных. Подготовка данных Кафедра информационно-аналитических систем Пример преобразование данных к одинаковым единицам измерения

Слайд 9

Преобразование к унифицированной лексике

Анализ данных. Подготовка данных

Кафедра информационно-аналитических систем

Одной из самых трудоемких

Преобразование к унифицированной лексике Анализ данных. Подготовка данных Кафедра информационно-аналитических систем Одной
задач при очистке данных является работа с несовместимой информацией. Например, одно из текстовых полей в исходных данных содержит сведения о профильной дисциплине студентов. Один студент может ответить «Инф-ка», другой − «Информатика», а третий − «Информ-ка». Даже если вы знаете, что все эти ответы обозначают одну и ту же дисциплину, они крайне ограничат возможности для агрегирования и могут привести к неадекватным результатам. Необходимо преобразовывать данные к унифицированной лексике.

Слайд 10

Анализ данных. Подготовка данных

Кафедра информационно-аналитических систем

Пример преобразования к унифицированной лексике

Анализ данных. Подготовка данных Кафедра информационно-аналитических систем Пример преобразования к унифицированной лексике

Слайд 11

Анализ данных. Подготовка данных

Объединение данных из разных источников

Кафедра информационно-аналитических систем

Анализ данных. Подготовка данных Объединение данных из разных источников Кафедра информационно-аналитических систем

Слайд 12

Анализ данных. Подготовка данных

Объединение данных из разных источников. Вариант 1

Кафедра информационно-аналитических систем

Анализ данных. Подготовка данных Объединение данных из разных источников. Вариант 1 Кафедра информационно-аналитических систем

Слайд 13

Анализ данных. Подготовка данных

Объединение данных из разных источников. Вариант 2

Кафедра информационно-аналитических систем

Анализ данных. Подготовка данных Объединение данных из разных источников. Вариант 2 Кафедра информационно-аналитических систем

Слайд 14

Анализ данных. Подготовка данных

Соединение данных из разных источников
Первая проблема – соответствие полей.

Анализ данных. Подготовка данных Соединение данных из разных источников Первая проблема –
Так же, как это было в задаче объединения данных из разных источников, необходимо исследовать соответствие полей и преобразовать названия к единому стилю.
Вторая проблема – преобразование данных в различных источниках к единым шкалам, единицам измерения и унифицированной лексике.
Третья проблема – идентификация данных, относящихся к одному и тому же объекту (например, выявление данных, про одного и того же покупателя в разных супермаркетах).
И наконец, сами источники данных могут быть представлены в виде структур различных форматов (таблицы, JSON, XML и т.п.).

Кафедра информационно-аналитических систем

Слайд 15

Анализ данных. Подготовка данных

Пример соединения данных из разных источников

Кафедра информационно-аналитических систем

Анализ данных. Подготовка данных Пример соединения данных из разных источников Кафедра информационно-аналитических систем

Слайд 16

Заполнение отсутствующих численных значений

Анализ данных. Подготовка данных

Кафедра информационно-аналитических систем

Одна из самых

Заполнение отсутствующих численных значений Анализ данных. Подготовка данных Кафедра информационно-аналитических систем Одна
раздражающих проблем при работе с данными − пустые или не полностью заполненные поля. Если данные просто не были собраны, возможно, вы сможете вернуться к источнику и заполнить пробелы, но возможно, что у вас больше не будет доступа к этому источнику. Например, это показания датчиков, и никаких других данных просто не будет. Есть два подхода при работе с такими данными:
Выделение таких полей специальными значениями (и исключение их из дальнейшего анализа).
Аппроксимация пропущенных значений на основе исторических данных.

Слайд 17

Аппроксимация пропущенных значений

В большинстве случаев (особенно во временных рядах) аппроксимация пропущенных

Аппроксимация пропущенных значений В большинстве случаев (особенно во временных рядах) аппроксимация пропущенных
значений осуществляется за счет определения ближайших соседей и вычисления их среднего значения. Однако в некоторых случаях приходится пользоваться значительно менее стандартными алгоритмами. Например, при прохождении маршрута были потеряны сведения о времени прохождения нескольких последовательных остановок. Надо восстановить это время на основе исторических данных и временам, зафиксированным до потери и после.

Анализ данных. Подготовка данных

Кафедра информационно-аналитических систем

Слайд 18

Пример (пропущенные значения)

Анализ данных. Подготовка данных

Кафедра информационно-аналитических систем

Пример (пропущенные значения) Анализ данных. Подготовка данных Кафедра информационно-аналитических систем

Слайд 19

Очистка данных

Анализ данных. Подготовка данных

Кафедра информационно-аналитических систем

Как правило, очистка данных может быть

Очистка данных Анализ данных. Подготовка данных Кафедра информационно-аналитических систем Как правило, очистка
сведена к выполнению следующих работ:
проверка сочетания полей
сравнение с образцом/регулярные выражения
устранение дубликатов
контроль диапазонов

Слайд 20

Сочетание полей

Для проверки данных можно также использовать сочетание полей. Иногда это действительно

Сочетание полей Для проверки данных можно также использовать сочетание полей. Иногда это
необходимо, потому что нужно взглянуть на все поля в записи, чтобы определить одно или несколько неправильных. Представьте, что вы получили данные медицинского обследования пациентов в больнице и отслеживаете принимаемые ежедневно лекарства, используя три отдельных поля для данных: название лекарства, назначенная доза и единица измерения дозы препарата. То есть, если в наборе данных указано «Аспирин, 500, мг», значит, что пациент ежедневно принимал 500 мг аспирина. Теперь представьте, что вы получили запись “Морфин, 200, фунт”. Какой будет ваша реакция? Необходимо предусмотреть правила целостности, которые не допустят использование таких данных.

Анализ данных. Подготовка данных

Кафедра информационно-аналитических систем

Слайд 21

Сравнение с образцом/Регулярные выражения

Другой тип проверки данных, включает в себя сравнение с

Сравнение с образцом/Регулярные выражения Другой тип проверки данных, включает в себя сравнение
образцом. Такой вид проверки можно использовать, например, чтобы удостовериться, что все записи в поле – электронные адреса. Для этого используются, так называемые, “регулярные выражения” (regular expressions – regex) с помощью которых вы задаете шаблон выражения. Способ, которым вы задаете шаблон варьируется от используемого программного обеспечения, но на сегодняшний день присутствует практически в любых системах. Примеры регулярных выражений:
*@*.ru
DDD.DD

Анализ данных. Подготовка данных

Кафедра информационно-аналитических систем

Слайд 22

Устранение дубликатов

Одна из проблем, решаемая на этапе очистки данных, это устранение дубликатов.

Устранение дубликатов Одна из проблем, решаемая на этапе очистки данных, это устранение
Дубликаты могут появляться в исходных данных по причине разного рода технических сбоев и могут быть причиной получения неверных результатов при последующем агрегировании данных. Пример:

Анализ данных. Подготовка данных

Кафедра информационно-аналитических систем

Слайд 23

Контроль диапазонов

Анализ данных. Подготовка данных

Кафедра информационно-аналитических систем

Контроль диапазонов − это на первый

Контроль диапазонов Анализ данных. Подготовка данных Кафедра информационно-аналитических систем Контроль диапазонов −
взгляд очень простая процедура, которую мы используем в числовых полях, чтобы увидеть, находятся ли какие-либо значения в этом наборе данных выше или ниже крайних допустимых значений для этой переменной. Возьмем для примера оценки за домашнее задание. Представьте, что вы − преподаватель и внесли первую партию оценок за домашние работы за семестр. Вы хотите убедиться, что все внесено верно, поэтому открываете базу данных и сортируете ее по колонке с оценками за домашнюю работу, оцененную по шкале от 0 до 100. Вот как выглядят первые строки:

Слайд 24

Пример (контроль диапазонов)


Анализ данных. Подготовка данных

Кафедра информационно-аналитических систем

Вот как выглядят

Пример (контроль диапазонов) Анализ данных. Подготовка данных Кафедра информационно-аналитических систем Вот как
первые строки отсортированной таблицы с отметками:

Вот как выглядят последние строки таблицы:

Слайд 25

Анализ данных. Подготовка данных

Контроль диапазонов

Кафедра информационно-аналитических систем

В примере с оценками визуального

Анализ данных. Подготовка данных Контроль диапазонов Кафедра информационно-аналитических систем В примере с
анализа вполне достаточно для обнаружения и последующего исправления <криминальных> случаев. Как быть, когда данных значительно больше и они не так очевидны по содержанию? Как обнаружить редкие, но тем не менее существующие, так называемые, <выбросы данных>? И тут оказывается, что все не так просто, а в математической статистике для этого есть подходящие понятия дисперсии, стандартного отклонения и неравенство Чебышева.

Слайд 26

Анализ данных. Подготовка данных

Дисперсия

Кафедра информационно-аналитических систем

Дисперсия выборки – среднее арифметическое

Анализ данных. Подготовка данных Дисперсия Кафедра информационно-аналитических систем Дисперсия выборки – среднее
квадратов отклонений значений выборки от выборочного среднего. Вычисляется по формуле:

Слайд 27

Пример (вычисление дисперсии)

Анализ данных. Подготовка данных

Кафедра информационно-аналитических систем

Пример (вычисление дисперсии) Анализ данных. Подготовка данных Кафедра информационно-аналитических систем

Слайд 28

Стандартное отклонение


Анализ данных. Подготовка данных

Кафедра информационно-аналитических систем


Стандартное отклонение вычисляется как корень

Стандартное отклонение Анализ данных. Подготовка данных Кафедра информационно-аналитических систем Стандартное отклонение вычисляется
квадратный из дисперсии:

Стандартное отклонение имеет исключительную важность для
описания распределения данных.

Слайд 29

Неравенство Чебышева

Анализ данных. Подготовка данных

Кафедра информационно-аналитических систем

Для интерпретации стандартного отклонения используют неравенство

Неравенство Чебышева Анализ данных. Подготовка данных Кафедра информационно-аналитических систем Для интерпретации стандартного
Чебышева. Оно имеет следующую трактовку:
В любой совокупности данных доля значений, попадающих в интервал

будет равна, по крайней мере,

где k - любое число, большее 1.

Слайд 30

Интерпретация стандартного отклонения

Анализ данных. Подготовка данных

Кафедра информационно-аналитических систем

Можно утверждать, что интервал с

Интерпретация стандартного отклонения Анализ данных. Подготовка данных Кафедра информационно-аналитических систем Можно утверждать,
границами

содержит, по крайней мере, 3/4 всех данных (75%).
Интервал с границами

содержит, по крайней мере, 8/9 всех данных (89,9%).
Значения, которые не попадают в интервал, можно считать выбросами.

Слайд 31

Интерпретация стандартного отклонения

Анализ данных. Подготовка данных

Кафедра информационно-аналитических систем

В математической статистике доказывают что….

Интерпретация стандартного отклонения Анализ данных. Подготовка данных Кафедра информационно-аналитических систем В математической статистике доказывают что….

Слайд 32

Для нормального распределения данных…

Анализ данных. Подготовка данных

Кафедра информационно-аналитических систем

Для нормального распределения данных… Анализ данных. Подготовка данных Кафедра информационно-аналитических систем

Слайд 33

Контроль диапазонов (итоги)

Для определения выбросов используется понятие стандартного отклонения. Как правило –

Контроль диапазонов (итоги) Для определения выбросов используется понятие стандартного отклонения. Как правило
достаточно коэффициента k равного 3. Что делать с пропущенными значениями после исключения выбросов? Аппроксимировать их как средние или (для временных рядов) с помощью ближайших соседей (например, предыдущее и последующее значения).

Анализ данных. Подготовка данных

Кафедра информационно-аналитических систем

Слайд 34

Основные этапы подготовки данных – подведем итог

Загрузка данных в хранилища
Разделение данных
Приведение данных

Основные этапы подготовки данных – подведем итог Загрузка данных в хранилища Разделение
к одинаковым единицам измерения
Преобразование к унифицированной лексике
Объединение данных из разных источников
Соединение данных из разных источников
Заполнение отсутствующих значений
Очистка данных (контроль диапазонов,сравнение с образцом/регулярные выражения, сочетание полей, устранение дубликатов)

Анализ данных. Подготовка данных

Кафедра информационно-аналитических си.стем

Слайд 35

Анализ данных. Подготовка данных

Рассчитайте дисперсию, стандартное отклонение, а затем определите выбросы в

Анализ данных. Подготовка данных Рассчитайте дисперсию, стандартное отклонение, а затем определите выбросы
одном из своих dataset (желательно для данных с нормальным распределением). Аппроксимируйте значения после удаления выбросов. Визуализируйте результат (что было и что стало).
Примечание: Срок сдачи: 2 недели с момента выдачи. Задание отправлять по адреcу: N.Grafeeva@spbu.ru.
Topic: DataMining_2018_job3

Кафедра информационно-аналитических систем

Задание 3

Имя файла: Анализ-данных.-Подготовка-данных.pptx
Количество просмотров: 36
Количество скачиваний: 0