Анализ данных. Основные принципы

Содержание

Слайд 2

Последовательность работы


Анализ данных. Основные принципы

Кафедра информационно-аналитических систем

Последовательность работы Анализ данных. Основные принципы Кафедра информационно-аналитических систем

Слайд 3

Способы анализа данных

Главным лицом в процессе анализа является эксперт – специалист в

Способы анализа данных Главным лицом в процессе анализа является эксперт – специалист
предметной области.
Несмотря на то, что существует большое количество аналитических задач, методы их решения можно поделить на две категории:
извлечение, агрегирование и визуализация данных
построение и использование моделей

Анализ данных. Основные принципы

Кафедра информационно-аналитических систем

Слайд 4

Общая схема анализа

Анализ данных. Основные принципы

Кафедра информационно-аналитических систем

Общая схема анализа Анализ данных. Основные принципы Кафедра информационно-аналитических систем

Слайд 5

Визуализация данных

Эксперт формулирует запросы к имеющимся данным, возможно, агрегирует результаты запросов и

Визуализация данных Эксперт формулирует запросы к имеющимся данным, возможно, агрегирует результаты запросов
отображает в виде:
графиков, диаграмм, гистограмм,таблиц, схем, карт и т.п.
Как ни странно – эти простые методы иногда неплохо работают.
Далее – 2 примера (локализация очага холеры в Лондоне в 1854 г. и визуализация причин смертельных случаев в Крымской войне 1855 г.)

Анализ данных. Основные принципы

Кафедра информационно-аналитических систем

Слайд 6

Пример (карта распространения холеры в Лондоне, составленная в 1854 году эпидемиологом Джоном

Пример (карта распространения холеры в Лондоне, составленная в 1854 году эпидемиологом Джоном
Сноу)

Анализ данных. Основные принципы

Кафедра информационно-аналитических систем

Слайд 7

Пример (диаграмма, составленная медсестрой Флоренс Найнтингейл в 1855 году)

Анализ данных. Основные принципы

Кафедра

Пример (диаграмма, составленная медсестрой Флоренс Найнтингейл в 1855 году) Анализ данных. Основные принципы Кафедра информационно-аналитических систем
информационно-аналитических систем

Слайд 8

Достоинства и недостатки визуализации

Достоинства:
Простота создания
Внятная интерпретация результатов
Недостатки:
Нет возможности для

Достоинства и недостатки визуализации Достоинства: Простота создания Внятная интерпретация результатов Недостатки: Нет
анализа сложных закономерностей
Зависит от профессионализма эксперта
Нет возможности для тиражирования

Анализ данных. Основные принципы

Кафедра информационно-аналитических систем

Слайд 9

Построение моделей

Анализ данных. Основные принципы

Кафедра информационно-аналитических систем

Построение моделей является достаточно универсальным способом

Построение моделей Анализ данных. Основные принципы Кафедра информационно-аналитических систем Построение моделей является
для решения многих аналитических задач. Этот способ дает возможность прогнозировать, разбивать на группы и т.п. Но самое главное – он позволяет в дальнейшем тиражировать модели для аналогичных случаев.

Слайд 10

Методика извлечения знаний

Несмотря на большое количество разнообразных бизнес-задач почти все они решаются

Методика извлечения знаний Несмотря на большое количество разнообразных бизнес-задач почти все они
по единой методике. Эта методика называется Knowledge Discovery in Databases. Она описывает не конкретный алгоритм или математический аппарат, а последовательность действий, которую необходимо выполнить для построения модели (извлечения знания). Данная методика не зависит от предметной области, это набор атомарных операций, комбинируя которые можно получить нужное решение.

Анализ данных. Основные принципы

Кафедра информационно-аналитических систем

Слайд 11

Анализ данных. Основные принципы

Knowledge Discovery in Databases

Кафедра информационно-аналитических систем

Анализ данных. Основные принципы Knowledge Discovery in Databases Кафедра информационно-аналитических систем

Слайд 12

Анализ данных. Основные принципы

Первым шагом в анализе является получение исходной выборки. На

Анализ данных. Основные принципы Первым шагом в анализе является получение исходной выборки.
основе этих данных и строятся модели. На этом шаге необходимо активное участие эксперта для выдвижения гипотез и отбора факторов, влияющих на анализируемый процесс. Желательно, чтобы данные были уже собраны и консолидированы. Крайне необходимо наличие удобных механизмов подготовки выборок. В качестве источника рекомендуется использовать специализированное хранилище данных, агрегирующее всю необходимую для анализа информацию.

KDD – выборка данных

Кафедра информационно-аналитических систем

Слайд 13

KDD – очистка данных

Реальные данные для анализа редко бывают хорошего качества.

KDD – очистка данных Реальные данные для анализа редко бывают хорошего качества.
Необходимость предварительной обработки при анализе данных возникает независимо от того, какие технологии и алгоритмы используются. Более того, эта задача может представлять самостоятельную ценность в областях, не имеющих непосредственного отношения к анализу данных. К задачам очистки относятся:
Заполнение пропусков и редактирование аномалий
Сглаживание, очистка от шумов
Редактирование дубликатов и противоречий
Устранение незначащих факторов и прочее…

Анализ данных. Основные принципы

Кафедра информационно-аналитических систем

Слайд 14

KDD – трансформация данных

Анализ данных. Основные принципы

Кафедра информационно-аналитических систем

Трансформация данных – последний

KDD – трансформация данных Анализ данных. Основные принципы Кафедра информационно-аналитических систем Трансформация
этап перед, собственно, анализом. Различные алгоритмы анализа требуют специальным образом подготовленные данные, например, для прогнозирования необходимо преобразовать временной ряд при помощи скользящего окна. Задачи трансформации данных:
Нормализация данных
Агрегирование данных по скользящему окну
Приведение типов
Выделение временных интервалов
Преобразование непрерывных значений в дискретные и наоборот
Сортировка, группировка, агрегация и прочее…

Слайд 15

KDD – Data Mining

Data Mining – это процесс обнаружения в «сырых» данных,

KDD – Data Mining Data Mining – это процесс обнаружения в «сырых»
ранее неизвестных и нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Информация, найденная в процессе применения методов Data Mining, должна быть нетривиальной и ранее неизвестной, например, средние продажи не являются таковыми. Знания должны описывать новые связи между свойствами, предсказывать значения одних признаков на основе других.

Анализ данных. Основные принципы

Кафедра информационно-аналитических систем

Слайд 16

KDD – интерпретация

Анализ данных. Основные принципы

Кафедра информационно-аналитических систем

В случае, когда извлеченные

KDD – интерпретация Анализ данных. Основные принципы Кафедра информационно-аналитических систем В случае,
знания непрозрачны для пользователя, должны существовать методы постобработки, позволяющие привести их к интерпретируемому виду. Для оценки качества полученной модели нужно использовать как формальные методы оценки (всевозможные метрики), так и знания эксперта. Полученные модели являются по сути формализованными знаниями эксперта, поэтому их можно и нужно тиражировать.

Слайд 17

Достоинства и недостатки моделей

Достоинства:
Возможность тиражирования знаний
Обработка огромных объемов данных
Обнаружение

Достоинства и недостатки моделей Достоинства: Возможность тиражирования знаний Обработка огромных объемов данных
нетривиальных закономерностей
Формализация процесса принятия решений
Недостатки:
Строгие требования к качеству и количеству данных
Неспособность анализировать нестандартные случаи
Высокие требования к знаниям эксперта.

Анализ данных. Основные принципы

Кафедра информационно-аналитических систем

Слайд 18

Аналитическая система

Наиболее оптимальной с точки зрения гибкости, возможностей и простоты использования является

Аналитическая система Наиболее оптимальной с точки зрения гибкости, возможностей и простоты использования
аналитическая система состоящая из хранилища данных, механизмов визуализации и методов построения моделей. Подобная система позволяет комбинировать подходы к анализу данных. На стыке использования различных методов анализа получаются наиболее интересные результаты.

Анализ данных. Основные принципы

Кафедра информационно-аналитических систем

Слайд 19

Решаемые бизнес-задачи

Подавляющее большинство бизнес-задач сводится к комбинированию описанных методов. Фактически, ранее

Решаемые бизнес-задачи Подавляющее большинство бизнес-задач сводится к комбинированию описанных методов. Фактически, ранее
были описаны базовые блоки, из которых собирается практически любое бизнес-решение:
План-факторный анализ – визуализация данных
Прогнозирование – задача регрессии.
Управление рисками – регрессия, кластеризация и классификация.
Стимулирование спроса – кластеризация, ассоциация
Оценка эластичности спроса – регрессия.
Выявление предпочтений клиентов – последовательность, кластеризация…

Анализ данных. Основные принципы

Кафедра информационно-аналитических си.стем