Анализ данных. Введение

Содержание

Слайд 2

ПРОБЛЕМА

Современные информационные системы собирают гигантские объемы данных. Сбор данных без последующего глубокого

ПРОБЛЕМА Современные информационные системы собирают гигантские объемы данных. Сбор данных без последующего
анализа не позволяет использовать максимум имеющейся информации. В результате возникает парадоксальная ситуация – данных много, а пользы от них мало. Только применение полноценной аналитики позволяет трансформировать данные в реальные знания.

Анализ данных

Кафедра информационно-аналитических систем

Слайд 3

Простые методы анализа

Вычисление разнообразных статистических показателей
создание специализированных аналитических отчетов
построение разнообразных графиков и

Простые методы анализа Вычисление разнообразных статистических показателей создание специализированных аналитических отчетов построение
диаграмм
использование OLAP-инструментов для оперативного вычисления статистики

Анализ данных

Кафедра информационно-аналитических систем

Слайд 4

Глубокий анализ данных

Реальный бизнес характеризуется сложными зависимостями, большими объемами данных, быстрыми изменениями.

Глубокий анализ данных Реальный бизнес характеризуется сложными зависимостями, большими объемами данных, быстрыми
Технологии глубокого анализа позволяют выявлять в огромных объемах данных нетривиальные закономерности и превращать знания в конкурентные преимущества.

Анализ данных

Кафедра информационно-аналитических систем

Слайд 5

Понятие Data Mining

Data Mining – это процесс обнаружения в больших базах данных

Понятие Data Mining Data Mining – это процесс обнаружения в больших базах
нетривиальных и практически полезных закономерностей.

Анализ данных

Кафедра информационно-аналитических систем

Слайд 6

Сравнение формулировок задач OLAP и Data Mining

Какова средняя величина ежедневных покупок по

Сравнение формулировок задач OLAP и Data Mining Какова средняя величина ежедневных покупок
украденной и не украденной кредитной карточке? (OLAP)
Существуют ли стереотипные схемы покупок для случаев мошенничества с кредитными карточками? (Data Mining)

Анализ данных

Кафедра информационно-аналитических систем

Слайд 7

Классы задач Data Mining

классификация
кластеризация
прогнозирование
поиск ассоциаций
поиск последовательностей

Анализ данных

Кафедра информационно-аналитических систем

Классы задач Data Mining классификация кластеризация прогнозирование поиск ассоциаций поиск последовательностей Анализ данных Кафедра информационно-аналитических систем

Слайд 8

Классификация (Classification)

Задача классификации сводится к определению класса объекта по его характеристикам. В

Классификация (Classification) Задача классификации сводится к определению класса объекта по его характеристикам.
этой задаче множество классов, к которым может быть отнесен объект, известно заранее. Для решения задачи могут использоваться методы:
k-ближайшего соседа (k-Nearest Neighbor); байесовские сети (Bayesian Networks); деревья решений; нейронные сети (neural networks) и т.п.

Анализ данных

Кафедра информационно-аналитических систем

Слайд 9

Пример классификации

Анализ данных

Кафедра информационно-аналитических систем

Пример классификации Анализ данных Кафедра информационно-аналитических систем

Слайд 10

Кластеризация (Clustering)

Задача кластеризации заключается в поиске независимых групп (кластеров) и их характеристик

Кластеризация (Clustering) Задача кластеризации заключается в поиске независимых групп (кластеров) и их
во всем множестве анализируемых данных. Решение этой задачи помогает лучше понять данные. Кроме того, группировка однородных объектов позволяет сократить их число, а следовательно, и облегчить дальнейший анализ.

Анализ данных

Кафедра информационно-аналитических систем

Слайд 11

Анализ данных

Пример кластеризации

Кафедра информационно-аналитических систем

Анализ данных Пример кластеризации Кафедра информационно-аналитических систем

Слайд 12

Анализ данных

http://www.naftaliharris.com/blog/visualizing-dbscan-clustering/

Живой пример работы алгоритма кластеризаци

Кафедра информационно-аналитических систем

Анализ данных http://www.naftaliharris.com/blog/visualizing-dbscan-clustering/ Живой пример работы алгоритма кластеризаци Кафедра информационно-аналитических систем

Слайд 13

Прогнозирование (Forecasting)

В результате решения задачи прогнозирования на основе особенностей исторических данных оцениваются

Прогнозирование (Forecasting) В результате решения задачи прогнозирования на основе особенностей исторических данных
пропущенные или же будущие значения целевых численных показателей. Для решения таких задач широко применяются методы математической статистики, нейронные сети и др.

Анализ данных

Кафедра информационно-аналитических систем

Слайд 14

Пример прогнозирования

Анализ данных

Кафедра информационно-аналитических систем

Пример прогнозирования Анализ данных Кафедра информационно-аналитических систем

Слайд 15

Ассоциации (Associations)

При поиске ассоциативных правил целью является нахождение частых зависимостей между объектами.

Ассоциации (Associations) При поиске ассоциативных правил целью является нахождение частых зависимостей между
Найденные зависимости представляются в виде правил и могут быть использованы для лучшего понимания природы анализируемых данных. Наиболее известный алгоритм поиска ассоциативных правил – Apriori.

Анализ данных

Кафедра информационно-аналитических систем

Слайд 16

Пример нахождения ассоциативных правил

Анализ данных

Кафедра информационно-аналитических систем

Пример нахождения ассоциативных правил Анализ данных Кафедра информационно-аналитических систем

Слайд 17

Последовательность (Sequence)

Последовательность (sequential association) - временные закономерности между событиями. Последовательность определяется высокой

Последовательность (Sequence) Последовательность (sequential association) - временные закономерности между событиями. Последовательность определяется
вероятностью цепочки связанных во времени событий. Ассоциация является частным случаем последовательности с временным интервалом, равным нулю. Эту задачу также называют задачей нахождения последовательных шаблонов (sequential pattern).

Анализ данных

Кафедра информационно-аналитических систем

Слайд 18

Сфера применения

Методы Data Mining сегодня интересуют коммерческие предприятия, обладающие большими информационными хранилищами

Сфера применения Методы Data Mining сегодня интересуют коммерческие предприятия, обладающие большими информационными
данных. Data Mining представляет большую ценность для руководителей и аналитиков в их повседневной деятельности.

Анализ данных

Кафедра информационно-аналитических систем

Слайд 19

Некоторые бизнес-приложения Data Mining

розничная торговля
банковское дело
телекоммуникации
страхование
и другие приложения в бизнесе…

Анализ данных

Кафедра информационно-аналитических

Некоторые бизнес-приложения Data Mining розничная торговля банковское дело телекоммуникации страхование и другие
систем

Слайд 20

Розничная торговля

анализ покупательской корзины
исследование временных шаблонов
создание прогнозирующих моделей

Анализ данных

Кафедра информационно-аналитических

Розничная торговля анализ покупательской корзины исследование временных шаблонов создание прогнозирующих моделей Анализ данных Кафедра информационно-аналитических систем
систем

Слайд 21

Банковское дело

выявление мошенничества с кредитными карточками
сегментация клиентов
прогнозирование изменений клиентуры

Анализ данных

Кафедра информационно-аналитических систем

Банковское дело выявление мошенничества с кредитными карточками сегментация клиентов прогнозирование изменений клиентуры

Слайд 22

Телекоммуникации

выявление категорий клиентов с похожими стереотипами поведения
выявление лояльности клиентов

Анализ данных

Кафедра информационно-аналитических систем

Телекоммуникации выявление категорий клиентов с похожими стереотипами поведения выявление лояльности клиентов Анализ данных Кафедра информационно-аналитических систем

Слайд 23

Страхование

выявление мошенничества
анализ рисков по страховым выплатам

Анализ данных

Кафедра информационно-аналитических систем

Страхование выявление мошенничества анализ рисков по страховым выплатам Анализ данных Кафедра информационно-аналитических систем

Слайд 24

Другие приложения в бизнесе

поощрение любителей авиаперелетов
прогнозирование гарантийных обращений к производителям продукции
развитие

Другие приложения в бизнесе поощрение любителей авиаперелетов прогнозирование гарантийных обращений к производителям
автомобильной промышленности с учетом наиболее востребованных опций
и т.п.

Анализ данных

Кафедра информационно-аналитических систем

Слайд 25

Программные продукты Data Mining

аналитические пакеты в некоторых СУБД (например, в ORACLE, DB2,

Программные продукты Data Mining аналитические пакеты в некоторых СУБД (например, в ORACLE,
Microsoft SQL Server)
библиотеки алгоритмов Data Mining с соответствующей инфраструктурой
узкоспециализированные решения

Анализ данных

Кафедра информационно-аналитических систем

Слайд 26

Проблемы существующих решений

Data Mining – бурно развивающаяся мультидисциплинарная отрасль, в которой постоянно

Проблемы существующих решений Data Mining – бурно развивающаяся мультидисциплинарная отрасль, в которой
появляются новые методы извлечения знаний. Существующие программные продукты либо не успевают, либо не очень следят за такими методами.

Анализ данных

Кафедра информационно-аналитических систем

Слайд 27

Аналитический пакет ORACLE 12

Например, в СУБД ORACLE в 12 версии (выпущена в

Аналитический пакет ORACLE 12 Например, в СУБД ORACLE в 12 версии (выпущена
2013 году) реализован единственный алгоритм для поиска ассоциативных правил – Apriori (дата публикации – 1994 год). Хотя с тех пор в авторитетных изданиях были опубликованы не менее 11 более совершенных алгоритмов…

Анализ данных

Кафедра информационно-аналитических систем

Слайд 28

Наши работы в области Data Mining

Выявление и классификация аномалий магнитного поля

Наши работы в области Data Mining Выявление и классификация аномалий магнитного поля
с помощью алгоритмов кластеризации (на примере археологических раскопок).
Анализ лог-файлов для обнаружения разного рода сбоев в работе аппаратных комплексов.
Анализ транспортных потоков Санкт-Петербурга.

Анализ данных

Кафедра информационно-аналитических систем

Слайд 29

Наши работы в области Data Mining

Прогнозирование потребления продуктов в сети ресторанов.
Прогнозирование

Наши работы в области Data Mining Прогнозирование потребления продуктов в сети ресторанов.
потребления электроэнергии.
Поиск ассоциативных правил для профилирования ресторанов.
И многие другие…

Анализ данных

Кафедра информационно-аналитических систем

Имя файла: Анализ-данных.-Введение.pptx
Количество просмотров: 56
Количество скачиваний: 1