Слайд 2Составитель
Алёшин Владислав, ИТ-7, 1 курс
![Составитель Алёшин Владислав, ИТ-7, 1 курс](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/374876/slide-1.jpg)
Слайд 3Возникновение Data Mining. Способствующие факторы
совершенствование аппаратного и программного обеспечения;
совершенствование технологий хранения
![Возникновение Data Mining. Способствующие факторы совершенствование аппаратного и программного обеспечения; совершенствование технологий](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/374876/slide-2.jpg)
и записи данных;
накопление большого количества ретроспективных данных;
совершенствование алгоритмов обработки информации.
Слайд 4История Data Mining
1960-е гг. – первая промышленная СУБД система IMS фирмы IBM.
1970-е
![История Data Mining 1960-е гг. – первая промышленная СУБД система IMS фирмы](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/374876/slide-3.jpg)
гг. – Conference on Data System Languages (CODASYL)
1980-е гг. – SQL
1990-е гг. – Data Mining
Слайд 5Понятие Data Mining
Data Mining - это процесс обнаружения в сырых данных ранее
![Понятие Data Mining Data Mining - это процесс обнаружения в сырых данных](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/374876/slide-4.jpg)
неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
Gregory Piatetsky-Shapiro
Это технология, которая предназначена для поиска в больших объемах данных неочевидных, объективных и полезных на практике закономерностей.
Слайд 9Задачи Data Mining
Классификация
Кластеризация
Прогнозирование
Ассоциация
Визуализация
анализ и обнаружение отклонений
Оценивание
Анализ связей
Подведение итогов
![Задачи Data Mining Классификация Кластеризация Прогнозирование Ассоциация Визуализация анализ и обнаружение отклонений](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/374876/slide-8.jpg)
Слайд 10Стадии Data Mining
СВОБОДНЫЙ ПОИСК (в том числе ВАЛИДАЦИЯ)
ПРОГНОСТИЧЕСКОЕ МОДЕЛИРОВАНИЕ
АНАЛИЗ ИСКЛЮЧЕНИЙ
![Стадии Data Mining СВОБОДНЫЙ ПОИСК (в том числе ВАЛИДАЦИЯ) ПРОГНОСТИЧЕСКОЕ МОДЕЛИРОВАНИЕ АНАЛИЗ ИСКЛЮЧЕНИЙ](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/374876/slide-9.jpg)
Слайд 11Методы Data Mining. Технологические методы.
Непосредственное использование данных, или сохранение данных:
кластерный анализ, метод
![Методы Data Mining. Технологические методы. Непосредственное использование данных, или сохранение данных: кластерный](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/374876/slide-10.jpg)
ближайшего соседа, метод k-ближайшего соседа, рассуждение по аналогии
Выявление и использование формализованных закономерностей, или дистилляция шаблонов:
логические методы; методы визуализации; методы кросс-табуляции; методы, основанные на уравнениях
Слайд 12Методы Data Mining. Статистические методы.
Дескриптивный анализ и описание исходных данных.
Анализ связей (корреляционный
![Методы Data Mining. Статистические методы. Дескриптивный анализ и описание исходных данных. Анализ](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/374876/slide-11.jpg)
и регрессионный анализ, факторный анализ, дисперсионный анализ).
Многомерный статистический анализ (компонентный анализ, дискриминантный анализ, многомерный регрессионный анализ, канонические корреляции и др.).
Анализ временных рядов (динамические модели и прогнозирование).
Слайд 13Методы Data Mining. Кибернетические методы.
Искусственные нейронные сети (распознавание, кластеризация, прогноз);
Эволюционное программирование (в
![Методы Data Mining. Кибернетические методы. Искусственные нейронные сети (распознавание, кластеризация, прогноз); Эволюционное](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/374876/slide-12.jpg)
т.ч. алгоритмы метода группового учета аргументов);
Генетические алгоритмы (оптимизация);
Ассоциативная память (поиск аналогов, прототипов);
Нечеткая логика;
Деревья решений;
Системы обработки экспертных знаний.
Слайд 14Визуализация инструментов Data Mining.
Для деревьев решений - визуализатор дерева решений, список правил,
![Визуализация инструментов Data Mining. Для деревьев решений - визуализатор дерева решений, список](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/374876/slide-13.jpg)
таблица сопряженности.
Для нейронных сетей - в зависимости от инструмента это может быть топология сети, график изменения величины ошибки, демонстрирующий процесс обучения.
Для карт Кохонена: карты входов, выходов, другие специфические карты.
Для линейной регрессии - линия регрессии.
Для кластеризации: дендрограммы, диаграммы рассеивания.
Слайд 16Проблемы и вопросы
Data Mining не может заменить аналитика!
Сложность разработки и эксплуатации приложения
![Проблемы и вопросы Data Mining не может заменить аналитика! Сложность разработки и](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/374876/slide-15.jpg)
Data Mining. Основные аспекты:
Квалификация пользователя
Сложность подготовки данных
Большой процент ложных, недостоверных или бессмысленных результатов
Высокая стоимость
Наличие достаточного количества репрезентативных данных
Слайд 17Области применения Data mining
Database marketers - Рыночная сегментация, идентификация целевых групп, построение
![Области применения Data mining Database marketers - Рыночная сегментация, идентификация целевых групп,](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/374876/slide-16.jpg)
профиля клиента
Банковское дело - Анализ кредитных рисков, привлечение и удержание клиентов, управление ресурсами
Кредитные компании - Детекция подлогов, формирование "типичного поведения" обладателя кредитки, анализ достоверности клиентских счетов , cross-selling программы
Страховые компании - Привлечение и удержание клиентов, прогнозирование фингансовых показателей
Розничная торговля - Анализ деятельности торговых точек, построение профиля покупателя, управление ресурсами
Биржевые трейдеры - Выработка оптимальной торговой стратегии, контроль рисков
Слайд 18Области применения Data mining. Продолжение.
Телекоммуникация и энергетика - Привлечение клиентов, ценовая политика,
![Области применения Data mining. Продолжение. Телекоммуникация и энергетика - Привлечение клиентов, ценовая](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/374876/slide-17.jpg)
анализ отказов, предсказание пиковых нагрузок, прогнозирование поступления средств
Налоговые службы и аудиторы - Детекция подлогов, прогнозирование поступлений в бюджет
Фармацевтические компании - Предсказание результатов будущего тестирования препаратов, программы испытания
Медицина - Диагностика, выбор лечебных воздействий, прогнозирование исхода хирургического вмешательства
Управление производством - Контроль качества, материально-техническое обеспечение, оптимизация технологического процесса
Ученые и инженеры - Построение эмпирических моделей, основанных на анализе данных, решение научно-технических задач
Слайд 19Перспективы технологии Data Mining.
выделение типов предметных областей с соответствующими им эвристиками
создание формальных
![Перспективы технологии Data Mining. выделение типов предметных областей с соответствующими им эвристиками](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/374876/slide-18.jpg)
языков и логических средств, с помощью которых будет формализованы рассуждения
создание методов Data Mining, способных не только извлекать из данных закономерности, но и формировать некие теории, опирающиеся на эмпирические данные;
преодоление существенного отставания возможностей инструментальных средств Data Mining от теоретических достижений в этой области.