Введение в Data Mining

Содержание

Слайд 2

Автоматическое приобретение знаний из БД

Автоматическое приобретение знаний из баз данных – это

Автоматическое приобретение знаний из БД Автоматическое приобретение знаний из баз данных –
методы и технологии выявления компьютером скрытых правил и закономерностей в больших наборах данных.
Синонимы: Data Mining («добыча» или «раскопка» данных), Knowledge Discovery in Databases (обнаружение знаний в базах данных), интеллектуальный анализ данных.

Слайд 3

Актуальность автомати-ческого приобретения знаний

В 2002 году, согласно оценке профессо-ров из ун-та Berkeley,

Актуальность автомати-ческого приобретения знаний В 2002 году, согласно оценке профессо-ров из ун-та
объём информации в мире увеличился на 5•1018 = 5 000 000 000 000 000 000 байт!
Согласно другим оценкам, информация удваивается каждые 2 – 3 года.
В 1989 году большая БД – это БД объёмом 1 мегабайт.

В 2003 году большая БД – это БД объёмом 1 петабайт (примерно в миллион раз больше).

Слайд 4

Области применения авто-матич. приобретения знаний

Розничная торговля
анализ покупательской корзины;
исследование временных шаблонов;
создание прогнозирующих моделей.
Банковское

Области применения авто-матич. приобретения знаний Розничная торговля анализ покупательской корзины; исследование временных
дело
Выявление мошенничества с кредитными карточками;
сегментация клиентов;
прогнозирование изменений клиентуры.

Слайд 5

Области применения авто-матич. приобретения знаний

Телекоммуникации
анализ записей о подробных характеристи-ках вызовов;
выявление лояльности клиентов.
Страхование
выявление

Области применения авто-матич. приобретения знаний Телекоммуникации анализ записей о подробных характеристи-ках вызовов;
мошенничества;
разработка продуктов;
анализ риска.

Слайд 6

Области применения авто-матич. приобретения знаний

Другие приложения в бизнесе
сегментация рынка;
развитие автомобильной промышленности;
поощрение часто

Области применения авто-матич. приобретения знаний Другие приложения в бизнесе сегментация рынка; развитие
летающих клиентов.
Медицина
автоматизация создания баз знаний медицинских ЭС (вместо врачей-экспертов – медицинская база данных).

Слайд 7

Типы закономерностей, извлекаемых из БД

Ассоциация;
Классификация;
Кластеризация;
Прогнозирование.

Типы закономерностей, извлекаемых из БД Ассоциация; Классификация; Кластеризация; Прогнозирование.

Слайд 8

Методы автоматического приобретения знаний

Статистические методы
Нейронные сети
Рассуждения на основе аналогич-ных случаев
Деревья решений
Генетические алгоритмы

Методы автоматического приобретения знаний Статистические методы Нейронные сети Рассуждения на основе аналогич-ных

Слайд 9

Статистические методы

Корреляционный, регрессионный, факторный анализ и др.
Преимущества: классические методы с развитым математическим

Статистические методы Корреляционный, регрессионный, факторный анализ и др. Преимущества: классические методы с
аппаратом.
Недостатки:
− требуют спец. подготовки пользователя;
− усреднённые характеристики выборки, используемые в статистической парадигме, при исследовании сложных феноменов предметной области часто оказываются фиктивными величинами.

Инструментальные системы: SAS (SAS, США), STATISTICA (StatSoft, США), SPSS Statistics (SPSS, США).

Слайд 10

Нейронные сети

Моделируют структуру нервной системы (множество параллельно работающих простых элементов – нейронов

Нейронные сети Моделируют структуру нервной системы (множество параллельно работающих простых элементов –
– объединённых взвешенными связями).
Преимущества:
– аппроксимация сложных нелинейных зависимостей;
– адаптивность;
– эффективная аппаратная реализуемость.
Недостатки:
– большой объём обучающей выборки;

– плохая интерпретируемость обученной нейронной сети человеком.
Инструментальные системы: BrainMaker (CSS), NeuroShell (Ward Systems Group), OWL (HyperLogic).

Слайд 11

Рассуждения на основе аналогичных случаев

Синонимы: Case Based Reasoning, рассуждения по прецедентам, метод

Рассуждения на основе аналогичных случаев Синонимы: Case Based Reasoning, рассуждения по прецедентам,
ближайшего соседа. Идея: для выбора правильного решения в базе находятся близкие аналоги наличной ситуации и выбирает-ся ответ, который был правильным для них.
Преимущества: простота реализации и наглядность результатов анализа.
Недостатки:
− не строятся модели или правила, обобща-ющие предыдущий опыт;
− сложность выбора адекватной меры близости прецедентов.

Инструментальные системы: KATE tools (Acknosoft, Франция), Pattern Recognition Workbench (Unica, США).

Слайд 12

Деревья решений

Деревья решений (Decision Trees) – один из самых популярных методов автоматического

Деревья решений Деревья решений (Decision Trees) – один из самых популярных методов
извлечения знаний. Они создают иерархическую структуру классифицирующих правил типа «ЕСЛИ... ТО...», имеющую вид дерева.
Преимущества: наглядность и понятность.
Недостатки:
− проблема значимости;
− проблема независимости признаков.
Инструментальные системы: See5/С5.0 (RuleQuest, Австралия), Clementine (Integral

Solutions, Великобритания), SIPINA (University of Lyon, Франция), IDIS (Information Discovery, США).

Слайд 13

Генетические алгоритмы

Моделирование механизма наследственности, изменчивости и отбора в живой природе.
Идея. Создаётся исходный

Генетические алгоритмы Моделирование механизма наследственности, изменчивости и отбора в живой природе. Идея.
набор (популяция) комбинаций элементарных логических высказыва-ний (хромосом) и определяются функции приспо-собленности для индивидуумов, заданных хромо-сомами. Популяция обрабатывается с помощью процедур скрещивания и мутации. В ходе работы процедур на каждой стадии эволюции получаются популяции со всё более совершенными индивидуумами.

Слайд 14

Генетические алгоритмы (окончание)

Преимущества:
− пригодность для поиска в сложном пространстве решений большой размерности;

Генетические алгоритмы (окончание) Преимущества: − пригодность для поиска в сложном пространстве решений
эффективная аппаратная реализация.
Недостатки:
− функции приспособленности и процедуры генетического алгоритма являются эвристическими;
− как и в реальной жизни, эволюцию может «заклинить» на непродуктивной ветви.

Инструментальные системы: GeneHunter (Ward Systems Group).

Слайд 15

Алгоритм индуцирования знаний из БД

Алгоритм генерирует продукционные правила.
В алгоритме используется представле-ние знаний

Алгоритм индуцирования знаний из БД Алгоритм генерирует продукционные правила. В алгоритме используется
в виде деревьев решений.
Рассмотрим пример.
Пусть необходимо построить базу

знаний для получения ответа: «Как поступить, чтобы при-быль росла?».

Слайд 16

Исходная база данных, из которой извлекаются знания

Окончание на следующем слайде…

Исходная база данных, из которой извлекаются знания Окончание на следующем слайде…

Слайд 17

Исходная база данных, из которой извлекаются знания (окончание)

Исходная база данных, из которой извлекаются знания (окончание)

Слайд 18

Искомый атрибут «Прибыль» бу-дем называть атрибутом класса.
Для построения дерева решений нужно взять

Искомый атрибут «Прибыль» бу-дем называть атрибутом класса. Для построения дерева решений нужно
один из атрибутов таб-лицы в качестве основного (корне-вого) атрибута. Пусть это будет «Возраст».
Преобразуем исходную таблицу к следующему виду:

Слайд 20

Из таблицы видно, что при значе-нии атрибута «Возраст», равном «новый», прибыль всегда

Из таблицы видно, что при значе-нии атрибута «Возраст», равном «новый», прибыль всегда
растёт, а при значении «старый» – падает.
В случае же значения «средний» такого определённого вывода сделать нельзя.
Поэтому продолжим разбивку таб-лицы по атрибуту «Конкуренция».

Слайд 21

Получим другую таблицу:

Получим другую таблицу:

Слайд 22

Поскольку теперь для атрибута класса наше дерево решений выво-дит однозначный ответ, то

Поскольку теперь для атрибута класса наше дерево решений выво-дит однозначный ответ, то
дерево решений построено.
Порождаем правила:
1. ЕСЛИ Возраст = новый
ТО Прибыль = растёт
2. ЕСЛИ Возраст = старый
ТО Прибыль = падает
Имя файла: Введение-в-Data-Mining.pptx
Количество просмотров: 127
Количество скачиваний: 0