Слайд 2Автоматическое формирование знаний
Data Mining – процесс обнаружения в «сырых» данных ранее неизвестных
нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
Слайд 3Этапы автоматического формирования знаний
Шаг 1. Подготовка исходного набора данных.
Создание набора данных, возможно,
из различных источников, выбор обучающей выборки.
Шаг 2. Предобработка данных.
Данные могут содержать грамматические ошибки, аномальные значения и т.д.
Слайд 4Этапы автоматического формирования знаний
Шаг 3. Трансформация, нормализация данных.
Необходим для методов, которые работают
с исходными данными определенного вида. Например, нейронные сети работают только с числовыми данными.
Шаг 4. Применение методов формирования знаний.
Применяются различные методы формирования знаний: статистические, нейронные сети и т.д.
Слайд 5К задачам формирования знаний относятся:
прогнозирование;
идентификация функций;
классификация и кластеризация;
фазификация нечетких переменных.
Для решения
этих задач используются методы прикладной статистики.
Слайд 6Этапы автоматического формирования знаний
Шаг 5. Постобработка данных.
Интерпретация результатов и применение полученных знаний
в бизнес-приложениях.
Слайд 7Метод деревьев решений (деревьев классификации).
Позволяет предсказывать принадлежность наблюдений или объектов к тому
или иному классу в зависимости от соответствующих значений атрибутов, характеризующих эти наблюдения.
Слайд 8Метод деревьев решений (деревьев классификации).
Деревья решений обеспечивают автоматическое построение продукционных правил «если,
…, то …» по имеющейся статистике, на основании которых в дальнейшем выносится решение о принадлежности наблюдения или объекта к тому или иному классу.
Слайд 9Пусть имеется совокупность n объектов, представленных множеством T = {t1, t2,…tn}, где
каждый элемент этого множества описывается одним и тем же набором признаков (атрибутов) с именами Ci, i=1,…m.
Каждый атрибут может принимать ki значений - xip, p=1,…, ki, измеряемых в произвольной шкале.
Слайд 10Пример.
Рассмотрим статистику по клиентам некоторого банка.
Тогда клиенты – это множество T.
Каждый клиент
характеризуется набором характеристик: полом, возрастом, целью кредитования, совокупным доходом и т.п.
Это атрибуты C1, C2, C3 и т.д.
Атрибут C1 может принимать 2 значения: М и Ж, т.е. x11=М, x12=Ж и т.д.
Слайд 11Пусть имеется множество классов Kj , j=0,…J.
При этом каждый объект множества T
(каждый клиент банка был отнесен к некоторому классу объектов Kj и это отражено в статистике.
Например, в случае с клиентами банка это могут быть два класса:
K1 («заемщик вовремя обслуживает кредит, с такими характеристиками кредит можно выдавать»),
K2 («заемщик неудовлетворительно обслуживает кредит, с такими характеристиками кредит нельзя выдавать»).
Слайд 12Требуется построить классифицирующие (продукционные) правила, позволяющие выявить закономерности между значениями атрибутов каждого
объекта множества T и классом Kj, к которому объект относится.