Слайд 2Автоматическое формирование знаний
Data Mining – процесс обнаружения в «сырых» данных ранее неизвестных
![Автоматическое формирование знаний Data Mining – процесс обнаружения в «сырых» данных ранее](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/1166996/slide-1.jpg)
нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
Слайд 3Этапы автоматического формирования знаний
Шаг 1. Подготовка исходного набора данных.
Создание набора данных, возможно,
![Этапы автоматического формирования знаний Шаг 1. Подготовка исходного набора данных. Создание набора](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/1166996/slide-2.jpg)
из различных источников, выбор обучающей выборки.
Шаг 2. Предобработка данных.
Данные могут содержать грамматические ошибки, аномальные значения и т.д.
Слайд 4Этапы автоматического формирования знаний
Шаг 3. Трансформация, нормализация данных.
Необходим для методов, которые работают
![Этапы автоматического формирования знаний Шаг 3. Трансформация, нормализация данных. Необходим для методов,](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/1166996/slide-3.jpg)
с исходными данными определенного вида. Например, нейронные сети работают только с числовыми данными.
Шаг 4. Применение методов формирования знаний.
Применяются различные методы формирования знаний: статистические, нейронные сети и т.д.
Слайд 5К задачам формирования знаний относятся:
прогнозирование;
идентификация функций;
классификация и кластеризация;
фазификация нечетких переменных.
Для решения
![К задачам формирования знаний относятся: прогнозирование; идентификация функций; классификация и кластеризация; фазификация](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/1166996/slide-4.jpg)
этих задач используются методы прикладной статистики.
Слайд 6Этапы автоматического формирования знаний
Шаг 5. Постобработка данных.
Интерпретация результатов и применение полученных знаний
![Этапы автоматического формирования знаний Шаг 5. Постобработка данных. Интерпретация результатов и применение полученных знаний в бизнес-приложениях.](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/1166996/slide-5.jpg)
в бизнес-приложениях.
Слайд 7Метод деревьев решений (деревьев классификации).
Позволяет предсказывать принадлежность наблюдений или объектов к тому
![Метод деревьев решений (деревьев классификации). Позволяет предсказывать принадлежность наблюдений или объектов к](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/1166996/slide-6.jpg)
или иному классу в зависимости от соответствующих значений атрибутов, характеризующих эти наблюдения.
Слайд 8Метод деревьев решений (деревьев классификации).
Деревья решений обеспечивают автоматическое построение продукционных правил «если,
![Метод деревьев решений (деревьев классификации). Деревья решений обеспечивают автоматическое построение продукционных правил](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/1166996/slide-7.jpg)
…, то …» по имеющейся статистике, на основании которых в дальнейшем выносится решение о принадлежности наблюдения или объекта к тому или иному классу.
Слайд 9Пусть имеется совокупность n объектов, представленных множеством T = {t1, t2,…tn}, где
![Пусть имеется совокупность n объектов, представленных множеством T = {t1, t2,…tn}, где](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/1166996/slide-8.jpg)
каждый элемент этого множества описывается одним и тем же набором признаков (атрибутов) с именами Ci, i=1,…m.
Каждый атрибут может принимать ki значений - xip, p=1,…, ki, измеряемых в произвольной шкале.
Слайд 10Пример.
Рассмотрим статистику по клиентам некоторого банка.
Тогда клиенты – это множество T.
Каждый клиент
![Пример. Рассмотрим статистику по клиентам некоторого банка. Тогда клиенты – это множество](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/1166996/slide-9.jpg)
характеризуется набором характеристик: полом, возрастом, целью кредитования, совокупным доходом и т.п.
Это атрибуты C1, C2, C3 и т.д.
Атрибут C1 может принимать 2 значения: М и Ж, т.е. x11=М, x12=Ж и т.д.
Слайд 11Пусть имеется множество классов Kj , j=0,…J.
При этом каждый объект множества T
![Пусть имеется множество классов Kj , j=0,…J. При этом каждый объект множества](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/1166996/slide-10.jpg)
(каждый клиент банка был отнесен к некоторому классу объектов Kj и это отражено в статистике.
Например, в случае с клиентами банка это могут быть два класса:
K1 («заемщик вовремя обслуживает кредит, с такими характеристиками кредит можно выдавать»),
K2 («заемщик неудовлетворительно обслуживает кредит, с такими характеристиками кредит нельзя выдавать»).
Слайд 12Требуется построить классифицирующие (продукционные) правила, позволяющие выявить закономерности между значениями атрибутов каждого
![Требуется построить классифицирующие (продукционные) правила, позволяющие выявить закономерности между значениями атрибутов каждого](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/1166996/slide-11.jpg)
объекта множества T и классом Kj, к которому объект относится.