Data Science. Автоматическое формирование знаний

Содержание

Слайд 2

Автоматическое формирование знаний

Data Mining – процесс обнаружения в «сырых» данных ранее неизвестных

Автоматическое формирование знаний Data Mining – процесс обнаружения в «сырых» данных ранее
нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Слайд 3

Этапы автоматического формирования знаний

Шаг 1. Подготовка исходного набора данных.
Создание набора данных, возможно,

Этапы автоматического формирования знаний Шаг 1. Подготовка исходного набора данных. Создание набора
из различных источников, выбор обучающей выборки.
Шаг 2. Предобработка данных.
Данные могут содержать грамматические ошибки, аномальные значения и т.д.

Слайд 4

Этапы автоматического формирования знаний

Шаг 3. Трансформация, нормализация данных.
Необходим для методов, которые работают

Этапы автоматического формирования знаний Шаг 3. Трансформация, нормализация данных. Необходим для методов,
с исходными данными определенного вида. Например, нейронные сети работают только с числовыми данными.
Шаг 4. Применение методов формирования знаний.
Применяются различные методы формирования знаний: статистические, нейронные сети и т.д.

Слайд 5

К задачам формирования знаний относятся:
прогнозирование;
идентификация функций;
классификация и кластеризация;
фазификация нечетких переменных.
Для решения

К задачам формирования знаний относятся: прогнозирование; идентификация функций; классификация и кластеризация; фазификация
этих задач используются методы прикладной статистики.

Слайд 6

Этапы автоматического формирования знаний

Шаг 5. Постобработка данных.
Интерпретация результатов и применение полученных знаний

Этапы автоматического формирования знаний Шаг 5. Постобработка данных. Интерпретация результатов и применение полученных знаний в бизнес-приложениях.
в бизнес-приложениях.

Слайд 7

Метод деревьев решений (деревьев классификации).
Позволяет предсказывать принадлежность наблюдений или объектов к тому

Метод деревьев решений (деревьев классификации). Позволяет предсказывать принадлежность наблюдений или объектов к
или иному классу в зависимости от соответствующих значений атрибутов, характеризующих эти наблюдения.

Слайд 8

Метод деревьев решений (деревьев классификации).
Деревья решений обеспечивают автоматическое построение продукционных правил «если,

Метод деревьев решений (деревьев классификации). Деревья решений обеспечивают автоматическое построение продукционных правил
…, то …» по имеющейся статистике, на основании которых в дальнейшем выносится решение о принадлежности наблюдения или объекта к тому или иному классу.

Слайд 9

Пусть имеется совокупность n объектов, представленных множеством T = {t1, t2,…tn}, где

Пусть имеется совокупность n объектов, представленных множеством T = {t1, t2,…tn}, где
каждый элемент этого множества описывается одним и тем же набором признаков (атрибутов) с именами Ci, i=1,…m.
Каждый атрибут может принимать ki значений - xip, p=1,…, ki, измеряемых в произвольной шкале.

Слайд 10

Пример.
Рассмотрим статистику по клиентам некоторого банка.
Тогда клиенты – это множество T.
Каждый клиент

Пример. Рассмотрим статистику по клиентам некоторого банка. Тогда клиенты – это множество
характеризуется набором характеристик: полом, возрастом, целью кредитования, совокупным доходом и т.п.
Это атрибуты C1, C2, C3 и т.д.
Атрибут C1 может принимать 2 значения: М и Ж, т.е. x11=М, x12=Ж и т.д.

Слайд 11

Пусть имеется множество классов Kj , j=0,…J.
При этом каждый объект множества T

Пусть имеется множество классов Kj , j=0,…J. При этом каждый объект множества
(каждый клиент банка был отнесен к некоторому классу объектов Kj и это отражено в статистике.
Например, в случае с клиентами банка это могут быть два класса:
K1 («заемщик вовремя обслуживает кредит, с такими характеристиками кредит можно выдавать»),
K2 («заемщик неудовлетворительно обслуживает кредит, с такими характеристиками кредит нельзя выдавать»).

Слайд 12

Требуется построить классифицирующие (продукционные) правила, позволяющие выявить закономерности между значениями атрибутов каждого

Требуется построить классифицирующие (продукционные) правила, позволяющие выявить закономерности между значениями атрибутов каждого
объекта множества T и классом Kj, к которому объект относится.