Алгоритм C4.5 для Data Mining

Содержание

Слайд 2

Алгоритм C4.5

Усовершенствование простого алгоритма индуцирования знаний.
Основнoе отличие: следующий условный атрибут, по которому

Алгоритм C4.5 Усовершенствование простого алгоритма индуцирования знаний. Основнoе отличие: следующий условный атрибут,
проводится разбиение, определяется по критерию минимизации энтропии.

Теперь алгоритм не зависит от порядка следования атрибутов таблицы данных.

Слайд 3

Общее описание алгоритма C4.5

Алгоритм работает для таких таблиц данных, в которых атрибут класса

Общее описание алгоритма C4.5 Алгоритм работает для таких таблиц данных, в которых
(целевой атрибут) может иметь конечное множество значений.
Обозначения
T — множество примеров (таблица или подтаблица данных);
m — количество условных атрибутов

(столбцов таблицы)

Слайд 4

Общее описание алгоритма C4.5 (продолжение)

Обозначения (продолжение)
|T | — мощность множества примеров (количество

Общее описание алгоритма C4.5 (продолжение) Обозначения (продолжение) |T | — мощность множества
строк в таблице или подтаблице данных);
C1 , C2 , …, Ck — значения, принима-емые атрибутом класса;
X — текущий условный атрибут, по

которому мы хотим провести разбиение

Слайд 5

Общее описание алгоритма C4.5 (окончание)

Обозначения (окончание)
A1 , A2 , …, AN —

Общее описание алгоритма C4.5 (окончание) Обозначения (окончание) A1 , A2 , …,
значения, принима-емые текущим условным атрибутом;

Слайд 6

Выбор условного атрибута для разбиения

Пусть рассматриваем условный атрибут X, принимающий n значений

Выбор условного атрибута для разбиения Пусть рассматриваем условный атрибут X, принимающий n
A1, A2 ... An. Тогда разбиение множества (таблицы) T по атрибуту X даст нам подмножества (подтаблицы) T1, T2 ... Tn.

Пусть freq(Cj,T ) — количество примеров из множества T, в которых атрибут класса равен Cj

Слайд 7

Выбор условного атрибута для разбиения (продолжение)

Тогда вероятность того, что случайно выбранная строка

Выбор условного атрибута для разбиения (продолжение) Тогда вероятность того, что случайно выбранная
из таблицы T будет принадлежать классу Cj, равна

Например, вероятность того, что прибыль будет расти, составляет P = 5 / 10 = 0,5

Слайд 8

Выбор условного атрибута для разбиения (продолжение)

Согласно теории информации, количество содержащейся в сообщении

Выбор условного атрибута для разбиения (продолжение) Согласно теории информации, количество содержащейся в
информации зависит от её вероятности log2(1/P).
Количество информации измеряется в битах.

Слайд 9

Выбор условного атрибута для разбиения (продолжение)

Энтропия таблицы T, то есть среднее количество

Выбор условного атрибута для разбиения (продолжение) Энтропия таблицы T, то есть среднее
информации, необходимое для определения класса, к которому относится строка из таблицы T:

Слайд 10

Выбор условного атрибута для разбиения (продолжение)

Энтропия таблицы T после её разбиения по

Выбор условного атрибута для разбиения (продолжение) Энтропия таблицы T после её разбиения
атрибуту X на n подтаблиц:

Слайд 11

Выбор условного атрибута для разбиения (окончание)

Критерий для выбора атрибута X – следующего

Выбор условного атрибута для разбиения (окончание) Критерий для выбора атрибута X – следующего атрибута для разбиения:
атрибута для разбиения:
Имя файла: Алгоритм-C4.5-для-Data-Mining.pptx
Количество просмотров: 192
Количество скачиваний: 2