Алгоритм C4.5 для Data Mining

Февраль 12, 2021

Главная
Разное
Алгоритм C4.5 для Data Mining

Содержание

2. Алгоритм C4.5 Усовершенствование простого алгоритма индуцирования знаний. Основнoе отличие: следующий условный атрибут, по которому проводится разбиение,
3. Общее описание алгоритма C4.5 Алгоритм работает для таких таблиц данных, в которых атрибут класса (целевой атрибут)
4. Общее описание алгоритма C4.5 (продолжение) Обозначения (продолжение) |T | — мощность множества примеров (количество строк в
5. Общее описание алгоритма C4.5 (окончание) Обозначения (окончание) A1 , A2 , …, AN — значения, принима-емые
6. Выбор условного атрибута для разбиения Пусть рассматриваем условный атрибут X, принимающий n значений A1, A2 ...
7. Выбор условного атрибута для разбиения (продолжение) Тогда вероятность того, что случайно выбранная строка из таблицы T
8. Выбор условного атрибута для разбиения (продолжение) Согласно теории информации, количество содержащейся в сообщении информации зависит от
9. Выбор условного атрибута для разбиения (продолжение) Энтропия таблицы T, то есть среднее количество информации, необходимое для
10. Выбор условного атрибута для разбиения (продолжение) Энтропия таблицы T после её разбиения по атрибуту X на
11. Выбор условного атрибута для разбиения (окончание) Критерий для выбора атрибута X – следующего атрибута для разбиения:
13. Скачать презентацию

Слайд 2

Алгоритм C4.5
Усовершенствование простого алгоритма индуцирования знаний.
Основнoе отличие: следующий условный атрибут, по которому

Алгоритм C4.5 Усовершенствование простого алгоритма индуцирования знаний. Основнoе отличие: следующий условный атрибут,

проводится разбиение, определяется по критерию минимизации энтропии.

Теперь алгоритм не зависит от порядка следования атрибутов таблицы данных.

Слайд 3

Общее описание алгоритма C4.5
Алгоритм работает для таких таблиц данных, в которых атрибут класса

Общее описание алгоритма C4.5 Алгоритм работает для таких таблиц данных, в которых

(целевой атрибут) может иметь конечное множество значений.
Обозначения
T — множество примеров (таблица или подтаблица данных);
m — количество условных атрибутов

(столбцов таблицы)

Слайд 4

Общее описание алгоритма C4.5 (продолжение)
Обозначения (продолжение)
|T | — мощность множества примеров (количество

Общее описание алгоритма C4.5 (продолжение) Обозначения (продолжение) |T | — мощность множества

строк в таблице или подтаблице данных);
C1 , C2 , …, Ck — значения, принима-емые атрибутом класса;
X — текущий условный атрибут, по

которому мы хотим провести разбиение

Слайд 5

Общее описание алгоритма C4.5 (окончание)
Обозначения (окончание)
A1 , A2 , …, AN —

Общее описание алгоритма C4.5 (окончание) Обозначения (окончание) A1 , A2 , …,

значения, принима-емые текущим условным атрибутом;

Слайд 6

Выбор условного атрибута для разбиения
Пусть рассматриваем условный атрибут X, принимающий n значений

Выбор условного атрибута для разбиения Пусть рассматриваем условный атрибут X, принимающий n

A1, A2 ... An. Тогда разбиение множества (таблицы) T по атрибуту X даст нам подмножества (подтаблицы) T1, T2 ... Tn.

Пусть freq(Cj,T ) — количество примеров из множества T, в которых атрибут класса равен Cj

Слайд 7

Выбор условного атрибута для разбиения (продолжение)
Тогда вероятность того, что случайно выбранная строка

Выбор условного атрибута для разбиения (продолжение) Тогда вероятность того, что случайно выбранная

из таблицы T будет принадлежать классу Cj, равна

Например, вероятность того, что прибыль будет расти, составляет P = 5 / 10 = 0,5

Слайд 8

Выбор условного атрибута для разбиения (продолжение)
Согласно теории информации, количество содержащейся в сообщении

Выбор условного атрибута для разбиения (продолжение) Согласно теории информации, количество содержащейся в

информации зависит от её вероятности log2(1/P).
Количество информации измеряется в битах.

Слайд 9

Выбор условного атрибута для разбиения (продолжение)
Энтропия таблицы T, то есть среднее количество

Выбор условного атрибута для разбиения (продолжение) Энтропия таблицы T, то есть среднее

информации, необходимое для определения класса, к которому относится строка из таблицы T:

Слайд 10

Выбор условного атрибута для разбиения (продолжение)
Энтропия таблицы T после её разбиения по

Выбор условного атрибута для разбиения (продолжение) Энтропия таблицы T после её разбиения

атрибуту X на n подтаблиц:

Слайд 11

Выбор условного атрибута для разбиения (окончание)
Критерий для выбора атрибута X – следующего

Выбор условного атрибута для разбиения (окончание) Критерий для выбора атрибута X – следующего атрибута для разбиения:

атрибута для разбиения: