Бинарный линейный классификатор

Содержание

Слайд 2

Бинарный линейный классификатор

XN={(x1,y1),…, (xN,yN)}, xi∈ RP, yi ∈{-1,+1}

Цель: каждый новый входной вектор

Бинарный линейный классификатор XN={(x1,y1),…, (xN,yN)}, xi∈ RP, yi ∈{-1,+1} Цель: каждый новый
x отнести к одному их двух классов – положительному «+1» или отрицательному «+1»

 

 

Слайд 3

Примеры задач Data mining

классификация – отнесение объекта к одной из категорий (классов)

Примеры задач Data mining классификация – отнесение объекта к одной из категорий
на основании его признаков
регрессия – прогнозирование значения непрерывного количественного признака объекта на основании прочих его признаков
кластеризация – разбиение множества объектов на группы на основании признаков этих объектов так, чтобы внутри групп объекты были похожи между собой сильнее, чем вне одной группы
Задачи классификации и регрессии – это задачи обучения с учителем.

Слайд 4

Линейная модель классификации

Линейная модель классификации

Слайд 5

Пример нелинейного разделения классов

Пример нелинейного разделения классов

Слайд 6

Confusion matrix (матрица ошибок классификации)

Confusion matrix (матрица ошибок классификации)

Слайд 7

Метрики качества классификации

Доля правильных ответов:

Малоинформативна в задачах с неравными классами.
Пример. Допустим,

Метрики качества классификации Доля правильных ответов: Малоинформативна в задачах с неравными классами.
мы хотим оценить работу спам-фильтра почты. У нас есть 100 не-спам писем, 90 из которых наш классификатор определил верно, и 10 спам-писем, 5 из которых классификатор также определил верно. Предположим, класс1- спам, а класс -1 -не спам
гда accuracy:

Если мы просто будем предсказывать все письма как не-спам, то получим более высокую accuracy

0.864

0.909

Слайд 8

Метрики качества классификации

precision (точность) и recall (полнота).

Precision показывает долю объектов, названных классификатором

Метрики качества классификации precision (точность) и recall (полнота). Precision показывает долю объектов,
положительными и при этом действительно являющимися положительными, а recall показывает, какую долю объектов положительного класса из всех объектов положительного класса нашел алгоритм.

Precision не позволяет записывать все объекты в один класс, так как в этом случае растет значение FP. Recall демонстрирует способность алгоритма обнаруживать данный класс вообще, а precision — способность отличать этот класс от других классов.

Слайд 9

AUC-ROC –площадь под кривой ошибок

TPR - это полнота, а FPR показывает, какую

AUC-ROC –площадь под кривой ошибок TPR - это полнота, а FPR показывает,
долю из объектов отрицательного класса алгоритм предсказал неверно.

Кривая ошибок или ROC-кривая – графическая характеристика качества бинарного классификатора, зависимость доли верных положительных классификаций от доли ложных положительных классификаций при варьировании порога решающего правила.

Слайд 10

AUC-ROC –площадь под кривой ошибок

В идеальном случае, когда классификатор не делает ошибок

AUC-ROC –площадь под кривой ошибок В идеальном случае, когда классификатор не делает
(FPR = 0, TPR = 1), площадь под кривой, равна 1; в противном случае, когда классификатор случайно выдает вероятности классов, AUC-ROC = 0.5. Каждая точка на графике соответствует выбору некоторого порога вероятности, разделяющего положительный и отрицательный класс.

Критерий AUC-ROC устойчив к несбалансированным классам и может быть интерпретирован как вероятность того, что случайно выбранный положительный объект будет иметь более высокую вероятность быть положительно определенным данным классификатором, чем случайно выбранный отрицательный объект.

Площадь под кривой в данном случае показывает качество алгоритма (больше — лучше), кроме этого, важной является крутизна самой кривой — мы хотим максимизировать TPR, минимизируя FPR, а значит, наша кривая в идеале должна стремиться к точке (0,1).

Слайд 11

Чувствительность и специфичность

Наряду с FPR и TPR при оценке качества классификации используют

Чувствительность и специфичность Наряду с FPR и TPR при оценке качества классификации
также понятия чувствительности и специфичности, которые изменяются в интервале [0,1]:
чувствительность алгоритма совпадает с TPR (долей положительных объектов, правильно классифицированных алгоритмом);
специфичность алгоритма определяется как 1-FPR (это доля отрицательных объектов, правильно классифицированных алгоритмом).
Модель с высокой чувствительностью чаще дает истинный результат при наличии положительного исхода (хорошо обнаруживает положительные примеры). Наоборот, модель с высокой специфичностью чаще дает истинный результат при наличии отрицательного исхода (хорошо обнаруживает отрицательные примеры).

Слайд 12

Дерево решений

Деревья решений - это метод, позволяющий предсказывать значения зависимой переменной в

Дерево решений Деревья решений - это метод, позволяющий предсказывать значения зависимой переменной
зависимости от соответствующих значений одной или нескольких предикторных (независимых) переменных. Применяется в задачах классификации и (реже) регрессии.

Слайд 13

Графическая иллюстрация нелинейного разделения классов

На рисунки приведен пример классификации объектов по двум

Графическая иллюстрация нелинейного разделения классов На рисунки приведен пример классификации объектов по
непрерывным признакам. Объекты, относящиеся к разным классам, отмечены знаками "+" и "–".

Слайд 14

Использование деревьев решений в задачах регрессии

Использование деревьев решений в задачах регрессии

Слайд 15

Этапы построения дерева решений

1. Выбор критерия точности прогноза
2. Выбор типа ветвления
3. Определение момента

Этапы построения дерева решений 1. Выбор критерия точности прогноза 2. Выбор типа
прекращения ветвлений
4. Определение "подходящих" размеров дерева

Выбор критерия точности прогноза

Accuracy, precision, recall – в задачах классификации

МSE,MAE– в задачах регрессии

Слайд 16

Выбор типа ветвления (criterion)

Есть различные способы выбирать очередной признак для текущего ветвления:
Алгоритм

Выбор типа ветвления (criterion) Есть различные способы выбирать очередной признак для текущего
ID3, где выбор атрибута происходит на основании прироста информации ( Gain ).
Алгоритм C4.5 (улучшенная версия ID3), где выбор атрибута происходит на основании нормализованного прироста информации ( Gain Ratio).
Алгоритм CART где выбор атрибута происходит на основании индекса Джини.

Слайд 17

Энтропия

 

Энтропия Шеннона для системы с s возможными состояниями:

 

Энтропия Энтропия Шеннона для системы с s возможными состояниями:

Слайд 18

Прирост информации (ID3)

Прирост информации (ID3)

Слайд 19

Прогноз игры в футбол

Первый вариант дерева

Второй вариант дерева

Прогноз игры в футбол Первый вариант дерева Второй вариант дерева

Слайд 20

Вычисление энтропии и прироста информации

Вычисление энтропии и прироста информации

Слайд 21

Нормализованный прирост информации (C4.5)

Нормализованный прирост информации (C4.5)

Слайд 22

Индекс Gini (CART)

Индекс Gini (CART)

Слайд 23

Правила разбиения (CART)

 

Правила разбиения (CART)

Слайд 24

Правила остановки

Минимальное число объектов, при котором выполняется расщепление (min_samples_split). В этом варианте

Правила остановки Минимальное число объектов, при котором выполняется расщепление (min_samples_split). В этом
ветвление прекращается, когда все терминальные вершины, содержащие более одного класса, содержат не более чем заданное число объектов (наблюдений).
Минимальное число объектов в листьях (min_samples_leaf)
Доля неклассифицированных. В этом варианте ветвление прекращается, когда все терминальные вершины, содержащие более одного класса, содержат не более чем заданную долю неправильно классифицированных объектов (наблюдений).
Максимальная глубина деревьев (max_depth)

Слайд 25

Механизм отсечения дерева (CART)

Механизм отсечения дерева (CART)

Слайд 26

Иллюстрация переобучения

Иллюстрация переобучения

Слайд 27

Случайный лес (Random forest)

Случайный лес — алгоритм машинного обучения, заключающийся в использовании комитета

Случайный лес (Random forest) Случайный лес — алгоритм машинного обучения, заключающийся в
(ансамбля) деревьев решений.

Слайд 28

Обучение случайного леса

 

Обучение случайного леса