Классификция. Задача классификации

Содержание

Слайд 2

Проблема несбалансированности

Данные несбалансированы когда представители классов представлены не в приблизительном равном количестве

Проблема несбалансированности Данные несбалансированы когда представители классов представлены не в приблизительном равном
(далее все рассматриваем для 2 классов)

Слайд 3

В чем проблема?

Многие стандартные классификаторы пытаются увеличить точность и не изменить распределение

В чем проблема? Многие стандартные классификаторы пытаются увеличить точность и не изменить
обучающей выборки, поэтому они игнорируют маленькие классы. Если данные не сбалансированы, то предсказание большего класса для любого объекта приводит к точности порядка 90% (в зависимости от соотношения классов)

Слайд 4

Цель классификации - детектирование

Стоимость ошибки неправильно классифицировать ненормальный образец данных как нормальный

Цель классификации - детектирование Стоимость ошибки неправильно классифицировать ненормальный образец данных как
много выше чем наоборот.
Пример - поиск раковых клеток среди здоровых

Слайд 5

Примеры несбалансированных данных:

1) из 100 000 тысяч подавших заявку, только 2% проходят

Примеры несбалансированных данных: 1) из 100 000 тысяч подавших заявку, только 2%
в гарвард на стажировку
2) автоматизированная машина проверяющая на дефект произведенные на конвейере продукты намного чаще выбирает продукт без дефекта
3) тест на проверку заболевания раком получает в результатах много больше здоровых людей чем больных
4) в отслеживании воровства кредитных карт законных переводов много больше чем незаконных
5)мошеннические телефонные звонки
6)обнаружение нефтяных пятен по изображениям со спутника
7)оценка рисков

Слайд 6

Техники работы с несбалансированными данными

I. Работа с данными :
SMOTE
Random Undersampling
Random Oversampling
II.Чувствительность

Техники работы с несбалансированными данными I. Работа с данными : SMOTE Random
к стоимости ошибки
III. Выбор характеристик

Слайд 7

Метрики качества

Пусть есть два класса — отрицательный и положительный (меньший)

Метрики качества Пусть есть два класса — отрицательный и положительный (меньший)

Слайд 8

1) Accuracy – для сбалансированных данных

Процент правильно классифицированных образцов от всего числа

1) Accuracy – для сбалансированных данных Процент правильно классифицированных образцов от всего числа образцов
образцов

Слайд 9

2) ROC кривая – для несбалансированных

представляет границы лучших решений для относительных TP

2) ROC кривая – для несбалансированных представляет границы лучших решений для относительных
(по оси У) & FP(по оси Х)
каждая точка — классификатор с какими-то параметрами
линия х=у — при произвольном выборе метки класса

Слайд 11

AUC - площадь под ROC кривой .

  Она эквивалентна вероятности того

AUC - площадь под ROC кривой . Она эквивалентна вероятности того что
что классификатор ценит произвольно выбранный образец меньшего класса выше чем произвольно выбранный образец из большего класса. (она больше 0,5)
Т.е. это численная характеристика для сравнения классификаторов

Слайд 12

Для одной точки

Для одной точки

Слайд 13

Преимущества ROC

Когда алгоритм изучает больше образцов одного (-) класса он будет ошибочно

Преимущества ROC Когда алгоритм изучает больше образцов одного (-) класса он будет
классифицировать больше образцов другого класса (+). т.о. ROC изображает согласование между долей правильных и долей ложных предсказаний классификатора.
ROC показывает в каком диапазоне (в нашем случае соотношений обьемов классов) классификатор лучше других
ROC кривые нечувствительны к распределению по классам т. е. если соотношение между образцами из меньшего и большего класса изменится ROC кривая не изменится

Слайд 14

Алгоритм SMOTE

Считываем число образцов меньшего класса Т
Процент генерируемых образцов N
Число ближайших

Алгоритм SMOTE Считываем число образцов меньшего класса Т Процент генерируемых образцов N
соседей k
Для каждого образца (i) (вектора из атрибутов) из T(меньшего класса ) находим k ближайших соседей и генерируем [N/100] исскуственных образцов, повторяя на каждом шаге:
Из найденных соседей произвольно выбираем одного (nn), прибавляем к каждому из атрибутов i разницу между соответсвующими атрибутами i и nn, умноженную на произвольное число из отрезка [0,1] – получили новый вектор атрибутов – это новый искуственный образец меньшего класса
(атрибуты здесь – непрерывные величины,
т.е. числа)

Слайд 17

Преимущества SMOTE

Этот способ увеличения меньшего класса не приводит к переобучению (в отличие

Преимущества SMOTE Этот способ увеличения меньшего класса не приводит к переобучению (в
от random oversampling), т. е. алгоритм одинаково хорошо работает и на новых данных.
Множественные примеры с различным распределением данных и соотношением представителей классов показывают, что SMOTE работает лучше
Не требует инициализации каких-либо величин, что сильно влияло бы на результат классификации

Недостатки SMOTE

Данный алгоритм не выходит за рамки существующих образцов меньшего класса, т.е. не будут созданы образцы с существенно отличными атрибутами, что вполне возможно в настоящих данных

Слайд 18

Модификации SMOTE для дискретных атрибутов образцов

При вычислении атрибутов генерируемого образца для номинальных

Модификации SMOTE для дискретных атрибутов образцов При вычислении атрибутов генерируемого образца для
атрибутов значением будут самые частые соответсвующие номинальные атрибуты среди k ближайших соседей и рассматриваемого образца

SMOTE-NC