Классификация: общие принципы

Содержание

Слайд 2

План

Классификация: общие принципы
Кластеризация методом К средних
Классификация методом SIMCA

План Классификация: общие принципы Кластеризация методом К средних Классификация методом SIMCA

Слайд 3

Можно ли по спектру отличить кетон от эфира?
Можно ли определить пол человека

Можно ли по спектру отличить кетон от эфира? Можно ли определить пол
по его ответам на вопросы анкеты об автомобилях?
Можно ли по хроматограмме узнать происхождение вина и если да, то какие именно особенности хроматограммы позволяют это сделать?
Как, зная размеры лепестков, определить к какому виду относится изучаемый цветок?
Как зная содержание элементов в почве определить из какого она района?

Классификация: постановка задачи

Слайд 4

Этапы классификации

Кластеризация (классификация без обучения)
изучение исходных данных на предмет наличия в них

Этапы классификации Кластеризация (классификация без обучения) изучение исходных данных на предмет наличия
групп, классов и определение признаков, которые за это отвечают

Построение модели (классификация с обучением)
нахождение зависимости между значениями признаков объектов и принадлежность их к определенной группе

Классификация новых образцов (распознавание образов)
отнесение неизвестных образцов к одному из известных классов

Слайд 5

Алгоритмы классификации

Без обучения (Unsupervised)

C обучением (Supervised)

Априори не известно существуют ли скрытые группы

Алгоритмы классификации Без обучения (Unsupervised) C обучением (Supervised) Априори не известно существуют
в данных и сколько их
Основной механизм – поиск аналогий в поведении значений параметров объектов
Основная цель – установить наличие групп (классов), а так же причину – переменные или их комбинации, которые на это влияют (являются схожими для объектов той или иной группы)

Априори известно о том, какой группе принадлежит объекты из исходного набора данных
Основной механизм – построение модели, связывающей значения параметров объектов образующих ту или иную группу
Основная цель – использование полученной модели для классификации новых образцов

Слайд 6

С чем работаем?

Объект — все, что угодно: пациент, вещество, предмет, пиксел, изображение

С чем работаем? Объект — все, что угодно: пациент, вещество, предмет, пиксел,
и т.д.
Вектор признаков — набор значений переменных, характеризующих объект
Группа или класс — совокупность объектов обладающих схожими характеристиками, например (все или только некоторые) значения признаков которых лежат в определенных границах
Пример:
объект — человек вектор признаков — рост, вес, длина волос, умение плавать, размер обуви, кулинарные предпочтения
возможные группы — по полу, по материку, по стране и т.п.

Слайд 7

Геометрическая интерпретация

Вектор признаков – переменные (степени свободы) образующие N-мерную систему координат (N

Геометрическая интерпретация Вектор признаков – переменные (степени свободы) образующие N-мерную систему координат
– число переменных в векторе признаков)
Объекты – точки в пространстве признаков
Группы или классы – части пространства признаков

Слайд 8

Возможные ситуации

Возможные ситуации

Слайд 9

Возможные ситуации

Возможные ситуации

Слайд 10

Геометрическая интерпретация

Как задать классы?
1. Явное задать границы части пространства, соответствующей классу (полупространство,

Геометрическая интерпретация Как задать классы? 1. Явное задать границы части пространства, соответствующей
гиперсфера, гиперпрямоугольник, и т.п.)

Class A

Class B

Слайд 11

Геометрическая интерпретация

Как задать классы?
1. Явное задать границы части пространства, соответствующей классу (полупространство,

Геометрическая интерпретация Как задать классы? 1. Явное задать границы части пространства, соответствующей
гиперсфера, гиперпрямоугольник, и т.п.) Часто удобнее оперировать проекциями объектов

Class A

Class B

Слайд 12

Геометрическая интерпретация

Два подхода к заданию классов:
2. Степень принадлежности классу определяется расстоянием до

Геометрическая интерпретация Два подхода к заданию классов: 2. Степень принадлежности классу определяется
класса (до центра, до «каркаса», до границы)

Слайд 13

Геометрическая интерпретация

Два подхода к заданию классов:
2. Степень принадлежности классу определяется расстоянием до

Геометрическая интерпретация Два подхода к заданию классов: 2. Степень принадлежности классу определяется
класса (до центра, до «каркаса», до границы) Особенно актуально для ситуаций, когда классы перекрываются

Слайд 14

Геометрическая интерпретация

Два подхода к заданию классов:
2. Степень принадлежности классу определяется расстоянием до

Геометрическая интерпретация Два подхода к заданию классов: 2. Степень принадлежности классу определяется
класса (до центра, до «каркаса», до границы) Особенно актуально для ситуаций, когда классы перекрываются

Слайд 15

График расстояний

Для проекций объектов

Class B

Class A

Нераспознанные объекты

Расcтояние до класса A

Расcтояние до класса

График расстояний Для проекций объектов Class B Class A Нераспознанные объекты Расcтояние
B

Слайд 16

График расстояний

В исходном пространстве характеристик

Centre class A

Centre class B

Class A

Class B

Выбросы

Объекты, характерные

График расстояний В исходном пространстве характеристик Centre class A Centre class B
для обоих классов

Расcтояние до класса A

Расcтояние до класса B

Слайд 17

Расстояние в пространстве характеристик

Расстояние может задаваться разными метриками!
Евклидова метрика:
Метрика Махалонобиса:

Каждая переменная вектора

Расстояние в пространстве характеристик Расстояние может задаваться разными метриками! Евклидова метрика: Метрика
признаков дает одинаковый вклад наряду с остальными (признаки ортогональны)
Если между переменными имеется корреляция то они будут иметь непропорциональное влияние на результаты анализа

(C – ковариационная матрица)
Учитывает возможную корреляцию между переменными
Если корреляция между переменными отсутствует, то расстояние Махаланобиса равно расстоянию Евклида

Слайд 18

Расстояние в пространстве характеристик

Расстояние может задаваться разными метриками!
Евклидова метрика и метрика Махалонобиса:

Расстояние в пространстве характеристик Расстояние может задаваться разными метриками! Евклидова метрика и метрика Махалонобиса:

Слайд 19

Расстояние в пространстве характеристик

Расстояние может задаваться разными метриками!

Euclidean Distance (L2)
City Block Distance

Расстояние в пространстве характеристик Расстояние может задаваться разными метриками! Euclidean Distance (L2)

Canberra Metric
Histogram Intersection
Jeffrey Divergence
Bhattacharyya Distance
Chi-Square
Bray Curtis Distance
Angular Separation Distance

Chord Distance
Non-Correlation
Matusita Distance
Soergel
Wave-Hedges
WED Distance
Kolmogorov-Smirnov Statistic
Kuiper
Mean Distance

Слайд 20

Виды ошибок

Измерения ошибки как «вероятности выдать неверный ответ» может быть не всегда

Виды ошибок Измерения ошибки как «вероятности выдать неверный ответ» может быть не
достаточно
15% ошибки при постановке диагноза может означать как и то что, 15 % больных будут признаны здоровыми (и возможно умрут от отсутствия лечения), так и то, что 15% здоровых больными (и деньги на лечение будут потрачены зря)
При неравнозначности ошибок для разных классов вводят понятие ошибки первого и второго рода и замеряют их по отдельности

Слайд 21

Ошибки I и II рода

Пусть, существует «основной класс»
Обычно, это класс, при обнаружении

Ошибки I и II рода Пусть, существует «основной класс» Обычно, это класс,
которого, предпринимается какое-либо действие;
Например, при постановке диагноза основным классом будет «болен», а вторичным классом «здоров».
Ошибка первого рода – принять основной класс за вторичный
Вероятность «промаха», когда искомый объект будет пропущен
Ошибка второго рода равна вероятности принять вторичный класс за основной
Вероятность «ложной тревоги», когда за искомый объект будет принят «фон»

Слайд 22

Ошибки I и II рода

Истинная гипотеза

Ошибка II рода

Ошибка I рода

Построенная гипотеза

Будем считать

Ошибки I и II рода Истинная гипотеза Ошибка II рода Ошибка I
красные
точки «основным классом»

Слайд 23

Ошибки I и II рода

Что считать основным классом зависит полностью от прикладной

Ошибки I и II рода Что считать основным классом зависит полностью от
специфики
Особенно важно оценивать ошибки I и II рода раздельно при несбалансированности классов:
Пусть
Тогда при нулевой ошибке II рода и ошибке I рода 0.5
Общая ошибка всего лишь

Слайд 24

Чувствительность vs Избирательность
Чувствительность – вероятность дать правильный ответ на пример основного класса
Избирательность

Чувствительность vs Избирательность Чувствительность – вероятность дать правильный ответ на пример основного
– вероятность дать правильный ответ на пример вторичного класса

Слайд 25

Регулировка баланса

Почти все алгоритмы классификации допускают регулировку соотношения ошибки I и II

Регулировка баланса Почти все алгоритмы классификации допускают регулировку соотношения ошибки I и
рода за счет варьирования некоторого параметра

Слайд 26

Кривая мощности критерия

Кривая мощности критерия

Слайд 27

ROC-кривая

ROC – Receiver Operating Characteristic curve
Кривая, отражающая зависимость чувствительности и ошибки второго

ROC-кривая ROC – Receiver Operating Characteristic curve Кривая, отражающая зависимость чувствительности и
рода

Худший случай

Лучший случай

Слайд 28

Построение ROC-кривой

Для различных значений параметра строится таблица ошибок
Сам параметр в таблице не

Построение ROC-кривой Для различных значений параметра строится таблица ошибок Сам параметр в
участвует!
Классификатор строится и оценивается на разных выборках!

По таблице строится набор точек в плоскости sensitivity/FP
Каждая строка таблицы - точка

По точкам строится кривая

Слайд 29

Анализ ROC кривой

Площадь под графиком – AUC
Дает некоторый объективный показатель качества классификатора
Позволяет

Анализ ROC кривой Площадь под графиком – AUC Дает некоторый объективный показатель
сравнивать разные кривые
Соблюдение требуемого значения ошибок I и II рода
Зачастую, для конкретной задачи существуют рамки на ошибку определенного рода. С помощью ROC можно анализировать возможность текущего решения соответствовать требованию

Слайд 30

ROC: построение таблицы
Меняем порог и оцениваем ошибку

ROC: построение таблицы Меняем порог и оцениваем ошибку

Слайд 31

ROC: построение кривой

По таблице строим точки

Точки интерполируем кривой

ROC: построение кривой По таблице строим точки Точки интерполируем кривой

Слайд 32

Этапы классификации

I. Выявление групп
II. Построение модели
III. Классификация новых образцов

МГК
Факторный анализ
Кластерный анализ

Этапы классификации I. Выявление групп II. Построение модели III. Классификация новых образцов
SIMCA
PLS-DA

Слайд 33

Перекрестная проверка (cross-validation)

Итоговая ошибка – средняя
ошибка по всем итерациям

Перекрестная проверка (cross-validation) Итоговая ошибка – средняя ошибка по всем итерациям