Методы многомерной классификации

Февраль 14, 2021

Главная
Разное
Методы многомерной классификации

Содержание

2. План Теоретические основы Что это такое Виды и этапы классификации Как оценить результаты Геометрическая интерпретация Методы
3. Часть I. Теоретические основы
4. Можно ли по спектру отличить кетон от эфира? Можно ли определить пол человека по его ответам
5. Этапы классификации Кластеризация изучение исходных данных на предмет наличия в них групп, классов и определение признаков,
6. С чем работаем? Объект — все, что угодно: пациент, вещество, предмет и т.д. Вектор признаков —
7. Геометрическая интерпретация Вектор признаков – переменные (степени свободы) образующие N-мерную систему координат (N – число переменных
8. Алгоритмы классификации Без обучения (Unsupervised) C обучением (Supervised) Априори не известно существуют ли скрытые группы в
9. Возможные ситуации В начале ни одного класса не определено первым шагом в этом случае является предварительный
10. Возможные ситуации Имеется одна ярко выраженная группа В этом случае основная задача классификации найти и выделить
11. Как определить класс? Есть данные и некоторая информация о них, как на ее основе определить класс?
12. Как определить класс? Уровень A Известно некоторое характерной свойство, если объект обладает этим свойством, он принадлежит
13. Как определить класс? Уровень B Аналитик имеет в своем распоряжении набор данных среди которых находятся объекты
14. Как определить класс? Уровень C В дополнение к уровню B известно так же какие именно переменные
15. Как определить класс? Уровень D На данном уровне класс определяется совокупностью релевантных переменных и зависимостью между
16. Распознавание образов Итак класс или классы определены, каким образом классифицировать новые значения? Будем использовать геометрическую интерпретацию!
17. Распознавание образов. Уровень 1 Предполагаем, что все объекты (как исходного так и тестового набора) принадлежать одному
18. Распознавание образов. Уровень 2 Предполагаем, что помимо объектов, принадлежащих тому или иному классу, возможны выбросы –
19. Распознавание образов. Уровень 2а Асимметричный случай – один из классов не имеет характерной структуры Пример: контролируемый
20. Какие еще могут быть проблемы? Некоторые гиперобъемы могут перекрываться Не всегда можно определить правильный геометрический эквивалент
21. Как оценить эффективность? Рассмотрим работу одноклассового классификатора: Ошибки первого рода — образцы, являющиеся членами класса, но
22. Кривая мощности критерия
23. Какие ошибки уменьшать? Все зависит от конкретного случая: Уменьшение ошибок первого рода: риск упустить важную информацию
24. Как это все реализовать? Как определить гиперобъем? Как определить схожесть объектов? Как вычислить попадает ли объект
25. Как это все реализовать? Будем и дальше использовать геометрическую интерпретацию Как определить класс? Используем линейную границу:
26. Как это все реализовать? Используем проекционный подход: объекты, с меньшей координатой — класс А, с большей
27. Как это все реализовать? Находим центроиды — центры моделей: Объекты, расстояние от которых до первого центра
28. Как это все реализовать? Нет четкого разделения между классами: Устанавливаем ограничение на максимальное расстояние от центра
29. График расстояний: используем проекцию Оси — расстояния от объекта до центров каждого из классов Class B
30. График расстояний: работаем в пространстве Centre class A Centre class B Class A Class B Выбросы
31. Как вычислить расстояние? Евклидово расстояние: Здесь k и l — номера объектов, xk, xl — их
32. Как вычислить расстояние? Расстояние Махаланобиса Здесь k и l — номера объектов, xk, xl — их
33. Как вычислить расстояние? Расстояние Махаланобиса
34. Альтернатива – метод ближайших соседей Подсчитывается число ближайших k соседей рассматриваемого объекта Тот класс, к которому
35. Использование исходных данных Вектор признаков зачастую состоит из десятков, сотен переменных, что делает невозможным визуальный анализ
36. Часть II. Методы многомерной классификации
37. Методы многомерной классификации Unsupervised МГК Supervised SIMCA PLS DA SVM Neural networks …
38. Набор данных: Elements Свойства некоторых элементов таблицы Менделеева: – 25 образцов х 5 переменных – 5
39. Предварительный анализ (2D) A C B D
40. МГК-анализ Cчета Нагрузки
41. МГК-анализ Автошкалирование!
42. МГК-анализ Cчета Нагрузки
43. МГК-анализ Cчета Нагрузки
44. Soft Independent Modeling of Class Analogy Предложен Svante Wold, 1970-е годы Объект может относится одновременной к
45. SIMCA: основные этапы 1. Каждый класс моделируется методом главных компонент Для каждого класса может использоваться разное
46. SIMCA: основные этапы 2. Вычисляется расстояние от объекта до каждого класса В данном случае расстояние от
47. SIMCA: исходные данные – вино 3 класса, 178 образцов х 13 переменных Тренировочный набор: 148 образцов
48. SIMCA: основные результаты Графики моделей Классификационная таблица Расстояние между моделями Модельная мощность переменных Дискриминационная мощность переменных
49. SIMCA: основные результаты Общая МГК-модель
50. SIMCA: основные результаты Таблица классификации
51. SIMCA: основные результаты Расстояние между моделями Все объекты одной модели соотносятся с ней же, затем соотносятся
52. SIMCA: основные результаты Модельная мощность переменной Данный параметр показывает насколько сильное влияние оказывает данная переменная на
53. SIMCA: основные результаты Дискриминационная мощность переменной Данный параметр показывает способность переменной разделять два класса (способность переменной
54. SIMCA: основные результаты Расстояние от образца до модели Рассматривается насколько далеко образец находится от модели данного
55. SIMCA: основные результаты Зависимость расстояния от размаха
56. SIMCA: основные результаты График Кумана
57. Резюме
58. Классификация шаг за шагом Предварительная обработка данных Большинство проекционных методов весьма чувствительны к предварительной обработке данных.
59. Классификация шаг за шагом Раздельное построение моделей для классов Для классов, которые были выявлены на втором
61. Скачать презентацию

План
Теоретические основы
Что это такое
Виды и этапы классификации
Как оценить результаты
Геометрическая интерпретация
Методы многомерной классификации
МГК
SIMCA
Примеры,

обсуждения и выводы

Часть I. Теоретические основы

Можно ли по спектру отличить кетон от эфира?
Можно ли определить пол человека

по его ответам на вопросы анкеты об автомобилях?
Можно ли по хроматограмме узнать происхождение вина и если да, то какие именно особенности хроматограммы позволяют это сделать?
Как, зная размеры лепестков, определить к какому виду относится изучаемый цветок?
Как зная содержание элементов в почве определить из какого она района?

Слайд 5

Этапы классификации
Кластеризация
изучение исходных данных на предмет наличия в них групп, классов и

определение признаков, которые за это отвечают

Построение модели
нахождение зависимости между значениями признаков объектов и принадлежность их к определенной группе

Классификация новых образцов
отождествление неизвестных образцов с одним из известных классов

Слайд 6

С чем работаем?
Объект — все, что угодно: пациент, вещество, предмет и т.д.
Вектор

признаков — набор переменных и их значений, характеризующих объект
Группа или класс — совокупность объектов обладающих схожими характеристиками, например (все или только некоторые) значения признаков которых лежат в определенных границах
Пример:
объект — человек вектор признаков — рост, вес, длина волос, умение плавать, размер обуви, кулинарные предпочтения
возможные группы — по полу, по материку, по стране и т.п.

Слайд 7

Геометрическая интерпретация
Вектор признаков – переменные (степени свободы) образующие N-мерную систему координат (N

– число переменных в векторе признаков)
Объекты – точки в пространстве признаков
Группы или классы – ограниченные подпространства в пространстве признаков: гиперкуб, гиперсфера и т.п.

Слайд 8

Алгоритмы классификации
Без обучения (Unsupervised)
C обучением (Supervised)
Априори не известно существуют ли скрытые группы

в данных и сколько их
Основной механизм – поиск аналогий в поведении значений параметров объектов
Основная цель – установить наличие групп (классов), а так же причину – переменные или их комбинации, которые на это влияют (являются схожими для объектов той или иной группы)

Априори известно о том, какой группе принадлежит объекты из исходного набора данных
Основной механизм – построение модели, связывающей значения параметров объектов образующих ту или иную группу
Основная цель – использование полученной модели для классификации новых образцов

Слайд 9

Возможные ситуации
В начале ни одного класса не определено
первым шагом в этом случае

является предварительный анализ данных на предмет обнаружения потенциальных групп. В зависимости от результата возможны варианты:
Имеется одна ярко выраженная группа
Имеется несколько ярко выраженных групп
Эти же варианты могут быть известны априори

Слайд 10

Возможные ситуации
Имеется одна ярко выраженная группа
В этом случае основная задача классификации найти

и выделить типичную зависимость в данных для объектов, принадлежащих к одной группе и использовать ее для классификации новых объектов
Имеется несколько ярко выраженных групп
Необходимо использовать методы распознавания образов для выяснения принадлежности новых объектов к тому или иному классу. Задачу можно свести к предыдущей ситуации.

Слайд 11

Как определить класс?
Есть данные и некоторая информация о них, как на ее

основе определить класс?
Что такое схожесть объектов, принадлежащих одному классу?
Все зависит от уровня начальных знаний:

A. Известно некоторое характерное свойство

B. Имеется репрезентативный набор данных

C. Известны релевантные переменные

D. Известна зависимость между ними

Фундаментальные знания о классе

Слайд 12

Как определить класс? Уровень A
Известно некоторое характерной свойство, если объект обладает этим

свойством, он принадлежит классу, в противном случае – нет
Примеры: пол человека или животного, спин частицы, способность лекарства снимать боль и т.п.
Возможные проблемы: очень часто одно свойство не определяет класс, в котором объекты распределены неравномерно, особенно если данное свойство может быть результатом действия разных механизмов

Слайд 13

Как определить класс? Уровень B
Аналитик имеет в своем распоряжении набор данных среди

которых находятся объекты заведомо принадлежащие данному классу – репрезентативную выборку
Пример: данные химического или спектрального анализа качественных лекарств и подделок, но какие образцы являются подделками, а какие качественными препаратами – неизвестно
Возможные проблемы: необходимо, чтобы выборка как можно полнее покрывала различные вариации, характерные для объектов класса

Слайд 14

Как определить класс? Уровень C
В дополнение к уровню B известно так же

какие именно переменные из исходного набора определяют принадлежность к классу, т.е. являются релевантными
Пример: данные химического или спектрального анализа качественных лекарств и подделок, причем известно какие образцы относятся к подделкам, а какие – к качественным лекарствам
Возможные проблемы: обычно выявление релевантных переменных происходит методом проб и ошибок и требует времени.

Слайд 15

Как определить класс? Уровень D
На данном уровне класс определяется совокупностью релевантных переменных

и зависимостью между их значениями. Этот уровень знаний позволяет классифицировать новые, неизвестные объекты
Пример: модель, связывающая данные анализа с принадлежностью образцов к тому или иному классу
Что дальше? Одна из самых простых возможностей углубить уровень знаний после уровня D – интерпретировать известную зависимость и использовать результаты интерпретации

Слайд 16

Распознавание образов
Итак класс или классы определены, каким образом классифицировать новые значения? Будем

использовать геометрическую интерпретацию!
В начале рассмотрим два уровня распознавания образов:
Классификация как однозначное определение принадлежности к одному из классов
Классификация с определением класса и учетом возможности выбросов

Слайд 17

Распознавание образов. Уровень 1
Предполагаем, что все объекты (как исходного так и тестового

набора) принадлежать одному из заранее определенных классов – лежать в соответствующем гиперобъеме
Проблема: в реальных ситуациях такое встречается очень редко

Слайд 18

Распознавание образов. Уровень 2
Предполагаем, что помимо объектов, принадлежащих тому или иному классу,

возможны выбросы – объекты, не соответствующие ни одному классу, т.е. не попадающие ни в один гиперобъем
Проблемы: один из классов может не иметь определенной геометрической структуры

Слайд 19

Распознавание образов. Уровень 2а
Асимметричный
случай – один из классов не имеет характерной

структуры
Пример: контролируемый процесс (параметры в жестких рамках) или неконтролируемый (может происходить что угодно)

Слайд 20

Какие еще могут быть проблемы?
Некоторые гиперобъемы могут перекрываться
Не всегда можно определить правильный

геометрический эквивалент группы или класса

Слайд 21

Как оценить эффективность?
Рассмотрим работу одноклассового классификатора:
Ошибки первого рода — образцы, являющиеся членами

класса, но ошибочно отклоненные классификатором
Ошибки второго рода — образцы, ошибочно определенные классификатором как члены класса

Слайд 22

Кривая мощности критерия

Слайд 23

Какие ошибки уменьшать?
Все зависит от конкретного случая:
Уменьшение ошибок первого рода: риск упустить

важную информацию выше, чем последствия ее переоценки. Примеры — определения ядовитых веществ, медицинский диагноз
Уменьшение ошибок второго рода: с точностью до наоборот. Примеры — судопроизводство

Слайд 24

Как это все реализовать?
Как определить гиперобъем?
Как определить схожесть объектов?
Как вычислить попадает ли

объект к данному классу, если объемы перекрываются?
Как классифицировать выбросы?
Как уменьшить ошибки первого или второго рода?

Слайд 25

Как это все реализовать?
Будем и дальше использовать геометрическую интерпретацию
Как определить класс?
Используем линейную

границу: все, что выше — первый класс, все, что ниже — второй

Слайд 26

Как это все реализовать?
Используем проекционный подход: объекты, с меньшей координатой — класс

А, с большей — класс B

Class A

Class B

Слайд 27

Как это все реализовать?
Находим центроиды — центры моделей: Объекты, расстояние от которых до

первого центра меньше, чем до второго, принадлежат классу A и наоборот

Слайд 28

Как это все реализовать?
Нет четкого разделения между классами:
Устанавливаем ограничение на максимальное расстояние

от центра и все остальное считаем выбросами – уменьшение ошибок второго рода
Устанавливаем приоритетный класс и максимальное расстояние до его центра ставим больше, чем до центра второго класса — уменьшение ошибок первого рода

Слайд 29

График расстояний: используем проекцию
Оси — расстояния от объекта до центров каждого

из классов

Class B

Class A

Нераспознанные объекты

Слайд 30

График расстояний: работаем в пространстве
Centre class A
Centre class B
Class A
Class B
Выбросы
Объекты, характерные

для обоих классов

Слайд 31

Как вычислить расстояние?
Евклидово расстояние:
Здесь k и l — номера объектов, xk, xl

— их векторы признаков
Основные характеристики
Каждая переменная вектора признаков дает одинаковый вклад наряду с остальными — считается что они ортогональны
Если между переменными имеется корреляция то они будут иметь непропорциональное влияние на результаты анализа

Слайд 32

Как вычислить расстояние?
Расстояние Махаланобиса
Здесь k и l — номера объектов, xk, xl

— их векторы признаков, С — ковариационная матрица признаков
Основные характеристики
Учитывает возможную корреляцию между переменными
Если корреляция между переменными отсутствует, то расстояние Махаланобиса равно расстоянию Евклида

Слайд 33

Как вычислить расстояние?
Расстояние Махаланобиса

Слайд 34

Альтернатива – метод ближайших соседей
Подсчитывается число ближайших k соседей рассматриваемого объекта
Тот класс,

к которому принадлежит большинство соседей и соотносится с объектом
Метод ближайшего соседа

Слайд 35

Использование исходных данных
Вектор признаков зачастую состоит из десятков, сотен переменных, что делает

невозможным визуальный анализ данных
Матрица исходных данных содержит лишь несколько релевантных переменных и большое число нерелевантных
Данные могут содержать шум
Данные могут быть линейно зависимы
Выход: использовать проекционные методы!

Слайд 36

Часть II. Методы многомерной классификации

Слайд 37

Методы многомерной классификации
Unsupervised
МГК
Supervised
SIMCA
PLS DA
SVM
Neural networks
…

Слайд 38

Набор данных: Elements
Свойства некоторых элементов таблицы Менделеева:
– 25 образцов х 5

переменных
– 5 групп

Слайд 39

Предварительный анализ (2D)
A
C
B
D

Слайд 40

МГК-анализ
Cчета
Нагрузки

Слайд 41

МГК-анализ
Автошкалирование!

Слайд 42

МГК-анализ
Cчета
Нагрузки

Слайд 43

МГК-анализ
Cчета
Нагрузки

Слайд 44

Soft Independent Modeling of Class Analogy
Предложен Svante Wold, 1970-е годы
Объект может относится

одновременной к нескольким классам, что очень часто может встречаться в реальной жизни
Основная идея: моделировать каждый класс независимо от других и для каждого объекта определять принадлежит он данному класс или нет

Слайд 45

SIMCA: основные этапы
1. Каждый класс моделируется методом главных компонент
Для каждого класса может

использоваться разное число компонент, которое определяется в соответствии с методами, изложенными в курсе по МГК
При построении обязательно необходимо проверить модель на предмет наличия выбросов и/или необходимости предобработки данных

Слайд 46

SIMCA: основные этапы
2. Вычисляется расстояние от объекта до каждого класса
В данном случае

расстояние от нового образца (звездочка) до плоскости ближе, чем до прямой
Может использоваться так же вероятностный подход

Слайд 47

SIMCA: исходные данные – вино
3 класса, 178 образцов х 13 переменных
Тренировочный набор:

148 образцов
Проверочный набор: 30 образцов

Слайд 48

SIMCA: основные результаты
Графики моделей
Классификационная таблица
Расстояние между моделями
Модельная мощность переменных
Дискриминационная мощность переменных
Расстояние от

образца до моделей (классов)
Размах образца
График Кумана

Слайд 49

SIMCA: основные результаты
Общая МГК-модель

Слайд 50

SIMCA: основные результаты
Таблица классификации

Слайд 51

SIMCA: основные результаты
Расстояние между моделями
Все объекты одной модели соотносятся с ней же,

затем соотносятся с другой моделью, затем результат сравнивается с единицей. Чем больше данный параметр тем более хорошо различаются модели

Слайд 52

SIMCA: основные результаты
Модельная мощность переменной
Данный параметр показывает насколько сильное влияние оказывает данная

переменная на моделирование данного класса
Рассчитывается по формуле
Разброс значений: 1 – сильное влияние … 0 – влияния нет

Слайд 53

SIMCA: основные результаты
Дискриминационная мощность переменной
Данный параметр показывает способность переменной разделять два класса

(способность переменной моделировать класс не влечет за собой автоматом способность разделять)
Рассчитывается по формуле
Разброс значений: чем больше значение, тем больше способность к дискриминации

Слайд 54

SIMCA: основные результаты
Расстояние от образца до модели
Рассматривается насколько далеко образец находится от

модели данного класса (используется отношение дистанции до центроида и вариация)
Размах образца
Рассматривается насколько проекция образца на данную модель далека от ее центроида (т.е. насколько он отличается от других образцов данной модели)

Слайд 55

SIMCA: основные результаты
Зависимость расстояния от размаха

Слайд 56

SIMCA: основные результаты
График Кумана

Слайд 57

Резюме

Слайд 58

Классификация шаг за шагом
Предварительная обработка данных
Большинство проекционных методов весьма чувствительны к предварительной

обработке данных. Поэтому, если нет априорной информации, какие переменные имеют более сильное влияние, а какие – нет, необходимо центрировать данные и шкалировать
Предварительный анализ данных
Второй этап представляет собой построение МГК и/или ПЛС модели исходных данных и предварительный обзор результатов на предмет наличия групп, выбросов и прочих аномалий

Слайд 59

Классификация шаг за шагом
Раздельное построение моделей для классов
Для классов, которые были выявлены

на втором этапе, строятся раздельно модели для лучшей кластеризации и анализа поведения объектов внутри класса. Очень важно на этом этапе использовать кросс-валидацию
Интерпретация моделей
На данном этапе полученные модели анализируются и интерпретируются на предмет выявления наиболее значимых для них переменных

Методы многомерной классификации

Содержание

Часть I. Теоретические основы

Можно ли по спектру отличить кетон от эфира?Можно ли определить пол человека

Этапы классификацииКластеризацияизучение исходных данных на предмет наличия в них групп, классов и

С чем работаем?Объект — все, что угодно: пациент, вещество, предмет и т.д.Вектор

Геометрическая интерпретацияВектор признаков – переменные (степени свободы) образующие N-мерную систему координат (N

Алгоритмы классификацииБез обучения (Unsupervised)C обучением (Supervised)Априори не известно существуют ли скрытые группы

Возможные ситуацииВ начале ни одного класса не определенопервым шагом в этом случае

Возможные ситуацииИмеется одна ярко выраженная группаВ этом случае основная задача классификации найти

Как определить класс?Есть данные и некоторая информация о них, как на ее

Как определить класс? Уровень AИзвестно некоторое характерной свойство, если объект обладает этим

Как определить класс? Уровень BАналитик имеет в своем распоряжении набор данных среди

Как определить класс? Уровень CВ дополнение к уровню B известно так же

Как определить класс? Уровень DНа данном уровне класс определяется совокупностью релевантных переменных

Распознавание образовИтак класс или классы определены, каким образом классифицировать новые значения? Будем

Распознавание образов. Уровень 1Предполагаем, что все объекты (как исходного так и тестового

Распознавание образов. Уровень 2Предполагаем, что помимо объектов, принадлежащих тому или иному классу,

Распознавание образов. Уровень 2аАсимметричный случай – один из классов не имеет характерной

Какие еще могут быть проблемы?Некоторые гиперобъемы могут перекрыватьсяНе всегда можно определить правильный

Как оценить эффективность?Рассмотрим работу одноклассового классификатора:Ошибки первого рода — образцы, являющиеся членами

Кривая мощности критерия

Какие ошибки уменьшать?Все зависит от конкретного случая:Уменьшение ошибок первого рода: риск упустить

Как это все реализовать?Как определить гиперобъем?Как определить схожесть объектов?Как вычислить попадает ли

Как это все реализовать?Будем и дальше использовать геометрическую интерпретациюКак определить класс?Используем линейную

Как это все реализовать?Используем проекционный подход: объекты, с меньшей координатой — класс

Как это все реализовать?Находим центроиды — центры моделей: Объекты, расстояние от которых до

Как это все реализовать?Нет четкого разделения между классами:Устанавливаем ограничение на максимальное расстояние

График расстояний: используем проекцию Оси — расстояния от объекта до центров каждого

График расстояний: работаем в пространствеCentre class ACentre class BClass AClass BВыбросыОбъекты, характерные

Как вычислить расстояние?Евклидово расстояние:Здесь k и l — номера объектов, xk, xl

Как вычислить расстояние?Расстояние МахаланобисаЗдесь k и l — номера объектов, xk, xl

Как вычислить расстояние?Расстояние Махаланобиса

Альтернатива – метод ближайших соседейПодсчитывается число ближайших k соседей рассматриваемого объектаТот класс,

Использование исходных данныхВектор признаков зачастую состоит из десятков, сотен переменных, что делает

Часть II. Методы многомерной классификации

Методы многомерной классификацииUnsupervisedМГКSupervisedSIMCAPLS DASVMNeural networks…

Набор данных: ElementsСвойства некоторых элементов таблицы Менделеева: – 25 образцов х 5

Предварительный анализ (2D)ACBD

МГК-анализCчетаНагрузки

МГК-анализАвтошкалирование!

МГК-анализCчетаНагрузки

МГК-анализCчетаНагрузки

Soft Independent Modeling of Class AnalogyПредложен Svante Wold, 1970-е годыОбъект может относится

SIMCA: основные этапы1. Каждый класс моделируется методом главных компонентДля каждого класса может

SIMCA: основные этапы2. Вычисляется расстояние от объекта до каждого классаВ данном случае

SIMCA: исходные данные – вино3 класса, 178 образцов х 13 переменныхТренировочный набор:

SIMCA: основные результатыОбщая МГК-модель

SIMCA: основные результатыТаблица классификации

SIMCA: основные результатыРасстояние между моделямиВсе объекты одной модели соотносятся с ней же,

SIMCA: основные результатыМодельная мощность переменнойДанный параметр показывает насколько сильное влияние оказывает данная

SIMCA: основные результатыДискриминационная мощность переменнойДанный параметр показывает способность переменной разделять два класса

SIMCA: основные результатыРасстояние от образца до моделиРассматривается насколько далеко образец находится от

SIMCA: основные результатыЗависимость расстояния от размаха

SIMCA: основные результатыГрафик Кумана

Резюме

Классификация шаг за шагомПредварительная обработка данныхБольшинство проекционных методов весьма чувствительны к предварительной

Классификация шаг за шагомРаздельное построение моделей для классовДля классов, которые были выявлены

Похожие презентации

Можно ли по спектру отличить кетон от эфира?
Можно ли определить пол человека

Этапы классификации
Кластеризация
изучение исходных данных на предмет наличия в них групп, классов и

С чем работаем?
Объект — все, что угодно: пациент, вещество, предмет и т.д.
Вектор

Геометрическая интерпретация
Вектор признаков – переменные (степени свободы) образующие N-мерную систему координат (N

Алгоритмы классификации
Без обучения (Unsupervised)
C обучением (Supervised)
Априори не известно существуют ли скрытые группы

Возможные ситуации
В начале ни одного класса не определено
первым шагом в этом случае

Возможные ситуации
Имеется одна ярко выраженная группа
В этом случае основная задача классификации найти

Как определить класс?
Есть данные и некоторая информация о них, как на ее

Как определить класс? Уровень A
Известно некоторое характерной свойство, если объект обладает этим

Как определить класс? Уровень B
Аналитик имеет в своем распоряжении набор данных среди

Как определить класс? Уровень C
В дополнение к уровню B известно так же

Как определить класс? Уровень D
На данном уровне класс определяется совокупностью релевантных переменных

Распознавание образов
Итак класс или классы определены, каким образом классифицировать новые значения? Будем

Распознавание образов. Уровень 1
Предполагаем, что все объекты (как исходного так и тестового

Распознавание образов. Уровень 2
Предполагаем, что помимо объектов, принадлежащих тому или иному классу,

Распознавание образов. Уровень 2а
Асимметричный
случай – один из классов не имеет характерной

Какие еще могут быть проблемы?
Некоторые гиперобъемы могут перекрываться
Не всегда можно определить правильный

Как оценить эффективность?
Рассмотрим работу одноклассового классификатора:
Ошибки первого рода — образцы, являющиеся членами

Какие ошибки уменьшать?
Все зависит от конкретного случая:
Уменьшение ошибок первого рода: риск упустить

Как это все реализовать?
Как определить гиперобъем?
Как определить схожесть объектов?
Как вычислить попадает ли

Как это все реализовать?
Будем и дальше использовать геометрическую интерпретацию
Как определить класс?
Используем линейную

Как это все реализовать?
Используем проекционный подход: объекты, с меньшей координатой — класс

Как это все реализовать?
Находим центроиды — центры моделей: Объекты, расстояние от которых до

Как это все реализовать?
Нет четкого разделения между классами:
Устанавливаем ограничение на максимальное расстояние

График расстояний: используем проекцию
Оси — расстояния от объекта до центров каждого

График расстояний: работаем в пространстве
Centre class A
Centre class B
Class A
Class B
Выбросы
Объекты, характерные

Как вычислить расстояние?
Евклидово расстояние:
Здесь k и l — номера объектов, xk, xl

Как вычислить расстояние?
Расстояние Махаланобиса
Здесь k и l — номера объектов, xk, xl

Как вычислить расстояние?
Расстояние Махаланобиса

Альтернатива – метод ближайших соседей
Подсчитывается число ближайших k соседей рассматриваемого объекта
Тот класс,

Использование исходных данных
Вектор признаков зачастую состоит из десятков, сотен переменных, что делает

Методы многомерной классификации
Unsupervised
МГК
Supervised
SIMCA
PLS DA
SVM
Neural networks
…

Набор данных: Elements
Свойства некоторых элементов таблицы Менделеева:
– 25 образцов х 5

Предварительный анализ (2D)
A
C
B
D

МГК-анализ
Cчета
Нагрузки

МГК-анализ
Автошкалирование!

МГК-анализ
Cчета
Нагрузки

МГК-анализ
Cчета
Нагрузки

Soft Independent Modeling of Class Analogy
Предложен Svante Wold, 1970-е годы
Объект может относится

SIMCA: основные этапы
1. Каждый класс моделируется методом главных компонент
Для каждого класса может

SIMCA: основные этапы
2. Вычисляется расстояние от объекта до каждого класса
В данном случае

SIMCA: исходные данные – вино
3 класса, 178 образцов х 13 переменных
Тренировочный набор:

SIMCA: основные результаты
Общая МГК-модель

SIMCA: основные результаты
Таблица классификации

SIMCA: основные результаты
Расстояние между моделями
Все объекты одной модели соотносятся с ней же,

SIMCA: основные результаты
Модельная мощность переменной
Данный параметр показывает насколько сильное влияние оказывает данная

SIMCA: основные результаты
Дискриминационная мощность переменной
Данный параметр показывает способность переменной разделять два класса

SIMCA: основные результаты
Расстояние от образца до модели
Рассматривается насколько далеко образец находится от

SIMCA: основные результаты
Зависимость расстояния от размаха

SIMCA: основные результаты
График Кумана

Классификация шаг за шагом
Предварительная обработка данных
Большинство проекционных методов весьма чувствительны к предварительной

Классификация шаг за шагом
Раздельное построение моделей для классов
Для классов, которые были выявлены