Содержание
- 2. План Теоретические основы Что это такое Виды и этапы классификации Как оценить результаты Геометрическая интерпретация Методы
- 3. Часть I. Теоретические основы
- 4. Можно ли по спектру отличить кетон от эфира? Можно ли определить пол человека по его ответам
- 5. Этапы классификации Кластеризация изучение исходных данных на предмет наличия в них групп, классов и определение признаков,
- 6. С чем работаем? Объект — все, что угодно: пациент, вещество, предмет и т.д. Вектор признаков —
- 7. Геометрическая интерпретация Вектор признаков – переменные (степени свободы) образующие N-мерную систему координат (N – число переменных
- 8. Алгоритмы классификации Без обучения (Unsupervised) C обучением (Supervised) Априори не известно существуют ли скрытые группы в
- 9. Возможные ситуации В начале ни одного класса не определено первым шагом в этом случае является предварительный
- 10. Возможные ситуации Имеется одна ярко выраженная группа В этом случае основная задача классификации найти и выделить
- 11. Как определить класс? Есть данные и некоторая информация о них, как на ее основе определить класс?
- 12. Как определить класс? Уровень A Известно некоторое характерной свойство, если объект обладает этим свойством, он принадлежит
- 13. Как определить класс? Уровень B Аналитик имеет в своем распоряжении набор данных среди которых находятся объекты
- 14. Как определить класс? Уровень C В дополнение к уровню B известно так же какие именно переменные
- 15. Как определить класс? Уровень D На данном уровне класс определяется совокупностью релевантных переменных и зависимостью между
- 16. Распознавание образов Итак класс или классы определены, каким образом классифицировать новые значения? Будем использовать геометрическую интерпретацию!
- 17. Распознавание образов. Уровень 1 Предполагаем, что все объекты (как исходного так и тестового набора) принадлежать одному
- 18. Распознавание образов. Уровень 2 Предполагаем, что помимо объектов, принадлежащих тому или иному классу, возможны выбросы –
- 19. Распознавание образов. Уровень 2а Асимметричный случай – один из классов не имеет характерной структуры Пример: контролируемый
- 20. Какие еще могут быть проблемы? Некоторые гиперобъемы могут перекрываться Не всегда можно определить правильный геометрический эквивалент
- 21. Как оценить эффективность? Рассмотрим работу одноклассового классификатора: Ошибки первого рода — образцы, являющиеся членами класса, но
- 22. Кривая мощности критерия
- 23. Какие ошибки уменьшать? Все зависит от конкретного случая: Уменьшение ошибок первого рода: риск упустить важную информацию
- 24. Как это все реализовать? Как определить гиперобъем? Как определить схожесть объектов? Как вычислить попадает ли объект
- 25. Как это все реализовать? Будем и дальше использовать геометрическую интерпретацию Как определить класс? Используем линейную границу:
- 26. Как это все реализовать? Используем проекционный подход: объекты, с меньшей координатой — класс А, с большей
- 27. Как это все реализовать? Находим центроиды — центры моделей: Объекты, расстояние от которых до первого центра
- 28. Как это все реализовать? Нет четкого разделения между классами: Устанавливаем ограничение на максимальное расстояние от центра
- 29. График расстояний: используем проекцию Оси — расстояния от объекта до центров каждого из классов Class B
- 30. График расстояний: работаем в пространстве Centre class A Centre class B Class A Class B Выбросы
- 31. Как вычислить расстояние? Евклидово расстояние: Здесь k и l — номера объектов, xk, xl — их
- 32. Как вычислить расстояние? Расстояние Махаланобиса Здесь k и l — номера объектов, xk, xl — их
- 33. Как вычислить расстояние? Расстояние Махаланобиса
- 34. Альтернатива – метод ближайших соседей Подсчитывается число ближайших k соседей рассматриваемого объекта Тот класс, к которому
- 35. Использование исходных данных Вектор признаков зачастую состоит из десятков, сотен переменных, что делает невозможным визуальный анализ
- 36. Часть II. Методы многомерной классификации
- 37. Методы многомерной классификации Unsupervised МГК Supervised SIMCA PLS DA SVM Neural networks …
- 38. Набор данных: Elements Свойства некоторых элементов таблицы Менделеева: – 25 образцов х 5 переменных – 5
- 39. Предварительный анализ (2D) A C B D
- 40. МГК-анализ Cчета Нагрузки
- 41. МГК-анализ Автошкалирование!
- 42. МГК-анализ Cчета Нагрузки
- 43. МГК-анализ Cчета Нагрузки
- 44. Soft Independent Modeling of Class Analogy Предложен Svante Wold, 1970-е годы Объект может относится одновременной к
- 45. SIMCA: основные этапы 1. Каждый класс моделируется методом главных компонент Для каждого класса может использоваться разное
- 46. SIMCA: основные этапы 2. Вычисляется расстояние от объекта до каждого класса В данном случае расстояние от
- 47. SIMCA: исходные данные – вино 3 класса, 178 образцов х 13 переменных Тренировочный набор: 148 образцов
- 48. SIMCA: основные результаты Графики моделей Классификационная таблица Расстояние между моделями Модельная мощность переменных Дискриминационная мощность переменных
- 49. SIMCA: основные результаты Общая МГК-модель
- 50. SIMCA: основные результаты Таблица классификации
- 51. SIMCA: основные результаты Расстояние между моделями Все объекты одной модели соотносятся с ней же, затем соотносятся
- 52. SIMCA: основные результаты Модельная мощность переменной Данный параметр показывает насколько сильное влияние оказывает данная переменная на
- 53. SIMCA: основные результаты Дискриминационная мощность переменной Данный параметр показывает способность переменной разделять два класса (способность переменной
- 54. SIMCA: основные результаты Расстояние от образца до модели Рассматривается насколько далеко образец находится от модели данного
- 55. SIMCA: основные результаты Зависимость расстояния от размаха
- 56. SIMCA: основные результаты График Кумана
- 57. Резюме
- 58. Классификация шаг за шагом Предварительная обработка данных Большинство проекционных методов весьма чувствительны к предварительной обработке данных.
- 59. Классификация шаг за шагом Раздельное построение моделей для классов Для классов, которые были выявлены на втором
- 61. Скачать презентацию