Национальный исследовательский университет «МЭИ»

Содержание

Слайд 2

Цели и задачи

Целью данной работы является разработка модификации одного из классических методов

Цели и задачи Целью данной работы является разработка модификации одного из классических
классификации
Задачи:
Исследование постановок задачи классификации, методов решения, способов оценки качества классификации
Усовершенствование одного из классических методов
Исследование качества классификации, получаемого при использовании разработанной модификации метода и его сравнение с уже имеющимися реализациями методов

Слайд 3

План

Постановка задачи классификации
Метрики качества классификации и способы оценки качества классификации
Обзор методов классификации
Усовершенствованный

План Постановка задачи классификации Метрики качества классификации и способы оценки качества классификации
метод
Вычислительные эксперименты
Заключение

Слайд 4

План

Постановка задачи классификации
Метрики качества классификации и способы оценки качества классификации
Обзор методов классификации
Усовершенствованный

План Постановка задачи классификации Метрики качества классификации и способы оценки качества классификации
метод
Вычислительные эксперименты
Заключение

Слайд 5

Неформальная постановка задачи классификации

 

Постановка задачи классификации

Неформальная постановка задачи классификации Постановка задачи классификации

Слайд 6

Вероятностная постановка задачи

 

Постановка задачи классификации

Вероятностная постановка задачи Постановка задачи классификации

Слайд 7

Описание объектов

 

Постановка задачи классификации

Описание объектов Постановка задачи классификации

Слайд 8

План

Постановка задачи классификации
Оценка качества классификации
Обзор методов классификации
Усовершенствованный метод
Вычислительные эксперименты
Заключение

План Постановка задачи классификации Оценка качества классификации Обзор методов классификации Усовершенствованный метод Вычислительные эксперименты Заключение

Слайд 9

Метрики качества классификации

 

2. Оценка качества классификации

Метрики качества классификации 2. Оценка качества классификации

Слайд 10

Усреднение метрик

 

2. Оценка качества классификации

Усреднение метрик 2. Оценка качества классификации

Слайд 11

Скользящий контроль

 

2. Оценка качества классификации

Скользящий контроль 2. Оценка качества классификации

Слайд 12

План

Постановка задачи классификации
Метрики качества классификации и способы оценки качества классификации
Обзор методов классификации
Усовершенствованный

План Постановка задачи классификации Метрики качества классификации и способы оценки качества классификации
метод
Вычислительные эксперименты
Заключение

Слайд 13

Наивный байесовский классификатор

Наивный байесовский классификатор – это один из методов решения задачи

Наивный байесовский классификатор Наивный байесовский классификатор – это один из методов решения
в вероятностной постановке.
Работа метода основана на теореме Байеса и («наивном») предположении о том, что признаки, которыми описывается объект, являются независимыми.
Достоинства метода:
требуется малое количество данных для обучения
высокая скорость работы
легкость внесения в метод разного рода изменений

3. Обзор методов классификации

Слайд 14

Байесовское решающее правило с использованием принципа максимизации апостериорной вероятности

 

3. Обзор методов классификации

Байесовское решающее правило с использованием принципа максимизации апостериорной вероятности 3. Обзор методов классификации

Слайд 15

Оценки вероятностей в задаче классификации текстов

 

3. Обзор методов классификации

Оценки вероятностей в задаче классификации текстов 3. Обзор методов классификации

Слайд 16

Переход к суммированию

 

3. Обзор методов классификации

Переход к суммированию 3. Обзор методов классификации

Слайд 17

Метод k ближайших взвешенных соседей

 

3. Обзор методов классификации

Метод k ближайших взвешенных соседей 3. Обзор методов классификации

Слайд 18

Машина опорных векторов (SVM)

Работа метода основана на понятии оптимальной разделяющей гиперплоскости.
Задача

Машина опорных векторов (SVM) Работа метода основана на понятии оптимальной разделяющей гиперплоскости.
формулируется следующим образом: можем ли мы найти такую гиперплоскость, чтобы расстояние от нее до ближайшей точки было максимальным?
Если такая гиперплоскость существует, то она нас будет интересовать больше всего, она называется оптимальной разделяющей гиперплоскостью.
Достоинства метода:
Обучение SVM сводится к задаче квадратичного программирования, допускающей эффективное вычисление единственного решения задачи;
Решение обладает свойством «разреженности» – положение гиперплоскости определяется только небольшой частью выборки (именно они и называются опорными векторами);
При помощи введения функций ядра этот метод изящно обобщается на случай нелинейных разделяющих поверхностей.

3. Обзор методов классификации

Слайд 19

План

Постановка задачи классификации
Метрики качества классификации и способы оценки качества классификации
Обзор методов классификации
Усовершенствованный

План Постановка задачи классификации Метрики качества классификации и способы оценки качества классификации
метод
Вычислительные эксперименты
Заключение

Слайд 20

Базовый метод

 

4. Усовершенствованный метод

Базовый метод 4. Усовершенствованный метод

Слайд 21

Сглаживание вероятностей

 

4. Усовершенствованный метод

Сглаживание вероятностей 4. Усовершенствованный метод

Слайд 22

Специфика метода

 

4. Усовершенствованный метод

Специфика метода 4. Усовершенствованный метод

Слайд 23

План

Постановка задачи классификации
Метрики качества классификации и способы оценки качества классификации
Обзор методов классификации
Усовершенствованный

План Постановка задачи классификации Метрики качества классификации и способы оценки качества классификации
метод
Вычислительные эксперименты
Заключение

Слайд 24

 

5. Вычислительные эксперименты

 

5. Вычислительные эксперименты

Слайд 25

Эксперимент 2. Подбор параметра w

5. Вычислительные эксперименты

 

Эксперимент 2. Подбор параметра w 5. Вычислительные эксперименты

Слайд 26

Эксперимент 3. Сравнение метода с kNN (Reuters-21578)

Данные по методам kNN и

Эксперимент 3. Сравнение метода с kNN (Reuters-21578) Данные по методам kNN и
NewsNB получены при помощи 10-кратного скользящего контроля.
Разработанная модификация метода работает лучше , чем метод k ближайших взвешенных соседей.

5. Вычислительные эксперименты

Слайд 27

Эксперимент 4. Сравнение метода с SVM(Reuters-21578, 20 Newsgroups)

Разработанная модификация метода работает

Эксперимент 4. Сравнение метода с SVM(Reuters-21578, 20 Newsgroups) Разработанная модификация метода работает
не хуже выбранной реализации SVM
Использование только линейного ядра серьезно ухудшает качество работы алгоритма SVM
Выбранная реализация SVM может работать быстрее разработанного метода по ряду причин:
При оценке времени работы авторского метода учитываются временные затраты на выделение признаков из текстов
Используемая реализация SVM написана а языке C, а авторский метод реализован на более «медленном» языке Python

Reuters-21578

20Newsgroups

Слайд 28

План

Постановка задачи классификации
Метрики качества классификации и способы оценки качества классификации
Обзор методов классификации
Усовершенствованный

План Постановка задачи классификации Метрики качества классификации и способы оценки качества классификации
метод
Вычислительные эксперименты
Заключение

Слайд 29

Заключение

Основным результатом работы является разработанная модификация наивного байесовского классификатора.
Помимо этого:
Изучена одна из

Заключение Основным результатом работы является разработанная модификация наивного байесовского классификатора. Помимо этого:
возможных формальных постановок задачи классификации – вероятностная постановка.
Проведено исследование алгоритмов классификации и методов предварительной обработки текста.
Проведено достаточно большое количество вычислительных экспериментов, результаты которых подтверждают качество разработанного метода и позволяют говорить о том, что метод применим на практике.
Разработан программный комплекс на ЯП Python, который позволяет проводить предварительную обработку текстов и осуществлять классификацию текстов при помощи модификации наивного байесовского классификатора.
Имя файла: Национальный-исследовательский-университет-«МЭИ».pptx
Количество просмотров: 324
Количество скачиваний: 0