Обучение классификаторов на основе выделения фрагментов

Февраль 15, 2021

Главная
Разное
Обучение классификаторов на основе выделения фрагментов

Содержание

2. Задачи выделения фрагментов Задача поиска фрагментов релевантных запросу (Passage Retrieval) вычисление весов фрагментов вычисление функции правдоподобия
3. Методы классификации текстов Метод машин опорных векторов (SVM) – рубрика отделяется от других классов с помощью
4. Модель фон Мизеса-Фишера
5. Методы выделения фрагментов в текстах Выделение фрагментов путем классификации предложений (SENT) Выделение фрагментов путем классификации блоков
6. Выделение фрагментов путем классификации блоков текста
7. Выделение фрагментов путем классификации иерархического покрытия
8. Выделение фрагментов с использованием оптимизационных методов
9. Схема итерационного обучения отдельной рубрики Исходный массив Обучение модели Выделение фрагментов фрагмент
10. Схема классификации текстов с использованием фрагментов Текст Выделение фрагментов Текст фрагмент фрагмент Построение вектора признаков фрагмент
11. Характеристики массивов текстов Полные массивы Сокращенные массивы текстов
12. Пример текста из массива 20NG
13. Пример текста из массива Reuters-21578
14. Пример текста из массива ROMIP 2004 Legal
15. Оценка качества классификации для массива ROMIP 2004 Legal Mini
16. Оценка точности и полноты классификации 20 News Group Mini Romip 2004 Legal Mini
17. Качество классификации для массива 20 NG от размера обучающего множества
18. Качество классификации для массива Reuters-21578-10 от размера обучающего множества
19. Качество классификации для массива 20 NG от числа итераций
20. Время обучения и классификации массива 20 NG от числа итераций
21. Среднее число выделяемых предложений для массива 20 NG в зависимости от числа итераций
22. Выводы Обучения классификаторов с использованием фрагментов более эффективно при маленьких размерах обучающих выборок В некоторых случаях
24. Скачать презентацию

Слайд 2

Задачи выделения фрагментов
Задача поиска фрагментов релевантных запросу (Passage Retrieval)
вычисление весов фрагментов
вычисление функции

правдоподобия запроса
построение вероятностных моделей запросов
использование методов машинного обучения
использование скрытых марковских моделей
Задача классификации фрагментов в соответствии с классификатором (Passage Recognition)
обучение на полных текстах , выделение фрагментов, классификация фрагментов
классификация текста целиком, поиск наиболее релевантного фрагмента
оценивание параметров скрытой марковской модели на полных текстах, выделение фрагментов

Слайд 3

Методы классификации текстов
Метод машин опорных векторов (SVM) – рубрика отделяется от других

классов с помощью гиперплоскости
Байесовский классификатор на основе модели смеси распределений фон Мизеса-Фишера (VMF) – рубрика описывается с помощью точки на гиперсфере единичного радиуса

Слайд 4

Модель фон Мизеса-Фишера

Слайд 5

Методы выделения фрагментов в текстах
Выделение фрагментов путем классификации предложений (SENT)
Выделение фрагментов путем

классификации блоков текста (TILE)
Выделение фрагментов путем классификации иерархического покрытия (HIER)
Выделение фрагментов с использованием оптимизационных методов (LS)

Слайд 6

Выделение фрагментов путем классификации блоков текста

Слайд 7

Выделение фрагментов путем классификации иерархического покрытия

Слайд 8

Выделение фрагментов с использованием оптимизационных методов

Слайд 9

Схема итерационного обучения отдельной рубрики
Исходный массив
Обучение
модели
Выделение фрагментов
фрагмент

Слайд 10

Схема классификации текстов с использованием фрагментов
Текст
Выделение фрагментов
Текст
фрагмент
фрагмент
Построение вектора признаков
фрагмент
фрагмент
Классификация

Слайд 11

Характеристики массивов текстов
Полные массивы
Сокращенные массивы текстов

Слайд 12

Пример текста из массива 20NG

Слайд 13

Пример текста из массива Reuters-21578

Слайд 14

Пример текста из массива ROMIP 2004 Legal

Слайд 15

Оценка качества классификации для массива ROMIP 2004 Legal Mini

Слайд 16

Оценка точности и полноты классификации
20 News Group Mini
Romip 2004 Legal Mini

Слайд 17

Качество классификации для массива 20 NG от размера обучающего множества

Слайд 18

Качество классификации для массива Reuters-21578-10 от размера обучающего множества

Слайд 19

Качество классификации для массива 20 NG от числа итераций

Слайд 20

Время обучения и классификации массива 20 NG от числа итераций

Слайд 21

Среднее число выделяемых предложений для массива 20 NG в зависимости от числа

итераций

Слайд 22

Выводы
Обучения классификаторов с использованием фрагментов более эффективно при маленьких размерах обучающих выборок
В

некоторых случаях использование данного метода может заметно улучшить полноту классификации
Для сходимости метода достаточно выполнения нескольких итераций