Слайд 2Задачи выделения фрагментов
Задача поиска фрагментов релевантных запросу (Passage Retrieval)
вычисление весов фрагментов
вычисление функции
![Задачи выделения фрагментов Задача поиска фрагментов релевантных запросу (Passage Retrieval) вычисление весов](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/424864/slide-1.jpg)
правдоподобия запроса
построение вероятностных моделей запросов
использование методов машинного обучения
использование скрытых марковских моделей
Задача классификации фрагментов в соответствии с классификатором (Passage Recognition)
обучение на полных текстах , выделение фрагментов, классификация фрагментов
классификация текста целиком, поиск наиболее релевантного фрагмента
оценивание параметров скрытой марковской модели на полных текстах, выделение фрагментов
Слайд 3Методы классификации текстов
Метод машин опорных векторов (SVM) – рубрика отделяется от других
![Методы классификации текстов Метод машин опорных векторов (SVM) – рубрика отделяется от](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/424864/slide-2.jpg)
классов с помощью гиперплоскости
Байесовский классификатор на основе модели смеси распределений фон Мизеса-Фишера (VMF) – рубрика описывается с помощью точки на гиперсфере единичного радиуса
Слайд 5Методы выделения фрагментов в текстах
Выделение фрагментов путем классификации предложений (SENT)
Выделение фрагментов путем
![Методы выделения фрагментов в текстах Выделение фрагментов путем классификации предложений (SENT) Выделение](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/424864/slide-4.jpg)
классификации блоков текста (TILE)
Выделение фрагментов путем классификации иерархического покрытия (HIER)
Выделение фрагментов с использованием оптимизационных методов (LS)
Слайд 6Выделение фрагментов путем классификации блоков текста
![Выделение фрагментов путем классификации блоков текста](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/424864/slide-5.jpg)
Слайд 7Выделение фрагментов путем классификации иерархического покрытия
![Выделение фрагментов путем классификации иерархического покрытия](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/424864/slide-6.jpg)
Слайд 8Выделение фрагментов с использованием оптимизационных методов
![Выделение фрагментов с использованием оптимизационных методов](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/424864/slide-7.jpg)
Слайд 9Схема итерационного обучения отдельной рубрики
Исходный массив
Обучение
модели
Выделение фрагментов
фрагмент
![Схема итерационного обучения отдельной рубрики Исходный массив Обучение модели Выделение фрагментов фрагмент](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/424864/slide-8.jpg)
Слайд 10Схема классификации текстов с использованием фрагментов
Текст
Выделение фрагментов
Текст
фрагмент
фрагмент
Построение вектора признаков
фрагмент
фрагмент
Классификация
![Схема классификации текстов с использованием фрагментов Текст Выделение фрагментов Текст фрагмент фрагмент](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/424864/slide-9.jpg)
Слайд 11Характеристики массивов текстов
Полные массивы
Сокращенные массивы текстов
![Характеристики массивов текстов Полные массивы Сокращенные массивы текстов](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/424864/slide-10.jpg)
Слайд 13Пример текста из массива Reuters-21578
![Пример текста из массива Reuters-21578](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/424864/slide-12.jpg)
Слайд 14Пример текста из массива
ROMIP 2004 Legal
![Пример текста из массива ROMIP 2004 Legal](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/424864/slide-13.jpg)
Слайд 15Оценка качества классификации для массива ROMIP 2004 Legal Mini
![Оценка качества классификации для массива ROMIP 2004 Legal Mini](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/424864/slide-14.jpg)
Слайд 16Оценка точности и полноты классификации
20 News Group Mini
Romip 2004 Legal Mini
![Оценка точности и полноты классификации 20 News Group Mini Romip 2004 Legal Mini](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/424864/slide-15.jpg)
Слайд 17Качество классификации для массива
20 NG от размера обучающего множества
![Качество классификации для массива 20 NG от размера обучающего множества](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/424864/slide-16.jpg)
Слайд 18Качество классификации для массива Reuters-21578-10 от размера обучающего множества
![Качество классификации для массива Reuters-21578-10 от размера обучающего множества](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/424864/slide-17.jpg)
Слайд 19Качество классификации для массива
20 NG от числа итераций
![Качество классификации для массива 20 NG от числа итераций](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/424864/slide-18.jpg)
Слайд 20Время обучения и классификации массива 20 NG от числа итераций
![Время обучения и классификации массива 20 NG от числа итераций](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/424864/slide-19.jpg)
Слайд 21Среднее число выделяемых предложений для массива 20 NG
в зависимости от числа
![Среднее число выделяемых предложений для массива 20 NG в зависимости от числа итераций](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/424864/slide-20.jpg)
итераций
Слайд 22Выводы
Обучения классификаторов с использованием фрагментов более эффективно при маленьких размерах обучающих выборок
В
![Выводы Обучения классификаторов с использованием фрагментов более эффективно при маленьких размерах обучающих](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/424864/slide-21.jpg)
некоторых случаях использование данного метода может заметно улучшить полноту классификации
Для сходимости метода достаточно выполнения нескольких итераций