Метод определения тематики математических документов на основе вероятностной модели скрытого размещения Дирихле

Слайд 2

Постановка задачи

 

Постановка задачи

Слайд 3

Цель работы

 

Цель работы

Слайд 4

Модель скрытого размещения Дирихле

 

 

Модель скрытого размещения Дирихле

Слайд 5

 

Модифицированный вариационный вывод Байеса

 

 

Модифицированный вариационный вывод Байеса

Слайд 6

Схема работы программы

Схема работы программы

Слайд 7

Загрузка коллекции документов и предпроцессорная обработка

Загрузка коллекции документов и предпроцессорная обработка

Слайд 8

Извлечение текста из PDF документа

Извлечение текста из PDF документа

Слайд 10

Формирование «мешка слов»

 

Формирование «мешка слов»

Слайд 11

Процесс тематического моделирования

Процесс тематического моделирования

Слайд 13

Тестирование работы программы

В качестве коллекции русскоязычных математических документов были использованы труды математического

Тестирование работы программы В качестве коллекции русскоязычных математических документов были использованы труды
центра имени Н.И. Лобачевского. Коллекция состояла из 20 томов.
В каждом томе содержались статьи различной направленности и длины, от одной страницы до 34 страниц.
Слов в коллекции: 313992
Уникальных слов: 31082

Слайд 14

Результаты обработки коллекции

Результаты обработки коллекции

Слайд 15

Результаты обработки одной статьи из коллекции

Результаты обработки одной статьи из коллекции

Слайд 16

Перспективы развития работы

Использование методов оптического распознавания символов (Optical Character Recognition, OCR)
Создание русскоязычного словаря

Перспективы развития работы Использование методов оптического распознавания символов (Optical Character Recognition, OCR)
математических терминов на основе советской математической энциклопедии в пяти томах под редакцией Виноградова И. М.

Слайд 17

Заключение

 

Заключение