Слайд 4Модель скрытого размещения Дирихле
Слайд 5
Модифицированный вариационный вывод Байеса
Слайд 7Загрузка коллекции документов
и предпроцессорная обработка
Слайд 8Извлечение текста из PDF документа
Слайд 11Процесс тематического моделирования
Слайд 13Тестирование работы программы
В качестве коллекции русскоязычных математических документов были использованы труды математического
центра имени Н.И. Лобачевского. Коллекция состояла из 20 томов.
В каждом томе содержались статьи различной направленности и длины, от одной страницы до 34 страниц.
Слов в коллекции: 313992
Уникальных слов: 31082
Слайд 15Результаты обработки одной статьи из коллекции
Слайд 16Перспективы развития работы
Использование методов оптического распознавания символов
(Optical Character Recognition, OCR)
Создание русскоязычного словаря
математических терминов
на основе советской математической энциклопедии в пяти томах
под редакцией Виноградова И. М.