Метод определения тематики математических документов на основе вероятностной модели скрытого размещения Дирихле

Март 10, 2021

Главная
Математика
Метод определения тематики математических документов на основе вероятностной модели скрытого размещения Дирихле

Содержание

2. Постановка задачи
3. Цель работы
4. Модель скрытого размещения Дирихле
5. Модифицированный вариационный вывод Байеса
6. Схема работы программы
7. Загрузка коллекции документов и предпроцессорная обработка
8. Извлечение текста из PDF документа
10. Формирование «мешка слов»
11. Процесс тематического моделирования
13. Тестирование работы программы В качестве коллекции русскоязычных математических документов были использованы труды математического центра имени Н.И.
14. Результаты обработки коллекции
15. Результаты обработки одной статьи из коллекции
16. Перспективы развития работы Использование методов оптического распознавания символов (Optical Character Recognition, OCR) Создание русскоязычного словаря математических
17. Заключение
19. Скачать презентацию

Слайд 2

Постановка задачи

Постановка задачи

Слайд 3

Цель работы

Цель работы

Слайд 4

Модель скрытого размещения Дирихле

Модель скрытого размещения Дирихле

Слайд 5

Модифицированный вариационный вывод Байеса

Модифицированный вариационный вывод Байеса

Слайд 6

Схема работы программы

Схема работы программы

Слайд 7

Загрузка коллекции документов и предпроцессорная обработка

Загрузка коллекции документов и предпроцессорная обработка

Слайд 8

Извлечение текста из PDF документа

Извлечение текста из PDF документа

Слайд 9

Слайд 10

Формирование «мешка слов»

Формирование «мешка слов»

Слайд 11

Процесс тематического моделирования

Процесс тематического моделирования

Слайд 12

Слайд 13

Тестирование работы программы
В качестве коллекции русскоязычных математических документов были использованы труды математического

Тестирование работы программы В качестве коллекции русскоязычных математических документов были использованы труды

центра имени Н.И. Лобачевского. Коллекция состояла из 20 томов.
В каждом томе содержались статьи различной направленности и длины, от одной страницы до 34 страниц.
Слов в коллекции: 313992
Уникальных слов: 31082

Слайд 14

Результаты обработки коллекции

Результаты обработки коллекции

Слайд 15

Результаты обработки одной статьи из коллекции

Результаты обработки одной статьи из коллекции

Слайд 16

Перспективы развития работы
Использование методов оптического распознавания символов (Optical Character Recognition, OCR)
Создание русскоязычного словаря

Перспективы развития работы Использование методов оптического распознавания символов (Optical Character Recognition, OCR)

математических терминов на основе советской математической энциклопедии в пяти томах под редакцией Виноградова И. М.

Слайд 17

Заключение

Заключение