Метод определения тематики математических документов на основе вероятностной модели скрытого размещения Дирихле
Содержание
- 2. Постановка задачи
- 3. Цель работы
- 4. Модель скрытого размещения Дирихле
- 5. Модифицированный вариационный вывод Байеса
- 6. Схема работы программы
- 7. Загрузка коллекции документов и предпроцессорная обработка
- 8. Извлечение текста из PDF документа
- 10. Формирование «мешка слов»
- 11. Процесс тематического моделирования
- 13. Тестирование работы программы В качестве коллекции русскоязычных математических документов были использованы труды математического центра имени Н.И.
- 14. Результаты обработки коллекции
- 15. Результаты обработки одной статьи из коллекции
- 16. Перспективы развития работы Использование методов оптического распознавания символов (Optical Character Recognition, OCR) Создание русскоязычного словаря математических
- 17. Заключение
- 19. Скачать презентацию