Содержание
- 2. Постановка задачи Дано: фонд полнотекстовых документов университетской библиотеки (учебные, обзорно-аналитические материалы различного объёма) Требуется: создать средство
- 3. Механизм применения средства тематической навигации
- 4. Требования к виду искомой навигационной схемы Рубрикатор, унаследовавший основные характеристики от традиционного предметного рубрикатора библиотеки МГТУ
- 5. Способ представления рубрикатора , где – это множество вершин – множество рёбер графа, Граф G* является
- 6. Функциональная схема автоматического формирования рубрикатора
- 7. Выбор подхода к формированию образов документов
- 8. Предложенный алгоритм формирования образов документов Построение словаря признаков (одиночных слов) всех документов (морфологический анализ – стеммер
- 9. Иллюстрации к предположению об избирательной редукции (1)
- 10. Иллюстрации к предположению об избирательной редукции (2) α β
- 11. Алгоритм избирательной редукции
- 12. Выбор алгоритма кластеризации
- 13. Модифицированный алгоритм кластеризации документов
- 14. Дополнение кластерной структуры до искомого рубрикатора
- 15. Тестовые коллекции On-line библиотека CITFORUM (http://www.citforum.ru): наработка эмпирических сведений к методу формирования рубрикатора и оценка его
- 16. Меры качества кластеризации Внешние меры: автоматическое сравнение полученного разбиения документов с «эталонным» разбиение на кластеры (рубрики).
- 17. Внешние меры качества кластеризации Полнота Точность F1-мера Ошибка Аккуратность и др.
- 18. Внутренние меры качества кластеризации Оценка иерархического разбиения: Кофенетический коэффициент корреляции (CPCC) Оценка плоского разбиения: Индекс Данна
- 19. Испытания алгоритма формирования образов (на CL1572) Оценка способа формирования образов. (1) – без редукции, (2) –
- 20. Испытание модифицированного алгоритма кластеризации (на CL1572) Оценка алгоритма кластеризации: (1) – иерархический агломеративный алгоритм (усечение дерева
- 21. Пример интерфейса навигации по подмножеству CL1572
- 22. Испытание модифицированного алгоритма кластеризации (на TAL234) Ошибка автоматической классификации на TAL234: 3,2% - в сравнении с
- 23. Испытания системы на Legal2004_5000 (1) Оценить качество кластеризации предложенным методом со значениями параметров, подобранными ранее на
- 24. Испытания системы на Legal2004_5000 (2) Оценка кластеризации модифицированным алгоритмом (Legal2004_5000): (1) – с принудительной редукцией, (2)
- 25. Испытания системы на Legal2004_5000 (3) Количественные характеристики пространства признаков
- 26. Дальнейшие планы Закончить эксперименты на 5000 документов Провести исследования на 25034 документов Получить основания для выбора
- 28. Скачать презентацию