Содержание
- 2. Автоматизация реферирования текстовой информации SDS (Однодокументное реферирование) MDS (Многодокументное реферирование) – как минимум с 2001 года
- 3. Метод Луна [Luhn, 1958] G. Luhn. The Automatic Creation of Literature Abstracts (context). http://citeseer.ist.psu.edu/context/74679/0 Vs -значимость
- 4. Manifold Ranking Algorithm Может быть использован для ранжирования любых информационных примитивов: текстов, предложений, изображений, звуков. В
- 5. Manifold Ranking Algorithm Позволяет описать связную структуру текста Для описания связной структуры текста используется математический аппарат
- 6. Manifold Ranking Algorithm Вычисление ранга каждого предложения (Информационная значимость) Применение алгоритма отсечения предложений, наиболее похожих на
- 7. Алгоритм Задается набор структур: x0 – предложение, которое формулирует тему кластера
- 8. Алгоритм Вводится отображение: которое ставит в соответствие каждому xi некоторый ранг fi
- 9. Алгоритм Задается вектор: Согласно алгоритму y0=1, т.к. x0– тема кластера (в задачах информационного поиска соответствует фразе
- 10. Алгоритм Каждое предложение (объект) представляется в векторном пространстве следующим образом: где tfk - стандартная TF_ISF мера
- 11. Алгоритм Набор предложений представляет собой взвешенный граф с матрицей весов W. Для каждой пары xi и
- 12. «Мама мыла раму»
- 13. «Мама мыла раму»
- 14. «Мама мыла раму» Матрица весов в этом случае будет выглядеть:
- 15. «Мама мыла раму» Граф связности текста:
- 16. Алгоритм Матрица весов подвергается симметричной нормализации:
- 17. Алгоритм F вычисляется как результат итеративного процесса: :
- 18. «Мама мыла раму» Расчет вектора F:
- 19. «Мама мыла раму» Граф связности текста:
- 20. Алгоритм Можно также предположить, что связи между предложениями одного документа, а также связи между предложениями различных
- 21. Алгоритм усечения сходных предложений Необходимо исключить из рассмотрения предложения, повторяющие по своей структуре те, что уже
- 22. Инициализируются два множества A и B. Все предложения помещаются в B. Для каждого предложения B текущий
- 23. Полагая, что предложение xi имеет наивысший ранг, оно перемещается из B в A. Ранг оставшихся в
- 24. Реализация Web-интерфейс PHP Расширение php_math MTL AOT Подбор параметров http://openthesaurus.ru/manifold/
- 25. On-line сервис
- 26. On-line сервис
- 27. Исходные данные В качестве исходных данных для оценки работы алгоритма был взят набор кластеров новостной тематики,
- 28. Пример аннотации Для кластера «На севере Омской области выпал разноцветный снег» содержащего 8 документов (всего 61
- 29. Оценка На основе ручных аннотаций, любезно предоставленных НИВЦ МГУ проведена оценка качества системы реферирования при помощи
- 30. Результаты оценки
- 31. Сравнение с DUC
- 32. Итоги Алгоритм реализован в виде “on-line” Web-сервиса. Сводные рефераты могут быть получены «на лету» Алгоритм апробирован
- 34. Скачать презентацию