Содержание
- 2. Информационно-поисковые системы. Сычев А.В. 2006 г. Объединение документов или их представлений в одну группу, которая в
- 3. Информационно-поисковые системы. Сычев А.В. 2006 г. Два способа: на основе заранее заданной схемы классификации и уже
- 4. Информационно-поисковые системы. Сычев А.В. 2006 г. Фильтрация входящих документов Сжатие информации (аннотирование, реферирование) Расширение запросов за
- 5. Информационно-поисковые системы. Сычев А.В. 2006 г. 10 человек, 5 запросов Наиболее частые запросы с существенно различающимися
- 6. Информационно-поисковые системы. Сычев А.В. 2006 г. Классификация вручную. Результаты эксперимента. Наблюдается разброс в результатах классификации документов
- 7. Информационно-поисковые системы. Сычев А.В. 2006 г. Кластеризация Основой методов кластеризации является кластерная гипотеза (C.J. van Rijsbergen),
- 8. Информационно-поисковые системы. Сычев А.В. 2006 г. Fairthorne “The Mathematics of Classification” (1961) Эксперименты Марона (1961), Борко
- 9. Информационно-поисковые системы. Сычев А.В. 2006 г. Кластеризация – удобный инструмент при работе с документальным пространством, имеющим,
- 10. Информационно-поисковые системы. Сычев А.В. 2006 г. Обработка вновь поступающих документов не должна существенным образом изменять результат
- 11. Информационно-поисковые системы. Сычев А.В. 2006 г. Методы кластеризации, основанные на разбиении множеств Целью является разбиение исходного
- 12. Информационно-поисковые системы. Сычев А.В. 2006 г. Метод К-средних Документы описываются векторами с вещественными компонентами Каждый кластер
- 13. Информационно-поисковые системы. Сычев А.В. 2006 г. Алгоритм К-средних Задается метрика d для вычисления расстояния между элементами
- 14. Информационно-поисковые системы. Сычев А.В. 2006 г. Возможное условие остановки цикла: Количество итераций Группировка документов по кластерам
- 15. Информационно-поисковые системы. Сычев А.В. 2006 г. Недостатки: Результат кластеризации зависит от выбора стартовых элементов. Значение k
- 16. Информационно-поисковые системы. Сычев А.В. 2006 г. Иерархическая аггломеративная кластеризация Используется матрица сопряженности типа “документ-документ” (матрица подобия).
- 17. Информационно-поисковые системы. Сычев А.В. 2006 г. Иерархическая аггломеративная кластеризация Сечение дендограммы на любом уровне дает набор
- 18. Информационно-поисковые системы. Сычев А.В. 2006 г. Иерархическая аггломеративная кластеризация Порог принятия решения о подобии кластеров задается
- 19. Информационно-поисковые системы. Сычев А.В. 2006 г. Поиск кластера Входной запрос представляется в виде t-мерного вектора и
- 20. Информационно-поисковые системы. Сычев А.В. 2006 г. Существует необходимость распределенного хранения документов в кластерной системе По какому
- 21. Информационно-поисковые системы. Сычев А.В. 2006 г. Вырожденный случай – единая система Гетерогенные коллекции кластеры построены заранее
- 22. Информационно-поисковые системы. Сычев А.В. 2006 г. Выполнение запроса: Ранжирование коллекций относительно запроса Выбор n лучших коллекций
- 23. Информационно-поисковые системы. Сычев А.В. 2006 г. Кластеризация в распределенных системах: выводы Тематическая кластеризация эффективна для распределенного
- 24. Информационно-поисковые системы. Сычев А.В. 2006 г. Соседние в гиперссылочном графе документы могут содержать информацию, полезную при
- 25. Информационно-поисковые системы. Сычев А.В. 2006 г. Идея: использовать при классификации термины и метки классов документов-соседей по
- 26. Информационно-поисковые системы. Сычев А.В. 2006 г. Модификация запросов Переформулировка запроса Расширение запроса Добавление терминов в запрос
- 27. Информационно-поисковые системы. Сычев А.В. 2006 г. Обратная связь по релевантности Метод Rocchio: где Q0 – вектор
- 28. Информационно-поисковые системы. Сычев А.В. 2006 г. Латентно-семантическое индексирование как кластеризация LSI может рассматриваться как метод кластеризации
- 29. Информационно-поисковые системы. Сычев А.В. 2006 г. Литература R. Larson “Principles of Information Retrieval”. Слайды (http://www.sims.berkeley.edu/academics/courses/is240/s06/) G.
- 31. Скачать презентацию