Классификация и кластеризация документов

Февраль 10, 2021

Главная
Разное
Классификация и кластеризация документов

Содержание

2. Информационно-поисковые системы. Сычев А.В. 2006 г. Объединение документов или их представлений в одну группу, которая в
3. Информационно-поисковые системы. Сычев А.В. 2006 г. Два способа: на основе заранее заданной схемы классификации и уже
4. Информационно-поисковые системы. Сычев А.В. 2006 г. Фильтрация входящих документов Сжатие информации (аннотирование, реферирование) Расширение запросов за
5. Информационно-поисковые системы. Сычев А.В. 2006 г. 10 человек, 5 запросов Наиболее частые запросы с существенно различающимися
6. Информационно-поисковые системы. Сычев А.В. 2006 г. Классификация вручную. Результаты эксперимента. Наблюдается разброс в результатах классификации документов
7. Информационно-поисковые системы. Сычев А.В. 2006 г. Кластеризация Основой методов кластеризации является кластерная гипотеза (C.J. van Rijsbergen),
8. Информационно-поисковые системы. Сычев А.В. 2006 г. Fairthorne “The Mathematics of Classification” (1961) Эксперименты Марона (1961), Борко
9. Информационно-поисковые системы. Сычев А.В. 2006 г. Кластеризация – удобный инструмент при работе с документальным пространством, имеющим,
10. Информационно-поисковые системы. Сычев А.В. 2006 г. Обработка вновь поступающих документов не должна существенным образом изменять результат
11. Информационно-поисковые системы. Сычев А.В. 2006 г. Методы кластеризации, основанные на разбиении множеств Целью является разбиение исходного
12. Информационно-поисковые системы. Сычев А.В. 2006 г. Метод К-средних Документы описываются векторами с вещественными компонентами Каждый кластер
13. Информационно-поисковые системы. Сычев А.В. 2006 г. Алгоритм К-средних Задается метрика d для вычисления расстояния между элементами
14. Информационно-поисковые системы. Сычев А.В. 2006 г. Возможное условие остановки цикла: Количество итераций Группировка документов по кластерам
15. Информационно-поисковые системы. Сычев А.В. 2006 г. Недостатки: Результат кластеризации зависит от выбора стартовых элементов. Значение k
16. Информационно-поисковые системы. Сычев А.В. 2006 г. Иерархическая аггломеративная кластеризация Используется матрица сопряженности типа “документ-документ” (матрица подобия).
17. Информационно-поисковые системы. Сычев А.В. 2006 г. Иерархическая аггломеративная кластеризация Сечение дендограммы на любом уровне дает набор
18. Информационно-поисковые системы. Сычев А.В. 2006 г. Иерархическая аггломеративная кластеризация Порог принятия решения о подобии кластеров задается
19. Информационно-поисковые системы. Сычев А.В. 2006 г. Поиск кластера Входной запрос представляется в виде t-мерного вектора и
20. Информационно-поисковые системы. Сычев А.В. 2006 г. Существует необходимость распределенного хранения документов в кластерной системе По какому
21. Информационно-поисковые системы. Сычев А.В. 2006 г. Вырожденный случай – единая система Гетерогенные коллекции кластеры построены заранее
22. Информационно-поисковые системы. Сычев А.В. 2006 г. Выполнение запроса: Ранжирование коллекций относительно запроса Выбор n лучших коллекций
23. Информационно-поисковые системы. Сычев А.В. 2006 г. Кластеризация в распределенных системах: выводы Тематическая кластеризация эффективна для распределенного
24. Информационно-поисковые системы. Сычев А.В. 2006 г. Соседние в гиперссылочном графе документы могут содержать информацию, полезную при
25. Информационно-поисковые системы. Сычев А.В. 2006 г. Идея: использовать при классификации термины и метки классов документов-соседей по
26. Информационно-поисковые системы. Сычев А.В. 2006 г. Модификация запросов Переформулировка запроса Расширение запроса Добавление терминов в запрос
27. Информационно-поисковые системы. Сычев А.В. 2006 г. Обратная связь по релевантности Метод Rocchio: где Q0 – вектор
28. Информационно-поисковые системы. Сычев А.В. 2006 г. Латентно-семантическое индексирование как кластеризация LSI может рассматриваться как метод кластеризации
29. Информационно-поисковые системы. Сычев А.В. 2006 г. Литература R. Larson “Principles of Information Retrieval”. Слайды (http://www.sims.berkeley.edu/academics/courses/is240/s06/) G.
31. Скачать презентацию

Слайд 2

Информационно-поисковые системы. Сычев А.В. 2006 г.
Объединение документов или их представлений в одну

группу, которая в дальнейшем может рассматриваться и использоваться как единая сущность
Сами группировки могут определяться заранее либо формироваться алгоритмически
Процесс группировки может выполняться вручную либо автоматически
Полезность классификации заключается в том, что элементы группировки могут с большой вероятностью оказаться релевантными

Что такое классификация?

Слайд 3

Информационно-поисковые системы. Сычев А.В. 2006 г.
Два способа:
на основе заранее заданной схемы классификации

и уже имеющегося множества классифицированных документов
полностью автоматизированная кластеризация

Автоматическая классификация

Слайд 4

Информационно-поисковые системы. Сычев А.В. 2006 г.
Фильтрация входящих документов
Сжатие информации (аннотирование, реферирование)
Расширение запросов

за счет характеризующих тематику класса терминов
Реализация обратной связи по релевантности путем предварительной классификации результатов выборки по классам и выбора пользователем релевантных классов
Снятие омонимии путем отображения слов в обобщенные концепты
Увеличение эффективности поиска путем сведения к поиску классов
(Полу-)автоматическое структурирование порталов – автоматическое формирование тематических каталогов.

Использование автоматической классификации при информационном поиске

Слайд 5

Информационно-поисковые системы. Сычев А.В. 2006 г.
10 человек, 5 запросов
Наиболее частые запросы с

существенно различающимися терминами
Количество документов по каждому запросу: 15, 16, 16, 11, 10
6 человек работали только с заголовками и URL, остальные 4 – с полными текстами документов
Ставилась задача разбить документы на минимально пересекающиеся классы; ограничение по времени отсутствовало.

Классификация вручную. Эксперимент.

Слайд 6

Информационно-поисковые системы. Сычев А.В. 2006 г.
Классификация вручную. Результаты эксперимента.
Наблюдается разброс в результатах

классификации документов разными людьми
Степень подобия между результатами разных людей очень маленькая
Люди склонны создавать очень маленькие классы
Использование полного текста документа значительно помогает при классификации, при этом получается меньше классов, но они в большей степени пересекаются
Человек склонен привязывать результат классификации к контексту
Классификация невозможна без знания смысла запроса

Слайд 7

Информационно-поисковые системы. Сычев А.В. 2006 г.
Кластеризация
Основой методов кластеризации является кластерная гипотеза (C.J.

van Rijsbergen), которая гласит:
Тесно связанные между собой документы оказываются релевантными по отношению к тем же запросам.
Кластеризация может быть использована для распределения документов в коллекции по классам (классификации), что позволяет повысить скорость поиска документов и точность ответа.
Кластеризация включает в себя две процедуры: генерацию кластеров и поиск кластеров по запросу пользователя.

Слайд 8

Информационно-поисковые системы. Сычев А.В. 2006 г.
Fairthorne “The Mathematics of Classification” (1961)
Эксперименты Марона

(1961), Борко и Берника (1963)
Работы по численной таксономии и ее приложениям при информационном поиске – Джардайна (Jardine), Сибсона, ван Рийсбергена, Сэлтона (1970). Кластеризация рассматривалась исключительно с точки зрения эффективности поиска нежели в семантическом аспекте.
Интерес к кластеризации утрачен в 80-х годах, возрождение интереса в 90-х годах в приложениях, связанных с навигацией и обработкой данных.
Работа Спарк-Джонс по кластеризации терминов.

Кластеризация. Предыстория.

Слайд 9

Информационно-поисковые системы. Сычев А.В. 2006 г.
Кластеризация – удобный инструмент при работе с

документальным пространством, имеющим, как правило, высокую размерность.
Среди автоматических методов кластеризации выделяют следующие:
Методы иерархической кластеризации
Методы кластеризации, основанные на разбиении множеств.
Гибридные методы.

Кластеризация. Методы.

Слайд 10

Информационно-поисковые системы. Сычев А.В. 2006 г.
Обработка вновь поступающих документов не должна существенным

образом изменять результат кластеризации
Устойчивость: незначительные ошибки в описании объектов могут вызывать также незначительные изменения в результатах кластеризации
Независимость результата кластеризации от исходного порядка на множестве объектов
Выполнение этих критериев не является обязательным во всех приложениях

Методы кластеризации. Критерии адекватности.

Слайд 11

Информационно-поисковые системы. Сычев А.В. 2006 г.
Методы кластеризации, основанные на разбиении множеств
Целью является

разбиение исходного множества из N документов на k кластеров.
Из них можно выделить
глобально оптимальные алгоритмы, которые исчерпывающе перечисляют все разбиения
эффективные эвристические методы, например метод К-средних.

Слайд 12

Информационно-поисковые системы. Сычев А.В. 2006 г.
Метод К-средних
Документы описываются векторами с вещественными компонентами
Каждый

кластер идентифицируется с помощью центроида, который вычисляется как усредненный вектор от всех его элементов:
Далее происходит перераспределение документов по кластерам в зависимости от их расстояния до центроидов кластеров

Слайд 13

Информационно-поисковые системы. Сычев А.В. 2006 г.
Алгоритм К-средних
Задается метрика d для вычисления расстояния

между элементами множества.
Случайным образом выбираются k. зерновых элементов {s1, s2, …, sk}
До тех пор пока не выполнится условие остановки:
Для каждого элемента xi:
поместить xi в кластестер cj такой, что d(xi, sj) минимально
Сделать центроиды классов зерновыми элементами, т.е. для каждого кластера cj
sj=μ(cj)

Слайд 14

Информационно-поисковые системы. Сычев А.В. 2006 г.
Возможное условие остановки цикла:
Количество итераций
Группировка документов по

кластерам не изменяется
Позиции центроидов не изменяются
Временная сложность алгоритма O(n*log n)

Алгоритм К-средних

Слайд 15

Информационно-поисковые системы. Сычев А.В. 2006 г.
Недостатки:
Результат кластеризации зависит от выбора стартовых элементов.
Значение

k выбирается вне алгоритма.
Кластеры не пересекаются (жесткая кластеризация), т.е. для документа исключена возможность принадлежности к нескольким кластерам одновременно.
Модификация: “мягкая” кластеризация.

Метод К-средних

Слайд 16

Информационно-поисковые системы. Сычев А.В. 2006 г.
Иерархическая аггломеративная кластеризация
Используется матрица сопряженности типа “документ-документ”

(матрица подобия).
Начальное количество кластеров совпадает с исходным количеством документов, затем итерационно происходит объединение кластеров в суперкластеры по степени подобия.
В итоге получается один общий кластер, являющийся корнем древовидной структуры – дендограммы.

Слайд 17

Информационно-поисковые системы. Сычев А.В. 2006 г.
Иерархическая аггломеративная кластеризация
Сечение дендограммы на любом уровне

дает набор кластеров из связных между собой элементов, фактически получается дерево кластеров

Вычислительная сложность O(n2)

Слайд 18

Информационно-поисковые системы. Сычев А.В. 2006 г.
Иерархическая аггломеративная кластеризация
Порог принятия решения о подобии

кластеров задается вне алгоритма.

Слайд 19

Информационно-поисковые системы. Сычев А.В. 2006 г.
Поиск кластера
Входной запрос представляется в виде t-мерного

вектора и сравнивается с центроидами кластеров.
Поиск продолжается в кластерах, степень подобия для которых превысила заданный порог.
Для вычисления степени подобия часто используется косинусная метрика.

Слайд 20

Информационно-поисковые системы. Сычев А.В. 2006 г.
Существует необходимость распределенного хранения документов в кластерной

системе
По какому принципу распределять?
административным и т.п. способами;
по тематике.
Как определять тематику, если она заранее не задана?
Решение – кластеризация.

Кластеризация в распределенных системах

Слайд 21

Информационно-поисковые системы. Сычев А.В. 2006 г.
Вырожденный случай – единая система
Гетерогенные коллекции
кластеры построены

заранее
Глобальная кластеризация
все помещается в общее хранилище и выполняется кластеризация
для каждого кластера строится тематическая модель
Локальная кластеризация
кластеризуется каждая из гетерогенных коллекций
внутри каждой коллекции формируются тематические модели для каждого полученного кластера (т.е. модель указывает на кластер внутри локальной коллекции)
Политематическое представление
кластеризуется каждая из гетерогенных коллекций
тематические модели для каждой из коллекций собираются вместе (т.е. модель указывает на коллекцию)

Подходы к кластеризации в распределенных системах

Слайд 22

Информационно-поисковые системы. Сычев А.В. 2006 г.
Выполнение запроса:
Ранжирование коллекций относительно запроса
Выбор n лучших

коллекций
Выборка N лучших документов из каждой коллекции
Слияние списков из коллекций в общий список на основе показателя доверия

Выполнение запроса в распределенной системе

Слайд 23

Информационно-поисковые системы. Сычев А.В. 2006 г.
Кластеризация в распределенных системах: выводы
Тематическая кластеризация эффективна

для распределенного информационного поиска
Лучшие результаты получаются при глобальной тематической кластеризации, поскольку подобные документы оказываются вместе
При невозможности глобальной кластеризации относительно хорошим решением является локальный вариант, при этом
сохраняется административное распределение коллекций;
довольно большая нагрузка приходится на локальные сайты
Хорошим решением является множество тематик, указывающих на единую коллекцию:
это лучше чем модель единой системы
кластеризация и формирование моделей затрагивает только локальный сайт
в дальнейшем исключается нагрузка на сайты, содержащие коллекции

Слайд 24

Информационно-поисковые системы. Сычев А.В. 2006 г.
Соседние в гиперссылочном графе документы могут содержать

информацию, полезную при классификации:
На текущий документ Di может ссылаться другой документ Dj , содержащий высокоспецифичные термины, отсутствующие в самом документе Di
На текущий документ Di может ссылаться другой документ Dj , содержащийся в релевантном разделе каталога, созданного вручную
На текущий документ Di может ссылаться другой документ Dj , содержащий ссылки также на многие другие документы, которые были использованы для настройки классификатора на релевантную тему (раздел каталога)

Классификация документов на основе гиперссылок

Слайд 25

Информационно-поисковые системы. Сычев А.В. 2006 г.
Идея: использовать при классификации термины и метки

классов документов-соседей по графу
Подход 1:
описание документа расширяется за счет терминов документов-соседей, находящихся в графе в пределах радиуса r ≤ R (возможен учет расстояния r в виде весовой функции 1/r)
недостаток: чувствительность к смещению темы
Подход 2:
учет меток классов документов-соседей по графу в процессе классификации

Использование свойств документов-соседей в графе гиперссылок

Слайд 26

Информационно-поисковые системы. Сычев А.В. 2006 г.
Модификация запросов
Переформулировка запроса
Расширение запроса
Добавление терминов в запрос

для уточнения информационной потребности
Обратная связь
Оценка документов в выдаче как релевантных/нерелевантных
Представление результатов
Кластеризация выданных результатов

Слайд 27

Информационно-поисковые системы. Сычев А.В. 2006 г.
Обратная связь по релевантности
Метод Rocchio:
где
Q0 – вектор

начального запроса
Ri – вектор i-го релевантного документа
Si - вектор i-го нерелевантного документа
n1 – число выбранных пользователем релевантных документов
n2 - число выбранных пользователем нерелевантных документов
α,β,γ – параметры настройки

Слайд 28

Информационно-поисковые системы. Сычев А.В. 2006 г.
Латентно-семантическое индексирование как кластеризация
LSI может рассматриваться как

метод кластеризации (спектральная кластеризация)
Вариант реализации для k кластеров:
Каждый элемент представляется точкой в k-мерном пространстве
Каждая точка проецируется на ось, соответствующую наибольшей по величине координате этой точки

Слайд 29

Информационно-поисковые системы. Сычев А.В. 2006 г.
Литература
R. Larson “Principles of Information Retrieval”. Слайды

(http://www.sims.berkeley.edu/academics/courses/is240/s06/)
G. Weikum “Information Retrieval and Data Mining”. Слайды (http://www.mpi-sb.mpg.de/departments/d5/teaching/ws05_06/irdm/material.html)
J. Allan “Information Retrieval”. Слайды. (http://ciir.cs.umass.edu/cmpsci646/)
S.A.Macskassy, A.Banerjee, B.D.Davison, H.Hirsh “Human Performance on Clustering Web Pages”. Technical Report DCS-TR-355, Department of Computer Science, Rutgers University, 1998.

Классификация и кластеризация документов

Содержание

Информационно-поисковые системы. Сычев А.В. 2006 г.Объединение документов или их представлений в одну

Информационно-поисковые системы. Сычев А.В. 2006 г.Два способа:на основе заранее заданной схемы классификации

Информационно-поисковые системы. Сычев А.В. 2006 г.Фильтрация входящих документовСжатие информации (аннотирование, реферирование)Расширение запросов

Информационно-поисковые системы. Сычев А.В. 2006 г.10 человек, 5 запросовНаиболее частые запросы с

Информационно-поисковые системы. Сычев А.В. 2006 г.Классификация вручную. Результаты эксперимента.Наблюдается разброс в результатах

Информационно-поисковые системы. Сычев А.В. 2006 г.КластеризацияОсновой методов кластеризации является кластерная гипотеза (C.J.

Информационно-поисковые системы. Сычев А.В. 2006 г.Fairthorne “The Mathematics of Classification” (1961)Эксперименты Марона

Информационно-поисковые системы. Сычев А.В. 2006 г.Кластеризация – удобный инструмент при работе с

Информационно-поисковые системы. Сычев А.В. 2006 г.Обработка вновь поступающих документов не должна существенным

Информационно-поисковые системы. Сычев А.В. 2006 г.Методы кластеризации, основанные на разбиении множествЦелью является

Информационно-поисковые системы. Сычев А.В. 2006 г.Метод К-среднихДокументы описываются векторами с вещественными компонентамиКаждый

Информационно-поисковые системы. Сычев А.В. 2006 г.Алгоритм К-среднихЗадается метрика d для вычисления расстояния

Информационно-поисковые системы. Сычев А.В. 2006 г.Возможное условие остановки цикла:Количество итерацийГруппировка документов по

Информационно-поисковые системы. Сычев А.В. 2006 г.Недостатки:Результат кластеризации зависит от выбора стартовых элементов.Значение

Информационно-поисковые системы. Сычев А.В. 2006 г.Иерархическая аггломеративная кластеризацияИспользуется матрица сопряженности типа “документ-документ”

Информационно-поисковые системы. Сычев А.В. 2006 г.Иерархическая аггломеративная кластеризацияСечение дендограммы на любом уровне

Информационно-поисковые системы. Сычев А.В. 2006 г.Иерархическая аггломеративная кластеризацияПорог принятия решения о подобии

Информационно-поисковые системы. Сычев А.В. 2006 г.Поиск кластераВходной запрос представляется в виде t-мерного

Информационно-поисковые системы. Сычев А.В. 2006 г.Существует необходимость распределенного хранения документов в кластерной

Информационно-поисковые системы. Сычев А.В. 2006 г.Вырожденный случай – единая системаГетерогенные коллекциикластеры построены

Информационно-поисковые системы. Сычев А.В. 2006 г.Выполнение запроса:Ранжирование коллекций относительно запросаВыбор n лучших

Информационно-поисковые системы. Сычев А.В. 2006 г.Кластеризация в распределенных системах: выводыТематическая кластеризация эффективна

Информационно-поисковые системы. Сычев А.В. 2006 г. Соседние в гиперссылочном графе документы могут содержать

Информационно-поисковые системы. Сычев А.В. 2006 г.Идея: использовать при классификации термины и метки

Информационно-поисковые системы. Сычев А.В. 2006 г.Модификация запросовПереформулировка запросаРасширение запросаДобавление терминов в запрос

Информационно-поисковые системы. Сычев А.В. 2006 г.Обратная связь по релевантностиМетод Rocchio:гдеQ0 – вектор

Информационно-поисковые системы. Сычев А.В. 2006 г.Латентно-семантическое индексирование как кластеризацияLSI может рассматриваться как

Информационно-поисковые системы. Сычев А.В. 2006 г.ЛитератураR. Larson “Principles of Information Retrieval”. Слайды

Похожие презентации