Классификация и кластеризация документов

Содержание

Слайд 2

Информационно-поисковые системы. Сычев А.В. 2006 г.

Объединение документов или их представлений в одну

Информационно-поисковые системы. Сычев А.В. 2006 г. Объединение документов или их представлений в
группу, которая в дальнейшем может рассматриваться и использоваться как единая сущность
Сами группировки могут определяться заранее либо формироваться алгоритмически
Процесс группировки может выполняться вручную либо автоматически
Полезность классификации заключается в том, что элементы группировки могут с большой вероятностью оказаться релевантными

Что такое классификация?

Слайд 3

Информационно-поисковые системы. Сычев А.В. 2006 г.

Два способа:
на основе заранее заданной схемы классификации

Информационно-поисковые системы. Сычев А.В. 2006 г. Два способа: на основе заранее заданной
и уже имеющегося множества классифицированных документов
полностью автоматизированная кластеризация

Автоматическая классификация

Слайд 4

Информационно-поисковые системы. Сычев А.В. 2006 г.

Фильтрация входящих документов
Сжатие информации (аннотирование, реферирование)
Расширение запросов

Информационно-поисковые системы. Сычев А.В. 2006 г. Фильтрация входящих документов Сжатие информации (аннотирование,
за счет характеризующих тематику класса терминов
Реализация обратной связи по релевантности путем предварительной классификации результатов выборки по классам и выбора пользователем релевантных классов
Снятие омонимии путем отображения слов в обобщенные концепты
Увеличение эффективности поиска путем сведения к поиску классов
(Полу-)автоматическое структурирование порталов – автоматическое формирование тематических каталогов.

Использование автоматической классификации при информационном поиске

Слайд 5

Информационно-поисковые системы. Сычев А.В. 2006 г.

10 человек, 5 запросов
Наиболее частые запросы с

Информационно-поисковые системы. Сычев А.В. 2006 г. 10 человек, 5 запросов Наиболее частые
существенно различающимися терминами
Количество документов по каждому запросу: 15, 16, 16, 11, 10
6 человек работали только с заголовками и URL, остальные 4 – с полными текстами документов
Ставилась задача разбить документы на минимально пересекающиеся классы; ограничение по времени отсутствовало.

Классификация вручную. Эксперимент.

Слайд 6

Информационно-поисковые системы. Сычев А.В. 2006 г.

Классификация вручную. Результаты эксперимента.

Наблюдается разброс в результатах

Информационно-поисковые системы. Сычев А.В. 2006 г. Классификация вручную. Результаты эксперимента. Наблюдается разброс
классификации документов разными людьми
Степень подобия между результатами разных людей очень маленькая
Люди склонны создавать очень маленькие классы
Использование полного текста документа значительно помогает при классификации, при этом получается меньше классов, но они в большей степени пересекаются
Человек склонен привязывать результат классификации к контексту
Классификация невозможна без знания смысла запроса

Слайд 7

Информационно-поисковые системы. Сычев А.В. 2006 г.

Кластеризация

Основой методов кластеризации является кластерная гипотеза (C.J.

Информационно-поисковые системы. Сычев А.В. 2006 г. Кластеризация Основой методов кластеризации является кластерная
van Rijsbergen), которая гласит:
Тесно связанные между собой документы оказываются релевантными по отношению к тем же запросам.
Кластеризация может быть использована для распределения документов в коллекции по классам (классификации), что позволяет повысить скорость поиска документов и точность ответа.
Кластеризация включает в себя две процедуры: генерацию кластеров и поиск кластеров по запросу пользователя.

Слайд 8

Информационно-поисковые системы. Сычев А.В. 2006 г.

Fairthorne “The Mathematics of Classification” (1961)
Эксперименты Марона

Информационно-поисковые системы. Сычев А.В. 2006 г. Fairthorne “The Mathematics of Classification” (1961)
(1961), Борко и Берника (1963)
Работы по численной таксономии и ее приложениям при информационном поиске – Джардайна (Jardine), Сибсона, ван Рийсбергена, Сэлтона (1970). Кластеризация рассматривалась исключительно с точки зрения эффективности поиска нежели в семантическом аспекте.
Интерес к кластеризации утрачен в 80-х годах, возрождение интереса в 90-х годах в приложениях, связанных с навигацией и обработкой данных.
Работа Спарк-Джонс по кластеризации терминов.

Кластеризация. Предыстория.

Слайд 9

Информационно-поисковые системы. Сычев А.В. 2006 г.

Кластеризация – удобный инструмент при работе с

Информационно-поисковые системы. Сычев А.В. 2006 г. Кластеризация – удобный инструмент при работе
документальным пространством, имеющим, как правило, высокую размерность.
Среди автоматических методов кластеризации выделяют следующие:
Методы иерархической кластеризации
Методы кластеризации, основанные на разбиении множеств.
Гибридные методы.

Кластеризация. Методы.

Слайд 10

Информационно-поисковые системы. Сычев А.В. 2006 г.

Обработка вновь поступающих документов не должна существенным

Информационно-поисковые системы. Сычев А.В. 2006 г. Обработка вновь поступающих документов не должна
образом изменять результат кластеризации
Устойчивость: незначительные ошибки в описании объектов могут вызывать также незначительные изменения в результатах кластеризации
Независимость результата кластеризации от исходного порядка на множестве объектов
Выполнение этих критериев не является обязательным во всех приложениях

Методы кластеризации. Критерии адекватности.

Слайд 11

Информационно-поисковые системы. Сычев А.В. 2006 г.

Методы кластеризации, основанные на разбиении множеств

Целью является

Информационно-поисковые системы. Сычев А.В. 2006 г. Методы кластеризации, основанные на разбиении множеств
разбиение исходного множества из N документов на k кластеров.
Из них можно выделить
глобально оптимальные алгоритмы, которые исчерпывающе перечисляют все разбиения
эффективные эвристические методы, например метод К-средних.

Слайд 12

Информационно-поисковые системы. Сычев А.В. 2006 г.

Метод К-средних

Документы описываются векторами с вещественными компонентами
Каждый

Информационно-поисковые системы. Сычев А.В. 2006 г. Метод К-средних Документы описываются векторами с
кластер идентифицируется с помощью центроида, который вычисляется как усредненный вектор от всех его элементов:
Далее происходит перераспределение документов по кластерам в зависимости от их расстояния до центроидов кластеров

Слайд 13

Информационно-поисковые системы. Сычев А.В. 2006 г.

Алгоритм К-средних

Задается метрика d для вычисления расстояния

Информационно-поисковые системы. Сычев А.В. 2006 г. Алгоритм К-средних Задается метрика d для
между элементами множества.
Случайным образом выбираются k. зерновых элементов {s1, s2, …, sk}
До тех пор пока не выполнится условие остановки:
Для каждого элемента xi:
поместить xi в кластестер cj такой, что d(xi, sj) минимально
Сделать центроиды классов зерновыми элементами, т.е. для каждого кластера cj
sj=μ(cj)

Слайд 14

Информационно-поисковые системы. Сычев А.В. 2006 г.

Возможное условие остановки цикла:
Количество итераций
Группировка документов по

Информационно-поисковые системы. Сычев А.В. 2006 г. Возможное условие остановки цикла: Количество итераций
кластерам не изменяется
Позиции центроидов не изменяются
Временная сложность алгоритма O(n*log n)

Алгоритм К-средних

Слайд 15

Информационно-поисковые системы. Сычев А.В. 2006 г.

Недостатки:
Результат кластеризации зависит от выбора стартовых элементов.
Значение

Информационно-поисковые системы. Сычев А.В. 2006 г. Недостатки: Результат кластеризации зависит от выбора
k выбирается вне алгоритма.
Кластеры не пересекаются (жесткая кластеризация), т.е. для документа исключена возможность принадлежности к нескольким кластерам одновременно.
Модификация: “мягкая” кластеризация.

Метод К-средних

Слайд 16

Информационно-поисковые системы. Сычев А.В. 2006 г.

Иерархическая аггломеративная кластеризация

Используется матрица сопряженности типа “документ-документ”

Информационно-поисковые системы. Сычев А.В. 2006 г. Иерархическая аггломеративная кластеризация Используется матрица сопряженности
(матрица подобия).
Начальное количество кластеров совпадает с исходным количеством документов, затем итерационно происходит объединение кластеров в суперкластеры по степени подобия.
В итоге получается один общий кластер, являющийся корнем древовидной структуры – дендограммы.

Слайд 17

Информационно-поисковые системы. Сычев А.В. 2006 г.

Иерархическая аггломеративная кластеризация

Сечение дендограммы на любом уровне

Информационно-поисковые системы. Сычев А.В. 2006 г. Иерархическая аггломеративная кластеризация Сечение дендограммы на
дает набор кластеров из связных между собой элементов, фактически получается дерево кластеров

Вычислительная сложность O(n2)

Слайд 18

Информационно-поисковые системы. Сычев А.В. 2006 г.

Иерархическая аггломеративная кластеризация

Порог принятия решения о подобии

Информационно-поисковые системы. Сычев А.В. 2006 г. Иерархическая аггломеративная кластеризация Порог принятия решения
кластеров задается вне алгоритма.

Слайд 19

Информационно-поисковые системы. Сычев А.В. 2006 г.

Поиск кластера

Входной запрос представляется в виде t-мерного

Информационно-поисковые системы. Сычев А.В. 2006 г. Поиск кластера Входной запрос представляется в
вектора и сравнивается с центроидами кластеров.
Поиск продолжается в кластерах, степень подобия для которых превысила заданный порог.
Для вычисления степени подобия часто используется косинусная метрика.

Слайд 20

Информационно-поисковые системы. Сычев А.В. 2006 г.

Существует необходимость распределенного хранения документов в кластерной

Информационно-поисковые системы. Сычев А.В. 2006 г. Существует необходимость распределенного хранения документов в
системе
По какому принципу распределять?
административным и т.п. способами;
по тематике.
Как определять тематику, если она заранее не задана?
Решение – кластеризация.

Кластеризация в распределенных системах

Слайд 21

Информационно-поисковые системы. Сычев А.В. 2006 г.

Вырожденный случай – единая система
Гетерогенные коллекции
кластеры построены

Информационно-поисковые системы. Сычев А.В. 2006 г. Вырожденный случай – единая система Гетерогенные
заранее
Глобальная кластеризация
все помещается в общее хранилище и выполняется кластеризация
для каждого кластера строится тематическая модель
Локальная кластеризация
кластеризуется каждая из гетерогенных коллекций
внутри каждой коллекции формируются тематические модели для каждого полученного кластера (т.е. модель указывает на кластер внутри локальной коллекции)
Политематическое представление
кластеризуется каждая из гетерогенных коллекций
тематические модели для каждой из коллекций собираются вместе (т.е. модель указывает на коллекцию)

Подходы к кластеризации в распределенных системах

Слайд 22

Информационно-поисковые системы. Сычев А.В. 2006 г.

Выполнение запроса:
Ранжирование коллекций относительно запроса
Выбор n лучших

Информационно-поисковые системы. Сычев А.В. 2006 г. Выполнение запроса: Ранжирование коллекций относительно запроса
коллекций
Выборка N лучших документов из каждой коллекции
Слияние списков из коллекций в общий список на основе показателя доверия

Выполнение запроса в распределенной системе

Слайд 23

Информационно-поисковые системы. Сычев А.В. 2006 г.

Кластеризация в распределенных системах: выводы

Тематическая кластеризация эффективна

Информационно-поисковые системы. Сычев А.В. 2006 г. Кластеризация в распределенных системах: выводы Тематическая
для распределенного информационного поиска
Лучшие результаты получаются при глобальной тематической кластеризации, поскольку подобные документы оказываются вместе
При невозможности глобальной кластеризации относительно хорошим решением является локальный вариант, при этом
сохраняется административное распределение коллекций;
довольно большая нагрузка приходится на локальные сайты
Хорошим решением является множество тематик, указывающих на единую коллекцию:
это лучше чем модель единой системы
кластеризация и формирование моделей затрагивает только локальный сайт
в дальнейшем исключается нагрузка на сайты, содержащие коллекции

Слайд 24

Информационно-поисковые системы. Сычев А.В. 2006 г.

Соседние в гиперссылочном графе документы могут содержать

Информационно-поисковые системы. Сычев А.В. 2006 г. Соседние в гиперссылочном графе документы могут
информацию, полезную при классификации:
На текущий документ Di может ссылаться другой документ Dj , содержащий высокоспецифичные термины, отсутствующие в самом документе Di
На текущий документ Di может ссылаться другой документ Dj , содержащийся в релевантном разделе каталога, созданного вручную
На текущий документ Di может ссылаться другой документ Dj , содержащий ссылки также на многие другие документы, которые были использованы для настройки классификатора на релевантную тему (раздел каталога)

Классификация документов на основе гиперссылок

Слайд 25

Информационно-поисковые системы. Сычев А.В. 2006 г.

Идея: использовать при классификации термины и метки

Информационно-поисковые системы. Сычев А.В. 2006 г. Идея: использовать при классификации термины и
классов документов-соседей по графу
Подход 1:
описание документа расширяется за счет терминов документов-соседей, находящихся в графе в пределах радиуса r ≤ R (возможен учет расстояния r в виде весовой функции 1/r)
недостаток: чувствительность к смещению темы
Подход 2:
учет меток классов документов-соседей по графу в процессе классификации

Использование свойств документов-соседей в графе гиперссылок

Слайд 26

Информационно-поисковые системы. Сычев А.В. 2006 г.

Модификация запросов

Переформулировка запроса
Расширение запроса
Добавление терминов в запрос

Информационно-поисковые системы. Сычев А.В. 2006 г. Модификация запросов Переформулировка запроса Расширение запроса
для уточнения информационной потребности
Обратная связь
Оценка документов в выдаче как релевантных/нерелевантных
Представление результатов
Кластеризация выданных результатов

Слайд 27

Информационно-поисковые системы. Сычев А.В. 2006 г.

Обратная связь по релевантности

Метод Rocchio:
где
Q0 – вектор

Информационно-поисковые системы. Сычев А.В. 2006 г. Обратная связь по релевантности Метод Rocchio:
начального запроса
Ri – вектор i-го релевантного документа
Si - вектор i-го нерелевантного документа
n1 – число выбранных пользователем релевантных документов
n2 - число выбранных пользователем нерелевантных документов
α,β,γ – параметры настройки

Слайд 28

Информационно-поисковые системы. Сычев А.В. 2006 г.

Латентно-семантическое индексирование как кластеризация

LSI может рассматриваться как

Информационно-поисковые системы. Сычев А.В. 2006 г. Латентно-семантическое индексирование как кластеризация LSI может
метод кластеризации (спектральная кластеризация)
Вариант реализации для k кластеров:
Каждый элемент представляется точкой в k-мерном пространстве
Каждая точка проецируется на ось, соответствующую наибольшей по величине координате этой точки

Слайд 29

Информационно-поисковые системы. Сычев А.В. 2006 г.

Литература

R. Larson “Principles of Information Retrieval”. Слайды

Информационно-поисковые системы. Сычев А.В. 2006 г. Литература R. Larson “Principles of Information
(http://www.sims.berkeley.edu/academics/courses/is240/s06/)
G. Weikum “Information Retrieval and Data Mining”. Слайды (http://www.mpi-sb.mpg.de/departments/d5/teaching/ws05_06/irdm/material.html)
J. Allan “Information Retrieval”. Слайды. (http://ciir.cs.umass.edu/cmpsci646/)
S.A.Macskassy, A.Banerjee, B.D.Davison, H.Hirsh “Human Performance on Clustering Web Pages”. Technical Report DCS-TR-355, Department of Computer Science, Rutgers University, 1998.
Имя файла: Классификация-и-кластеризация-документов.pptx
Количество просмотров: 372
Количество скачиваний: 1