Слайд 2Области применения:
Текстовый поиск в интернете.
Поиск «близких» документов.
Классификация текстов.
Устранение многозначности.

Слайд 5
Латентно-семантический анализ

Слайд 6
Задача: кластеризовать новости по заголовкам.

Слайд 7Британская полиция знает о местонахождении основателя WikiLeaks
В суде США начинается процесс против

россиянина, рассылавшего спам
Церемонию вручения Нобелевской премии мира бойкотируют 19 стран
В Великобритании арестован основатель Wikileaks Джулиан Ассандж
Украина игнорирует церемонию вручения Нобелевской премии
Шведский суд отказался рассматривать апелляцию основателя Wikileaks
НАТО и США разработали планы обороны стран Балтии против России
Полиция Великобритании нашла основателя WikiLeaks, но, не арестовала
В Стокгольме и Осло сегодня состоится вручение Нобелевских премий
Слайд 8Подготовка:
Удаление стоп-слов
Стемминг
Удаление слов в единст- венном экземпляре

Слайд 9Британская полиция знает о местонахождении основателя WikiLeaks
В суде США начинается процесс против

россиянина, рассылавшего спам
Церемонию вручения Нобелевской премии мира бойкотируют 19 стран
В Великобритании арестован основатель Wikileaks Джулиан Ассандж
Украина игнорирует церемонию вручения Нобелевской премии
Шведский суд отказался рассматривать апелляцию основателя Wikileaks
НАТО и США разработали планы обороны стран Балтии против России
Полиция Великобритании нашла основателя WikiLeaks, но, не арестовала
В Стокгольме и Осло сегодня состоится вручение Нобелевских премий
Слайд 10Считаем количество раз вхождения каждого слова в документы и заносим в матрицу.

Слайд 12Сингулярное разложение матрицы:
M = U*W*Vt
U и Vt – ортогональные
W – диагональная (элементы

в порядке неубывания)
Слайд 14Строки и столбцы с меньшим сингулярным числом дают меньший вклад в произведение.
Оставим

только 2 самых весомых.
Слайд 18Методы, использующие связи: абстрагируемся от текста, важны только связи между документами.
Унификация.

Слайд 21Локальные: близость определяется для пары вершин и не затрагивает большинство вершин.

Слайд 23N(a) – множество ближайших соседей узла a

Слайд 24Коэффициент Жаккара:
Коэффициент Дайса:
СимКос:

Слайд 25Для направленных графов:
Со-цитирование
Библиографическое сочетание

Слайд 27Глобальные: вычисляют близость между всеми вершинами графа.

Слайд 28SimRank: два объекта похожи, если на них ссылаются похожие объекты
C – коэффициент

затухания.
Слайд 30Затраты времени и памяти.
Базовый подход.
O(n2) памяти.
O(Kn2d2) времени, где:
K – количество итераций
d2

– среднее значение |I(a)||I(b)| по всем (a, b)
Слайд 31Затраты времени и памяти.
Улучшенный подход: рассматриваем только близкие вершины в графе.
Пусть r

– радиус в котором рассматриваются соседи.
dr – среднее количество соседей в r.
O(drn) памяти
O(Kndrd2) времени