Слайд 2Области применения:
Текстовый поиск в интернете.
Поиск «близких» документов.
Классификация текстов.
Устранение многозначности.
![Области применения: Текстовый поиск в интернете. Поиск «близких» документов. Классификация текстов. Устранение многозначности.](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/397781/slide-1.jpg)
Слайд 5
Латентно-семантический анализ
![Латентно-семантический анализ](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/397781/slide-4.jpg)
Слайд 6
Задача: кластеризовать новости по заголовкам.
![Задача: кластеризовать новости по заголовкам.](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/397781/slide-5.jpg)
Слайд 7Британская полиция знает о местонахождении основателя WikiLeaks
В суде США начинается процесс против
![Британская полиция знает о местонахождении основателя WikiLeaks В суде США начинается процесс](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/397781/slide-6.jpg)
россиянина, рассылавшего спам
Церемонию вручения Нобелевской премии мира бойкотируют 19 стран
В Великобритании арестован основатель Wikileaks Джулиан Ассандж
Украина игнорирует церемонию вручения Нобелевской премии
Шведский суд отказался рассматривать апелляцию основателя Wikileaks
НАТО и США разработали планы обороны стран Балтии против России
Полиция Великобритании нашла основателя WikiLeaks, но, не арестовала
В Стокгольме и Осло сегодня состоится вручение Нобелевских премий
Слайд 8Подготовка:
Удаление стоп-слов
Стемминг
Удаление слов в единст- венном экземпляре
![Подготовка: Удаление стоп-слов Стемминг Удаление слов в единст- венном экземпляре](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/397781/slide-7.jpg)
Слайд 9Британская полиция знает о местонахождении основателя WikiLeaks
В суде США начинается процесс против
![Британская полиция знает о местонахождении основателя WikiLeaks В суде США начинается процесс](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/397781/slide-8.jpg)
россиянина, рассылавшего спам
Церемонию вручения Нобелевской премии мира бойкотируют 19 стран
В Великобритании арестован основатель Wikileaks Джулиан Ассандж
Украина игнорирует церемонию вручения Нобелевской премии
Шведский суд отказался рассматривать апелляцию основателя Wikileaks
НАТО и США разработали планы обороны стран Балтии против России
Полиция Великобритании нашла основателя WikiLeaks, но, не арестовала
В Стокгольме и Осло сегодня состоится вручение Нобелевских премий
Слайд 10Считаем количество раз вхождения каждого слова в документы и заносим в матрицу.
![Считаем количество раз вхождения каждого слова в документы и заносим в матрицу.](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/397781/slide-9.jpg)
Слайд 12Сингулярное разложение матрицы:
M = U*W*Vt
U и Vt – ортогональные
W – диагональная (элементы
![Сингулярное разложение матрицы: M = U*W*Vt U и Vt – ортогональные W](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/397781/slide-11.jpg)
в порядке неубывания)
Слайд 14Строки и столбцы с меньшим сингулярным числом дают меньший вклад в произведение.
Оставим
![Строки и столбцы с меньшим сингулярным числом дают меньший вклад в произведение.](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/397781/slide-13.jpg)
только 2 самых весомых.
Слайд 18Методы, использующие связи: абстрагируемся от текста, важны только связи между документами.
Унификация.
![Методы, использующие связи: абстрагируемся от текста, важны только связи между документами. Унификация.](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/397781/slide-17.jpg)
Слайд 21Локальные: близость определяется для пары вершин и не затрагивает большинство вершин.
![Локальные: близость определяется для пары вершин и не затрагивает большинство вершин.](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/397781/slide-20.jpg)
Слайд 23N(a) – множество ближайших соседей узла a
![N(a) – множество ближайших соседей узла a](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/397781/slide-22.jpg)
Слайд 24Коэффициент Жаккара:
Коэффициент Дайса:
СимКос:
![Коэффициент Жаккара: Коэффициент Дайса: СимКос:](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/397781/slide-23.jpg)
Слайд 25Для направленных графов:
Со-цитирование
Библиографическое сочетание
![Для направленных графов: Со-цитирование Библиографическое сочетание](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/397781/slide-24.jpg)
Слайд 27Глобальные: вычисляют близость между всеми вершинами графа.
![Глобальные: вычисляют близость между всеми вершинами графа.](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/397781/slide-26.jpg)
Слайд 28SimRank: два объекта похожи, если на них ссылаются похожие объекты
C – коэффициент
![SimRank: два объекта похожи, если на них ссылаются похожие объекты C – коэффициент затухания.](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/397781/slide-27.jpg)
затухания.
Слайд 30Затраты времени и памяти.
Базовый подход.
O(n2) памяти.
O(Kn2d2) времени, где:
K – количество итераций
d2
![Затраты времени и памяти. Базовый подход. O(n2) памяти. O(Kn2d2) времени, где: K](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/397781/slide-29.jpg)
– среднее значение |I(a)||I(b)| по всем (a, b)
Слайд 31Затраты времени и памяти.
Улучшенный подход: рассматриваем только близкие вершины в графе.
Пусть r
![Затраты времени и памяти. Улучшенный подход: рассматриваем только близкие вершины в графе.](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/397781/slide-30.jpg)
– радиус в котором рассматриваются соседи.
dr – среднее количество соседей в r.
O(drn) памяти
O(Kndrd2) времени