Методы определения семантической близости документов

Содержание

Слайд 2

Области применения:
Текстовый поиск в интернете.
Поиск «близких» документов.
Классификация текстов.
Устранение многозначности.

Области применения: Текстовый поиск в интернете. Поиск «близких» документов. Классификация текстов. Устранение многозначности.

Слайд 3

Методы:
По тексту
По связям

Методы: По тексту По связям

Слайд 4

Методы:
По тексту
По связям

Методы: По тексту По связям

Слайд 5

Латентно-семантический анализ

Латентно-семантический анализ

Слайд 6

Задача: кластеризовать новости по заголовкам.

Задача: кластеризовать новости по заголовкам.

Слайд 7

Британская полиция знает о местонахождении основателя WikiLeaks
В суде США начинается процесс против

Британская полиция знает о местонахождении основателя WikiLeaks В суде США начинается процесс
россиянина, рассылавшего спам
Церемонию вручения Нобелевской премии мира бойкотируют 19 стран
В Великобритании арестован основатель Wikileaks Джулиан Ассандж
Украина игнорирует церемонию вручения Нобелевской премии
Шведский суд отказался рассматривать апелляцию основателя Wikileaks
НАТО и США разработали планы обороны стран Балтии против России
Полиция Великобритании нашла основателя WikiLeaks, но, не арестовала
В Стокгольме и Осло сегодня состоится вручение Нобелевских премий

Слайд 8

Подготовка:
Удаление стоп-слов
Стемминг
Удаление слов в единст- венном экземпляре

Подготовка: Удаление стоп-слов Стемминг Удаление слов в единст- венном экземпляре

Слайд 9

Британская полиция знает о местонахождении основателя WikiLeaks
В суде США начинается процесс против

Британская полиция знает о местонахождении основателя WikiLeaks В суде США начинается процесс
россиянина, рассылавшего спам
Церемонию вручения Нобелевской премии мира бойкотируют 19 стран
В Великобритании арестован основатель Wikileaks Джулиан Ассандж
Украина игнорирует церемонию вручения Нобелевской премии
Шведский суд отказался рассматривать апелляцию основателя Wikileaks
НАТО и США разработали планы обороны стран Балтии против России
Полиция Великобритании нашла основателя WikiLeaks, но, не арестовала
В Стокгольме и Осло сегодня состоится вручение Нобелевских премий

Слайд 10

Считаем количество раз вхождения каждого слова в документы и заносим в матрицу.

Считаем количество раз вхождения каждого слова в документы и заносим в матрицу.

Слайд 12

Сингулярное разложение матрицы:
M = U*W*Vt
U и Vt – ортогональные
W – диагональная (элементы

Сингулярное разложение матрицы: M = U*W*Vt U и Vt – ортогональные W
в порядке неубывания)

Слайд 14

Строки и столбцы с меньшим сингулярным числом дают меньший вклад в произведение.
Оставим

Строки и столбцы с меньшим сингулярным числом дают меньший вклад в произведение.
только 2 самых весомых.

Слайд 17

Методы:
По тексту
По связям

Методы: По тексту По связям

Слайд 18

Методы, использующие связи: абстрагируемся от текста, важны только связи между документами.
Унификация.

Методы, использующие связи: абстрагируемся от текста, важны только связи между документами. Унификация.

Слайд 19

Локальные
Глобальные

Локальные Глобальные

Слайд 20

Локальные
Глобальные

Локальные Глобальные

Слайд 21

Локальные: близость определяется для пары вершин и не затрагивает большинство вершин.

Локальные: близость определяется для пары вершин и не затрагивает большинство вершин.

Слайд 22

Ближайшие соседи:

Ближайшие соседи:

Слайд 23

N(a) – множество ближайших соседей узла a

N(a) – множество ближайших соседей узла a

Слайд 24

Коэффициент Жаккара:

Коэффициент Дайса:

СимКос:

Коэффициент Жаккара: Коэффициент Дайса: СимКос:

Слайд 25

Для направленных графов:
Со-цитирование
Библиографическое сочетание

Для направленных графов: Со-цитирование Библиографическое сочетание

Слайд 26

Локальные
Глобальные

Локальные Глобальные

Слайд 27

Глобальные: вычисляют близость между всеми вершинами графа.

Глобальные: вычисляют близость между всеми вершинами графа.

Слайд 28

SimRank: два объекта похожи, если на них ссылаются похожие объекты

C – коэффициент

SimRank: два объекта похожи, если на них ссылаются похожие объекты C – коэффициент затухания.
затухания.

Слайд 29

Метод итеративен.

Метод итеративен.

Слайд 30

Затраты времени и памяти.
Базовый подход.
O(n2) памяти.
O(Kn2d2) времени, где:
K – количество итераций
d2

Затраты времени и памяти. Базовый подход. O(n2) памяти. O(Kn2d2) времени, где: K
– среднее значение |I(a)||I(b)| по всем (a, b)

Слайд 31

Затраты времени и памяти.
Улучшенный подход: рассматриваем только близкие вершины в графе.
Пусть r

Затраты времени и памяти. Улучшенный подход: рассматриваем только близкие вершины в графе.
– радиус в котором рассматриваются соседи.
dr – среднее количество соседей в r.
O(drn) памяти
O(Kndrd2) времени
Имя файла: Методы-определения-семантической-близости-документов.pptx
Количество просмотров: 108
Количество скачиваний: 0