Информационный поиск в Интернете

Февраль 14, 2021

Главная
Разное
Информационный поиск в Интернете

Содержание

2. План лекции Модели информационного поиска Булевская модель Векторная модель Вероятностная модель
3. План лекции Модели информационного поиска Булевская модель Векторная модель Вероятностная модель Архитектура поисковой системы
4. План лекции Модели информационного поиска Булевская модель Векторная модель Вероятностная модель Архитектура поисковой системы PageRank
5. Модели информационного поиска Что такое документ? Что такое запрос? При каком условии документ соответствует запросу?
6. Булевская модель Словарь: T = {t1, . . . tn} Документ: D ⊂ T, иначе говоря
7. Булевская модель Словарь: T = {t1, . . . tn} Документ: D ⊂ T, иначе говоря
8. Булевская модель Словарь: T = {t1, . . . tn} Документ: D ⊂ T, иначе говоря
9. Векторная модель Снова коллекция документов, каждый из которых теперь является мультимножеством слов. Определим матрицу M по
10. Векторная модель Снова коллекция документов, каждый из которых теперь является мультимножеством слов. Определим матрицу M по
11. Векторная модель Снова коллекция документов, каждый из которых теперь является мультимножеством слов. Определим матрицу M по
12. Релевантность в векторной модели Запишем запрос в виде вектора: Q = t3 AND t5 ~ {0,
13. Вероятностная модель для чайников Документ: множество слов (булевский вектор) D = {d1, . . . ,
14. Вероятностная модель для чайников Документ: множество слов (булевский вектор) D = {d1, . . . ,
15. Вычисляем функцию соответствия Воспользуемся теоремой Байеса ( )
16. Вычисляем функцию соответствия Воспользуемся теоремой Байеса ( ): Первый сомножитель одинаков для всех документов.
17. Вычисляем функцию соответствия Воспользуемся теоремой Байеса ( ): Первый сомножитель одинаков для всех документов. Предполагая независимость
18. Вычисляем функцию соответствия II Введем обозначения: Предположим, что для каждого слова i , не входящего в
19. Вычисляем функцию соответствия II Введем обозначения: Предположим, что для каждого слова i , не входящего в
20. Вычисляем функцию соответствия III
21. Вычисляем функцию соответствия III Второй сомножитель одинаков для всех документов. Забудем про него и возьмем логарифм
22. Подбор параметров Для использования полученной формулы нужно знать pik и qik .
23. Подбор параметров Для использования полученной формулы нужно знать pik и qik . Рецепт: пусть у нас
24. Подбор параметров II Тут f — общее число документов, r — число релевантных документов, ri число
25. Архитектура поисковой системы В каком формате запоминать интернет-страницы? В какой структуре данных их хранить? Как обрабатывать
26. Анатомия поисковой системы Любая поисковая система содержит три базовые части: Робот (он же краулер, спайдер или
27. Схема из [Brin,Page, 1998]
28. Прямой и обратный индекс Прямой индекс — записи отсортированы по документам Номер документа Отсортированный список слов
29. Релевантность Наличие слов на сайте Частота слов Форматирование Близость слов друг к другу Количество ссылок с
30. Как работает клиент? Разбирает запрос на слова Переводит слова в их идентификаторы Для каждого слова находит
31. Качество поиска Полнота: отношение количества найденных релевантных документов к общему количеству релевантных документов Точность: доля релевантных
32. PageRank Как определить ссылочную популярность страницы (PageRank)? Как быстро вычислить приближение PageRank?
33. PageRank: постановка задачи Хотим для каждой страницы сосчитать показатель ее “качества”. Идея [Брин, 1998]: Определить рейтинг
34. Модель случайного блуждания Сеть: Вершины Ориентированные ребра (ссылки) Передвижение пользователей по сети Стартуем в случайной вершине
35. Основное уравнение PageRank Пусть T1, . . . ,Tn — вершины, из которых идут ребра в
37. Скачать презентацию

План лекции
Модели информационного поиска
Булевская модель
Векторная модель
Вероятностная модель

План лекции
Модели информационного поиска
Булевская модель
Векторная модель
Вероятностная модель
Архитектура поисковой системы

План лекции
Модели информационного поиска
Булевская модель
Векторная модель
Вероятностная модель
Архитектура поисковой системы
PageRank

Модели информационного поиска
Что такое документ?
Что такое запрос?
При каком условии документ соответствует запросу?

Булевская модель
Словарь: T = {t1, . . . tn}
Документ: D ⊂ T,

иначе говоря D ∈ {0, 1}n
Запрос: t5 OR t7 NOT t12

Булевская модель
Словарь: T = {t1, . . . tn}
Документ: D ⊂ T,

иначе говоря D ∈ {0, 1}n
Запрос: t5 OR t7 NOT t12
Соответствие:
Формула запроса должна быть выполнена на документе.

Булевская модель
Словарь: T = {t1, . . . tn}
Документ: D ⊂ T,

иначе говоря D ∈ {0, 1}n
Запрос: t5 OR t7 NOT t12
Соответствие:
Формула запроса должна быть выполнена на документе.
Недостатки модели?

Векторная модель
Снова коллекция документов, каждый из которых теперь является мультимножеством слов.
Определим матрицу

M по формуле Mij = TFij · IDFi , где:
Частота терма TFij — относительная доля слова i в тексте j
Обратная встречаемость в документах IDFi — величина, обратная количеству документов, содержащих слово i
Физический смысл Mij — степень соответствия слова i тексту j

Слайд 11

Векторная модель
Снова коллекция документов, каждый из которых теперь является мультимножеством слов.
Определим матрицу

Слайд 12

Релевантность в векторной модели
Запишем запрос в виде вектора:
Q = t3 AND t5

~ {0, 0, 1, 0, 1, 0, . . . , 0}
Мерой релевантности будет косинус между запросом и документом:

Слайд 13

Вероятностная модель для чайников
Документ: множество слов (булевский вектор) D = {d1, .

. . , dn}
Запрос: Qk — тоже, но храним как множество

Слайд 14

Вероятностная модель для чайников
Документ: множество слов (булевский вектор) D = {d1, .

. . , dn}
Запрос: Qk — тоже, но храним как множество
Соответствие:
Зафиксируем запрос Qk
Пусть есть распределение вероятностей на всех текстах “быть релевантным запросу Qk ”: обозначаем
Пусть есть распределение вероятностей на всех текстах “быть НЕрелевантным запросу Qk ”: обозначаем
Функцией соответствия будет их отношение (или логарифм этой дроби):

Слайд 15

Вычисляем функцию соответствия
Воспользуемся теоремой Байеса ( )

Слайд 16

Вычисляем функцию соответствия
Воспользуемся теоремой Байеса ( ):
Первый сомножитель одинаков для всех документов.

Слайд 17

Вычисляем функцию соответствия
Воспользуемся теоремой Байеса ( ):
Первый сомножитель одинаков для всех документов.
Предполагая

независимость всех слов, второй сомножитель можно представить как произведение:

Слайд 18

Вычисляем функцию соответствия II
Введем обозначения:
Предположим, что для каждого слова i , не

входящего в запрос,

Слайд 19

Вычисляем функцию соответствия II
Введем обозначения:
Предположим, что для каждого слова i , не

входящего в запрос,
Теперь мы можем переписать нашу дробь:

Слайд 20

Вычисляем функцию соответствия III

Слайд 21

Вычисляем функцию соответствия III
Второй сомножитель одинаков для всех документов.
Забудем про него и

возьмем логарифм от первого:

Слайд 22

Подбор параметров
Для использования полученной формулы нужно знать pik и qik .

Слайд 23

Подбор параметров
Для использования полученной формулы нужно знать pik и qik .
Рецепт: пусть

у нас уже есть некий набор текстов, про которые мы знаем, релевантны они запросу Qk или нет. Тогда мы можем использовать формулы:

Слайд 24

Подбор параметров II
Тут
f — общее число документов,
r — число релевантных

документов,
ri число релевантных документов, содержащих слово i ,
fi — общее число документов со словом i .

Слайд 25

Архитектура поисковой системы
В каком формате запоминать интернет-страницы?
В какой структуре данных их хранить?
Как

обрабатывать запрос пользователя?

Слайд 26

Анатомия поисковой системы
Любая поисковая система содержит три базовые части:
Робот (он же краулер,

спайдер или индексатор)
Базы данных
Клиент (обработка запросов)

Слайд 27

Схема из [Brin,Page, 1998]

Слайд 28

Прямой и обратный индекс
Прямой индекс — записи отсортированы по
документам
Номер документа
Отсортированный список слов
Для

каждого слова: первые несколько вхождений, частота вхождений, формат вхождений
Обратный индекс — записи отсортированы по
словам
Номер слова
Отсортированный список документов
Для каждого документа: информация о вхождении

Слайд 29

Релевантность
Наличие слов на сайте
Частота слов
Форматирование
Близость слов друг к другу
Количество ссылок с других

страниц на данную
Качество ссылок
Соответствие тематик сайта и запроса
Регистрация в каталоге, связанном с поисковой системой

Слайд 30

Как работает клиент?
Разбирает запрос на слова
Переводит слова в их идентификаторы
Для каждого слова

находит в обратном индексе список документов, его содержащих
Одновременно бежит по этим спискам, ища общий документ
Для каждого найденного документа вычисляет степень релевантности
Сортирует образовавшийся список по релевантности

Слайд 31

Качество поиска
Полнота: отношение количества найденных релевантных документов к общему количеству релевантных документов
Точность:

доля релевантных документов в общем количестве найденных документов
Benchmarks: показатели системы на контрольных запросах и специальных коллекциях документов
Оценка экспертов

Слайд 32

PageRank
Как определить ссылочную популярность страницы (PageRank)?
Как быстро вычислить приближение PageRank?

Слайд 33

PageRank: постановка задачи
Хотим для каждой страницы сосчитать показатель ее “качества”.
Идея [Брин, 1998]:

Определить рейтинг страницы через количество ведущих на нее ссылок и рейтинг ссылающихся страниц
Другие методы:
Учет частоты обновляемости страницы
Учет посещаемости
Учет регистрации в каталоге-спутнике поисковой системы

Слайд 34

Модель случайного блуждания
Сеть:
Вершины
Ориентированные ребра (ссылки)
Передвижение пользователей по сети
Стартуем в случайной вершине
С вероятностью

ε переходим в случайную вершину
С вероятностью 1 − ε переходим по случайному исходящему ребру
Предельные вероятности
Для каждого k можно определить PRk (i) как
вероятность оказаться в вершине i через k шагов
limk→∞ PRk (i) = PR(i)
то есть для каждой вершины
есть предельная вероятность находится именно в ней

Слайд 35

Основное уравнение PageRank
Пусть T1, . . . ,Tn — вершины, из которых

идут ребра в i , C(X) — обозначение для исходящей степени вершины X.
По определению PRk (i ) верно следующее:
Нужно перейти к пределу!
Практическое решение: вместо PR(i ) используют PR50(i ),
вычисленное по итеративной формуле.

Информационный поиск в Интернете

Содержание

План лекцииМодели информационного поискаБулевская модельВекторная модельВероятностная модель

План лекцииМодели информационного поискаБулевская модельВекторная модельВероятностная модельАрхитектура поисковой системы

План лекцииМодели информационного поискаБулевская модельВекторная модельВероятностная модельАрхитектура поисковой системыPageRank

Модели информационного поискаЧто такое документ?Что такое запрос?При каком условии документ соответствует запросу?

Булевская модель Словарь: T = {t1, . . . tn} Документ: D ⊂ T,

Булевская модель Словарь: T = {t1, . . . tn} Документ: D ⊂ T,

Булевская модель Словарь: T = {t1, . . . tn} Документ: D ⊂ T,

Векторная модель Снова коллекция документов, каждый из которых теперь является мультимножеством слов. Определим матрицу

Векторная модель Снова коллекция документов, каждый из которых теперь является мультимножеством слов. Определим матрицу

Векторная модель Снова коллекция документов, каждый из которых теперь является мультимножеством слов. Определим матрицу

Релевантность в векторной модели Запишем запрос в виде вектора: Q = t3 AND t5

Вероятностная модель для чайниковДокумент: множество слов (булевский вектор) D = {d1, .

Вероятностная модель для чайниковДокумент: множество слов (булевский вектор) D = {d1, .

Вычисляем функцию соответствияВоспользуемся теоремой Байеса ( )

Вычисляем функцию соответствияВоспользуемся теоремой Байеса ( ):Первый сомножитель одинаков для всех документов.

Вычисляем функцию соответствияВоспользуемся теоремой Байеса ( ):Первый сомножитель одинаков для всех документов.Предполагая

Вычисляем функцию соответствия IIВведем обозначения:Предположим, что для каждого слова i , не

Вычисляем функцию соответствия IIВведем обозначения:Предположим, что для каждого слова i , не

Вычисляем функцию соответствия III

Вычисляем функцию соответствия IIIВторой сомножитель одинаков для всех документов.Забудем про него и

Подбор параметровДля использования полученной формулы нужно знать pik и qik .

Подбор параметровДля использования полученной формулы нужно знать pik и qik .Рецепт: пусть

Подбор параметров IIТут f — общее число документов, r — число релевантных

Архитектура поисковой системыВ каком формате запоминать интернет-страницы?В какой структуре данных их хранить?Как

Анатомия поисковой системыЛюбая поисковая система содержит три базовые части:Робот (он же краулер,

Схема из [Brin,Page, 1998]

Прямой и обратный индексПрямой индекс — записи отсортированы подокументамНомер документаОтсортированный список словДля

РелевантностьНаличие слов на сайтеЧастота словФорматированиеБлизость слов друг к другуКоличество ссылок с других

Как работает клиент?Разбирает запрос на словаПереводит слова в их идентификаторыДля каждого слова

Качество поискаПолнота: отношение количества найденных релевантных документов к общему количеству релевантных документовТочность:

PageRankКак определить ссылочную популярность страницы (PageRank)?Как быстро вычислить приближение PageRank?

PageRank: постановка задачиХотим для каждой страницы сосчитать показатель ее “качества”.Идея [Брин, 1998]:

Модель случайного блужданияСеть:ВершиныОриентированные ребра (ссылки)Передвижение пользователей по сетиСтартуем в случайной вершинеС вероятностью

Основное уравнение PageRankПусть T1, . . . ,Tn — вершины, из которых

Похожие презентации

План лекции
Модели информационного поиска
Булевская модель
Векторная модель
Вероятностная модель

План лекции
Модели информационного поиска
Булевская модель
Векторная модель
Вероятностная модель
Архитектура поисковой системы

План лекции
Модели информационного поиска
Булевская модель
Векторная модель
Вероятностная модель
Архитектура поисковой системы
PageRank

Модели информационного поиска
Что такое документ?
Что такое запрос?
При каком условии документ соответствует запросу?

Булевская модель
Словарь: T = {t1, . . . tn}
Документ: D ⊂ T,

Булевская модель
Словарь: T = {t1, . . . tn}
Документ: D ⊂ T,

Булевская модель
Словарь: T = {t1, . . . tn}
Документ: D ⊂ T,

Векторная модель
Снова коллекция документов, каждый из которых теперь является мультимножеством слов.
Определим матрицу

Векторная модель
Снова коллекция документов, каждый из которых теперь является мультимножеством слов.
Определим матрицу

Векторная модель
Снова коллекция документов, каждый из которых теперь является мультимножеством слов.
Определим матрицу

Релевантность в векторной модели
Запишем запрос в виде вектора:
Q = t3 AND t5

Вероятностная модель для чайников
Документ: множество слов (булевский вектор) D = {d1, .

Вероятностная модель для чайников
Документ: множество слов (булевский вектор) D = {d1, .

Вычисляем функцию соответствия
Воспользуемся теоремой Байеса ( )

Вычисляем функцию соответствия
Воспользуемся теоремой Байеса ( ):
Первый сомножитель одинаков для всех документов.

Вычисляем функцию соответствия
Воспользуемся теоремой Байеса ( ):
Первый сомножитель одинаков для всех документов.
Предполагая

Вычисляем функцию соответствия II
Введем обозначения:
Предположим, что для каждого слова i , не

Вычисляем функцию соответствия II
Введем обозначения:
Предположим, что для каждого слова i , не

Вычисляем функцию соответствия III
Второй сомножитель одинаков для всех документов.
Забудем про него и

Подбор параметров
Для использования полученной формулы нужно знать pik и qik .

Подбор параметров
Для использования полученной формулы нужно знать pik и qik .
Рецепт: пусть

Подбор параметров II
Тут
f — общее число документов,
r — число релевантных

Архитектура поисковой системы
В каком формате запоминать интернет-страницы?
В какой структуре данных их хранить?
Как

Анатомия поисковой системы
Любая поисковая система содержит три базовые части:
Робот (он же краулер,

Прямой и обратный индекс
Прямой индекс — записи отсортированы по
документам
Номер документа
Отсортированный список слов
Для

Релевантность
Наличие слов на сайте
Частота слов
Форматирование
Близость слов друг к другу
Количество ссылок с других

Как работает клиент?
Разбирает запрос на слова
Переводит слова в их идентификаторы
Для каждого слова

Качество поиска
Полнота: отношение количества найденных релевантных документов к общему количеству релевантных документов
Точность:

PageRank
Как определить ссылочную популярность страницы (PageRank)?
Как быстро вычислить приближение PageRank?

PageRank: постановка задачи
Хотим для каждой страницы сосчитать показатель ее “качества”.
Идея [Брин, 1998]:

Модель случайного блуждания
Сеть:
Вершины
Ориентированные ребра (ссылки)
Передвижение пользователей по сети
Стартуем в случайной вершине
С вероятностью

Основное уравнение PageRank
Пусть T1, . . . ,Tn — вершины, из которых