Особенности регионального ранжирования Яндекса. Украинская формула

Содержание

Слайд 2

ТЕКУЩИЙ АЛГОРИТМ. МАШИННОЕ ОБУЧЕНИЕ

Обучающие данные
Набор запросов q(i)
Набор документов dj(i) для каждого

ТЕКУЩИЙ АЛГОРИТМ. МАШИННОЕ ОБУЧЕНИЕ Обучающие данные Набор запросов q(i) Набор документов dj(i)
запроса q(i)
Rel(q(i), dj(i)) - ручная оценка соответствия документа запросу
Конкурс «Интернет-математика – 2009»:
Rel(q, d) - значения из диапазона [0, 4]
(4 – «высокая релевантность»,…, 0 – «нерелевантно»)

Слайд 3

ФАКТОРЫ РАНЖИРОВАНИЯ

Набор факторов ранжирования
F = (f1(q,d) , …, fN(q,d))
Конкурс «Интернет-математика – 2009»:

ФАКТОРЫ РАНЖИРОВАНИЯ Набор факторов ранжирования F = (f1(q,d) , …, fN(q,d)) Конкурс

N=245
«Яндекс на РОМИП’2009»:
N=163
(коллекция BY.WEB);
N=69
(коллекция KM.RU, без ссылочных факторов)

Слайд 4

ПРИМЕРЫ ФАКТОРОВ РАНЖИРОВАНИЯ

Запросные
длина документа в словах;
язык запроса.
Текстовые
наличие точного вхождения запроса в тексте

ПРИМЕРЫ ФАКТОРОВ РАНЖИРОВАНИЯ Запросные длина документа в словах; язык запроса. Текстовые наличие
документа;
наличие точного вхождения запроса в заголовке документа;
tf*idf;
различные модификации формулы Okapi_BM25.

Слайд 5

ПРИМЕРЫ ФАКТОРОВ РАНЖИРОВАНИЯ

Ссылочные
PageRank;
логарифм количества ссылок на документ;
процент ссылок на документ, содержащих

ПРИМЕРЫ ФАКТОРОВ РАНЖИРОВАНИЯ Ссылочные PageRank; логарифм количества ссылок на документ; процент ссылок
точное вхождение запроса.
Географические
регион сайта;
язык документа.

Слайд 6

ФУНКЦИЯ РЕЛЕВАНТНОСТИ

Числовое соответствие документа запросу
Fr(q, d) = Fr(F(q,d)) = Fr(f1(q,d), …, fN(q,d))
Построение

ФУНКЦИЯ РЕЛЕВАНТНОСТИ Числовое соответствие документа запросу Fr(q, d) = Fr(F(q,d)) = Fr(f1(q,d),
функции релевантности с помощью генетических алгоритмов:
1. Выбор метрики
(«Яндекс на РОМИП’2009»: pfound – максимизация вероятности найти релевантный результат)
2. Подбор вида функции
(«Яндекс на РОМИП’2009»: полином ∑aIf1i1 f2i2… fNiN )
3. Подбор коэффициентов

Слайд 7

СХЕМА ОБУЧАЮЩЕГО АЛГОРИТМА

Обучающие данные
(q(i), dj(i)),
i=1,…,n;
j=1,…m(n).

Определение значений факторов

Асессоры
Обучающий алгоритм

Ранжирующий алгоритм

F(q(i), dj(i))

Rel(q(i), dj(i))

Fr(F(q,d))

Тестовые данные
(q,

СХЕМА ОБУЧАЮЩЕГО АЛГОРИТМА Обучающие данные (q(i), dj(i)), i=1,…,n; j=1,…m(n). Определение значений факторов
dj),
j=1,…,m

Fr(F(q, dj))

Определение значений факторов

F(q, dj)

Слайд 8

РЕГИОНАЛЬНЫЕ ФОРМУЛЫ

Отдельные функции релевантности:
19 городов России: Москва, Санкт-Петербург, Екатеринбург, Новосибирск и др.
Общероссийская
Украина
Белоруссия
Казахстан
Отличаться

РЕГИОНАЛЬНЫЕ ФОРМУЛЫ Отдельные функции релевантности: 19 городов России: Москва, Санкт-Петербург, Екатеринбург, Новосибирск
могут не только коэффициенты, но и сам вид функций!

Слайд 9

ИССЛЕДОВАНИЕ ФУНКЦИИ РЕЛЕВАНТНОСТИ

Постановка эксперимента
Выбор исследуемого фактора
Генерация тестовых коллекций
Варьирование исследуемого фактора
Фиксация остальных факторов
Индексация

ИССЛЕДОВАНИЕ ФУНКЦИИ РЕЛЕВАНТНОСТИ Постановка эксперимента Выбор исследуемого фактора Генерация тестовых коллекций Варьирование
тестовых коллекций
Анализ результатов
Принятие решения о характере влияния исследуемого фактора на функцию релевантности

Слайд 10

УКРАИНСКАЯ ФОРМУЛА

Фактор: Количество употреблений термина запроса (tf)
Характер зависимости: Прямая
Фактор: Длина документа в

УКРАИНСКАЯ ФОРМУЛА Фактор: Количество употреблений термина запроса (tf) Характер зависимости: Прямая Фактор:
словах
Характер зависимости: Обратная
Фактор: Количество употреблений самого частотного термина
Характер зависимости: Обратная
Имя файла: Особенности-регионального-ранжирования-Яндекса.-Украинская-формула.pptx
Количество просмотров: 109
Количество скачиваний: 0