Региональное ранжирование в эпоху MatrixNet

Содержание

Слайд 2

ОБУЧАЮЩАЯ ВЫБОРКА

Набор запросов q(i)
Набор документов dj(i) для каждого запроса q(i)
Rel(q(i), dj(i))

ОБУЧАЮЩАЯ ВЫБОРКА Набор запросов q(i) Набор документов dj(i) для каждого запроса q(i)
- ручная оценка соответствия документа запросу (выполняется асессорами)
Конкурс «Интернет-математика – 2009»:
Rel(q, d) - значения из диапазона [0, 4]
(4 – «высокая релевантность»,…, 0 – «нерелевантно»)

Слайд 3

ФАКТОРЫ РАНЖИРОВАНИЯ

Набор факторов ранжирования
F = (f1(q,d) , …, fN(q,d))
Базовые факторы – 420

ФАКТОРЫ РАНЖИРОВАНИЯ Набор факторов ранжирования F = (f1(q,d) , …, fN(q,d)) Базовые
(апрель 2010)
Производные факторы (произведения базовых факторов) – несколько тысяч

Слайд 4

ФУНКЦИЯ РЕЛЕВАНТНОСТИ

Числовое соответствие документа запросу
Fr(q, d) = Fr(F(q,d)) = Fr(f1(q,d), …, fN(q,d))
Метод

ФУНКЦИЯ РЕЛЕВАНТНОСТИ Числовое соответствие документа запросу Fr(q, d) = Fr(F(q,d)) = Fr(f1(q,d),
построения функции релевантности в релизе «Снежинск»:
Жадный (greedy) алгоритм MatrixNet
Подробнее о MatrixNet:
http://company.yandex.ru/technology/matrixnet/

Слайд 5

МАШИННОЕ ОБУЧЕНИЕ


Обучающие данные
(q(i), dj(i)),
i=1,…,n;
j=1,…m(n).

Определение значений факторов

Асессоры
Обучающий алгоритм

Ранжирующий алгоритм

F(q(i), dj(i))

Rel(q(i), dj(i))

Fr(F(q,d))

Тестовые данные
(q,

МАШИННОЕ ОБУЧЕНИЕ Обучающие данные (q(i), dj(i)), i=1,…,n; j=1,…m(n). Определение значений факторов Асессоры
dj),
j=1,…,m

Fr(F(q, dj))

Определение значений факторов

F(q, dj)

Слайд 6

РЕГИОНАЛЬНЫЕ ФОРМУЛЫ

Отдельные функции релевантности:
Москва
Санкт-Петербург + Екатеринбург + 16 городов России релиза «Арзамас+16»:

РЕГИОНАЛЬНЫЕ ФОРМУЛЫ Отдельные функции релевантности: Москва Санкт-Петербург + Екатеринбург + 16 городов
Новосибирск, Самара, Воронеж и др.
Украина
Белоруссия
Казахстан
Общероссийская + все остальные города России + остальные зарубежные страны + выдача без учета региона (Земля)

Слайд 7

ПРИМЕРЫ ФАКТОРОВ РАНЖИРОВАНИЯ

Запросные
длина запроса в словах;
коммерциолизированность запроса.
Текстовые
наличие точного вхождения запроса в тексте

ПРИМЕРЫ ФАКТОРОВ РАНЖИРОВАНИЯ Запросные длина запроса в словах; коммерциолизированность запроса. Текстовые наличие
документа;
наличие точного вхождения запроса в заголовке документа;
tf*idf;
различные модификации формулы Okapi_BM25.

Слайд 8

ПРИМЕРЫ ФАКТОРОВ РАНЖИРОВАНИЯ

Ссылочные статические
PageRank;
ТИЦ;
количество ссылок на документ.
Ссылочные динамические
процент ссылок на документ,

ПРИМЕРЫ ФАКТОРОВ РАНЖИРОВАНИЯ Ссылочные статические PageRank; ТИЦ; количество ссылок на документ. Ссылочные
содержащих точное вхождение запроса;
tf*idf по текстам ссылок.

Слайд 9

ПРИМЕРЫ ФАКТОРОВ РАНЖИРОВАНИЯ

Свойства документа и сайта
это важный сайт (Wikipedia);
это главная страница сайта;

ПРИМЕРЫ ФАКТОРОВ РАНЖИРОВАНИЯ Свойства документа и сайта это важный сайт (Wikipedia); это

порнографичность контента.
Антиспамовые
содержит ли попандеры или кликандеры;
естественность текста;
уникальность контента.

Слайд 10

ПРИМЕРЫ ФАКТОРОВ РАНЖИРОВАНИЯ

Поведенческие
посещаемость сайта;
кликабельность документа в выдаче.
Региональные
совпадение региона запроса и документа;
региональность ссылок

ПРИМЕРЫ ФАКТОРОВ РАНЖИРОВАНИЯ Поведенческие посещаемость сайта; кликабельность документа в выдаче. Региональные совпадение
на документ;
употребление названия региона в тексте документа и в тексте ссылок на документ.

Слайд 11

УЛУЧШЕНИЕ РЕГИОНАЛЬНЫХ ФАКТОРОВ РАНЖИРОВАНИЯ

Присвоение сайту данного региона
http://help.yandex.ru/webmaster/?id=1074582
Получение входящих ссылок с сайтов данного

УЛУЧШЕНИЕ РЕГИОНАЛЬНЫХ ФАКТОРОВ РАНЖИРОВАНИЯ Присвоение сайту данного региона http://help.yandex.ru/webmaster/?id=1074582 Получение входящих ссылок
региона
Употребление названия данного региона в тексте документа
Употребление названия данного региона в текстах входящих ссылок на документ
Имя файла: Региональное-ранжирование-в-эпоху-MatrixNet.pptx
Количество просмотров: 119
Количество скачиваний: 0