Текстовое ранжирование в Яндексе. Особенности подхода TF*IDF.

Содержание

Слайд 2

Подход TF*IDF

Денис Бессонов, руководитель отдела продвижения «Илма Груп», автор сео-блога mexboy.ru

Произведение TF*IDF определяет уровень

Подход TF*IDF Денис Бессонов, руководитель отдела продвижения «Илма Груп», автор сео-блога mexboy.ru
соответствия документа запросу. Множитель TF – прямая частота вхождения запроса в документ (отвечает за встречаемость термина в содержании документа), можем влиять Множитель IDF – обратная частота термина в коллекции (отвечает за редкость употребления запроса во всех документах коллекции, в нашем случае базы поисковой системы), не можем влиять

Слайд 3

Классический случай подхода TF*IDF

Денис Бессонов, руководитель отдела продвижения «Илма Груп», автор сео-блога mexboy.ru

где -

Классический случай подхода TF*IDF Денис Бессонов, руководитель отдела продвижения «Илма Груп», автор
количество употреблений i-го однословника, знаменатель – общая длина документа в словах

где D – общее количество документов в коллекции, в нашем случае поисковой базе, знаменатель - число документов, содержащих i-й однословник

Выводы: рулит плотность вхождения

Слайд 4

Подход TF*IDF в Яндексе образца 2006-2007 г.

Денис Бессонов, руководитель отдела продвижения «Илма Груп», автор

Подход TF*IDF в Яндексе образца 2006-2007 г. Денис Бессонов, руководитель отдела продвижения
сео-блога mexboy.ru

где - количество употреблений i-го однословника, – количество вхождений в документ самого частотного однословника

где TotalLemms – общее количество терминов в коллекции, в нашем случае длина поисковой базы в словах, – количество вхождений туда i-го однословника

Слайд 5

Анализ подхода TF*IDF образца 2006-2007 г.

Денис Бессонов, руководитель отдела продвижения «Илма Груп», автор сео-блога

Анализ подхода TF*IDF образца 2006-2007 г. Денис Бессонов, руководитель отдела продвижения «Илма
mexboy.ru

1) рулит встречаемость однословника в документе; 2) максимальная текстовая релевантность, когда 3) плотность вхождения однословника в документ не влияет на ранжирование; 4) ресурс текстовой релевантности неограничен и растет в лучшем случае

Слайд 6

Гипотеза текущего подхода TF*IDF в Яндексе

Денис Бессонов, руководитель отдела продвижения «Илма Груп», автор сео-блога

Гипотеза текущего подхода TF*IDF в Яндексе Денис Бессонов, руководитель отдела продвижения «Илма
mexboy.ru

Предпосылки: 1) документы с огромными псевдо-естественными текстами и высокой плотностью содержания в них продвигаемых запросов; 2) небольшие тексты с высокой плотностью содержания ключевых запросов. Формула с РОМИП 2006:

где - количество употреблений i-го однословника, Doclength – длина документа в словах, - некоторые постоянные числовые коэффициенты

Слайд 7

Анализ формулы для TF

Денис Бессонов, руководитель отдела продвижения «Илма Груп», автор сео-блога mexboy.ru

1) Чем

Анализ формулы для TF Денис Бессонов, руководитель отдела продвижения «Илма Груп», автор
выше плотность вхождения однословника в документ при фиксированной его длине, тем больше TF и выше текстовая релевантность

Doclength = 3000 слов,
=1, =1/350
Но TF ограничена и, начиная с некоторого значения плотности вхождения однословника, увеличивается слабо

плотность в долях

Слайд 8

Анализ формулы для TF

Денис Бессонов, руководитель отдела продвижения «Илма Груп», автор сео-блога mexboy.ru

2) Чем

Анализ формулы для TF Денис Бессонов, руководитель отдела продвижения «Илма Груп», автор
больше длина документа при фиксированной плотности вхождения однословника, тем выше TF и текстовая релевантность

Плотность однословника равна 0.05 (5%), =1, =1/350
Но TF ограничена и, начиная с некоторой длины документа, увеличивается слабо

Doclength

Слайд 9

Выводы и рекомендации

Денис Бессонов, руководитель отдела продвижения «Илма Груп», автор сео-блога mexboy.ru

1) ресурс использования

Выводы и рекомендации Денис Бессонов, руководитель отдела продвижения «Илма Груп», автор сео-блога
текстовой релевантности ограничен; 2) анализ формулы согласуется с предпосылками; 3) правило “один запрос – одна страница” еще более актуально в такой модели для TF; 4) рулят объемные тексты с высокой плотностью содержания ключевых запросов (но не стоит переоптимизировать)
Имя файла: Текстовое-ранжирование-в-Яндексе.-Особенности-подхода-TF*IDF..pptx
Количество просмотров: 120
Количество скачиваний: 0