Переформулировки поисковых запросов в Яндексе

Содержание

Слайд 2

Я: Переформулировки-2004

Были обнаружены осенью 2004 года.
«Переколдовки» в URL сохраненной копии
&reqtext=(реальный::111 & запрос::222)//6
Использовались

Я: Переформулировки-2004 Были обнаружены осенью 2004 года. «Переколдовки» в URL сохраненной копии
для:
Расширения запроса другими словами
Усиления влияния отдельных слов
Ограничения расстояний между словами
Установка контрастности слов

Слайд 3

Примеры-2004

Расширение запроса другими словами
что такое ААА => ААА !%это::359 &/(-2 4) %означает::16316

Примеры-2004 Расширение запроса другими словами что такое ААА => ААА !%это::359 &/(-2
&/(-2 4) %аббревиатура::334021 &/(-2 4) %расшифровывается::183623
Усиление влияния отдельных слов
лоренциан => (лоренциан::2063133498 &/(0 0) !!%лоренциан::2063133498)
Ограничение расстояний между словами
новый год => (новый::532 &/(-1 3) год::502)
Установка контрастности слов – двоеточечный вес.
В общем, все как и сейчас. Прожил reqtext до весны 2007.

Слайд 4

Переформулировки -2008

Лето 2008 – введены переформулировки запросов:
Теперь поиск Яндекса (версия "Магадан") еще

Переформулировки -2008 Лето 2008 – введены переформулировки запросов: Теперь поиск Яндекса (версия
учитывает следующие отношения:
а) некоторые типы переходов из одной части речи в другую ("гамбург" -> "гамбургский");
б) транслитерация ("mazda" -> "мазда");
в) аббревиатуры (МГУ -> Московский государственный университет).
А также существенно ослаблены ограничения расстояний (поиск соседних слов в пределах документа)
Ограничения расстояний можно было подобрать перебором
(+слова +запроса) ~~ (+слова [ОПЕРАТОР] +запроса)
Однако сейчас это «вылечено».
Но зато появились подсказки в XML по опечаткам и варианты исправления исходного запроса.

Слайд 5

Опечаточник в XML

Есть несколько типов опечаток: Volapyuk, Undash и др.
При комбинации нескольких

Опечаточник в XML Есть несколько типов опечаток: Volapyuk, Undash и др. При
вариантов опечаток «случайно» выдавался переформулированный запрос:
(fizi-olog) (поисковая оптимизация)
=>

Undash


(fizi::61543020-olog::1234567) ((поисковая::17483 ^ поисковик::65545) &&/(-32768 32768) (оптимизация::32653 ^ оптимизировать::95157 ^ оптимизироваться::4208069))


Слайд 6

Выкачка

Генерим экспериментальный массив со всеми словами русского языка (было 5М)
Ищем другие воляпюки

Выкачка Генерим экспериментальный массив со всеми словами русского языка (было 5М) Ищем
(20К)
=>
выкачиваем переформулировки по 1.3М запросов
… нашли и закрыли. ☺

Слайд 7

Пример переформулировки: продвижение сайтов => становится: (продвижение::19047 ^ ((про::2793-движение::8030)) ^ продвигать::40288 ^ продвигаться::199208) &&/(-32768 32768) сайтов::410

Новые части речи, транслит,

Пример переформулировки: продвижение сайтов => становится: (продвижение::19047 ^ ((про::2793-движение::8030)) ^ продвигать::40288 ^
аббревиатуры
Большие расстояния
«двоеточечные» веса
Оператор ^ (терм не обязан присутствовать, но если есть, это плюс)
Точные фразы и ограничения расстояний
Почему-то возвратные глаголы тоже отдельно

Слайд 8

транслитерация слов

ютуб
ютуб::956008 ^ utube::6608646 ^ yutub::27352453
^ ((ю::7853-туб::342977))
hyundai
hyundai::93536 ^ !!хюндай::70910356
^ !!хендай::709103565

транслитерация слов ютуб ютуб::956008 ^ utube::6608646 ^ yutub::27352453 ^ ((ю::7853-туб::342977)) hyundai hyundai::93536 ^ !!хюндай::70910356 ^ !!хендай::709103565

Слайд 9

ограничения расстояний

10% запросов!

рабочий стол обои
рабочий::4494 &/(-1 1) стол::6379 &&/(-32768 32768) обои::7086
6300 nokia
6300::270856

ограничения расстояний 10% запросов! рабочий стол обои рабочий::4494 &/(-1 1) стол::6379 &&/(-32768
&/(-3 3) nokia::12493
нормативные документы дополнительного образования
нормативные::20026 &/(-1 1) документы::3472 &&/(-7 7) дополнительного::4085 &&/(-7 7) образования::3396

Слайд 10

работа с фрагментами слов

разбиение и склейка

кинопоиск
кинопоиск::192359 ^ kinopoisk::830960
^ ((кино::4292-поиск::775))
билайн
билайн::46541 ^ beeline::224866

работа с фрагментами слов разбиение и склейка кинопоиск кинопоиск::192359 ^ kinopoisk::830960 ^

^ ((би::45262-лайн::28714))
dsl 200
(dsl::91438 &/(-1 1) 200::4936) | dsl200::709103565

Слайд 11

работа с фрагментами слов

Сколько бывает вариантов…

w200i
w200i::4958766
^ (!(w::1737 &/(1 1) 200::5303 &/(1

работа с фрагментами слов Сколько бывает вариантов… w200i w200i::4958766 ^ (!(w::1737 &/(1
1) i::199))
^ ((w200::633693 &/(1 1) !i::199))
^ ((!w::1737 &/(1 1) 200i::23636785))
…все варианты разбиений буква-цифра

Слайд 12

основное: расширения слов

русская страховая компания
((русская::1225 ^ русско::49342) &/(-1 3) ((страховая::19855 ^ страховка::74092

основное: расширения слов русская страховая компания ((русская::1225 ^ русско::49342) &/(-1 3) ((страховая::19855
^ страховщик::125678 ^ страхование::12393) &&/(-32768 32768) компания::923) ^ ск::55022) ^ !рск::1487444

Слайд 13

курьезы переформулировок

вряд ли только машины работают:

партия единая россия
(партия::10385 &&/(-32768 32768) ((единая::10481 &/(-1

курьезы переформулировок вряд ли только машины работают: партия единая россия (партия::10385 &&/(-32768
3) россия::827) ^ ер::234393) ^ !!едро::2480323) ^ !!педирос::492344160

Слайд 14

витрина – это ведь окно?

Да… взгляд с той стороны витрины ☺

витрина – это ведь окно? Да… взгляд с той стороны витрины ☺

Слайд 15

ФИО – новые зоны и термы

!!! Экстракция сущностей в большом поиске !!!

Для

ФИО – новые зоны и термы !!! Экстракция сущностей в большом поиске
запросов, содержащих имена в виде 2+ слов
вася пупкин
Переформулируется с фрагментом
*** (
fioname[((васяfi::332552 &&/(-32768 32768) !!пупкин::901729))] |
fiinname[((вfi::1574 &&/(-32768 32768) !!пупкин::901729))] |
fiinoinname[((вfi::1574 &&/(-32768 32768) !!пупкин::901729))] |
finame[((васяfi::332552 &&/(-32768 32768) !!пупкин::901729))]
)
Новые операторы (новые зоны?) соответствующие поиску по имени
Новые термы (вfi) – поиск всех имен на букву «В» и сокращений

Слайд 16

вfi – все имена на букву В

экстракция объектов из текста…

вfi – все имена на букву В экстракция объектов из текста…

Слайд 17

поиск по зоне ФИО?

Не очень нужные операторы

fioname[ ]
fiinname[ ]
fiinoinname[ ]

поиск по зоне ФИО? Не очень нужные операторы fioname[ ] fiinname[ ] fiinoinname[ ] finame[ ]

finame[ ]

Слайд 18

А выделение сущностей в большом поиске - это мощные изменения…

И ведь без микроформатов

А выделение сущностей в большом поиске - это мощные изменения… И ведь без микроформатов и разметки…
и разметки…

Слайд 19

Оператор [^]

Похож на %
Доп.слово не обязательное

Для запроса вида слово1 ^ слово2
Слово1 обязательно

Оператор [^] Похож на % Доп.слово не обязательное Для запроса вида слово1
находится, ему приоритет
Слово2 не обязано находиться.
окна ^ мебель – окна первые
мебель ^ окна – мебель первая
domain:root ^ мебель ^ окна –окна выше!

Слайд 20

А для [%]

Не совсем похоже:

Для запроса вида слово1 % слово2
Слово1 обязательно находится
Слово1

А для [%] Не совсем похоже: Для запроса вида слово1 % слово2
и Слово2, похоже, равноправны в смысле ранжирования
окна %мебель – (окна+мебель) первые
мебель %окна – (окна+мебель) первые
domain:root %мебель %окна - (окна+мебель)
И выдачи похожие.

Слайд 21

Контрастности (веса) слов

::вес – это НЕ IDF (классический)

IDF (inverse document frequency —

Контрастности (веса) слов ::вес – это НЕ IDF (классический) IDF (inverse document
обратная частота документа)
А как выглядят набор ::весов –дискретный набор, являются целочисленными дробями от максимального веса.
По куску коллекции ---
Догадываемся - ::вес=D/Di
Это отношение числа документов.
Чтобы получить IDF, берем логарифм:
=> IDF=log(::вес)

Слайд 22

::веса -не документные?

А от словоформ? Не IDF, а ICF?

::веса -не документные? А от словоформ? Не IDF, а ICF?

Слайд 23

::веса по разным коллекциям

веса разные по RU, EN, UK коллекциям

Слово fizi присутствовало

::веса по разным коллекциям веса разные по RU, EN, UK коллекциям Слово
во всех запросах.
Оно имело разные веса в разных запросах!
Есть три коллекции документов, по каждой считается свой вес.
Русская (запрос с русскими словами)
Англоязычная (запрос весь из цифр и английских букв)
Украинская (пример: музика скачати безкоштовно)
Одно и то же слово может обладать разной контрастностью для разных баз. Разное число документов, разная популярность слов.

Слайд 24

Итого польза:

Раньше мы знали про переформулировки, но теперь очевидно, что переформулировка производится

Итого польза: Раньше мы знали про переформулировки, но теперь очевидно, что переформулировка
на уровне исходного запроса
Поэтому «дополнительные» слова обязаны давать вклад в релевантность, это не просто подсветка.
Новые операторы (^, fio* и другие)
Использование доп. слов при оптимизации и в ссылках
Знания об ограничении расстояний в переколдовке – необходимы!
Веса слов тоже полезны
это частично внедрено в сервис http://tools.promosite.ru/
Имя файла: Переформулировки-поисковых-запросов-в-Яндексе.pptx
Количество просмотров: 107
Количество скачиваний: 0