Слайд 2Запускаем telegram-каналы1
Большинство telegram-каналов – вовсе не про «инсайд», это просто сборка сообщений

по какой-то теме, вытащенных из открытых источников.
Значит, задача создания telegram-канала сводится к следующим элементарным фрагментам:
Выбор темы
Составление поискового запроса
Упаковка ежедневного набора сюжетов
Третий пункт – ваш авторский выбор, мы здесь оттачиваем первые два.
Слайд 3Выбор темы
Выбор темы определяется следующими критериями:
Интуитивная понятность для потребителя: Тема «Новости рынка

китайских автомобилей в России» – правильная, тема «Резонансные проблемы регионов» тема неправильная
Главное: тема должна конечным образом укладываться в поисковый запрос для той поисковой системы, которую мы используем. Поэтому тему иногда приходится корректировать под запрос, а не только запрос под тему
Размер выдачи документов – соответствовать тем ресурсам, которые вы можете выделить для их обработки
Слайд 4Составление поискового запроса
Пишем запрос на поиск информации по теме: «Недовольство В.Путина работой

чиновников»
Важно:
Тема, название телеграм-канала и состав лексем информационного запроса это три разные сущности
Запрос пишем под Яндекс.Новости. Если пишем под Google или Медиалогию – возможности другие, значит, логика поиска и логика самого телеграм-канала будет чуть другой. Запрос в Google это не упрощенный запрос в Яндекс.Новости, и не еще более упрощенный запрос в Медиалогию. Это три разные логики построения поиска!
Слайд 5Выделяем ключевые лексемы1
Вспоминаем: пишем простейший запрос на естественном языке, читаем первые сто-двести

документов, выделяем ключевые лексемы
Лексема первая: Президент России В.В.Путин, описывается словами и словосочетаниями:
Путин (в принципе его вполне достаточно)
Президент РФ
Президент России
Так как все слова описывают (относятся) к одному понятию, то они должны объединяться через словосочетание «ИЛИ»:
Путин ИЛИ «Президент РФ» ИЛИ «Президент России»
Тогда запрос на это понятие для Яндекс.Новости имеет вид:
Путин | «Президент РФ» | «Президент России»
Еще можно учесть, что РФ и Россия – синонимы, тогда:
запрос для Яндекс.Новости может быть такой:
Путин | (Президент /1 (РФ | России))
Слайд 6Выделяем ключевые лексемы2
Понятие «недоволен» – формируем набор лексем:
Недоволен, раскритиковал, пожурил , критикует

, возмутился, разгневан, рассержен , рассердился, рассердило, недовольство, критика, разнос, гнев, неудовольствие … И еще сто лексем.
Выбираем (интуитивно, по опыту!) наиболее значимые. Ваш выбор, ваш опыт, ваше решение.
Фрагмент запроса под это понятие к тестированию:
(недоволен | раскритиковал | пожурил | критикует | возмутился | разгневан | обвинил | рассержен | рассердился | рассердило | недовольство | критику | разнос | гнев | неудовольствие | укорять)
Слайд 7Выделяем ключевые лексемы3
Понятие «чиновники» – формируем набор лексем:
Чиновники, министр, замминистра, премьер, вице-премьер,

….
Силуанов, Голодец , Мединский, Дворкович …
Министерство, ведомство, правительство….
Минфин, Минобрнауки. Центробанк …
И еще десять категорий, в каждой из которых сто лексем
Выбираем (интуитивно, по опыту!) наиболее значимые. Ваш выбор, ваш опыт, ваше решение.
Фрагмент запроса для понятия «чиновники»:
(Чиновники | министр | замминистра | премьер | вице-премьер | Силуанов | Голодец | Мединский| Дворкович | Министерство | ведомство | правительство | Минфин | Минобрнауки | Центробанк)
Слайд 8Как можно было сделать 3
Понятие «чиновники»:
Чиновники ИЛИ министр ИЛИ замминистра ИЛИ премьер

ИЛИ вице-премьер ИЛИ
Силуанов ИЛИ Голодец ИЛИ Ливанов ИЛИ Дворкович ИЛИ …
Министерство ИЛИ ведомство ИЛИ правительство
Минфин ИЛИ Минобрнауки ИЛИ Центробанк …
Кусок запроса для понятия «чиновники»:
(Чиновники | министр | замминистра | премьер | вице-премьер | Силуанов | Голодец | Ливанов | Дворкович | Министерство | ведомство | правительство | Минфин | Минобрнауки | Центробанк)
Слайд 9Формируем запрос
Соединяем три фрагмента запроса:
(Путин | (Президент /1 (РФ | России))) &

(недоволен | раскритиковал | пожурил | критикует | возмутился | разгневан | рассержен | рассердился | рассердило | недовольство | критику | разнос | гнев | неудовольствие) & (чиновники | министр | замминистра | премьер | вице-премьер | Силуанов | Голодец | Ливанов | Дворкович | Министерство | ведомство | правительство | Минфин | Минобрнауки | Центробанк)
Проверяем этот запрос в Яндекс.Новости и видим, что выборка … явно не такая, как требуется
Слайд 10Проверяем в Яндекс.Новости
Помните про ограничение на длину запроса!

Слайд 11Отладка запроса1:
Что видно?
Есть критика Путина в адрес кого-то и критика в

адрес самого Путина и критика от имени помощников Путина…
Почему так получилось?
Потому что Путин сам нередко становится объектом критики.
Кроме того, в одном предложении может встречаться «Путин» и критика, адресованная вообще другому лицу.
И как этого избежать?
«Отрицать» все лишнее (плохой выход – слишком много надо отрицать)
Добавить понятие – объект (или предмет) критики.
Задать жесткий порядок слов: не «критикуют Путина», но «Путин критикует».
Отключить морфологию некоторых слов. Чтобы убрать вариант «помощник Путина критикует».
Слайд 12Отладка запроса2
Второй способ – добавить четвертое понятие - «предмет или повод для

критики»:
(Работу | решение | инициативу | закон | предложение | бюрократический | бюрократ | подход). Тем самым:
Скрытым образом заужаем тему (например, исчезла критика личной нескромности)
(Путин | (Президент /1 (РФ | России))) & (недоволен | раскритиковал | пожурил | критикует | возмутился | разгневан | рассержен | рассердился | рассердило | недовольство | критику | разнос | гнев | неудовольствие | укор) & (Работу | решение | инициативу) & (Чиновники | министр | замминистра | премьер | вице-премьер | Силуанов | Голодец | Мединский| Министерство | ведомство | правительство)
Проверяем запрос в Яндекс.Новости и видим, что… выборка резко уменьшилась, и все равно не очень нас устраивает качеством
Слайд 13Проверяем в Яндекс.Новости
Помните про ограничение на длину запроса!

Слайд 14Отладка запроса4
Второй вариант чуть лучше, но все равно большой шум, хотя выборка

резко уменьшилась в объеме. Пробуем дальше
Как в Яндекс задать жесткий порядок слов?
Используем оператор /(1 7) поиск на расстоянии от 1 до 7 слов, с учетом порядка.
((Путин | (Президент /1 (РФ | России))) /(1 7) (недоволен | раскритиковал | пожурил | критикует | возмутился | разгневан | рассержен | рассердился | рассердило | недовольство | критику | разнос | гнев | неудовольствие | укор)) & (Работу | решение | инициативу) & (Чиновники | министр | замминистра | премьер | вице-премьер | Силуанов | Голодец | Ливанов | Министерство | ведомство | правительство)
Слайд 15Проверяем в Яндекс.Новости
Обратите внимание как меняется выборка документов: сообщений стало меньше, но

и шума почти не видно.
Слайд 16Отладка запроса5
Третий вариант заметно лучше, но попробуем продолжить работу
Как в Яндекс задать

жесткую форму слова?
Используем оператор ! перед какими словами?
Путин
((!Путин | (!Президент /1 (РФ | России))) /(1 7) (недоволен | раскритиковал | пожурил | критикует | возмутился | разгневан | рассержен | рассердился | рассердило | недовольство | критику | разнос | гнев | неудовольствие | укор)) & (Работу | решение | инициативу) & (Чиновники | министр | замминистра | премьер | вице-премьер | Силуанов | Голодец | Ливанов | Министерство | ведомство | правительство)
Слайд 18Как можно было сделать 9
Последний вариант еще лучше, только маловато статей –

всего около 500 (вообще в Яндекс.Новости). Значит, дневной массив будет совсем небольшим.
Возвращаемся на шаг вверх и принимаем решение убрать дополнительное понятие – предмет-повод для критики
((!Путин | (!Президент /1 (РФ | России))) /(1 7) (недоволен | раскритиковал | пожурил | критикует | возмутился | разгневан | рассержен | рассердился | рассердило | недовольство | критику | разнос | гнев | неудовольствие)) & (Чиновники | министр | замминистра | премьер | вице-премьер | Силуанов | Голодец | Ливанов | Министерство | ведомство | правительство | Минфин | Минобрнауки | Центробанк)
Полученная выборка практически чистая, но в ней Путин чаще критикует США, а не наших чиновников…
Слайд 20И что делать?
Добавим жесткий порядок слов еще и между понятиями «недовольство» и

«чиновник», а также добавим отрицание (всего двух слов), предварительно убрав и слово «гнев» (не влезает в ограничение на 400 символов).
!Путин /(1 7) (недоволен | раскритиковал | пожурил | критикует | возмутился | разгневан | рассержен | рассердился | рассердило | недовольство | !критику | разнос | неудовольствие) /(1 50) (Правительство | "вице-премьер" | чиновник | бюрократ | Минтруда | Минздрав | Минфин | МЭР | Минэкономразвития | Минтранс | Минобороны | Медведев | Голодец | Силуанов | Васильева | Трутнев) ~~ (Украина | США)
Слайд 22Итоги
В последнем варианте мы получили нормальный результат – порядка 50-100 материалов на

день (4-10 сюжетов) и уровень шума незначительный. Это вполне приемлемо для компактной обработки.
Краткие выводы на будущее:
Оказалось, что очень важно понимать как будет написано (сформулировано) в тексте то, что мы ищем.
Оказалось, что сложные операторы действительно полезны.
Иногда приходится сперва делать определенные ограничения, а потом появляется возможность от них отказаться (пример – введение дополнительного понятия предмет-повод для критики
Слайд 23План дальнейшей работы на вторую половину занятия
Те, у кого есть ноутбуки –

к доске. По очереди выдергивают из аудитории по одному в свою команду
Каждая группа садится и организует работу внутри себя – по алгоритму, который был изложен на первом этапе занятия
Выбирается тема
Выбираются понятия
Строятся фрагменты запроса под каждое понятие
Отлаживается запрос
Уточняется тема
Итог работы – страничка выгрузки из Яндекс.Новости за день по сделанному запросу, которую мы все вместе обсуждаем
Слайд 24Советы и рекомендации1
Распределение времени (рекомендую)
5 минут – формирование команд
5 минут – выбор

темы и обсуждение
10 минут – чтение результатов поиска на свободном языке, отбор лексем
15 минут – отладка запроса
10 минут - резерв
Слайд 25Советы и рекомендации2
Распределение людей (рекомендую)
Название темы, выбор понятий – все вместе
Отработка частей

запроса – раздать внутри группы (если больше одного ноутбука)
Сведение запроса и отладка – один исполнитель, один принимающий решение, остальные участвуют в обсуждении