Слайд 3О компании «Медиалогия»
специализируется на технологиях лингвистического анализа текстовой информации
российский лидер в области
![О компании «Медиалогия» специализируется на технологиях лингвистического анализа текстовой информации российский лидер](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/474132/slide-2.jpg)
разработки онлайн-решений для мониторинга и анализа СМИ
на рынке с 2003 года
Слайд 4Что такое система «Медиалогия»
БАЗА СМИ
ТЕХНОЛОГИИ
ОБРАБОТКИ И
ИЗВЛЕЧЕНИЯ ДАННЫХ
СИСТЕМА ОНЛАЙН
АНАЛИЗА СМИ
+
=
![Что такое система «Медиалогия» БАЗА СМИ ТЕХНОЛОГИИ ОБРАБОТКИ И ИЗВЛЕЧЕНИЯ ДАННЫХ СИСТЕМА](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/474132/slide-3.jpg)
Слайд 7Основные технологии
Агрегация онлайн- и оффлайн-СМИ, а также соцмедиа (блоги, форумы, соц.сети) в
![Основные технологии Агрегация онлайн- и оффлайн-СМИ, а также соцмедиа (блоги, форумы, соц.сети)](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/474132/slide-6.jpg)
режиме реального времени
Классификация и кластеризация потоков информации
Выделение именованных понятий
Мониторинг и анализ
Визуализация результатов мониторинга и анализа
Слайд 8Named Entity Recognition
Выделение позиций
Соотнесение с базой объектов (персоны, организации, бренды, геопонятия)
Работа правил
![Named Entity Recognition Выделение позиций Соотнесение с базой объектов (персоны, организации, бренды,](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/474132/slide-7.jpg)
Ранжирование объектов на позиции (в том числе с неизвестным)
Подсветка
Слайд 9На том же этапе
Выделение прямой и косвенной речи
Жанровая классификация
Рубрикация
Выделение фактов и связей
Далее
![На том же этапе Выделение прямой и косвенной речи Жанровая классификация Рубрикация](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/474132/slide-8.jpg)
- кластеризация
Слайд 10Продукты
Мониторинг упоминаний объектов в СМИ
Генерация периодических отчетов
Различные продукты с новостной картиной дня
Мониторинг
![Продукты Мониторинг упоминаний объектов в СМИ Генерация периодических отчетов Различные продукты с](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/474132/slide-9.jpg)
блогосферы и соцмедиа
Слайд 12Гравитационная кластеризация
Нормализуем лексику в документе, выкидываем стоп-слова
В каждом документе выделяем топ по
![Гравитационная кластеризация Нормализуем лексику в документе, выкидываем стоп-слова В каждом документе выделяем](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/474132/slide-11.jpg)
TF-IDF
Подсвечиваем документы
По векторам слов и объектов строим расстояния между документами
Если расстояние меньше заданного радиуса, документы попадают в один кластер
Также по расстоянию можно выделить плагиаты и дубликаты
Слайд 13Обработка новостей
Непрерывная кластеризация: анализ вновь поступивших документов и включение их в уже
![Обработка новостей Непрерывная кластеризация: анализ вновь поступивших документов и включение их в](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/474132/slide-12.jpg)
имеющиеся кластера, проверка схожести с независимыми документами для последующего объединения в новый кластер
Дискретная перекластеризация: периодически из имеющихся кластеров выбираются те, которые были обновлены с момента последнего процесса перекластеризации, затем выбранные кластеры проверяются на возможность объединения или разбиения
Проверка на связанность: количество документов, с которыми связан вновь добавляемый в кластер документ, деленное на общее количество документов в кластере является связанностью документа, которая должна быть больше/равна по величине связанности кластера - усредненной связанности документов в кластере
Слайд 14Главная статья кластера
Влиятельность источника
Свежесть
Максимальная связанность с другими документами кластера
Заголовок выбирается из документов,
![Главная статья кластера Влиятельность источника Свежесть Максимальная связанность с другими документами кластера](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/474132/slide-13.jpg)
непосредственно связанных с главной статьей
Слайд 15Основные проблемы
Большие кластера, собирающиеся вокруг похожих событий (стихийные бедствия, происшествия, биржевые котировки)
Плохое
![Основные проблемы Большие кластера, собирающиеся вокруг похожих событий (стихийные бедствия, происшествия, биржевые](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/474132/slide-14.jpg)
деление на подкластера в случае масштабных событий
Недостаточная точность работы алгоритма выбора заголовка
«Мусорные» документы в кластерах
Слайд 16Способы решения
Отдельный вектор с биграммами
Учет биграмм в лексических векторах
Точное определение географии
Подключение тезауруса
![Способы решения Отдельный вектор с биграммами Учет биграмм в лексических векторах Точное](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/474132/slide-15.jpg)
с синонимами
Подключение модуля коррекции опечаток
Слайд 17Учет географии
Сбор данных о географии:
Объекты
Прилагательные
Онтологические связи
Определение локации с помощью геобазы:
Иерархия
Система координат
![Учет географии Сбор данных о географии: Объекты Прилагательные Онтологические связи Определение локации](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/474132/slide-16.jpg)
Слайд 18Выбор заголовка (задача)
лексика – отсутствие оценочной, жаргонной, ненормативной лексики
Например:
(хорошо) 1 января
![Выбор заголовка (задача) лексика – отсутствие оценочной, жаргонной, ненормативной лексики Например: (хорошо)](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/474132/slide-17.jpg)
для водителей московских такси вводится обязательная лицензия
(плохо) Зимой столичные бомбилы попадут на новые штрафы
объекты – в заголовке должны фигурировать главные участники сюжета + фактическая информация наиболее полно
Например:
(хорошо) ВТБ заявил о продаже «Газпрому» 70% акций «Связьбанка» за $100 млн
(плохо) Крупнейший госбанк продает свою дочку
(хорошо) Председатель фракции «Справедливая россия» в Госдуме Николай Левичев сложил полномочия
(плохо) Левичев заявил об уходе
уровень обобщенности – заголовок должен описывать сюжет в общем, а не его фазу или деталь
Например:
(хорошо) При взрыве в «Домодедово» пострадало несколько десятков человек
(плохо) Два харьковчанина числятся пропавшими после теракта в Москве
знаки препинания – заголовок не должен состоять из нескольких предложений, крайне нежелательны символы «тире», «двоеточие», восклицательный и вопросительный знаки
Например:
(хорошо) Президент России обсудил спортивное образование в школах
(плохо) Медведев: Самое лучшее – детям!
Слайд 19Выбор заголовка (критерии)
Длина - в районе 50-70 символов
Наличие ключевых слов и объектов
а)
![Выбор заголовка (критерии) Длина - в районе 50-70 символов Наличие ключевых слов](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/474132/slide-18.jpg)
из других заголовков кластера
б) из первых абзацев статей в кластере
Источник – с максимальным весом
Вес статьи внутри кластера (близость к ядру)
Считать статистику только по уникальным заголовкам
В конце заголовка не должно быть знаков препинания
В заголовке должен быть глагол (боремся с такими заголовками, как «Авария в центре Москвы», «Беспорядки в Лондоне» и т.п.)
Заголовок не должен состоять только из заглавных букв
В заголовке не должно быть менее 3 слов