ПРОБЛЕМЫ КЛАСТЕРИЗАЦИИ НОВОСТНОГО ПОТОКА Петр Воляк pvolyak@mlg.ru NLPseminar, Санкт-Петербург 8 октября 2011 года

Содержание

Слайд 2

О КОМПАНИИ И ТЕХНОЛОГИЯХ

О КОМПАНИИ И ТЕХНОЛОГИЯХ

Слайд 3

О компании «Медиалогия»

специализируется на технологиях лингвистического анализа текстовой информации
российский лидер в области

О компании «Медиалогия» специализируется на технологиях лингвистического анализа текстовой информации российский лидер
разработки онлайн-решений для мониторинга и анализа СМИ
на рынке с 2003 года

Слайд 4

Что такое система «Медиалогия»

БАЗА СМИ

ТЕХНОЛОГИИ
ОБРАБОТКИ И
ИЗВЛЕЧЕНИЯ ДАННЫХ

СИСТЕМА ОНЛАЙН
АНАЛИЗА СМИ

+

=

Что такое система «Медиалогия» БАЗА СМИ ТЕХНОЛОГИИ ОБРАБОТКИ И ИЗВЛЕЧЕНИЯ ДАННЫХ СИСТЕМА

Слайд 5

База СМИ

База СМИ

Слайд 6

База СМИ

База СМИ

Слайд 7

Основные технологии

Агрегация онлайн- и оффлайн-СМИ, а также соцмедиа (блоги, форумы, соц.сети) в

Основные технологии Агрегация онлайн- и оффлайн-СМИ, а также соцмедиа (блоги, форумы, соц.сети)
режиме реального времени
Классификация и кластеризация потоков информации
Выделение именованных понятий
Мониторинг и анализ
Визуализация результатов мониторинга и анализа

Слайд 8

Named Entity Recognition

Выделение позиций
Соотнесение с базой объектов (персоны, организации, бренды, геопонятия)
Работа правил

Named Entity Recognition Выделение позиций Соотнесение с базой объектов (персоны, организации, бренды,

Ранжирование объектов на позиции (в том числе с неизвестным)
Подсветка

Слайд 9

На том же этапе

Выделение прямой и косвенной речи
Жанровая классификация
Рубрикация
Выделение фактов и связей
Далее

На том же этапе Выделение прямой и косвенной речи Жанровая классификация Рубрикация
- кластеризация

Слайд 10

Продукты

Мониторинг упоминаний объектов в СМИ
Генерация периодических отчетов
Различные продукты с новостной картиной дня
Мониторинг

Продукты Мониторинг упоминаний объектов в СМИ Генерация периодических отчетов Различные продукты с
блогосферы и соцмедиа

Слайд 11

КЛАСТЕРИЗАЦИЯ

КЛАСТЕРИЗАЦИЯ

Слайд 12

Гравитационная кластеризация

Нормализуем лексику в документе, выкидываем стоп-слова
В каждом документе выделяем топ по

Гравитационная кластеризация Нормализуем лексику в документе, выкидываем стоп-слова В каждом документе выделяем
TF-IDF
Подсвечиваем документы
По векторам слов и объектов строим расстояния между документами
Если расстояние меньше заданного радиуса, документы попадают в один кластер
Также по расстоянию можно выделить плагиаты и дубликаты

Слайд 13

Обработка новостей

Непрерывная кластеризация: анализ вновь поступивших документов и включение их в уже

Обработка новостей Непрерывная кластеризация: анализ вновь поступивших документов и включение их в
имеющиеся кластера, проверка схожести с независимыми документами для последующего объединения в новый кластер
Дискретная перекластеризация: периодически из имеющихся кластеров выбираются те, которые были обновлены с момента последнего процесса перекластеризации, затем выбранные кластеры проверяются на возможность объединения или разбиения
Проверка на связанность: количество документов, с которыми связан вновь добавляемый в кластер документ, деленное на общее количество документов в кластере является связанностью документа, которая должна быть больше/равна по величине связанности кластера - усредненной связанности документов в кластере

Слайд 14

Главная статья кластера

Влиятельность источника
Свежесть
Максимальная связанность с другими документами кластера
Заголовок выбирается из документов,

Главная статья кластера Влиятельность источника Свежесть Максимальная связанность с другими документами кластера
непосредственно связанных с главной статьей

Слайд 15

Основные проблемы

Большие кластера, собирающиеся вокруг похожих событий (стихийные бедствия, происшествия, биржевые котировки)
Плохое

Основные проблемы Большие кластера, собирающиеся вокруг похожих событий (стихийные бедствия, происшествия, биржевые
деление на подкластера в случае масштабных событий
Недостаточная точность работы алгоритма выбора заголовка
«Мусорные» документы в кластерах

Слайд 16

Способы решения

Отдельный вектор с биграммами
Учет биграмм в лексических векторах
Точное определение географии
Подключение тезауруса

Способы решения Отдельный вектор с биграммами Учет биграмм в лексических векторах Точное
с синонимами
Подключение модуля коррекции опечаток

Слайд 17

Учет географии

Сбор данных о географии:
Объекты
Прилагательные
Онтологические связи
Определение локации с помощью геобазы:
Иерархия
Система координат

Учет географии Сбор данных о географии: Объекты Прилагательные Онтологические связи Определение локации

Слайд 18

Выбор заголовка (задача)

лексика – отсутствие оценочной, жаргонной, ненормативной лексики
Например:
(хорошо) 1 января

Выбор заголовка (задача) лексика – отсутствие оценочной, жаргонной, ненормативной лексики Например: (хорошо)
для водителей московских такси вводится обязательная лицензия
(плохо) Зимой столичные бомбилы попадут на новые штрафы
объекты – в заголовке должны фигурировать главные участники сюжета + фактическая информация наиболее полно
Например:
(хорошо) ВТБ заявил о продаже «Газпрому» 70% акций «Связьбанка» за $100 млн
(плохо) Крупнейший госбанк продает свою дочку
(хорошо) Председатель фракции «Справедливая россия» в Госдуме Николай Левичев сложил полномочия
(плохо) Левичев заявил об уходе
уровень обобщенности – заголовок должен описывать сюжет в общем, а не его фазу или деталь
Например:
(хорошо) При взрыве в «Домодедово» пострадало несколько десятков человек
(плохо) Два харьковчанина числятся пропавшими после теракта в Москве
знаки препинания – заголовок не должен состоять из нескольких предложений, крайне нежелательны символы «тире», «двоеточие», восклицательный и вопросительный знаки
Например:
(хорошо) Президент России обсудил спортивное образование в школах
(плохо) Медведев: Самое лучшее – детям!

Слайд 19

Выбор заголовка (критерии)

Длина  - в районе 50-70 символов
Наличие ключевых слов и объектов 
а)

Выбор заголовка (критерии) Длина - в районе 50-70 символов Наличие ключевых слов
из других заголовков кластера
б) из первых абзацев статей в кластере
Источник – с максимальным весом
Вес статьи внутри кластера (близость к ядру)
Считать статистику только по уникальным заголовкам
В конце заголовка не должно быть знаков препинания
В заголовке должен быть глагол (боремся с такими заголовками, как «Авария в центре Москвы», «Беспорядки в Лондоне» и т.п.)
Заголовок не должен состоять только из заглавных букв
В заголовке не должно быть менее 3 слов
Имя файла: ПРОБЛЕМЫ-КЛАСТЕРИЗАЦИИ-НОВОСТНОГО-ПОТОКА-Петр-Воляк-pvolyak@mlg.ru-NLPseminar,-Санкт-Петербург-8-октября-2011-года.pptx
Количество просмотров: 427
Количество скачиваний: 0