ПРОБЛЕМЫ КЛАСТЕРИЗАЦИИ НОВОСТНОГО ПОТОКА Петр Воляк [email protected] NLPseminar, Санкт-Петербург 8 октября 2011 года

Февраль 20, 2021

Главная
Разное
ПРОБЛЕМЫ КЛАСТЕРИЗАЦИИ НОВОСТНОГО ПОТОКА Петр Воляк [email protected] NLPseminar, Санкт-Петербург 8 октября 2011 года

Содержание

2. О КОМПАНИИ И ТЕХНОЛОГИЯХ
3. О компании «Медиалогия» специализируется на технологиях лингвистического анализа текстовой информации российский лидер в области разработки онлайн-решений
4. Что такое система «Медиалогия» БАЗА СМИ ТЕХНОЛОГИИ ОБРАБОТКИ И ИЗВЛЕЧЕНИЯ ДАННЫХ СИСТЕМА ОНЛАЙН АНАЛИЗА СМИ +
5. База СМИ
6. База СМИ
7. Основные технологии Агрегация онлайн- и оффлайн-СМИ, а также соцмедиа (блоги, форумы, соц.сети) в режиме реального времени
8. Named Entity Recognition Выделение позиций Соотнесение с базой объектов (персоны, организации, бренды, геопонятия) Работа правил Ранжирование
9. На том же этапе Выделение прямой и косвенной речи Жанровая классификация Рубрикация Выделение фактов и связей
10. Продукты Мониторинг упоминаний объектов в СМИ Генерация периодических отчетов Различные продукты с новостной картиной дня Мониторинг
11. КЛАСТЕРИЗАЦИЯ
12. Гравитационная кластеризация Нормализуем лексику в документе, выкидываем стоп-слова В каждом документе выделяем топ по TF-IDF Подсвечиваем
13. Обработка новостей Непрерывная кластеризация: анализ вновь поступивших документов и включение их в уже имеющиеся кластера, проверка
14. Главная статья кластера Влиятельность источника Свежесть Максимальная связанность с другими документами кластера Заголовок выбирается из документов,
15. Основные проблемы Большие кластера, собирающиеся вокруг похожих событий (стихийные бедствия, происшествия, биржевые котировки) Плохое деление на
16. Способы решения Отдельный вектор с биграммами Учет биграмм в лексических векторах Точное определение географии Подключение тезауруса
17. Учет географии Сбор данных о географии: Объекты Прилагательные Онтологические связи Определение локации с помощью геобазы: Иерархия
18. Выбор заголовка (задача) лексика – отсутствие оценочной, жаргонной, ненормативной лексики Например: (хорошо) 1 января для водителей
19. Выбор заголовка (критерии) Длина - в районе 50-70 символов Наличие ключевых слов и объектов а) из
21. Скачать презентацию

О КОМПАНИИ И ТЕХНОЛОГИЯХ

О компании «Медиалогия»
специализируется на технологиях лингвистического анализа текстовой информации
российский лидер в области

разработки онлайн-решений для мониторинга и анализа СМИ
на рынке с 2003 года

Что такое система «Медиалогия»
БАЗА СМИ
ТЕХНОЛОГИИ
ОБРАБОТКИ И
ИЗВЛЕЧЕНИЯ ДАННЫХ
СИСТЕМА ОНЛАЙН
АНАЛИЗА СМИ
+
=

База СМИ

Основные технологии
Агрегация онлайн- и оффлайн-СМИ, а также соцмедиа (блоги, форумы, соц.сети) в

режиме реального времени
Классификация и кластеризация потоков информации
Выделение именованных понятий
Мониторинг и анализ
Визуализация результатов мониторинга и анализа

Named Entity Recognition
Выделение позиций
Соотнесение с базой объектов (персоны, организации, бренды, геопонятия)
Работа правил

Ранжирование объектов на позиции (в том числе с неизвестным)
Подсветка

На том же этапе
Выделение прямой и косвенной речи
Жанровая классификация
Рубрикация
Выделение фактов и связей
Далее

- кластеризация

Продукты
Мониторинг упоминаний объектов в СМИ
Генерация периодических отчетов
Различные продукты с новостной картиной дня
Мониторинг

блогосферы и соцмедиа

КЛАСТЕРИЗАЦИЯ

Гравитационная кластеризация
Нормализуем лексику в документе, выкидываем стоп-слова
В каждом документе выделяем топ по

TF-IDF
Подсвечиваем документы
По векторам слов и объектов строим расстояния между документами
Если расстояние меньше заданного радиуса, документы попадают в один кластер
Также по расстоянию можно выделить плагиаты и дубликаты

Слайд 13

Обработка новостей
Непрерывная кластеризация: анализ вновь поступивших документов и включение их в уже

имеющиеся кластера, проверка схожести с независимыми документами для последующего объединения в новый кластер
Дискретная перекластеризация: периодически из имеющихся кластеров выбираются те, которые были обновлены с момента последнего процесса перекластеризации, затем выбранные кластеры проверяются на возможность объединения или разбиения
Проверка на связанность: количество документов, с которыми связан вновь добавляемый в кластер документ, деленное на общее количество документов в кластере является связанностью документа, которая должна быть больше/равна по величине связанности кластера - усредненной связанности документов в кластере

Слайд 14

Главная статья кластера
Влиятельность источника
Свежесть
Максимальная связанность с другими документами кластера
Заголовок выбирается из документов,

непосредственно связанных с главной статьей

Слайд 15

Основные проблемы
Большие кластера, собирающиеся вокруг похожих событий (стихийные бедствия, происшествия, биржевые котировки)
Плохое

деление на подкластера в случае масштабных событий
Недостаточная точность работы алгоритма выбора заголовка
«Мусорные» документы в кластерах

Слайд 16

Способы решения
Отдельный вектор с биграммами
Учет биграмм в лексических векторах
Точное определение географии
Подключение тезауруса

с синонимами
Подключение модуля коррекции опечаток

Слайд 17

Учет географии
Сбор данных о географии:
Объекты
Прилагательные
Онтологические связи
Определение локации с помощью геобазы:
Иерархия
Система координат

Слайд 18

Выбор заголовка (задача)
лексика – отсутствие оценочной, жаргонной, ненормативной лексики
Например:
(хорошо) 1 января

для водителей московских такси вводится обязательная лицензия
(плохо) Зимой столичные бомбилы попадут на новые штрафы
объекты – в заголовке должны фигурировать главные участники сюжета + фактическая информация наиболее полно
Например:
(хорошо) ВТБ заявил о продаже «Газпрому» 70% акций «Связьбанка» за $100 млн
(плохо) Крупнейший госбанк продает свою дочку
(хорошо) Председатель фракции «Справедливая россия» в Госдуме Николай Левичев сложил полномочия
(плохо) Левичев заявил об уходе
уровень обобщенности – заголовок должен описывать сюжет в общем, а не его фазу или деталь
Например:
(хорошо) При взрыве в «Домодедово» пострадало несколько десятков человек
(плохо) Два харьковчанина числятся пропавшими после теракта в Москве
знаки препинания – заголовок не должен состоять из нескольких предложений, крайне нежелательны символы «тире», «двоеточие», восклицательный и вопросительный знаки
Например:
(хорошо) Президент России обсудил спортивное образование в школах
(плохо) Медведев: Самое лучшее – детям!

Слайд 19

Выбор заголовка (критерии)
Длина - в районе 50-70 символов
Наличие ключевых слов и объектов
а)

из других заголовков кластера
б) из первых абзацев статей в кластере
Источник – с максимальным весом
Вес статьи внутри кластера (близость к ядру)
Считать статистику только по уникальным заголовкам
В конце заголовка не должно быть знаков препинания
В заголовке должен быть глагол (боремся с такими заголовками, как «Авария в центре Москвы», «Беспорядки в Лондоне» и т.п.)
Заголовок не должен состоять только из заглавных букв
В заголовке не должно быть менее 3 слов

ПРОБЛЕМЫ КЛАСТЕРИЗАЦИИ НОВОСТНОГО ПОТОКА Петр Воляк [email protected] NLPseminar, Санкт-Петербург 8 октября 2011 года

Содержание

Слайд 2

О КОМПАНИИ И ТЕХНОЛОГИЯХ

Слайд 3

О компании «Медиалогия»
специализируется на технологиях лингвистического анализа текстовой информации
российский лидер в области

Слайд 4

Что такое система «Медиалогия»
БАЗА СМИ
ТЕХНОЛОГИИ
ОБРАБОТКИ И
ИЗВЛЕЧЕНИЯ ДАННЫХ
СИСТЕМА ОНЛАЙН
АНАЛИЗА СМИ
+
=

Слайд 5

База СМИ

Слайд 6

База СМИ

Слайд 7

Основные технологии
Агрегация онлайн- и оффлайн-СМИ, а также соцмедиа (блоги, форумы, соц.сети) в

Слайд 8

Named Entity Recognition
Выделение позиций
Соотнесение с базой объектов (персоны, организации, бренды, геопонятия)
Работа правил

Слайд 9

На том же этапе
Выделение прямой и косвенной речи
Жанровая классификация
Рубрикация
Выделение фактов и связей
Далее

Слайд 10

Продукты
Мониторинг упоминаний объектов в СМИ
Генерация периодических отчетов
Различные продукты с новостной картиной дня
Мониторинг

Слайд 11

КЛАСТЕРИЗАЦИЯ

Слайд 12

Гравитационная кластеризация
Нормализуем лексику в документе, выкидываем стоп-слова
В каждом документе выделяем топ по

Слайд 13

Обработка новостей
Непрерывная кластеризация: анализ вновь поступивших документов и включение их в уже

Слайд 14

Главная статья кластера
Влиятельность источника
Свежесть
Максимальная связанность с другими документами кластера
Заголовок выбирается из документов,

Слайд 15

Основные проблемы
Большие кластера, собирающиеся вокруг похожих событий (стихийные бедствия, происшествия, биржевые котировки)
Плохое

Слайд 16

Способы решения
Отдельный вектор с биграммами
Учет биграмм в лексических векторах
Точное определение географии
Подключение тезауруса

Слайд 17

Учет географии
Сбор данных о географии:
Объекты
Прилагательные
Онтологические связи
Определение локации с помощью геобазы:
Иерархия
Система координат

Слайд 18

Выбор заголовка (задача)
лексика – отсутствие оценочной, жаргонной, ненормативной лексики
Например:
(хорошо) 1 января

Слайд 19

Выбор заголовка (критерии)
Длина - в районе 50-70 символов
Наличие ключевых слов и объектов
а)

ПРОБЛЕМЫ КЛАСТЕРИЗАЦИИ НОВОСТНОГО ПОТОКА Петр Воляк [email protected] NLPseminar, Санкт-Петербург 8 октября 2011 года

Содержание

О КОМПАНИИ И ТЕХНОЛОГИЯХ

О компании «Медиалогия»специализируется на технологиях лингвистического анализа текстовой информациироссийский лидер в области

Что такое система «Медиалогия»БАЗА СМИТЕХНОЛОГИИОБРАБОТКИ И ИЗВЛЕЧЕНИЯ ДАННЫХСИСТЕМА ОНЛАЙН АНАЛИЗА СМИ+=

База СМИ

База СМИ

Основные технологииАгрегация онлайн- и оффлайн-СМИ, а также соцмедиа (блоги, форумы, соц.сети) в

Named Entity RecognitionВыделение позицийСоотнесение с базой объектов (персоны, организации, бренды, геопонятия)Работа правил

На том же этапеВыделение прямой и косвенной речиЖанровая классификацияРубрикацияВыделение фактов и связейДалее

ПродуктыМониторинг упоминаний объектов в СМИГенерация периодических отчетовРазличные продукты с новостной картиной дняМониторинг

КЛАСТЕРИЗАЦИЯ

Гравитационная кластеризацияНормализуем лексику в документе, выкидываем стоп-словаВ каждом документе выделяем топ по

Обработка новостейНепрерывная кластеризация: анализ вновь поступивших документов и включение их в уже

Главная статья кластераВлиятельность источникаСвежестьМаксимальная связанность с другими документами кластераЗаголовок выбирается из документов,

Основные проблемыБольшие кластера, собирающиеся вокруг похожих событий (стихийные бедствия, происшествия, биржевые котировки)Плохое

Способы решенияОтдельный вектор с биграммамиУчет биграмм в лексических векторахТочное определение географииПодключение тезауруса

Учет географииСбор данных о географии:ОбъектыПрилагательныеОнтологические связиОпределение локации с помощью геобазы:ИерархияСистема координат

Выбор заголовка (задача)лексика – отсутствие оценочной, жаргонной, ненормативной лексики Например: (хорошо) 1 января

Выбор заголовка (критерии)Длина - в районе 50-70 символовНаличие ключевых слов и объектов а)

Похожие презентации

О компании «Медиалогия»
специализируется на технологиях лингвистического анализа текстовой информации
российский лидер в области

Что такое система «Медиалогия»
БАЗА СМИ
ТЕХНОЛОГИИ
ОБРАБОТКИ И
ИЗВЛЕЧЕНИЯ ДАННЫХ
СИСТЕМА ОНЛАЙН
АНАЛИЗА СМИ
+
=

Основные технологии
Агрегация онлайн- и оффлайн-СМИ, а также соцмедиа (блоги, форумы, соц.сети) в

Named Entity Recognition
Выделение позиций
Соотнесение с базой объектов (персоны, организации, бренды, геопонятия)
Работа правил

На том же этапе
Выделение прямой и косвенной речи
Жанровая классификация
Рубрикация
Выделение фактов и связей
Далее

Продукты
Мониторинг упоминаний объектов в СМИ
Генерация периодических отчетов
Различные продукты с новостной картиной дня
Мониторинг

Гравитационная кластеризация
Нормализуем лексику в документе, выкидываем стоп-слова
В каждом документе выделяем топ по

Обработка новостей
Непрерывная кластеризация: анализ вновь поступивших документов и включение их в уже

Главная статья кластера
Влиятельность источника
Свежесть
Максимальная связанность с другими документами кластера
Заголовок выбирается из документов,

Основные проблемы
Большие кластера, собирающиеся вокруг похожих событий (стихийные бедствия, происшествия, биржевые котировки)
Плохое

Способы решения
Отдельный вектор с биграммами
Учет биграмм в лексических векторах
Точное определение географии
Подключение тезауруса

Учет географии
Сбор данных о географии:
Объекты
Прилагательные
Онтологические связи
Определение локации с помощью геобазы:
Иерархия
Система координат

Выбор заголовка (задача)
лексика – отсутствие оценочной, жаргонной, ненормативной лексики
Например:
(хорошо) 1 января

Выбор заголовка (критерии)
Длина - в районе 50-70 символов
Наличие ключевых слов и объектов
а)