ПРОБЛЕМЫ КЛАСТЕРИЗАЦИИ НОВОСТНОГО ПОТОКА Петр Воляк [email protected] NLPseminar, Санкт-Петербург 8 октября 2011 года
Содержание
- 2. О КОМПАНИИ И ТЕХНОЛОГИЯХ
- 3. О компании «Медиалогия» специализируется на технологиях лингвистического анализа текстовой информации российский лидер в области разработки онлайн-решений
- 4. Что такое система «Медиалогия» БАЗА СМИ ТЕХНОЛОГИИ ОБРАБОТКИ И ИЗВЛЕЧЕНИЯ ДАННЫХ СИСТЕМА ОНЛАЙН АНАЛИЗА СМИ +
- 5. База СМИ
- 6. База СМИ
- 7. Основные технологии Агрегация онлайн- и оффлайн-СМИ, а также соцмедиа (блоги, форумы, соц.сети) в режиме реального времени
- 8. Named Entity Recognition Выделение позиций Соотнесение с базой объектов (персоны, организации, бренды, геопонятия) Работа правил Ранжирование
- 9. На том же этапе Выделение прямой и косвенной речи Жанровая классификация Рубрикация Выделение фактов и связей
- 10. Продукты Мониторинг упоминаний объектов в СМИ Генерация периодических отчетов Различные продукты с новостной картиной дня Мониторинг
- 11. КЛАСТЕРИЗАЦИЯ
- 12. Гравитационная кластеризация Нормализуем лексику в документе, выкидываем стоп-слова В каждом документе выделяем топ по TF-IDF Подсвечиваем
- 13. Обработка новостей Непрерывная кластеризация: анализ вновь поступивших документов и включение их в уже имеющиеся кластера, проверка
- 14. Главная статья кластера Влиятельность источника Свежесть Максимальная связанность с другими документами кластера Заголовок выбирается из документов,
- 15. Основные проблемы Большие кластера, собирающиеся вокруг похожих событий (стихийные бедствия, происшествия, биржевые котировки) Плохое деление на
- 16. Способы решения Отдельный вектор с биграммами Учет биграмм в лексических векторах Точное определение географии Подключение тезауруса
- 17. Учет географии Сбор данных о географии: Объекты Прилагательные Онтологические связи Определение локации с помощью геобазы: Иерархия
- 18. Выбор заголовка (задача) лексика – отсутствие оценочной, жаргонной, ненормативной лексики Например: (хорошо) 1 января для водителей
- 19. Выбор заголовка (критерии) Длина - в районе 50-70 символов Наличие ключевых слов и объектов а) из
- 21. Скачать презентацию


















Чудесная сила простых механизмов
Характерные черты в повести «Котлован». Метафоричность мышления Андрея Платонова
Travelling to St.Petersburgh world of water
Инфляция: причины возникновения и виды
Страны и континенты
Типы маркетинга: конверсионный, развивающий, стимулирующий, поддерживающий
курс по выбору«мой уютный дом»
Электронная Медицинская Карта гражданина РФ – миф или реальность?
Synova® Аксессуары
Тема 8.1. Процесс международной перевозки грузов
Политические кампании
Герметизация компонентов радиоэлектронной аппаратуры (РЭА). Способы контроля герметичности
Научная революция 17 века
МАСЛА ЭЛИТФИТО ОТ «BBG»
Презентация на тему Множество. Элемент множества
Орган слуха. Орган
mdk_02
Аниме. Тест: Фурри
Комсомольский сад
трудовой кодекс
Приложения к решению совета депутатов города Новосибирска. Карты
Машиностроительный комплекс,Перспективы развития России
Класса неорганических соединений
Презентация на тему Сокровища юга Африки
Танец ча-ча-ча
Особенности энергосервисных контрактов в многоквартирных домах
Матрёшка
Введение в профессию «Реклама и связи с общественностью»