ПРОБЛЕМЫ КЛАСТЕРИЗАЦИИ НОВОСТНОГО ПОТОКА Петр Воляк [email protected] NLPseminar, Санкт-Петербург 8 октября 2011 года
Содержание
- 2. О КОМПАНИИ И ТЕХНОЛОГИЯХ
- 3. О компании «Медиалогия» специализируется на технологиях лингвистического анализа текстовой информации российский лидер в области разработки онлайн-решений
- 4. Что такое система «Медиалогия» БАЗА СМИ ТЕХНОЛОГИИ ОБРАБОТКИ И ИЗВЛЕЧЕНИЯ ДАННЫХ СИСТЕМА ОНЛАЙН АНАЛИЗА СМИ +
- 5. База СМИ
- 6. База СМИ
- 7. Основные технологии Агрегация онлайн- и оффлайн-СМИ, а также соцмедиа (блоги, форумы, соц.сети) в режиме реального времени
- 8. Named Entity Recognition Выделение позиций Соотнесение с базой объектов (персоны, организации, бренды, геопонятия) Работа правил Ранжирование
- 9. На том же этапе Выделение прямой и косвенной речи Жанровая классификация Рубрикация Выделение фактов и связей
- 10. Продукты Мониторинг упоминаний объектов в СМИ Генерация периодических отчетов Различные продукты с новостной картиной дня Мониторинг
- 11. КЛАСТЕРИЗАЦИЯ
- 12. Гравитационная кластеризация Нормализуем лексику в документе, выкидываем стоп-слова В каждом документе выделяем топ по TF-IDF Подсвечиваем
- 13. Обработка новостей Непрерывная кластеризация: анализ вновь поступивших документов и включение их в уже имеющиеся кластера, проверка
- 14. Главная статья кластера Влиятельность источника Свежесть Максимальная связанность с другими документами кластера Заголовок выбирается из документов,
- 15. Основные проблемы Большие кластера, собирающиеся вокруг похожих событий (стихийные бедствия, происшествия, биржевые котировки) Плохое деление на
- 16. Способы решения Отдельный вектор с биграммами Учет биграмм в лексических векторах Точное определение географии Подключение тезауруса
- 17. Учет географии Сбор данных о географии: Объекты Прилагательные Онтологические связи Определение локации с помощью геобазы: Иерархия
- 18. Выбор заголовка (задача) лексика – отсутствие оценочной, жаргонной, ненормативной лексики Например: (хорошо) 1 января для водителей
- 19. Выбор заголовка (критерии) Длина - в районе 50-70 символов Наличие ключевых слов и объектов а) из
- 21. Скачать презентацию


















Проект компанії Prime sausage. Ковбасні вироби
Быт и обычаи 19 века
МОУ Радужненская средняя общеобразовательная школа Коломенского муниципального района Московской области
Развитие инклюзивных процессов в Рогачевском районе на основе имеющихся возможностей специального образования
ыть
Мульти-параметрические мониторы пациента
Большой театр в Москве
Panzerkampfwagen. Прототип
Телевизор и дети
Пророк Иона
МО эстетического, физического и технологического направления «Применение здоровьесберегающих технологий»
Мировая экономика
Ухаживание за кожей лица
Афанасий Никитин
Общие положения о налоговом контроле
3 лекция
Устройство римской республики
Личностно ориентированное образование
Современные библиотеки мира
ПУБЛИЧНЫЙ ДОКЛАДо состоянии и перспективах развития
Тишина Наталья КМС плавание абсолютный чемпион Красноярского края, многократный победитель этапов Кубка Сибири
Рекреационные ресурсы Приморского края
Шоппинг по всему миру не выходя из дома
Дорога жизни
Тренер-берейтор. Конный спорт
Учусь принимать решения в различных ситуациях
Несущие колонны из стекла
Помним и гордимся