ПРОБЛЕМЫ КЛАСТЕРИЗАЦИИ НОВОСТНОГО ПОТОКА Петр Воляк [email protected] NLPseminar, Санкт-Петербург 8 октября 2011 года
Содержание
- 2. О КОМПАНИИ И ТЕХНОЛОГИЯХ
- 3. О компании «Медиалогия» специализируется на технологиях лингвистического анализа текстовой информации российский лидер в области разработки онлайн-решений
- 4. Что такое система «Медиалогия» БАЗА СМИ ТЕХНОЛОГИИ ОБРАБОТКИ И ИЗВЛЕЧЕНИЯ ДАННЫХ СИСТЕМА ОНЛАЙН АНАЛИЗА СМИ +
- 5. База СМИ
- 6. База СМИ
- 7. Основные технологии Агрегация онлайн- и оффлайн-СМИ, а также соцмедиа (блоги, форумы, соц.сети) в режиме реального времени
- 8. Named Entity Recognition Выделение позиций Соотнесение с базой объектов (персоны, организации, бренды, геопонятия) Работа правил Ранжирование
- 9. На том же этапе Выделение прямой и косвенной речи Жанровая классификация Рубрикация Выделение фактов и связей
- 10. Продукты Мониторинг упоминаний объектов в СМИ Генерация периодических отчетов Различные продукты с новостной картиной дня Мониторинг
- 11. КЛАСТЕРИЗАЦИЯ
- 12. Гравитационная кластеризация Нормализуем лексику в документе, выкидываем стоп-слова В каждом документе выделяем топ по TF-IDF Подсвечиваем
- 13. Обработка новостей Непрерывная кластеризация: анализ вновь поступивших документов и включение их в уже имеющиеся кластера, проверка
- 14. Главная статья кластера Влиятельность источника Свежесть Максимальная связанность с другими документами кластера Заголовок выбирается из документов,
- 15. Основные проблемы Большие кластера, собирающиеся вокруг похожих событий (стихийные бедствия, происшествия, биржевые котировки) Плохое деление на
- 16. Способы решения Отдельный вектор с биграммами Учет биграмм в лексических векторах Точное определение географии Подключение тезауруса
- 17. Учет географии Сбор данных о географии: Объекты Прилагательные Онтологические связи Определение локации с помощью геобазы: Иерархия
- 18. Выбор заголовка (задача) лексика – отсутствие оценочной, жаргонной, ненормативной лексики Например: (хорошо) 1 января для водителей
- 19. Выбор заголовка (критерии) Длина - в районе 50-70 символов Наличие ключевых слов и объектов а) из
- 21. Скачать презентацию


















Сожаление о старом халате.
Работники культуры не бездельники ,все они
Словообразование имён существительных
A X I O M
Окаменевшее время Стоунхенджа
Дебаты – искусство благородного спора
Стулья Оримекс
«Программируемые устройства вокруг нас»поисково-исследовательская работа
ВКР: Направления развития ресурсной базы коммерческого банка
Схема передачи информации. Локальные и глобальные компьютерные сети
Состояние отраслей машиностроения и металлообработки
Презентация на тему Правовые основы охраны труда
риггеры на биполярных транзисторах. Генераторы линейно-изменяющегося напряжения
R
Симметрия в одежде
Роль финансов в эффективном функционировании рыночной экономики
LES GENETS D’ORПрезентация организации
День народного единства
Мое здоровье
Религиозная толерантность
Создание эскиза театрального героя. 3 класс
СПИД - наиболее опасное инфекционное заболевание.
Прямые паруса и их бегучий такелаж шлюпа Мирный
Отчет по разработке Программы стратегического развития Зеленодольского муниципального района до 2020 года
Постановка задачи
Муниципальное образовательное учреждение средняя общеобразовательная школа № 124 Октябрьского района городского округа город Уф
Потребительские кредиты
Культура России в XIX в