ПРОБЛЕМЫ КЛАСТЕРИЗАЦИИ НОВОСТНОГО ПОТОКА Петр Воляк [email protected] NLPseminar, Санкт-Петербург 8 октября 2011 года
Содержание
- 2. О КОМПАНИИ И ТЕХНОЛОГИЯХ
- 3. О компании «Медиалогия» специализируется на технологиях лингвистического анализа текстовой информации российский лидер в области разработки онлайн-решений
- 4. Что такое система «Медиалогия» БАЗА СМИ ТЕХНОЛОГИИ ОБРАБОТКИ И ИЗВЛЕЧЕНИЯ ДАННЫХ СИСТЕМА ОНЛАЙН АНАЛИЗА СМИ +
- 5. База СМИ
- 6. База СМИ
- 7. Основные технологии Агрегация онлайн- и оффлайн-СМИ, а также соцмедиа (блоги, форумы, соц.сети) в режиме реального времени
- 8. Named Entity Recognition Выделение позиций Соотнесение с базой объектов (персоны, организации, бренды, геопонятия) Работа правил Ранжирование
- 9. На том же этапе Выделение прямой и косвенной речи Жанровая классификация Рубрикация Выделение фактов и связей
- 10. Продукты Мониторинг упоминаний объектов в СМИ Генерация периодических отчетов Различные продукты с новостной картиной дня Мониторинг
- 11. КЛАСТЕРИЗАЦИЯ
- 12. Гравитационная кластеризация Нормализуем лексику в документе, выкидываем стоп-слова В каждом документе выделяем топ по TF-IDF Подсвечиваем
- 13. Обработка новостей Непрерывная кластеризация: анализ вновь поступивших документов и включение их в уже имеющиеся кластера, проверка
- 14. Главная статья кластера Влиятельность источника Свежесть Максимальная связанность с другими документами кластера Заголовок выбирается из документов,
- 15. Основные проблемы Большие кластера, собирающиеся вокруг похожих событий (стихийные бедствия, происшествия, биржевые котировки) Плохое деление на
- 16. Способы решения Отдельный вектор с биграммами Учет биграмм в лексических векторах Точное определение географии Подключение тезауруса
- 17. Учет географии Сбор данных о географии: Объекты Прилагательные Онтологические связи Определение локации с помощью геобазы: Иерархия
- 18. Выбор заголовка (задача) лексика – отсутствие оценочной, жаргонной, ненормативной лексики Например: (хорошо) 1 января для водителей
- 19. Выбор заголовка (критерии) Длина - в районе 50-70 символов Наличие ключевых слов и объектов а) из
- 21. Скачать презентацию


















BRITISH COAT OF ARMS
Удостоверение ООО Газпром газораспределение Грозный
Мир рукотворный и нерукотворный
Антикафе GOOD WIN
Частотное планирование с двумя частотами, двумя частотными выходами и учетом загрузкив mesh-сетях
Презентация на тему Русские посиделки
Чевианы треугольникаСвойства медиан
Микропроцессорные информационноуправляющие системы
Receiving the Patient
Тест по теме «Звук. Отражение звука»
20140505_vnutrennie_vody_evrazii
Давление. Единицы давления. Способы уменьшения и увеличения давления
Модельный ряд 2011 года
Исследовательская деятельность
Техника движения (трава, осыпи, скалы) лекция для слушателей «Школы горного туризма базового уровня» лектор: Бер Александр Андр
Я познаю мир рыбалки
Сервировка сладкого стола. Праздничный этикет
Защитники Выборгской земли
Творческий проект
Невербальная коммуникация. Лекция 6
«РОСНАНОСВЕТ»
Transportation
Мультиплексор и демультиплексор
Вся правда о СПИДе
Дема Николай Юрьевич
Психологические основы педагогического общения
Экскурсионный маршрут Исаклинское раздолье
Бұйрық және оның түрлері