ПРОБЛЕМЫ КЛАСТЕРИЗАЦИИ НОВОСТНОГО ПОТОКА Петр Воляк [email protected] NLPseminar, Санкт-Петербург 8 октября 2011 года
Содержание
- 2. О КОМПАНИИ И ТЕХНОЛОГИЯХ
- 3. О компании «Медиалогия» специализируется на технологиях лингвистического анализа текстовой информации российский лидер в области разработки онлайн-решений
- 4. Что такое система «Медиалогия» БАЗА СМИ ТЕХНОЛОГИИ ОБРАБОТКИ И ИЗВЛЕЧЕНИЯ ДАННЫХ СИСТЕМА ОНЛАЙН АНАЛИЗА СМИ +
- 5. База СМИ
- 6. База СМИ
- 7. Основные технологии Агрегация онлайн- и оффлайн-СМИ, а также соцмедиа (блоги, форумы, соц.сети) в режиме реального времени
- 8. Named Entity Recognition Выделение позиций Соотнесение с базой объектов (персоны, организации, бренды, геопонятия) Работа правил Ранжирование
- 9. На том же этапе Выделение прямой и косвенной речи Жанровая классификация Рубрикация Выделение фактов и связей
- 10. Продукты Мониторинг упоминаний объектов в СМИ Генерация периодических отчетов Различные продукты с новостной картиной дня Мониторинг
- 11. КЛАСТЕРИЗАЦИЯ
- 12. Гравитационная кластеризация Нормализуем лексику в документе, выкидываем стоп-слова В каждом документе выделяем топ по TF-IDF Подсвечиваем
- 13. Обработка новостей Непрерывная кластеризация: анализ вновь поступивших документов и включение их в уже имеющиеся кластера, проверка
- 14. Главная статья кластера Влиятельность источника Свежесть Максимальная связанность с другими документами кластера Заголовок выбирается из документов,
- 15. Основные проблемы Большие кластера, собирающиеся вокруг похожих событий (стихийные бедствия, происшествия, биржевые котировки) Плохое деление на
- 16. Способы решения Отдельный вектор с биграммами Учет биграмм в лексических векторах Точное определение географии Подключение тезауруса
- 17. Учет географии Сбор данных о географии: Объекты Прилагательные Онтологические связи Определение локации с помощью геобазы: Иерархия
- 18. Выбор заголовка (задача) лексика – отсутствие оценочной, жаргонной, ненормативной лексики Например: (хорошо) 1 января для водителей
- 19. Выбор заголовка (критерии) Длина - в районе 50-70 символов Наличие ключевых слов и объектов а) из
- 21. Скачать презентацию


















Сертификация процессов
KidsWay. Сопровождение детей. Сопровождающие
Тема 5
Применение свойств тригонометрических функций
Эстафетный бег
Светильник Sibilux.Road – новое поколение Sibilux®
Михаилу Васильевичу Ломоносову 300 лет
Презентация на тему Многообразие живых организмов
Милой мамочке!
География (фотографии)
Основные обязанности гражданского служащего
Гидросфера от А до Я
Чебышев П.Л.
План местности. Условные знаки
Гигиена сердечно-сосудистой системы
Подача заявки на предоставление жилого помещения в общежитии
The simple or indefinite past tense in Lithuanian. Simplified view of the past tense conjugation in Lithuanian
Политические режимы. Типы политических режимов
ПГСО-11
Оффлайн лаборатория с биохакерским и антиэйдж уклоном. Сервисная франшиза для финтес-центров
Сравнительный анализ российских и американских телеканалов
Конкурс чтецов, посвящённый творчеству Э. Асадова
Сложноподчиненные предложения с придаточными образа действия
Телефонный этикет OZON
Игра на уроках русского языка и литературы
Правила переноса слов (1 класс)
ZooPlaneta. Vet+
МУНИЦИПАЛЬНОЕ ОБЩЕОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ СРЕДНЯЯ ОБЩЕОБРАЗОВАТЕЛЬНАЯ ШКОЛА № 3 г. Киржач