Слайд 2План
Что такое Яндекс.Новости?
Автоматическая кластеризация сообщений в сюжеты
Ранжирование новостных сюжетов
Автоматическое аннотирование сюжета: выбор
заголовка, текста, картинки
Выделение объектов из текста
Аннотирование кластера документов (сюжета)
Выбор наиболее релевантных объектов и фактов
Выбор предложений для аннотации
Слайд 3Яндекс.Новости
Автоматическая кластеризация 80 000 новостных сообщений в сюжеты – новости об одном
событии.
- Определение ключевых слов документа
- Поиск для каждого документа по его ключевым словам близких документов
- Многопроходная кластеризация документов по специально построенным из документа и по пользовательским запросам
Ранжирование сюжетов
- количество сообщений
- новизна
- пользовательский интерес
«новостные» запросы
«кликабельность» сюжетов
Слайд 4Яндекс.Новости. Страница рубрики
Слайд 5Яндекс.Новости. Страница сюжета
Заголовок
- Соответствие лексическому ядру
- «Красота»: длина, синтаксическая полнота
- Новизна
Картинка
Аннотация
Сюжет
в лицах, Карта к сюжету
Список сообщений, составляющих сюжет
- Отсортирован по времени
- Релевантные, не дублирующиеся сообщения
Слайд 6Яндекс.Новости. Страница сюжета
Слайд 7Извлечение фактов из текстов сюжета
Извлекаемые объекты и факты
ФИО
названия организаций
географические
объекты
даты и числа
цитаты
Справочная информация
адрес – ссылка на карту
фио – ссылка на пресс-портрет
новостной источник – ссылка на сайт/статью
Слайд 8Извлечение фактов из текста
12 марта этого года задержан заместитель главного бухгалтера финансово-экономического
управления УВД Хабаровского края Владимир Дуничев, похитивший более 10 миллионов рублей.
Слайд 9Отбор предложений для аннотации
отождествление объектов одного типа из разных документов сюжета
приписывание объектам
весов по упоминаемости и по типу
выбор всех предложений из всех документов, содержащих ключевые слова сюжета
взвешивание предложений по входящим в них ключевым словам и входящим в них фактам
Слайд 10Отбор предложений для аннотации
просев полученных предложений:
- по шинглам – удаление лексических дублей
4
апреля гособвинение потребовало приговорить Ульмана и Перелевского к 23 годам тюрьмы, а Воеводина и Калаганского - к 18 годам.
Гособвинение требует приговорить Эдуарда Ульмана и Алексея Перелевского к 23 годам лишения свободы каждого, Александра Калаганского - к 18 годам.
- по объектам – удаление содержательных дублей
На процессе в Северо-Кавказском военном суде объявлен перерыв до 13 апреля из-за неявки троих обвиняемых Эдуарда Ульмана, Александра Калаганского и Владимира Воеводина.
Подсудимые по делу о расстреле чеченских жителей Эдуард Ульман, Александр Калаганский и Владимир Воеводин не явились в четверг на заседание Северо-Кавказского военного суда.
- выбор из дублирующихся самого раннего
выбор N самых весомых предложений
Слайд 11Пути развития
Учет сценария события для определения необходимых составляющих аннотации
Футбольный матч
Пожар
Принятие нового
закона
Улучшение связности текста аннотации