ВЫЯВЛЕНИЕ НОВЫХ СОБЫТИЙ ИЗ ПОТОКА НОВОСТЕЙ

Слайд 2

Сюжеты VS Новые события

Конференция «Диалог 2007»
ВЫЯВЛЕНИЕ НОВЫХ СОБЫТИЙ ИЗ ПОТОКА НОВОСТЕЙ

Запрос
пользователя

О чем

Сюжеты VS Новые события Конференция «Диалог 2007» ВЫЯВЛЕНИЕ НОВЫХ СОБЫТИЙ ИЗ ПОТОКА
больше
всего говорят

Учет времени
и количества
публикаций

О каких
«актуальных»
событиях
говорят в
последнее
время
«солидные»
источники

Учет …

Слайд 3

Популярность документа Di за небольшой промежуток времени (локальная популярность- ni) и за

Популярность документа Di за небольшой промежуток времени (локальная популярность- ni) и за
значительный промежуток (глобальная популярность - Ni). Вычисляются по количеству «подобных» документов в оперативной и ретроспективной базах данных.

Конференция «Диалог 2007»
ВЫЯВЛЕНИЕ НОВЫХ СОБЫТИЙ ИЗ ПОТОКА НОВОСТЕЙ

Ni

ni

Слайд 4

Предположение, о том, что документ соответствует новому событию, если выполняются условия: минимальное

Предположение, о том, что документ соответствует новому событию, если выполняются условия: минимальное
время, прошедшее с момента публикации документа; близость лексического состава документа к лексическому составу массива документов за небольшой промежуток времени (массив оперативных новостей); существенное различие лексического состава документа от лексического состава массива документов за значительный период времени – окна наблюдения; наличие в документе терминов, входящих в плюс-словарь (включающий важные для содержания новостей слова типа «теракт», «конфликт», «сенсация» и т.п.); высокий ранг «авторитетности» источника, а также допустимости лексики заглавий новостей (определяемых экспертами).

Конференция «Диалог 2007»
ВЫЯВЛЕНИЕ НОВЫХ СОБЫТИЙ ИЗ ПОТОКА НОВОСТЕЙ

Слайд 5

Формула для расчета ранга новостного документа:

Конференция «Диалог 2007»
ВЫЯВЛЕНИЕ НОВЫХ СОБЫТИЙ ИЗ ПОТОКА

Формула для расчета ранга новостного документа: Конференция «Диалог 2007» ВЫЯВЛЕНИЕ НОВЫХ СОБЫТИЙ
НОВОСТЕЙ

N – величина окна наблюдения потока новостей;
n – величина массива оперативных новостей (n < N);
Di – i-й документ;
PlusDic – плюс-словарь;
sim(Di, Dj) – мера близости документа i документу j;
sim(Di, PlusDic) – мера близости документа i плюс-словарю;
Rangi – ранг источника, соответствующего i-му документу.

Слайд 6

Интерфейс пользователя

Конференция «Диалог 2007»
ВЫЯВЛЕНИЕ НОВЫХ СОБЫТИЙ ИЗ ПОТОКА НОВОСТЕЙ

Интерфейс пользователя Конференция «Диалог 2007» ВЫЯВЛЕНИЕ НОВЫХ СОБЫТИЙ ИЗ ПОТОКА НОВОСТЕЙ
Имя файла: ВЫЯВЛЕНИЕ-НОВЫХ-СОБЫТИЙ-ИЗ-ПОТОКА-НОВОСТЕЙ.pptx
Количество просмотров: 107
Количество скачиваний: 0