Определение новизны информации в новостном кластере

Содержание

Слайд 2

Определение новизны информации

Определение новизны информации – важная и нерешённая задача.
Проблема в

Определение новизны информации Определение новизны информации – важная и нерешённая задача. Проблема
общем виде:
поток информации и пользователь
в некоторый момент времени есть известная информация (известная пользователю)
Задача: извлечение новой информации из потока и предъявление пользователю

Слайд 3

Конкретная задача

Новостной кластер – набор документов по поводу некоторого события.
Аннотация – краткое

Конкретная задача Новостной кластер – набор документов по поводу некоторого события. Аннотация
описание события, составленное из предложений документов кластера.
В некоторый момент времени в кластер приходит ещё N документов.
Вопросы:
Что нового произошло?
Как должна измениться аннотация?
Как новое отобразить в аннотации?
Какие предложения аннотации должны быть заменены?

Слайд 4

Конференция TREC

Создана при поддержке Национального Института Стандартов и Технологий (NIST) и Департамента

Конференция TREC Создана при поддержке Национального Института Стандартов и Технологий (NIST) и
Защиты США.
Проект был запущен в 1992 как часть программы TIPSTER Text.
Назначение: поддержка исследований в области извлечения информации при помощи обеспечения инфраструктуры, необходимой для крупномасштабной оценки методов извлечения информации.

Слайд 5

Постановка задачи «Определение новизны» в TREC

Данная задача разрабатывалась в TREC в 2002

Постановка задачи «Определение новизны» в TREC Данная задача разрабатывалась в TREC в
– 2004 годах
Постановка задачи: Дано упорядоченное множество документов, разделённое на предложения, и краткое описание(топик) к данному множеству.
Задача: Найти важные(релевантные) и новые предложения.

Слайд 6

Постановка задачи-1

То есть по сути задача делится на две части:
Обнаружение значимых (важных)

Постановка задачи-1 То есть по сути задача делится на две части: Обнаружение
предложений.
(identifying relevant sentences)
2. Выявление из этих значимых предложений, предложений несущих новую информацию.
(novelty detection)

Слайд 7

Постановка задачи-2

4 дисциплины:
Task 1. Дан набор документов и топик, определить все релевантные

Постановка задачи-2 4 дисциплины: Task 1. Дан набор документов и топик, определить
и новые предложения.
Task 2. Даны релевантные предложения во всех документах, определить все новые предложения.
Task 3. Даны релевантные и новые предложения в первых 5 документах, найти все релевантные и новые предложения в остальных документах.
Task 4. Даны релевантные предложения во всех документах и новые предложения в первых пяти, найти новые предложения в остальных документах.

Слайд 8

Входные данные-1

AQUAINT collection.
New York Times News Service (Jun 1998 – Sep

Входные данные-1 AQUAINT collection. New York Times News Service (Jun 1998 –
2000),
AP (also Jun 1998 – Sep 2000),
Xinhua News Service (Jan 1996 – Sep 2000).
Данная коллекция содержит сильную избыточность информации, и таким образом мы имеем меньше новой информации, повышая реализм задачи.

Слайд 9

Входные данные-2

Специалисты NIST сделали 50 кратких описаний новостей из данной коллекции.
Новости были

Входные данные-2 Специалисты NIST сделали 50 кратких описаний новостей из данной коллекции.
2-ух типов: События (events) и Мнения (opinions).
В описании топика содержался тег с его типом (участники заранее знали тип топика).
Документы были хронологически упорядочены и разбиты на предложения.
Предложения объединялись вместе, представляя собой единое множество документов к топику.

Слайд 10

Оценка результатов-1

Каждый топик был проанализирован двумя независимыми экспертами из NIST.
Эксперты из набора

Оценка результатов-1 Каждый топик был проанализирован двумя независимыми экспертами из NIST. Эксперты
документов выбрали релевантные предложения, и из этих предложений выбрали те, которые являются новыми.
Некоторое преимущество экспертов перед системами, ввиду присутствия нерелевантных документов.

Слайд 11

Оценка результатов-2

Оценка результатов-2

Слайд 12

Оценка результатов-3

Введём следующие обозначения:
M – число «правильных» предложений, то есть предложений, выбранных

Оценка результатов-3 Введём следующие обозначения: M – число «правильных» предложений, то есть
обоими экспертами и системой участником.
A – число предложений выбранных экспертами.
S – число предложений выбранных системой.

Слайд 13

Оценка результатов-4

Тогда:
R = M / A – эффективность поиска. (Recall)
P = M

Оценка результатов-4 Тогда: R = M / A – эффективность поиска. (Recall)
/ S – точность поиска. (Precision)
Проблемы:
R = 1 , P -> 0
P = 1 , R -> 0
=> Среднее значение R и P не является объективным критерием.

Слайд 14

Оценка результатов-5

Вариант решения: F-мера (F-measure)
Общий вид:

F-measure, используемая на Novelty track:

Оценка результатов-5 Вариант решения: F-мера (F-measure) Общий вид: F-measure, используемая на Novelty track:

Слайд 15

Оценка результатов-6

Оценка результатов-6

Слайд 16

Участники

Участники

Слайд 17

Результаты - 1

В целом не очень высокие абсолютные результаты.
Среднее значение F –

Результаты - 1 В целом не очень высокие абсолютные результаты. Среднее значение
меры:
0.36 - 0.4 для задач обнаружения релевантных предложений.
0.18 - 0.21 для задач обнаружения новой информации.
Топики типа «Событие» оказались заметно проще топиков типа «Мнение».

Слайд 18

Результаты - 2

Результаты - 2

Слайд 19

Результаты - 3

Результаты - 3

Слайд 20

Результаты - 4

Результаты - 4

Слайд 21

Анализ результатов TREC

Task 2. Даны релевантные предложения во всех документах, определить все

Анализ результатов TREC Task 2. Даны релевантные предложения во всех документах, определить
новые предложения.
Данная дисциплина ближе всего нашей задаче.
Колумбийский университет и система SumSeg:
Основное направление – извлечение новой информации.
Большое количество новых идей и подходов к решению задачи.
Высокие результаты:

Слайд 23

Особенности и основные идеи системы SumSeg-1

Новая информация может появляться в сегментах больше

Особенности и основные идеи системы SumSeg-1 Новая информация может появляться в сегментах
или меньше одного предложения.
Уход от прямого сравнения предложений на «похожесть».
Новое слово – новая информация.
Классификация предложений (работа с предложением в его контексте)
Тщательная работа с местоимениями.

Слайд 24

Особенности и основные идеи системы SumSeg-2

Большое количество различных весов и порогов.
База данных

Особенности и основные идеи системы SumSeg-2 Большое количество различных весов и порогов.
частотных характеристик слов.
Анализ контекстных характеристик слов и корректировка весов с их учётом.
Машинное обучение (автоматический подбор оптимальных коэффициентов, порогов и весов)
Векторно - пространственная модель представления информации.

Слайд 25

Векторно-пространственная модель-1

Алгебраическая модель представления текстовых документов (в общем случае любых объектов) в

Векторно-пространственная модель-1 Алгебраическая модель представления текстовых документов (в общем случае любых объектов)
виде вектора идентификаторов.
Каждое пространство соответствует отдельному терму. Если терм встретился в документе, то его значение в векторе не равно нулю.
Существует много методов по вычислению весов термов в векторе.
Сравнения близости векторов по косинусу угла между ними:

Слайд 26

Векторно-пространственная модель-2

Пример: Пусть есть два предложения. «Мама мыла раму» и «Папа мыл

Векторно-пространственная модель-2 Пример: Пусть есть два предложения. «Мама мыла раму» и «Папа
автомобиль». Сравним предложения на «похожесть» при помощи ВПМ.
«Мама мыла раму»
«Папа мыл автомобиль»

Слайд 27

Направление дальнейшей работы

Первоочередная задача – реализация векторно - пространственной модели и попытка

Направление дальнейшей работы Первоочередная задача – реализация векторно - пространственной модели и
её практического применения для обнаружения новой информации.
Анализ весов и порогов, подбор оптимальных вариантов.
Далее – анализ и реализация существующих и возможно создание новых методов и алгоритмов совершенствующих поиск (работа с различными частями речи, частотными характеристиками и т.д.)
Имя файла: Определение-новизны-информации-в-новостном-кластере.pptx
Количество просмотров: 460
Количество скачиваний: 1