Слайд 2Определение новизны информации
Определение новизны информации – важная и нерешённая задача.
Проблема в
![Определение новизны информации Определение новизны информации – важная и нерешённая задача. Проблема](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/475594/slide-1.jpg)
общем виде:
поток информации и пользователь
в некоторый момент времени есть известная информация (известная пользователю)
Задача: извлечение новой информации из потока и предъявление пользователю
Слайд 3Конкретная задача
Новостной кластер – набор документов по поводу некоторого события.
Аннотация – краткое
![Конкретная задача Новостной кластер – набор документов по поводу некоторого события. Аннотация](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/475594/slide-2.jpg)
описание события, составленное из предложений документов кластера.
В некоторый момент времени в кластер приходит ещё N документов.
Вопросы:
Что нового произошло?
Как должна измениться аннотация?
Как новое отобразить в аннотации?
Какие предложения аннотации должны быть заменены?
Слайд 4Конференция TREC
Создана при поддержке Национального Института Стандартов и Технологий (NIST) и Департамента
![Конференция TREC Создана при поддержке Национального Института Стандартов и Технологий (NIST) и](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/475594/slide-3.jpg)
Защиты США.
Проект был запущен в 1992 как часть программы TIPSTER Text.
Назначение: поддержка исследований в области извлечения информации при помощи обеспечения инфраструктуры, необходимой для крупномасштабной оценки методов извлечения информации.
Слайд 5Постановка задачи «Определение новизны» в TREC
Данная задача разрабатывалась в TREC в 2002
![Постановка задачи «Определение новизны» в TREC Данная задача разрабатывалась в TREC в](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/475594/slide-4.jpg)
– 2004 годах
Постановка задачи: Дано упорядоченное множество документов, разделённое на предложения, и краткое описание(топик) к данному множеству.
Задача: Найти важные(релевантные) и новые предложения.
Слайд 6Постановка задачи-1
То есть по сути задача делится на две части:
Обнаружение значимых (важных)
![Постановка задачи-1 То есть по сути задача делится на две части: Обнаружение](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/475594/slide-5.jpg)
предложений.
(identifying relevant sentences)
2. Выявление из этих значимых предложений, предложений несущих новую информацию.
(novelty detection)
Слайд 7Постановка задачи-2
4 дисциплины:
Task 1. Дан набор документов и топик, определить все релевантные
![Постановка задачи-2 4 дисциплины: Task 1. Дан набор документов и топик, определить](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/475594/slide-6.jpg)
и новые предложения.
Task 2. Даны релевантные предложения во всех документах, определить все новые предложения.
Task 3. Даны релевантные и новые предложения в первых 5 документах, найти все релевантные и новые предложения в остальных документах.
Task 4. Даны релевантные предложения во всех документах и новые предложения в первых пяти, найти новые предложения в остальных документах.
Слайд 8Входные данные-1
AQUAINT collection.
New York Times News Service (Jun 1998 – Sep
![Входные данные-1 AQUAINT collection. New York Times News Service (Jun 1998 –](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/475594/slide-7.jpg)
2000),
AP (also Jun 1998 – Sep 2000),
Xinhua News Service (Jan 1996 – Sep 2000).
Данная коллекция содержит сильную избыточность информации, и таким образом мы имеем меньше новой информации, повышая реализм задачи.
Слайд 9Входные данные-2
Специалисты NIST сделали 50 кратких описаний новостей из данной коллекции.
Новости были
![Входные данные-2 Специалисты NIST сделали 50 кратких описаний новостей из данной коллекции.](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/475594/slide-8.jpg)
2-ух типов: События (events) и Мнения (opinions).
В описании топика содержался тег с его типом (участники заранее знали тип топика).
Документы были хронологически упорядочены и разбиты на предложения.
Предложения объединялись вместе, представляя собой единое множество документов к топику.
Слайд 10Оценка результатов-1
Каждый топик был проанализирован двумя независимыми экспертами из NIST.
Эксперты из набора
![Оценка результатов-1 Каждый топик был проанализирован двумя независимыми экспертами из NIST. Эксперты](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/475594/slide-9.jpg)
документов выбрали релевантные предложения, и из этих предложений выбрали те, которые являются новыми.
Некоторое преимущество экспертов перед системами, ввиду присутствия нерелевантных документов.
Слайд 12Оценка результатов-3
Введём следующие обозначения:
M – число «правильных» предложений, то есть предложений, выбранных
![Оценка результатов-3 Введём следующие обозначения: M – число «правильных» предложений, то есть](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/475594/slide-11.jpg)
обоими экспертами и системой участником.
A – число предложений выбранных экспертами.
S – число предложений выбранных системой.
Слайд 13Оценка результатов-4
Тогда:
R = M / A – эффективность поиска. (Recall)
P = M
![Оценка результатов-4 Тогда: R = M / A – эффективность поиска. (Recall)](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/475594/slide-12.jpg)
/ S – точность поиска. (Precision)
Проблемы:
R = 1 , P -> 0
P = 1 , R -> 0
=> Среднее значение R и P не является объективным критерием.
Слайд 14Оценка результатов-5
Вариант решения: F-мера (F-measure)
Общий вид:
F-measure, используемая на Novelty track:
![Оценка результатов-5 Вариант решения: F-мера (F-measure) Общий вид: F-measure, используемая на Novelty track:](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/475594/slide-13.jpg)
Слайд 17Результаты - 1
В целом не очень высокие абсолютные результаты.
Среднее значение F –
![Результаты - 1 В целом не очень высокие абсолютные результаты. Среднее значение](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/475594/slide-16.jpg)
меры:
0.36 - 0.4 для задач обнаружения релевантных предложений.
0.18 - 0.21 для задач обнаружения новой информации.
Топики типа «Событие» оказались заметно проще топиков типа «Мнение».
Слайд 21Анализ результатов TREC
Task 2. Даны релевантные предложения во всех документах, определить все
![Анализ результатов TREC Task 2. Даны релевантные предложения во всех документах, определить](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/475594/slide-20.jpg)
новые предложения.
Данная дисциплина ближе всего нашей задаче.
Колумбийский университет и система SumSeg:
Основное направление – извлечение новой информации.
Большое количество новых идей и подходов к решению задачи.
Высокие результаты:
Слайд 23Особенности и основные идеи системы SumSeg-1
Новая информация может появляться в сегментах больше
![Особенности и основные идеи системы SumSeg-1 Новая информация может появляться в сегментах](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/475594/slide-22.jpg)
или меньше одного предложения.
Уход от прямого сравнения предложений на «похожесть».
Новое слово – новая информация.
Классификация предложений (работа с предложением в его контексте)
Тщательная работа с местоимениями.
Слайд 24Особенности и основные идеи системы SumSeg-2
Большое количество различных весов и порогов.
База данных
![Особенности и основные идеи системы SumSeg-2 Большое количество различных весов и порогов.](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/475594/slide-23.jpg)
частотных характеристик слов.
Анализ контекстных характеристик слов и корректировка весов с их учётом.
Машинное обучение (автоматический подбор оптимальных коэффициентов, порогов и весов)
Векторно - пространственная модель представления информации.
Слайд 25Векторно-пространственная модель-1
Алгебраическая модель представления текстовых документов (в общем случае любых объектов) в
![Векторно-пространственная модель-1 Алгебраическая модель представления текстовых документов (в общем случае любых объектов)](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/475594/slide-24.jpg)
виде вектора идентификаторов.
Каждое пространство соответствует отдельному терму. Если терм встретился в документе, то его значение в векторе не равно нулю.
Существует много методов по вычислению весов термов в векторе.
Сравнения близости векторов по косинусу угла между ними:
Слайд 26Векторно-пространственная модель-2
Пример: Пусть есть два предложения. «Мама мыла раму» и «Папа мыл
![Векторно-пространственная модель-2 Пример: Пусть есть два предложения. «Мама мыла раму» и «Папа](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/475594/slide-25.jpg)
автомобиль». Сравним предложения на «похожесть» при помощи ВПМ.
«Мама мыла раму»
«Папа мыл автомобиль»
Слайд 27Направление дальнейшей работы
Первоочередная задача – реализация векторно - пространственной модели и попытка
![Направление дальнейшей работы Первоочередная задача – реализация векторно - пространственной модели и](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/475594/slide-26.jpg)
её практического применения для обнаружения новой информации.
Анализ весов и порогов, подбор оптимальных вариантов.
Далее – анализ и реализация существующих и возможно создание новых методов и алгоритмов совершенствующих поиск (работа с различными частями речи, частотными характеристиками и т.д.)