Автоматическое обновление аннотации новостного кластера

Содержание

Слайд 2

Определение новизны информации

Определение новизны информации – важная и нерешённая задача.
Проблема в общем

Определение новизны информации Определение новизны информации – важная и нерешённая задача. Проблема
виде:
поток информации и пользователь
в некоторый момент времени есть известная информация (известная пользователю)
Задача: извлечение новой информации из потока и предъявление пользователю

*

Слайд 3

Конкретная задача

Новостной кластер – набор документов по поводу некоторого события.
Аннотация – краткое

Конкретная задача Новостной кластер – набор документов по поводу некоторого события. Аннотация
описание события, составленное из предложений документов кластера.
В некоторый момент времени в кластер приходит ещё N документов.
Вопросы:
Что нового произошло?
Как должна измениться аннотация?
Как новое отобразить в аннотации?
Какие предложения аннотации должны быть заменены?

*

Слайд 4

Конференция TAC

Создана при поддержке и спонсируется Национальным Институтом Стандартов и Технологий (NIST)

Конференция TAC Создана при поддержке и спонсируется Национальным Институтом Стандартов и Технологий
и Департаментом Защиты США.
Проект был запущен в 2008 как продолжение конференции DUC.
Участники – более 30 команд со всего мира.
Назначение: поддержка исследований в области извлечения информации при помощи обеспечения инфраструктуры, необходимой для крупномасштабной оценки методов извлечения информации.

*

Слайд 5

Постановка задачи «Обновление аннотации» в TAC - 1

Данная задача впервые была поставлена

Постановка задачи «Обновление аннотации» в TAC - 1 Данная задача впервые была
в TAC в 2008 году и продолжает развиваться.
Постановка задачи: Даны два упорядоченных и связанных множества документов (по 10 документов в каждом) и запрос пользователя.
Задача: Сделать две аннотации, размером не более 100 слов, такие что:
Первая аннотация покрывает первое множество документов.
Вторая аннотация покрывает второе множество документов, при условии что пользователь уже ознакомлен с документами первого множества.

*

Слайд 6

Постановка задачи «Обновление аннотации» в TAC - 2

То есть по сути задача

Постановка задачи «Обновление аннотации» в TAC - 2 То есть по сути
делилась на две основные и формально независимые подзадачи:
Создание аннотации набора документов (Initial Summary)
Создание обновлённой аннотации (Update Summary)
Некоторые детали:
Аннотации свыше 100 символов обрезались.
Документы упорядочены по времени.
Документы релевантные запросу пользователя.
Независимая оценка аннотаций.

*

Слайд 7

Входные данные для задачи «Обновление аннотации» в TAC - 1

AQUAINT-2 collection
New York

Входные данные для задачи «Обновление аннотации» в TAC - 1 AQUAINT-2 collection
Times
Associated Press
Los Angeles Times-Washington Post News Service
Xinhua News Agency
Agence France Presse
Central News Agency (Taiwan)

2.5 Гб текста – около 900.000 документов.
Октябрь 2004 – Март 2006.
Все документы на английском языке.
Данная коллекция идеально подходит для поставленной задачи.

*

Слайд 8

Входные данные для задачи «Обновление аннотации» в TAC - 2

Специалисты NIST сделали

Входные данные для задачи «Обновление аннотации» в TAC - 2 Специалисты NIST
48 различных топиков.
Каждому топику было отобрано по 20 релевантных документов.
Документы были хронологически упорядочены и разделены на 2 множества, так что документы множества Б следовали за A хронологически.
К каждому топику был составлен запрос, ответ на который содержался в предложенных документах.
Запросы могли содержать вопросительные предложения и избыточную информацию.

*

Слайд 9

Оценка результатов задачи «Обновление аннотации» в TAC

Специалисты NIST сделали вручную по 4

Оценка результатов задачи «Обновление аннотации» в TAC Специалисты NIST сделали вручную по
«идеальных» аннотации к каждому топику.
Применялось несколько различных и независимых способов оценки результатов:
Автоматические ROUGE метрики.
Оценка содержания аннотации методом «Пирамиды».
Ручная оценка полноты, связности и читабельности.
Все системы были независимо оценены каждым из представленных способов.

*

Слайд 10

Автоматические ROUGE метрики - 1

ROUGE или Recall-Oriented Understudy for Gisting Evaluation –

Автоматические ROUGE метрики - 1 ROUGE или Recall-Oriented Understudy for Gisting Evaluation
набор метрик и комплекс программ для оценки автоматического аннотирования и машинного перевода текстов.
Основная идея – сравнение генерированного текста с “эталонным”, сделанным человеком.
Существуют различные формы метрики, сравнивающие:
n-граммы (ROUGE-N)
минимальные общие подстроки (ROUGE-L и ROUGE-W)
монограммы и биграммы (ROUGE-1 and ROUGE-2)

*

Слайд 11

Автоматические ROUGE метрики - 2

Общая формула:
Ai – оцениваемая обзорная аннотация i-того кластера.
Mij

Автоматические ROUGE метрики - 2 Общая формула: Ai – оцениваемая обзорная аннотация
– ручные аннотации i‑того кластера.
Ngram(D) – множество всех n-грамм из лемм соответствующего документа D.
Пример:
Китай и Тайвань установили авиасообщение после 60-летнего перерыва.
После почти 60-летнего перерыва открылось регулярное авиасообщение между Тайванем и материковым Китаем.
Rouge-1 = 7/12 = 0.58(3)

*

Слайд 12

Метод «Пирамиды» - 1 (Pyramid Evaluation)

Разработан в 2005 году Колумбийским университетом.
Эксперты выделяют

Метод «Пирамиды» - 1 (Pyramid Evaluation) Разработан в 2005 году Колумбийским университетом.
из «эталонных» аннотаций «информационные единицы» - Summary Content Units (SCUs).
Каждый SCU получает вес, равный количеству «эталонных» аннотаций, где она встречалась.
Оценка – суммарный вес входящих SCU.
Неоднократное вхождение SCU в автоматическую аннотацию не поощряется.

*

Слайд 13

Метод «Пирамиды» - 2 (Pyramid Evaluation)

Итоговый результат:
[Суммарный вес найденных SCU]
[ Суммарный

Метод «Пирамиды» - 2 (Pyramid Evaluation) Итоговый результат: [Суммарный вес найденных SCU]
вес всех определённых SCU для данного топика]
Пример:
SCU: Мини-субмарина попала в ловушку под водой.
мини-субмарина... была затоплена... на дне моря...
маленькая... субмарина... затоплена... на глубине 625 футов.
мини-субмарина попала в ловушку... ниже уровня моря.
маленькая... субмарина... затоплена... на дне морском...

*

Слайд 14

Ручная оценка результатов на TAC

Каждая автоматическая аннотация была прочитана несколькими экспертами NIST.

Ручная оценка результатов на TAC Каждая автоматическая аннотация была прочитана несколькими экспертами

Две оценки:
- Содержание
- Читабельность
Пятибалльная система оценка – от 1 до 5.
Результаты – заметный разрыв между автоматическими и «эталонными» аннотациями.
Данная система оценки наиболее важна для нас, так как цель автоматического реферирования – человек, а не компьютер.

*

Слайд 15

Сравнение методов оценки

ROUGE:
+ Малое участие человека, лёгкость применения
- Отсутствие оценки читабельности, результат

Сравнение методов оценки ROUGE: + Малое участие человека, лёгкость применения - Отсутствие
не всегда идеален с точки зрения человека
Метод «Пирамиды»:
+ Наиболее объективная оценка содержания аннотации
- Отсутствие оценки читабельности, большое участие человека
Ручная оценка:
+ Оценка «пользователем», лучшая оценка читабельности
- Огромное участие человека

*

Слайд 16

Результаты TAC 2008 – 1

В целом не очень высокие результаты – заметный

Результаты TAC 2008 – 1 В целом не очень высокие результаты –
разрыв между «эталонными» и автоматическими аннотациями.
Рассматриваем ручную оценку результатов.
Лучший результат по содержанию:
2.7917 - для 1-ой аннотации, 2.6042 – для второй.
Лучший результат по читабельности:
3.0000 – для 1-ой аннотации, 3.2083 – для второй.
(не учитывая «базовую» аннотацию NIST)
Худшие результаты ~ 1.2000.

*

Слайд 17

Результаты TAC 2008 – 2
Худшие результаты ~ 1.2000.
Результаты по содержанию аннотации

*

Результаты TAC 2008 – 2 Худшие результаты ~ 1.2000. Результаты по содержанию аннотации *

Слайд 18

Результаты TAC 2008 – 3
Худшие результаты ~ 1.2000.
Результаты по читабельности аннотации

*

Результаты TAC 2008 – 3 Худшие результаты ~ 1.2000. Результаты по читабельности аннотации *

Слайд 19

Анализ результатов TAC 2008

Одна из лучших – система канадского университета Монтреаль

Анализ результатов TAC 2008 Одна из лучших – система канадского университета Монтреаль
для франкоговорящих. (Universit´e de Montreal)
Стабильно высокие результаты для содержания аннотации и читабельности.
Третье участие данной команды в DUC-TAC конференциях.
Базовый алгоритм:
«Максимальная граничная значимость»
Maximal Marginal Relevance (MMR)

*

Слайд 20

Maximal Marginal Relevance (MMR) - 1

Итеративный метод.
На каждой итерации производится ранжирование

Maximal Marginal Relevance (MMR) - 1 Итеративный метод. На каждой итерации производится
предложений-кандидатов.
В итоговую аннотацию отбирается одно с самым высоким рангом.
Давно используется для запрос - ориентированного аннотирования.
Модификации алгоритма для «базовой» и «обновлённой» аннотаций.

*

Слайд 21

Maximal Marginal Relevance (MMR) - 2

Для «базовой» аннотации:
Пусть:
Q – запрос к

Maximal Marginal Relevance (MMR) - 2 Для «базовой» аннотации: Пусть: Q –
системе.
S – множество предложений кандидатов.
s – рассматриваемое предложение кандидат.
Е – множество выбранных предложений.
Тогда:

*

Слайд 22

Maximal Marginal Relevance (MMR) - 3

Для «обновлённой» аннотации:
Пусть:
Q – запрос к

Maximal Marginal Relevance (MMR) - 3 Для «обновлённой» аннотации: Пусть: Q –
системе.
s – рассматриваемое предложение кандидат.
H – рассмотренные документы (история).
f(H) –> 0 при увеличении H.
Тогда:

*

Слайд 23

Maximal Marginal Relevance (MMR) - 4

Sim1(s,Q) – стандартная косинусовая мера угла

Maximal Marginal Relevance (MMR) - 4 Sim1(s,Q) – стандартная косинусовая мера угла
между векторами:
Sim2(s,sh) – максимальная общая подстрока (Longest Common Substring):

*

Слайд 24

Постпроцессинг (Post-processing)

После отбора предложений производится улучшение связности и читаемости аннотации:
Замена аббревиатур
Приведение номеров

Постпроцессинг (Post-processing) После отбора предложений производится улучшение связности и читаемости аннотации: Замена
и дат к стандартному виду
Замена временных ссылок:
«в конце следующего года» ? «в конце 2010»
Замена двусмысленностей и дискурсивных форм:
«Но, это значит...» ? «Это значит...»
Конечная сортировка предложений

*

Слайд 25

Направление дальнейшей работы

Поиск принципиально иных подходов к созданию «обновлённой» аннотации.
Реализация существующих подходов

Направление дальнейшей работы Поиск принципиально иных подходов к созданию «обновлённой» аннотации. Реализация
с целью выявить их «слабые» места.
Модификация существующих и создание новых (комбинированных?) методов.
Поиск существующих и создание новых методов постпроцессинга (улучшение читабельности и связанности текста)
Изучение связей документов, принадлежащих одному кластеру (ссылочная структура)

*

Имя файла: Автоматическое-обновление-аннотации-новостного-кластера.pptx
Количество просмотров: 135
Количество скачиваний: 0