Автоматическое составление обзорных (сводных) рефератов новостных сюжетов

Содержание

Слайд 2

Автоматизация реферирования текстовой информации
SDS (Однодокументное реферирование)
MDS (Многодокументное реферирование) – как минимум с

Автоматизация реферирования текстовой информации SDS (Однодокументное реферирование) MDS (Многодокументное реферирование) – как
2001 года
Конференции: TREC, DUC, TSC.
Практические реализации:
http://news.google.ru/
http://news.yandex.ru/
http://www.newsblaster.com/

Слайд 3

Метод Луна

[Luhn, 1958] G. Luhn. The Automatic Creation of Literature Abstracts (context).

Метод Луна [Luhn, 1958] G. Luhn. The Automatic Creation of Literature Abstracts
http://citeseer.ist.psu.edu/context/74679/0

Vs -значимость предложения;
Nimportant - число значимых слов в предложении (длина последовательности значимых слов);
Nall - полное число слов в предложении.

Слайд 4

Manifold Ranking Algorithm

Может быть использован для ранжирования любых информационных примитивов: текстов, предложений,

Manifold Ranking Algorithm Может быть использован для ранжирования любых информационных примитивов: текстов,
изображений, звуков. В этом случае любой вид информации должен быть представлен в векторном пространстве.
В задачах ранжирования результатов информационного поиска «отправной точкой» алгоритма является запрос, и ранг предложений определяется как мера их «информационной близости» запросу.
В задаче автоматического реферирования «отправной точкой» алгоритма можно считать «тему» кластера.

Слайд 5

Manifold Ranking Algorithm

Позволяет описать связную структуру текста
Для описания связной структуры текста используется

Manifold Ranking Algorithm Позволяет описать связную структуру текста Для описания связной структуры
математический аппарат векторов и матриц.

Слайд 6

Manifold Ranking Algorithm

Вычисление ранга каждого предложения (Информационная значимость)
Применение алгоритма отсечения предложений, наиболее

Manifold Ranking Algorithm Вычисление ранга каждого предложения (Информационная значимость) Применение алгоритма отсечения
похожих на те, что уже попали в обзорный реферат (Информационная новизна)

Слайд 7

Алгоритм

Задается набор структур:

x0 – предложение, которое формулирует тему кластера

Алгоритм Задается набор структур: x0 – предложение, которое формулирует тему кластера

Слайд 8

Алгоритм

Вводится отображение:

которое ставит в соответствие каждому xi некоторый ранг fi

Алгоритм Вводится отображение: которое ставит в соответствие каждому xi некоторый ранг fi

Слайд 9

Алгоритм

Задается вектор:

Согласно алгоритму y0=1, т.к. x0– тема кластера (в задачах информационного поиска

Алгоритм Задается вектор: Согласно алгоритму y0=1, т.к. x0– тема кластера (в задачах
соответствует фразе поискового запроса), и yi=0 для всех остальных предложений (1

Слайд 10

Алгоритм

Каждое предложение (объект) представляется в векторном пространстве следующим образом:

где tfk - стандартная

Алгоритм Каждое предложение (объект) представляется в векторном пространстве следующим образом: где tfk
TF_ISF мера относительной важности терма tk

Слайд 11

Алгоритм

Набор предложений представляет собой взвешенный граф с матрицей весов W. Для каждой

Алгоритм Набор предложений представляет собой взвешенный граф с матрицей весов W. Для
пары xi и xj предложений вычисляется вес их «лексической близости» при помощи стандартной евклидовы меры:

Слайд 12

«Мама мыла раму»

«Мама мыла раму»

Слайд 13

«Мама мыла раму»

«Мама мыла раму»

Слайд 14

«Мама мыла раму»

Матрица весов в этом случае будет выглядеть:

«Мама мыла раму» Матрица весов в этом случае будет выглядеть:

Слайд 15

«Мама мыла раму»

Граф связности текста:

«Мама мыла раму» Граф связности текста:

Слайд 16

Алгоритм

Матрица весов подвергается симметричной нормализации:

Алгоритм Матрица весов подвергается симметричной нормализации:

Слайд 17

Алгоритм

F вычисляется как результат итеративного процесса: :

Алгоритм F вычисляется как результат итеративного процесса: :

Слайд 18

«Мама мыла раму»

Расчет вектора F:

«Мама мыла раму» Расчет вектора F:

Слайд 19

«Мама мыла раму»

Граф связности текста:

«Мама мыла раму» Граф связности текста:

Слайд 20

Алгоритм

Можно также предположить, что связи между предложениями одного документа, а также связи

Алгоритм Можно также предположить, что связи между предложениями одного документа, а также
между предложениями различных документов набора должны быть дифференцированы. В этом случае полагается, что :

Слайд 21

Алгоритм усечения сходных предложений

Необходимо исключить из рассмотрения предложения, повторяющие по своей структуре

Алгоритм усечения сходных предложений Необходимо исключить из рассмотрения предложения, повторяющие по своей
те, что уже попали в обзорный реферат
Необходимо выполнить итоговою сортировку предложений в обзорном реферате

Слайд 22

Инициализируются два множества A и B. Все предложения помещаются в B. Для

Инициализируются два множества A и B. Все предложения помещаются в B. Для
каждого предложения B текущий ранг принимается равным fi.
Предложения множества B сортируются в соответствии с их текущим рангом в порядке убывания.

Алгоритм усечения сходных предложений

Слайд 23

Полагая, что предложение xi имеет наивысший ранг, оно перемещается из B в

Полагая, что предложение xi имеет наивысший ранг, оно перемещается из B в
A. Ранг оставшихся в B предложений рассчитывается как:

Алгоритм усечения сходных предложений

- фактор усечения сходных предложений

Слайд 24

Реализация

Web-интерфейс
PHP
Расширение php_math
MTL
AOT
Подбор параметров
http://openthesaurus.ru/manifold/

Реализация Web-интерфейс PHP Расширение php_math MTL AOT Подбор параметров http://openthesaurus.ru/manifold/

Слайд 25

On-line сервис

On-line сервис

Слайд 26

On-line сервис

On-line сервис

Слайд 27

Исходные данные

В качестве исходных данных для оценки работы алгоритма был взят набор

Исходные данные В качестве исходных данных для оценки работы алгоритма был взят
кластеров новостной тематики, любезно предоставленный НИВЦ МГУ.

Слайд 28

Пример аннотации

Для кластера «На севере Омской области выпал разноцветный снег» содержащего 8

Пример аннотации Для кластера «На севере Омской области выпал разноцветный снег» содержащего
документов (всего 61 предложение) был получен обзорный реферат из 4 предложений:
«Представители властей заявили, что если вдруг выяснится, что разноцветный снег в Сибири выпал из-за промышленных выбросов, нарушителей привлекут к уголовной ответственности. Пока специалисты только говорят, что аномальные осадки не опасны для здоровья. Кроме того, необычный снег выпал в Томской и Тюменской областях. Вчера были обнародованы первые лабораторные исследования выпавшего 31 января в Омской области желто-оранжевого снега».

Слайд 29

Оценка

На основе ручных аннотаций, любезно предоставленных НИВЦ МГУ проведена оценка качества системы

Оценка На основе ручных аннотаций, любезно предоставленных НИВЦ МГУ проведена оценка качества
реферирования при помощи меры ROUGE.

Слайд 30

Результаты оценки

Результаты оценки

Слайд 31

Сравнение с DUC

Сравнение с DUC

Слайд 32

Итоги

Алгоритм реализован в виде “on-line” Web-сервиса. Сводные рефераты могут быть получены «на

Итоги Алгоритм реализован в виде “on-line” Web-сервиса. Сводные рефераты могут быть получены
лету»
Алгоритм апробирован на русскоязычных новостных кластерах
Произведена оценка качества работы алгоритма по мере ROUGE. Выполнено сравнение результатов с DUC
Сформулирован список возможных направлений по улучшению качества аннотирования
Имя файла: Автоматическое-составление-обзорных-(сводных)-рефератов-новостных-сюжетов.pptx
Количество просмотров: 128
Количество скачиваний: 0