Автоматическое составление обзорного реферата на основе кластеризации предложений

Содержание

Слайд 2

Автоматическое составление обзорного реферата

Одна из важнейших практических задач автоматической обработки текста
Обзорный реферат

Автоматическое составление обзорного реферата Одна из важнейших практических задач автоматической обработки текста
это совокупность предложений, позволяющих пользователю за небольшое время ознакомиться с основным содержанием тематически связанного набора документов
К обзорному реферату предъявляются требования
По содержанию
По читабельности

Слайд 3

Постановка задачи

Разработка модели кластеризации предложений с учетом информации об отношениях между словами,

Постановка задачи Разработка модели кластеризации предложений с учетом информации об отношениях между
описанной в тезаурусе РуТез
Проведение оценки качества кластеризации предложений
Создание системы автоматического составления обзорного реферата на основе метода кластеризации предложений для обеспечения:
полноты покрытия содержания набора документов
снижения повторяемости информации в реферате.

Тысячи людей в Мексике, Панаме, Колумбии с раннего утра занимали очередь в банк, чтобы как можно быстрее снять деньги со своих счетов.

Напуганные вкладчики из стран Латинской Америки выстаивают громадные очереди, чтобы снять свои вклады из банка.

Слайд 4

Исходные данные

Набор новостных статей
Статьи с единой темой
Результаты графематического анализа
Размеченные предложения
Результаты морфологического анализа
Слова,

Исходные данные Набор новостных статей Статьи с единой темой Результаты графематического анализа
приведенные к начальной форме
Выделенные концепты набора статей
Концепт – слово, определение которого найдено в тезаурусе
Связи концептов в тезаурусе
Мексика – Государство
Колумбия – страна Латинской Америки

Слайд 5

Описание метода кластеризации предложений - 1

Определение меры близости для каждой пары предложений
Векторное

Описание метода кластеризации предложений - 1 Определение меры близости для каждой пары
представление предложения
Мера близости пары предложений

Слайд 6

Описание метода кластеризации предложений - 2

Мера близости по отношениям концептов

Тысячи людей в

Описание метода кластеризации предложений - 2 Мера близости по отношениям концептов Тысячи
Мексике, Панаме, Колумбии с раннего утра занимали очередь в банк, чтобы как можно быстрее снять деньги со своих счетов.
Напуганные вкладчики из стран Латинской Америки выстаивают громадные очереди, чтобы снять свои вклады из банка.

Слайд 7

Описание метода кластеризации предложений - 3

Описание алгоритма агломеративной кластеризации
Каждое предложение – отдельный

Описание метода кластеризации предложений - 3 Описание алгоритма агломеративной кластеризации Каждое предложение
кластер,
Определение Rmax
threshold <= Rmax - объединение U и V в один кластер N, иначе остановка кластеризации
Пересчет расстояний от нового кластера до остальных кластеров
Переход на шаг 1

Слайд 8

Оценка кластеризации

Ручная кластеризация
Попарное сравнение
Вычисление F-меры

Оценка кластеризации Ручная кластеризация Попарное сравнение Вычисление F-меры

Слайд 9

Составление аннотации

Определение наиболее важных кластеров
Выбор кластеров с наибольшим количеством предложений
Определение и извлечение

Составление аннотации Определение наиболее важных кластеров Выбор кластеров с наибольшим количеством предложений
центра кластера
Определение порядка выбранных предложений

Слайд 10

Программная реализация

Используемые
инструментальные
средства:
СУБД
Microsoft Access
Язык
программирования
Microsoft Visual Basic

Программная реализация Используемые инструментальные средства: СУБД Microsoft Access Язык программирования Microsoft Visual Basic

Слайд 11

Описание эксперимента

Дано 10 наборов по 30 новостных статей в каждом
Необходимо вычислить значения

Описание эксперимента Дано 10 наборов по 30 новостных статей в каждом Необходимо
параметров наилучшей кластеризации
Составить аннотацию на основе полученных значений параметров

Слайд 12

Результаты эксперимента

Улучшение Fmeasure на 7% при точности P > 0.7
Пример составленной аннотации
Стэнфорд

Результаты эксперимента Улучшение Fmeasure на 7% при точности P > 0.7 Пример
попытался арендовать частный самолет, однако из-за того, что его счета заморозили, компания-авиаперевозчик не приняла к оплате его кредитную карту.
Властям США неизвестно место нахождения миллиардера Аллена Стэнфорда, которого обвиняют в мошенничестве в крупных размерах.
Ассоциация крикета Англии и Уэльса отказалась от спонсорских отношений со Стэнфордом до окончания расследования.
В США техасский миллиардер обвиняется в мошенничестве на сумму около 8 млрд долл. По данным Комиссии по ценным бумагам и биржам США, в течение последних 15 лет принадлежащая миллиардеру компания Stanford Financial Group реализовывала мошенническую схему продажи ценных бумаг, суливших инвесторам получение высоких доходов.
Тем временем латиноамериканские издания отмечают, что паника началась в Мексике, Панаме, Колумбии, Эквадоре, Перу и некоторые филиалы (Эквадор и Перу) были вынуждены на неопределенное время приостановить свою работу.
Имя файла: Автоматическое-составление-обзорного-реферата-на-основе-кластеризации-предложений.pptx
Количество просмотров: 195
Количество скачиваний: 0