- Главная
- Разное
- О методе автоматического реферирования, основанном на результатах рубрицирования документов
Содержание
- 2. Предлагается рассмотреть Основные цели и задачи исследования. Существующие подходы к решению задачи реферирования. Общую характеристику системы
- 3. Основные цели и задачи Основная задача: Разработать метод автоматического реферирования для работающей системы автоматического рубрицирования текстов.
- 4. Для современных методов, относящихся к направлению квазиреферирования, характерно сочетание традиционного подхода, предложенного Г. Луном, с некоторыми
- 5. Система автоматического рубрицирования текстов на разных языках (САРТ) Система "САРТ" обеспечивает выполнение следующих функций в автоматическом
- 6. Обобщенная схема алгоритма рубрицирования текстов
- 7. Принципы выделения именных словосочетаний из русских текстов 1. Слова в словосочетании располагаются контактно. 2. Словосочетание не
- 8. Алгоритм выделения именных словосочетаний из русских текстов Вычленение предложений в исходных текстах. Определение предварительных границ словосочетаний
- 9. Пример работы программы автоматического рубрицирования на русском языке Российским миротворцам преградили путь сотрудники МВД Грузии 19.10
- 10. Пример работы программы автоматического рубрицирования на английском языке Sergey Bagapsh: Abkhazia and South Ossetia will take
- 11. Исходные данные для задачи реферирования n- количество документов D- массив из n документов, D={d1, d2, d3,……..,
- 12. Алгоритм реферирования Формирование списка предложений, в которые входят слова и словосочетания, характеризующие темы. Удаление из текста
- 13. Исходный текст для реферирования В Южной Осетии может пролиться кровь из-за спорных фруктовых садов Командование Смешанных
- 14. Данные, полученные на этапе рубрицирования
- 15. Веса предложений
- 16. Реферат текста В Южной Осетии может пролиться кровь из-за спорных фруктовых садов. Командование Смешанных сил по
- 17. Методика экспертной оценки Трем экспертам были предложены 10 текстов документов и их рефераты. Эксперты отвечали на
- 18. Результаты экспертной оценки Математическое ожидание оценки текстов всеми экспертами μ =6,16 Среднеквадратическое отклонение σ = 1,85
- 19. Выводы 1. Предложенный метод составления рефератов, рассматриваемый в данной работе, может быть с успехом применим в
- 21. Скачать презентацию
Слайд 2Предлагается рассмотреть
Основные цели и задачи исследования.
Существующие подходы к решению задачи реферирования.
Предлагается рассмотреть
Основные цели и задачи исследования.
Существующие подходы к решению задачи реферирования.
Общую характеристику системы автоматического рубрицирования.
Метод автоматического реферирования, основанный на результатах рубрицирования.
Примеры реферирования документов.
Результаты экспертной оценки.
Выводы и направления дальнейших исследований.
Слайд 3Основные цели и задачи
Основная задача:
Разработать метод автоматического
реферирования для работающей системы
Основные цели и задачи
Основная задача:
Разработать метод автоматического
реферирования для работающей системы
Цели:
1. Максимально использовать результаты
обработки, полученные на этапе
рубрицирования, и составлять
реферат после определения основных тем
документа.
2. Оценить качество полученных рефератов.
Слайд 4 Для современных методов, относящихся к направлению квазиреферирования, характерно сочетание традиционного подхода,
Для современных методов, относящихся к направлению квазиреферирования, характерно сочетание традиционного подхода,
В России известны методы Белоногова Г.Г., Браславского П.И., Яцко В.А., Мальковского М.Г., Гусева В.Д., Мирошниченко Л.А., Саломатиной Н.В., Ступина В.С. и др.
За рубежом в области автоматического реферирования работают Salton G., Radev D.R., Blair-Goldensohn, Nomoto T., Matsumoto Y. , Nenkova A. , Mani I., Hahn U., Tait J. , Barzilay R. , Ando R.K. , Alonso L. и др.
Основные подходы
Слайд 5Система автоматического рубрицирования текстов на разных языках (САРТ)
Система "САРТ" обеспечивает выполнение следующих
Система автоматического рубрицирования текстов на разных языках (САРТ)
Система "САРТ" обеспечивает выполнение следующих
определение тематических рубрик документа;
определение объектов (стран, организаций);
формирование поискового образа документа;
формирование частотного словаря ключевых слов и
словосочетаний на языке обрабатываемого текста;
и в автоматизированном режиме:
составление словарей формализованных описаний
рубрик по представительным выборкам документов;
ведение словарей, необходимых для работы программы;
корректировку результатов автоматического
рубрицирования.
Слайд 6Обобщенная схема алгоритма рубрицирования текстов
Обобщенная схема алгоритма рубрицирования текстов
Слайд 7Принципы выделения именных словосочетаний из русских текстов
1. Слова в словосочетании располагаются
Принципы выделения именных словосочетаний из русских текстов
1. Слова в словосочетании располагаются
2. Словосочетание не начинается с предлогов или союзов и ими не оканчивается .
3. Границами словосочетаний являются:
знаки препинания (исключая запятую между однородными членами и точку после инициалов, цифр и сокращений и в интернет-адресах);
скобки разного рода (круглые, квадратные, косые, фигурные);
глаголы и подчинительные союзы;
существительные или прилагательные в именительном или винительном падеже без предшествующего предлога.
4. Имена и фамилии, географические названия, названия
организаций, партий и т.п. должны распознаваться в текстах с помощью специальных словарей.
Слайд 8Алгоритм выделения именных словосочетаний из русских текстов
Вычленение предложений в исходных текстах.
Алгоритм выделения именных словосочетаний из русских текстов
Вычленение предложений в исходных текстах.
Определение предварительных границ словосочетаний в пределах предложения.
Генерирование всех возможных непрерывных последовательностей слов (двухсловных, трехсловных, четырехсловных и т.д. до десятисловных) из определенных фрагментов текста.
Редактирование последовательностей слов.
Формирование поисковых образов словосочетаний (ПОС). ПОС – это последовательность словоизменительных основ слов, входящих в словосочетание, с сохранением порядка следования. ПОС необходим для отождествления словосочетаний, отличающихся только формами слов, при формировании частотного словаря.
Подсчет количества слов в словосочетании.
Сортировка списка словосочетаний в алфавитном порядке ПОС-ов и длине словосочетания, т.е. в словаре по алфавиту сначала будут идти самые длинные словосочетания, потом менее длинные и в самом конце однословные словарные единицы.
Исключение из списка словосочетаний с совпадающими ПОС-ами, кроме одного из них, которому приписывается частота встречаемости данного словосочетания.
Слайд 9Пример работы программы автоматического рубрицирования на русском языке
Российским миротворцам преградили путь
Пример работы программы автоматического рубрицирования на русском языке
Российским миротворцам преградили путь
19.10 2007 // 18:00
18 октября 2007 года в 16 часов 15 минут в районе н.п. Арцеви сотрудниками
МВД Грузии были остановлены машины миротворческих сил от РФ с группой
военных наблюдателей от трех сторон.
Грузинские полицейские блокировали дорогу на служебном автомобиле
«Toyota» гос. номер FZZ 883. После разбирательства машины МС от РФ
продолжили движение. Командование ССПМ обращает внимание, что
данный факт является прямым вмешательством в деятельность
миротворческих сил, грубейшим образом нарушает принятые сторонами
договоренности и носит явно провокационный характер.
Источник : ГКИП РЮО.
1502025 Миротворцы России в зоне конфликтов на территории
стран СНГ
1505000 Провокационные, недружественные действия по
отношению к России
01268 Грузия
01643 Россия
Слайд 10Пример работы программы автоматического рубрицирования на английском языке
Sergey Bagapsh: Abkhazia and South
Пример работы программы автоматического рубрицирования на английском языке
Sergey Bagapsh: Abkhazia and South
peacekeepers
Abkhazia will do its best seeking release of frontier guards detained by Georgian authorities and
condemned to custody, Abkhaz President Sergey Bagapsh announced at a news conference in
Sokhumi today, adding it is a priority issue for the Abkhaz leadership.
According to him, Georgia would still pursue the policy towards ousting Russian frontier guards from
Abkhazia and South Ossetia. "We shall act together with Tskhinvali," Bagapsh said.
He also mentioned that the Abkhaz side knows everything about the attackers on the camp of the
frontier guard service recruits, who were taking part in trainings in Khodjal, Tkvarcheli District. "We
know them by names; they are the same people, who were gangsters in Gali District," the president
said.
"Under our information, the detained servicemen are now in Zugdidi; six of them are hurt, one is in
hospital," Sergey Bagapsh noted.
Exacerbation of tension has been seen in the Georgian-Ossetian and Georgian-Abkhaz conflict zones.
According to Tskhinvali, Russian citizens, residents of Kabardino-Balkariya, Biosman Gizhgiyev and
Beslan Khaptsev, were detained in South Ossetia. On September 20, two frontier guards were killed
and seven were detained by Georgian law enforcers in the Georgian-Abkhaz conflict zone.
The detainees were sentenced to two months in custody.
1502025 Миротворцы России в зоне конфликтов на территории стран СНГ
1505000 Провокационные, недружественные действия по отношению к России
01268 Грузия
01269 Абхазия
01270 Южная Осетия
01643 Россия
Слайд 11Исходные данные для задачи реферирования
n- количество документов
D- массив из n документов,
Исходные данные для задачи реферирования
n- количество документов
D- массив из n документов,
Для di D формируется набор тем T ={t1, t2, t3,…. tm} и набор весов каждой темы P={p1, p2, p3 ,……… pm}.
tj T описывается множествами слов и словосочетаний и частотами их появления в тексте
W={w(1)j, w(2)j, w(3)j, … w(lj)j} и F={f(1)j, f(2)j, f(3)j,… f(lj)j}
w(lj)j – слово или словосочетание из документа di , определяющее тему tj;
f(lj)j – частота появления в документе di слова или словосочетания w(lj)j;
lj – количество слов или словосочетаний, описывающих тему tj.
Слайд 12Алгоритм реферирования
Формирование списка предложений, в которые входят слова и словосочетания, характеризующие темы.
Удаление
Алгоритм реферирования
Формирование списка предложений, в которые входят слова и словосочетания, характеризующие темы.
Удаление
Вычисление веса каждого предложения.
Удаление примечаний и некоторых оборотов.
Проверка предложений на тождественность.
Вычисление коэффициента сжатия реферата.
Удаление предложения с самым маленьким весом, если был получен реферат с коэффициентом сжатия более заданной величины.
Повторение п. 6-7 до тех пор, пока не будет получен реферат, удовлетворяющий критерию сжатия.
Слайд 13Исходный текст для реферирования
В Южной Осетии может пролиться кровь из-за спорных фруктовых
Исходный текст для реферирования
В Южной Осетии может пролиться кровь из-за спорных фруктовых
Командование Смешанных сил по поддержанию мира (ССПМ) в зоне грузино-осетинского конфликта выступает инициатором встречи представителей администрации Знаурского района Южной Осетии с населением приграничных сел Грузии, в связи с нерешенностью территориальных споров вокруг фруктовых садов, сообщил корреспонденту ИА REGNUM помощник командующего ССПМ по работе со СМИ подполковник Юрий Верещак.
14 октября группой военных наблюдателей от трех сторон совместно с представителем Миссии ОБСЕ был проведен мониторинг в районе населенного пункта Нули (территория Грузии) и населенного пункта Гвертев (Южная Осетия) по факту обострения ситуации в данном районе.
Для предотвращения возможных инцидентов в районе садов выставлен временный наблюдательный пост миротворческих сил от России с наблюдателями от трех сторон.
15 октября для разрешения проблемы была проведена встреча представителей сторон, однако они к взаимоприемлемому решению не пришли. "До настоящего времени вопрос остается открытым" - сказал Верещак.
Как сообщил глава администрации Знаурского района Южной Осетии Заур Цховребов, суть конфликтной ситуации заключается в необоснованных претензиях жителей Нули на яблоневые сады обрабатываемых осетинским населением Гвертев. Сады находятся на территории Южной Осетии и эти претензии мы не понимаем", - сказал Цховребов, добавив, что "на предложенную 17 октября командованием ССПМ и Миссией ОБСЕ повторную встречу, грузинская сторона не явилась". "Чтобы ситуация окончательно не вышла из под контроля, мы предложили провести встречу завтра. Надеемся, что представители от грузинского села все-таки на нее явятся", - сказал глава администрации.
В Южной Осетии может пролиться кровь из-за спорных фруктовых садов
Командование Смешанных сил по поддержанию мира (ССПМ) в зоне грузино-осетинского конфликта выступает инициатором встречи представителей администрации Знаурского района Южной Осетии с населением приграничных сел Грузии, в связи с нерешенностью территориальных споров вокруг фруктовых садов, сообщил корреспонденту ИА REGNUM помощник командующего ССПМ по работе со СМИ подполковник Юрий Верещак.
14 октября группой военных наблюдателей от трех сторон совместно с представителем Миссии ОБСЕ был проведен мониторинг в районе населенного пункта Нули (территория Грузии) и населенного пункта Гвертев (Южная Осетия) по факту обострения ситуации в данном районе.
Для предотвращения возможных инцидентов в районе садов выставлен временный наблюдательный пост миротворческих сил от России с наблюдателями от трех сторон.
15 октября для разрешения проблемы была проведена встреча представителей сторон, однако они к взаимоприемлемому решению не пришли. "До настоящего времени вопрос остается открытым" - сказал Верещак.
Как сообщил глава администрации Знаурского района Южной Осетии Заур Цховребов, суть конфликтной ситуации заключается в необоснованных претензиях жителей Нули на яблоневые сады обрабатываемых осетинским населением Гвертев. Сады находятся на территории Южной Осетии и эти претензии мы не понимаем", - сказал Цховребов, добавив, что "на предложенную 17 октября командованием ССПМ и Миссией ОБСЕ повторную встречу, грузинская сторона не явилась". "Чтобы ситуация окончательно не вышла из под контроля, мы предложили провести встречу завтра. Надеемся, что представители от грузинского села все-таки на нее явятся", - сказал глава администрации.
Слайд 14
Данные, полученные на этапе рубрицирования
Данные, полученные на этапе рубрицирования
Слайд 15Веса предложений
Веса предложений
Слайд 16Реферат текста
В Южной Осетии может пролиться кровь из-за спорных фруктовых садов.
Реферат текста
В Южной Осетии может пролиться кровь из-за спорных фруктовых садов.
14 октября группой военных наблюдателей от трех сторон совместно с представителем Миссии ОБСЕ был проведен мониторинг в районе населенного пункта Нули и населенного пункта Гвертев по факту обострения ситуации в данном районе.
Слайд 17Методика экспертной оценки
Трем экспертам были предложены 10 текстов документов и их
рефераты.
Методика экспертной оценки
Трем экспертам были предложены 10 текстов документов и их
рефераты.
ответ из шкалы оценки:
1. Насколько полно реферат отражает содержание документа?
(0 – не отражает, 1 – недостаточно полно, 2 – удовлетворительно).
2. Присутствует ли избыточность в реферате?
(0 – да, много, 1 – да, не слишком много, 2 – нет).
3. Удовлетворяет ли реферат представлению о связности текста?
(0 – нет, 1 –не совсем, 2 – да).
4. Оцените длину реферата
(0 – слишком длинный, 1 – очень короткий, 2 – оптимальный).
Слайд 18Результаты экспертной оценки
Математическое ожидание оценки текстов всеми экспертами μ =6,16
Среднеквадратическое отклонение
Результаты экспертной оценки
Математическое ожидание оценки текстов всеми экспертами μ =6,16
Среднеквадратическое отклонение
Слайд 19Выводы
1. Предложенный метод составления рефератов, рассматриваемый в данной работе, может быть с
Выводы
1. Предложенный метод составления рефератов, рассматриваемый в данной работе, может быть с
2. По сравнению с системами реферирования, в которых проводится полный цикл обработки документов, данный метод позволяет значительно сократить временные затраты на составление реферата.
3. Проведенная независимыми экспертами оценка качества реферирования показала, что метод, в целом, дает удовлетворительные результаты.