Построение правил для автоматического извлечения словосочетаний из текста

Содержание

Слайд 2

Основная цель

При построении терминологических словарей важную роль играют многословные термины. Они составляют

Основная цель При построении терминологических словарей важную роль играют многословные термины. Они
80% всех терминов предметной области.
Разработка алгоритмов извлечения из текста синтаксически связанных словосочетаний.

Слайд 3

Постановка задачи

Разработать формальное представление словосочетаний текста в виде последовательности слов, а также

Постановка задачи Разработать формальное представление словосочетаний текста в виде последовательности слов, а
дерева зависимостей между словами.
Разработать представление правил, предназначенных для автоматического извлечения словосочетаний из текста.
Разработать словарь словосочетаний, поддерживающий эффективное извлечение словосочетаний из текста и обеспечивающий удобный доступ к его элементам.
Разработать алгоритмы автоматического извлечения словосочетаний из текста по заданным правилам.
Разработать пользовательский интерфейс, позволяющий лингвисту управлять процессом извлечения словосочетаний.

Слайд 4

Структура словосочетания

Словосочетание – Phrase состоит из 4 элементов:
Phrase =

Структура словосочетания Словосочетание – Phrase состоит из 4 элементов: Phrase = Parts
, root, title >
Parts – Упорядоченная последовательность слов в словосочетании, где каждому ее элементу соответствует слово словосочетания в нормальной форме.
Пример 1: для словосочетания Государственный фонд занятости населения РФ

Слайд 5

Структура словосочетания

Phrase =
Relations – Набор

Структура словосочетания Phrase = Relations – Набор пар: позиции главного и подчиненного
пар: позиции главного и подчиненного слова, и набор морфологический признаков, по которым согласовываются подчиненное слово с главным
Пример 2: для словосочетания Институт Ядерной Физики:
Каждый из элементов Relations будет выглядеть так:
<2 (физика),1 (институт), (род, число, падеж)>
<3 (ядерный),2 (физика), (падеж - родительный)>

Слайд 6

Структура словосочетания

Pattern =
root - позиция корневого

Структура словосочетания Pattern = root - позиция корневого слова в словосочетании, то
слова в словосочетании, то есть, является корневым, главным опорным словом.
title - наименование словосочетания.

Слайд 7

Таблица согласований

Зачастую согласования между некоторыми частями различных правил или словосочетаний совпадают.

Таблица согласований Зачастую согласования между некоторыми частями различных правил или словосочетаний совпадают.
Например очень часто встречаются такие согласования как (род, число падеж) или (падеж – родительный, число единственное). Поэтому целесообразно ввести единую таблицу согласований для всей системы.

с

яркий (0)

свет (1)

Таблица согласований

1. род, число, падеж
2. Число – ед, падеж – рд
3. Число – мн, падеж – тв
4. ……………
5. ……………
……

1->0
Согл. №1

Корень (1)

Яркий свет

Словосочетание: ЯРКИЙ СВЕТ

Слайд 8

Согласование

Морфологическое согласование - набор параметров для согласования главного слова с подчиненным словом

Согласование Морфологическое согласование - набор параметров для согласования главного слова с подчиненным
(падеж, род, число и пр.). Т.е. параметры, по которым необходимо осуществить согласование опорного слова данной части с зависимым словом при склонении словосочетания.
Пример 4: Новосибирский Государственный Университет.
Новосибирскому Государственному Университету
Морфологическое управление - набор морфологических признаков и их значений, определяющих форму слову, например: «падеж=родительный», «род=мужской», «число=единственное».
Пример 5: Институт гидродинамики.
Институту гидродинамики

Слайд 9

Особенности построения связей между элементами словосочетания

1. Первая связь (пара) строится от

Особенности построения связей между элементами словосочетания 1. Первая связь (пара) строится от
корневого слова.
Пример 6:
2. В одной паре подчиненное и главное слово не может совпадать.
Пример 7:
3. Для подчиненного слова существует только одно главное.
Пример 8:

Слайд 10

Структура правил

Правило – Pattern состоит из 4 элементов, по аналогии
с тем как

Структура правил Правило – Pattern состоит из 4 элементов, по аналогии с
строится Phrase, за исключением поля Parts:
Pattern =
Parts – Упорядоченная последовательность наборов морфологических классов.
Пример 1: для правила [Сущ] + [Прил] + [Сущ] (Центральный Банк России):

Прил (Кач.)

Сущ(мж.р неод.)

Сущ(ж.р неод.)

ед-ч, падеж - род

род, число, падеж

Слайд 11

Алгоритм извлечения словосочетаний из текста

0 шаг: (1 обход текста) Составляется словарь терминов.
1

Алгоритм извлечения словосочетаний из текста 0 шаг: (1 обход текста) Составляется словарь
шаг: (2 обход текста) Для каждого слова текста ищем все правила,
с таким же морфологическим классом корневого элемента. Запоминаем
позиции данных правил и сами правила, составляем из них список гипотез.

Примерно под таким девизом в 1977 году начиналась наша лаборатория в Институте естественных наук Бурятского филиала СО АН СССР. Лаборатория создавалась для исследований по технологии вольфрама и молибдена; по академической программе — для претворения в практику физико-химического анализа и результатов

Институт – Сущ
Правило:
Сущ+Прил+Сущ

Сущ+Прил+Сущ
Позиция: 12

Гипотеза 2

Гипотеза 3

Слайд 12

2 шаг: (3 обход текста) Для каждой гипотезы в соответствии с текущей

2 шаг: (3 обход текста) Для каждой гипотезы в соответствии с текущей

позицией в тексте проверяем соответствие морфологического класса
элемента правила и слова в тексте. Если соответствие отсутствует –
удаляем гипотезу из списка.
3 шаг: Для каждой гипотезы проверяем согласование
заданное в правилах. Если согласование не выполнено –
удаляем гипотезу из списка.
4 шаг: На основе оставшихся гипотез формируем новое словосочетание

Примерно под таким девизом в 1977 году начиналась наша лаборатория в Институте естественных наук Бурятского филиала СО АН СССР. Лаборатория создавалась для исследований по технологии

Сущ+Прил+Сущ
Позиция: 12

Гипотеза 2

Гипотеза 3

Институт естественных наук

Сущ+Прил+Сущ

=

?

Слайд 13

Извлечение словосочетаний

ТАБЛИЦА
СОГЛАСОВАНИЙ

ТАБЛИЦА
ПРАВИЛ

СЛОВАРЬ
СЛОВОСОЧЕТАНИЙ

ЯДРО
ПОИСКА

ОБРАБАТЫВАЕМЫЙ
ТЕКСТ

СЛОВАРЬ
ТЕРМИНОВ

Извлечение словосочетаний ТАБЛИЦА СОГЛАСОВАНИЙ ТАБЛИЦА ПРАВИЛ СЛОВАРЬ СЛОВОСОЧЕТАНИЙ ЯДРО ПОИСКА ОБРАБАТЫВАЕМЫЙ ТЕКСТ СЛОВАРЬ ТЕРМИНОВ

Слайд 14

Словарь словосочетаний

Таблица правил

Словарь словосочетаний Таблица правил

Слайд 15

Редактор словосочетаний

Редактор словосочетаний

Слайд 16

Редактор правил

Редактор правил

Слайд 17

Согласование морфологических признаков.

Согласование морфологических признаков.

Слайд 18

Результаты обработки текстов
Было обработано 3 текста из разных предметных областей. Таблица правил

Результаты обработки текстов Было обработано 3 текста из разных предметных областей. Таблица
содержала 5 основных правил

Слайд 19

Результаты обработки текстов

Результаты обработки текстов
Имя файла: Построение-правил-для-автоматического-извлечения-словосочетаний-из-текста.pptx
Количество просмотров: 198
Количество скачиваний: 0