Лексический анализ от шаблонов

Содержание

Слайд 2

Даниил Скатов

26 февраля 2010 г.

ООО «Диктум»

г. Нижний Новгород

Даниил Скатов 26 февраля 2010 г. ООО «Диктум» г. Нижний Новгород

Слайд 3

Объекты…

Даниил Скатов

26 февраля 2010 г.

ООО «Диктум»

г. Нижний Новгород

Объекты… Даниил Скатов 26 февраля 2010 г. ООО «Диктум» г. Нижний Новгород

Слайд 4

Объекты…

Даниил Скатов

ООО «Диктум»

г. Нижний Новгород

Персона

Имя

Фамилия

Отчество

"Даниил"

"Скатов"

Ø

Организация

Название

"Диктум"

Тип

"ООО"

Населенный пункт

Имя

Нижний Новгород

Тип

Город

День

Месяц

Год

26

02

2010

26 февраля 2010 г.

Дата

Объекты… Даниил Скатов ООО «Диктум» г. Нижний Новгород Персона Имя Фамилия Отчество

Слайд 5

Объекты…

Даниил Скатов

ООО «Диктум»

г. Нижний Новгород

Персона

Имя

Фамилия

Отчество

"Даниил"

"Скатов"

Ø

Организация

Название

"Диктум"

Тип

"ООО"

Населенный пункт

Имя

Нижний Новгород

Тип

Город

День

Месяц

Год

26

02

2010

26 февраля 2010 г.

Дата

Скатов Даниил

; Скатов

Объекты… Даниил Скатов ООО «Диктум» г. Нижний Новгород Персона Имя Фамилия Отчество
Д.

Даниил Сергеевич Скатов; Скатов Д.С.

Даниил Сергеевич; Скатов

Общество с огр. отв-ю «Диктум»

компания «Диктум»

; Dictum Ltd

Диктум

Н. Новгород;

НН; столица Поволжья; город Горький

Горький; НН; Нижний

г. Н. Новгород

26.02.2010

; Feb 26, 2010

Двадцать шестое февраля

Последняя пятница февраля 2010 года

Слайд 6

Объекты, факты …

Сотрудник ( ) посетил конференцию «Поисковые технологии»

компании «Диктум»

26.02.2010

г. Н. Новгород

Скатов Даниил

Объекты, факты … Сотрудник ( ) посетил конференцию «Поисковые технологии» компании «Диктум»

Слайд 7

Должность

Объекты, факты …

Сотрудник ( ) посетил конференцию «Поисковые технологии»

компании «Диктум»

26.02.2010

г. Н. Новгород

Скатов Даниил

Даты:

Должность Объекты, факты … Сотрудник ( ) посетил конференцию «Поисковые технологии» компании
20/03/06, 7 февраля 2007 г., 1991-2006 гг.
Персоны: Петров И.С., Иван Петров, Иван Сергеевич, Петров И.
Адреса Интернет и e-mail: http://www.dictum.ru
Географические адреса: Россия, г. Н.Новгород, пр-т Гагарина, 23, корп. 7
Названия организаций: Университет им. Н.И.Лобачевского, КБ «Квазар», Школа № 7
Спортивные события: Зимняя олимпиада, Кубок УЕФА, Чемпионат мира по хоккею
Числа прописью: две тысячи восемьсот единиц техники
Результаты измерений: 8 кг., не более 50 км/ч
Денежные единицы: 2 000 р., 80 454,2 USD
Порядковые числительные: 1-ый, 18-ого
Номера телефонов: (831) 278-67-57, +79200459731
Номера кредитных карт, ИНН

Факты — отношения между объектами

Факт посещения

Слайд 8

Объекты, факты и не только

Фразы-определения авторских терминов, их синонимов и связанных атрибутов:

Объекты, факты и не только Фразы-определения авторских терминов, их синонимов и связанных
«Лексический анализ — это …»
Нормализация слабоструктурированных источников данных: автоматизированное формирование и коррекция номенклатурных списков (имущества, оборудования и т.д.): «Квартира 2-х комнатная 80 кв. м. …»
Прошивка законодательства: извлечение инструкций (связанных с обновлением текстов во времени) для их последующего применения: «Часть первую статьи 41 дополнить словами "или его заместителем"»
Графематический анализ: выявление в тексте простых лексических конструкций (ФИО с инициалами, электронные адреса, имена файлов), а также предложений, абзацев, заголовков, примечаний
Выявление составных слов — напр.: для того чтобы

Слайд 9

Лексический анализ

Задача: выявить в неразмеченном ЕЯ-тексте лексические конструкции — цепочки слов входного

Лексический анализ Задача: выявить в неразмеченном ЕЯ-тексте лексические конструкции — цепочки слов
текста (возможно, разрывные), каждая из которых снабжается набором данных определенной структуры:

имя класса, которому принадлежит конструкция (Дата);
нормальная форма конструкции, которая состоит из нормализованного текстового представления (удобного для прочтения человеком) и набора именованных полей с присвоенными значениями (День = 26, Месяц = 2, Год = 2010)

Базовый механизм для выявления объектов (именованные сущности, как правило, являются непрерывными конструкциями)
Вспомогательный механизм для выявления фактов (выявление утверждений — разрывных конструкций: «Василий Петров, мечтая о научной карьере, долгое время успешно трудился в НИИ ЧАВО», м. быть установление кореференции объектов, но не логический вывод фактов)
Вспомогательный механизм для деления текста на слова (поиск составных слов типа союзов, но не полноценная символьная токенизация — японский, арабский, «первыйвторой»)

Это лексический анализ естественного языка (LANL):

Слайд 10

Лексический анализ

Лексический анализ

Слайд 11

Принцип наследования

Председатель совета директоров ОАО «Газпром нефть» А. Миллер
9 июля 2008 г.

Принцип наследования Председатель совета директоров ОАО «Газпром нефть» А. Миллер 9 июля
посетил г. Нижний Новгород с рабочим визитом

Слайд 12

Принцип наследования

Председатель совета директоров ОАО «Газпром нефть» А. Миллер
9 июля 2008 г.

Принцип наследования Председатель совета директоров ОАО «Газпром нефть» А. Миллер 9 июля
посетил г. Нижний Новгород с рабочим визитом

Geography

Date

Person

Organization

Слайд 13

Принцип наследования

Председатель совета директоров ОАО «Газпром нефть» А. Миллер
9 июля 2008 г.

Принцип наследования Председатель совета директоров ОАО «Газпром нефть» А. Миллер 9 июля
посетил г. Нижний Новгород с рабочим визитом

Geography

Date

Job

Person

Organization

Слайд 14

Принцип наследования

Председатель совета директоров ОАО «Газпром нефть» А. Миллер
9 июля 2008 г.

Принцип наследования Председатель совета директоров ОАО «Газпром нефть» А. Миллер 9 июля
посетил г. Нижний Новгород с рабочим визитом

Geography

Date

Job

Person

Organization

Attendance

Слайд 15

Регулярные выражения as is?

Председатель совета директоров ОАО «Газпром нефть» А. Миллер
9 июля

Регулярные выражения as is? Председатель совета директоров ОАО «Газпром нефть» А. Миллер
2008 г. посетил г. Нижний Новгород с рабочим визитом

Geography

Date

Job

Person

Organization

Attendance

Отсутствие механизмов повторного использования уже написанных выражений (наследования): можно лишь подставить одно выражение в другое

Слайд 16

Регулярные выражения as is?

Отсутствие механизмов повторного использования уже написанных выражений (наследования): можно

Регулярные выражения as is? Отсутствие механизмов повторного использования уже написанных выражений (наследования):
лишь подставить одно выражение в другое

26/02/2010; ds@dictum.ru; 85 кг.

Вчера заместителю управляющего делами президента Российской Федерации Павлу Бородину …

Хорошо, но…

?!

Слайд 17

Регулярные выражения as is?

Отсутствие механизмов повторного использования уже написанных выражений (наследования): можно

Регулярные выражения as is? Отсутствие механизмов повторного использования уже написанных выражений (наследования):
лишь подставить одно выражение в другое
Отсутствие специфических возможностей: проверка вхождения слов и их цепочек в заданные множества, работа с грамматическими значениями слова…

26/02/2010; ds@dictum.ru; 85 кг.

Вчера заместителю управляющего делами президента Российской Федерации Павлу Бородину …

Хорошо, но…

?!

Слайд 18

Регулярные выражения as is?

Отсутствие механизмов повторного использования уже написанных выражений (наследования): можно

Регулярные выражения as is? Отсутствие механизмов повторного использования уже написанных выражений (наследования):
лишь подставить одно выражение в другое
Отсутствие специфических возможностей: проверка вхождения слов и их цепочек в заданные множества, работа с грамматическими значениями слова…
Быстрый рост сложности выражений (для их составителя)
Нетривиальная обработка разделителей (переносы строк, пробелы) и их сочетаний
Увеличение времени анализа с ростом количества описаний: каждое описание (регулярное выражение) приходится применять к тексту отдельно

Машинное обучение? ? Об этом позже

Слайд 19

История

DSTL = Шаблоны + Наследование + Предикаты

История DSTL = Шаблоны + Наследование + Предикаты

Слайд 20

DSTL: простой пример

DSTL: простой пример

Слайд 21

Наследование

Наследование

Слайд 22

Наследование

Наследование

Слайд 23

Работа с морфологией

механика

{«механик», Сущ, Од, Муж, Род, Ед}
{«механик», Сущ, Од, Муж, Вин,

Работа с морфологией механика {«механик», Сущ, Од, Муж, Род, Ед} {«механик», Сущ,
Ед}
{«механика», Сущ, Неодуш, Жен, Им, Ед}

Слайд 24

Работа с морфологией

1. Одноместные функции: проверка существования грамматической формы с заданными характеристиками

HasGrammarForm (V, PartOfSpeech_,

Работа с морфологией 1. Одноместные функции: проверка существования грамматической формы с заданными
Noun_, Gender_, Masc_)

V

механика

{«механик», Сущ, Од, Муж, Род, Ед}
{«механик», Сущ, Од, Муж, Вин, Ед}
{«механика», Сущ, Неодуш, Жен, Им, Ед}

Слайд 25

Работа с морфологией

1. Одноместные функции: проверка существования грамматической формы с заданными характеристиками

HasGrammarForm (V, PartOfSpeech_,

Работа с морфологией 1. Одноместные функции: проверка существования грамматической формы с заданными
Noun_, Gender_, Masc_)

V

механика

{«механик», Сущ, Од, Муж, Род, Ед}
{«механик», Сущ, Од, Муж, Вин, Ед}
{«механика», Сущ, Неодуш, Жен, Им, Ед}

Слайд 26

Работа с морфологией

Александра

1. Одноместные функции: проверка существования грамматической формы с заданными характеристиками

HasGrammarForm (V, PartOfSpeech_,

Работа с морфологией Александра 1. Одноместные функции: проверка существования грамматической формы с
Noun_, Gender_, Masc_)

{«Александр», Сущ, Имя, Муж, Род, Ед}
{«Александр», Сущ, Имя, Муж, Вин, Ед}
{«Александра», Сущ, Имя, Жен, Им, Ед}

V

механика

{«механик», Сущ, Од, Муж, Род, Ед}
{«механик», Сущ, Од, Муж, Вин, Ед}
{«механика», Сущ, Неодуш, Жен, Им, Ед}

Слайд 27

Работа с морфологией

Александра

1. Одноместные функции: проверка существования грамматической формы с заданными характеристиками

HasGrammarForm (V, PartOfSpeech_,

Работа с морфологией Александра 1. Одноместные функции: проверка существования грамматической формы с
Noun_, Gender_, Masc_)

2. Двуместные функции: (1) из первого и второго слова выбираются подмножества S1 и S2 грамматических форм с заданными характеристиками, (2) проверяется, существует ли пара (v1,v2) такая, что v1∈S1, v2∈S2, и обе формы имеют требуемый набор характеристик с попарно совпадающими значениями

AreConcordant (Case_, Number_,
V, PartOfSpeech_, Noun_, Gender_, Masc_,
W, PartOfSpeech_, Noun_, Gender_, Masc_)

W

{«Александр», Сущ, Имя, Муж, Род, Ед}
{«Александр», Сущ, Имя, Муж, Вин, Ед}
{«Александра», Сущ, Имя, Жен, Им, Ед}

V

механика

{«механик», Сущ, Од, Муж, Род, Ед}
{«механик», Сущ, Од, Муж, Вин, Ед}
{«механика», Сущ, Неодуш, Жен, Им, Ед}

Слайд 28

Работа с морфологией

Александра

{«Александр», Сущ, Имя, Муж, Род, Ед}
{«Александр», Сущ, Имя, Муж, Вин,

Работа с морфологией Александра {«Александр», Сущ, Имя, Муж, Род, Ед} {«Александр», Сущ,
Ед}
{«Александра», Сущ, Имя, Жен, Им, Ед}

1. Одноместные функции: проверка существования грамматической формы с заданными характеристиками

HasGrammarForm (V, PartOfSpeech_, Noun_, Gender_, Masc_)

2. Двуместные функции: (1) из первого и второго слова выбираются подмножества S1 и S2 грамматических форм с заданными характеристиками, (2) проверяется, существует ли пара (v1,v2) такая, что v1∈S1, v2∈S2, и обе формы имеют требуемый набор характеристик с попарно совпадающими значениями

AreConcordant (Case_, Number_,
V, PartOfSpeech_, Noun_, Gender_, Masc_,
W, PartOfSpeech_, Noun_, Gender_, Masc_)

W

V

механика

{«механик», Сущ, Од, Муж, Род, Ед}
{«механик», Сущ, Од, Муж, Вин, Ед}
{«механика», Сущ, Неодуш, Жен, Им, Ед}

Слайд 29

Работа с морфологией

Александра

{«Александр», Сущ, Имя, Муж, Род, Ед}
{«Александр», Сущ, Имя, Муж, Вин,

Работа с морфологией Александра {«Александр», Сущ, Имя, Муж, Род, Ед} {«Александр», Сущ,
Ед}
{«Александра», Сущ, Имя, Жен, Им, Ед}

1. Одноместные функции: проверка существования грамматической формы с заданными характеристиками

HasGrammarForm (V, PartOfSpeech_, Noun_, Gender_, Masc_)

2. Двуместные функции: (1) из первого и второго слова выбираются подмножества S1 и S2 грамматических форм с заданными характеристиками, (2) проверяется, существует ли пара (v1,v2) такая, что v1∈S1, v2∈S2, и обе формы имеют требуемый набор характеристик с попарно совпадающими значениями

AreConcordant (Case_, Number_,
V, PartOfSpeech_, Noun_, Gender_, Masc_,
W, PartOfSpeech_, Noun_, Gender_, Masc_)

W

V

механика

{«механик», Сущ, Од, Муж, Род, Ед}
{«механик», Сущ, Од, Муж, Вин, Ед}
{«механика», Сущ, Неодуш, Жен, Им, Ед}

Слайд 30

Согласование и нормальная форма

Согласование и нормальная форма

Слайд 31

Неоднозначность и конфликты

SN {
T := SName;
C := IsCapitalized (SName)
&

Неоднозначность и конфликты SN { T := SName; C := IsCapitalized (SName)
Length (SName) >= 2;
A := { CW := 1 - (IsVoc (SName)
& !IsPOS (SName, Surname_));};
};
NP {
T := N \. P \.;
C := Length (N) = 1
& Length (P) = 1;
A := { CW := 1; };
};
Person_1 { T := [SN][NP]; A := {CW := NP.CW + SN.CW; };};
Person_2 { T := [NP][SN]; A := {CW := NP.CW + SN.CW + 0.5;};};

Пушкин А.С. Поэмы

Person_1

Person_2

CW=2

CW=1.5

В г. Сочи В.В. Путин

Person_2

CW=2.5

Person_1

CW=1.5

Слайд 32

Неоднозначность и конфликты

Неоднозначность и конфликты

Слайд 33

Сравнение языков

Сравнение языков

Слайд 34

Механизм анализа

Задача: найти все вхождения образцов из в

Механизм анализа Задача: найти все вхождения образцов из в

Слайд 35

Механизм анализа

Задача: найти все вхождения образцов из в

Механизм анализа Задача: найти все вхождения образцов из в

Слайд 36

Механизм анализа

Задача: найти все вхождения образцов из в

Механизм анализа Задача: найти все вхождения образцов из в

Слайд 37

Механизм анализа

Задача: найти все вхождения образцов из в

Механизм анализа Задача: найти все вхождения образцов из в

Слайд 38

Механизм анализа

Задача: найти все вхождения образцов из в

Механизм анализа Задача: найти все вхождения образцов из в

Слайд 39

Механизм анализа

Задача: найти все вхождения образцов из в

Механизм анализа Задача: найти все вхождения образцов из в

Слайд 40

Механизм анализа

Задача: найти все вхождения образцов из в

Механизм анализа Задача: найти все вхождения образцов из в

Слайд 41

Проблемы и решения

Правила, составляемые экспертом, дают лучший результат в сравнении с результатом

Проблемы и решения Правила, составляемые экспертом, дают лучший результат в сравнении с
применения машинного обучения (обучение с учителем, распознавание образов …)
Проблема: высокая трудоемкость работы эксперта
Машинное обучение:
Хорошо применимо для распознавания узких классов (напр., в Named Entities Recognition — имена людей — популярно у зарубежных исследователей)
Позволяет распознать текстовый фрагмент и приписать класс, но не заполнить поля или отразить структуру наследования (следствие — трудность разрешения конфликтов)
Обучение — возможно, не менее трудоемко, чем составление правил, и результат иногда недетерминирован для учителя
Неполнота обучающей выборки
Возможное решение: возьмем лучшее из обоих подходов

Слайд 42

Проблемы и решения

Механизм
анализа

Результат анализа

Обучающая выборка

Текст

Механизм
анализа

Результат анализа

Правила

Текст

Машинное обучение

Система правил

Проблемы и решения Механизм анализа Результат анализа Обучающая выборка Текст Механизм анализа

Слайд 43

Проблемы и решения

Механизм
анализа

Результат анализа

Правила

Текст

Набор атрибутов

Корпус

Механизм анализа не меняется
Эксперт формирует набор атрибутов, система выявляет в текстах

Проблемы и решения Механизм анализа Результат анализа Правила Текст Набор атрибутов Корпус
корпуса устойчивые сочетания

Слайд 44

Использование для поиска

Запрос: «февраль 2010»

Вхождения образца из
запроса в текст

Использование для поиска Запрос: «февраль 2010» Вхождения образца из запроса в текст

Слайд 45

Использование для поиска

Проблема — сравнение объектов сложнее сравнения слов:
Частичное совпадение («2 февраля

Использование для поиска Проблема — сравнение объектов сложнее сравнения слов: Частичное совпадение
2010» и «февраль 2010»)
Частичное несовпадение («февраль 2010» и «февраль 2009»)
«Семантическая» близость («3 февраля 2010» и «4 февраля 2010» ближе, чем «3 февраля 2010» и «3 февраля 2009»)
Пусть вместе с базой правил определена функция d(x,y):
d(x,y) = 0 для одинаковых объектов
d(x,y) = ∞ для объектов разных классов
Частичное совпадение «лучше» частичного несовпадения
Решение — степень схожести вместо булевского равенства:
Имя файла: Лексический-анализ-от-шаблонов.pptx
Количество просмотров: 150
Количество скачиваний: 0