RCO Fact Exctractor SDK - Основные этапы обработки текста

Содержание

Слайд 2

Этапы обработки текста

Токенизация
Газеттер
Морфологический анализ
Семантический словарь
Кейп (CAPE – C Annotation Patterns Engine)
Модуль выделения

Этапы обработки текста Токенизация Газеттер Морфологический анализ Семантический словарь Кейп (CAPE –
именованных объектов, в том числе предопределённых пользователем объектов
Синтаксический анализ
Поиск фактов
Разбор таблиц

Слайд 3

Токенизация

Кодировка 1251 и 1252
Форматы html и текст
Категории токенизации:
текстовый блок
абзац
предложение
слово (токен)
Типы токенов:
знак препинания
русское

Токенизация Кодировка 1251 и 1252 Форматы html и текст Категории токенизации: текстовый
слово
латинское слово
специальная конструкция

Слайд 4

Газеттер

Осуществляет поиск слов и словосочетаний с учётом словоформ. Найденным терминам присваиваются указанные

Газеттер Осуществляет поиск слов и словосочетаний с учётом словоформ. Найденным терминам присваиваются
в словаре атрибуты. При обнаружении многословного термина, его слова «склеиваются». При пересечении цепочек слов-кандидатов на склеивание вычисляется «оптимальное» покрытие текста цепочками.

Person:Position
главный MAIN врач MSYN главврач
главврач MSYN
генеральный MAIN директор MSYN гендиректор
гендиректор MSYN

Фрагмент словаря должностей:

Слайд 5

Примеры из словарей газеттера

Можно указывать грамматические значения для неизвестных слов:
врио SYN {SpeechPartDetailed="NounAnimateM",WordBase="ВРИП", Case="Any",Number="Singular",Person="Third",Gender="Masculine"}
Можно указывать

Примеры из словарей газеттера Можно указывать грамматические значения для неизвестных слов: врио
все словоформы для неизвестных нестандартно склоняющихся слов:
Event:Event
pr-кампания SYN {SpeechPartDetailed="NounF",Case="Nominative",Number="Singular", Person="Third",Gender="Feminine"}
pr-кампании SYN {SpeechPartDetailed="NounF",Case="Generative",Number="Singular", Person="Third",Gender="Feminine"}
pr-кампании SYN {SpeechPartDetailed="NounF",Case="Dative",Number="Singular", Person="Third",Gender="Feminine"}....

Слайд 6

Морфологический анализ

Определение грамматических характеристик слова (часть речи, падеж, число, род, лицо и

Морфологический анализ Определение грамматических характеристик слова (часть речи, падеж, число, род, лицо
т.д.)
В основном словаре:
110 тыс. слов (52 тыс. существительных, 24 тыс. глаголов, 33 тыс. прилагательных, остальное – наречия, служебные, наименования, имена, фамилии, география)
743 приставки для правил точного анализа неизвестных слов
162 окончания для правил точного анализа неизвестных слов
В дополнительном словаре: 27 тыс. фамилий и 23 тыс. имён.
Неизвестные слова анализируются в приближенной морфологии по правилам на известные приставки/окончания и на основе частоты суффиксов и окончаний известных слов.

Слайд 7

Семантический словарь

Навешивает на сущности текста семантические категории и определяет принадлежность к семантическому

Семантический словарь Навешивает на сущности текста семантические категории и определяет принадлежность к
ряду.
Основные категории:
контекст места (дома, везде, далеко, здесь)
контекст времени (весной, зачастую, завтра, когда-нибудь)
предметные (деревня, надкус, покупатель)
событийные (использовать, использование, инвестировать, инвестирование, укус)
признаковые (сила, сильный, бодливость, бодучесть)
одушевлённые/неодушевлённые (дядя/дуб)
материальные/нематериальные (жаба/жадность)
естественные/искусственные (залив/замок)
имена собственные/нарицательные (Петя/мальчик)
собирательные (множество, ряд, стог)
обозначение части (вершина, край, половина)
единицы измерения (неделя, тонна, март)
Примеры семантических рядов:
КОРЫСТОЛЮБИЕ,ЗЛАТОЛЮБИЕ
КОРОЛЬ,КОРОЛЕВНА,КОРОЛЕВИЧ,КОРОЛЕВА
ЧЕРТ,ЧЕРТЯКА,ЧЕРТЯГА,ЧЕРТУШКА,ЧЕРТИХА,ЧЕРТИК,ЧЕРТЕНОК

Слайд 8

Кейп (CAPE)

Выделение в тексте сущностей с помощью специальных правил и регулярных выражений.

Кейп (CAPE) Выделение в тексте сущностей с помощью специальных правил и регулярных
Правила написаны на специальном языке, который транслируется в конечный автомат.
Примеры сущностей:
даты: 03.01.1981, с 1-го мая, вчера и сегодня, 22.02.2013г., 2012-2013гг.
денежные суммы: 1р., 5 руб., 10 рублей 20 коп., 3$
номера телефонов: 916-123-45678, 8(495)-987-65, тел. 345-35-45
адреса: г. Москва, луж Набережная, 6А; ул. Красина 24кв1
ссылки на нормативно-правовые акты: пп.7 ч.3 КОАП от 03.03.2000г.
Вход – цепочка токенов/сущностей с набором атрибутов.
Правило – ограничения на атрибуты токенов/сущностей в цепочке.
Результат – объединение цепочки в новую сущность, изменение атрибутов сущностей в цепочке.
Rule: EMail_Rule
( ({Token.Text =~ "[0-9A-z\._\-]+@[0-9A-z\._\-]+"}):value ):EAddress
--> :EAddress.Token = { Type = "Word", SemanticType = "Special:Email", Rule = "EMail_Rule" },
:EAddress.Cape = { Value = :value.Token.Text }

Слайд 9

Примеры правил CAPE
Правила могут основываться на предыдущих правилах. В данном примере используется

Примеры правил CAPE Правила могут основываться на предыдущих правилах. В данном примере
семантический тип, определяющийся правилами для выделения дат:
Rule: DateOfBirth_Rule2
( ({Token.Text =^ "дата"}|{Token.Text =^ "год"}){Token.Text =^ "рождения"}
({Token.Text == ":"}|{Token.Text == "-"})?
({Token.SemanticType == "Time:Date"}):value
):DateOfBirth
--> :DateOfBirth.Token = { Type = "Word", SemanticType = "Special:DateOfBirth", Rule = "DateOfBirth_Rule2" },
:DateOfBirth.Cape = { Value = :value.Token.Text }
Есть возможность использовать макросы и фильтры, наследовать атрибуты:
Rule: MetroStationName_Rule
( ( METRO_KEY_FULL (QUOT)? {Token.Filter =< "Metro:Name"} (QUOT)? ) ):metro
--> :metro.Token = { Type = "Word", SemanticType = "Geoplace:Metro", Text = :metro.Token.Text, Rule = "MetroStationName_Rule"},
:metro.Morph = { :morph_info.Morph }

Слайд 10

Модуль выделения именованных объектов

Выделяет имена персон, названия организаций и географические наименования

Модуль выделения именованных объектов Выделяет имена персон, названия организаций и географические наименования
по общим правилам, опираясь на морфологию и ключевые слова.
Примеры:
Иванов А. М., Петра Сергеевича Капицы, г-н Кириенко, И. Крапивин
АО «МММ», комбинат «Россельмаш», завод металлоконструкций им. Ленина
г. Москва, Владимирская и Новгородская области
Производит поиск референтных упоминаний объектов (Путин = президент РФ = глава России)
Устанавливает кореферентность (Мы пошли к Иванову. Он рассказал всё.)
«Схлопывает» упоминания одного и того же объекта в разных местах текста.
Примеры:
Никита Сергеевич Хрущов поднялся на трибуну…… В своей речи Хрущов…
Банк Уралсиб отчитался за год… Убытки банка составили…
Идентифицирует объекты, описанные в формате XML.

Слайд 11

Примеры XML-описаний объектов

Пример xml-описания для объекта «Путин», тип «персона»:
Примеры XML-описаний объектов Пример xml-описания для объекта «Путин», тип «персона»: мужской Путин
type="person">

мужской
Путин
Владимир
Владимирович


преемник Ельцина
российский президент
наш президент
президент Российской Федерации
глава России
президент РФ
глава правительства
премьер-министр
премьер


Слайд 12

Примеры XML-описаний объектов

Пример xml-описания для объекта с типом «организация»:


мужской
Примеры XML-описаний объектов Пример xml-описания для объекта с типом «организация»: мужской Акционерный
name="full name" modify="yes">Акционерный коммерческий Промышленно-торговый банк


АК Промторгбанк (ЗАО)
ЗАО "Акционерный коммерческий Промышленно-торговый банк"
ЗАО АК Промторгбанк
ЗАО "АК Промторгбанк"
Промышленно-торговый банк
Промторгбанк


Слайд 13

Синтаксический анализ

Синтаксический разбор предложения в терминах дерева зависимостей. Установление синтактико-семантических связей между

Синтаксический анализ Синтаксический разбор предложения в терминах дерева зависимостей. Установление синтактико-семантических связей
словами и их ролей (субъект, объект, предикат и т.д.).
_(НАПОМНИМ ,->_(ВЧЕРА->_VP(_NP( _Position_:ПРЕМЬЕР-МИНИСТР<-ВЛАДИМИР ПУТИН<-:_Person_ )<-_PP(НА ВСТРЕЧЕ<-_PP(С АКТИВОМ))->_VP(ПАРТИИ->ЗАЯВИЛ))))
_S'(, ЧТО<-_PP(ПОСЛЕ ИНАУГУРАЦИИ)->_PP(В КАЧЕСТВЕ ПРЕЗИДЕНТА)->_VP(СЛОЖИТ<-_NP(ПОЛНОМОЧИЯ<-_NP(ПРЕДСЕДАТЕЛЯ<-" ЕДИНОЙ РОССИИ "))))

Пример1: Напомним, вчера премьер-министр Владимир Путин на встрече с активом партии заявил, что после инаугурации в качестве президента сложит полномочия председателя «Единой России».

_VP(_NP(ОБЪЕМ<-_NP(ПРОДАЖ<-ХОЛДИНГА OZON))->
_hVP(_(ВЫРОС<-НА 78%) И _(СОСТАВИЛ<-8,8 МЛРД РУБ.)))
Пример2: Объем продаж холдинга Ozon вырос на 78% и составил 8,8 млрд руб.

Слайд 15

Поиск фактов

Производится с помощью шаблонов на основе синтаксического разбора предложения.

В графе синтаксического

Поиск фактов Производится с помощью шаблонов на основе синтаксического разбора предложения. В
разбора атрибуты.
В графе шаблона у узлов ограничения.

Ищется подграф в графе синтаксического разбора , у которого атрибуты соответствуют ограничениям шаблона

Типы вершин в шаблоне:
обязательные
необязательные
запрещающие

Имя файла: RCO-Fact-Exctractor-SDK---Основные-этапы-обработки-текста.pptx
Количество просмотров: 74
Количество скачиваний: 0