Слайд 2Компьютерный анализ естественно-языкового текста
СТРУКТУРА КУРСА
Введение в дисциплину
Автоматический анализ текста на морфологическом уровне
Автоматический
анализ текста на синтаксическом уровне
Семантический компонент в системах автоматического анализа текста
Слайд 3Компьютерный анализ естественно-языкового текста
СТРУКТУРА КУРСА
Автоматический анализ текста на морфологическом уровне
Морфологический уровень
в ЛИТ
Основные понятия морфологии в компьютерной морфологии
Основные процедуры компьютерной морфологии
Компьютерная морфология русского языка
Технологии морфологического анализа
«Предсказание» (типизация)
Вопросы, смежные с синтаксисом
Слайд 4ФОРМАЛЬНО-ЛИНГВИСТИЧЕСКИЙ СМЫСЛ КОНЕЧНОГО ПРЕОБРАЗОВАТЕЛЯ
Конечный автомат – язык
Конечный преобразователь – отношение
Язык: L⊆ V*
Отношение: R⊆ Vв*
x Vн*
Слайд 5ФРАГМЕНТ АНГЛИЙСКОЙ ГЛАГОЛЬНОЙ СИСТЕМЫ
sing+Inf:sing;
sing+3pSg:sings;
sing+Past:sang;
sing+PP:sung;
spring+Inf:spring;
spring+3pSg:springs;
spring+Past:sprang;
spring+PP:sprung;
Слайд 6ФРАГМЕНТ АНГЛИЙСКОЙ ГЛАГОЛЬНОЙ СИСТЕМЫ: КОНЕЧНЫЙ ПРЕОБРАЗОВАТЕЛЬ
s
Ø
p
r
i
n
g
Inf: Ø
3PSg: s
i:a
i:u
n
n
g
Past:Ø
g
PP: Ø
Слайд 7ЛЕКСИКОН В ФОРМАТЕ Xerox Tools
Multichar_Symbols +Inf +3pSg +Past +PP
LEXICON Root
sing+Inf:sing # ;
sing+3pSg:sings # ;
sing+Past:sang # ;
sing+PP:sung # ;
spring+Inf:spring #
;
spring+3pSg:springs # ;
spring+Past:sprang # ;
spring+PP:sprung # ;
Слайд 8ЛИСТИНГ РАБОТЫ С XFST (1)
>xfst
Слайд 9ЛИСТИНГ РАБОТЫ С XFST (2)
>xfst
Copyright й Palo Alto Research Center 2001-2007
Xerox Finite-State
Tool, version 2.6.2
Type "help" to list all commands available or "help help" for further help.
xfst[0]:
Слайд 10ЛИСТИНГ РАБОТЫ С XFST (3)
>xfst
Copyright й Palo Alto Research Center 2001-2007
Xerox Finite-State
Tool, version 2.6.2
Type "help" to list all commands available or "help help" for further help.
xfst[0]: read lexc ex3c.txt
Слайд 11ЛИСТИНГ РАБОТЫ С XFST (4)
Copyright й Palo Alto Research Center 2001-2007
Xerox Finite-State
Tool, version 2.6.2
Type "help" to list all commands available or "help help" for further help.
xfst[0]: read lexc ex3c.txt
Reading ISO-8859-1 text from 's-lex.txt'
Root...2
Building lexicon...Minimizing...Done!
1.5 Kb. 14 states, 19 arcs, 8 paths. Label Map: Default
Closing 's-lex.txt'
xfst[1]:
Слайд 12ЛИСТИНГ РАБОТЫ С XFST (5)
Copyright й Palo Alto Research Center 2001-2007
Xerox Finite-State
Tool, version 2.6.2
Type "help" to list all commands available or "help help" for further help.
xfst[0]: read lexc ex3c.txt
Reading ISO-8859-1 text from 's-lex.txt'
Root...2
Building lexicon...Minimizing...Done!
1.5 Kb. 14 states, 19 arcs, 8 paths. Label Map: Default
Closing 's-lex.txt'
xfst[1]: print words
Слайд 13ЛИСТИНГ РАБОТЫ С XFST (6)
Closing 's-lex.txt'
xfst[1]: print words
sing+3pSg:s
sing+Inf:0
si:ang+Past:0
si:ung+PP:0
spring+3pSg:s
spring+Inf:0
spri:ang+Past:0
spri:ung+PP:0
xfst[1]:
Слайд 14ЛИСТИНГ РАБОТЫ С XFST (7)
Closing 's-lex.txt'
xfst[1]: print words
sing+3pSg:s
sing+Inf:0
si:ang+Past:0
si:ung+PP:0
spring+3pSg:s
spring+Inf:0
spri:ang+Past:0
spri:ung+PP:0
xfst[1]: print net
Слайд 15ЛИСТИНГ РАБОТЫ С XFST (8)
xfst[1]: print net
Sigma: a g i n p
r s u +Inf +PP +Past +3pSg
Size: 12, Label Map: Default
Net:
Flags: deterministic, pruned, minimized, epsilon_free, loop_free
Arity: 2
s0: s -> s1.
s1: i -> s2, p -> s3, i:a -> s4, i:u -> s5.
s2: n -> s6.
s3: r -> s7.
s4: n -> s8.
Слайд 16ЛИСТИНГ РАБОТЫ С XFST (9)
s0: s -> s1.
s1: i -> s2, p
-> s3, i:a -> s4, i:u -> s5.
s2: n -> s6.
s3: r -> s7.
s4: n -> s8.
s5: n -> s9.
s6: g -> s10.
s7: i -> s2, i:a -> s4, i:u -> s5.
s8: g -> s11.
s9: g -> s12.
s10: +Inf:0 -> fs13, +3pSg:s -> fs13.
Слайд 17ЛИСТИНГ РАБОТЫ С XFST (10)
s4: n -> s8.
s5: n -> s9.
s6: g
-> s10.
s7: i -> s2, i:a -> s4, i:u -> s5.
s8: g -> s11.
s9: g -> s12.
s10: +Inf:0 -> fs13, +3pSg:s -> fs13.
s11: +Past:0 -> fs13.
s12: +PP:0 -> fs13.
fs13: (no arcs)
xfst[1]:
Слайд 18ФРАГМЕНТ АНГЛ. ГЛАГОЛЬНОЙ СИСТЕМЫ: КОНЕЧ. ПРЕОБРАЗОВАТЕЛЬ (версия Xerox)
s0: s -> s1.
s1: i
-> s2, p -> s3, i:a -> s4, i:u -> s5.
s2: n -> s6.
s3: r -> s7.
s4: n -> s8.
s5: n -> s9.
s6: g -> s10.
s7: i -> s2, i:a -> s4, i:u -> s5.
s8: g -> s11.
s9: g -> s12.
s10: +Inf:0 -> fs13, +3pSg:s -> fs13.
s11: +Past:0 -> fs13.
s12: +PP:0 -> fs13.
fs13: (no arcs)
Слайд 19ФРАГМЕНТ АНГЛ. ГЛАГОЛЬНОЙ СИСТЕМЫ: КОНЕЧ. ПРЕОБРАЗОВАТЕЛЬ (версия Xerox)
s
p
r
i
n
g
Inf: Ø
3PSg: s
i:a
i:u
n
n
g
Past:Ø
g
PP: Ø
i
i:a
i:u
Слайд 20КОНЕЧНЫЙ ПРЕОБРАЗОВАТЕЛЬ КАК СРЕДСТВО МОРФ. АНАЛИЗА И СИНТЕЗА
xfst[1]: up spring
spring+Inf
xfst[1]: up sprang
spring+Past
xfst[1]:
up sung
sing+PP
xfst[1]: down sing+3pSg
sings
xfst[1]:
Слайд 21ЛЕКСИКОН В ФОРМАТЕ Xerox Tools
Multichar_Symbols +Inf +3pSg +Past +PP
LEXICON Root
sing+Inf:sing # ;
sing+3pSg:sings # ;
sing+Past:sang # ;
sing+PP:sung # ;
spring+Inf:spring #
;
spring+3pSg:springs # ;
spring+Past:sprang # ;
spring+PP:sprung # ;
Слайд 22РАСШИРЕНИЕ ЛЕКСИКОНА
LEXICON Root
sing+Inf:sing # ;
sing+3pSg:sings # ;
spring+Inf:spring # ;
spring+3pSg:springs # ;
sprint+Inf:sprint #;
sprint+3pSg:sprints #;
sprout+Inf:sprout #;
sprout+3pSg:sprouts #
spruce+Inf:spruce #;
spruce+3pSg:spruces #
spud+Inf:spud #;
Слайд 23РАСШИРЕНИЕ ЛЕКСИКОНА на ЯЗЫКЕ LEXC
LEXICON Root
sing Ending ;
spring Ending ;
sprint Ending ;
sprout Ending ;
spruce Ending ;
spud Ending ;
LEXICON
Ending
+Inf:0 #;
+3pSg:s #;
Слайд 24РЕЗУЛЬТАТ РАСШИРЕНИЯ ЛЕКСИКОНА
xfst[1]: print words
sing+Inf:0
sing+3pSg:s
sprint+Inf:0
sprint+3pSg:s
spring+Inf:0
spring+3pSg:s
sprout+Inf:0
sprout+3pSg:s
spruce+Inf:0
spruce+3pSg:s
spud+Inf:0
spud+3pSg:s
Слайд 25ОБЩИЕ СВЕДЕНИЯ О ЗАПИСИ ЛЕКСИКОНОВ НА ЯЗЫКЕ LEXC (1)
Слайд 26ОБЩИЕ СВЕДЕНИЯ О ЗАПИСИ ЛЕКСИКОНОВ НА ЯЗЫКЕ LEXC (2)
Слайд 27ТИПЫ СЛОВАРНЫХ СТАТЕЙ
В ЛЕКСИКОНАХ LEXC
LEXICON Root
go # ;
go:went #;
< d o:i 0:d > #
Слайд 28РЕГУЛЯРНЫЕ ВЫРАЖЕНИЯ
Обобщающий термин для средств записи регулярных языков и регулярных отношений
Конечный автомат
соответствует регулярному языку
Конечный преобразователь соответствует регулярному отношению
Слайд 29ФОРМАЛЬНО-МАТЕМАТИЧЕСКИЙ СМЫСЛ РЕГУЛЯРНОГО ЯЗЫКА
Регулярный язык - формальный язык, специфика которого заключается в
способе определения:
определяется по образцу алгебраического исчисления, т.е. через исходный алфавит и набор операций, которые могут быть применены к символам этого алфавита, образуя цепочки определяемого языка.
Множество всех возможных регулярных языков над заданным алфавитом - результат всех возможных применений операций определенного класса
Слайд 30РАЗГРАНИЧЕНИЕ ПОНЯТИЙ (1)
Символ a
Цепочка “a”
Язык {“a”}
Язык {“a”}
Регулярное выражение a
Конечный автомат (задается диаграммой
или таблицей)
Автоматная грамматика (задается набором правил)
Слайд 31РАЗГРАНИЧЕНИЕ ПОНЯТИЙ (2)
Регулярным выражением обозначается язык
Регулярное выражение компилируется в виде конечного автомата
Язык
представляется в виде конечного автомата
Слайд 32ОСНОВНЫЕ ОПЕРАЦИИ РЕГУЛЯРНЫХ ЯЗЫКОВ
конкатенация (a b или {ab})
итерация (* и +)
факультативность (заключение
в круглые скобки)
объединение (|)
отрицание/дополнение (~) и термовое отрицание/дополнение (\)
пересечение (&)
Слайд 33ФОРМАЛЬНО-МАТЕМАТИЧЕСКИЙ СМЫСЛ КОНЕЧНОГО ПРЕОБРАЗОВАТЕЛЯ
Конечный автомат – регулярный язык
Конечный преобразователь – регулярное отношение
Регулярное
отношение: Результат объединения произведений регулярных языков