Слайд 2Компьютерный анализ естественно-языкового текста
СТРУКТУРА КУРСА
Введение в дисциплину
Автоматический анализ текста на морфологическом уровне
Автоматический
![Компьютерный анализ естественно-языкового текста СТРУКТУРА КУРСА Введение в дисциплину Автоматический анализ текста](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/420373/slide-1.jpg)
анализ текста на синтаксическом уровне
Семантический компонент в системах автоматического анализа текста
Слайд 3Компьютерный анализ естественно-языкового текста
СТРУКТУРА КУРСА
Автоматический анализ текста на морфологическом уровне
Морфологический уровень
![Компьютерный анализ естественно-языкового текста СТРУКТУРА КУРСА Автоматический анализ текста на морфологическом уровне](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/420373/slide-2.jpg)
в ЛИТ
Основные понятия морфологии в компьютерной морфологии
Основные процедуры компьютерной морфологии
Компьютерная морфология русского языка
Технологии морфологического анализа
«Предсказание» (типизация)
Вопросы, смежные с синтаксисом
Слайд 4ФОРМАЛЬНО-ЛИНГВИСТИЧЕСКИЙ СМЫСЛ КОНЕЧНОГО ПРЕОБРАЗОВАТЕЛЯ
Конечный автомат – язык
Конечный преобразователь – отношение
Язык: L⊆ V*
Отношение: R⊆ Vв*
![ФОРМАЛЬНО-ЛИНГВИСТИЧЕСКИЙ СМЫСЛ КОНЕЧНОГО ПРЕОБРАЗОВАТЕЛЯ Конечный автомат – язык Конечный преобразователь – отношение](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/420373/slide-3.jpg)
x Vн*
Слайд 5ФРАГМЕНТ АНГЛИЙСКОЙ ГЛАГОЛЬНОЙ СИСТЕМЫ
sing+Inf:sing;
sing+3pSg:sings;
sing+Past:sang;
sing+PP:sung;
spring+Inf:spring;
spring+3pSg:springs;
spring+Past:sprang;
spring+PP:sprung;
![ФРАГМЕНТ АНГЛИЙСКОЙ ГЛАГОЛЬНОЙ СИСТЕМЫ sing+Inf:sing; sing+3pSg:sings; sing+Past:sang; sing+PP:sung; spring+Inf:spring; spring+3pSg:springs; spring+Past:sprang; spring+PP:sprung;](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/420373/slide-4.jpg)
Слайд 6ФРАГМЕНТ АНГЛИЙСКОЙ ГЛАГОЛЬНОЙ СИСТЕМЫ: КОНЕЧНЫЙ ПРЕОБРАЗОВАТЕЛЬ
s
Ø
p
r
i
n
g
Inf: Ø
3PSg: s
i:a
i:u
n
n
g
Past:Ø
g
PP: Ø
![ФРАГМЕНТ АНГЛИЙСКОЙ ГЛАГОЛЬНОЙ СИСТЕМЫ: КОНЕЧНЫЙ ПРЕОБРАЗОВАТЕЛЬ s Ø p r i n](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/420373/slide-5.jpg)
Слайд 7ЛЕКСИКОН В ФОРМАТЕ Xerox Tools
Multichar_Symbols +Inf +3pSg +Past +PP
LEXICON Root
sing+Inf:sing # ;
sing+3pSg:sings # ;
sing+Past:sang # ;
sing+PP:sung # ;
spring+Inf:spring #
![ЛЕКСИКОН В ФОРМАТЕ Xerox Tools Multichar_Symbols +Inf +3pSg +Past +PP LEXICON Root](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/420373/slide-6.jpg)
;
spring+3pSg:springs # ;
spring+Past:sprang # ;
spring+PP:sprung # ;
Слайд 8ЛИСТИНГ РАБОТЫ С XFST (1)
>xfst
![ЛИСТИНГ РАБОТЫ С XFST (1) >xfst](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/420373/slide-7.jpg)
Слайд 9ЛИСТИНГ РАБОТЫ С XFST (2)
>xfst
Copyright й Palo Alto Research Center 2001-2007
Xerox Finite-State
![ЛИСТИНГ РАБОТЫ С XFST (2) >xfst Copyright й Palo Alto Research Center](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/420373/slide-8.jpg)
Tool, version 2.6.2
Type "help" to list all commands available or "help help" for further help.
xfst[0]:
Слайд 10ЛИСТИНГ РАБОТЫ С XFST (3)
>xfst
Copyright й Palo Alto Research Center 2001-2007
Xerox Finite-State
![ЛИСТИНГ РАБОТЫ С XFST (3) >xfst Copyright й Palo Alto Research Center](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/420373/slide-9.jpg)
Tool, version 2.6.2
Type "help" to list all commands available or "help help" for further help.
xfst[0]: read lexc ex3c.txt
Слайд 11ЛИСТИНГ РАБОТЫ С XFST (4)
Copyright й Palo Alto Research Center 2001-2007
Xerox Finite-State
![ЛИСТИНГ РАБОТЫ С XFST (4) Copyright й Palo Alto Research Center 2001-2007](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/420373/slide-10.jpg)
Tool, version 2.6.2
Type "help" to list all commands available or "help help" for further help.
xfst[0]: read lexc ex3c.txt
Reading ISO-8859-1 text from 's-lex.txt'
Root...2
Building lexicon...Minimizing...Done!
1.5 Kb. 14 states, 19 arcs, 8 paths. Label Map: Default
Closing 's-lex.txt'
xfst[1]:
Слайд 12ЛИСТИНГ РАБОТЫ С XFST (5)
Copyright й Palo Alto Research Center 2001-2007
Xerox Finite-State
![ЛИСТИНГ РАБОТЫ С XFST (5) Copyright й Palo Alto Research Center 2001-2007](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/420373/slide-11.jpg)
Tool, version 2.6.2
Type "help" to list all commands available or "help help" for further help.
xfst[0]: read lexc ex3c.txt
Reading ISO-8859-1 text from 's-lex.txt'
Root...2
Building lexicon...Minimizing...Done!
1.5 Kb. 14 states, 19 arcs, 8 paths. Label Map: Default
Closing 's-lex.txt'
xfst[1]: print words
Слайд 13ЛИСТИНГ РАБОТЫ С XFST (6)
Closing 's-lex.txt'
xfst[1]: print words
sing+3pSg:s
sing+Inf:0
si:ang+Past:0
si:ung+PP:0
spring+3pSg:s
spring+Inf:0
spri:ang+Past:0
spri:ung+PP:0
xfst[1]:
![ЛИСТИНГ РАБОТЫ С XFST (6) Closing 's-lex.txt' xfst[1]: print words sing+3pSg:s sing+Inf:0](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/420373/slide-12.jpg)
Слайд 14ЛИСТИНГ РАБОТЫ С XFST (7)
Closing 's-lex.txt'
xfst[1]: print words
sing+3pSg:s
sing+Inf:0
si:ang+Past:0
si:ung+PP:0
spring+3pSg:s
spring+Inf:0
spri:ang+Past:0
spri:ung+PP:0
xfst[1]: print net
![ЛИСТИНГ РАБОТЫ С XFST (7) Closing 's-lex.txt' xfst[1]: print words sing+3pSg:s sing+Inf:0](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/420373/slide-13.jpg)
Слайд 15ЛИСТИНГ РАБОТЫ С XFST (8)
xfst[1]: print net
Sigma: a g i n p
![ЛИСТИНГ РАБОТЫ С XFST (8) xfst[1]: print net Sigma: a g i](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/420373/slide-14.jpg)
r s u +Inf +PP +Past +3pSg
Size: 12, Label Map: Default
Net:
Flags: deterministic, pruned, minimized, epsilon_free, loop_free
Arity: 2
s0: s -> s1.
s1: i -> s2, p -> s3, i:a -> s4, i:u -> s5.
s2: n -> s6.
s3: r -> s7.
s4: n -> s8.
Слайд 16ЛИСТИНГ РАБОТЫ С XFST (9)
s0: s -> s1.
s1: i -> s2, p
![ЛИСТИНГ РАБОТЫ С XFST (9) s0: s -> s1. s1: i ->](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/420373/slide-15.jpg)
-> s3, i:a -> s4, i:u -> s5.
s2: n -> s6.
s3: r -> s7.
s4: n -> s8.
s5: n -> s9.
s6: g -> s10.
s7: i -> s2, i:a -> s4, i:u -> s5.
s8: g -> s11.
s9: g -> s12.
s10: +Inf:0 -> fs13, +3pSg:s -> fs13.
Слайд 17ЛИСТИНГ РАБОТЫ С XFST (10)
s4: n -> s8.
s5: n -> s9.
s6: g
![ЛИСТИНГ РАБОТЫ С XFST (10) s4: n -> s8. s5: n ->](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/420373/slide-16.jpg)
-> s10.
s7: i -> s2, i:a -> s4, i:u -> s5.
s8: g -> s11.
s9: g -> s12.
s10: +Inf:0 -> fs13, +3pSg:s -> fs13.
s11: +Past:0 -> fs13.
s12: +PP:0 -> fs13.
fs13: (no arcs)
xfst[1]:
Слайд 18ФРАГМЕНТ АНГЛ. ГЛАГОЛЬНОЙ СИСТЕМЫ: КОНЕЧ. ПРЕОБРАЗОВАТЕЛЬ (версия Xerox)
s0: s -> s1.
s1: i
![ФРАГМЕНТ АНГЛ. ГЛАГОЛЬНОЙ СИСТЕМЫ: КОНЕЧ. ПРЕОБРАЗОВАТЕЛЬ (версия Xerox) s0: s -> s1.](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/420373/slide-17.jpg)
-> s2, p -> s3, i:a -> s4, i:u -> s5.
s2: n -> s6.
s3: r -> s7.
s4: n -> s8.
s5: n -> s9.
s6: g -> s10.
s7: i -> s2, i:a -> s4, i:u -> s5.
s8: g -> s11.
s9: g -> s12.
s10: +Inf:0 -> fs13, +3pSg:s -> fs13.
s11: +Past:0 -> fs13.
s12: +PP:0 -> fs13.
fs13: (no arcs)
Слайд 19ФРАГМЕНТ АНГЛ. ГЛАГОЛЬНОЙ СИСТЕМЫ: КОНЕЧ. ПРЕОБРАЗОВАТЕЛЬ (версия Xerox)
s
p
r
i
n
g
Inf: Ø
3PSg: s
i:a
i:u
n
n
g
Past:Ø
g
PP: Ø
i
i:a
i:u
![ФРАГМЕНТ АНГЛ. ГЛАГОЛЬНОЙ СИСТЕМЫ: КОНЕЧ. ПРЕОБРАЗОВАТЕЛЬ (версия Xerox) s p r i](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/420373/slide-18.jpg)
Слайд 20КОНЕЧНЫЙ ПРЕОБРАЗОВАТЕЛЬ КАК СРЕДСТВО МОРФ. АНАЛИЗА И СИНТЕЗА
xfst[1]: up spring
spring+Inf
xfst[1]: up sprang
spring+Past
xfst[1]:
![КОНЕЧНЫЙ ПРЕОБРАЗОВАТЕЛЬ КАК СРЕДСТВО МОРФ. АНАЛИЗА И СИНТЕЗА xfst[1]: up spring spring+Inf](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/420373/slide-19.jpg)
up sung
sing+PP
xfst[1]: down sing+3pSg
sings
xfst[1]:
Слайд 21ЛЕКСИКОН В ФОРМАТЕ Xerox Tools
Multichar_Symbols +Inf +3pSg +Past +PP
LEXICON Root
sing+Inf:sing # ;
sing+3pSg:sings # ;
sing+Past:sang # ;
sing+PP:sung # ;
spring+Inf:spring #
![ЛЕКСИКОН В ФОРМАТЕ Xerox Tools Multichar_Symbols +Inf +3pSg +Past +PP LEXICON Root](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/420373/slide-20.jpg)
;
spring+3pSg:springs # ;
spring+Past:sprang # ;
spring+PP:sprung # ;
Слайд 22РАСШИРЕНИЕ ЛЕКСИКОНА
LEXICON Root
sing+Inf:sing # ;
sing+3pSg:sings # ;
spring+Inf:spring # ;
spring+3pSg:springs # ;
sprint+Inf:sprint #;
sprint+3pSg:sprints #;
sprout+Inf:sprout #;
sprout+3pSg:sprouts #
spruce+Inf:spruce #;
spruce+3pSg:spruces #
spud+Inf:spud #;
![РАСШИРЕНИЕ ЛЕКСИКОНА LEXICON Root sing+Inf:sing # ; sing+3pSg:sings # ; spring+Inf:spring #](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/420373/slide-21.jpg)
Слайд 23РАСШИРЕНИЕ ЛЕКСИКОНА на ЯЗЫКЕ LEXC
LEXICON Root
sing Ending ;
spring Ending ;
sprint Ending ;
sprout Ending ;
spruce Ending ;
spud Ending ;
LEXICON
![РАСШИРЕНИЕ ЛЕКСИКОНА на ЯЗЫКЕ LEXC LEXICON Root sing Ending ; spring Ending](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/420373/slide-22.jpg)
Ending
+Inf:0 #;
+3pSg:s #;
Слайд 24РЕЗУЛЬТАТ РАСШИРЕНИЯ ЛЕКСИКОНА
xfst[1]: print words
sing+Inf:0
sing+3pSg:s
sprint+Inf:0
sprint+3pSg:s
spring+Inf:0
spring+3pSg:s
sprout+Inf:0
sprout+3pSg:s
spruce+Inf:0
spruce+3pSg:s
spud+Inf:0
spud+3pSg:s
![РЕЗУЛЬТАТ РАСШИРЕНИЯ ЛЕКСИКОНА xfst[1]: print words sing+Inf:0 sing+3pSg:s sprint+Inf:0 sprint+3pSg:s spring+Inf:0 spring+3pSg:s](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/420373/slide-23.jpg)
Слайд 25ОБЩИЕ СВЕДЕНИЯ О ЗАПИСИ ЛЕКСИКОНОВ НА ЯЗЫКЕ LEXC (1)
![ОБЩИЕ СВЕДЕНИЯ О ЗАПИСИ ЛЕКСИКОНОВ НА ЯЗЫКЕ LEXC (1)](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/420373/slide-24.jpg)
Слайд 26ОБЩИЕ СВЕДЕНИЯ О ЗАПИСИ ЛЕКСИКОНОВ НА ЯЗЫКЕ LEXC (2)
![ОБЩИЕ СВЕДЕНИЯ О ЗАПИСИ ЛЕКСИКОНОВ НА ЯЗЫКЕ LEXC (2)](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/420373/slide-25.jpg)
Слайд 27ТИПЫ СЛОВАРНЫХ СТАТЕЙ
В ЛЕКСИКОНАХ LEXC
LEXICON Root
go # ;
go:went #;
< d o:i 0:d > #
![ТИПЫ СЛОВАРНЫХ СТАТЕЙ В ЛЕКСИКОНАХ LEXC LEXICON Root go # ; go:went](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/420373/slide-26.jpg)
Слайд 28РЕГУЛЯРНЫЕ ВЫРАЖЕНИЯ
Обобщающий термин для средств записи регулярных языков и регулярных отношений
Конечный автомат
![РЕГУЛЯРНЫЕ ВЫРАЖЕНИЯ Обобщающий термин для средств записи регулярных языков и регулярных отношений](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/420373/slide-27.jpg)
соответствует регулярному языку
Конечный преобразователь соответствует регулярному отношению
Слайд 29ФОРМАЛЬНО-МАТЕМАТИЧЕСКИЙ СМЫСЛ РЕГУЛЯРНОГО ЯЗЫКА
Регулярный язык - формальный язык, специфика которого заключается в
![ФОРМАЛЬНО-МАТЕМАТИЧЕСКИЙ СМЫСЛ РЕГУЛЯРНОГО ЯЗЫКА Регулярный язык - формальный язык, специфика которого заключается](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/420373/slide-28.jpg)
способе определения:
определяется по образцу алгебраического исчисления, т.е. через исходный алфавит и набор операций, которые могут быть применены к символам этого алфавита, образуя цепочки определяемого языка.
Множество всех возможных регулярных языков над заданным алфавитом - результат всех возможных применений операций определенного класса
Слайд 30РАЗГРАНИЧЕНИЕ ПОНЯТИЙ (1)
Символ a
Цепочка “a”
Язык {“a”}
Язык {“a”}
Регулярное выражение a
Конечный автомат (задается диаграммой
![РАЗГРАНИЧЕНИЕ ПОНЯТИЙ (1) Символ a Цепочка “a” Язык {“a”} Язык {“a”} Регулярное](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/420373/slide-29.jpg)
или таблицей)
Автоматная грамматика (задается набором правил)
Слайд 31РАЗГРАНИЧЕНИЕ ПОНЯТИЙ (2)
Регулярным выражением обозначается язык
Регулярное выражение компилируется в виде конечного автомата
Язык
![РАЗГРАНИЧЕНИЕ ПОНЯТИЙ (2) Регулярным выражением обозначается язык Регулярное выражение компилируется в виде](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/420373/slide-30.jpg)
представляется в виде конечного автомата
Слайд 32ОСНОВНЫЕ ОПЕРАЦИИ РЕГУЛЯРНЫХ ЯЗЫКОВ
конкатенация (a b или {ab})
итерация (* и +)
факультативность (заключение
![ОСНОВНЫЕ ОПЕРАЦИИ РЕГУЛЯРНЫХ ЯЗЫКОВ конкатенация (a b или {ab}) итерация (* и](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/420373/slide-31.jpg)
в круглые скобки)
объединение (|)
отрицание/дополнение (~) и термовое отрицание/дополнение (\)
пересечение (&)
Слайд 33ФОРМАЛЬНО-МАТЕМАТИЧЕСКИЙ СМЫСЛ КОНЕЧНОГО ПРЕОБРАЗОВАТЕЛЯ
Конечный автомат – регулярный язык
Конечный преобразователь – регулярное отношение
Регулярное
![ФОРМАЛЬНО-МАТЕМАТИЧЕСКИЙ СМЫСЛ КОНЕЧНОГО ПРЕОБРАЗОВАТЕЛЯ Конечный автомат – регулярный язык Конечный преобразователь –](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/420373/slide-32.jpg)
отношение: Результат объединения произведений регулярных языков