Компьютерный анализ естественно-языкового текста

Содержание

Слайд 2

Компьютерный анализ естественно-языкового текста СТРУКТУРА КУРСА

Введение в дисциплину
Автоматический анализ текста на морфологическом уровне
Автоматический

Компьютерный анализ естественно-языкового текста СТРУКТУРА КУРСА Введение в дисциплину Автоматический анализ текста
анализ текста на синтаксическом уровне
Семантический компонент в системах автоматического анализа текста

Слайд 3

Компьютерный анализ естественно-языкового текста СТРУКТУРА КУРСА

Автоматический анализ текста на морфологическом уровне
Морфологический уровень

Компьютерный анализ естественно-языкового текста СТРУКТУРА КУРСА Автоматический анализ текста на морфологическом уровне
в ЛИТ
Основные понятия морфологии в компьютерной морфологии
Основные процедуры компьютерной морфологии
Компьютерная морфология русского языка
Технологии морфологического анализа
«Предсказание» (типизация)
Вопросы, смежные с синтаксисом

Слайд 4

ФОРМАЛЬНО-ЛИНГВИСТИЧЕСКИЙ СМЫСЛ КОНЕЧНОГО ПРЕОБРАЗОВАТЕЛЯ

Конечный автомат – язык
Конечный преобразователь – отношение
Язык: L⊆ V*
Отношение: R⊆ Vв*

ФОРМАЛЬНО-ЛИНГВИСТИЧЕСКИЙ СМЫСЛ КОНЕЧНОГО ПРЕОБРАЗОВАТЕЛЯ Конечный автомат – язык Конечный преобразователь – отношение
x Vн*

Слайд 5

ФРАГМЕНТ АНГЛИЙСКОЙ ГЛАГОЛЬНОЙ СИСТЕМЫ

sing+Inf:sing;
sing+3pSg:sings;
sing+Past:sang;
sing+PP:sung;
spring+Inf:spring;
spring+3pSg:springs;
spring+Past:sprang;
spring+PP:sprung;

ФРАГМЕНТ АНГЛИЙСКОЙ ГЛАГОЛЬНОЙ СИСТЕМЫ sing+Inf:sing; sing+3pSg:sings; sing+Past:sang; sing+PP:sung; spring+Inf:spring; spring+3pSg:springs; spring+Past:sprang; spring+PP:sprung;

Слайд 6

ФРАГМЕНТ АНГЛИЙСКОЙ ГЛАГОЛЬНОЙ СИСТЕМЫ: КОНЕЧНЫЙ ПРЕОБРАЗОВАТЕЛЬ

s

Ø

p

r

i

n

g

Inf: Ø

3PSg: s

i:a

i:u

n

n

g

Past:Ø

g

PP: Ø

ФРАГМЕНТ АНГЛИЙСКОЙ ГЛАГОЛЬНОЙ СИСТЕМЫ: КОНЕЧНЫЙ ПРЕОБРАЗОВАТЕЛЬ s Ø p r i n

Слайд 7

ЛЕКСИКОН В ФОРМАТЕ Xerox Tools

Multichar_Symbols +Inf +3pSg +Past +PP
LEXICON Root
sing+Inf:sing # ;
sing+3pSg:sings # ;
sing+Past:sang # ;
sing+PP:sung # ;
spring+Inf:spring #

ЛЕКСИКОН В ФОРМАТЕ Xerox Tools Multichar_Symbols +Inf +3pSg +Past +PP LEXICON Root
;
spring+3pSg:springs # ;
spring+Past:sprang # ;
spring+PP:sprung # ;

Слайд 8

ЛИСТИНГ РАБОТЫ С XFST (1)

>xfst

ЛИСТИНГ РАБОТЫ С XFST (1) >xfst

Слайд 9

ЛИСТИНГ РАБОТЫ С XFST (2)

>xfst
Copyright й Palo Alto Research Center 2001-2007
Xerox Finite-State

ЛИСТИНГ РАБОТЫ С XFST (2) >xfst Copyright й Palo Alto Research Center
Tool, version 2.6.2
Type "help" to list all commands available or "help help" for further help.
xfst[0]:

Слайд 10

ЛИСТИНГ РАБОТЫ С XFST (3)

>xfst
Copyright й Palo Alto Research Center 2001-2007
Xerox Finite-State

ЛИСТИНГ РАБОТЫ С XFST (3) >xfst Copyright й Palo Alto Research Center
Tool, version 2.6.2
Type "help" to list all commands available or "help help" for further help.
xfst[0]: read lexc ex3c.txt

Слайд 11

ЛИСТИНГ РАБОТЫ С XFST (4)

Copyright й Palo Alto Research Center 2001-2007
Xerox Finite-State

ЛИСТИНГ РАБОТЫ С XFST (4) Copyright й Palo Alto Research Center 2001-2007
Tool, version 2.6.2
Type "help" to list all commands available or "help help" for further help.
xfst[0]: read lexc ex3c.txt
Reading ISO-8859-1 text from 's-lex.txt'
Root...2
Building lexicon...Minimizing...Done!
1.5 Kb. 14 states, 19 arcs, 8 paths. Label Map: Default
Closing 's-lex.txt'
xfst[1]:

Слайд 12

ЛИСТИНГ РАБОТЫ С XFST (5)

Copyright й Palo Alto Research Center 2001-2007
Xerox Finite-State

ЛИСТИНГ РАБОТЫ С XFST (5) Copyright й Palo Alto Research Center 2001-2007
Tool, version 2.6.2
Type "help" to list all commands available or "help help" for further help.
xfst[0]: read lexc ex3c.txt
Reading ISO-8859-1 text from 's-lex.txt'
Root...2
Building lexicon...Minimizing...Done!
1.5 Kb. 14 states, 19 arcs, 8 paths. Label Map: Default
Closing 's-lex.txt'
xfst[1]: print words

Слайд 13

ЛИСТИНГ РАБОТЫ С XFST (6)

Closing 's-lex.txt'
xfst[1]: print words
sing+3pSg:s
sing+Inf:0
si:ang+Past:0
si:ung+PP:0
spring+3pSg:s
spring+Inf:0
spri:ang+Past:0
spri:ung+PP:0
xfst[1]:

ЛИСТИНГ РАБОТЫ С XFST (6) Closing 's-lex.txt' xfst[1]: print words sing+3pSg:s sing+Inf:0

Слайд 14

ЛИСТИНГ РАБОТЫ С XFST (7)

Closing 's-lex.txt'
xfst[1]: print words
sing+3pSg:s
sing+Inf:0
si:ang+Past:0
si:ung+PP:0
spring+3pSg:s
spring+Inf:0
spri:ang+Past:0
spri:ung+PP:0
xfst[1]: print net

ЛИСТИНГ РАБОТЫ С XFST (7) Closing 's-lex.txt' xfst[1]: print words sing+3pSg:s sing+Inf:0

Слайд 15

ЛИСТИНГ РАБОТЫ С XFST (8)

xfst[1]: print net
Sigma: a g i n p

ЛИСТИНГ РАБОТЫ С XFST (8) xfst[1]: print net Sigma: a g i
r s u +Inf +PP +Past +3pSg
Size: 12, Label Map: Default
Net:
Flags: deterministic, pruned, minimized, epsilon_free, loop_free
Arity: 2
s0: s -> s1.
s1: i -> s2, p -> s3, i:a -> s4, i:u -> s5.
s2: n -> s6.
s3: r -> s7.
s4: n -> s8.

Слайд 16

ЛИСТИНГ РАБОТЫ С XFST (9)

s0: s -> s1.
s1: i -> s2, p

ЛИСТИНГ РАБОТЫ С XFST (9) s0: s -> s1. s1: i ->
-> s3, i:a -> s4, i:u -> s5.
s2: n -> s6.
s3: r -> s7.
s4: n -> s8.
s5: n -> s9.
s6: g -> s10.
s7: i -> s2, i:a -> s4, i:u -> s5.
s8: g -> s11.
s9: g -> s12.
s10: +Inf:0 -> fs13, +3pSg:s -> fs13.

Слайд 17

ЛИСТИНГ РАБОТЫ С XFST (10)

s4: n -> s8.
s5: n -> s9.
s6: g

ЛИСТИНГ РАБОТЫ С XFST (10) s4: n -> s8. s5: n ->
-> s10.
s7: i -> s2, i:a -> s4, i:u -> s5.
s8: g -> s11.
s9: g -> s12.
s10: +Inf:0 -> fs13, +3pSg:s -> fs13.
s11: +Past:0 -> fs13.
s12: +PP:0 -> fs13.
fs13: (no arcs)
xfst[1]:

Слайд 18

ФРАГМЕНТ АНГЛ. ГЛАГОЛЬНОЙ СИСТЕМЫ: КОНЕЧ. ПРЕОБРАЗОВАТЕЛЬ (версия Xerox)

s0: s -> s1.
s1: i

ФРАГМЕНТ АНГЛ. ГЛАГОЛЬНОЙ СИСТЕМЫ: КОНЕЧ. ПРЕОБРАЗОВАТЕЛЬ (версия Xerox) s0: s -> s1.
-> s2, p -> s3, i:a -> s4, i:u -> s5.
s2: n -> s6.
s3: r -> s7.
s4: n -> s8.
s5: n -> s9.
s6: g -> s10.
s7: i -> s2, i:a -> s4, i:u -> s5.
s8: g -> s11.
s9: g -> s12.
s10: +Inf:0 -> fs13, +3pSg:s -> fs13.
s11: +Past:0 -> fs13.
s12: +PP:0 -> fs13.
fs13: (no arcs)

Слайд 19

ФРАГМЕНТ АНГЛ. ГЛАГОЛЬНОЙ СИСТЕМЫ: КОНЕЧ. ПРЕОБРАЗОВАТЕЛЬ (версия Xerox)

s

p

r

i

n

g

Inf: Ø

3PSg: s

i:a

i:u

n

n

g

Past:Ø

g

PP: Ø

i

i:a

i:u

ФРАГМЕНТ АНГЛ. ГЛАГОЛЬНОЙ СИСТЕМЫ: КОНЕЧ. ПРЕОБРАЗОВАТЕЛЬ (версия Xerox) s p r i

Слайд 20

КОНЕЧНЫЙ ПРЕОБРАЗОВАТЕЛЬ КАК СРЕДСТВО МОРФ. АНАЛИЗА И СИНТЕЗА

xfst[1]: up spring
spring+Inf
xfst[1]: up sprang
spring+Past
xfst[1]:

КОНЕЧНЫЙ ПРЕОБРАЗОВАТЕЛЬ КАК СРЕДСТВО МОРФ. АНАЛИЗА И СИНТЕЗА xfst[1]: up spring spring+Inf
up sung
sing+PP
xfst[1]: down sing+3pSg
sings
xfst[1]:

Слайд 21

ЛЕКСИКОН В ФОРМАТЕ Xerox Tools

Multichar_Symbols +Inf +3pSg +Past +PP
LEXICON Root
sing+Inf:sing # ;
sing+3pSg:sings # ;
sing+Past:sang # ;
sing+PP:sung # ;
spring+Inf:spring #

ЛЕКСИКОН В ФОРМАТЕ Xerox Tools Multichar_Symbols +Inf +3pSg +Past +PP LEXICON Root
;
spring+3pSg:springs # ;
spring+Past:sprang # ;
spring+PP:sprung # ;

Слайд 22

РАСШИРЕНИЕ ЛЕКСИКОНА

LEXICON Root
sing+Inf:sing # ;
sing+3pSg:sings # ;
spring+Inf:spring # ;
spring+3pSg:springs # ;
sprint+Inf:sprint #;
sprint+3pSg:sprints #;
sprout+Inf:sprout #;
sprout+3pSg:sprouts #
spruce+Inf:spruce #;
spruce+3pSg:spruces #
spud+Inf:spud #;

РАСШИРЕНИЕ ЛЕКСИКОНА LEXICON Root sing+Inf:sing # ; sing+3pSg:sings # ; spring+Inf:spring #

Слайд 23

РАСШИРЕНИЕ ЛЕКСИКОНА на ЯЗЫКЕ LEXC

LEXICON Root
sing Ending ;
spring Ending ;
sprint Ending ;
sprout Ending ;
spruce Ending ;
spud Ending ;
LEXICON

РАСШИРЕНИЕ ЛЕКСИКОНА на ЯЗЫКЕ LEXC LEXICON Root sing Ending ; spring Ending
Ending
+Inf:0 #;
+3pSg:s #;

Слайд 24

РЕЗУЛЬТАТ РАСШИРЕНИЯ ЛЕКСИКОНА

xfst[1]: print words
sing+Inf:0
sing+3pSg:s
sprint+Inf:0
sprint+3pSg:s
spring+Inf:0
spring+3pSg:s
sprout+Inf:0
sprout+3pSg:s
spruce+Inf:0
spruce+3pSg:s
spud+Inf:0
spud+3pSg:s

РЕЗУЛЬТАТ РАСШИРЕНИЯ ЛЕКСИКОНА xfst[1]: print words sing+Inf:0 sing+3pSg:s sprint+Inf:0 sprint+3pSg:s spring+Inf:0 spring+3pSg:s

Слайд 25

ОБЩИЕ СВЕДЕНИЯ О ЗАПИСИ ЛЕКСИКОНОВ НА ЯЗЫКЕ LEXC (1)

ОБЩИЕ СВЕДЕНИЯ О ЗАПИСИ ЛЕКСИКОНОВ НА ЯЗЫКЕ LEXC (1)

Слайд 26

ОБЩИЕ СВЕДЕНИЯ О ЗАПИСИ ЛЕКСИКОНОВ НА ЯЗЫКЕ LEXC (2)

ОБЩИЕ СВЕДЕНИЯ О ЗАПИСИ ЛЕКСИКОНОВ НА ЯЗЫКЕ LEXC (2)

Слайд 27

ТИПЫ СЛОВАРНЫХ СТАТЕЙ В ЛЕКСИКОНАХ LEXC

LEXICON Root
go # ;
go:went #;
< d o:i 0:d > #

ТИПЫ СЛОВАРНЫХ СТАТЕЙ В ЛЕКСИКОНАХ LEXC LEXICON Root go # ; go:went

Слайд 28

РЕГУЛЯРНЫЕ ВЫРАЖЕНИЯ

Обобщающий термин для средств записи регулярных языков и регулярных отношений
Конечный автомат

РЕГУЛЯРНЫЕ ВЫРАЖЕНИЯ Обобщающий термин для средств записи регулярных языков и регулярных отношений
соответствует регулярному языку
Конечный преобразователь соответствует регулярному отношению

Слайд 29

ФОРМАЛЬНО-МАТЕМАТИЧЕСКИЙ СМЫСЛ РЕГУЛЯРНОГО ЯЗЫКА

Регулярный язык - формальный язык, специфика которого заключается в

ФОРМАЛЬНО-МАТЕМАТИЧЕСКИЙ СМЫСЛ РЕГУЛЯРНОГО ЯЗЫКА Регулярный язык - формальный язык, специфика которого заключается
способе определения:
определяется по образцу алгебраического исчисления, т.е. через исходный алфавит и набор операций, которые могут быть применены к символам этого алфавита, образуя цепочки определяемого языка.
Множество всех возможных регулярных языков над заданным алфавитом - результат всех возможных применений операций определенного класса

Слайд 30

РАЗГРАНИЧЕНИЕ ПОНЯТИЙ (1)

Символ a
Цепочка “a”
Язык {“a”}
Язык {“a”}
Регулярное выражение a
Конечный автомат (задается диаграммой

РАЗГРАНИЧЕНИЕ ПОНЯТИЙ (1) Символ a Цепочка “a” Язык {“a”} Язык {“a”} Регулярное
или таблицей)
Автоматная грамматика (задается набором правил)

Слайд 31

РАЗГРАНИЧЕНИЕ ПОНЯТИЙ (2)

Регулярным выражением обозначается язык
Регулярное выражение компилируется в виде конечного автомата
Язык

РАЗГРАНИЧЕНИЕ ПОНЯТИЙ (2) Регулярным выражением обозначается язык Регулярное выражение компилируется в виде
представляется в виде конечного автомата

Слайд 32

ОСНОВНЫЕ ОПЕРАЦИИ РЕГУЛЯРНЫХ ЯЗЫКОВ

конкатенация (a b или {ab})
итерация (* и +)
факультативность (заключение

ОСНОВНЫЕ ОПЕРАЦИИ РЕГУЛЯРНЫХ ЯЗЫКОВ конкатенация (a b или {ab}) итерация (* и
в круглые скобки)
объединение (|)
отрицание/дополнение (~) и термовое отрицание/дополнение (\)
пересечение (&)

Слайд 33

ФОРМАЛЬНО-МАТЕМАТИЧЕСКИЙ СМЫСЛ КОНЕЧНОГО ПРЕОБРАЗОВАТЕЛЯ

Конечный автомат – регулярный язык
Конечный преобразователь – регулярное отношение
Регулярное

ФОРМАЛЬНО-МАТЕМАТИЧЕСКИЙ СМЫСЛ КОНЕЧНОГО ПРЕОБРАЗОВАТЕЛЯ Конечный автомат – регулярный язык Конечный преобразователь –
отношение: Результат объединения произведений регулярных языков
Имя файла: Компьютерный-анализ-естественно-языкового-текста.pptx
Количество просмотров: 124
Количество скачиваний: 0