Морфологическая и синтаксическая разметка

Содержание

Слайд 2

Морфологическая разметка

Синонимы:
part-of-speech tagging (POS-tagging),
частеречная разметка.
Элементы данных морфологической разметки включают:
лемму;
признак

Морфологическая разметка Синонимы: part-of-speech tagging (POS-tagging), частеречная разметка. Элементы данных морфологической разметки
части речи;
признаки грамматических категорий.

Слайд 3

Морфологическая разметка: граммемы (на основе системы ДИАЛИНГ) (1)

Морфологическая разметка: граммемы (на основе системы ДИАЛИНГ) (1)

Слайд 4

Морфологическая разметка: граммемы (на основе системы ДИАЛИНГ) (2)

Морфологическая разметка: граммемы (на основе системы ДИАЛИНГ) (2)

Слайд 5

Пример морфологической разметки (на основе системы ДИАЛИНГ)



Звонили

Пример морфологической разметки (на основе системы ДИАЛИНГ) Звонили к вечерне . Торжественный гул колоколов …………………….. .
lemma="ЗВОНИТЬ" pos="Г" gram="мн,нс,нп,дст,прш," /> к вечерне .
Торжественный гул колоколов ……………………...


Слайд 6

Принципы разметки

Описание (обоснование) схемы разметки
Общепринятая система лингвистических понятий
Известная для пользователя схема анализа
Мотивированность

Принципы разметки Описание (обоснование) схемы разметки Общепринятая система лингвистических понятий Известная для
введения параметров
Теоретически нейтральная (традиционная) схема разметки

Слайд 7

Проблемы морфологического анализа и морфологической разметки: омонимия (1)

{\s}Я{|я=S,ед,од=им,жен|я=S,ед,од=им,муж} сидел{сидеть=V,несов=прош,ед,изъяв,муж} на{на=PART=|на=PR=}
барском{барский=A=пр,ед,муж|барский=A=пр,ед,сред} сиденье{сиденье=S,сред,неод=им,ед|сиденье=S,сред,неод=вин,ед|сиденье=S,сред,неод=пр,ед}, дышал{дышать=V,несов=прош,ед,изъяв,муж}

Проблемы морфологического анализа и морфологической разметки: омонимия (1) {\s}Я{|я=S,ед,од=им,жен|я=S,ед,од=им,муж} сидел{сидеть=V,несов=прош,ед,изъяв,муж} на{на=PART=|на=PR=} барском{барский=A=пр,ед,муж|барский=A=пр,ед,сред}
горячим{горячий=A=дат,мн|горячий=A=твор,ед,муж|горячий=A=твор,ед,сред|горячее=S,ед,сред,неод=твор|горячить=V,несов=непрош,ед,прич,кр,муж,страд|горячить=V,несов=непрош,мн,изъяв,1-л} ветром{ветер=S,муж,неод=твор,ед}, бившим{бить=V,несов=прош,дат,мн,прич|бить=V,несов=прош,твор,ед,прич,муж|бить=V,несов=прош,твор,ед,прич,сред} в{в=PR=} лицо{лицо=S,сред,неод=им,ед|лицо=S,сред,неод=вин,ед|лицо=S,сред,од=им,ед|лицо=S,сред,од=вин,ед}, ощущая{ощущать=V=непрош,деепр,несов} в{в=PR=}

Слайд 8

Проблемы морфологического анализа и морфологической разметки: омонимия (2)

то{то=CONJ=|тот=A=им,ед,сред|тот=A=вин,ед,сред|то=S,ед,сред,неод=им|то=S,ед,сред,неод=вин} же{же=PART=|же=CONJ=} время{время=S,сред,неод=им,ед|время=S,сред,неод=вин,ед} не{не=PART=} истребимую{истребимый=A=вин,ед,жен}

Проблемы морфологического анализа и морфологической разметки: омонимия (2) то{то=CONJ=|тот=A=им,ед,сред|тот=A=вин,ед,сред|то=S,ед,сред,неод=им|то=S,ед,сред,неод=вин} же{же=PART=|же=CONJ=} время{время=S,сред,неод=им,ед|время=S,сред,неод=вин,ед} не{не=PART=}
никакими{никакой=A=твор,мн} сквозняками{сквозняк=S,муж,неод=твор,мн} пыль{пыль=S,ед,жен,неод=им|пыль=S,ед,жен,неод=вин} и{и=PART=|и=INTJ=|и=CONJ=} легкий{легкий=A=им,ед,муж|легкий=A=вин,ед,муж,неод}
запах{запах=S,муж,неод=им,ед|запах=S,муж,неод=вин,ед|запах=S,муж,неод=им,ед|запах=S,муж,неод=вин,ед|запахнуть=V,сов=прош,ед,изъяв,муж} духов{духов=A=им,ед,муж|духов=A=вин,ед,муж,неод|дух=S,муж,неод=род,мн|дух=S,муж,од=род,мн|дух=S,муж,од=вин,мн|духи=S,мн,муж,неод=род} --

Слайд 9

Проблемы морфологического анализа и морфологической разметки

незнакомые слова: Махабхарата, фотосправочник, короткохоботый
экзотические формы:

Проблемы морфологического анализа и морфологической разметки незнакомые слова: Махабхарата, фотосправочник, короткохоботый экзотические
лузях (С.Соколов), вспорхливый, творческ, почил в бозе,
авторские варианты написания: итти, казалося, бодростию

Слайд 10

Сложные лексические единицы: чему приписываем тэг?

Наречия: без удержу, до отвала, с гаком
Вводные

Сложные лексические единицы: чему приписываем тэг? Наречия: без удержу, до отвала, с
слова: в сущности, между прочим
Союзы: коль скоро, лишь бы, даром что
Предлоги: в преддверии, вплоть до
Частицы: все ж таки, как бы не так
Фразеологические предикативы (?): кот наплакал; раз, два и обчелся etc.

Слайд 11

Морфологический стандарт Русского национального корпуса

Лексема, которой принадлежит словоформа (указывается «словарная запись» данной

Морфологический стандарт Русского национального корпуса Лексема, которой принадлежит словоформа (указывается «словарная запись»
лексемы и ее принадлежность к той или иной части речи.
Множество грамматических признаков данной лексемы, или словоклассифицирующие характеристики (например, род для существительного, переходность для глагола).
Множество грамматических признаков данной словоформы, или словоизменительные характеристики (например, падеж для существительного, число для глагола).
Информация о нестандартности грамматической формы, орфографических искажениях и т. п. 

Слайд 12

Морфологический стандарт русского национального корпуса: исходная лексема

Для всех словоформ, принадлежащих видовым парам,

Морфологический стандарт русского национального корпуса: исходная лексема Для всех словоформ, принадлежащих видовым
указываются исходные формы обоих видов (например, форма пришёл считается принадлежащей и лексеме ПРИЙТИ, и лексеме ПРИХОДИТЬ).
Для -ся-форм в тех случаях, когда существуют лексемы с -ся и без -ся, указываются обе исходные формы (например, форма разрушается считается принадлежащей и лексеме РАЗРУШАТЬСЯ, и лексеме РАЗРУШАТЬ).
Для прилагательных, совпадающих с причастиями (открытый), в качестве исходной дается как лексема-прилагательное (ОТКРЫТЫЙ), так и глагол (ОТКРЫТЬ).

Слайд 13

Морфологический стандарт русского национального корпуса: части речи

S — существительное (яблоня, лошадь, корпус, вечность) S-PRO —

Морфологический стандарт русского национального корпуса: части речи S — существительное (яблоня, лошадь,
местоимение-существительное (она, что) A — прилагательное (коричневый, таинственный, морской) A-PRO — местоимение-прилагательное (который, твой) NUM — числительное (четыре, десять, много) A-NUM — числительное-прилагательное (один, седьмой, восьмидесятый) PRAEDIC — предикатив (жаль, хорошо, пора) A-PRAEDIC — местоимение-предикатив (некого, нечего) V — глагол (пользоваться, обрабатывать) ADV — наречие (сгоряча, очень) ADV-PRO — местоименное наречие (где, вот) PR — предлог (под, напротив) CONJ — союз (и, чтобы) PART — частица (бы, же, пусть) INTJ — междометие (увы, батюшки) PARENTH — вводное слово (кстати, по-моему)

Слайд 14

Морфологический стандарт русского национального корпуса: грамматические категории

Падеж:
nom — именительный падеж (голова, сын, степь,

Морфологический стандарт русского национального корпуса: грамматические категории Падеж: nom — именительный падеж
сани, который) gen — родительный падеж (головы, сына, степи, саней, которого) acc — винительный падеж (голову, сына, степь, сани, который/которого) dat — дательный падеж (голове, сыну, степи, саням, которому) loc — предложный падеж ([о] голове, сыне, степи, санях, котором) ins — творительный падеж (головой, сыном, степью, санями, которым) gen2 — второй родительный падеж (чашка чаю) acc2 — второй винительный падеж (постричься в монахи; по два человека) loc2 — второй предложный падеж (в лесу, на оси) voc — звательная форма (Господи, Серёж, ребят)

Слайд 15

Морфологический стандарт русского национального корпуса: грамматические категории

Степень сравнения:
comp — сравнительная степень (глубже) comp2 — форма

Морфологический стандарт русского национального корпуса: грамматические категории Степень сравнения: comp — сравнительная
«по+сравнительная степень» (поглубже) supr — превосходная степень (глубочайший)

Слайд 16

Морфологический стандарт русского национального корпуса: грамматические категории

Залог:
act — действительный залог (разрушил, разрушивший) pass — страдательный

Морфологический стандарт русского национального корпуса: грамматические категории Залог: act — действительный залог
залог (только у причастий: разрушаемый, разрушенный) med — медиальный, или средний залог (глагольные формы на -ся: разрушился и т.п.)

Слайд 17

Морфологический стандарт русского национального корпуса: другие множественные пометы

В ряде случаев допускается множественная помета

Морфологический стандарт русского национального корпуса: другие множественные пометы В ряде случаев допускается
части речи для союзов/частиц типа словно, для -о/-е-форм типа хорошо (предикатив/наречие/прилагательное), для субстантивированных адъективов типа всё, военный (существительное/прилагательное), для форм его, её, их (притяжательное/личное местоимение); число таких случаев по мере работы над корпусом будет уменьшаться.
Ставится множественная помета в случаях, когда выбор лексемы или грамматического значения невозможен (не видел родного отца — gen/acc; манекену — anim/inan; спазмами — исходная форма СПАЗМ/СПАЗМА, и т. п.)

Слайд 18

Морфологический стандарт русского национального корпуса: дополнительные пометы

anom («Аномальная форма») — различного рода морфологические

Морфологический стандарт русского национального корпуса: дополнительные пометы anom («Аномальная форма») — различного
аномалии, возможные у устаревших или просторечных нелитературных форм (три дни, ляжь)
distort («Искаженная форма»)  — орфографическое и/или фонетическое искажение слова, передающее различные особенности произношения (дэвушка, това’ищи, про-хо-ди, низнаю), а также сокращения (не аббревиатуры) и иные особенности записи (тов., 1-й).
Кроме того, в корпусе с неснятой омонимией используется особая помета (bastard) для формы, порожденной автоматическим анализатором по аналогии: например, форма вроде Махабхарата получает несколько гипотетических разборов, в том числе от псевдолексем махабхаронок, махабхарать и т.

Слайд 19

Морфологическая разметка BNC

could've = could've doesn't = doesn't

Морфологическая разметка BNC could've = could 've doesn't = does n't dunno
dunno = dunno wanna = wanna --or-- wanna gimme = gimme

Слайд 20

Морфологическая разметка BNC

of course (adverb) according to (preposition) persona

Морфологическая разметка BNC of course (adverb) according to (preposition) persona non grata
non grata ('naturalised' compound noun) except that (conjunction)

Слайд 21

Морфологическая разметка BNC

she is playing her best tennis for six years. [CH3.1383]

Морфологическая разметка BNC she is playing her best tennis for six years.

she is just a star. [CH3.6940]
John has built a set of bookshelves. [C9X.121]
John has great courage. [CA9.1941]
We didn't see anybody. [KB2.702]
They do nice work.

Слайд 22

Морфологическая разметка BNC

We can go there.
We could go there.

Морфологическая разметка BNC We can go there. We could go there. We

We used to go there every year.
The form let's is treated as one verb:
Let's go!

Слайд 23

Морфологическая разметка BNC

Subjunctives and Imperatives. (Both take V-B tags)
She suggested that

Морфологическая разметка BNC Subjunctives and Imperatives. (Both take V-B tags) She suggested
they get married. [CBC.12107]
Please be patient. [CHJ.901]
Don't just stand there watching! [ACB.3470]

Слайд 24

Морфологическая разметка BNC

Catenative or semi-auxiliary verbs such as going to, ought to,

Морфологическая разметка BNC Catenative or semi-auxiliary verbs such as going to, ought
and used to + infinitive
we're going to get killed. [HNN.445]
you ought to let them know. [KCT.6117]

Слайд 25

Морфологическая разметка BNC

ADJECTIVE vs. ADVERB
We arrived tired, but safe [CCP.530]
Peter

Морфологическая разметка BNC ADJECTIVE vs. ADVERB We arrived tired, but safe [CCP.530]
sang out loud and clear.

Слайд 26

Морфологическая разметка BNC

ADJECTIVE vs. NOUN
a white screen, The screen is

Морфологическая разметка BNC ADJECTIVE vs. NOUN a white screen, The screen is
AJ0>white.
Red is my favourite colour.
They painted the wall a brilliant white.
two smiling children ('two children who are/were smiling') [HTT.743]
new spending plans ('new plans for spending')
his reading ability ('his ability in reading')

Слайд 27

Морфологическая разметка BNC

ADJECTIVE vs. VERB
The effect is lasting (compare a

Морфологическая разметка BNC ADJECTIVE vs. VERB The effect is lasting (compare a
AJ0>lasting effect).
The door is locked (compare the locked door.)
The man was dying. [HTM.1494 *VVG-AJ0]
BUT: the dying man. [FSH.606]
an interest earning account
a hypothesis driven approach

Слайд 28

Синтаксическая разметка

фиксация синтаксических связей
приписывание синтаксическим единицам соответствующих характеристик:
тип предложения
синтаксическая функция
член предложения

Синтаксическая разметка фиксация синтаксических связей приписывание синтаксическим единицам соответствующих характеристик: тип предложения

и т.п.

Слайд 29

Сложности синтаксической разметки: разнообразие синтаксических теорий и формализмов:

грамматика зависимостей;
грамматика непосредственно-составляющих;
грамматика структурных

Сложности синтаксической разметки: разнообразие синтаксических теорий и формализмов: грамматика зависимостей; грамматика непосредственно-составляющих;
схем;
традиционные синтаксические учения о членах предложения;
грамматика конструкций;
лексико-фукциональная грамматика (LFG) и др.

Слайд 30

Пример синтаксического разбора (грамматика зависимостей, система ЭТАП-3)

Long ago, in the city of

Пример синтаксического разбора (грамматика зависимостей, система ЭТАП-3) Long ago, in the city
Babylon, the people began to build a huge tower which seemed to reach the heavens soon.

Слайд 31

Пример синтаксического разбора

Пример синтаксического разбора

Слайд 32

Penn Tree Bank

The Penn Treebank syntactic tagset 1. ADJP Adjective phrase
2.

Penn Tree Bank The Penn Treebank syntactic tagset 1. ADJP Adjective phrase
ADVP Adverb phrase
3. NP Noun phrase
4. PP Prepositional phrase
5. S Simple declarative clause
6. SBAR Clause introduced by subordinating conjunction or 0 (see below)
7. SBARQ Direct question introduced by wh-word or wh-phrase
8. SINV Declarative sentence with subject-aux inversion 9. SQ Subconstituent of SBARQ excluding wh-word or wh-phrase
10. VP Verb phrase
11. WHADVP Wh-adverb phrase
12. WHNP Wh-noun phrase
13. WHPP Wh-prepositional phrase
14. X Constituent of unknown or uncertain category

Слайд 33

Penn Tree Bank

Null elements
1. * ``Understood'' subject of infinitive or imperative

Penn Tree Bank Null elements 1. * ``Understood'' subject of infinitive or

2. 0 Zero variant of that in subordinate clauses
3. T Trace---marks position where moved wh-constituent is interpreted
4. NIL Marks position where preposition is interpreted in pied-piping contexts

Слайд 34

Penn Tree Bank

Functional tags
CLF – true clefts
NOM – non NPs that function

Penn Tree Bank Functional tags CLF – true clefts NOM – non
as NPs
ADV – clausal and NP adverbials
LGS – logical subjects in passive constructions
PRD – non-VP predicates
SBJ – logical subjects
TPC – topicalized and fronted constituents

Слайд 35

Дерево зависимостей: Connexor

Дерево зависимостей: Connexor

Слайд 36

Дерево зависимостей: Connexor

Дерево зависимостей: Connexor

Слайд 37

Семантическая разметка

Аргентина идет русским путем ...
Игорь Трунов тут же пояснил, что

Семантическая разметка Аргентина идет русским путем ... Игорь Трунов тут же пояснил,
речь идет об одном миллионе долларов. ...
Неужели Соколов не понимает, что речь идет о чем-то неизмеримо большем, чем о …
Кредитование реального сектора идет ни шатко ни валко. ...
Как подтвердил "Известиям" Эдуард Кузьмин, все идет по плану ...
Россия -- страна, которая идет к открытому обществу и не боится …
…что, во-первых, о моей режиссуре и речи не идет, и, во-вторых, как актер я …
Судьба ведет человека, но человек идет потому, что хочет, и он волен не хотеть…
И вот уже ребенок идет от лужи, идет с чужим дядей, ...
... звенело в ушах и все казалось, эшелон идет, идет.. ...
… он, убитый, все жал на акселератор, и танк идет. ... ...
Впрочем, речь идет не обо мне...

Слайд 38

Таксономическая разметка НКРЯ

Ничего{ничто=М-С,ср,ед=рд} общего{общий=П=ср,ед,рд, Class="соц_отн-я" | Class="охват" ]} с{с=ПРЕД} европейскими{европейский=П=мн,тв} акварелями{акварель=С,жр,но=мн,тв Class="в-во"

Таксономическая разметка НКРЯ Ничего{ничто=М-С,ср,ед=рд} общего{общий=П=ср,ед,рд, Class="соц_отн-я" | Class="охват" ]} с{с=ПРЕД} европейскими{европейский=П=мн,тв} акварелями{акварель=С,жр,но=мн,тв
| Class="изображение"]} Наматжиры{Наматжира*=С,фам,мр,од=ед,рд} и{и=СОЮЗ} его{его=М-П} последователей{последователь=С,мр,од=мн,вн Class="человек"]}. (Даниил Гранин. Месяц вверх ногами)

Слайд 39

Таксономическая разметка НКРЯ

кузов
класс = емкость
мереологический класс = часть
мереологический коррелят = транспортное средство
семантическая

Таксономическая разметка НКРЯ кузов класс = емкость мереологический класс = часть мереологический
одушевленность = неодушевленное
интриганка
класс = лицо
пол = женский
оценка = отрицательная
семантическая одушевленность = одушевленное
деривационный класс = nomina feminina

Слайд 40

Таксономическая разметка, GNOME

This table’s
gen="neut" gf="subj" lftype="term"
onto="concrete" ani="inanimate"
deix="deix-no" count="undersp-count"
generic="generic-no">

Таксономическая разметка, GNOME This table’s gen="neut" gf="subj" lftype="term" onto="concrete" ani="inanimate" deix="deix-no" count="undersp-count"
id="ne3" cat="this-np" per="per3" num="sing"
gen="neut" gf="gen" lftype="term"
onto="concrete" ani="inanimate"
deix="deix-yes" count="count-yes"
structure="atom"
generic="generic-no">

Слайд 41

Таксономическая разметка, GNOME

(allow)
gen="neut" gf="obj" lftype="term" onto="person"
ani="animate" deix="deix-no" count="count-yes"
structure="set"

Таксономическая разметка, GNOME (allow) gen="neut" gf="obj" lftype="term" onto="person" ani="animate" deix="deix-no" count="count-yes" structure="set"
generic="generic-yes">
scholars
(to link)
gen="neut" gf="obj" lftype="term" onto="concrete"
ani="inanimate" deix="deix-yes" count="count-yes"
structure="atom" generic="generic-no"> it

Слайд 42

Семантическая разметка: онтологии

And 00000000 the 00000000
soldiers 23241000 platted 21072000
a 00000000 crown 21110400
of 00000000 thorns 13010000
and 00000000 put 21072000
it 00000000 on 00000000
his 00000000 head 21030000
and 00000000 they 00000000
put 21072000 on 00000000
him 00000000 a 00000000
purple 31241100 robe 21110321

Семантическая разметка: онтологии And 00000000 the 00000000 soldiers 23241000 platted 21072000 a

Слайд 43

Семантическая разметка: онтологии

00000000 Low content word (and, the, a, of, on, his, they

Семантическая разметка: онтологии 00000000 Low content word (and, the, a, of, on,
etc)
13010000 Plant life in general
21030000 Body and body parts
21072000 Object-oriented physical activity (e.g. put)
21110321 Men's clothing: outer clothing
21110400 Headgear
23231000 War and conflict: general
31241100 Colour

Слайд 44

Семантическая разметка Penn Tree Bank

Vandenberg and Rayburn were wise enough *TRACE* to

Семантическая разметка Penn Tree Bank Vandenberg and Rayburn were wise enough *TRACE*
leave specific operations to presidents.
base=leave2; tense=infinitival;
arg2=presidents;
arg1=specific operations;
arg0=*TRACE* -> Vandenberg and Rayburn;

Слайд 45

Семантическая разметка Penn Tree Bank

HIT (sense: strike)
Arg0: hitter
Arg1: thing hit
Arg2: instrument, hit

Семантическая разметка Penn Tree Bank HIT (sense: strike) Arg0: hitter Arg1: thing
with
HAIL (sense: pellets of ice from the sky)
Labels allow to capture transitivity alternations:
John (Arg0) broke the window
(Arg1) and The window (Arg1) broke.

Слайд 46

Семантическая разметка Penn Tree Bank

EDGE (sense: move slightly)
Arg0: causer of motion3
Arg1: thing

Семантическая разметка Penn Tree Bank EDGE (sense: move slightly) Arg0: causer of
in motion
Arg2: distance moved
Arg3: start point
Arg4: end point
Arg5: direction
The publishing unit reported revenue edged up 2.6% to $263.2
million from $256.6 million.

Слайд 47

Семантическая разметка Penn Tree Bank

BUY
Arg0: buyer
Arg1: thing bought
Arg2: seller, bought-from
Arg3: price paid
Arg4:

Семантическая разметка Penn Tree Bank BUY Arg0: buyer Arg1: thing bought Arg2:
benefactive, bought-for

Слайд 48

Семантическая разметка Penn Tree Bank

PURCHASE BUY SELL
Arg0: buyer Arg0: buyer Arg0: seller
Arg1:

Семантическая разметка Penn Tree Bank PURCHASE BUY SELL Arg0: buyer Arg0: buyer
thing bought Arg1: thing bought Arg1: thing sold
Arg2: seller Arg2: seller Arg2: buyer
Arg3: price paid Arg3: price paid Arg3: price paid
Arg4: benefactive Arg4: benefactive Arg4: benefactive

Слайд 49

Семантическая разметка Penn Tree Bank

The company bought a wheel-loader from Dresser.
Arg0: The

Семантическая разметка Penn Tree Bank The company bought a wheel-loader from Dresser.
company
rel: bought
Arg1: a wheel-loader
Arg2-from: Dresser
TV stations bought "Cosby" reruns for record prices.
Arg0: TV stations
rel: bought
Arg1: "Cosby" reruns
Arg3-for: record prices.

Слайд 50

Семантическая разметка Penn Tree Bank

LOC: location NEG: negation marker
TMP: time MOD: modal

Семантическая разметка Penn Tree Bank LOC: location NEG: negation marker TMP: time
verb
MNR: manner EXT: extent, numerical role
DIR: direction PRP: purpose
CAU: cause ADV: general- purpose modifier
Имя файла: Морфологическая-и-синтаксическая-разметка.pptx
Количество просмотров: 136
Количество скачиваний: 1