Синтаксически аннотированный корпус чешского языка

Содержание

Слайд 2

4-8 июня 2008 г.

Диалог 2008

Синтаксически аннотированный корпус чешского языка
Prague Dependency Treebank (PDT)
тексты

4-8 июня 2008 г. Диалог 2008 Синтаксически аннотированный корпус чешского языка Prague
на чешском языке
морфологический уровень: 2 млн. слов
поверхностно-синтаксический уровень: 1.5  млн. слов
глубинно-синтаксический уровень: 0.8 млн. слов

Слайд 3

4-8 июня 2008 г.

Диалог 2008

(Он) пошёл бы влес.

Byl by šel dolesa.

4-8 июня 2008 г. Диалог 2008 (Он) пошёл бы влес. Byl by šel dolesa.

Слайд 4

4-8 июня 2008 г.

Диалог 2008

Морфологический уровень
атрибуты:
атрибут lemma
атрибут tag – 15 позиций,

4-8 июня 2008 г. Диалог 2008 Морфологический уровень атрибуты: атрибут lemma атрибут

напр. NNIS2-----A----
и др.

(Он) шёл бы влес.

Слайд 5

4-8 июня 2008 г.

Диалог 2008

Поверхностно-синтаксический уровень
атрибуты (6):
id
ord
afun
is_member
is_parenthesis_root
m.rf

4-8 июня 2008 г. Диалог 2008 Поверхностно-синтаксический уровень атрибуты (6): id ord afun is_member is_parenthesis_root m.rf

Слайд 6

4-8 июня 2008 г.

Диалог 2008

Глубинно- синтаксический уровень

атрибуты (39)
functor (ACT, PAT, ADDR, PRED, DENOM,

4-8 июня 2008 г. Диалог 2008 Глубинно- синтаксический уровень атрибуты (39) functor
PAR, СОNJ, LOC, DIR1, DIR2, TWHEN, TTILL и др.)
t_lemma
gram/sempos, gram/verbmod

(Он) шёл бы влес.

Слайд 7

4-8 июня 2008 г.

Диалог 2008

Словарь моделей управления VALLEX

cz. rozumět = ru.

4-8 июня 2008 г. Диалог 2008 Словарь моделей управления VALLEX cz. rozumět = ru. понимать
понимать

Слайд 8

4-8 июня 2008 г.

Диалог 2008

Актуальное членение

атрибуты:
tfa (t, c, f)
deepord (глубинный порядок узлов,

4-8 июня 2008 г. Диалог 2008 Актуальное членение атрибуты: tfa (t, c,
основанный на функциональной перспективе предложения)

Knihy odnesl a noviny přinesl. - (Он) книги унес, а журналы принес.

Слайд 9

4-8 июня 2008 г.

Диалог 2008

Кореференция

грамматическая (coref_gram.rf)
кореференция возвратных и относительных местоимений

текстовая (coref_text.rf

4-8 июня 2008 г. Диалог 2008 Кореференция грамматическая (coref_gram.rf) кореференция возвратных и
)
PersPron и PossPron 3-го лица,
DemPron этот в субст.функции, эллипсис

особые случаи (coref_special – exoph, segm)

Слайд 10

4-8 июня 2008 г.

Диалог 2008

Расширенная аннотация кореференции (текстовая корефенция)

0 (повтор NP антецедента,

4-8 июня 2008 г. Диалог 2008 Расширенная аннотация кореференции (текстовая корефенция) 0
пары Pron – NP, напр. дом – (этот) дом, он – Петя и др.)
SYN (повтор – синоним антецедента, напр. предприятие - завод)
ER (повтор – гипероним антецедента, напр. Петя – этот ребенок)
NR (анафорическое отношение нереферентных NP)

Слайд 11

4-8 июня 2008 г.

Диалог 2008

Расширенная аннотация кореференции (“bridging anaphora”)

PART (отношение часть–целое, напр. дверь

4-8 июня 2008 г. Диалог 2008 Расширенная аннотация кореференции (“bridging anaphora”) PART
- ручка)
SET (отношение множество-подмножество, элемент множества, напр. мушкетёры - Атос)
FUNCT (отношение функциональной принадлежности, напр. школа - учитель)
CONTRAST (отношение семантического противопоставления, напр. взрослый - ребенок)
REST - другое

Слайд 12

4-8 июня 2008 г.

Диалог 2008

Другие проекты

Prague Arabic Dependency Treebank, http://www.ldc.upenn.edu
Prague Czech-English

4-8 июня 2008 г. Диалог 2008 Другие проекты Prague Arabic Dependency Treebank,
Dependency Treebank, http://ufal.mff.cuni.cz/pcedt

Слайд 13

4-8 июня 2008 г.

Диалог 2008

Планируется…

аннотация разговорных текстов,
детализация имеющейся аннотации,
аннотация типологически отличных языков,
аннотация

4-8 июня 2008 г. Диалог 2008 Планируется… аннотация разговорных текстов, детализация имеющейся
параллельных чешских и английских текстов
разработка нового уровня аннотации