АВТОМАТИЗАЦИЯ ПОСТРОЕНИЯ АНГЛО-РУССКОГО WORDNET

Содержание

Слайд 2

Организация WordNet

WordNet – лексико-семантическая база данных, включающая:
основную лексику языка (существительные,

Организация WordNet WordNet – лексико-семантическая база данных, включающая: основную лексику языка (существительные,
глаголы, прилагательные и наречия - более 100 тыс. словарных статей), организованную в виде синсетов.
Synset (синсет) – основная структура, представляющая словарную статью в WordNet. Синсет представляет множество лексем с одинаковым значением.
таксономию отношений между синсетами (например, гипонимия, меронимия) и между лексемами (например, антонимия).
определение семантических классов – TopOntology

Слайд 3

Princeton WordNet 2.0.

Princeton WordNet 2.0.

Слайд 4

Почему WordNet ?

Наиболее полно отражает лексику английского и др. языков. Число входов (синсетов/слов)

Почему WordNet ? Наиболее полно отражает лексику английского и др. языков. Число
> 180 000.
Постоянное развитие PWN – версия 2.1.
”Параллельный” перевод на >17 языков. (EuroWordNet, Balkanet, Корейский и др.)
Встроенные морфологические анализаторы, “привязанные” к
национальным языкам.
5. PWN как межъязыковой индекс.
6. Разработка онтологий на базе WordNet. SUMO mappings to WordNet 2.0.
7. Разрабатывается RDF/OWL форматы WN для Semantic Web.

Слайд 5

Проекты WordNet

Английский
Датский
Испанский
Итальянский
Немецкий
Французский
Чешский
Эстонский

Греческий
Болгарский
Турецкий
Румынский
Сербский
Индийский
Китайский
Японский

GWA – Global WordNet Association (2001 г.)

Проекты WordNet Английский Датский Испанский Итальянский Немецкий Французский Чешский Эстонский Греческий Болгарский

Слайд 6

Межъязыковой индекс ILI – Inter-lingual-index

Межъязыковой индекс ILI – Inter-lingual-index

Слайд 7

WordNet русского языка

Проект филологического факультета, кафедра компьютерной лингвистики СПбГУ
http://www.phil.pu.ru/depts/12/RN/bibliography_ru.shtml
http://www.kiberry.ru:8085/index.jsp
Проект

WordNet русского языка Проект филологического факультета, кафедра компьютерной лингвистики СПбГУ http://www.phil.pu.ru/depts/12/RN/bibliography_ru.shtml http://www.kiberry.ru:8085/index.jsp
“УИС Россия”
http://www.cir.ru/
3. Проект “Russian WordNet”

Слайд 8

Проект “Russian WordNet”

164 099 лемм
и их парадигмы, более 3,5 млн.

Проект “Russian WordNet” 164 099 лемм и их парадигмы, более 3,5 млн.
словоформ
202 866 синсетов (значений)

Слайд 9

Основные этапы «Russian WordNet»

Основные этапы «Russian WordNet»

Слайд 10

Особенности перевода WordNet

В общем случае отображение L1->L2 невыполнимо, поскольку:
    - для

Особенности перевода WordNet В общем случае отображение L1->L2 невыполнимо, поскольку: - для
некоторого слова WL1 может не существовать
соответствующего слова WL2, т.е. перевод может отсутствовать,
- число значений lemmat (WL1) может быть не равно числу
значений lemmat (WL2) и/или значения могут не совпадать,
- некоторое слово WL1 может переводиться не одним словом WL2, а некоторым словосочетанием, не являющимся в общем случае фразеологизмом или устойчивым словосочетанием в языке L2.

Слайд 11

Google сегодня

Поисковый индекс, включающий порядка ~10 миллиардов документов, в т.ч. на русском

Google сегодня Поисковый индекс, включающий порядка ~10 миллиардов документов, в т.ч. на
языке (сколько?)
Свободно распространяемый
(с ограничениями) Java API для доступа к поисковому индексу

Слайд 12

Яndex сегодня

В поиске Яндекса сегодня: - уникальных серверов: 2 100 646, -

Яndex сегодня В поиске Яндекса сегодня: - уникальных серверов: 2 100 646,
уникальных документов: 727 070 847, - объем проиндексированной информации: 20 228 ГБ.
Свободно распространяемый XML API для доступа к поисковому индексу

Слайд 13

Определение «семантического расстояния» между словами

Пусть x – слово, w – страница (документ),

Определение «семантического расстояния» между словами Пусть x – слово, w – страница
проиндексированный поисковой машиной Google.

вероятность появления слова x
в коллекции из М документов

вероятность совместного появления
слова x и y в одном и том же
документе

M=8 058 044 651 (~8 млрд.) [Google]

Слайд 14

Определение «семантического расстояния» между словами

Условные вероятности появления
слов в коллекции документов.
Эти вероятности характеризуют

Определение «семантического расстояния» между словами Условные вероятности появления слов в коллекции документов.

зависимость, существующую между
словами x и y, позволяют определять
ассоциативные связи между словами.

Слайд 15

Определение «семантического расстояния» между словами

Normalized Google distance (NGD):

Функция не определена для

Определение «семантического расстояния» между словами Normalized Google distance (NGD): Функция не определена
f(x)=f(y)=0
NGD=∞, при f(x,y)=0, f(x)>0, f(y)>0
NGD>0 в других случаях.
Значения NGD(x,y) лежат в диапазоне от 0 до ∞,
D(x,x)=0 для любого х.
Функция симметрична, NGD(x,y)=NGD(y,x)
* Paul Vitanyi, Rudi Cilibrasi “Normalised Google Distance”

Слайд 16

Наши ресурсы

New Oxford Dictionary (SGML-формат, по лицензии на использование в исследовательских целях)

Наши ресурсы New Oxford Dictionary (SGML-формат, по лицензии на использование в исследовательских
Более 180 тыс. слов, 290 тыс. примеров употребления
Доступ к ресурсам Яндекса, грант #103003 “Построения межъязыкового индекса  для русской и английской версий WordNet”

Слайд 17

Автоматизированное построение ILI-индекса. Основные этапы.

Подготовительный этап
Построение частотных словарей для:
153 235 лемм Princeton

Автоматизированное построение ILI-индекса. Основные этапы. Подготовительный этап Построение частотных словарей для: 153
WordNet (PWN)
164 099 лемм Russian WordNet (RWN)
~2,5 млн. сочетаний (пар) лемм PWN
~2,5 млн. сочетаний (пар) лемм RWN
Ручной перевод и определение соответствия синсетов PWN и RWN для наиболее общих, философских значений. Синсеты – корневые элементы деревьев гипонимии (род/вид) и меронимии (часть/целое).
Например: {entity}, {psychological feature}, {abstraction}, {state}, {event}, {human activity, act, human action}, {grouping, group}, {possession}, {phenomenon}

Слайд 18

Автоматизированное построение ILI-индекса. Основные этапы.

Подготовительный этап

Автоматизированное построение ILI-индекса. Основные этапы. Подготовительный этап

Слайд 19

Автоматизированное построение ILI-индекса. Основные этапы.

Построение ILI-индекса
Обход дерева гипонимии (затем – меронимии) PWN

Автоматизированное построение ILI-индекса. Основные этапы. Построение ILI-индекса Обход дерева гипонимии (затем –
«в ширину» начиная от корня к листьям.
Для каждого синсета PWN - подбор эквивалентного или наиболее близкого синсета/значения в RWN, формирование записи ILI-индекса.

Слайд 20

Автоматизированное построение ILI-индекса. Перевод синсетов PWN.

Вариант 1
Синсет PWN состоит более чем из

Автоматизированное построение ILI-индекса. Перевод синсетов PWN. Вариант 1 Синсет PWN состоит более
1 слова, (для 2х слов существуют переводы в англо-русском словаре). Переводы слов PWN присутствуют в словнике RWN.
Вариант 2
Синсет PWN состоит из 1 леммы или англо-русский словарь содержит перевод только одной леммы.

Слайд 21

Демонстрация алгоритма построения ILI с использованием Google API. Вариант 1

Демонстрация алгоритма построения ILI с использованием Google API. Вариант 1

Слайд 22

Демонстрация алгоритма построения ILI с использованием Google API

Демонстрация алгоритма построения ILI с использованием Google API

Слайд 23

Демонстрация алгоритма построения ILI с использованием Google API

Демонстрация алгоритма построения ILI с использованием Google API

Слайд 24

Демонстрация алгоритма построения ILI с использованием Google API

[carriage, equipage, rig] => [экипаж,

Демонстрация алгоритма построения ILI с использованием Google API [carriage, equipage, rig] => [экипаж, карета, упряжка]
карета, упряжка]

Слайд 25

Демонстрация алгоритма построения ILI с использованием Google API. Вариант 2

Синсет PWN состоит

Демонстрация алгоритма построения ILI с использованием Google API. Вариант 2 Синсет PWN
из 1 леммы или англо-русский словарь содержит перевод только одной леммы.
work
love и др.

Англо-русский словарь содержит более 20 вариантов перевода work !!!

[work] => [???]

Слайд 26

Демонстрация алгоритма построения ILI с использованием Google API. Вариант 2

Демонстрация алгоритма построения ILI с использованием Google API. Вариант 2

Слайд 27

Определяется гипероним синсета PWN. Например, для синсета
[work] - activity directed toward

Определяется гипероним синсета PWN. Например, для синсета [work] - activity directed toward
making or doing something; "she checked several points needing further work"
гиперонимом (родительский узел в дереве род/вид) является синсет:
[activity] - any specific activity; "they avoided all recreational activity«
Для синсета [activity] на предыдущем шаге уже определен соответствующий синсет RWN – [дело, деятельность, занятие]
Для всех переводов [work] вычисляется NGD=NGD(x,y) со словами синсета-гиперонима RWN (дело, деятельность, занятие)

Демонстрация алгоритма построения ILI с использованием Google API. Вариант 2

Слайд 28

Демонстрация алгоритма построения ILI с использованием Google API. Вариант 2

Для [work] в

Демонстрация алгоритма построения ILI с использованием Google API. Вариант 2 Для [work]
англо-русском словаре определены переводы:
work – {служба, работа}, {произведение}, {изделие}, {исследование}, {труд}, {рабочий} и т.д. (более 20 вариантов)

Слайд 29

Демонстрация алгоритма построения ILI с использованием Google API. Вариант 2

[work] => {служба,

Демонстрация алгоритма построения ILI с использованием Google API. Вариант 2 [work] =>
работа}, {труд}

Из всех вариантов перевода
[work] - {служба, работа}, {произведение}, {изделие}, {исследование},
{труд}, {рабочий} и т.д. (более 20) выбирается:

Слайд 30

Статистика Russian WordNet

Лемм:

Синсетов:

Статистика Russian WordNet Лемм: Синсетов:
Имя файла: АВТОМАТИЗАЦИЯ-ПОСТРОЕНИЯ-АНГЛО-РУССКОГО-WORDNET.pptx
Количество просмотров: 142
Количество скачиваний: 1