АВТОМАТИЗАЦИЯ ПОСТРОЕНИЯ АНГЛО-РУССКОГО WORDNET

Февраль 19, 2021

Главная
Разное
АВТОМАТИЗАЦИЯ ПОСТРОЕНИЯ АНГЛО-РУССКОГО WORDNET

Содержание

2. Организация WordNet WordNet – лексико-семантическая база данных, включающая: основную лексику языка (существительные, глаголы, прилагательные и наречия
3. Princeton WordNet 2.0.
4. Почему WordNet ? Наиболее полно отражает лексику английского и др. языков. Число входов (синсетов/слов) > 180
5. Проекты WordNet Английский Датский Испанский Итальянский Немецкий Французский Чешский Эстонский Греческий Болгарский Турецкий Румынский Сербский Индийский
6. Межъязыковой индекс ILI – Inter-lingual-index
7. WordNet русского языка Проект филологического факультета, кафедра компьютерной лингвистики СПбГУ http://www.phil.pu.ru/depts/12/RN/bibliography_ru.shtml http://www.kiberry.ru:8085/index.jsp Проект “УИС Россия” http://www.cir.ru/
8. Проект “Russian WordNet” 164 099 лемм и их парадигмы, более 3,5 млн. словоформ 202 866 синсетов
9. Основные этапы «Russian WordNet»
10. Особенности перевода WordNet В общем случае отображение L1->L2 невыполнимо, поскольку: - для некоторого слова WL1 может
11. Google сегодня Поисковый индекс, включающий порядка ~10 миллиардов документов, в т.ч. на русском языке (сколько?) Свободно
12. Яndex сегодня В поиске Яндекса сегодня: - уникальных серверов: 2 100 646, - уникальных документов: 727
13. Определение «семантического расстояния» между словами Пусть x – слово, w – страница (документ), проиндексированный поисковой машиной
14. Определение «семантического расстояния» между словами Условные вероятности появления слов в коллекции документов. Эти вероятности характеризуют зависимость,
15. Определение «семантического расстояния» между словами Normalized Google distance (NGD): Функция не определена для f(x)=f(y)=0 NGD=∞, при
16. Наши ресурсы New Oxford Dictionary (SGML-формат, по лицензии на использование в исследовательских целях) Более 180 тыс.
17. Автоматизированное построение ILI-индекса. Основные этапы. Подготовительный этап Построение частотных словарей для: 153 235 лемм Princeton WordNet
18. Автоматизированное построение ILI-индекса. Основные этапы. Подготовительный этап
19. Автоматизированное построение ILI-индекса. Основные этапы. Построение ILI-индекса Обход дерева гипонимии (затем – меронимии) PWN «в ширину»
20. Автоматизированное построение ILI-индекса. Перевод синсетов PWN. Вариант 1 Синсет PWN состоит более чем из 1 слова,
21. Демонстрация алгоритма построения ILI с использованием Google API. Вариант 1
22. Демонстрация алгоритма построения ILI с использованием Google API
23. Демонстрация алгоритма построения ILI с использованием Google API
24. Демонстрация алгоритма построения ILI с использованием Google API [carriage, equipage, rig] => [экипаж, карета, упряжка]
25. Демонстрация алгоритма построения ILI с использованием Google API. Вариант 2 Синсет PWN состоит из 1 леммы
26. Демонстрация алгоритма построения ILI с использованием Google API. Вариант 2
27. Определяется гипероним синсета PWN. Например, для синсета [work] - activity directed toward making or doing something;
28. Демонстрация алгоритма построения ILI с использованием Google API. Вариант 2 Для [work] в англо-русском словаре определены
29. Демонстрация алгоритма построения ILI с использованием Google API. Вариант 2 [work] => {служба, работа}, {труд} Из
30. Статистика Russian WordNet Лемм: Синсетов:
32. Скачать презентацию

Слайд 2

Организация WordNet
WordNet – лексико-семантическая база данных, включающая:
основную лексику языка (существительные,

глаголы, прилагательные и наречия - более 100 тыс. словарных статей), организованную в виде синсетов.
Synset (синсет) – основная структура, представляющая словарную статью в WordNet. Синсет представляет множество лексем с одинаковым значением.
таксономию отношений между синсетами (например, гипонимия, меронимия) и между лексемами (например, антонимия).
определение семантических классов – TopOntology

Слайд 3

Princeton WordNet 2.0.

Слайд 4

Почему WordNet ?
Наиболее полно отражает лексику английского и др. языков. Число входов (синсетов/слов)

> 180 000.
Постоянное развитие PWN – версия 2.1.
”Параллельный” перевод на >17 языков. (EuroWordNet, Balkanet, Корейский и др.)
Встроенные морфологические анализаторы, “привязанные” к
национальным языкам.
5. PWN как межъязыковой индекс.
6. Разработка онтологий на базе WordNet. SUMO mappings to WordNet 2.0.
7. Разрабатывается RDF/OWL форматы WN для Semantic Web.

Слайд 5

Проекты WordNet
Английский
Датский
Испанский
Итальянский
Немецкий
Французский
Чешский
Эстонский
Греческий
Болгарский
Турецкий
Румынский
Сербский
Индийский
Китайский
Японский
GWA – Global WordNet Association (2001 г.)

Слайд 6

Межъязыковой индекс ILI – Inter-lingual-index

Слайд 7

WordNet русского языка
Проект филологического факультета, кафедра компьютерной лингвистики СПбГУ
http://www.phil.pu.ru/depts/12/RN/bibliography_ru.shtml
http://www.kiberry.ru:8085/index.jsp
Проект

“УИС Россия”
http://www.cir.ru/
3. Проект “Russian WordNet”

Слайд 8

Проект “Russian WordNet”
164 099 лемм
и их парадигмы, более 3,5 млн.

словоформ
202 866 синсетов (значений)

Слайд 9

Основные этапы «Russian WordNet»

Слайд 10

Особенности перевода WordNet
В общем случае отображение L1->L2 невыполнимо, поскольку:
- для

некоторого слова WL1 может не существовать
соответствующего слова WL2, т.е. перевод может отсутствовать,
- число значений lemmat (WL1) может быть не равно числу
значений lemmat (WL2) и/или значения могут не совпадать,
- некоторое слово WL1 может переводиться не одним словом WL2, а некоторым словосочетанием, не являющимся в общем случае фразеологизмом или устойчивым словосочетанием в языке L2.

Слайд 11

Google сегодня
Поисковый индекс, включающий порядка ~10 миллиардов документов, в т.ч. на русском

языке (сколько?)
Свободно распространяемый
(с ограничениями) Java API для доступа к поисковому индексу

Слайд 12

Яndex сегодня
В поиске Яндекса сегодня: - уникальных серверов: 2 100 646, -

уникальных документов: 727 070 847, - объем проиндексированной информации: 20 228 ГБ.
Свободно распространяемый XML API для доступа к поисковому индексу

Слайд 13

Определение «семантического расстояния» между словами
Пусть x – слово, w – страница (документ),

проиндексированный поисковой машиной Google.

вероятность появления слова x
в коллекции из М документов

вероятность совместного появления
слова x и y в одном и том же
документе

M=8 058 044 651 (~8 млрд.) [Google]

Слайд 14

Определение «семантического расстояния» между словами
Условные вероятности появления
слов в коллекции документов.
Эти вероятности характеризуют

зависимость, существующую между
словами x и y, позволяют определять
ассоциативные связи между словами.

Слайд 15

Определение «семантического расстояния» между словами
Normalized Google distance (NGD):
Функция не определена для

f(x)=f(y)=0
NGD=∞, при f(x,y)=0, f(x)>0, f(y)>0
NGD>0 в других случаях.
Значения NGD(x,y) лежат в диапазоне от 0 до ∞,
D(x,x)=0 для любого х.
Функция симметрична, NGD(x,y)=NGD(y,x)
* Paul Vitanyi, Rudi Cilibrasi “Normalised Google Distance”

Слайд 16

Наши ресурсы
New Oxford Dictionary (SGML-формат, по лицензии на использование в исследовательских целях)

Более 180 тыс. слов, 290 тыс. примеров употребления
Доступ к ресурсам Яндекса, грант #103003 “Построения межъязыкового индекса для русской и английской версий WordNet”

Слайд 17

Автоматизированное построение ILI-индекса. Основные этапы.
Подготовительный этап
Построение частотных словарей для:
153 235 лемм Princeton

WordNet (PWN)
164 099 лемм Russian WordNet (RWN)
~2,5 млн. сочетаний (пар) лемм PWN
~2,5 млн. сочетаний (пар) лемм RWN
Ручной перевод и определение соответствия синсетов PWN и RWN для наиболее общих, философских значений. Синсеты – корневые элементы деревьев гипонимии (род/вид) и меронимии (часть/целое).
Например: {entity}, {psychological feature}, {abstraction}, {state}, {event}, {human activity, act, human action}, {grouping, group}, {possession}, {phenomenon}

Слайд 18

Автоматизированное построение ILI-индекса. Основные этапы.
Подготовительный этап

Слайд 19

Автоматизированное построение ILI-индекса. Основные этапы.
Построение ILI-индекса
Обход дерева гипонимии (затем – меронимии) PWN

«в ширину» начиная от корня к листьям.
Для каждого синсета PWN - подбор эквивалентного или наиболее близкого синсета/значения в RWN, формирование записи ILI-индекса.

Слайд 20

Автоматизированное построение ILI-индекса. Перевод синсетов PWN.
Вариант 1
Синсет PWN состоит более чем из

1 слова, (для 2х слов существуют переводы в англо-русском словаре). Переводы слов PWN присутствуют в словнике RWN.
Вариант 2
Синсет PWN состоит из 1 леммы или англо-русский словарь содержит перевод только одной леммы.

Слайд 21

Демонстрация алгоритма построения ILI с использованием Google API. Вариант 1

Слайд 22

Демонстрация алгоритма построения ILI с использованием Google API

Слайд 23

Демонстрация алгоритма построения ILI с использованием Google API

Слайд 24

Демонстрация алгоритма построения ILI с использованием Google API
[carriage, equipage, rig] => [экипаж,

карета, упряжка]

Слайд 25

Демонстрация алгоритма построения ILI с использованием Google API. Вариант 2
Синсет PWN состоит

из 1 леммы или англо-русский словарь содержит перевод только одной леммы.
work
love и др.

Англо-русский словарь содержит более 20 вариантов перевода work !!!

[work] => [???]

Слайд 26

Демонстрация алгоритма построения ILI с использованием Google API. Вариант 2

Слайд 27

Определяется гипероним синсета PWN. Например, для синсета
[work] - activity directed toward

making or doing something; "she checked several points needing further work"
гиперонимом (родительский узел в дереве род/вид) является синсет:
[activity] - any specific activity; "they avoided all recreational activity«
Для синсета [activity] на предыдущем шаге уже определен соответствующий синсет RWN – [дело, деятельность, занятие]
Для всех переводов [work] вычисляется NGD=NGD(x,y) со словами синсета-гиперонима RWN (дело, деятельность, занятие)

Демонстрация алгоритма построения ILI с использованием Google API. Вариант 2

Слайд 28

Демонстрация алгоритма построения ILI с использованием Google API. Вариант 2
Для [work] в

англо-русском словаре определены переводы:
work – {служба, работа}, {произведение}, {изделие}, {исследование}, {труд}, {рабочий} и т.д. (более 20 вариантов)

Слайд 29

Демонстрация алгоритма построения ILI с использованием Google API. Вариант 2
[work] => {служба,

работа}, {труд}

Из всех вариантов перевода
[work] - {служба, работа}, {произведение}, {изделие}, {исследование},
{труд}, {рабочий} и т.д. (более 20) выбирается:

АВТОМАТИЗАЦИЯ ПОСТРОЕНИЯ АНГЛО-РУССКОГО WORDNET

Содержание

Организация WordNet WordNet – лексико-семантическая база данных, включающая: основную лексику языка (существительные,

Princeton WordNet 2.0.

Почему WordNet ?Наиболее полно отражает лексику английского и др. языков. Число входов (синсетов/слов)

Межъязыковой индекс ILI – Inter-lingual-index

WordNet русского языкаПроект филологического факультета, кафедра компьютерной лингвистики СПбГУ http://www.phil.pu.ru/depts/12/RN/bibliography_ru.shtml http://www.kiberry.ru:8085/index.jspПроект

Проект “Russian WordNet” 164 099 лемм и их парадигмы, более 3,5 млн.

Основные этапы «Russian WordNet»

Особенности перевода WordNet В общем случае отображение L1->L2 невыполнимо, поскольку: - для

Google сегодняПоисковый индекс, включающий порядка ~10 миллиардов документов, в т.ч. на русском

Яndex сегодняВ поиске Яндекса сегодня: - уникальных серверов: 2 100 646, -

Определение «семантического расстояния» между словамиПусть x – слово, w – страница (документ),

Определение «семантического расстояния» между словамиУсловные вероятности появленияслов в коллекции документов.Эти вероятности характеризуют

Определение «семантического расстояния» между словамиNormalized Google distance (NGD): Функция не определена для

Наши ресурсыNew Oxford Dictionary (SGML-формат, по лицензии на использование в исследовательских целях)

Автоматизированное построение ILI-индекса. Основные этапы.Подготовительный этапПостроение частотных словарей для:153 235 лемм Princeton

Автоматизированное построение ILI-индекса. Основные этапы.Подготовительный этап

Автоматизированное построение ILI-индекса. Основные этапы.Построение ILI-индексаОбход дерева гипонимии (затем – меронимии) PWN

Автоматизированное построение ILI-индекса. Перевод синсетов PWN.Вариант 1 Синсет PWN состоит более чем из

Демонстрация алгоритма построения ILI с использованием Google API. Вариант 1

Демонстрация алгоритма построения ILI с использованием Google API

Демонстрация алгоритма построения ILI с использованием Google API

Демонстрация алгоритма построения ILI с использованием Google API[carriage, equipage, rig] => [экипаж,

Демонстрация алгоритма построения ILI с использованием Google API. Вариант 2 Синсет PWN состоит

Демонстрация алгоритма построения ILI с использованием Google API. Вариант 2

Определяется гипероним синсета PWN. Например, для синсета [work] - activity directed toward

Демонстрация алгоритма построения ILI с использованием Google API. Вариант 2 Для [work] в

Демонстрация алгоритма построения ILI с использованием Google API. Вариант 2[work] => {служба,

Статистика Russian WordNetЛемм:Синсетов:

Похожие презентации

Организация WordNet
WordNet – лексико-семантическая база данных, включающая:
основную лексику языка (существительные,

Почему WordNet ?
Наиболее полно отражает лексику английского и др. языков. Число входов (синсетов/слов)

WordNet русского языка
Проект филологического факультета, кафедра компьютерной лингвистики СПбГУ
http://www.phil.pu.ru/depts/12/RN/bibliography_ru.shtml
http://www.kiberry.ru:8085/index.jsp
Проект

Проект “Russian WordNet”
164 099 лемм
и их парадигмы, более 3,5 млн.

Особенности перевода WordNet
В общем случае отображение L1->L2 невыполнимо, поскольку:
- для

Google сегодня
Поисковый индекс, включающий порядка ~10 миллиардов документов, в т.ч. на русском

Яndex сегодня
В поиске Яндекса сегодня: - уникальных серверов: 2 100 646, -

Определение «семантического расстояния» между словами
Пусть x – слово, w – страница (документ),

Определение «семантического расстояния» между словами
Условные вероятности появления
слов в коллекции документов.
Эти вероятности характеризуют

Определение «семантического расстояния» между словами
Normalized Google distance (NGD):
Функция не определена для

Наши ресурсы
New Oxford Dictionary (SGML-формат, по лицензии на использование в исследовательских целях)

Автоматизированное построение ILI-индекса. Основные этапы.
Подготовительный этап
Построение частотных словарей для:
153 235 лемм Princeton

Автоматизированное построение ILI-индекса. Основные этапы.
Подготовительный этап

Автоматизированное построение ILI-индекса. Основные этапы.
Построение ILI-индекса
Обход дерева гипонимии (затем – меронимии) PWN

Автоматизированное построение ILI-индекса. Перевод синсетов PWN.
Вариант 1
Синсет PWN состоит более чем из

Демонстрация алгоритма построения ILI с использованием Google API
[carriage, equipage, rig] => [экипаж,

Демонстрация алгоритма построения ILI с использованием Google API. Вариант 2
Синсет PWN состоит

Определяется гипероним синсета PWN. Например, для синсета
[work] - activity directed toward

Демонстрация алгоритма построения ILI с использованием Google API. Вариант 2
Для [work] в

Демонстрация алгоритма построения ILI с использованием Google API. Вариант 2
[work] => {служба,

Статистика Russian WordNet
Лемм:
Синсетов: