Содержание
- 2. Организация WordNet WordNet – лексико-семантическая база данных, включающая: основную лексику языка (существительные, глаголы, прилагательные и наречия
- 3. Princeton WordNet 2.0.
- 4. Почему WordNet ? Наиболее полно отражает лексику английского и др. языков. Число входов (синсетов/слов) > 180
- 5. Проекты WordNet Английский Датский Испанский Итальянский Немецкий Французский Чешский Эстонский Греческий Болгарский Турецкий Румынский Сербский Индийский
- 6. Межъязыковой индекс ILI – Inter-lingual-index
- 7. WordNet русского языка Проект филологического факультета, кафедра компьютерной лингвистики СПбГУ http://www.phil.pu.ru/depts/12/RN/bibliography_ru.shtml http://www.kiberry.ru:8085/index.jsp Проект “УИС Россия” http://www.cir.ru/
- 8. Проект “Russian WordNet” 164 099 лемм и их парадигмы, более 3,5 млн. словоформ 202 866 синсетов
- 9. Основные этапы «Russian WordNet»
- 10. Особенности перевода WordNet В общем случае отображение L1->L2 невыполнимо, поскольку: - для некоторого слова WL1 может
- 11. Google сегодня Поисковый индекс, включающий порядка ~10 миллиардов документов, в т.ч. на русском языке (сколько?) Свободно
- 12. Яndex сегодня В поиске Яндекса сегодня: - уникальных серверов: 2 100 646, - уникальных документов: 727
- 13. Определение «семантического расстояния» между словами Пусть x – слово, w – страница (документ), проиндексированный поисковой машиной
- 14. Определение «семантического расстояния» между словами Условные вероятности появления слов в коллекции документов. Эти вероятности характеризуют зависимость,
- 15. Определение «семантического расстояния» между словами Normalized Google distance (NGD): Функция не определена для f(x)=f(y)=0 NGD=∞, при
- 16. Наши ресурсы New Oxford Dictionary (SGML-формат, по лицензии на использование в исследовательских целях) Более 180 тыс.
- 17. Автоматизированное построение ILI-индекса. Основные этапы. Подготовительный этап Построение частотных словарей для: 153 235 лемм Princeton WordNet
- 18. Автоматизированное построение ILI-индекса. Основные этапы. Подготовительный этап
- 19. Автоматизированное построение ILI-индекса. Основные этапы. Построение ILI-индекса Обход дерева гипонимии (затем – меронимии) PWN «в ширину»
- 20. Автоматизированное построение ILI-индекса. Перевод синсетов PWN. Вариант 1 Синсет PWN состоит более чем из 1 слова,
- 21. Демонстрация алгоритма построения ILI с использованием Google API. Вариант 1
- 22. Демонстрация алгоритма построения ILI с использованием Google API
- 23. Демонстрация алгоритма построения ILI с использованием Google API
- 24. Демонстрация алгоритма построения ILI с использованием Google API [carriage, equipage, rig] => [экипаж, карета, упряжка]
- 25. Демонстрация алгоритма построения ILI с использованием Google API. Вариант 2 Синсет PWN состоит из 1 леммы
- 26. Демонстрация алгоритма построения ILI с использованием Google API. Вариант 2
- 27. Определяется гипероним синсета PWN. Например, для синсета [work] - activity directed toward making or doing something;
- 28. Демонстрация алгоритма построения ILI с использованием Google API. Вариант 2 Для [work] в англо-русском словаре определены
- 29. Демонстрация алгоритма построения ILI с использованием Google API. Вариант 2 [work] => {служба, работа}, {труд} Из
- 30. Статистика Russian WordNet Лемм: Синсетов:
- 32. Скачать презентацию