Слайд 2Коллектив
1994 – н/в АНО Центр информационных исследований
(АНО ЦИИ)
1994 – 1997 Институт
![Коллектив 1994 – н/в АНО Центр информационных исследований (АНО ЦИИ) 1994 –](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/410752/slide-1.jpg)
США и Канады РАН
1997 – н/в Научно-исследовательский вычислительный центр МГУ им.М.В.Ломоносова
Университетская информационная система РОССИЯ (УИС РОССИЯ, uisrussia.msu.ru):
три миллиона документов (нормативные акты, пресса, экономическая статистика)
Слайд 3Лингвистические ресурсы для автоматической обработки текстовых коллекций: особенности
Наш опыт: развитие ресурсов для
![Лингвистические ресурсы для автоматической обработки текстовых коллекций: особенности Наш опыт: развитие ресурсов](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/410752/slide-2.jpg)
задач информационного поиска с 1994 года
Большой объем: тысячи слов и словосочетаний
Модель описания знаний о языке и мире должна быть:
«легкая»,
полезная в широком круге приложений
тестирование ресурса в приложениях
Лингвистические онтологии (тезаурусы)
Тезаурус Русского языка РуТез (52 тыс. понятий)
Онтология по естественным наукам и технологиям (ОЕНТ) (55 тыс. понятий)
Тезаурус (лингв. онтология) по банковской деятельности
и др.
Слайд 4Клиенты, проекты
Банк России (2006 – н/в)
Рамблер (2007– н/в)
НПП Гарант-Сервис (2002 – н/в)
НИИ
![Клиенты, проекты Банк России (2006 – н/в) Рамблер (2007– н/в) НПП Гарант-Сервис](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/410752/slide-3.jpg)
Восход для ЦИК РФ (1997 -- н/в)
в/ч 43753 (2000 – н/в)
Аппарат Государственной Думы ФС РФ (1999 -- н/в)
ИК «Кодекс» для УОПИ ФСО РФ (2007 – 2008)
Счетная палата (2003)
Министерство образования; ГУМЦ «Базис» (2003, 04)
ИППИ РАН для Управления спецпрограмм (1996)
«Гранит-Центр» (2006), НИЦ «Квант» (2003),
НТЦ «Атлас» (2001)
Слайд 5План презентации
Некоторые вопросы использования существующих онтологий
Простые vs. сложные предметные области,
Определение границы предметной
![План презентации Некоторые вопросы использования существующих онтологий Простые vs. сложные предметные области,](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/410752/slide-4.jpg)
области,
Соотношение «соседних» предметных областей
Выгрузка из существующей онтологии нужных фрагментов
Оценка качества сопоставления онтологий
семинар по оценке методов сопоставления онтологий OAEI-2009
Слайд 6Онтология верхнего уровня,
общая
лексика
Специальные
ПО
Специальные
ПО
Развитие Тезауруса РуТез в
сферу специальных областей
Промежуточная
![Онтология верхнего уровня, общая лексика Специальные ПО Специальные ПО Развитие Тезауруса РуТез](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/410752/slide-5.jpg)
зона
Культурное наследие
Онтология по естественным наукам и технологиям
Слайд 7Сложные vs. простые
предметные области
Простые предметные области
Четкие границы,
Границы определяются физическими границами, конкретным
![Сложные vs. простые предметные области Простые предметные области Четкие границы, Границы определяются](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/410752/slide-6.jpg)
процессом (производство, услуги)
Ясное назначение сущностей
Сложные предметные области
Расплывчатые границы,
Значимость текстовых документов,
Сущности в разных ролях и функциях
Слайд 8Сложные области:
определение границ
Междисциплинарность
Государственный финансовый контроль (экономика + право + финансы)
Борьба с
![Сложные области: определение границ Междисциплинарность Государственный финансовый контроль (экономика + право +](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/410752/slide-7.jpg)
терроризмом
(уголовное право + международное право + государственное право …)
Два подразделения предметной области
Центр предметной области
Необходимые разделы из других предметных областей
Слайд 9Границы области:
Государственный финансовый контроль
Термины относящиеся к
этапам, процедурам, участникам процесса государственного финансового
![Границы области: Государственный финансовый контроль Термины относящиеся к этапам, процедурам, участникам процесса](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/410752/slide-8.jpg)
контроля;
к бюджетной системе и бюджетному процессу;
к области приобретения, использования и распоряжения государственной собственностью;
проверяемым типам деятельности, и основные типы проверяемых документов;
термины, описывающие основные организационно-правовые формы организаций в Российской Федерации.
Слайд 10Границы области:
борьба с терроризмом
Центр предметной области
Террористические акты
Профилактика, борьба с терроризмом и
![Границы области: борьба с терроризмом Центр предметной области Террористические акты Профилактика, борьба](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/410752/slide-9.jpg)
т.п.
Вспомогательные разделы
Населенные пункты,
Оружие и взрывчатые вещества,
Транспорт,
Финансовые расчеты,
Идеология и религия и др.
Казалось бы: торжество концепции вторичного использования онтологий
Слайд 12Проблема: искажение реальности
Общие понятия, необходимые для предметной области, трактуются как относящиеся к
![Проблема: искажение реальности Общие понятия, необходимые для предметной области, трактуются как относящиеся](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/410752/slide-11.jpg)
этой предметной области
Название концепта сохраняется общим, а значение подразумевается относящимся к этой предметной области
ЗАКОНОДАТЕЛЬСТВО
(=антитеррористическое законодательство=),
РАЗВЕДКА
(разведка против террористической деятельности)
Проблемы при склейке, вторичном использовании онтологий
Тезаурус по радиационному терроризму (Radiological terrorism)
Слайд 14Изменения в описаниях понятий, полученных из тезауруса РуТез
Изменение названия понятия;
Изменение набора текстовых
![Изменения в описаниях понятий, полученных из тезауруса РуТез Изменение названия понятия; Изменение](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/410752/slide-13.jpg)
входов понятия:
Изменение отношений между понятиями онтологии-прототипа:
Исчезновение отношений между понятиями онтологии-прототипа;
Появление новых отношений между понятиями онтологии-прототипа;
Введение отношений понятий онтологии-прототипа с новыми понятиями:
a. Введение отношений вверх по иерархии;
b. Введение отношений вниз по иерархии
Слайд 17Как эффективно извлечь
небходимые концепты и отношения для вторичного использования
Методы, основанные на
![Как эффективно извлечь небходимые концепты и отношения для вторичного использования Методы, основанные](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/410752/slide-16.jpg)
специализированном корпусе (Tf*idf)
Автоматизированная технология
Анализ целевой предметной области,
Выявление границ целевой ПО, типов необходимых сущностей
Создание рубрикатора, описание рубрик как логических выражений на концептами
Выгрузка концептов, попавших в описание рубрик
Специализированные корпуса как вспомогательный источник
Слайд 18Описание рубрик в виде
явной логической формулы
Рубрика
«Банковские
операции и сделки»
[ БАНКОВСКАЯ ДЕЯТЕЛЬНОСТЬ(E);
![Описание рубрик в виде явной логической формулы Рубрика «Банковские операции и сделки»](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/410752/slide-17.jpg)
ИНВЕСТИЦИОННЫЙ ФОНД(-,E);
ВЗАИМОЗАЧЕТ(-,E);
ПЕРЕВОД ДЕНЕЖНЫХ СРЕДСТВ(-,E)
]
.OR.
[
КРЕДИТНАЯ ОРГАНИЗАЦИЯ(L)
.and.
[ ПЕРЕВОД ДЕНЕЖНЫХ СРЕДСТВ(E);
РИСК (ВОЗМОЖНОСТЬ ОПАСНОСТИ, НЕУДАЧИ)(L)
]
]
Слайд 19Быстрое описание границ
предметной области
Задачи описания границ
связность понятийной сети предметной области
![Быстрое описание границ предметной области Задачи описания границ связность понятийной сети предметной](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/410752/slide-18.jpg)
по иерархии
по «сестрам»
устойчивость границы
отсутствие
«выбросов»
отсутствие «анклавов»
замыкание разорванных иерархических связей
Слайд 20План презентации
Некоторые вопросы использования существующих онтологий
Простые vs. сложные предметные области,
Определение границы предметной
![План презентации Некоторые вопросы использования существующих онтологий Простые vs. сложные предметные области,](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/410752/slide-19.jpg)
области,
Соотношение «соседних» предметных областей
Выгрузка из существующей онтологии нужных фрагментов
Оценка качества сопоставления онтологий
семинар по оценке методов сопоставления онтологий OAEI-2009
Слайд 21Семинар OAEI-2009
Тестирование методов установления соответствий между единицами онтологий
Тесты проводятся на онтологиях разного
![Семинар OAEI-2009 Тестирование методов установления соответствий между единицами онтологий Тесты проводятся на](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/410752/slide-20.jpg)
уровня формализации (OWL, тезаурусы, рубрикаторы)
Различные типы и меры оценки
4 семинар с 2004 года
5 соревновательных дорожек (11 тестов)
16 участников
Слайд 22Трек 1: Базовый (benchmark test)
Онтология библиографии
OWL-DL, RDF/XML
33 класса, 60 свойств, 70 экземпляров
Тесты
![Трек 1: Базовый (benchmark test) Онтология библиографии OWL-DL, RDF/XML 33 класса, 60](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/410752/slide-21.jpg)
серия 1
Сравнение c нерелевантной онтологией (Онтология вина)
OWL-DL -> OWL-Lite
Тесты серия 2 (замена или отбрасывание)
имена сущностей,
комментарии,
таксономии,
экземпляры
свойства
Слайд 23Трек 1: Базовый (benchmark test)
(cont’d)
Тесты серия 3
Сопоставление с другими библиографическими онтологиями
Лучшие
![Трек 1: Базовый (benchmark test) (cont’d) Тесты серия 3 Сопоставление с другими](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/410752/slide-22.jpg)
результаты:
Серия 1:
точность – 1, полнота – 1.
Серия 2:
точность – 0.97, полнота – 0.86.
Серия 3:
точность – 0.84, полнота – 0.81
Слайд 24Трек 2: Анатомия
Сопоставление онтологий
Анатомия человека Института рака
Анатомия мыши
61% тривиальных соответствий, т. е.
![Трек 2: Анатомия Сопоставление онтологий Анатомия человека Института рака Анатомия мыши 61%](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/410752/slide-23.jpg)
тривиальный уровень результатов
Точность – 0.99, Полнота – 0.60
Лучшие результаты:
Точность – 0.95
Полнота – 0.77
F-мера – 0.855
Время работы: 1-20 минут
Слайд 25Сопоставление легких (shallow) онтологий: веб-рубрикаторы
Системы: Google, Yahoo, Looksmart
Таксономии: отношение subClassOff
300000 категорий в
![Сопоставление легких (shallow) онтологий: веб-рубрикаторы Системы: Google, Yahoo, Looksmart Таксономии: отношение subClassOff](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/410752/slide-24.jpg)
каждом рубрикаторе
Моделирование реальной задачи, включающей терминологические проблемы
Результаты:
F-меры – 63%
Системы обнаружили только 68% положительных соответствий
26% соответствий были найдены всеми участниками
17% отрицательных соответствий были приняты всеми участниками как положительные
Слайд 26Трек: Библиотека
Предметные рубрики библиотек
Библиотека Конгресса США (250 тыс.)
Французская национальная библиотека (150 тыс.)
Немецкая
![Трек: Библиотека Предметные рубрики библиотек Библиотека Конгресса США (250 тыс.) Французская национальная](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/410752/slide-25.jpg)
национальная библиотека (160 тыс.)
Информация: синонимы, отношения выше, ниже, ассоциация
Эксперты: 100 тысяч соответствий
Результаты
1 участник (автоматический перевод)
Низкая полнота
Проблемы с установлением отношений, отличных от отношений эквивалентности
Слайд 27Shvaiko P., Euzenat J.:
Ten Challenges for Ontology Matching
Организация масштабного тестирования
Скорость выполнения
![Shvaiko P., Euzenat J.: Ten Challenges for Ontology Matching Организация масштабного тестирования](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/410752/slide-26.jpg)
операций по сопоставлению
Нехватка неявных (background) знаний
Использование Интернет, предметно-ориентированных текстовых коллекций, онтологий
Выбор и настройка инструмента
Вовлечение пользователя
Объяснение результатов сопоставления