Лукашевич Н.В, Добров Б.В. Операции с онтологиями: сопоставление, порождение, наращивание, подрезание

Содержание

Слайд 2

Коллектив

1994 – н/в АНО Центр информационных исследований (АНО ЦИИ)
1994 – 1997 Институт

Коллектив 1994 – н/в АНО Центр информационных исследований (АНО ЦИИ) 1994 –
США и Канады РАН
1997 – н/в Научно-исследовательский вычислительный центр МГУ им.М.В.Ломоносова
Университетская информационная система РОССИЯ (УИС РОССИЯ, uisrussia.msu.ru):
три миллиона документов (нормативные акты, пресса, экономическая статистика)

Слайд 3

Лингвистические ресурсы для автоматической обработки текстовых коллекций: особенности

Наш опыт: развитие ресурсов для

Лингвистические ресурсы для автоматической обработки текстовых коллекций: особенности Наш опыт: развитие ресурсов
задач информационного поиска с 1994 года
Большой объем: тысячи слов и словосочетаний
Модель описания знаний о языке и мире должна быть:
«легкая»,
полезная в широком круге приложений
тестирование ресурса в приложениях
Лингвистические онтологии (тезаурусы)
Тезаурус Русского языка РуТез (52 тыс. понятий)
Онтология по естественным наукам и технологиям (ОЕНТ) (55 тыс. понятий)
Тезаурус (лингв. онтология) по банковской деятельности
и др.

Слайд 4

Клиенты, проекты

Банк России (2006 – н/в)
Рамблер (2007– н/в)
НПП Гарант-Сервис (2002 – н/в)
НИИ

Клиенты, проекты Банк России (2006 – н/в) Рамблер (2007– н/в) НПП Гарант-Сервис
Восход для ЦИК РФ (1997 -- н/в)
в/ч 43753 (2000 – н/в)
Аппарат Государственной Думы ФС РФ (1999 -- н/в)
ИК «Кодекс» для УОПИ ФСО РФ (2007 – 2008)
Счетная палата (2003)
Министерство образования; ГУМЦ «Базис» (2003, 04)
ИППИ РАН для Управления спецпрограмм (1996)
«Гранит-Центр» (2006), НИЦ «Квант» (2003), НТЦ «Атлас» (2001)

Слайд 5

План презентации

Некоторые вопросы использования существующих онтологий
Простые vs. сложные предметные области,
Определение границы предметной

План презентации Некоторые вопросы использования существующих онтологий Простые vs. сложные предметные области,
области,
Соотношение «соседних» предметных областей
Выгрузка из существующей онтологии нужных фрагментов
Оценка качества сопоставления онтологий
семинар по оценке методов сопоставления онтологий OAEI-2009

Слайд 6

Онтология верхнего уровня,
общая лексика

Специальные ПО

Специальные ПО

Развитие Тезауруса РуТез в сферу специальных областей

Промежуточная

Онтология верхнего уровня, общая лексика Специальные ПО Специальные ПО Развитие Тезауруса РуТез
зона

Культурное наследие

Онтология по естественным наукам и технологиям

Слайд 7

Сложные vs. простые предметные области

Простые предметные области
Четкие границы,
Границы определяются физическими границами, конкретным

Сложные vs. простые предметные области Простые предметные области Четкие границы, Границы определяются
процессом (производство, услуги)
Ясное назначение сущностей
Сложные предметные области
Расплывчатые границы,
Значимость текстовых документов,
Сущности в разных ролях и функциях

Слайд 8

Сложные области: определение границ

Междисциплинарность
Государственный финансовый контроль (экономика + право + финансы)
Борьба с

Сложные области: определение границ Междисциплинарность Государственный финансовый контроль (экономика + право +
терроризмом (уголовное право + международное право + государственное право …)
Два подразделения предметной области
Центр предметной области
Необходимые разделы из других предметных областей

Слайд 9

Границы области: Государственный финансовый контроль

Термины относящиеся к
этапам, процедурам, участникам процесса государственного финансового

Границы области: Государственный финансовый контроль Термины относящиеся к этапам, процедурам, участникам процесса
контроля;
к бюджетной системе и бюджетному процессу;
к области приобретения, использования и распоряжения государственной собственностью;
проверяемым типам деятельности, и основные типы проверяемых документов;
термины, описывающие основные организационно-правовые формы организаций в Российской Федерации.

Слайд 10

Границы области: борьба с терроризмом

Центр предметной области
Террористические акты
Профилактика, борьба с терроризмом и

Границы области: борьба с терроризмом Центр предметной области Террористические акты Профилактика, борьба
т.п.
Вспомогательные разделы
Населенные пункты,
Оружие и взрывчатые вещества,
Транспорт,
Финансовые расчеты,
Идеология и религия и др.
Казалось бы: торжество концепции вторичного использования онтологий

Слайд 12

Проблема: искажение реальности

Общие понятия, необходимые для предметной области, трактуются как относящиеся к

Проблема: искажение реальности Общие понятия, необходимые для предметной области, трактуются как относящиеся
этой предметной области
Название концепта сохраняется общим, а значение подразумевается относящимся к этой предметной области
ЗАКОНОДАТЕЛЬСТВО (=антитеррористическое законодательство=),
РАЗВЕДКА (разведка против террористической деятельности)
Проблемы при склейке, вторичном использовании онтологий
Тезаурус по радиационному терроризму (Radiological terrorism)

Слайд 13

Пример: искажение реальности

Пример: искажение реальности

Слайд 14

Изменения в описаниях понятий, полученных из тезауруса РуТез

Изменение названия понятия;
Изменение набора текстовых

Изменения в описаниях понятий, полученных из тезауруса РуТез Изменение названия понятия; Изменение
входов понятия:
Изменение отношений между понятиями онтологии-прототипа:
Исчезновение отношений между понятиями онтологии-прототипа;
Появление новых отношений между понятиями онтологии-прототипа;
Введение отношений понятий онтологии-прототипа с новыми понятиями:
a.  Введение отношений вверх по иерархии;
b.  Введение отношений вниз по иерархии

Слайд 15

Фрагмент Тезауруса РуТез

Фрагмент Тезауруса РуТез

Слайд 17

Как эффективно извлечь небходимые концепты и отношения для вторичного использования

Методы, основанные на

Как эффективно извлечь небходимые концепты и отношения для вторичного использования Методы, основанные
специализированном корпусе (Tf*idf)
Автоматизированная технология
Анализ целевой предметной области,
Выявление границ целевой ПО, типов необходимых сущностей
Создание рубрикатора, описание рубрик как логических выражений на концептами
Выгрузка концептов, попавших в описание рубрик
Специализированные корпуса как вспомогательный источник

Слайд 18

Описание рубрик в виде явной логической формулы

Рубрика
«Банковские операции и сделки»
[ БАНКОВСКАЯ ДЕЯТЕЛЬНОСТЬ(E);

Описание рубрик в виде явной логической формулы Рубрика «Банковские операции и сделки»
ИНВЕСТИЦИОННЫЙ ФОНД(-,E);
ВЗАИМОЗАЧЕТ(-,E);
ПЕРЕВОД ДЕНЕЖНЫХ СРЕДСТВ(-,E)
]
.OR.
[
КРЕДИТНАЯ ОРГАНИЗАЦИЯ(L)
.and.
[ ПЕРЕВОД ДЕНЕЖНЫХ СРЕДСТВ(E);
РИСК (ВОЗМОЖНОСТЬ ОПАСНОСТИ, НЕУДАЧИ)(L)
]
]

Слайд 19

Быстрое описание границ предметной области

Задачи описания границ
связность понятийной сети предметной области

Быстрое описание границ предметной области Задачи описания границ связность понятийной сети предметной
по иерархии
по «сестрам»
устойчивость границы
отсутствие «выбросов»
отсутствие «анклавов»
замыкание разорванных иерархических связей

Слайд 20

План презентации

Некоторые вопросы использования существующих онтологий
Простые vs. сложные предметные области,
Определение границы предметной

План презентации Некоторые вопросы использования существующих онтологий Простые vs. сложные предметные области,
области,
Соотношение «соседних» предметных областей
Выгрузка из существующей онтологии нужных фрагментов
Оценка качества сопоставления онтологий
семинар по оценке методов сопоставления онтологий OAEI-2009

Слайд 21

Семинар OAEI-2009

Тестирование методов установления соответствий между единицами онтологий
Тесты проводятся на онтологиях разного

Семинар OAEI-2009 Тестирование методов установления соответствий между единицами онтологий Тесты проводятся на
уровня формализации (OWL, тезаурусы, рубрикаторы)
Различные типы и меры оценки
4 семинар с 2004 года
5 соревновательных дорожек (11 тестов)
16 участников

Слайд 22

Трек 1: Базовый (benchmark test)

Онтология библиографии
OWL-DL, RDF/XML
33 класса, 60 свойств, 70 экземпляров
Тесты

Трек 1: Базовый (benchmark test) Онтология библиографии OWL-DL, RDF/XML 33 класса, 60
серия 1
Сравнение c нерелевантной онтологией (Онтология вина)
OWL-DL -> OWL-Lite
Тесты серия 2 (замена или отбрасывание)
имена сущностей,
комментарии,
таксономии,
экземпляры
свойства

Слайд 23

Трек 1: Базовый (benchmark test) (cont’d)

Тесты серия 3
Сопоставление с другими библиографическими онтологиями
Лучшие

Трек 1: Базовый (benchmark test) (cont’d) Тесты серия 3 Сопоставление с другими
результаты:
Серия 1:
точность – 1, полнота – 1.
Серия 2:
точность – 0.97, полнота – 0.86.
Серия 3:
точность – 0.84, полнота – 0.81

Слайд 24

Трек 2: Анатомия

Сопоставление онтологий
Анатомия человека Института рака
Анатомия мыши
61% тривиальных соответствий, т. е.

Трек 2: Анатомия Сопоставление онтологий Анатомия человека Института рака Анатомия мыши 61%
тривиальный уровень результатов
Точность – 0.99, Полнота – 0.60
Лучшие результаты:
Точность – 0.95
Полнота – 0.77
F-мера – 0.855
Время работы: 1-20 минут

Слайд 25

Сопоставление легких (shallow) онтологий: веб-рубрикаторы

Системы: Google, Yahoo, Looksmart
Таксономии: отношение subClassOff
300000 категорий в

Сопоставление легких (shallow) онтологий: веб-рубрикаторы Системы: Google, Yahoo, Looksmart Таксономии: отношение subClassOff
каждом рубрикаторе
Моделирование реальной задачи, включающей терминологические проблемы
Результаты:
F-меры – 63%
Системы обнаружили только 68% положительных соответствий
26% соответствий были найдены всеми участниками
17% отрицательных соответствий были приняты всеми участниками как положительные

Слайд 26

Трек: Библиотека

Предметные рубрики библиотек
Библиотека Конгресса США (250 тыс.)
Французская национальная библиотека (150 тыс.)
Немецкая

Трек: Библиотека Предметные рубрики библиотек Библиотека Конгресса США (250 тыс.) Французская национальная
национальная библиотека (160 тыс.)
Информация: синонимы, отношения выше, ниже, ассоциация
Эксперты: 100 тысяч соответствий
Результаты
1 участник (автоматический перевод)
Низкая полнота
Проблемы с установлением отношений, отличных от отношений эквивалентности

Слайд 27

Shvaiko P., Euzenat J.: Ten Challenges for Ontology Matching

Организация масштабного тестирования
Скорость выполнения

Shvaiko P., Euzenat J.: Ten Challenges for Ontology Matching Организация масштабного тестирования
операций по сопоставлению
Нехватка неявных (background) знаний
Использование Интернет, предметно-ориентированных текстовых коллекций, онтологий
Выбор и настройка инструмента
Вовлечение пользователя
Объяснение результатов сопоставления