Разработка лингвистической онтологии для решения задач информационного поиска

Содержание

Слайд 2

Поиск научно-технической информации

обеспечение поиска, основанного на знаниях,
использование синонимов,
автоматическое

Поиск научно-технической информации обеспечение поиска, основанного на знаниях, использование синонимов, автоматическое расширение
расширение запроса,
автоматический анализ результатов запроса
помощь в интерактивном поиске

Слайд 3

Традиционные средства тематического поиска - информационно-поисковые тезаурусы

Основные понятия ПО – дескрипторы

Традиционные средства тематического поиска - информационно-поисковые тезаурусы Основные понятия ПО – дескрипторы
Условные синонимы – аскрипторы
Отношения между дескрипторами: -- ВЫШЕ-НИЖЕ – транзитивно, несимметрично -- АССОЦИАЦИЯ – симметрично -- Три-четыре уровня иерархии

Слайд 4

Традиционные ИП тезаурусы и автоматическая обработка текстов

Процесс индексирования базируется на знаниях эксперта
Удобство

Традиционные ИП тезаурусы и автоматическая обработка текстов Процесс индексирования базируется на знаниях
для эксперта, относительно небольшая величина
Дескрипторы нужны для описания основной темы
Нехватка знаний о понятиях и языке предметной области
Отношения
Проблема с автоматическим расширением запроса
Особенно отношение ассоциации

Слайд 5

Семантический поиск в Интернет – Semantic Web: ОНТОЛОГИИ

Онтология - это система,

Семантический поиск в Интернет – Semantic Web: ОНТОЛОГИИ Онтология - это система,
состоящая из набора понятий и набора утверждений об этих понятиях, на основе которых можно строить классы, объекты, отношения, функции и теории
Основные компоненты:
Классы или понятия, примеры
Отношения, функции
Аксиомы / правила вывода

Слайд 6

Виды онтологий по составу

Словарь с определениями
Простая таксономия
Тезаурус (таксономия с терминами)
Модель с произвольным

Виды онтологий по составу Словарь с определениями Простая таксономия Тезаурус (таксономия с
набором отношений
Таксономия и произвольный набор отношений
Полностью аксиоматизированная теория (фундаментальная онтология)

Слайд 7

Виды онтологий по применению

Фундаментальные онтологии
Прикладные онтологии (application ontologies) – легкие

Виды онтологий по применению Фундаментальные онтологии Прикладные онтологии (application ontologies) – легкие
онтологии (lightweight ontologies) тахономии, ассоциативные тезаурусы
Лингвистические онтологии – понятия онтологии связаны со значениями языковых выражений (слов, именных групп и т.п.)

Слайд 8

Подходы к описанию отношений при разработке онтологий

отношения – произвольный предикат, свойства

Подходы к описанию отношений при разработке онтологий отношения – произвольный предикат, свойства
задаются аксиомами
P(x1,…xn)
Для того, чтобы такая система отношений работала, нужно стабильно находить отношения в разнообразных текстах
Но это проблема!

Слайд 9

Формализация описания области научного знания

Цель: обеспечение автоматических процедур тематической обработки и поиска

Формализация описания области научного знания Цель: обеспечение автоматических процедур тематической обработки и
текстов
Традиционные информационно-поисковые тезаурусы – недостаточно
Фундаментальные онтологии – невозможно

Слайд 10

Отправная точка

Информационно-поисковый тезаурус по общественно-политической тематике РуТез (Общественно-политический тезаурус)
32 тысячи понятий
79 тыс.

Отправная точка Информационно-поисковый тезаурус по общественно-политической тематике РуТез (Общественно-политический тезаурус) 32 тысячи
русскоязычных текстовых входов
80 тыс. англоязычных текстовых входов
Автоматическая обработка текстов
Автоматическое концептуальное индексирование
Автоматическая рубрикация
Автоматическое аннотирование

авиа

комп. безопасность

Слайд 11

Общественно-политическая ПО

Общественные науки

Естественные науки

Наука vs Общественно-политическая ПО

Общественно-политическая ПО

Общественно-политическая ПО Общественные науки Естественные науки Наука vs Общественно-политическая ПО Общественно-политическая ПО

Слайд 12

Лингвистическая онтология по естественным наукам: сочетание трех традиций

разработки информационно-поисковых тезаурусов (описание терминов,

Лингвистическая онтология по естественным наукам: сочетание трех традиций разработки информационно-поисковых тезаурусов (описание
многословные термины, простой набор отношений)
разработки лингвистических ресурсов типа WordNet (связь понятия со значением, многоступенчатое построение лексико-терминологической системы, описание многозначности терминов)
созданий формальных онтологий (иерархическая система понятий, отношения онтологической зависимости, свойства транзитивности и наследования)

Слайд 13

Этапы разработки: набор коллекции текстов

Для каждой науки (математика, физика, химия, биология,

Этапы разработки: набор коллекции текстов Для каждой науки (математика, физика, химия, биология,
геология) – коллекции документов (от 3000 до 8000 документов, от 50 до 90 Мб)
Источники коллекций - документы, доступные в Интернет:
        материалы школьных уроков;
        рефераты;
        университетские лекции;
        материалы специализированных сайтов

Слайд 14

Этапы разработки: автоматическое извлечение терминов из текстов

извлечение именных групп (2-3 слова)

Этапы разработки: автоматическое извлечение терминов из текстов извлечение именных групп (2-3 слова)
определенной синтаксической структуры (зависимое прилагательное и/или существительное в родительном падеже)
извлечение именных групп произвольной структуры и длины на основе анализа частотных характеристик
сопоставление с имеющимися ресурсами

Слайд 15

Отбор терминологии

Верхние части частотных списков по каждой из наук (10 тысяч

Отбор терминологии Верхние части частотных списков по каждой из наук (10 тысяч
слов, 15 тысяч словосочетаний)
Просмотр экспертами
Отбрасывание
явных ошибок,
общеязыковых выражений,
составных конструкций, состоящих из терминов
величина результирующего списка – 32 тысячи слов и словосочетаний

Ручная разметка поддеревьев
Пересечение отобранных терминов и Общественно-политического тезауруса
Замыкание отношений – добавление вышестоящих по таксономии

Использование знаний, описанных в Общественно-политическом тезаурусе

Слайд 16

Эксперты

Эксперты в ПО vs. Инженеры по знаниям
дать определение
описать таксономические

Эксперты Эксперты в ПО vs. Инженеры по знаниям дать определение описать таксономические
отношения
выделить общее для разных школ
провести ФОРМАЛЬНЫЙ АНАЛИЗ
Примеры:
горная порода, руда, минеральное образование (бывает еще и на зубах), природное минеральное образование
национальный парк, лесопарк, парк
Эксперты-лингвисты – лингвистическая онтология – работа с текстами и значениями

Слайд 17

Работа экспертов - 1

Источники
Загруженные списки («кандидаты»), надо либо перевести «кандидата» в

Работа экспертов - 1 Источники Загруженные списки («кандидаты»), надо либо перевести «кандидата»
основной список, либо удалить
Энциклопедии, словари, учебники
Интернет
Операции (на основе материала источников)
Ввод нового понятия,
Описание его текстовых вариантов (макс. полно)
Таксономические отношения
Отношения зависимости понятий (на основе анализа определений, употребления в тексте

Слайд 18

Работа экспертов - 2

1) Ввод нового понятия
Список «кандидатов»
Энциклопедии, книги
2) Поиск

Работа экспертов - 2 1) Ввод нового понятия Список «кандидатов» Энциклопедии, книги
определения
Энциклопедии, Интернет
Анализ определения (анализ контекста употребления)
проверка определения – разные определения, старые определения
неполно выраженные, только в смысле текущего документа или в смысле подобласти
Выделение связанных понятий
3) Проверки
Употребляемость (Интернет, списки «кандидатов»)
Анализ лексической многозначности
эвтектика (сплав vs. точка эвтектики)
триасс (эпоха vs. пласт)

Слайд 20

Покрытие предметной области

понятийная структура

терминология и лексика

Покрытие предметной области понятийная структура терминология и лексика

Слайд 21

Уже можно использовать с существующим ПО

Уже можно использовать с существующим ПО

Слайд 22

Обсуждаемые применения

Мониторинг
инновационно ориентированный мониторинг, установление связей между сервисами / продуктами

Обсуждаемые применения Мониторинг инновационно ориентированный мониторинг, установление связей между сервисами / продуктами
и результатами научных исследований
поддержка экспертизы заявок и отчетов научных проектов, исключение дублирования
Техническое регулирование
поддержка экспертизы технических регламентов
определение объектов техрегулирования в тексте
применимость того или иного технического регламента
определение нарушения требований технических регламентов

Слайд 23

Выводы

Представлено состояние работ разработки лингвистической онтологии большого размера для автоматической обработки

Выводы Представлено состояние работ разработки лингвистической онтологии большого размера для автоматической обработки
текстов научно-технической тематики
Ресурс будет бесплатен для некоммерческого применения
Имя файла: Разработка-лингвистической-онтологии-для-решения-задач-информационного-поиска-.pptx
Количество просмотров: 140
Количество скачиваний: 1