Б.В. Добров, Н.В. Лукашевич, Информационно-поисковые тезаурусы и современные информационные технологии

Содержание

Слайд 2

Современные информационные технологии

Огромные объемы электронной информации
Автоматическая обработка текстов и задачи информационного поиска
Автоматическое

Современные информационные технологии Огромные объемы электронной информации Автоматическая обработка текстов и задачи
индексирование
Автоматическая рубрикация
Автоматическое аннотирование
Поиск ответов на вопросы
Поиск похожих документов

Слайд 3

План презентации

Структура и разработка традиционных информационно-поисковых тезаурусов
Тезаурус EUROVOC
Принципы разработки тезауруса для автоматической

План презентации Структура и разработка традиционных информационно-поисковых тезаурусов Тезаурус EUROVOC Принципы разработки
обработки текстов
Общественно-политический тезаурус для автоматического концептуального индексирования
Общественно-политический тезаурус и автоматическая обработка текстов

Слайд 4

Понятийная система предметной области

Основой любой предметной области служит система понятий этой области.

Понятийная система предметной области Основой любой предметной области служит система понятий этой

Определение понятия:
Понятие – мысль, отражающая в обобщенной форме предметы и явления действительности посредством фиксации их свойств и отношений; последние (свойства и отношения) выступают в понятии как общие и специфические признаки, соотнесенные с классами предметов и явлений (Лингвистический словарь)

Слайд 5

Соотношение понятие-термин

Понятие
Однозначное название = термин в смысле Теории терминологии
Текстовые термины

Соотношение понятие-термин Понятие Однозначное название = термин в смысле Теории терминологии Текстовые термины

Слайд 6

Информационно-поисковые тезаурусы

Информационно-поисковый Тезаурус – контролируемый словарь терминов предметной области, создаваемый для улучшения

Информационно-поисковые тезаурусы Информационно-поисковый Тезаурус – контролируемый словарь терминов предметной области, создаваемый для
качества информационного поиска в данной предметной области
Структура ИПТ:
Основные понятия ПО – дескрипторы
Условные синонимы – аскрипторы –
Отношения эквивалентности аскриптор – дескриптор
Отношения между дескрипторами

Слайд 7

Информационно-поисковые тезаурусы: этапы разработки

Первый этап: индексаторы описывают основную тему текста произвольными словами

Информационно-поисковые тезаурусы: этапы разработки Первый этап: индексаторы описывают основную тему текста произвольными
и словосочетаниями
Полученные по многим текстам термины сводятся вместе
Среди близких по смыслу терминов выбирается наиболее представительный
Некоторые из оставшихся становятся условными синонимами, остальные удаляются
Конкретные термины обычно не включаются

Слайд 8

Информационно-поисковые тезаурусы: искусство разработки

Дескрипторы – это термины, которые нужны для выражения основной

Информационно-поисковые тезаурусы: искусство разработки Дескрипторы – это термины, которые нужны для выражения
темы документа
Синонимы включаются только самые необходимые (например, начинаются с другой буквы), чтобы не затруднять работу индексатора
Близкие термины должны быть сведены к одному термину, чтобы избежать субъективности индексирования
Уровни иерархии, включение конкретных терминов ограничиваются

Слайд 9

Информационно-поисковый тезаурус: искусство разработки - 2

В сложных случаях дескрипторы снабжаются пометами и

Информационно-поисковый тезаурус: искусство разработки - 2 В сложных случаях дескрипторы снабжаются пометами
комментариями
LIV: bombardment – bombing
Многозначные термины: одно значение в тезаурусе (capital), не помещаются в тезаурус, пометы
!!! Традиционный информационно-поисковый Тезаурус – искусственный язык, построенный на базе реальных терминов

Слайд 10

Тезаурус EUROVOC – многоязычный тезаурус Европейского Сообщества

Тезаурус на 9 языках - 1995
Русская

Тезаурус EUROVOC – многоязычный тезаурус Европейского Сообщества Тезаурус на 9 языках -
версия EUROVOC
+5 тысяч понятий, отражающих российскую специфику
Многоязычный тезаурус
Дескриптор – названия на разных языках
Аскрипторы – для некоторых языков

Слайд 11

EUROVOC: нехватка синонимов и вариантов терминов

помимо указанных в тезаурусе вариантов может быть

EUROVOC: нехватка синонимов и вариантов терминов помимо указанных в тезаурусе вариантов может
выражен также следующими словами и терминами, неописанными в тезаурусе, но встречающимися в текстах российских правовых актов:
=ОХРАНА ОКРУЖАЮЩЕЙ СРЕДЫ= : защита природы, природозащитный, природоохранный, природоохранительный (меры, деятельность, процесс)
=ОХРАНА ЛЕСОВ= : защита лесов, защита лесного фонда, лесозащитный (деятельность, мероприятия), лесоохранный

Слайд 12

EUROVOC: многозначность терминов

Включены термины в одном из значений, многозначность не указана:
кожа (как

EUROVOC: многозначность терминов Включены термины в одном из значений, многозначность не указана:
кожевенная продукция и кожа человека),
печать (как СМИ, как штамп, как процесс печатания),
питание (еда и электрическое питание),
корма (питание животных и часть корабля),
образование (как обучение и как создание чего либо).

Слайд 13

EUROVOC: нехватка конкретных терминов

Тезаурус в своем изложении иерархии понятий останавливается на достаточно

EUROVOC: нехватка конкретных терминов Тезаурус в своем изложении иерархии понятий останавливается на
высоком уровне иерархии и не включает более конкретные термины.
В тезаурусе
рыба НО в тексте: минтай
военнослужащий НО в тексте: солдат
зерно НО в тексте: пшеница

Слайд 14

EUROVOC: примеры отношений

ПРИБОРОСТРОЕНИЕ
НИЖЕ КОНТРОЛЬНО-ИЗМЕРИТЕЛЬНЫЕ ПРИБОРЫ
НИЖЕ НАУЧНЫЕ ПРИБОРЫ
ОХРАНА ДЕТСТВА АСЦ

EUROVOC: примеры отношений ПРИБОРОСТРОЕНИЕ НИЖЕ КОНТРОЛЬНО-ИЗМЕРИТЕЛЬНЫЕ ПРИБОРЫ НИЖЕ НАУЧНЫЕ ПРИБОРЫ ОХРАНА ДЕТСТВА
ПРОСТИТУЦИЯ
МОНОГРАФИИ АСЦ ТИПОГРАФИИ

Слайд 15

Тезаурус для автоматического концептуального индексирования: отличительные особенности

Включение значительного числа конкретных понятий (дескрипторов):

Тезаурус для автоматического концептуального индексирования: отличительные особенности Включение значительного числа конкретных понятий
не только понятие =РЫБА=, но и виды рыб;
Формирование обширных списков текстовых вариантов понятия, не только ОХРАНА ПРИРОДЫ, но и ЗАЩИТА ПРИРОДЫ,
ПРИРОДООХРАННАЯ СФЕРА, ПРИРОДООХРАНИТЕЛЬНЫЙ,
ПРИРОДООХРАННЫЙ;
Описание многозначных терминов;
Возрастание количества понятий
Возрастание количества отношений между понятиями;
Необходимость определения логических свойств
отношений;
Введение новых типов отношений, обладающих
различными логическими свойствами

Слайд 16

От традиционных информационно-поисковых тезаурусов к формальным онтологиям NKOS-2003
precisely defined semantics

От традиционных информационно-поисковых тезаурусов к формальным онтологиям NKOS-2003 precisely defined semantics

Слайд 17

Broader Term (BT) and Narrower Term (NT) relations in AGROVOC

BT and

Broader Term (BT) and Narrower Term (NT) relations in AGROVOC BT and
NT are typical hierarchical relations in a thesaurus. However, their semantics is not explicitly defined. It is common for BT/NT relations within a thesauri to include at least the following:
Is-A (e.g. Milk/ Cow’s Milk; Development Agency/IDRC)
Ingredient of (e.g. Milk/ Milk Fat)
Milk fat is an ingredient of milk
Property of (e.g. Maize/Sweet corn)
Sweetness is a property of corn

Some examples from AGROVOC
MAIZE
NT dent maize
NT flint maize NT popcorn NT soft maize NT sweet corn NT waxy maize  
MILK
NT Milk Fat
NT Colostrum
NT Cow’s Milk
Development Agencies
NT development banks NT voluntary agencies NT IDRC

Слайд 18

Related Term (RT) in AGROVOC

RT represents the associative relation. The RT usually

Related Term (RT) in AGROVOC RT represents the associative relation. The RT
involves the most ambiguous semantics. RT can include the following.
causality
agency or instrument
hierarchy - where polyhierarchy has not been allowed the missing hierarchical relationships are replaced by associative relationships
sequence in time or space
constituency
characteristic feature
object of an action, process or discipline
location
similarity (in cases where two near-synonyms have been included as descriptors)
antonym

Some examples from AGROVOC
DEGRADATION
RT chemical reactions
RT discoloration
RT hydrolysis
RT shrinkage
IDRC
RT Canada

causality

location

Слайд 19

Правила ERIC Thesaurus

Can use the rules
Rule 1 If X isa (type of) instruction

Правила ERIC Thesaurus Can use the rules Rule 1 If X isa
and X has domain Z and Y isa ability and Y has domain Z Then X should consider Y
Rule 2 If X should consider Y and Y is supported by W Then X should consider W

Слайд 20

Fragment of EUROVOC Article

Land register
RT Building permit
RT Local tax
RT Property tax
RT Town-planning regulations
Reverse relations:
Building permit Local

Fragment of EUROVOC Article Land register RT Building permit RT Local tax
tax
RT Land register RT Land register
Property tax Town-planning regulations
RT Land register RT Land register

Слайд 21

Эксперимент на основе простых запросов

Известно, что использование ресурсов обычно увеличивает полноту и

Эксперимент на основе простых запросов Известно, что использование ресурсов обычно увеличивает полноту
снижает точность
Простой запрос состоит из одного понятия онтологии – SQ(C)
Простой запрос – найти все о С
Используются отношения онтологической зависимости
Если точность поиска по простому запросу низка, то и точность сложных запросов также ухудшится

Слайд 22

Исполнение эксперимента

R (C1, C2)
SQ(C1) – расширить на тексты, содержащие С2
Возьмем тексты,

Исполнение эксперимента R (C1, C2) SQ(C1) – расширить на тексты, содержащие С2
содержащие С2, и не содержащие С1, и проверим, какие из них релевантны SQ(C1)
УИС Россия – векторная модель, первые 50 текстов, содержащие С2. Проблема многозначности исключена

Слайд 23

Results of Simple Queries Runs

SQ (land register) – 50 documents
41

Results of Simple Queries Runs SQ (land register) – 50 documents 41
is relevant to SQ (Land Register )
Among 41
11 documents are relevant to SQ (property tax)
9 documents – SQ (local tax)
9 documents – SQ (town-planning regulations)
3 documents – SQ (building permit)
Runs for REVERSE relations
50 documents relevant SQ (property tax)
5 documents are relevant to SQ (Land Register)

Слайд 24

Почему точность низка при использовании EUROVOC

Все отношения отражают важные взаимосвязи
Но

Почему точность низка при использовании EUROVOC Все отношения отражают важные взаимосвязи Но
каждое понятие может рассматриваться в разных аспектах
Информация кадастра нужна для разрешений на строительство, исчисления местных налогов или налога на имущество
Получение разрешения на строительство требует разных документов
Применимость рассмотренных отношений тезауруса EUROVOC зависит от контекста документа !!!

Слайд 25

Отношения в тезаурусе для автоматической обработки не должны зависеть от контекста!!!

Таксономические

Отношения в тезаурусе для автоматической обработки не должны зависеть от контекста!!! Таксономические
отношения
Некоторые виды отношений часть-целое
Анатомические части
Географические части
Отношения онтологической зависимости (N. Guarino)
Строгая зависимость: кипение - жидкость
Родовая зависимость: гараж - автомобиль

Слайд 26

Функции отношений в тезаурусе для автоматического индексирования

Расширение запроса
Вывод рубрики по встретившимся

Функции отношений в тезаурусе для автоматического индексирования Расширение запроса Вывод рубрики по
в тексте терминам
3) Разрешение многозначности
4) Установление лексической связности в тексте для более качественного выявления понятий основной темы текста

Слайд 27

Общественно-политический тезаурус

Тезаурус для автоматической обработки текстов в общественно-политической области
Начат в 1994 году
Автоматизированное

Общественно-политический тезаурус Тезаурус для автоматической обработки текстов в общественно-политической области Начат в
извлечение терминов из текста
С 1995 года применяется в реальной автоматической обработке текстов, тестируется и дополняется в процессе выполнения конкретных работ
Иерархическая сеть понятий
32 тыс. понятий,
79 тыс. русскоязычных слов и терминов,
80 тыс. англоязычных слов и терминов

Слайд 28

Общественно-политическая область

Жизнь современного общества, общезначимые сферы деятельности
Понятия известны значительному количеству

Общественно-политическая область Жизнь современного общества, общезначимые сферы деятельности Понятия известны значительному количеству
современных людей, важны для многих
Официальные документы, законы, газетные публикации – одна и та же область
Значительная часть общезначимой лексики (40 процентов)
Верхние уровни терминологии значительного количества различных предметных областей

Слайд 29

Общественно-политическая область

Уровни иерархии

Право

Бухучет

Налоги

Банки

Предметные подобласти в Общественно-политическом тезаурусе

Общественно-политическая область Уровни иерархии Право Бухучет Налоги Банки Предметные подобласти в Общественно-политическом тезаурусе

Слайд 30

Рабочий экран оболочки тезауруса
Разные предметные области в одной оболочке
Допускается распределенное

Рабочий экран оболочки тезауруса Разные предметные области в одной оболочке Допускается распределенное ведение
ведение

Слайд 32

Пример синонимического ряда

ЗАЩИТА ОКРУЖАЮЩЕЙ ПРИРОДНОЙ СРЕДЫ
ЗАЩИТА ПРИРОДНОЙ СРЕДЫ
ЗАЩИТА ПРИРОДЫ

Пример синонимического ряда ЗАЩИТА ОКРУЖАЮЩЕЙ ПРИРОДНОЙ СРЕДЫ ЗАЩИТА ПРИРОДНОЙ СРЕДЫ ЗАЩИТА ПРИРОДЫ
ОХРАНА ОКРУЖАЮЩЕЙ ПРИРОДНОЙ СРЕДЫ
ОХРАНА ПРИРОДНОЙ СРЕДЫ
ОХРАНА ПРИРОДЫ
ОХРАНЯТЬ ПРИРОДУ
ПРИРОДОЗАЩИТА
ПРИРОДОЗАЩИТНЫЙ
ПРИРОДООХРАНА
ПРИРОДООХРАНИТЕЛЬНЫЙ
ПРИРОДООХРАННЫЙ

Слайд 33

Представление значений языковых выражений в тезаурусе РуТез

ГЕОЛОГИЧЕСКАЯ РАЗВЕДКА
Геологоразведка, геологоразведочный, …разведка, разведка месторождений,

Представление значений языковых выражений в тезаурусе РуТез ГЕОЛОГИЧЕСКАЯ РАЗВЕДКА Геологоразведка, геологоразведочный, …разведка,
разведка полезных ископаемых…
РАЗВЕДЫВАТЕЛЬНАЯ ДЕЯТЕЛЬНОСТЬ
Разведдеятельность, разведка, разведоперация

Слайд 34

Отношения в Общественно-политическом тезаурусе

отношение ВЫШЕ-НИЖЕ – таксономическое отношение
НО!!

Отношения в Общественно-политическом тезаурусе отношение ВЫШЕ-НИЖЕ – таксономическое отношение НО!! Должно быть
Должно быть действительно для всех примеров понятий и все время их существования => Транзитивность
Симметричная ассоциация АСЦ – для очень похожих понятий

Слайд 35

Отношения (2) в Общественно-политическом тезаурусе

отношение ЧАСТЬ-ЦЕЛОЕ – традиционные части, +

Отношения (2) в Общественно-политическом тезаурусе отношение ЧАСТЬ-ЦЕЛОЕ – традиционные части, + участники
участники ситуации, +свойства
НО!! Должно быть действительно для всех примеров понятий-частей и все время их существования => Транзитивность
Отношение АСЦ2 (АСЦ1) – онтологически зависимые сущности – иерархично и наследуется

Слайд 36

Автоматическая обработка текстов на основе Общественно-политического Тезауруса

АЛОТ – автоматическая лингвистическая обработка текстов
Концептуальное

Автоматическая обработка текстов на основе Общественно-политического Тезауруса АЛОТ – автоматическая лингвистическая обработка
индексирование
Ранжированный информационный поиск:
Многоязычный информационный поиск
Автоматическая рубрикация текстов
- 10+ различных рубрикаторов
- количество рубрик от 35 до 3000
- рубрика как сложный запрос
Автоматическое аннотирование текстов
(первое место в номинации «Индикативная аннотация
наилучшей длины» конференции по автоматическому
аннотированию SUMMAC (1998))
Тематическая аннотация

Слайд 37

Наши проекты

Аппарат Государственной Думы ФС РФ (1999 - н/в)
НИИ Восход;

Наши проекты Аппарат Государственной Думы ФС РФ (1999 - н/в) НИИ Восход;
ЦИК РФ (1997 - н/в)
НПП Гарант-Сервис (2002 – н/в)
Министерство образования; ГУМЦ «Базис» (2003, 04)
Счетная палата (2003 – 2004)
ФАПСИ (1998, 2000 – н/в)
ИППИ РАН; Управление спецпрограмм (1996)
Гранты:
Фонд МакАртуров (1994, 1995, 2004)
Фонд Форда (2002, 2003)
РФФИ (9), РГНФ (5)
Фонд Евразия (2002, 2003)

Слайд 38

Информеры для уточнения запроса

Информеры для уточнения запроса

Слайд 39

Результаты концептуального поиска
Документы на русском языке
Наиболее характерные для выдачи

Результаты концептуального поиска Документы на русском языке Наиболее характерные для выдачи понятия
понятия

Слайд 40

АЛОТ: основные этапы

Конвертация файлов: формальные характеристики и неиндексируемые фрагменты
Графематический и морфологический анализ
Терминологический

АЛОТ: основные этапы Конвертация файлов: формальные характеристики и неиндексируемые фрагменты Графематический и
анализ: сопоставление с тезаурусом. Терминологический индекс
Разрешение многозначности терминов
Тематический анализ: формирование тематических узлов
Построение тематического представления: основные и локальные тематические узлы. Определение весов терминов
Определение рубрик по заданным рубрикаторам
Построение аннотации

Слайд 41

Тематические линии терминов Тезауруса (Постановление Правительства РФ от 26 июня 1995 г.

Тематические линии терминов Тезауруса (Постановление Правительства РФ от 26 июня 1995 г.
N 604)

О порядке оказания безвозмездной финансовой помощи
на строительство (покупку) жилья и выплаты денежной
компенсации за наем (поднаем) жилых помещений
военнослужащим и гражданам, уволенным с военной службы
Во исполнение Закона Российской Федерации "О статусе
военнослужащих" и в целях обеспечения прав на жилище военнослужащих
и граждан, уволенных с военной службы, Правительство Российской
Федерации п о с т а н о в л я е т :
1. Утвердить прилагаемое Положение о порядке оказания
безвозмездной финансовой помощи на строительство (покупку) жилья и
выплаты денежной компенсации за наем (поднаем) жилых помещений
военнослужащим и гражданам, уволенным с военной службы.
2. Министерству обороны Российской Федерации и иным
федеральным органам исполнительной власти, в которых предусмотрена
военная служба:
в месячный срок разработать и утвердить формы и перечень
документов, необходимых для принятия решения об оказании
военнослужащим безвозмездной финансовой помощи на строительство
(покупку) жилья и о выплате денежной компенсации за наем (поднаем)
жилых помещений;
расходы, связанные с оказанием военнослужащим безвозмездной
финансовой помощи и выплатой денежной компенсации за наем (поднаем)
жилых помещений, производить за счет и в пределах средств,
выделяемых из федерального бюджета по сметам этих федеральных
органов исполнительной власти.
3. Органам исполнительной власти субъектов Российской
Федерации:
оказывать безвозмездную финансовую помощь в избранном
постоянном месте жительства гражданам, уволенным с военной службы,
осуществляющим строительство (покупку) жилья, за счет и в пределах
средств федерального бюджета, выделяемых на жилищное строительство
для этой категории граждан;

Слайд 42

Сеть тематических узлов
(Постановление Правительства РФ от 26 июня 1995 г. N 604)

Сеть тематических узлов (Постановление Правительства РФ от 26 июня 1995 г. N 604)

Слайд 43

Тематическая аннотация (Постановление Правительства РФ от 26 июня 1995 г. N 604)

----+----------------------------------------------------------------------+
|

Тематическая аннотация (Постановление Правительства РФ от 26 июня 1995 г. N 604)
ВОЕННАЯ СЛУЖБА; ВОЕННОСЛУЖАЩИЙ; ВОИНСКАЯ СЛУЖБА ПО КОНТРАКТУ |
****| |
| |
| +------------------------------------------------------------------+
| | ЖИЛОЕ ПОМЕЩЕНИЕ; НАЕМ ЖИЛОГО ПОМЕЩЕНИЯ; ОБЕСПЕЧЕННОСТЬ ЖИЛЬЕМ; |
****| X | КВАРТИРА; ЖИЛИЩНАЯ НОРМА; КОМНАТА (ПОМЕЩЕНИЕ); ЗДАНИЕ; |
| | ЖИЛОЕ ЗДАНИЕ; ЖИЛАЯ ПЛОЩАДЬ |
| | +--------------------------------------------------------------+
| | | ФИНАНСОВАЯ ПОМОЩЬ; |
****| z | z | |
| | | +----------------------------------------------------------+
| | | | ГРАЖДАНИН |
****| X | z | . | |
| | | | +------------------------------------------------------+
| | | | | УВОЛЬНЕНИЕ; |
****| X | z | . | X | |
| | | | | +--------------------------------------------------+
| | | | | | СТРОИТЕЛЬСТВО; ЖИЛИЩНОЕ СТРОИТЕЛЬСТВО; |
****| . | X | z | . | . | ЖИЛИЩНО-СТРОИТЕЛЬНЫЙ КООПЕРАТИВ; |
| | | | | | +----------------------------------------------+
| | | | | | | ФЕДЕРАЛЬНЫЙ ОРГАН ИСПОЛНИТЕЛЬНОЙ ВЛАСТИ; |
****| X | . | z | . | . | . | ОРГАН ИСПОЛНИТЕЛЬНОЙ ВЛАСТИ; ПРАВИТЕЛЬСТВО; |
| | | | | | | ПРАВИТЕЛЬСТВО РОССИИ; МИНИСТЕРСТВО ОБОРОНЫ; |
| | | | | | | +------------------------------------------+
| | | | | | | | ПОКУПКА; ДЕНЬГИ; ПЛАТИТЬ; |
****| z | X | z | . | . | z | z | |

Слайд 44

Тематическое двуязычное индексирование

Русскоязычный документ

Англоязычный документ

Англоязычное представление

Русскоязычное представление

Тематическое представление содержания документа

Тематическое двуязычное индексирование Русскоязычный документ Англоязычный документ Англоязычное представление Русскоязычное представление Тематическое представление содержания документа

Слайд 45

Thematic representation of a text:
Thematic Node i
||
+ == Thematic Node j

Thematic node

Thematic representation of a text: Thematic Node i || + == Thematic
in the text

Слайд 47

Терминологическая поддержка рубрикации

Объяснение выбора рубрики по тексту

Терминологическая поддержка рубрикации Объяснение выбора рубрики по тексту
Имя файла: Б.В. Добров,-Н.В.-Лукашевич,-Информационно-поисковые-тезаурусы-и-современные-информационные-технологии.pptx
Количество просмотров: 161
Количество скачиваний: 1