Автоматическое построениетерминологической базы знаний

Содержание

Слайд 2

ОСНОВНЫЕ ЦЕЛИ

ИССЛЕДОВАТЕЛЬСКАЯ:
создание базы для исследований в области обработки естественно-языковых запросов на терминологической

ОСНОВНЫЕ ЦЕЛИ ИССЛЕДОВАТЕЛЬСКАЯ: создание базы для исследований в области обработки естественно-языковых запросов
сети.
ПРАГМАТИЧЕСКАЯ:
раскрытие семантики сочетаний
путем представления пользователю
множества содержащих их предложений.

RCDL 2008

Слайд 3

ОСНОВНЫЕ ПРОБЛЕМЫ
Критерий адекватности сочетаний предметной области?
Критерий группирования сочетаний
в предметном указателе терминологической

ОСНОВНЫЕ ПРОБЛЕМЫ Критерий адекватности сочетаний предметной области? Критерий группирования сочетаний в предметном
ИПС?
Мера ассоциативной близости сочетаний,
которая может быть использована для поиска информации в
терминологической сети?

RCDL 2008

Слайд 4

ВЫДЕЛЕНИЕ ТЕРМИНОПОБНЫХ СЛОВОСОЧЕТАНИЙ - 1

Известные условия, налагаемые на сочетания:
Устойчивость (повторение в тексте

ВЫДЕЛЕНИЕ ТЕРМИНОПОБНЫХ СЛОВОСОЧЕТАНИЙ - 1 Известные условия, налагаемые на сочетания: Устойчивость (повторение
минимум дважды)
Контактность
Объектность (обязательное наличие существительного)
Семантическая завершенность
Наше дополнение (обеспечивающее адекватность предметной области):
ДОМИНАНТНОСТЬ

RCDL 2008

Слайд 5

ВЫДЕЛЕНИЕ ТЕРМИНОПОБНЫХ СЛОВОСОЧЕТАНИЙ - 3

УСЛОВИЕ ДОМИНАНТНОСТИ
Терминоподобные словосочетания должны содержать слова, являющиеся доминантами

ВЫДЕЛЕНИЕ ТЕРМИНОПОБНЫХ СЛОВОСОЧЕТАНИЙ - 3 УСЛОВИЕ ДОМИНАНТНОСТИ Терминоподобные словосочетания должны содержать слова,

хотя бы в одном из
анализируемых текстов

RCDL 2008

Слайд 6

ВЫДЕЛЕНИЕ ТЕРМИНОПОБНЫХ СЛОВОСОЧЕТАНИЙ - 2

Отбор доминант

RCDL 2008

ВЫДЕЛЕНИЕ ТЕРМИНОПОБНЫХ СЛОВОСОЧЕТАНИЙ - 2 Отбор доминант RCDL 2008

Слайд 7

ВЫДЕЛЕНИЕ ТЕРМИНОПОБНЫХ СЛОВОСОЧЕТАНИЙ - 4

ВЕСА ДОМИНАНТ И СЛОВОСОЧЕТАНИЙ
Вес доминанты в фиксированном тексте

ВЫДЕЛЕНИЕ ТЕРМИНОПОБНЫХ СЛОВОСОЧЕТАНИЙ - 4 ВЕСА ДОМИНАНТ И СЛОВОСОЧЕТАНИЙ Вес доминанты в
равен
ее обратному рангу в убывающей по значению
ассоциативной мощности
последовательности доминант.
Вес нормы доминанты во множестве файлов равен сумме весов ее доминантных грамматических форм.
Вес словосочетания равен
сумме весов входящих доминант.
Вес нормы словосочетания равен
сумме весов элементов его парадигмы.

RCDL 2008

Слайд 8

ВЫДЕЛЕНИЕ ТЕРМИНОПОБНЫХ СЛОВОСОЧЕТАНИЙ - 5

Вход программы выделения терминоподобных словосочетаний
список полных имен файлов,

ВЫДЕЛЕНИЕ ТЕРМИНОПОБНЫХ СЛОВОСОЧЕТАНИЙ - 5 Вход программы выделения терминоподобных словосочетаний список полных
содержащих тексты из фиксированной предметной области;
файлы с текстами.
Выход
Множество фактов (в синтаксисе Пролога), представляющие:
дерево вхождений отфильтрованных словосочетаний в тексты и предложения текстов,
предметный указатель.
Файлы с текстами, в которых отмечены начала предложений.

RCDL 2008

Слайд 9

RCDL 2008

RCDL 2008

Слайд 10

Предметный указатель -1

Главные (кардинальные) слова терминоподобных словосочетаний.
Для организации предметного указателя
в каждом

Предметный указатель -1 Главные (кардинальные) слова терминоподобных словосочетаний. Для организации предметного указателя
словосочетании выделяется доминанта с наибольшим весом – кардинальное слово.
Словосочетания группируются по признаку общего кардинального слова.
В группах могут выделяться подгруппы с общими повторяющимися
сочетаниями слов с кардинальным.

RCDL 2008

Слайд 11

Предметный указатель -2

Пример групп и подгрупп
система
система искусственный интеллект
совершенствование
система искусственный

Предметный указатель -2 Пример групп и подгрупп система система искусственный интеллект совершенствование
интеллект
современный
система искусственный интеллект
система ии
современный система ии
построение система ии
история развитие система ии

RCDL 2008

Слайд 12

Предметный указатель -3

Ссылки на включения
В результате группирования часть кардинальных слов,
выбираемых последовательно

Предметный указатель -3 Ссылки на включения В результате группирования часть кардинальных слов,
из их множества, частично упорядоченного по убыванию веса,
может остаться без своих включающих словосочетаний.
В таком случае для них организуются ссылки на соответствующие группы.
Пример:
понимание->система->система понимание естественный язык

RCDL 2008

Слайд 13

Контекстная мера ассоциативной близости

A(Ki,Kj)=aN/(1+L×Lmin),
где
Ki,Kj – группы сочетаний, идентифицированные i-ым и j-ым

Контекстная мера ассоциативной близости A(Ki,Kj)=aN/(1+L×Lmin), где Ki,Kj – группы сочетаний, идентифицированные i-ым
кардинальными словами ,
N – число общих текстов (в которые входят
хотя бы по одному элементу парадигмы из различных групп),
L, Lmin – среднее и минимальное расстояния между предложениями, включающими элементы парадигм
различных групп,
a – нормировочный коэффициент

RCDL 2008

Слайд 14

ЭКСПЕРИМЕНТ. Группы анализируемых текстов

1. Философия (12 текстов, 33 файла),
2. Психология (19 текстов,

ЭКСПЕРИМЕНТ. Группы анализируемых текстов 1. Философия (12 текстов, 33 файла), 2. Психология
19 файлов)
3. СУБД (13 файлов).
4. Искусственный интеллект (13 текстов, 18 файлов)
5. Политология (3 текста, 32 файла).
6. Монография Н.А. Олифер, В.Г. Олифер
"Сетевые операционные системы" (10 файлов).
7. Карамзин "История государства Российского" (12 файлов)
8. Бунин (52 файла),
9. Чехов (11 файлов),
10. Борис Акунин (5 романов, 57 файлов).

RCDL 2008

Слайд 15

ЭКСПЕРИМЕНТ. Контроль адекватности

Эталонные множества словосочетаний (нормированные наименования статей):
а) «Новейший философский словарь

ЭКСПЕРИМЕНТ. Контроль адекватности Эталонные множества словосочетаний (нормированные наименования статей): а) «Новейший философский
под редакцией Грицанова А.А.», 1390 наименований, («Философия-эталон»);
б) «Психологический словарь»,2172 наименования, («Психология-эталон»).
в) «Словарь компьютерной лексики», 1213 наименований, («КомпЛекс-эталон»).
Контрольные множества словосочетаний: «СУБД», «СетОпСист», «Иск. Инт.», «Философия», «Психология»
Для контроля качества подборок был проанализирован Краткий справочник «Психологические теории и концепции личности..») и нормированные двухсловные словосочетания включили в контрольную подборку («ПсихТеор»).

RCDL 2008

Слайд 16

ЭКСПЕРИМЕНТ. Контроль адекватности

RCDL 2008

ЭКСПЕРИМЕНТ. Контроль адекватности RCDL 2008

Слайд 17

ЭКСПЕРИМЕНТ. Пример. Первые 10 словосочетаний. «Сетевые операционные системы»

Упорядоченность: а) по убыванию веса, б)

ЭКСПЕРИМЕНТ. Пример. Первые 10 словосочетаний. «Сетевые операционные системы» Упорядоченность: а) по убыванию
по убыванию числа повторений в различных текстах, б.2) по литературным данным
а) сетевая ос, операционная система, сервер netware, база данных, файловая система, менеджер памяти, сетевая операционная система, функции операционной системы, сервер сети, драйвер файловой системы;
б) операционная система, программное обеспечение, файловая система, рабочая станция, структура данных, получение доступа, передача сообщений, виртуальная память, оперативная память, реальное время;
б.2) операционная система, файловая система, адресное пространство, ввод-вывод, оперативная память, рабочая станция, системный вызов, база данных, право доступа, программное обеспечение.

RCDL 2008

Слайд 18

ЭКСПЕРИМЕНТ. Пример. Первые 10 словосочетаний. «СУБД» Упорядоченность: а) по убыванию веса, б)

ЭКСПЕРИМЕНТ. Пример. Первые 10 словосочетаний. «СУБД» Упорядоченность: а) по убыванию веса, б)
по убыванию числа повторений в различных текстах

а) база данных, распределенная база данных, страница данных, сервер базы данных, объект базы данных, состояние базы данных, локальная база данных, модель данных, система баз данных, тип данных;
б) база данных, ограничение целостности, внешняя память, язык sql, реляционная субд, прикладная программа, оперативная память, кортеж отношения, информационная система, управление базами данных;

RCDL 2008

Слайд 19

ЭКСПЕРИМЕНТ.

Первые тройки правил (по частоте использования) лексико-морфологического фильтра
Компьютерная лингвистика
21 Последнее слово не

ЭКСПЕРИМЕНТ. Первые тройки правил (по частоте использования) лексико-морфологического фильтра Компьютерная лингвистика 21
существительное и не прилагательное
9 Первое слово начинается не с кириллицы
и второе слово не в именительном падеже
8 Нет существительного в составе
Искусственный интеллект
38 Первое слово - элемент парадигмы "какой-либо"
32 Последнее слово не существительное и не прилагательное
23 Первое слово "система"|"system", второе - латинская буква
СУБД
46 Последнее слово не существительное и не прилагательное
30 Первое слово - элемент парадигмы "какой-либо"
20 Первое слово начинается не с кириллицы
и второе слово не в именительном падеже
Философия
90 Последнее слово не существительное и не прилагательное
37 Нет существительного в составе
32 Первое слово есть глагол в несовершенной форме
Психология
55 Последнее слово не существительное и не прилагательное
40 Нет существительного в составе
26 Первое слово - элемент парадигмы "какой-либо"

RCDL 2008

Слайд 20

ИПС. Меню выбора сочетания из группы

RCDL 2008

ИПС. Меню выбора сочетания из группы RCDL 2008

Слайд 21

ИПС. Предложения вхождения

RCDL 2008

ИПС. Предложения вхождения RCDL 2008

Слайд 22

ИПС. Результаты поиска ассоциаций с кардинальными словами «система» и «данный»

RCDL 2008

ИПС. Результаты поиска ассоциаций с кардинальными словами «система» и «данный» RCDL 2008

Слайд 23

ЭКСПЕРИМЕНТ. Кардинальное слово «Память». Ассоциации с другими кардинальными словами

RCDL 2008

ЭКСПЕРИМЕНТ. Кардинальное слово «Память». Ассоциации с другими кардинальными словами RCDL 2008

Слайд 24

ЗАКЛЮЧЕНИЕ

Представленный метод выделения терминоподобных
словосочетаний, основанный на предварительном
определении доминант, как наиболее
тематически значимых слов

ЗАКЛЮЧЕНИЕ Представленный метод выделения терминоподобных словосочетаний, основанный на предварительном определении доминант, как
текста, гарантирует
адекватность выделенных словосочетаний
предметным областям и пригоден для
автоматической генерации
терминологических баз знаний.
Предложенная мера ассоциативной близости
кардинальных слов может быть использована при
интерпретации запросов, как запросов на
поиск наиболее нагруженных путей между
предложениями, включающими выделенные из
запросов кардинальные слова.

RCDL 2008

Имя файла: Автоматическое-построениетерминологической-базы-знаний.pptx
Количество просмотров: 129
Количество скачиваний: 0