ПРОГРАММНЫЕ СРЕДСТВА ВЫЯВЛЕНИЯ ТЕРМИНОЛОГИЧЕСКИХ ВАРИАНТОВ В ТЕКСТАХ Антонов Вадим Юрьевич Научный руководитель: Ефремова Нат

Содержание

Слайд 2

ТЕРМИНЫ И ИХ ВАРИАНТЫ

Термины – слова и словосочетания, называющие понятия предметной области
рентгеновское

ТЕРМИНЫ И ИХ ВАРИАНТЫ Термины – слова и словосочетания, называющие понятия предметной
излучение
Употребление терминов в текстах –> терминологические варианты
излучение, рентгеновские лучи
Выявление терминологических вариантов важно учитывать при построении тезаурусов, онтологий, предметных указателей, классификации текстов

Слайд 3

КЛАССИФИКАЦИЯ ВАРИАНТОВ

Классификация терминологических вариантов для научно-технических текстов:
графические – компьютер/Компьютер
флективные – данные/данных
орфографические

КЛАССИФИКАЦИЯ ВАРИАНТОВ Классификация терминологических вариантов для научно-технических текстов: графические – компьютер/Компьютер флективные
– браузер/броузер
морфемные – выполнение/исполнение
сокращения – высшее учебное заведение/ВУЗ
синонимы – абсорбция/поглощение
лексико-синтаксические –
центральный процессор/процессор,
текстовая коллекция/коллекция текстов

Слайд 4

ПОСТАНОВКА ЗАДАЧИ

Изучить классификацию терминологических вариантов и подходы к их выявлению
На базе классификации

ПОСТАНОВКА ЗАДАЧИ Изучить классификацию терминологических вариантов и подходы к их выявлению На
разработать методы выявления терминологических вариантов в научно-технических текстах на русском языке
На их основе реализовать программные средства
Провести тестирование разработанных методов

Слайд 5

ПОДХОДЫ К ВЫЯВЛЕНИЮ

Символьный (статистический) подход
Термин и его варианты – символы
Вычисляется функция близости

ПОДХОДЫ К ВЫЯВЛЕНИЮ Символьный (статистический) подход Термин и его варианты – символы
для термина и его варианта,
для выбора порогового значения используется статистика
Не требуется лингвистическая информация и словари
Используется для орфографических и флективных вариантов
Лингвистический подход
Термин и его варианты – словосочетания
Анализируется синтаксическая структура словосочетания,
применяются правила образования вариантов и эвристики
Используется для лексико-синтаксических вариантов
Применён для английского и французского языков,
для русского языка не изучен

Слайд 6

ПРЕДЛАГАЕМОЕ РЕШЕНИЕ

Для каждого типа терминологических вариантов используется свой метод, основанный на одном

ПРЕДЛАГАЕМОЕ РЕШЕНИЕ Для каждого типа терминологических вариантов используется свой метод, основанный на одном из подходов
из подходов

Слайд 7

ЛЕКСИКО-СИНТАКСИЧЕСКИЕ ВАРИАНТЫ: ФОРМАЛИЗАЦИЯ

Информация о лексико-синтаксических вариантах формализована в виде правил их образования

ЛЕКСИКО-СИНТАКСИЧЕСКИЕ ВАРИАНТЫ: ФОРМАЛИЗАЦИЯ Информация о лексико-синтаксических вариантах формализована в виде правил их

Для формализации выбран язык LSPL и его библиотека:
позволяет описывать конструкции естественного языка в виде лексико-синтаксических шаблонов
предусмотрена возможность обработки информации, полученной в результате наложения LSPL-шаблона
Правило образования – лексико-синтаксический шаблон вида:
A1 N1 # N1, A2 N1, A1 N2

синтаксическая структура термина

синтаксическая
структура вариантов

Слайд 8

ЛЕКСИКО-СИНТАКСИЧЕСКИЕ ВАРИАНТЫ: ВЫЯВЛЕНИЕ

Основано на
автоматической конкретизации шаблона правила
A1 N1 # A1

ЛЕКСИКО-СИНТАКСИЧЕСКИЕ ВАРИАНТЫ: ВЫЯВЛЕНИЕ Основано на автоматической конкретизации шаблона правила A1 N1 #
N2
рентгеновские лучи # рентгеновское излучение
1 . Распознавание термина заданной структуры
A1 => рентгеновские, N1 => лучи
2. Нормализация слов термина
рентгеновские => рентгеновский, лучи => луч
3. Построение шаблона возможного варианта
A1<рентгеновский> N2
4. Поиск варианта в тексте по конкретизированному шаблону

словарь синонимов

согласование

термин

терминологический вариант

Слайд 9

ОБЩАЯ ПРОЦЕДУРА ВЫЯВЛЕНИЯ

Исходная информация:
Список терминов L1
Список кандидатов в терминологические варианты L2
Алгоритм:
1. Для

ОБЩАЯ ПРОЦЕДУРА ВЫЯВЛЕНИЯ Исходная информация: Список терминов L1 Список кандидатов в терминологические
каждого Ti ϵ L1 рассматриваем все Vj ϵ L2
2. Для пары Ti и Vj проверяем, являются ли они вариантами, путём применения методов в определённом порядке
Результаты работы:
Для каждого термина из L1 – список терминологических вариантов из L2

Слайд 10

ПРОГРАММНЫЕ СРЕДСТВА: АРХИТЕКТУРА

Компонент выявления терминологических вариантов

Консольные утилиты

Компонент выявления терминов

шаблоны

текст

шаблоны

словари

L1 и L2

L1 и

ПРОГРАММНЫЕ СРЕДСТВА: АРХИТЕКТУРА Компонент выявления терминологических вариантов Консольные утилиты Компонент выявления терминов
L2

варианты

Слайд 11

РЕАЛИЗАЦИЯ И ТЕСТИРОВАНИЕ МЕТОДОВ

Для реализации использован язык С++
Библиотеки: LSPL, AOT, boost, STL
Система

РЕАЛИЗАЦИЯ И ТЕСТИРОВАНИЕ МЕТОДОВ Для реализации использован язык С++ Библиотеки: LSPL, AOT,
контроля версий: git
Тестирование на научно-технических текстах из областей физики и информатики объемом более 500кб
Полнота выявления вариантов: 91%
Точность выявления вариантов: 86%
Выявлено употреблений терминов без учета терминологических вариантов: 13668
Выявлено употреблений терминов с учетом терминологических вариантов: 25178
Процент прироста употреблений терминов: 84%

Слайд 12

РЕЗУЛЬТАТЫ РАБОТЫ

Проанализированы современные подходы к выявлению терминологических вариантов, изучена классификация вариантов, типичных

РЕЗУЛЬТАТЫ РАБОТЫ Проанализированы современные подходы к выявлению терминологических вариантов, изучена классификация вариантов,
для русскоязычных научно-технических текстов
Разработаны методы выявления терминологических вариантов в соответствии с классификацией
Библиотека языка LSPL расширена для формирования конкретизированных шаблонов
Методы выявления реализованы в виде программных средств
Тестирование показало состоятельность предложенных методов выявления

Слайд 13


Результаты работы были представлены
(с публикацией) на:
Международной научной конференции студентов, аспирантов и

Результаты работы были представлены (с публикацией) на: Международной научной конференции студентов, аспирантов
молодых ученых «Ломоносов 2010»
Международной конференции по компьютерной лингвистике и интеллектуальным технологиям «Диалог 2010»
СПАСИБО ЗА ВНИМАНИЕ!
Имя файла: ПРОГРАММНЫЕ-СРЕДСТВА-ВЫЯВЛЕНИЯ-ТЕРМИНОЛОГИЧЕСКИХ-ВАРИАНТОВ-В-ТЕКСТАХ-Антонов-Вадим-Юрьевич-Научный-руководитель:-Ефремова-Нат.pptx
Количество просмотров: 464
Количество скачиваний: 1