КОМПЬЮТЕРНЫЙ АНАЛИЗ ЕСТЕСТВЕННО-ЯЗЫКОВОГО ТЕКСТА Рубашкин Валерий Шлемович, д. техн. н., профессор Митрофанова Ольга Александров
Содержание
- 2. Литература Palmer F. R. Semantics. A new outline. М., 1982. Кобозева И. М. Лингвистическая семантика. М.,
- 3. Рубашкин В. Ш. Семантический компонент в системах понимания текста // КИИ-2006. Десятая национальная конференция по искусственному
- 4. Рубашкин В. Ш., Чуприн Б.Ю. Распознавание количественной информации в ЕЯ-текстах // Компьютерная лингвистика и интеллектуальные технологии:
- 5. Дополнительная литература Арутюнова Н. Д. Предложение и его смысл (логико-семантические проблемы). М., 2003. Гершензон Л. М.,
- 6. Кузнецов И. П. Методы обработки сводок с выделением особенностей фигурантов и происшествий // Труды международного семинара
- 7. Раздел 1. ВВЕДЕНИЕ В ДИСЦИПЛИНУ Тема 1. Методологические основания Автоматический анализ текста как инженерная задача. Результат
- 8. Инженерная задача не имеет дисциплинарной принадлежности! Общеизвестные примеры. Водный транспорт (судостроение): дерево – сталь; плотник –
- 9. Автоматический анализ текста и вообще естественноязыковый диалог "человек – компьютер" не самоцель, а "неизбежное зло". Следует
- 10. О терминологии (и не только…) Избыток названий, именующих разные разделы и направления, с одной стороны, и
- 11. Дисциплинарное окружение "прикладной" лингвистики – та же картина: искусственный интеллект, инженерия знаний, концептуальное моделирование, формальные (вычислительные)
- 12. Общая и прикладная лингвистика А.Н. Баранов: прикладная лингвистика как "деятельность по приложению научных знаний об устройстве
- 13. Компьютерная - "бескомпьютерная" лингвистика. Термин компьютерная лингвистика - если понимать его в прямом значении – в
- 14. Инженерная лингвистика, по-видимому, не теряя связи с общей лингвистикой, все более будет смыкаться с инженерией знаний,
- 15. Резюме – достаточно 3-х терминов: Общая лингвистика, прикладная лингвистика, языковая инженерия (условно - инженерная лингвистика).
- 16. Еще один термин: ICSC2007 First IEEE International Conference on Semantic Computing September 17-19, 2007 Irvine, California,
- 17. Topics for submission include but are not limited to: Natural language understanding and processing Understanding and
- 18. Тема 2. Проблемы и ограничения. Реальные задачи семантического анализа Начало XXI века (2010-е и 2020-е) –
- 19. # 2.1. Реальные задачи семантического анализа Общая цель семантического анализа – обеспечить понимание любого осмысленного текста.
- 20. Общие задачи - дополнительная поддержка большинства лингвистических ИТ Основные лингвистические технологии: Автоматический перевод – первая "лингвистическая"
- 21. Специфическая задача: Переход от плохо структурированной (ЕЯ-текст) к хорошо структурированной информации. Целевые технологии: СУБД (формализация фактологической
- 22. Типовая задача сегодняшнего дня: извлечение из ЕЯ-текстов фактографической информации и структурирование ее, например, в форме записей
- 23. Jerry R. Hobbs, Douglas Appelt, John Bear, David Israel, Megumi Kameyama, Mark Stickel, and Mabry Tyson
- 24. There are five stages in the operation of FASTUS. Stage 1: Names and other fixed form
- 25. This decomposition of language processing enables the system to do exactly the right amount of domain-independent
- 26. Другая типовая задача - формализация нормативных документов разного типа – в частности, нормативно-технической (СНИПы, ГОСТы…) и
- 27. Пример постановки задачи типа Information Extraction: Распознаваемые факторы: 3 Уровень налогов в Латвии 10 Число пенсионеров
- 28. Релевантные контексты для фактора 100 Активность неграждан по защите своих прав и свобод 1001181 На минувшей
- 29. Релевантные контексты для фактора 80 Финансирование стран Балтии Евросоюзом 8001101 За первые три года Латвия рассчитывает
- 30. Пример формализации технической нормы: Жилые комнаты общежитий следует проектировать из расчета заселения не более трех человек
- 31. Нормируемые характеристики: расчетная вместимость: (не более трех человек); площадь на проживающего: (не менее 6,0 кв. м);
- 32. # 2.2. Существенные ограничения Формализовать смысл текста можно лишь при том непременном условии, что он там
- 33. Объектом анализа могут быть стилистически и лексически однородные деловые тексты, регламентированные профессиональной дисциплиной, - опирающиеся на
- 34. Проблематичны: Метафорические контексты, смысловые пропуски – в частности, контексты, апеллирующие к энциклопедической и общекультурной компетенции читателя.
- 35. # 2.3. Основные подходы. Модели и методы. Структурные модели. Уровни описания языка: фонетический / графематический, морфологический,
- 36. Словарная поддержка.на семантическом уровне: онтологии. Nirenburg S., Raskin V. Ontological Semantics, p. 10: Ontological semantics is
- 37. #2.4. Ситуация в целом: гордиев узел проблем Технологии полного и точного автоматического анализа делового текста пока
- 38. Установление референциальных отношений между единицами текста (как определить, что два разных слова в связном тексте именуют
- 39. Теория определений и семантические примитивы (атомы смысла) в языке. (Ср. лексические функции Мельчука – Жолковского.)
- 40. Буквальная семантика vs косвенное выражение смысла сообщения. С. Михалков: Трусы и рубашка лежат на песке, Никто
- 41. Посетитель в мастерской художника: - Не можете ли Вы предложить мне что-нибудь недорогое и в масле?
- 42. Методы формализации понятийных систем. Разработка концептуальных словарей (онтологий), необходимых для поддержки алгоритмов семантического анализа Прецедентный анализ
- 43. Для сравнения – : Computational semantics (IWCS-7) January 10-12, 2007, Tilburg, The Netherlands Endorsed by SIGSEM,
- 44. TOPICS OF INTEREST: * construction of representations of meaning in natural language * methodologies and practices
- 45. Тема 3. Взаимодействие с синтаксическим уровнем Формат передачи результатов синтаксического анализа должен содержать следующую информацию: Исходный
- 46. Формат синтаксической разметки должен предусматривать отображение, как минимум, следующих элементов: числовые коды всех понятий, соответствующих слову
- 47. Типы текстовых элементов в синтаксической разметке
- 48. Имена синтаксических связей Имя Код Описание ================================================== 0_RF 255 Нет синтаксической связи MAIN_RF 0 Главное слово
- 49. Имя Код Описание ================================================== ANAF_RF 11 Анафорическая PGEN_RF 12 Управление родительным с предлогом PDAT_RF 13 Управление
- 50. Имя Код Описание ================================================== SGM_RF 22 Межсегментные подчинительные связи ANDS_RF 24 Сочинительная для сегментов ANDN_RF 25
- 51. Техника синтаксической разметки: Система синтаксических связей в предложении представляется деревом зависимостей. Подчинительная синтаксическая связь идентифицируется у
- 52. Пример разметки сочинительных связей: (1) Красные и синие шары. (2) Цветные шары и пирамиды лежат на
- 53. Вариант 2 (представление сочинительных элементов отдельными узлами в дереве синтаксических зависисмостей): { (И, синие, ANDW _RF),
- 54. # 4. Синтаксическая омонимия Виды синтаксической омонимии: Реальная – формальная Локальная - глобальная Омонимия адреса -
- 55. Реальная – формальная омонимия Он из туманной привез плоды. Германии учености Реальная: Формальная: Обнаруживается, если устанавливать
- 56. Еще примеры: The plain flew over the hill. (= над) The dog jumped over the fence.
- 57. Локальная – глобальная омонимия Локальная: Выбор одной из альтернативных связей для данного слова не влияет на
- 58. Омонимия адреса - содержания Омонимия адреса: Альтернативные связи по разному определяют хозяина для данного слова Black
- 59. Омонимия разных видов связи: Омонимия сочинительных связей: Вошли два человека в шляпах и пальто. Вошли два
- 60. Омонимия семантической интерпретации синтаксической связи: Таблица стандартных размеров: 'Таблица имеет (характеристика) стандартный размер' 'Таблица содержит сведения
- 61. Схема табличного представления для синтаксической разметки
- 63. Пример синтаксической разметки: Средний уровень заработной платы в Латвии вырос на 20 %, при этом уровень
- 64. Формат синтаксической разметки требует стандартизации ! – без чего повисает в воздухе вопрос о переносимости. NB:
- 65. Модели и методы А. Общие подходы Универсальный целевой язык - логика предикатов. Другие языки (семантические сети,
- 66. Ключевой пункт - эффективная словарная поддержка. Любая система семантического анализа является тезаурусно-ориентированной. Основная проблема в создании
- 68. А. Семантический интерпретатор. Компонент, ответственный за семантическую интерпретацию грамматически выраженных связей - как правило, в пределах
- 69. Схема переборного механизма: [ Перебор документов ] [Перебор предложений в документе ] [Перебор сегментов в предложении]
- 70. #1. Отношения, которые подлежат распознаванию Ролевые: СООБЩАТЬ (SUB1[кто]: x1 , SUB2[кому]: x2 , OB[что/о чем]: y)
- 71. # 2. Распознавание ролевых отношений Отправным пунктом здесь является констатация того факта, что в языке имеется
- 72. Для приведенного выше примера: СООБЩАТЬ (SUB1[кто]: x1 , SUB2[кому]: x2 , OB[что/о чем]: y) Семантические требования:
- 73. Влияние грамматической формы предиката: Сообщение Ивана о … (GEN_RF) оставил сообщение для Петра (PGEN_RF) но: ?сообщение
- 74. Существенно, что: 1. Ожидания могут быть охарактеризованы в терминах фиксированного набора смысловых ролей - соответственно, можно
- 75. Слова-предикаты чаще всего относятся к следующим понятийным категориям. создание / уничтожение: нарисовать, придумать, написать, спроектировать, построить;
- 76. социальное действие: купить, приказать, арестовать, запретить, использовать, одобрять, сотрудничать, … ; пространственные отношения: находиться на, внутри,
- 77. Требуют решения следующие основные вопросы: 1. Определение необходимого и достаточного набора семантических ролей (номенклатура валентностей). 2.
- 78. Описание семантической модели управления (СЕМУ): СЕМУ ::= НОМЕР_СЕМУ | ::= условие заполнения> ::= OB1 | OB2
- 79. Примеры читать нагреть купить приехать приказать =========== финансирование помощь передавать встреча экспорт строительство миграция критиковать использовать
- 80. Грамматика валентностей Семантическим моделям управления на грамматическом уровне следует сопоставлять не синтаксические модели, рассматриваемые как самостоятельные
- 81. Два пути типизации описаний Типизация описаний отдельных валентностей: специфицируется семантическое условие заполнения и грамматические условия реализации.
- 82. Пример - глаголы передвижения: прибыл, отправился; пришел, прибежал, прилетел, приплыл, приполз, … Иван прилетел в Париж
- 83. Рабочие гипотезы для типизации описаний: Гипотеза 1. Для выражения основного информационного содержания научно-технического текста достаточен следующий
- 84. Гипотеза 2 (для варианта 2). Словарь предикатных термов может быть описан конечным, и притом, обозримым списком
- 85. Возможная синтаксическая роль актанта определяется грамматикой ролевых связей, устанавливающей соответствие вида ( Rf , GFP, TSEMU
- 86. Грамматика ролевых связей – языково-зависимый компонент. Может быть реализована в форме внешней таблицы – что должно
- 87. RF GFP TSEMU VAL ПРИМЕРЫ ======================================== NOM_RF VA 14 SUB1 Россия в 2001г. продала развивающимся странам
- 88. RF GFP TSEMU VAL ПРИМЕРЫ ======================================== DAT_RF VA 14 SUB2 Россия в 2001г. продала развивающимся странам
- 89. RF GFP TSEMU VAL ПРИМЕРЫ ======================================== PACC_RF VP 14 PREP боевые самолеты марки "СУ" поставлялись в
- 90. # 3. Распознавание отношения контактной кореференции Различительный тест - возможность синонимических трансформаций словосочетания – в том
- 91. Общая логическая схема интерпретации: PF ( x ) & PS ( x ) или PF (
- 92. Данная гипотеза может быть распространена на все виды десемантизированной подчинительной связи, такой как связи типа A
- 93. # 4. Распознавание функциональных отношений признак – значение признака: высокое – напряжение; весом - 2 [т]
- 94. 4.1. Анализ количественных групп. Что такое количественные группы? Стандартный пример: Жесткие диски емкостью до 100 ГБ.
- 95. Виды количественных значений и их представление: А. числовые точечные: мощностью 100 вт ? МОЩНОСТЬ_вт ( x,
- 96. «на сколько» - абсолютная оценка: мощность увеличена на 100 вт; МОЩНОСТЬ_вт ( x, v ) &
- 97. Задачи, решаемые анализатором: Разграничение величин и количеств: 20 человек vs 20 м Интерпретация именованного числа как
- 98. # 5. Смысловой повтор Отношения смыслового повтора обнаруживаются в словосочетаниях, обладающих смысловой избыточностью: произвел выстрел ~
- 99. #6. Предметно-ассоциативные отношения Связь между синтаксическим хозяином и слугой допускает конкретную содержательную интерпретацию; словосочетание может быть
- 100. При такой интерпретации различимы следующие смысловые составляющие: (1) дескрипция B(y), соответствующая синтаксическому хозяину; (2) дескрипция A(x),
- 101. Выбор «предметного» отношения при такой интерпретации может быть мотивирован по-разному. Для связей, маркируемых предлогом, одна из
- 102. Для установления специфицируемых предметно-ассоциативных отношений необходимы и достаточны условия: Понятия, соответствующие термам хозяина и слуги, находятся
- 103. Таким образом, при описании предлогов в семантическом словаре следует предусмотреть ответы на следующие вопросы: (1) какие
- 104. Б. Основные постулаты интерпретации синтаксических связей. Тип устанавливаемого семантического отношения определяется семантическими характеристиками хозяина и слуги.
- 105. Интерпретация синтаксической связи является контекстно-свободной. Предлоги рассматриваются не как самостоятельный объект интерпретации, а как дополнительная (семантико-грамматическая)
- 106. Порядок просмотра связей в синтаксическом графе именной группы процедурой семантической интерпретации, вообще говоря, имеет значение. Правильный
- 107. Порядок предпочтений при выборе "наилучшей" интерпретации: функциональные связи и связи, устанавливающие факт смысловой избыточности; ролевые –
- 108. Примеры: Экспериментатор воздействовал на спины элементарных частиц. Онтология: а) ‘Элементарная частица’ характеризуется признаком ‘спин’ Логическая интерпретация:
- 109. Общий подход (для лексической неоднозначности)– учет трех типов факторов [Agirre E., Stevenson M., WSD, p.p. 224
- 110. Контрпримеры: (1) Эти типы стали есть в прокатном цехе. Возможные средства разрешения (NB: алгоритм должен обнаружить
- 111. The box was in the pen. Bar-Hillel (1964) Невозможность использования основных значений: *Коробка была/находилась в пере/ручке.
- 112. Словарь Контекст 6.0: pen n 1. перо (писчее) 2. ручка (для письма - с пером, авторучка,
- 113. box n 1. коробка, ящик, сундук. 2. рождественский подарок (обычно в ящике) 3. ящик под сиденьем
- 114. Компьютерный спецсловарь в коплекте Контекст 6.0: box n 1. стойка, шкаф 2. блок 3. прямоугольник, рамка,
- 115. The astronomer married the star. Charniak (1983) Невозможность использования критерия предметной области. Необходимость обращения к модели
- 116. Словарь Контекст 6.0: star n 1. звезда, светило 2. звезда, ведущий актер или актриса; выдающаяся личность
- 117. Распознавание связей, не имеющих грамматического выражения. Основная проблема - кореференция имен объектов. Примеры: Так думал молодой
- 118. Недавнее землетрясение самым пагубным образом отразилось на Венеции. . . Уникальный исторический центр может выжить лишь
- 119. Примеры кореферентных связей (по Nirenburg & Raskin) Direct reference by name: Last week Bill Clinton went
- 120. Примеры построения связного текста: (1-1) Авианосец "Йорктаун" получил большие повреждения и был затоплен. (1-2а) … Крейсера
- 121. Общие соображения: Тотальность задачи анализа референции для любого текста. В лингвистических работах сравнительно недавнего прошлого кореференция
- 122. Анализ кореференции актуален как при рассмотрении дистантных (в частности, межфразовых связей), так и при рассмотрении связей
- 123. Для анализа отношений кореференции в пределах простого предложения наиболее значим учет актантной структуры предложения. При большинстве
- 124. Гипотеза индикации - концептуально простая модель, опирающаяся на словарный механизм вычисления объемной совместимости имен. Исходное предположение:
- 125. Референциальное отождествление имен объектов в связном тексте определяется тремя факторами: порядком следования имен в тексте; совместимостью
- 126. Содержание гипотезы индикации весьма компактно может быть представлено в табличной форме. Таблица отражает точку зрения анализа
- 127. Прецедентный анализ. Анализ "по образцу" (example-based, case-based,… ), основанный на использовании корпуса предварительно размеченных текстов. Пока
- 128. Словарная поддержка процедур семантического анализа "Семантический анализ – это словарь!" (Процедуры семантического анализа во всех без
- 129. Ключевые моменты: Должна быть четко различена лингвистическая и концептуальная лексикография. Словарь для поддержки семантического анализа должен
- 130. Концептуальный словарь должен представлять собой нечто большее, чем просто таксономию. Для моделей анализа ключевыми являются следующие
- 131. Словарь или словари? Можно ли создать концептуальный словарь как единый унифицированный вычислительный ресурс (sharable and reusable
- 133. Скачать презентацию