КОМПЬЮТЕРНЫЙ АНАЛИЗ ЕСТЕСТВЕННО-ЯЗЫКОВОГО ТЕКСТА Рубашкин Валерий Шлемович, д. техн. н., профессор Митрофанова Ольга Александров
Содержание
- 2. Литература Palmer F. R. Semantics. A new outline. М., 1982. Кобозева И. М. Лингвистическая семантика. М.,
- 3. Рубашкин В. Ш. Семантический компонент в системах понимания текста // КИИ-2006. Десятая национальная конференция по искусственному
- 4. Рубашкин В. Ш., Чуприн Б.Ю. Распознавание количественной информации в ЕЯ-текстах // Компьютерная лингвистика и интеллектуальные технологии:
- 5. Дополнительная литература Арутюнова Н. Д. Предложение и его смысл (логико-семантические проблемы). М., 2003. Гершензон Л. М.,
- 6. Кузнецов И. П. Методы обработки сводок с выделением особенностей фигурантов и происшествий // Труды международного семинара
- 7. Раздел 1. ВВЕДЕНИЕ В ДИСЦИПЛИНУ Тема 1. Методологические основания Автоматический анализ текста как инженерная задача. Результат
- 8. Инженерная задача не имеет дисциплинарной принадлежности! Общеизвестные примеры. Водный транспорт (судостроение): дерево – сталь; плотник –
- 9. Автоматический анализ текста и вообще естественноязыковый диалог "человек – компьютер" не самоцель, а "неизбежное зло". Следует
- 10. О терминологии (и не только…) Избыток названий, именующих разные разделы и направления, с одной стороны, и
- 11. Дисциплинарное окружение "прикладной" лингвистики – та же картина: искусственный интеллект, инженерия знаний, концептуальное моделирование, формальные (вычислительные)
- 12. Общая и прикладная лингвистика А.Н. Баранов: прикладная лингвистика как "деятельность по приложению научных знаний об устройстве
- 13. Компьютерная - "бескомпьютерная" лингвистика. Термин компьютерная лингвистика - если понимать его в прямом значении – в
- 14. Инженерная лингвистика, по-видимому, не теряя связи с общей лингвистикой, все более будет смыкаться с инженерией знаний,
- 15. Резюме – достаточно 3-х терминов: Общая лингвистика, прикладная лингвистика, языковая инженерия (условно - инженерная лингвистика).
- 16. Еще один термин: ICSC2007 First IEEE International Conference on Semantic Computing September 17-19, 2007 Irvine, California,
- 17. Topics for submission include but are not limited to: Natural language understanding and processing Understanding and
- 18. Тема 2. Проблемы и ограничения. Реальные задачи семантического анализа Начало XXI века (2010-е и 2020-е) –
- 19. # 2.1. Реальные задачи семантического анализа Общая цель семантического анализа – обеспечить понимание любого осмысленного текста.
- 20. Общие задачи - дополнительная поддержка большинства лингвистических ИТ Основные лингвистические технологии: Автоматический перевод – первая "лингвистическая"
- 21. Специфическая задача: Переход от плохо структурированной (ЕЯ-текст) к хорошо структурированной информации. Целевые технологии: СУБД (формализация фактологической
- 22. Типовая задача сегодняшнего дня: извлечение из ЕЯ-текстов фактографической информации и структурирование ее, например, в форме записей
- 23. Jerry R. Hobbs, Douglas Appelt, John Bear, David Israel, Megumi Kameyama, Mark Stickel, and Mabry Tyson
- 24. There are five stages in the operation of FASTUS. Stage 1: Names and other fixed form
- 25. This decomposition of language processing enables the system to do exactly the right amount of domain-independent
- 26. Другая типовая задача - формализация нормативных документов разного типа – в частности, нормативно-технической (СНИПы, ГОСТы…) и
- 27. Пример постановки задачи типа Information Extraction: Распознаваемые факторы: 3 Уровень налогов в Латвии 10 Число пенсионеров
- 28. Релевантные контексты для фактора 100 Активность неграждан по защите своих прав и свобод 1001181 На минувшей
- 29. Релевантные контексты для фактора 80 Финансирование стран Балтии Евросоюзом 8001101 За первые три года Латвия рассчитывает
- 30. Пример формализации технической нормы: Жилые комнаты общежитий следует проектировать из расчета заселения не более трех человек
- 31. Нормируемые характеристики: расчетная вместимость: (не более трех человек); площадь на проживающего: (не менее 6,0 кв. м);
- 32. # 2.2. Существенные ограничения Формализовать смысл текста можно лишь при том непременном условии, что он там
- 33. Объектом анализа могут быть стилистически и лексически однородные деловые тексты, регламентированные профессиональной дисциплиной, - опирающиеся на
- 34. Проблематичны: Метафорические контексты, смысловые пропуски – в частности, контексты, апеллирующие к энциклопедической и общекультурной компетенции читателя.
- 35. # 2.3. Основные подходы. Модели и методы. Структурные модели. Уровни описания языка: фонетический / графематический, морфологический,
- 36. Словарная поддержка.на семантическом уровне: онтологии. Nirenburg S., Raskin V. Ontological Semantics, p. 10: Ontological semantics is
- 37. #2.4. Ситуация в целом: гордиев узел проблем Технологии полного и точного автоматического анализа делового текста пока
- 38. Установление референциальных отношений между единицами текста (как определить, что два разных слова в связном тексте именуют
- 39. Теория определений и семантические примитивы (атомы смысла) в языке. (Ср. лексические функции Мельчука – Жолковского.)
- 40. Буквальная семантика vs косвенное выражение смысла сообщения. С. Михалков: Трусы и рубашка лежат на песке, Никто
- 41. Посетитель в мастерской художника: - Не можете ли Вы предложить мне что-нибудь недорогое и в масле?
- 42. Методы формализации понятийных систем. Разработка концептуальных словарей (онтологий), необходимых для поддержки алгоритмов семантического анализа Прецедентный анализ
- 43. Для сравнения – : Computational semantics (IWCS-7) January 10-12, 2007, Tilburg, The Netherlands Endorsed by SIGSEM,
- 44. TOPICS OF INTEREST: * construction of representations of meaning in natural language * methodologies and practices
- 45. Тема 3. Взаимодействие с синтаксическим уровнем Формат передачи результатов синтаксического анализа должен содержать следующую информацию: Исходный
- 46. Формат синтаксической разметки должен предусматривать отображение, как минимум, следующих элементов: числовые коды всех понятий, соответствующих слову
- 47. Типы текстовых элементов в синтаксической разметке
- 48. Имена синтаксических связей Имя Код Описание ================================================== 0_RF 255 Нет синтаксической связи MAIN_RF 0 Главное слово
- 49. Имя Код Описание ================================================== ANAF_RF 11 Анафорическая PGEN_RF 12 Управление родительным с предлогом PDAT_RF 13 Управление
- 50. Имя Код Описание ================================================== SGM_RF 22 Межсегментные подчинительные связи ANDS_RF 24 Сочинительная для сегментов ANDN_RF 25
- 51. Техника синтаксической разметки: Система синтаксических связей в предложении представляется деревом зависимостей. Подчинительная синтаксическая связь идентифицируется у
- 52. Пример разметки сочинительных связей: (1) Красные и синие шары. (2) Цветные шары и пирамиды лежат на
- 53. Вариант 2 (представление сочинительных элементов отдельными узлами в дереве синтаксических зависисмостей): { (И, синие, ANDW _RF),
- 54. # 4. Синтаксическая омонимия Виды синтаксической омонимии: Реальная – формальная Локальная - глобальная Омонимия адреса -
- 55. Реальная – формальная омонимия Он из туманной привез плоды. Германии учености Реальная: Формальная: Обнаруживается, если устанавливать
- 56. Еще примеры: The plain flew over the hill. (= над) The dog jumped over the fence.
- 57. Локальная – глобальная омонимия Локальная: Выбор одной из альтернативных связей для данного слова не влияет на
- 58. Омонимия адреса - содержания Омонимия адреса: Альтернативные связи по разному определяют хозяина для данного слова Black
- 59. Омонимия разных видов связи: Омонимия сочинительных связей: Вошли два человека в шляпах и пальто. Вошли два
- 60. Омонимия семантической интерпретации синтаксической связи: Таблица стандартных размеров: 'Таблица имеет (характеристика) стандартный размер' 'Таблица содержит сведения
- 61. Схема табличного представления для синтаксической разметки
- 63. Пример синтаксической разметки: Средний уровень заработной платы в Латвии вырос на 20 %, при этом уровень
- 64. Формат синтаксической разметки требует стандартизации ! – без чего повисает в воздухе вопрос о переносимости. NB:
- 65. Модели и методы А. Общие подходы Универсальный целевой язык - логика предикатов. Другие языки (семантические сети,
- 66. Ключевой пункт - эффективная словарная поддержка. Любая система семантического анализа является тезаурусно-ориентированной. Основная проблема в создании
- 68. А. Семантический интерпретатор. Компонент, ответственный за семантическую интерпретацию грамматически выраженных связей - как правило, в пределах
- 69. Схема переборного механизма: [ Перебор документов ] [Перебор предложений в документе ] [Перебор сегментов в предложении]
- 70. #1. Отношения, которые подлежат распознаванию Ролевые: СООБЩАТЬ (SUB1[кто]: x1 , SUB2[кому]: x2 , OB[что/о чем]: y)
- 71. # 2. Распознавание ролевых отношений Отправным пунктом здесь является констатация того факта, что в языке имеется
- 72. Для приведенного выше примера: СООБЩАТЬ (SUB1[кто]: x1 , SUB2[кому]: x2 , OB[что/о чем]: y) Семантические требования:
- 73. Влияние грамматической формы предиката: Сообщение Ивана о … (GEN_RF) оставил сообщение для Петра (PGEN_RF) но: ?сообщение
- 74. Существенно, что: 1. Ожидания могут быть охарактеризованы в терминах фиксированного набора смысловых ролей - соответственно, можно
- 75. Слова-предикаты чаще всего относятся к следующим понятийным категориям. создание / уничтожение: нарисовать, придумать, написать, спроектировать, построить;
- 76. социальное действие: купить, приказать, арестовать, запретить, использовать, одобрять, сотрудничать, … ; пространственные отношения: находиться на, внутри,
- 77. Требуют решения следующие основные вопросы: 1. Определение необходимого и достаточного набора семантических ролей (номенклатура валентностей). 2.
- 78. Описание семантической модели управления (СЕМУ): СЕМУ ::= НОМЕР_СЕМУ | ::= условие заполнения> ::= OB1 | OB2
- 79. Примеры читать нагреть купить приехать приказать =========== финансирование помощь передавать встреча экспорт строительство миграция критиковать использовать
- 80. Грамматика валентностей Семантическим моделям управления на грамматическом уровне следует сопоставлять не синтаксические модели, рассматриваемые как самостоятельные
- 81. Два пути типизации описаний Типизация описаний отдельных валентностей: специфицируется семантическое условие заполнения и грамматические условия реализации.
- 82. Пример - глаголы передвижения: прибыл, отправился; пришел, прибежал, прилетел, приплыл, приполз, … Иван прилетел в Париж
- 83. Рабочие гипотезы для типизации описаний: Гипотеза 1. Для выражения основного информационного содержания научно-технического текста достаточен следующий
- 84. Гипотеза 2 (для варианта 2). Словарь предикатных термов может быть описан конечным, и притом, обозримым списком
- 85. Возможная синтаксическая роль актанта определяется грамматикой ролевых связей, устанавливающей соответствие вида ( Rf , GFP, TSEMU
- 86. Грамматика ролевых связей – языково-зависимый компонент. Может быть реализована в форме внешней таблицы – что должно
- 87. RF GFP TSEMU VAL ПРИМЕРЫ ======================================== NOM_RF VA 14 SUB1 Россия в 2001г. продала развивающимся странам
- 88. RF GFP TSEMU VAL ПРИМЕРЫ ======================================== DAT_RF VA 14 SUB2 Россия в 2001г. продала развивающимся странам
- 89. RF GFP TSEMU VAL ПРИМЕРЫ ======================================== PACC_RF VP 14 PREP боевые самолеты марки "СУ" поставлялись в
- 90. # 3. Распознавание отношения контактной кореференции Различительный тест - возможность синонимических трансформаций словосочетания – в том
- 91. Общая логическая схема интерпретации: PF ( x ) & PS ( x ) или PF (
- 92. Данная гипотеза может быть распространена на все виды десемантизированной подчинительной связи, такой как связи типа A
- 93. # 4. Распознавание функциональных отношений признак – значение признака: высокое – напряжение; весом - 2 [т]
- 94. 4.1. Анализ количественных групп. Что такое количественные группы? Стандартный пример: Жесткие диски емкостью до 100 ГБ.
- 95. Виды количественных значений и их представление: А. числовые точечные: мощностью 100 вт ? МОЩНОСТЬ_вт ( x,
- 96. «на сколько» - абсолютная оценка: мощность увеличена на 100 вт; МОЩНОСТЬ_вт ( x, v ) &
- 97. Задачи, решаемые анализатором: Разграничение величин и количеств: 20 человек vs 20 м Интерпретация именованного числа как
- 98. # 5. Смысловой повтор Отношения смыслового повтора обнаруживаются в словосочетаниях, обладающих смысловой избыточностью: произвел выстрел ~
- 99. #6. Предметно-ассоциативные отношения Связь между синтаксическим хозяином и слугой допускает конкретную содержательную интерпретацию; словосочетание может быть
- 100. При такой интерпретации различимы следующие смысловые составляющие: (1) дескрипция B(y), соответствующая синтаксическому хозяину; (2) дескрипция A(x),
- 101. Выбор «предметного» отношения при такой интерпретации может быть мотивирован по-разному. Для связей, маркируемых предлогом, одна из
- 102. Для установления специфицируемых предметно-ассоциативных отношений необходимы и достаточны условия: Понятия, соответствующие термам хозяина и слуги, находятся
- 103. Таким образом, при описании предлогов в семантическом словаре следует предусмотреть ответы на следующие вопросы: (1) какие
- 104. Б. Основные постулаты интерпретации синтаксических связей. Тип устанавливаемого семантического отношения определяется семантическими характеристиками хозяина и слуги.
- 105. Интерпретация синтаксической связи является контекстно-свободной. Предлоги рассматриваются не как самостоятельный объект интерпретации, а как дополнительная (семантико-грамматическая)
- 106. Порядок просмотра связей в синтаксическом графе именной группы процедурой семантической интерпретации, вообще говоря, имеет значение. Правильный
- 107. Порядок предпочтений при выборе "наилучшей" интерпретации: функциональные связи и связи, устанавливающие факт смысловой избыточности; ролевые –
- 108. Примеры: Экспериментатор воздействовал на спины элементарных частиц. Онтология: а) ‘Элементарная частица’ характеризуется признаком ‘спин’ Логическая интерпретация:
- 109. Общий подход (для лексической неоднозначности)– учет трех типов факторов [Agirre E., Stevenson M., WSD, p.p. 224
- 110. Контрпримеры: (1) Эти типы стали есть в прокатном цехе. Возможные средства разрешения (NB: алгоритм должен обнаружить
- 111. The box was in the pen. Bar-Hillel (1964) Невозможность использования основных значений: *Коробка была/находилась в пере/ручке.
- 112. Словарь Контекст 6.0: pen n 1. перо (писчее) 2. ручка (для письма - с пером, авторучка,
- 113. box n 1. коробка, ящик, сундук. 2. рождественский подарок (обычно в ящике) 3. ящик под сиденьем
- 114. Компьютерный спецсловарь в коплекте Контекст 6.0: box n 1. стойка, шкаф 2. блок 3. прямоугольник, рамка,
- 115. The astronomer married the star. Charniak (1983) Невозможность использования критерия предметной области. Необходимость обращения к модели
- 116. Словарь Контекст 6.0: star n 1. звезда, светило 2. звезда, ведущий актер или актриса; выдающаяся личность
- 117. Распознавание связей, не имеющих грамматического выражения. Основная проблема - кореференция имен объектов. Примеры: Так думал молодой
- 118. Недавнее землетрясение самым пагубным образом отразилось на Венеции. . . Уникальный исторический центр может выжить лишь
- 119. Примеры кореферентных связей (по Nirenburg & Raskin) Direct reference by name: Last week Bill Clinton went
- 120. Примеры построения связного текста: (1-1) Авианосец "Йорктаун" получил большие повреждения и был затоплен. (1-2а) … Крейсера
- 121. Общие соображения: Тотальность задачи анализа референции для любого текста. В лингвистических работах сравнительно недавнего прошлого кореференция
- 122. Анализ кореференции актуален как при рассмотрении дистантных (в частности, межфразовых связей), так и при рассмотрении связей
- 123. Для анализа отношений кореференции в пределах простого предложения наиболее значим учет актантной структуры предложения. При большинстве
- 124. Гипотеза индикации - концептуально простая модель, опирающаяся на словарный механизм вычисления объемной совместимости имен. Исходное предположение:
- 125. Референциальное отождествление имен объектов в связном тексте определяется тремя факторами: порядком следования имен в тексте; совместимостью
- 126. Содержание гипотезы индикации весьма компактно может быть представлено в табличной форме. Таблица отражает точку зрения анализа
- 127. Прецедентный анализ. Анализ "по образцу" (example-based, case-based,… ), основанный на использовании корпуса предварительно размеченных текстов. Пока
- 128. Словарная поддержка процедур семантического анализа "Семантический анализ – это словарь!" (Процедуры семантического анализа во всех без
- 129. Ключевые моменты: Должна быть четко различена лингвистическая и концептуальная лексикография. Словарь для поддержки семантического анализа должен
- 130. Концептуальный словарь должен представлять собой нечто большее, чем просто таксономию. Для моделей анализа ключевыми являются следующие
- 131. Словарь или словари? Можно ли создать концептуальный словарь как единый унифицированный вычислительный ресурс (sharable and reusable
- 133. Скачать презентацию



































































![Схема переборного механизма: [ Перебор документов ] [Перебор предложений в документе ]](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/415744/slide-68.jpg)
![#1. Отношения, которые подлежат распознаванию Ролевые: СООБЩАТЬ (SUB1[кто]: x1 , SUB2[кому]: x2](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/415744/slide-69.jpg)

![Для приведенного выше примера: СООБЩАТЬ (SUB1[кто]: x1 , SUB2[кому]: x2 , OB[что/о](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/415744/slide-71.jpg)



























































12 декабря - День Конституции
Смазки. Системы смазки
Информация по зданию
интерьер
Факты о Санкт-Петербурге
Профессиональная деятельность учителя начальных классов МОУ «Ронгинская средняя общеобразовательная школа»Васильевой Наталь
Фисташки защищают сердце
Школьная служба медиации. Медиация в моей жизни
Масштабируемая платформа социальных сетей
Рассказ про ящериц
Виды и типы сетевых продовольственных магазинов
Правила написания письма личного характера на английском языке
Создание электронного учебника
Социальная поддержка студентов. Стипендиальное обеспечение. (1)
Тела Платона
ТРИ ВЕЛИКИХ ГЕНИЯ ЭПОХИ ВОЗРОЖДЕНИЯподготовила библиотекарь МБОУ «СОШ№5» Блошенко Н.М. г.Губкинский
Педагогические технологии в дошкольном образовании
ТУР по профессии SMM-менеджер
Подводная лодка
Устройства вывода информации 7 класс
Временная стоимость денег
Volkswagen Taos. Знакомство с моделью
Презентация на тему Оптические явления в атмосфере
Александра Викторовна Андрющенкоучитель начальных классов МОУ СОШ № 3 с. Дивное
Тезисная выжимка путеводителя по методологии ОРУ
Народные промыслы
Применение композитов на основе древесины в строительных конструкциях
Кафе в стиле милитари