Содержание
- 2. Введение Information Extraction – извлечение из текста информации определенного типа и представление ее в заданном формате
- 3. Мотивация Пополнение баз данных (и баз знаний) Получение входных данных для работы других систем Привлечение внимания
- 4. Содержание Message Understanding Conference Извлечение информации: основные подходы Named Entity Recognition Извлечение отношений Наш опыт
- 5. – выработка общих подходов к методологии и способам оценки систем извлечения информации из текста. MUC (Message
- 6. Named Entity recognition - выделение именованных сущностей Coreference resolution - разрешение кореференции Template Element construction -
- 7. Блестящая красная ракета была запущена во вторник. Это изобретение доктора Биг Хеда. Хед - штатный научный
- 8. Блестящая красная ракета была запущена во вторник. Это изобретение доктора Биг Хеда. Хед - штатный научный
- 9. Recall = Ncorrect /Nall-correct Precision = Ncorrect /(Ncorrect + Nincorrect ) F-mera = (β2+1 )*r*p/(β2 *
- 10. Дальнейшее развитие ACE (Automatic Content Extraction) 1999 – 2008 По сравнению с MUC: более детальная таксономия
- 11. Содержание Message Understanding Conference Извлечение информации: основные подходы Named Entity Recognition Извлечение отношений Наш опыт
- 12. Основные подходы Задача всегда предельно конкретна: определенный тип текста искомая информация представлена в виде набора полей
- 13. Образцы Состав образцов: Лексика, семантика Частичный синтаксис Близость, взаимное расположение частей Формат: Зависит от формата представления
- 14. Машинное обучение Pro: не требует большого количества ручного труда по написанию правил система более гибкая, ее
- 15. Правила Pro: Может быть предпочтительна в случае сложной предметной области и/или отсутствия лингвистических ресурсов Contra Большая
- 16. Содержание Message Understanding Conference Извлечение информации: основные подходы Named Entity Recognition Анафора и кореференция Наш опыт
- 17. Извлечение именованных сущностей Named Entity: Стандартные примеры: персоналии, географические названия, организации… Для биологических текстов: названия генов,
- 18. Основные подходы Основанный на знаниях: список имен собственных регулярные выражения, описывающие именованные сущности образцы, описывающие контекст
- 19. Содержание Message Understanding Conference Извлечение информации: основные подходы Named Entity Recognition Извлечение отношений Наш опыт
- 20. Извлечение отношений между понятиями Отношения: Таксономические – РОД-ВИД, ЧАСТЬ-ЦЕЛОЕ… Специфические для предметной области – СТРАНА-СТОЛИЦА, БЕЛОК-ФЕРМЕНТ…
- 21. Анафора и кореференция Извлечение информации в масштабах текста Кореференция: возможно использование экстралингвистической информации Анафора: невозможно использование
- 22. Содержание Message Understanding Conference Извлечение информации: основные подходы Named Entity Recognition Извлечение отношений Наш опыт: Система
- 23. Система фактографического поиска в газетных текстах Рубашкин В. Ш., Капустин В. А., Пивоварова Л. М., Чуприн
- 24. Система Factors Система, основанная на знаниях – используется онтология IntTez - http://inttez.ru/
- 25. Постановка задачи Задача: извлечение из текстов СМИ информации общественно-политической тематики. Факторы - различные характеристики общественно-политической ситуации(около
- 26. Система Factors: - интеллектуальная среда для поддержки работы эксперта-аналитика с текстами. Режимы работы: Автоматический Диалоговый ТЕКСТЫ
- 27. Функциональность: Последовательное наращивание распознаваемых аспектов содержания в процессе работы эксперта-аналитика с системой. Легкость и простота редактирования
- 28. Образцы Текстовые – выделение в тексте релевантных фрагментов (при анализе может проверяться совпадение синтаксических связей) Концептуальные
- 29. Образцы Фактор + значение В основном для оценочных факторов социальная напряженность → стихийный митинг Только фактор
- 30. Поиск образцов в тексте население ... право на труд ... ограничение 1) Поиск опорного элемента население
- 31. Только фактор: поиск значения Собственный признак фактора – концепт, отвечающий на вопрос «количество (величина) чего?» Уровень
- 32. Общий алгоритм поиска 1) Поиск образца 2) Определение собственного признака и единиц измерения 3) Поиск числа
- 33. Содержание Message Understanding Conference Извлечение информации: основные подходы Named Entity Recognition Извлечение отношений Наш опыт: Система
- 34. V. Bocharov, L. Pivovarova, V. Rubashkin, B. Chuprin Ontological Parsing of Encyclopedia Information. In Computational Linguistics
- 35. Пополнение онтологий Пополнение онтологий – бутылочное горлышко инженерии знаний Ontology Learning – автоматическое пополнение онтологии на
- 36. Источник Российский энциклопедический словарь - Гл. ред.: А. М. Прохоров — М.: Большая Российская энциклопедия, 2001
- 37. Гипотеза В большинстве случаев родовой по отношению к определяемому термин представлен первым по порядку существительным (именной
- 38. Примеры ПЕРИСТИЛЬ - прямоугольный двор, сад, площадь, окруженные с 4 сторон крытой колоннадой. ЯТАГАН - рубяще-колющее
- 39. Общий алгоритм анализа
- 40. сокращения (разворачиваются в полные слова, если это возможно) пометы (удаляются) текст в скобках (удаляется) Лексикографическая обработка
- 41. АБРЕКИ - В прошлом у народов Сев. Кавказа изгнанники из рода, ведшие скитальческую или разбойничью жизнь
- 42. Используются компоненты АОТ Упрощённые правила (Tomita-формализм) Строится дерево зависимостей Синтаксический анализ
- 43. ПРИЛАГАТЕЛЬНОЕ + ИМЕННАЯ ГРУППА [ANP] -> [ADJ] [NP root] : $0.grm := case_number_gender($1.grm, $2.type_grm, $2.grm); ГЕНИТИВНАЯ
- 44. ПРИЛАГАТЕЛЬНОЕ + ИМЕННАЯ ГРУППА ВОДОРОД - ХИМИЧЕСКИЙ ЭЛЕМЕНТ ХАЛАТ – ВЕРХНЯЯ ОДЕЖДА ГЕНИТИВНАЯ ГРУППА АМПЕР -
- 45. Синтаксический анализ: снятие неоднозначности
- 46. о чукотском море море МОРЕ (ср.р.) МОР (мр.р.) МОРА (жр.р.) МОРА отбрасывается после синтаксического анализа Неоднозначность:
- 47. АВАНПОРТ - внешняя часть порта, предназначенная для стоянки судов, ожидающих подхода к причалам, погрузки и разгрузки.
- 48. Типы выделяемых отношений
- 49. Правила приписывается конкретному опорному слову описывает на какой тип отношений указывает данное слово следует ли сохранять
- 50. Примеры правил: тождество Обозначение Тип отношения меняется на Same Записывается следующее (по дереву) существительное СОЦИОСФЕРА -
- 51. Явление Записывается «явление» Тип отношения меняется на Same Записывается следующее (по дереву) существительное СИНЕСТЕЗИЯ - явление
- 52. Явление Записывается «явление»… атмосферное явление, физическое явление ИЗОМЕРИЯ - явление, заключающееся в существовании изомеров - соединений,
- 53. Записать – - следующее существительное - следующее существительное Сложные правила Общий вид правил
- 54. Род, вид, сорт… - следующее существительное. ФИЛЬДЕПЕРС - высший сорт фильдекоса. ПИДЖИНЫ - тип языков, используемых
- 55. Жанр Записать - - следующее существительное. МИСТЕРИЯ - жанр средневекового западноевропейского религиозного театра. Примеры правил: обобщение
- 56. Совокупность - следующее существительное. АРХИВ - совокупность документов, образовавшихся в результате деятельности учреждений, предприятий и отдельных
- 57. Cкопление Записать - - следующее существительное. ГАНГЛИЙ - анатомически обособленное скопление нервных клеток , волокон и
- 58. Часть - следующее существительное. АЛГЕБРА - часть математики , развивающаяся в связи с задачей о решении
- 59. Участок Записать - - следующее существительное. АНТИКОДОН - участок транспортной РНК, состоящий из трех нуклеотидов. НО:
- 60. Метод, способ - следующее существительное. ЗАИЛЕНИЕ - метод мелиорации песчаных земель. СГРАФФИТО - способ декоративной отделки
- 61. Орудие Записать - - следующее существительное. ПЕРЕМЕТ - орудие лова рыбы (главным образом хищной). НО: артиллерийское
- 62. Инструмент, прибор, аппарат… Записать Перейти к следующему предлогу Если это для: Func – следующее существительное. ФЕН
- 63. Записать - - следующее существительное. АБОРТ - прерывание беременности в сроки до 28 недель (то есть
- 64. Другие типы отношений
- 65. 18 правил 91 опорное слово, для которого существуют правило 8484 статей, для которых используются 4679 различных
- 66. Экспертная оценка, 200 словарных статей 90% случаев (179 статей) решения совпали с результатами, полученными автоматически 21
- 67. АБРАЗИВНЫЙ ИНСТРУМЕНТ - служит для механической обработки ( шлифование, притирка и другие ). АВОГАДРО ЗАКОН -
- 68. Результаты логико-лингвистического анализа представляются в виде таблицы единица ? измерения Пополнение онтологии
- 69. Указание базового концепта онтологической таксономии Формирование энциклопедической выборки Добавление терминов выборки Постредактирование Процедура пополнения
- 70. Базовый концепт: СУДНО Энциклопедическая выборка: балкер баржа барк барка баркас баркентина брандвахта брандер бриг бригантина бригантина
- 72. Скачать презентацию