ПРОГРАММНАЯ СИСТЕМА ИЗВЛЕЧЕНИЯ ИНФОРМАЦИИ ИЗ ТЕКСТОВ (ПС INEX) Исследовательский центр искусственного интеллекта Института програ

Содержание

Слайд 2

Цели и задачи

Основная цель:
разработка технологических программных средств извлечения информации из текста
Задачи:
язык

Цели и задачи Основная цель: разработка технологических программных средств извлечения информации из
описания правил извлечения информации
методы предварительной обработки текстов
среда применения правил извлечения информации
использование преимуществ параллельной архитектуры

Слайд 3

Извлечение информации

Цель:
извлечь значимую информацию определенного типа из (больших массивов) неструктурированного текста для

Извлечение информации Цель: извлечь значимую информацию определенного типа из (больших массивов) неструктурированного
дальнейшей аналитической обработки
Результат:
заполненные структуры данных предопределенного формата (экзофреймы)

Слайд 4

Примеры предметных областей

Спортивные события: <победитель>, <проигравший>, <счет>, <место_встречи>, <дата>…
База данных о

Примеры предметных областей Спортивные события: , , , , … База данных
рынке жилья: <район>,<цена>, <количество_комнат>, <контактный_телефон>…
База данных новых товаров: <производитель>, <дата выпуска>, <название товара> …

Слайд 5

Приложения технологии извлечения информации

семантическая кластеризация и классификация
автоматическое аннотирование
визуализация данных
семантическое сравнение и

Приложения технологии извлечения информации семантическая кластеризация и классификация автоматическое аннотирование визуализация данных
поиск
создание баз данных

Слайд 6

Извлечение информации: проблемы

Необходима точная постановка задачи
Специфика предметной области
лексикон
стиль изложения
различный характер данных
Неоднозначности на большинстве

Извлечение информации: проблемы Необходима точная постановка задачи Специфика предметной области лексикон стиль
этапов обработки текста
Трудоемкость разработки и настройки систем

Слайд 7

Уровни анализа текста

графематический анализ
морфологический анализ
синтаксический анализ
прикладной семантический анализ
определение семантических классов
разрешение кореферентности
объединение результатов
построение

Уровни анализа текста графематический анализ морфологический анализ синтаксический анализ прикладной семантический анализ
модели предметной области

Слайд 8

Архитектура системы извлечения информации

Архитектура системы извлечения информации

Слайд 9

Организация библиотеки

Документы
Аннотации
Итераторы
Фильтры
Прикладные задачи
Анализаторы
Представления
Фреймы результатов
Подсистема ввода-вывода

Организация библиотеки Документы Аннотации Итераторы Фильтры Прикладные задачи Анализаторы Представления Фреймы результатов Подсистема ввода-вывода

Слайд 10

Подходы к представлению информации о тексте

Объектные модели ОО-языков
высокое быстродействие
вероятность сбоев
сложность обмена данными

Подходы к представлению информации о тексте Объектные модели ОО-языков высокое быстродействие вероятность
и интеграции средств
Универсальные способы
гибкость

Слайд 11

Базовая модель аннотаций (TIPSTER)

Аннотация
сопоставляется фрагменту текста;
принадлежит классу аннотаций;
содержит атрибуты в виде «имя-значение».

Базовая модель аннотаций (TIPSTER) Аннотация сопоставляется фрагменту текста; принадлежит классу аннотаций; содержит атрибуты в виде «имя-значение».

Слайд 12

Представление информации о тексте в ПС INEX

ПРИМЕР АННОТАЦИИ

Представление информации о тексте в ПС INEX ПРИМЕР АННОТАЦИИ

Слайд 13

Аннотации: пример

Аннотации: пример

Слайд 14

Преимущества

Унифицированный способ представления информации
Построение систем со слабой связностью
Наличие математической модели
Удобство сопоставления образцу

Преимущества Унифицированный способ представления информации Построение систем со слабой связностью Наличие математической модели Удобство сопоставления образцу

Слайд 15

Пример анализа текста

ФРАГМЕНТ ЛЕНТЫ НОВОСТЕЙ
Японская фирма Victor Company of Japan представила новый

Пример анализа текста ФРАГМЕНТ ЛЕНТЫ НОВОСТЕЙ Японская фирма Victor Company of Japan
DVD-проигрыватель JVC XV-A707 с возможностью воспроизведения дисков DVD-Audio.
Подробнее…
Компания MAS Elektronik представила новый стационарный DVD-рекордер Xoro HSD R545 со встроенным ТВ-тюнером и возможностью записи дисков стандарта DVD+R/RW.
Подробнее…

Слайд 16

Пример анализа текста

ЦЕЛЕВЫЕ ФРЕЙМЫ

Пример анализа текста ЦЕЛЕВЫЕ ФРЕЙМЫ

Слайд 17

Пример анализа текста

ИЗВЛЕЧЕННАЯ ИНФОРМАЦИЯ В СТРУКТУРИРОВАННОМ ВИДЕ

Пример анализа текста ИЗВЛЕЧЕННАЯ ИНФОРМАЦИЯ В СТРУКТУРИРОВАННОМ ВИДЕ

Слайд 18

Правила извлечения информации

набор правил, описывающих способ извлечения информации и заполнения слотов целевого

Правила извлечения информации набор правил, описывающих способ извлечения информации и заполнения слотов
фрейма
набор ограничений, накладываемых на текстовые единицы при применении правил
Имя файла: ПРОГРАММНАЯ-СИСТЕМА-ИЗВЛЕЧЕНИЯ-ИНФОРМАЦИИ-ИЗ-ТЕКСТОВ-(ПС-INEX)-Исследовательский-центр-искусственного-интеллекта-Института-програ.pptx
Количество просмотров: 165
Количество скачиваний: 0