Документальные системы

Содержание

Слайд 2

ОБЩЕЕ

На практике информация чаше всего представляется в виде текстовых документов, а не

ОБЩЕЕ На практике информация чаше всего представляется в виде текстовых документов, а
в виде структурированных данных. Документальные базы данных выделяются в один тип, который называется информационно-поисковая система (ИПС или ДИПС).
Документы ориентированы на приближенное представление данных. Главное назначение ДИПС — обработка запросов. Главная процедура — поиск (отыскание документа, содержащего ответ на запрос). При этом, в результате получается несколько документов. Запросы, как правило, формулируются на естественном языке (информационные запросы). Неправильно сформулированный запрос может не отражать информационные потребности пользователя.

Слайд 3

Понятие пертинентность отражает смысловое соответствие документа информационным потребностям пользователя.
Релевантность — соответствие содержания документа информационному запросу

Понятие пертинентность отражает смысловое соответствие документа информационным потребностям пользователя. Релевантность — соответствие
в том виде, как он сформулирован.
Для автоматического поиска запросы представляются в виде информационного предписания — поискового предписания (ПП), а документы в виде поискового образа документа(ПОД).
Для записи ПП и ПОД применяется информационный поисковый язык. При поиске определяется соответствие ПП и ПОД, на основе которого принимается решение о выдаче документа, т.е. признания его релевантным. При этом набор правил, по которому принимается решение, называется критерием смыслового соответствия (КСС).
Критерий может задаваться явно или неявно. КСС строится на основе формальной релевантности. Фактическую релевантность и пертинентность документов определяет пользователь.

Слайд 4

Структура ДИПС
В ДИПС входят 4 подсистемы:
Ввод и регистрация;
Обработка;
Хранение;
Поиск.

Структура ДИПС В ДИПС входят 4 подсистемы: Ввод и регистрация; Обработка; Хранение; Поиск.

Слайд 5

Подсистема ввода решает следующие вопросы:
создание электронных копий (сканирование, распознавание, ввод с клавиатуры);
подключение к

Подсистема ввода решает следующие вопросы: создание электронных копий (сканирование, распознавание, ввод с
каналам доставки электронных документов (электронная почта и т.д.);
преобразование форматов электронных документов;
присваивание электронным документам уникальных идентификаторов;
синхронизация имен.
Подсистема обработки формирует для каждого документа поисковый образ, который необходим для дальнейшего поиска. Образец хранится в индексе (индекс-таблице). Индекс- это таблица, в строках которой стоят IDдокумента, а в столбцах — информационные признаки, на основе которых строится данный образ документа. Данные, как правило, бинарные. Поскольку таблицы сильно разряжены, то для их хранения обычно используют свертку. Запрос пользователя в системе преобразуется в поисковое предписание (ПП) и передается в систему поиска.

Слайд 6

Естественный язык не может быть использован в качестве представления информации из-за следующих

Естественный язык не может быть использован в качестве представления информации из-за следующих
недостатков:
Многообразие передачи смысла, обеспеченное лексикой языка, контекстом, текстуальными отношения между словами, ссылками на раннее упомянутые слова.
Семантическая неоднозначность слов.
Синонимия, антонимия.
Многозначность (полисемия) совпадение написания похожих слов.
Эллипсность — пропуск подразумеваемых слов.
Невозможность использования естественных языков для поиска информации привело к созданию информационно-поисковых языков (ИПЯ). Эти языки применяются для смыслового описания текста, с целью последующего поиска. Они строятся на базе естественных языков, но отличаются четкими грамматическими правилами и отсутствием неоднозначностей. Все языки в ИПС делятся на два класса
классификационные
дескрипторные (словарные)

Формальное представление семантики документов

Слайд 7

Так как документы поступают в систему в текстовом виде, то они должны

Так как документы поступают в систему в текстовом виде, то они должны
быть преобразованы в ИПЯ. В случае применения классификационных языков применяется рубрицирование, в случае дескрипторных языков — индексирование. При этом в случае применения дескриптивных языков без грамматики и без контроля по словарю говорят ополнотекстовом индексировании.
Подготовка текста проходит в два этапа:
анализ семантики системы, анализ объектов и связей;
выражение этих связей на ИПЯ, приписывание объектами соответствующих выражений.

Обработка входящей информации в ДИПС

Слайд 8

Модель поиска характеризуется следующими параметрами:
Представление документов и запросов;
Критерий смыслового соответствия;
Методы ранжирования результатов

Модель поиска характеризуется следующими параметрами: Представление документов и запросов; Критерий смыслового соответствия;
запросов;
Механизм обратной связи для оценки релевантности документов.
Для представления документов и запросов применяется сразу несколько моделей.
Модели представления документов и запросов
Булева модель
В этом случае документ представляется с помощью набора терминов, присутствующих в индексе. Каждый термин представлен как булева переменная:

Поиск текстовой информации

Слайд 9

В любой ДИПС присутствуют два типа ошибок:
Пропуск цели, т.е. невыдача релевантных документов;
Шум —

В любой ДИПС присутствуют два типа ошибок: Пропуск цели, т.е. невыдача релевантных
выдача нерелевантных документов.
Весь массив документов можно разбить на 4 группы:

Оценка качества ДИПС