ДОКУМЕНТАЛЬНЫЕ СИСТЕМЫ

Содержание

Слайд 2

1. Моделирование реальности в системах текстового поиска

1. Моделирование реальности в системах текстового поиска

Слайд 3

От ИПС к системам текстового поиска
Информационно-поисковые системы: поиск информации с помощью компьютеров

От ИПС к системам текстового поиска Информационно-поисковые системы: поиск информации с помощью компьютеров

Слайд 4

2 категории ИПС

Фактографические: оперировали фактами, представленными в виде сущностей реального мира и

2 категории ИПС Фактографические: оперировали фактами, представленными в виде сущностей реального мира
их свойств.
Документальные: предназначены для хранения и поиска документов, содержащих тексты на естественных языках.

Слайд 5

Дескрипторные ИПС

содержание каждого текстового документа и пользовательских поисковых запросов описывается наборами слов

Дескрипторные ИПС содержание каждого текстового документа и пользовательских поисковых запросов описывается наборами
или словосочетаний, называемых дескрипторами.
область применения: библиографический поиск.

Слайд 6

Полнотекстовые документальные ИПС

Полнотекстовыми называют системы, которые хранят и обрабатывают не описания

Полнотекстовые документальные ИПС Полнотекстовыми называют системы, которые хранят и обрабатывают не описания
документов, как это делается, например, в библиографических системах, а полные их тексты.
Методы: лингвистические, статистические.

Слайд 7

контекстный поиск - поиск документов, тексты которых содержат вхождение заданного в пользовательском

контекстный поиск - поиск документов, тексты которых содержат вхождение заданного в пользовательском
запросе контекста.
поиск по булевским критериям.

Слайд 8

Мультимедийные ИПС (системы текстового поиска)

содержание их объектов поиска - составляет сочетание информационных

Мультимедийные ИПС (системы текстового поиска) содержание их объектов поиска - составляет сочетание
ресурсов, представленных в различных средах - текстовых элементов, статических изображений, аудиоданных (музыкальные произведения, текст, произнесенный голосом и т.п.), мультфильмов, видео клипов и т.п.

Слайд 9

Охватывает большой спектр проблем - от теории информационного поиска до методов удовлетворения

Охватывает большой спектр проблем - от теории информационного поиска до методов удовлетворения
потребностей пользователей в сборе, организации, хранении, поиске и распространении информации.
Методы: лингвистические, аналитические, эмпирические, статистические, математическая логика и теория вероятностей, искусственного интеллекта, технологии управления данными.

Слайд 10

обработка естественного языка - компьютерное решение задач, связанных с пониманием, анализом, выполнением

обработка естественного языка - компьютерное решение задач, связанных с пониманием, анализом, выполнением
различных операций над текстами на естественном языке, а также с их генерацией.

Слайд 11

Основные понятия

Документ - это не юридическая сущность, а содержательно законченная идентифицируемая уникальным

Основные понятия Документ - это не юридическая сущность, а содержательно законченная идентифицируемая
образом единица информации, представленная на каком-либо естественном языке.

Слайд 12

Представление текстового документа в оцифрованном виде может быть создано с помощью:

Ввода

Представление текстового документа в оцифрованном виде может быть создано с помощью: Ввода
содержания документа с клавиатуры с использованием какого-либо текстового редактора.
Сканирования его с бумажного носителя и использования программы распознавания оптических символов (Optical Character Recognition, OCR).
Генерации текста программным путем распознавателями голоса или какими-либо другими способами.

Слайд 13

Совокупность хранимых в системе документов - коллекция документов.
Представление информационных потребностей пользователя

Совокупность хранимых в системе документов - коллекция документов. Представление информационных потребностей пользователя
в форме, воспринимаемой программным обеспечением системы текстового поиска, называется пользовательским запросом (или для краткости просто запросом).

Слайд 14

Необходимым компонентом содержания пользовательского запроса является описание тех свойств, которыми обладают документы,

Необходимым компонентом содержания пользовательского запроса является описание тех свойств, которыми обладают документы,
интересующие пользователя - критерий поиска.
Хранящиеся в системе документы, которые соответствуют пользовательскому запросу, называются релевантными.

Слайд 15

Некоторые системы текстового поиска выдают пользователю множества документов, полученных в результате обработки

Некоторые системы текстового поиска выдают пользователю множества документов, полученных в результате обработки
запросов, упорядочивая документы по убыванию степени их релевантности – ранжирование.

Слайд 16

в результате обработки пользовательского запроса могут быть найдены документы, не соответствующие информационным

в результате обработки пользовательского запроса могут быть найдены документы, не соответствующие информационным
потребностям пользователя - информационный шум.

Слайд 17

Полнота поиска определяет отношение количества релевантных документов, выдаваемых в результате обработки пользовательских

Полнота поиска определяет отношение количества релевантных документов, выдаваемых в результате обработки пользовательских
запросов, к количеству фактически имеющихся в системе релевантных документов.
Для количественной оценки точности поиска может служить доля релевантных документов во множестве результирующих документов запроса.

Слайд 18

Принципы текстового поиска Причины сложности текстового поиска

Проблемы обработки естественного языка
Смысловое сопоставление содержания

Принципы текстового поиска Причины сложности текстового поиска Проблемы обработки естественного языка Смысловое
хранимых в системе документов и выраженных на естественном языке пользовательских запросов, оценка степени их близости

Неструктурированные эвристические
данные подходы

Слайд 19

Структурированное представление документов

1. Работа со структурированными представлениями документов, формируемыми в результате анализа

Структурированное представление документов 1. Работа со структурированными представлениями документов, формируемыми в результате
их текстов, позволяет применять в процессе поиска формализованные методы, основанные на различных эвристических подходах.
2. Производительность системы текстового поиска, анализирующей полные тексты хранимых документов в процессе обработки пользовательских запросов, даже если эта система базируется на очень мощном компьютере, весьма невысокая.

Слайд 20

Индексирование документов

Ассоциированные с документом атрибуты, идентифицирующие документ и/или характеризующие его содержание,

Индексирование документов Ассоциированные с документом атрибуты, идентифицирующие документ и/или характеризующие его содержание, называются его индексирующими свойствами.
называются его индексирующими свойствами.

Слайд 21

На основе индексирующих свойств документов в системе текстового поиска строится вспомогательная структура

На основе индексирующих свойств документов в системе текстового поиска строится вспомогательная структура
данных (индекс), позволяющая по их значениям или по значениям некоторой функции, использующей их в качестве аргументов, эффективным образом (без полного просмотра текстов документов и без полного их перебора) обнаруживать в системных коллекциях документ или документы, которым эти атрибуты соответствуют, и при необходимости осуществлять быстрый доступ к ним.
Процесс назначения документу указанных атрибутов - индексированием документа.

Слайд 22

Способы индексирования
на основе дескрипторов
на основе аннотаций, названий или полного текста

Способы индексирования на основе дескрипторов на основе аннотаций, названий или полного текста

Слайд 23

Дублинское ядро
это набор элементов метаданных, смысл которых описан вербально и зафиксирован в

Дублинское ядро это набор элементов метаданных, смысл которых описан вербально и зафиксирован
спецификациях определяющих его стандартов

Слайд 24

Стандарты
DCMI (Dublin Core Metadata Initiative)
организация национальных стандартов информационных технологий США NISO
международная организация

Стандарты DCMI (Dublin Core Metadata Initiative) организация национальных стандартов информационных технологий США
стандартизации ISO (стандарт ISO: 15836-2003)

Слайд 25

Версия DC 1.1. включает 15 элементов метаданных

Title (название ресурса)
Creator (лицо, организация

Версия DC 1.1. включает 15 элементов метаданных Title (название ресурса) Creator (лицо,
или служба, ответственная за подготовку содержания ресурса)
Subject (тема, обсуждаемая в содержании ресурса)
Description (описание содержания ресурса в свободной форме)
Publisher (лицо, организация или служба, обеспечивающая доступ к ресурсу)
Contributor (другие участники подготовки содержания ресурса, помимо указанного в Creator)
Date (дата создания или предоставления доступа к ресурсу)
Type (жанр, категория или другие характеристики природы ресурса)
Format (характер представления ресурса)
Identifier (точная ссылка на ресурс)
Source (ссылка на источник, из которого продуцирован данный ресурс)
Language (язык представления ресурса)
Relation (ссылка на ресурс, связанный с данным)
Coverage (область пространства, времени и т.д., к которой относится содержание ресурса)
Rights (права интеллектуальной собственности на ресурс и т.п.).

Слайд 26

три не вошедшие в указанные официальные стандарты средства:

Набор из 33 дополнительных

три не вошедшие в указанные официальные стандарты средства: Набор из 33 дополнительных
и уточняющих элементов метаданных
Комплект схем кодирования (квалификаторов), каждая из которых определяет множество значений соответствующего элемента DC
Словарь типов, включающий набор идентификаторов типов возможных значений некоторых элементов DC, указание которых для соответствующих значений позволит адекватно их интерпретировать.

Слайд 27

Пользовательские запросы и критерии релевантности

В процессе обработки пользовательского запроса системе необходимо оценивать

Пользовательские запросы и критерии релевантности В процессе обработки пользовательского запроса системе необходимо
релевантность очередного рассматриваемого документа
теоретико-множественные критерии

Слайд 28

Функционирование системы текстового поиска

Общие принципы поиска
1. При вводе документа в систему осуществляется индексирование

Функционирование системы текстового поиска Общие принципы поиска 1. При вводе документа в
документа и строится его представление, которое будет далее выступать заменителем этого документа в процессе функционирования системы при обработке пользовательских запросов.

Слайд 29

2. На основе индексирующих свойств конкретных документов, полученных извне системы или выявленных самой

2. На основе индексирующих свойств конкретных документов, полученных извне системы или выявленных
системой путем анализа текстов документов, система формирует и поддерживает индекс для каждой коллекции хранимых в ней документов.

Слайд 30

3. При поступлении в систему пользовательского запроса для него также строится соответствующее

3. При поступлении в систему пользовательского запроса для него также строится соответствующее
представление.
4. Собственно поиск заключается в том, что каким-либо эффективным образом (не прямым перебором, а обычно с помощью рациональным образом организованного индекса документов коллекции) осуществляется сопоставление представления запроса с представлениями хранимых в системе документов по принятому в системе критерию близости.

Слайд 31

Средства лингвистической поддержки

Словари
Тезаурусы
Онтологические спецификации предметной области системы

Средства лингвистической поддержки Словари Тезаурусы Онтологические спецификации предметной области системы

Слайд 32

2. Модели поиска

Модель поиска понимается как сочетание: способа формирования представлений документов; способа

2. Модели поиска Модель поиска понимается как сочетание: способа формирования представлений документов;
формирования представлений поисковых запросов; вида критерия релевантности документов.

Слайд 33

Виды

Простейшие модели поиска
Контекстный поиск
Булевская модель
Векторные модели

Виды Простейшие модели поиска Контекстный поиск Булевская модель Векторные модели

Слайд 34

Состояние разработок и новые требования

Структура проблематики текстового поиска:
Развитие конкретных моделей поиска
Методологию

Состояние разработок и новые требования Структура проблематики текстового поиска: Развитие конкретных моделей
проведения экспериментов, тестирования и оценки систем
Методы и алгоритмы реализации текстового поиска
Подходы к интеграции технологий текстового поиска и баз данных
Поиск в среде Веб
Методы сжатия данных
Оценку эффективности обработки запросов
Обработку естественного языка

Слайд 35

Методы классификации и кластеризации текстовых документов
Приложения информационного поиска в электронных библиотеках

Методы классификации и кластеризации текстовых документов Приложения информационного поиска в электронных библиотеках

Глубинный анализ текстов
Технологии индексирования и поиска мультимедийной информации
Интерфейсы "человек-компьютер" и т.д.
Имя файла: ДОКУМЕНТАЛЬНЫЕ-СИСТЕМЫ.pptx
Количество просмотров: 150
Количество скачиваний: 0