Поиск информации

Содержание

Слайд 2

Поиск информации

Задача, которую человечество решает уже многие столетия.

Поиск информации Задача, которую человечество решает уже многие столетия.

Слайд 3

Все найденные за много лет средства и приемы поиска информации доступны и

Все найденные за много лет средства и приемы поиска информации доступны и
эффективны и при поиске информации в Интернет.

Слайд 4

“ПЕРТИНЕНТНЫЙ ДОКУМЕНТ”

Слово “пертинентный” происходит от английского “pertinent”, что значит “относящийся к делу,

“ПЕРТИНЕНТНЫЙ ДОКУМЕНТ” Слово “пертинентный” происходит от английского “pertinent”, что значит “относящийся к делу, подходящий по сути”.
подходящий по сути”.

Слайд 5

Цель информационного поиска

Найти все пертинентные и только пертинентные документы (мы хотим найти

Цель информационного поиска Найти все пертинентные и только пертинентные документы (мы хотим
“только то, что хотим, и ничего больше”).
Эта цель - идеальна и пока недостижима.

Слайд 6

Для того, чтобы было с чем сравнивать, необходимо некоторое количество непертинентных документов.

Для того, чтобы было с чем сравнивать, необходимо некоторое количество непертинентных документов.

Эти документы называются - “ШУМ”.

Слайд 7

Когда документов много, используется информационно-поисковая система (ИПС).
В этом случае информационная потребность

Когда документов много, используется информационно-поисковая система (ИПС). В этом случае информационная потребность
должна быть выражена средствами, которые “понимает” ИПС - должен быть сформулирован ЗАПРОС.

Слайд 8

РЕЛЕВАНТНОСТЬ

Степень соответствия документа запросу.

РЕЛЕВАНТНОСТЬ Степень соответствия документа запросу.

Слайд 9

Виды информационно поисковых систем

Виды информационно поисковых систем

Слайд 10

Классификационные ИПС

В классификационных ИПС используется иерархическая (древовидная) организация информации, которая называется КЛАССИФИКАТОРОМ.

Классификационные ИПС В классификационных ИПС используется иерархическая (древовидная) организация информации, которая называется КЛАССИФИКАТОРОМ.

Слайд 11

Разделы классификатора называются РУБРИКАМИ.
Библиотечный аналог классификационной ИПС - систематический каталог.

Разделы классификатора называются РУБРИКАМИ. Библиотечный аналог классификационной ИПС - систематический каталог.

Слайд 12

Предметная ИПС Web-кольца

Поиск названия нужного предмета своего интереса (предметом может быть и

Предметная ИПС Web-кольца Поиск названия нужного предмета своего интереса (предметом может быть
нечто невещественное, например, индийская музыка), а с названием связаны списки соответствующих ресурсов Интернет.

Слайд 13

Словарные ИПС

Основная идея словарной ИПС - создать словарь из слов, встречающихся в

Словарные ИПС Основная идея словарной ИПС - создать словарь из слов, встречающихся
документах Интернет, в котором при каждом слове будет храниться список документов, из которых взято данное слово.

Слайд 14

Два основных алгоритма работы словарных ИПС:
-с использованием ключевых слов,

Два основных алгоритма работы словарных ИПС: -с использованием ключевых слов, -с использованием дескрипторов.
использованием дескрипторов.

Слайд 15

Использование ключевых слов

Для оценки содержимого документа используются только те слова, которые в

Использование ключевых слов Для оценки содержимого документа используются только те слова, которые
нем встречаются, и по запросу ИПС сопоставляет слова из запроса со словами документа, определяя по количеству, расположению, весу слов из запроса в документе его релевантность.

Слайд 16

Использование дескрипторов

Индексируемые документы переводятся на некоторый дескрипторный информационный язык.
Дескрипторный информационный язык,

Использование дескрипторов Индексируемые документы переводятся на некоторый дескрипторный информационный язык. Дескрипторный информационный
как и любой другой язык, состоит из алфавита (символов), слов, средств выражения парадигматических и синтагматических отношений между словами.

Слайд 17

Ранжирование результатов поиска

Все ИПС в настоящее время уделяют основное внимание именно алгоритму

Ранжирование результатов поиска Все ИПС в настоящее время уделяют основное внимание именно алгоритму ранжирования полученных ссылок.
ранжирования полученных ссылок.

Слайд 18

Критерии при ранжировании в ИПС

наличие слов из запроса в документе, их

Критерии при ранжировании в ИПС наличие слов из запроса в документе, их
количество, близость к началу документа, близость друг к другу;
наличие слов из запроса в заголовках и подзаголовках документов;
количество ссылок на данный документ с других документов;
«респектабельность» ссылающихся документов.

Слайд 19

Современные проблемы поисковых систем

Когда эти технологии разрабатывались никто из разработчиков не представлял

Современные проблемы поисковых систем Когда эти технологии разрабатывались никто из разработчиков не
себе, что Интернет станет глобальной информационной средой.

Слайд 20

Архитектура

crawler (сборщик) - осуществляет сканирование Интернет ресурсов в поисках изменений на

Архитектура crawler (сборщик) - осуществляет сканирование Интернет ресурсов в поисках изменений на
страницах;
indexer (индексатор) - индексирует ресурсы, строит базы данных по ключевым словам, хранит эти базы данных в виде, удобном для поиска по ним;
gateway (шлюз) - осуществляет прием запросов от пользователей и выдачу им информации из базы данных.

Слайд 21

Алгоритмы поиска и ранжирования

Основной проблемой современных поисковых систем является то, что по

Алгоритмы поиска и ранжирования Основной проблемой современных поисковых систем является то, что
причине фактически устаревшей архитектуры они не могут обеспечить качественный поиск информации.
Имя файла: Поиск-информации.pptx
Количество просмотров: 125
Количество скачиваний: 0