Слайд 2Поиск информации
Задача, которую человечество решает уже многие столетия.
Слайд 3Все найденные за много лет средства и приемы поиска информации доступны и
эффективны и при поиске информации в Интернет.
Слайд 4“ПЕРТИНЕНТНЫЙ ДОКУМЕНТ”
Слово “пертинентный” происходит от английского “pertinent”, что значит “относящийся к делу,
подходящий по сути”.
Слайд 5Цель информационного поиска
Найти все пертинентные и только пертинентные документы (мы хотим найти
“только то, что хотим, и ничего больше”).
Эта цель - идеальна и пока недостижима.
Слайд 6Для того, чтобы было с чем сравнивать, необходимо некоторое количество непертинентных документов.
Эти документы называются - “ШУМ”.
Слайд 7Когда документов много, используется информационно-поисковая система (ИПС).
В этом случае информационная потребность
должна быть выражена средствами, которые “понимает” ИПС - должен быть сформулирован ЗАПРОС.
Слайд 8РЕЛЕВАНТНОСТЬ
Степень соответствия документа запросу.
Слайд 9Виды информационно поисковых систем
Слайд 10Классификационные ИПС
В классификационных ИПС используется иерархическая (древовидная) организация информации, которая называется КЛАССИФИКАТОРОМ.
Слайд 11Разделы классификатора называются РУБРИКАМИ.
Библиотечный аналог классификационной ИПС - систематический каталог.
Слайд 12Предметная ИПС Web-кольца
Поиск названия нужного предмета своего интереса (предметом может быть и
нечто невещественное, например, индийская музыка), а с названием связаны списки соответствующих ресурсов Интернет.
Слайд 13Словарные ИПС
Основная идея словарной ИПС - создать словарь из слов, встречающихся в
документах Интернет, в котором при каждом слове будет храниться список документов, из которых взято данное слово.
Слайд 14Два основных алгоритма работы словарных ИПС:
-с использованием ключевых слов,
-с
использованием дескрипторов.
Слайд 15Использование ключевых слов
Для оценки содержимого документа используются только те слова, которые в
нем встречаются, и по запросу ИПС сопоставляет слова из запроса со словами документа, определяя по количеству, расположению, весу слов из запроса в документе его релевантность.
Слайд 16Использование дескрипторов
Индексируемые документы переводятся на некоторый дескрипторный информационный язык.
Дескрипторный информационный язык,
как и любой другой язык, состоит из алфавита (символов), слов, средств выражения парадигматических и синтагматических отношений между словами.
Слайд 17Ранжирование результатов поиска
Все ИПС в настоящее время уделяют основное внимание именно алгоритму
ранжирования полученных ссылок.
Слайд 18Критерии при ранжировании в ИПС
наличие слов из запроса в документе, их
количество, близость к началу документа, близость друг к другу;
наличие слов из запроса в заголовках и подзаголовках документов;
количество ссылок на данный документ с других документов;
«респектабельность» ссылающихся документов.
Слайд 19Современные проблемы поисковых систем
Когда эти технологии разрабатывались никто из разработчиков не представлял
себе, что Интернет станет глобальной информационной средой.
Слайд 20Архитектура
crawler (сборщик) - осуществляет сканирование Интернет ресурсов в поисках изменений на
страницах;
indexer (индексатор) - индексирует ресурсы, строит базы данных по ключевым словам, хранит эти базы данных в виде, удобном для поиска по ним;
gateway (шлюз) - осуществляет прием запросов от пользователей и выдачу им информации из базы данных.
Слайд 21Алгоритмы поиска и ранжирования
Основной проблемой современных поисковых систем является то, что по
причине фактически устаревшей архитектуры они не могут обеспечить качественный поиск информации.