Слайд 2Поиск в Интернете
По статистическим данным суммарное число Web-страниц в конце 2001 г.

составляло 7,5 миллиардов, а к концу 2005 г. это число возрастет до 25 миллиардов, причем количество пользо-вателей Интернет к указан-ному году превысит миллиард человек.
Слайд 3Инструменты информационного поиска
Поисковые машины (search engines)
Поисковая машина состоит из баз данных и

программного обеспечения для их обработки, которое делится на две части: анализатор содержимого Web-страниц (Spider - спайдер, или «паук») и классификатор-определитель рейтинга, осуществляющий сортировку ссылок, найденных по запросу пользователя.
Каталоги (directories)
Тщательно подобранные (чаще вручную) ссылки на ресурсы, сопровождаемые описаниями. Некоторые каталоги содержат внутренние поисковые машины.
Порталы
Поисковые машины с интегрированным предложением собственного информационного содержания, которые могут также предоставлять дополнительные услуги: бесплатные адреса электронной почты, места для размещения домашних Web-страниц и другие.
Метапоисковые системы
Надстройки над поисковыми машинами, которые не имеют собственной базы данных и при поиске по запросу пользователя формируют, в свою очередь, запросы для нескольких внешних поисковых машин, а затем анализируют полученные результаты и выдают список ссылок в порядке, определяемом соотношением рейтингов ответа сразу по нескольким поисковым машинам. Проще говоря, такая машина ведет опрос нескольких поисковых систем, а затем отбирает ссылки, следуя собственному алгоритму.
Слайд 4Глобальные справочники ресурсов
Yahoo! (http://www.yahoo.com)
Один из самых первых, надежных и авторитетных справочников Всемирной

паутины.
Транснациональный проект.
Внушительный объем (2 000 000 сайтов, 25 000 категорий).
Научность и логичность используемой схемы классификации.
14 категорий: Бизнес и Экономика, Новости и СМИ, Образование, …
Перекрестная структура.
Встроенная поисковая система.
Слайд 5Глобальные справочники ресурсов
Open Directory Project (http://dmoz.org)
Один из наиболее полных справочников в мире

(6 000 000 сайтов, 540 000 категорий).
Некоммерческая направленность.
Научная и логическая иерархическая структура.
Русскоязычный вариант (22 000 сайтов).
Динамически развивающийся проект (среднее увеличение справочника более чем на 1000 сайтов в день).
Слайд 6Глобальные справочники ресурсов
About (http://www.about.com/)
Справочник, поддерживаемый экспертами различных областей знания.
24 категории: Автомобили, Хобби,

Подростки, ...
Огромное количество рекламы.
Слайд 7Российские справочники ресурсов
Апорт (http://aport.ru)
Единственный профессионально поддерживаемый отечественный справочник.
Является порталом.
Многоуровневая иерархическая структура.
Сортировка ссылок

(по дате, по алфавиту, …).
Низкая скорость актуализации сведений.
Слайд 8Российские справочники ресурсов
Пингвин
Иван Сусанин
Улитка
http://www.pingwin.ru
http://www.susanin.net
http://www.ulitka.ru

Слайд 9Глобальные поисковые системы
Google (http://www.google.com)
Система запущена в 1998 году.
Единоличный лидер среди глобальных поисковых

систем (3 3000 000 000 web-страниц).
Лучшие на сегодня возможности поиска иллюстраций (425 000 иллюстраций).
Специальный модуль ранжирования результатов.
Наличие русскоязычного интерфейса (http://www.google.com.ru).
Высокая степень комфорта для пользователя.
Простая методика поиска.
Слайд 10Глобальные поисковые системы
Lycos
HotBot
Excite
http://www.lycos.com
http://www.hotbot.com
http://www.excite.com

Слайд 11Российские поисковые системы
Яндекс (http://www.yandex.ru/)
Запущен в сентябре 1997 года.
Признанный лидер российского поискового сервиса.
Еженедельная

актуализация базы.
Простая форма запроса.
На начало февраля 2004 года Яндексом проиндексировано свыше 970 000 российских и зарубежных русскоязычных серверов, а также серверов на территории СНГ (всего учтено более 140 000 000 оригинальных документов).
Слайд 12Российские поисковые системы
Rambler (http://www.rambler.ru)
Запущен в октябре 1996 года.
Проведенная в декабре 2002 года

коренная модернизация программно-аппаратной части позволил поисковой системе вновь приобрести былой авторитет (занимает второе место после Яндекса по величине базы данных).
Производительность робота – 6 900 000 страниц в сутки.
Простая и расширенная форма ввода запроса.
Rambler Top 100.
Слайд 13Российские поисковые системы
Turtle (http://www.turtle.ru)
Запущена в июне 2002 года.
Около 100 000 000 оригинальных

документов.
Быстрый результат запроса.
Перспективная развивающаяся система.
Слайд 14Мета-поисковые системы
MetaCrawler (http://www.metacrawler.com)
Мета-поисковые системы не имеют собственных поисковых роботов и баз данных

(индексированных файлов). Их достоинство заключается в умении рассылать запросы по другим системам, а затем суммировать результаты.
Слайд 15Структура информационно-поисковых запросов

Слайд 16Стратегия поиска информации в Интернете
Выберите основные понятия, описывающие предмет вашего поиска.
Выберите ключевые

слова, подходящие к данному понятию.
Подыщите как можно больше синонимов к вашим ключевым словам.
Определите, какой тип операторов поиска (OR, AND, NOT) лучше подойдет в вашем случае.
Выберите подходящую поисковую систему.
Изучите особенности поисковой системы, воспользовавшись разделом Помощь.
Подготовьте заранее выражения для поиска, проверив орфографию.
Проведите запросы несколько раз, слегка изменяя выражение.
Модифицируйте свои запросы в зависимости от результатов.
Попробуйте выполнить тот же запрос на других поисковых системах.
Слайд 17Язык поисковых запросов
РЕГИСТР
В общем случае, регистр написания поисковых слов и операторов значения

не имеет, то есть дом и ДОМ, Not и nOt воспринимаются одинаково.
МОРФОЛОГИЯ
По каждому слову запроса поиск ведется с учетом правил словоизменения соответствую-щего языка. Например, при поиске по слову 'человек' будут также найдены документы, содержащие слова 'человеку', 'человеком', 'человека' и даже 'люди'. Чтобы провести поиск только по одной определенной форме слова, нужно взять его в двойные кавычки или воспользоваться поиском точной фразы в расширенном поиске.
ОГРАНИЧЕНИЕ НА РАССТОЯНИЕ
Если запрос составлен из одного или нескольких слов без применения операторов и конструкций языка запросов, то будут найдены документы, в которых встречаются все слова запроса. При этом для каждого запроса всегда существует так называемое ограничение контекста. Например, по запросу 'красная армия' будут найдены те документы, в которых слова 'красная' и 'армия' хотя бы один раз встретятся менее чем в 40 словах друг от друга.
Значение ограничения контекста можно изменять конструкцией '(число, запрос)‘. Например, '(2, красная армия)‘.
НЕНАЙДЕННЫЕ СЛОВА
Если запрос состоит из нескольких слов, и при этом некоторые из них вообще не удалось найти в Интернете, то выдаются результаты поиска по частичному запросу, из которого отсутствующие в Интернете слова исключены.