Поиск информации в Интернет. Занятие №7
Проблема поиска информации в Интернет Активные пользователи Интернет тратят на поиск необходимой информации несколько часов в день, часто результаты этого поиска отзываются тщетными а более половины найденной информации признается бесполезной. Проблема заключается в том что информация разрознена. На статических сайтах большого размера требуется более эффективный поиск информации. Для динамических сайтов и порталов необходим быстрый поиск в большой коллекции документов, находящихся не только на различных сайтах но и на различных серверах. Задача поиска информации Задача поиска информации сплетается в сложный клубок задач, требуя выяснения: что представляет собой интересующая информация; как ее идентифицировать в запросе к системе, осуществляющей поиск; как его организовать; что делать с найденными результатами при различных механизмах поиска. Сегодня в ответ на большинство запросов информация, выдаваемая поисковыми системами, является неполной, несистематизированной, неверифицированной, загрязненной большим количеством спама. Релевантность поиска не растет или даже падает, пользовательский интерфейс не всегда удобен - бесконечная лента результатов поиска, где в одну кучу свалены форумы, сайты, товарные предложения, новости, бесконечные входные страницы, липовые сайты, фальшивые каталоги, платные ссылки. Поэтому ответом на запрос «океан» реально является ответ на запрос «названия фирм, магазинов со словом океан», «Мировой океан и другие океаны, как географические объекты». Такая же ситуация характерна для большинства популярных однословных и двухсловных нечетких запросов.