Содержание
- 2. Теория поиска информации Прежде чем мы обратимся к ближайшему рассмотрению ПС, необходимо рассмотреть процесс поиска информации
- 3. Так работает поисковая машина web-сайты Web-страница «Червяк» Индексатор Пользователь Система выдачи результатов поиска База данных «Паук»
- 4. «Паук» (spider) Программа, которая загружает в поисковую машину web-страницы. Работает аналогично браузеру, установленному на компьютере пользователя,
- 5. «Червяк» (crawler) Программа, способная найти на web-странице все ссылки на другие страницы. Ее задача – определить,
- 6. Индексатор (Indexer) Программа, которая «разбирает» web-страницу на составные части и анализирует их. Вычленяются и анализируются заголовки,
- 7. База данных (database) Хранилище всех данных, которые поисковая система загружает и анализирует. Требует огромных ресурсов как
- 8. Система выдачи результатов поиска (Search Engine Results Engine) Программа, которая решает, какие страницы удовлетворяют запросу пользователя
- 9. «Паук» и «червяк» Первые две программы, работающие «в связке», часто называют поисковый робот или HTTP-робот.
- 10. Работа ПС Таким образом, после получения запроса ПС анализирует ту информацию, которую собрала ранее. Плюсы: многократно
- 11. Индексация и индекс Процесс загрузки информации из интернета и предварительного анализа ее поисковой машиной называют индексацией.
- 12. Индексация Глубина индексации может быть разной. Полные тексты документов, хранящихся на сайте, в базу данных копируются
- 13. Механизмы и алгоритмы поиска
- 14. Алгоритмы поиска Каждая ПС использует свой алгоритм поиска и его детали представляют собой ноу-хау разработчиков поисковика.
- 15. Закономерности поиска Некоторые из закономерностей поиска информации были описаны профессором филологии из Гарварда Джорджем Зипфом в
- 16. Законы Зипфа Зипф заметил, что длинные слова встречаются в текстах любого языка реже, чем короткие. Это
- 17. Первый закон Зипфа Первый закон связывает частоту появления (вхождения) того или иного слова с рангом этой
- 18. Первый закон Зипфа Зипф обнаружил, что произведение частоты вхождения слова и его ранга является постоянной величиной.
- 19. Первый закон Зипфа Частота появления (вхождения) того или иного слова является отношением количества появления слова к
- 20. Первый закон Зипфа Для русского языка константа равна примерно 0,06-0,07.
- 21. Первый закон Зипфа Примеры работы закона: Если наиболее распространенное слово встречается в тексте 100 раз, то
- 22. Второй закон Зипфа Зипф определил, что частота вхождения слов и количество слов, входящих в текст с
- 23. Второй закон Зипфа Получившая кривая будет сохранять свои параметры для всех текстов в пределах одного языка.
- 24. Следствия законов Зипфа Законы Зипфа универсальны. Они применимы не только к текстам. В аналогичную форму выливается,
- 25. Как ПС используют законы Зипфа Рассмотрим график первого закона:
- 26. Как ПС используют законы Зипфа Из анализа графика можно предположить, что наиболее значимые для текста слова
- 27. Центральная часть графика Центральная зона графика содержит термины, наиболее характерные для данного текста. Они в совокупности
- 28. Левая и правая часть графика Действительно, наиболее часто встречаемые слова – слева – это предлоги, местоимения,
- 29. Значимые слова Каждая ПС по-своему решает, какие слова отнести к наиболее значимым. Однако, если к числу
- 30. Стоп-слова Для того, чтобы безошибочно сузить диапазон значимых слов, создается словарь «бесполезных» слов или «стоп-слов». Словарь
- 31. Весовой коэффициент При определении значимых слов применяется и т.н. «весовой коэффициент». Часто встречаемое слово имеет весовой
- 32. Весовой коэффициент Параметр, определяющий «весовой коэффициент», называется инверсная частота термина. ПС может вычислять «весовой коэффициент» с
- 33. Принцип работы современной ПС Современные ПС имеют пространственно-векторную модель построения базы данных. Она позволяет получить результат,
- 34. Принцип работы современной ПС Это достигается благодаря тому, что все документы базы располагаются в виртуальном многомерном
- 35. Полнота и точность поиска
- 36. Релевантность Релевантным называется документ, имеющий отношение к сделанному Вами запросу, т.е. формально содержащий запрашиваемую Вами информацию.
- 37. Релевантность Конкретное общепринятое определение релевантности еще не сложилось. «Экономический словарь» (www.km.ru) толкует релевантность как «смысловое соответствие
- 38. Релевантность В то же время, на Яндексе говорится: «При поиске в интернете важны две составляющие –
- 39. Полнота поиска Коэффициентом полноты поиска называют отношение количества полученных релевантных документов к общему количеству существующих в
- 40. Полнота поиска В идеальной ПС коэффициент полноты поиска = 1. А противоположный ему коэффициент потерь информации
- 41. Точность поиска Коэффициентом точности поиска называют отношение количества релевантных результатов к общему количеству документов, содержащихся в
- 42. Точность поиска В идеальной ПС коэффициент точности поиска = 1. А противоположный ему коэффициент поискового шума=
- 43. Полнота и точность Нередко количество размещенных в интернете релевантных пользователю документов может составлять десятки тысяч. В
- 44. Пертинентность На практике используется еще и неформальное понятие – пертинентность. Это соотношение объема полезной для пользователя
- 45. Релевантность и пертинентность Пользователь Запрос Информационная потребность База данных ПС Ответ ПС на запрос Релевантность Пертинентность
- 46. Повышение пертинентности Средства повышения пертинентности: уточнение формулировок запросов, ранжирование по весовым критериям, ограничение числа выданных в
- 47. Пертинентность Проблеме пертинентности уделяется большое внимание в современных ПС. Так, ПС Google реализовала алгоритмы достижения неформальной
- 48. Морфологический анализ
- 49. Морфологический анализ Почти все современные ПС учитывают изменения слова в поиске документов. Указывая в строке поиска
- 50. Морфологический анализ Для непрофессионалов морфологический анализ – это удобная функция. Она позволяет производить поиск по всем
- 51. Морфологический анализ Для профессионального поиска морфологический анализ не всегда пригоден. Он лишает поиск гибкости. Морфологический анализ
- 52. Эффективный поиск
- 53. Эффективный поиск Будем считать, что эффективность поиска информации тем выше, чем больше коэффициенты полноты и точности,
- 54. Расширенный поиск Многие современные ПС с целью повышения эффективности поиска позволяют вместо простого поиска производить т.н.
- 55. Сложный поиск Кроме этого возможен и т.н. «сложный» поиск с использованием булевых операторов, то есть поиск
- 56. Этапы поисковой процедуры Формирование потребности в информации Формирование эффективного запроса к ПС Поиск нужной информации в
- 57. Формирование потребности На этой фазе определяется цель поиска, его стратегия и область проведения поиска. Информационные потребности
- 58. Шаблоны поиска Поиск новостей, поиск людей, поиск предприятий и организаций, поиск документов, поиск музыки, видео и
- 59. Формирование запроса Вторая часть поисковой процедуры предусматривает многовариантность подходов и решений при формализации запроса. Здесь же
- 60. Формирование запроса Основная задача при этом – формирование эффективного запроса. Основная проблема заключается в том, что
- 61. Формирование запроса В настоящее время не существует единого стандарта языка запросов к ПС, хотя попытки стандартизации
- 62. Поиск нужной информации Третий этап является определяющим: от его реализации зависит, будет ли найденная информация пертинентной.
- 63. Советы по поиску в интернете
- 64. Необходимое замечание Советы по поиску в интернете взяты с сайта ПС Яндекс, поэтому все перечисленные советы
- 65. Проверяйте орфографию Если поиск не нашел ни одного документа, то вы, возможно, допустили орфографическую ошибку в
- 66. Используйте синонимы Если список найденных страниц слишком мал или не содержит полезных страниц, попробуйте изменить слово.
- 67. Ищите больше, чем по одному слову Многие слова при поиске поодиночке дадут большое число бессмысленных ссылок.
- 68. Распределение запросов по количеству слов 19,02 OneStat.com, 2004 г.
- 69. Не пишите большими буквами Начиная слово с большой буквы, вы не найдете слов, написанных с маленькой
- 70. Ищите без морфологии Вы можете заставить Яндекс не учитывать морфологические формы слов из запроса при поиске.
- 71. Ищите похожие документы Если один из найденных документов ближе к искомой теме, чем остальные, нажмите на
- 72. Используйте знаки «+» и «-» Чтобы исключить документы, где встречается определенное слово, поставьте перед ним знак
- 73. Используйте язык запросов С помощью специальных операторов вы сможете сделать запрос более точным. Например, укажите, каких
- 74. Сохранение информации из интернета
- 75. Сохранение web-страниц Самая главная операция любого пользователя интернета – сохранение найденной информации. Итак, сохранение документа с
- 76. Сохранение web-страниц Microsoft Internet Explorer позволяет сохранить документ как: web-страницу полностью (со всеми иллюстрациями, которые разместятся
- 77. Сохранение в Microsoft Internet Explorer
- 78. Сохранение web-страниц Opera позволяет сохранить документ как: HTML-файлы (без иллюстраций, только HTML); HTML-файлы с рисунками (со
- 79. Сохранение в Opera
- 80. Сохранение файлов других типов В случае сохранения файлов других типов (doc, ppt, pdf и т.д.) броузер
- 81. Совет по сохранению информации В случае, если Вы ищете информацию в разных документах, будет оптимально использовать
- 82. Таким образом, Мы изучили устройство поисковой системы, разобрали теоретические подходы к поиску информации, рассмотрели советы по
- 84. Скачать презентацию