Содержание
- 2. Теория поиска информации Прежде чем мы обратимся к ближайшему рассмотрению ПС, необходимо рассмотреть процесс поиска информации
- 3. Так работает поисковая машина web-сайты Web-страница «Червяк» Индексатор Пользователь Система выдачи результатов поиска База данных «Паук»
- 4. «Паук» (spider) Программа, которая загружает в поисковую машину web-страницы. Работает аналогично браузеру, установленному на компьютере пользователя,
- 5. «Червяк» (crawler) Программа, способная найти на web-странице все ссылки на другие страницы. Ее задача – определить,
- 6. Индексатор (Indexer) Программа, которая «разбирает» web-страницу на составные части и анализирует их. Вычленяются и анализируются заголовки,
- 7. База данных (database) Хранилище всех данных, которые поисковая система загружает и анализирует. Требует огромных ресурсов как
- 8. Система выдачи результатов поиска (Search Engine Results Engine) Программа, которая решает, какие страницы удовлетворяют запросу пользователя
- 9. «Паук» и «червяк» Первые две программы, работающие «в связке», часто называют поисковый робот или HTTP-робот.
- 10. Работа ПС Таким образом, после получения запроса ПС анализирует ту информацию, которую собрала ранее. Плюсы: многократно
- 11. Индексация и индекс Процесс загрузки информации из интернета и предварительного анализа ее поисковой машиной называют индексацией.
- 12. Индексация Глубина индексации может быть разной. Полные тексты документов, хранящихся на сайте, в базу данных копируются
- 13. Механизмы и алгоритмы поиска
- 14. Алгоритмы поиска Каждая ПС использует свой алгоритм поиска и его детали представляют собой ноу-хау разработчиков поисковика.
- 15. Закономерности поиска Некоторые из закономерностей поиска информации были описаны профессором филологии из Гарварда Джорджем Зипфом в
- 16. Законы Зипфа Зипф заметил, что длинные слова встречаются в текстах любого языка реже, чем короткие. Это
- 17. Первый закон Зипфа Первый закон связывает частоту появления (вхождения) того или иного слова с рангом этой
- 18. Первый закон Зипфа Зипф обнаружил, что произведение частоты вхождения слова и его ранга является постоянной величиной.
- 19. Первый закон Зипфа Частота появления (вхождения) того или иного слова является отношением количества появления слова к
- 20. Первый закон Зипфа Для русского языка константа равна примерно 0,06-0,07.
- 21. Первый закон Зипфа Примеры работы закона: Если наиболее распространенное слово встречается в тексте 100 раз, то
- 22. Второй закон Зипфа Зипф определил, что частота вхождения слов и количество слов, входящих в текст с
- 23. Второй закон Зипфа Получившая кривая будет сохранять свои параметры для всех текстов в пределах одного языка.
- 24. Следствия законов Зипфа Законы Зипфа универсальны. Они применимы не только к текстам. В аналогичную форму выливается,
- 25. Как ПС используют законы Зипфа Рассмотрим график первого закона:
- 26. Как ПС используют законы Зипфа Из анализа графика можно предположить, что наиболее значимые для текста слова
- 27. Центральная часть графика Центральная зона графика содержит термины, наиболее характерные для данного текста. Они в совокупности
- 28. Левая и правая часть графика Действительно, наиболее часто встречаемые слова – слева – это предлоги, местоимения,
- 29. Значимые слова Каждая ПС по-своему решает, какие слова отнести к наиболее значимым. Однако, если к числу
- 30. Стоп-слова Для того, чтобы безошибочно сузить диапазон значимых слов, создается словарь «бесполезных» слов или «стоп-слов». Словарь
- 31. Весовой коэффициент При определении значимых слов применяется и т.н. «весовой коэффициент». Часто встречаемое слово имеет весовой
- 32. Весовой коэффициент Параметр, определяющий «весовой коэффициент», называется инверсная частота термина. ПС может вычислять «весовой коэффициент» с
- 33. Принцип работы современной ПС Современные ПС имеют пространственно-векторную модель построения базы данных. Она позволяет получить результат,
- 34. Принцип работы современной ПС Это достигается благодаря тому, что все документы базы располагаются в виртуальном многомерном
- 35. Полнота и точность поиска
- 36. Релевантность Релевантным называется документ, имеющий отношение к сделанному Вами запросу, т.е. формально содержащий запрашиваемую Вами информацию.
- 37. Релевантность Конкретное общепринятое определение релевантности еще не сложилось. «Экономический словарь» (www.km.ru) толкует релевантность как «смысловое соответствие
- 38. Релевантность В то же время, на Яндексе говорится: «При поиске в интернете важны две составляющие –
- 39. Полнота поиска Коэффициентом полноты поиска называют отношение количества полученных релевантных документов к общему количеству существующих в
- 40. Полнота поиска В идеальной ПС коэффициент полноты поиска = 1. А противоположный ему коэффициент потерь информации
- 41. Точность поиска Коэффициентом точности поиска называют отношение количества релевантных результатов к общему количеству документов, содержащихся в
- 42. Точность поиска В идеальной ПС коэффициент точности поиска = 1. А противоположный ему коэффициент поискового шума=
- 43. Полнота и точность Нередко количество размещенных в интернете релевантных пользователю документов может составлять десятки тысяч. В
- 44. Пертинентность На практике используется еще и неформальное понятие – пертинентность. Это соотношение объема полезной для пользователя
- 45. Релевантность и пертинентность Пользователь Запрос Информационная потребность База данных ПС Ответ ПС на запрос Релевантность Пертинентность
- 46. Повышение пертинентности Средства повышения пертинентности: уточнение формулировок запросов, ранжирование по весовым критериям, ограничение числа выданных в
- 47. Пертинентность Проблеме пертинентности уделяется большое внимание в современных ПС. Так, ПС Google реализовала алгоритмы достижения неформальной
- 48. Морфологический анализ
- 49. Морфологический анализ Почти все современные ПС учитывают изменения слова в поиске документов. Указывая в строке поиска
- 50. Морфологический анализ Для непрофессионалов морфологический анализ – это удобная функция. Она позволяет производить поиск по всем
- 51. Морфологический анализ Для профессионального поиска морфологический анализ не всегда пригоден. Он лишает поиск гибкости. Морфологический анализ
- 52. Эффективный поиск
- 53. Эффективный поиск Будем считать, что эффективность поиска информации тем выше, чем больше коэффициенты полноты и точности,
- 54. Расширенный поиск Многие современные ПС с целью повышения эффективности поиска позволяют вместо простого поиска производить т.н.
- 55. Сложный поиск Кроме этого возможен и т.н. «сложный» поиск с использованием булевых операторов, то есть поиск
- 56. Этапы поисковой процедуры Формирование потребности в информации Формирование эффективного запроса к ПС Поиск нужной информации в
- 57. Формирование потребности На этой фазе определяется цель поиска, его стратегия и область проведения поиска. Информационные потребности
- 58. Шаблоны поиска Поиск новостей, поиск людей, поиск предприятий и организаций, поиск документов, поиск музыки, видео и
- 59. Формирование запроса Вторая часть поисковой процедуры предусматривает многовариантность подходов и решений при формализации запроса. Здесь же
- 60. Формирование запроса Основная задача при этом – формирование эффективного запроса. Основная проблема заключается в том, что
- 61. Формирование запроса В настоящее время не существует единого стандарта языка запросов к ПС, хотя попытки стандартизации
- 62. Поиск нужной информации Третий этап является определяющим: от его реализации зависит, будет ли найденная информация пертинентной.
- 63. Советы по поиску в интернете
- 64. Необходимое замечание Советы по поиску в интернете взяты с сайта ПС Яндекс, поэтому все перечисленные советы
- 65. Проверяйте орфографию Если поиск не нашел ни одного документа, то вы, возможно, допустили орфографическую ошибку в
- 66. Используйте синонимы Если список найденных страниц слишком мал или не содержит полезных страниц, попробуйте изменить слово.
- 67. Ищите больше, чем по одному слову Многие слова при поиске поодиночке дадут большое число бессмысленных ссылок.
- 68. Распределение запросов по количеству слов 19,02 OneStat.com, 2004 г.
- 69. Не пишите большими буквами Начиная слово с большой буквы, вы не найдете слов, написанных с маленькой
- 70. Ищите без морфологии Вы можете заставить Яндекс не учитывать морфологические формы слов из запроса при поиске.
- 71. Ищите похожие документы Если один из найденных документов ближе к искомой теме, чем остальные, нажмите на
- 72. Используйте знаки «+» и «-» Чтобы исключить документы, где встречается определенное слово, поставьте перед ним знак
- 73. Используйте язык запросов С помощью специальных операторов вы сможете сделать запрос более точным. Например, укажите, каких
- 74. Сохранение информации из интернета
- 75. Сохранение web-страниц Самая главная операция любого пользователя интернета – сохранение найденной информации. Итак, сохранение документа с
- 76. Сохранение web-страниц Microsoft Internet Explorer позволяет сохранить документ как: web-страницу полностью (со всеми иллюстрациями, которые разместятся
- 77. Сохранение в Microsoft Internet Explorer
- 78. Сохранение web-страниц Opera позволяет сохранить документ как: HTML-файлы (без иллюстраций, только HTML); HTML-файлы с рисунками (со
- 79. Сохранение в Opera
- 80. Сохранение файлов других типов В случае сохранения файлов других типов (doc, ppt, pdf и т.д.) броузер
- 81. Совет по сохранению информации В случае, если Вы ищете информацию в разных документах, будет оптимально использовать
- 82. Таким образом, Мы изучили устройство поисковой системы, разобрали теоретические подходы к поиску информации, рассмотрели советы по
- 84. Скачать презентацию

















































































Презентация на тему Античная философия
Древние образы в народных игрушках
Интеграция ERP решений с производственными системами
Организация и проведение мониторинга детских и спортивных игровых комплексов
Грамотность
1
Новый год в разных странах
Я–избиратель
Презентация Microsoft PowerPoint
Презентация на тему Александр Грин
Использование ИКТ для повышения качества обучения учащихся на уроках в начальных классах
Спортивный стиль одежды
Лабиринт знаний
Изобразительное искусство и детский дизайн
Презентация на тему "Использование компьютерных программ для ведения семейного бюджета" - скачать презентации по Педагогике
XIII Международный конгресс НАТ Новые модели коммуникаций и бизнеса в цифровом телерадиовещании Генеральный директор РТРС Малини
СИСТЕМА «КАДРЫ»версия 3.3
1816 г. Рене-Теофиль Лаэннек изобрёл стетоскоп
Мои главные книги о войне
Алфавит на английском
«ПАПА РЯДОМ, МАМА РЯДОМ, ЧТО ЕЩЕ ДЛЯ СЧАСТЬЯ НАДО?» проект реализуется г. Красногорске при поддержке Общественной программы «Де
Снижение затрат при эксплуатации УЭЦН
Горные породы
Использование Пульса в оценке Fixed Price Agile проектов
Презентация на тему Развитие эмоциональной отзывчивости детей дошкольного возраста посредством музыкальной деятельности
Математика в жизни семьи
AW 19-20, бриф для Stone Black. Блок 3
Что изменил Закон о торговле: количественный анализ