Информационный поиск

Содержание

Слайд 2

Каталоги библиотек, информационные отделы

История ИП (1)

1990-е гг.

Библиотекари, специалисты по информации

Рядовые пользователи

?

Каталоги библиотек, информационные отделы История ИП (1) 1990-е гг. Библиотекари, специалисты по информации Рядовые пользователи ?

Слайд 3

История ИП (2)

Поиск через веб-ссылки (hyperspace)
Нет чёткой модели Веба
Интерес к ИПС

хранилище знаний

История ИП (2) Поиск через веб-ссылки (hyperspace) Нет чёткой модели Веба Интерес
и культурных ценностей
∀ м. создать документ
связать с ∀ другим документом

Слайд 4

Информационный поиск

(Information retrieval) — это процесс поиска в большой коллекции (хранящейся, как

Информационный поиск (Information retrieval) — это процесс поиска в большой коллекции (хранящейся,
правило, в памяти компьютеров) некоего неструктурированного материала ("обычно — документа), удовлетворяющего информационные потребности

Слайд 5

User task – IR system (1)

М.б. трудно выразить словами…

Капустин В. А. Основы

User task – IR system (1) М.б. трудно выразить словами… Капустин В.
поиска информации в Интернете. Методическое пособие. — СПб.: Институт «Открытое общество». Санкт-Петербургское отделение, 1998. — 13 с. http://www.ict.edu.ru/ft/001919/kapustin1.pdf

Слайд 6

User task – IR system (2)

User task – IR system (2)

Слайд 7

Классификация ИПС по масштабу действия

Веб-поиск
Сбор документов
Противодействие SEO
Персональный поиск (personal IR)
Все форматы

Классификация ИПС по масштабу действия Веб-поиск Сбор документов Противодействие SEO Персональный поиск
док-в на комп.
Простота
Ресурсы

Корпоративный (Enterprise), подвед. (Institutional)
Предметная область (domain-specific)
Центр-я файл-я сист.
Спец-е поиск-е машины

Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. — Вильямс, 2011. — ISBN 978-5-8459-1623-5

Слайд 8

Baeza-Yates R., Ribeiro-Neto B. Modern Information Retrieval // 1. Introduction. — Addison-Wesley,

Baeza-Yates R., Ribeiro-Neto B. Modern Information Retrieval // 1. Introduction. — Addison-Wesley,
1999. — ISBN 0-201-39829-X ftp://mail.im.tku.edu.tw/seke/slide/baeza-yates/chap1_introduction-modern_ir.pdf

Information Retrieval (text) vs. Data Retrieval (RDBMS)

IR –
ранжирование док-в на основе интерпретации содержимого (слово -> цифра)
(релевантность)

Цель IR системы – найти все релевантные документы, и как можно меньше нерелевантных.

Число документов?

Слайд 9

Релевантность (1), оценка ИПС

Релевантность - степень соответствия документа запросу (инф-й потребности)
Оценка ИПС

Релевантность (1), оценка ИПС Релевантность - степень соответствия документа запросу (инф-й потребности)
– эмпирическая:
Текстовые коллекции
Эксперты
Главный указатель полезности поиска?

Слайд 10

Релевантность (2)

Удовлетворение пользователя:
0.
Скорость ответа
Размер индекса
Интерфейс (удобство, наглядность, скорость отклика)

Маннинг К., Рагхаван

Релевантность (2) Удовлетворение пользователя: 0. Скорость ответа Размер индекса Интерфейс (удобство, наглядность,
П., Шютце Х. Введение в информационный поиск. — Вильямс, 2011. — ISBN 978-5-8459-1623-5

Слайд 11

Релевантность (3), тестовая коллекция

Коллекция документов
Набор тестовых инф-х потребностей (запросов), min 50
Набор оценок релевантности

Релевантность (3), тестовая коллекция Коллекция документов Набор тестовых инф-х потребностей (запросов), min
(обычно бинарные утверждения)
Бинарная классификация: эталонная оценка релевантности асессорами

Слайд 12

Стандартные тестовые коллекции

Коллекция Cranfield, 1950-60
1398 аннотаций статей
225 запросов
Оценки рел-ти (запрос-документ)
Text Retrieval Evaluation

Стандартные тестовые коллекции Коллекция Cranfield, 1950-60 1398 аннотаций статей 225 запросов Оценки
Conference (TREC). 1992…
1.89 млн док-в
450 инф-х потребностей (topics)
Российский семинар по оценке методов информационного поиска (www.romip.ru). 2003...

Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. — Вильямс, 2011. — ISBN 978-5-8459-1623-5

Слайд 13

Набор коллекций РОМИП
2010 г.

Набор коллекций РОМИП 2010 г.

Слайд 14

?

?

Релевантность (4)

Релевантность

Информационная потребность

Запрос

? ? Релевантность (4) Релевантность Информационная потребность Запрос

Слайд 15

Релевантность (5)

Информационная потребность

Запрос

Правда ли, что красное вино более эффективно снижает риск сердечных

Релевантность (5) Информационная потребность Запрос Правда ли, что красное вино более эффективно
приступов, чем белое?

wine AND red AND white AND heart AND attack AND effective

Слайд 16

Релевантность (6)

Информационная потребность

Запрос

Правда ли, что красное вино более эффективно снижает риск сердечных

Релевантность (6) Информационная потребность Запрос Правда ли, что красное вино более эффективно
приступов, чем белое?

wine AND red AND white AND heart AND attack AND effective

Релевантность - степень соответствия документа …

+ Однословные запросы

Слайд 17

User task – IR system

User information need -> Query
Keywords + regular expressions

User task – IR system User information need -> Query Keywords +
(%, *, _)
Query example: (poorly defined or broad)
гонка ?

Слайд 18

гонка

спешка,
торопливость

автогонки, мотогонки

компьютерная игра, автосимулятор

комп. состояние гонки

гонка // Русский Викисловарь, 2012, http://ru.wiktionary.org/wiki/гонка

плоты

гонка спешка, торопливость автогонки, мотогонки компьютерная игра, автосимулятор комп. состояние гонки гонка
из брёвен, сплавляемые по реке

Слайд 19

User task – IR system

Трудность: нечёткий запрос «гонка»
Автоспорт
Париж-Дакар
Навигация
GPS
Browsing? Сёрфинг? – тоже IR

User task – IR system Трудность: нечёткий запрос «гонка» Автоспорт Париж-Дакар Навигация

Слайд 20

Pull

Information (Data) Retrieval and Browsing: Pull & Push

ИПС

Гипертекстовые системы. Примеры?

Push

?

Pull Information (Data) Retrieval and Browsing: Pull & Push ИПС Гипертекстовые системы. Примеры? Push ?

Слайд 21

новостной агент;
Internet change detection and notification (Google alert - подписка)
спам

Pull

Information (Data) Retrieval

новостной агент; Internet change detection and notification (Google alert - подписка) спам
and Browsing: Pull & Push

ИПС

Гипертекстовые системы. Примеры?

Push

Слайд 22

Представление документа

Весь текст (самое полное предст-е)
список всех слов
Если упрощение, уменьш.
Stopwords, Stemming (Нормализация

Представление документа Весь текст (самое полное предст-е) список всех слов Если упрощение,
текста)

Слайд 23

Нормализация текста (1): предобработка

Синтез речи
Машинный перевод
Сохранение в базе данных
Сравнение текстов (сортировка, индекс)

Нормализация текста (1): предобработка Синтез речи Машинный перевод Сохранение в базе данных Сравнение текстов (сортировка, индекс)

Слайд 24

Нормализация текста (2): Этапы

Нормализация юникода
tolower() || toupper()
Digits → words
Удаление ударений, диакритики
Удаление знаков пунктуации
Раскрытие

Нормализация текста (2): Этапы Нормализация юникода tolower() || toupper() Digits → words
аббревиатур
Удаление стоп слов
Нормализация слов (стемминг)
Канонизация текста (полные синонимы)
"co-operation" → "cooperation",
«чо», «чё» → «что»
"should've" → "should have"

¿Словари

¿Регулярные выражения

Слайд 25

Шумовые слова – слишком общие слова (stop words)

Общие
предлоги, союзы, междометия, цифры,

Шумовые слова – слишком общие слова (stop words) Общие предлоги, союзы, междометия,
частицы (зависят от языка)
Зависимые

Словоформа - слово в узком смысле, то есть обладающая признаками слова цепочка фонем, формально отличающаяся от другой.

Нормализация слова: «фонем» мн.ч., Род. п. -> «фонема» Им.п., ед.ч.

Фонема — минимальная единица звукового строя языка

Слайд 26

Нормализация слов (стемминг)
нахождение основы слова для заданного исходного слова (не обязательно «корень»).

Нормализация слов (стемминг) нахождение основы слова для заданного исходного слова (не обязательно
«Портер»:

A. Лемматизация
Приведение словоформы к лемме — её нормальной (словарной) форме
Определение POS
Правила
кошками → кошка
бежал → бежать
дутых → дутый
B. Стохастические алг.
вероятность + context

Слайд 27

Представление документа

Весь текст (самое полное предст-е)
Список всех слов
Список нормализованных слов
Индекс (слово ->

Представление документа Весь текст (самое полное предст-е) Список всех слов Список нормализованных
документ)

Слайд 28

Представление документа

Baeza-Yates R., Ribeiro-Neto B. Modern Information Retrieval // 1. Introduction. —

Представление документа Baeza-Yates R., Ribeiro-Neto B. Modern Information Retrieval // 1. Introduction.
Addison-Wesley, 1999. — ISBN 0-201-39829-X ftp://mail.im.tku.edu.tw/seke/slide/baeza-yates/chap1_introduction-modern_ir.pdf

Слайд 29

Архитектура ИПС (упрощ., обобщ.)

Baeza-Yates R., Ribeiro-Neto B. Modern Information Retrieval // 1.

Архитектура ИПС (упрощ., обобщ.) Baeza-Yates R., Ribeiro-Neto B. Modern Information Retrieval //
Introduction. — Addison-Wesley, 1999. — ISBN 0-201-39829-X ftp://mail.im.tku.edu.tw/seke/slide/baeza-yates/chap1_introduction-modern_ir.pdf

Слайд 30

Литература

Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. — Вильямс,

Литература Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. —
2011. — ISBN 978-5-8459-1623-5. http://rutracker.org/forum/viewtopic.php?t=3887364
Baeza-Yates R., Ribeiro-Neto B. Modern Information Retrieval // 1. Introduction. — Addison-Wesley, 1999. — ISBN 0-201-39829-X ftp://mail.im.tku.edu.tw/seke/slide/baeza-yates/chap1_introduction-modern_ir.pdf
Капустин В. А. Основы поиска информации в Интернете. Методическое пособие. — СПб.: Институт «Открытое общество». Санкт-Петербургское отделение, 1998. — 13 с. http://www.ict.edu.ru/ft/001919/kapustin1.pdf
Имя файла: Информационный-поиск-.pptx
Количество просмотров: 350
Количество скачиваний: 1