Слайд 2Примеры вопросов
В каком году родился Пушкин?
Кто был первым космонавтом?
Сколько Microsoft потратила на
исследования в 2004 году?
Какое расстояние между Москвой и Питером?
Где находится Тадж Махал?
Назовите фильм, получивший Оскар.
Почему Гугл купил компанию «Бегун»?
Кого Зенит победил на Чемпионате Европы в 2008?
Слайд 3Техники вопросно-ответного поиска
Information Retrieval
- находит документ, который может содержать ответ на заданный
вопрос
Information Extraction
- строит большую базу знаний и выдает четкий ответ, подставляя объекты в некоторый шаблон ответа
Комбинация?
Слайд 4Архитектура Lasso Q/A System
Вопрос
Обработка
вопроса
Индексирование
параграфов
Обработка
ответа
Тип вопроса
Тип ответа
Фокус вопроса
Ключевые слова
вопроса
Документы
Ответ(ы)
Индекс коллекции
IR-поиск
Фильтрация
параграфов
Оценка
параграфов
Сортировка
параграфов
нет
да
Разбор
Идентификация
ответа
Извлечение
ответа
Оценка
правильности
ответа
Слайд 5Архитектура Lasso Q/A System
Вопрос
Обработка
вопроса
Индексирование
параграфов
Обработка
ответа
Тип вопроса
Тип ответа
Фокус вопроса
Ключевые слова
вопроса
Документы
Ответ(ы)
Индекс коллекции
IR-поиск
Фильтрация
параграфов
Качество
параграфов
Сортировка
параграфов
нет
да
Разбор
Идентификация
ответа
Извлечение
ответа
Оценка
правильности
ответа
Слайд 7Правила определения
ключевых слов
Если в вопросе есть цитата с кавычками, все значимые слова
(не стоп-слова) цитаты добавляются к списку ключевых слов.
Все имена собственные.
Все нарицательные имена с прилагательными.
Все остальные нарицательные имена
Все существительные с прилагательными
Все остальные существительные
Все глаголы
Фокус вопроса
Слайд 8Примеры ключевых слов
What is the name of the «female» counterpart to El
Nino, which results in cooling temperatures and very dry weather ?
female El Nino dry weather cooling temperatures
female El Nino dry weather cooling
female El Nino dry weather
female El Nino dry
female El Nino
female El
How much could you rent a Volkswagen bug for in 1966 ?
Volkswagen bug
Volkswagen bug rent
Слайд 9Архитектура Lasso Q/A System
Вопрос
Обработка
вопроса
Индексирование
параграфов
Обработка
ответа
Тип вопроса
Тип ответа
Фокус вопроса
Ключевые слова
вопроса
Документы
Ответ(ы)
Индекс коллекции
IR-поиск
Фильтрация
параграфов
Оценка
параграфов
Сортировка
параграфов
нет
да
Разбор
Идентификация
ответа
Извлечение
ответа
Оценка
правильности
ответа
Слайд 10IR-поиск
Построение индекса коллекции:
Нормализация SGML-тегов
Исключение лишних символов
Разделение на слова
Нормализация (стемминг) слов
Расчет локальных и
глобальных весов
Построение общего словаря коллекции
Создание инвертированного индексного файла
Особенности IR-поиска:
Булевское индексирование вместо Векторного
Слайд 11Фильтрация параграфов
Оператор PARAGRAPH n – действует как AND, но только в пределах
n параграфов, а не в пределах всего документа
Деление на предложения – с помощью знаков препинания
Деление на параграфы – с помощью HTML-тегов, пустых строк, отступов.
Слайд 12Оценка и сортировка параграфов
Оценивается не просто параграф, а окно внутри параграфа
Оценка окна
=
+ max (Оценка слов в том же порядке)
– max (Расстояние между самыми дальними ключевыми словами)
– min (Количествно недостающих ключевых слов)
Слайд 13Архитектура Lasso Q/A System
Вопрос
Обработка
вопроса
Индексирование
параграфов
Обработка
ответа
Тип вопроса
Тип ответа
Фокус вопроса
Ключевые слова
вопроса
Документы
Ответ(ы)
Индекс коллекции
IR-поиск
Фильтрация
параграфов
Качество
параграфов
Сортировка
параграфов
нет
да
Разбор
Идентификация
ответа
Извлечение
ответа
Оценка
правильности
ответа
Слайд 14Разбор (парсер) + идентификация ответов
Определение частей речи
Выделение именованных сущностей с помощью словарей
Gazetteers и WorldNet.
Распознавание имен персон, названий организаций, мест валют и продуктов, дат с помощью эвристических правил.
Все те же возможности наиболее широко используются в системах Information Extraction
=> Все слова, подходящие по типу под тип ответа, помечаются как ответы-кандидаты.
Слайд 15Извлечение ответа и оценка
Оценивается ответ-окно. Оценка ответа-окна считается так:
+32 * Оценка за
совпадения с ключевыми словами
+16 * Оценка за пунктуацию (за ответом следует знак препинания)
+16 * Оценка за слова из вопроса, следующие сразу за ответом-кандидатом после запятой
+16 * Оценка слова из вопроса, найденные в том же поддереве разбора
+16 * Оценка за слова из вопроса в том же предложении
+16 * Оценка за общее количество ключевых слов во всем ответе-окне
-4 * sqrt (Оценка за расстояние между ответом-кандидатом и другими словами вопроса в ответе-окне)