Слайд 2Примеры вопросов
В каком году родился Пушкин?
Кто был первым космонавтом?
Сколько Microsoft потратила на
![Примеры вопросов В каком году родился Пушкин? Кто был первым космонавтом? Сколько](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/476751/slide-1.jpg)
исследования в 2004 году?
Какое расстояние между Москвой и Питером?
Где находится Тадж Махал?
Назовите фильм, получивший Оскар.
Почему Гугл купил компанию «Бегун»?
Кого Зенит победил на Чемпионате Европы в 2008?
Слайд 3Техники вопросно-ответного поиска
Information Retrieval
- находит документ, который может содержать ответ на заданный
![Техники вопросно-ответного поиска Information Retrieval - находит документ, который может содержать ответ](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/476751/slide-2.jpg)
вопрос
Information Extraction
- строит большую базу знаний и выдает четкий ответ, подставляя объекты в некоторый шаблон ответа
Комбинация?
Слайд 4Архитектура Lasso Q/A System
Вопрос
Обработка
вопроса
Индексирование
параграфов
Обработка
ответа
Тип вопроса
Тип ответа
Фокус вопроса
Ключевые слова
вопроса
Документы
Ответ(ы)
Индекс коллекции
IR-поиск
Фильтрация
параграфов
Оценка
параграфов
Сортировка
параграфов
нет
да
Разбор
Идентификация
ответа
Извлечение
ответа
Оценка
правильности
ответа
![Архитектура Lasso Q/A System Вопрос Обработка вопроса Индексирование параграфов Обработка ответа Тип](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/476751/slide-3.jpg)
Слайд 5Архитектура Lasso Q/A System
Вопрос
Обработка
вопроса
Индексирование
параграфов
Обработка
ответа
Тип вопроса
Тип ответа
Фокус вопроса
Ключевые слова
вопроса
Документы
Ответ(ы)
Индекс коллекции
IR-поиск
Фильтрация
параграфов
Качество
параграфов
Сортировка
параграфов
нет
да
Разбор
Идентификация
ответа
Извлечение
ответа
Оценка
правильности
ответа
![Архитектура Lasso Q/A System Вопрос Обработка вопроса Индексирование параграфов Обработка ответа Тип](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/476751/slide-4.jpg)
Слайд 7Правила определения
ключевых слов
Если в вопросе есть цитата с кавычками, все значимые слова
![Правила определения ключевых слов Если в вопросе есть цитата с кавычками, все](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/476751/slide-6.jpg)
(не стоп-слова) цитаты добавляются к списку ключевых слов.
Все имена собственные.
Все нарицательные имена с прилагательными.
Все остальные нарицательные имена
Все существительные с прилагательными
Все остальные существительные
Все глаголы
Фокус вопроса
Слайд 8Примеры ключевых слов
What is the name of the «female» counterpart to El
![Примеры ключевых слов What is the name of the «female» counterpart to](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/476751/slide-7.jpg)
Nino, which results in cooling temperatures and very dry weather ?
female El Nino dry weather cooling temperatures
female El Nino dry weather cooling
female El Nino dry weather
female El Nino dry
female El Nino
female El
How much could you rent a Volkswagen bug for in 1966 ?
Volkswagen bug
Volkswagen bug rent
Слайд 9Архитектура Lasso Q/A System
Вопрос
Обработка
вопроса
Индексирование
параграфов
Обработка
ответа
Тип вопроса
Тип ответа
Фокус вопроса
Ключевые слова
вопроса
Документы
Ответ(ы)
Индекс коллекции
IR-поиск
Фильтрация
параграфов
Оценка
параграфов
Сортировка
параграфов
нет
да
Разбор
Идентификация
ответа
Извлечение
ответа
Оценка
правильности
ответа
![Архитектура Lasso Q/A System Вопрос Обработка вопроса Индексирование параграфов Обработка ответа Тип](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/476751/slide-8.jpg)
Слайд 10IR-поиск
Построение индекса коллекции:
Нормализация SGML-тегов
Исключение лишних символов
Разделение на слова
Нормализация (стемминг) слов
Расчет локальных и
![IR-поиск Построение индекса коллекции: Нормализация SGML-тегов Исключение лишних символов Разделение на слова](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/476751/slide-9.jpg)
глобальных весов
Построение общего словаря коллекции
Создание инвертированного индексного файла
Особенности IR-поиска:
Булевское индексирование вместо Векторного
Слайд 11Фильтрация параграфов
Оператор PARAGRAPH n – действует как AND, но только в пределах
![Фильтрация параграфов Оператор PARAGRAPH n – действует как AND, но только в](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/476751/slide-10.jpg)
n параграфов, а не в пределах всего документа
Деление на предложения – с помощью знаков препинания
Деление на параграфы – с помощью HTML-тегов, пустых строк, отступов.
Слайд 12Оценка и сортировка параграфов
Оценивается не просто параграф, а окно внутри параграфа
Оценка окна
![Оценка и сортировка параграфов Оценивается не просто параграф, а окно внутри параграфа](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/476751/slide-11.jpg)
=
+ max (Оценка слов в том же порядке)
– max (Расстояние между самыми дальними ключевыми словами)
– min (Количествно недостающих ключевых слов)
Слайд 13Архитектура Lasso Q/A System
Вопрос
Обработка
вопроса
Индексирование
параграфов
Обработка
ответа
Тип вопроса
Тип ответа
Фокус вопроса
Ключевые слова
вопроса
Документы
Ответ(ы)
Индекс коллекции
IR-поиск
Фильтрация
параграфов
Качество
параграфов
Сортировка
параграфов
нет
да
Разбор
Идентификация
ответа
Извлечение
ответа
Оценка
правильности
ответа
![Архитектура Lasso Q/A System Вопрос Обработка вопроса Индексирование параграфов Обработка ответа Тип](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/476751/slide-12.jpg)
Слайд 14Разбор (парсер) + идентификация ответов
Определение частей речи
Выделение именованных сущностей с помощью словарей
![Разбор (парсер) + идентификация ответов Определение частей речи Выделение именованных сущностей с](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/476751/slide-13.jpg)
Gazetteers и WorldNet.
Распознавание имен персон, названий организаций, мест валют и продуктов, дат с помощью эвристических правил.
Все те же возможности наиболее широко используются в системах Information Extraction
=> Все слова, подходящие по типу под тип ответа, помечаются как ответы-кандидаты.
Слайд 15Извлечение ответа и оценка
Оценивается ответ-окно. Оценка ответа-окна считается так:
+32 * Оценка за
![Извлечение ответа и оценка Оценивается ответ-окно. Оценка ответа-окна считается так: +32 *](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/476751/slide-14.jpg)
совпадения с ключевыми словами
+16 * Оценка за пунктуацию (за ответом следует знак препинания)
+16 * Оценка за слова из вопроса, следующие сразу за ответом-кандидатом после запятой
+16 * Оценка слова из вопроса, найденные в том же поддереве разбора
+16 * Оценка за слова из вопроса в том же предложении
+16 * Оценка за общее количество ключевых слов во всем ответе-окне
-4 * sqrt (Оценка за расстояние между ответом-кандидатом и другими словами вопроса в ответе-окне)