Система вопросно-ответного поиск Lasso Q/A System по материалам конференции TREC-1999

Содержание

Слайд 2

Примеры вопросов

В каком году родился Пушкин?
Кто был первым космонавтом?
Сколько Microsoft потратила на

Примеры вопросов В каком году родился Пушкин? Кто был первым космонавтом? Сколько
исследования в 2004 году?
Какое расстояние между Москвой и Питером?
Где находится Тадж Махал?
Назовите фильм, получивший Оскар.
Почему Гугл купил компанию «Бегун»?
Кого Зенит победил на Чемпионате Европы в 2008?

Слайд 3

Техники вопросно-ответного поиска

Information Retrieval - находит документ, который может содержать ответ на заданный

Техники вопросно-ответного поиска Information Retrieval - находит документ, который может содержать ответ
вопрос
Information Extraction - строит большую базу знаний и выдает четкий ответ, подставляя объекты в некоторый шаблон ответа
Комбинация?

Слайд 4

Архитектура Lasso Q/A System

Вопрос

Обработка вопроса

Индексирование параграфов

Обработка ответа

Тип вопроса

Тип ответа

Фокус вопроса

Ключевые слова вопроса

Документы

Ответ(ы)

Индекс коллекции

IR-поиск

Фильтрация параграфов

Оценка параграфов

Сортировка параграфов

нет

да

Разбор

Идентификация ответа

Извлечение ответа

Оценка правильности ответа

Архитектура Lasso Q/A System Вопрос Обработка вопроса Индексирование параграфов Обработка ответа Тип

Слайд 5

Архитектура Lasso Q/A System

Вопрос

Обработка вопроса

Индексирование параграфов

Обработка ответа

Тип вопроса

Тип ответа

Фокус вопроса

Ключевые слова вопроса

Документы

Ответ(ы)

Индекс коллекции

IR-поиск

Фильтрация параграфов

Качество параграфов

Сортировка параграфов

нет

да

Разбор

Идентификация ответа

Извлечение ответа

Оценка правильности ответа

Архитектура Lasso Q/A System Вопрос Обработка вопроса Индексирование параграфов Обработка ответа Тип

Слайд 6

Пример обработки вопроса

Пример обработки вопроса

Слайд 7

Правила определения ключевых слов

Если в вопросе есть цитата с кавычками, все значимые слова

Правила определения ключевых слов Если в вопросе есть цитата с кавычками, все
(не стоп-слова) цитаты добавляются к списку ключевых слов.
Все имена собственные.
Все нарицательные имена с прилагательными.
Все остальные нарицательные имена
Все существительные с прилагательными
Все остальные существительные
Все глаголы
Фокус вопроса

Слайд 8

Примеры ключевых слов

What is the name of the «female» counterpart to El

Примеры ключевых слов What is the name of the «female» counterpart to
Nino, which results in cooling temperatures and very dry weather ?
female El Nino dry weather cooling temperatures
female El Nino dry weather cooling
female El Nino dry weather
female El Nino dry
female El Nino
female El
How much could you rent a Volkswagen bug for in 1966 ?
Volkswagen bug
Volkswagen bug rent

Слайд 9

Архитектура Lasso Q/A System

Вопрос

Обработка вопроса

Индексирование параграфов

Обработка ответа

Тип вопроса

Тип ответа

Фокус вопроса

Ключевые слова вопроса

Документы

Ответ(ы)

Индекс коллекции

IR-поиск

Фильтрация параграфов

Оценка параграфов

Сортировка параграфов

нет

да

Разбор

Идентификация ответа

Извлечение ответа

Оценка правильности ответа

Архитектура Lasso Q/A System Вопрос Обработка вопроса Индексирование параграфов Обработка ответа Тип

Слайд 10

IR-поиск

Построение индекса коллекции:
Нормализация SGML-тегов
Исключение лишних символов
Разделение на слова
Нормализация (стемминг) слов
Расчет локальных и

IR-поиск Построение индекса коллекции: Нормализация SGML-тегов Исключение лишних символов Разделение на слова
глобальных весов
Построение общего словаря коллекции
Создание инвертированного индексного файла
Особенности IR-поиска:
Булевское индексирование вместо Векторного

Слайд 11

Фильтрация параграфов

Оператор PARAGRAPH n – действует как AND, но только в пределах

Фильтрация параграфов Оператор PARAGRAPH n – действует как AND, но только в
n параграфов, а не в пределах всего документа
Деление на предложения – с помощью знаков препинания
Деление на параграфы – с помощью HTML-тегов, пустых строк, отступов.

Слайд 12

Оценка и сортировка параграфов

Оценивается не просто параграф, а окно внутри параграфа
Оценка окна

Оценка и сортировка параграфов Оценивается не просто параграф, а окно внутри параграфа
= + max (Оценка слов в том же порядке) – max (Расстояние между самыми дальними ключевыми словами) – min (Количествно недостающих ключевых слов)

Слайд 13

Архитектура Lasso Q/A System

Вопрос

Обработка вопроса

Индексирование параграфов

Обработка ответа

Тип вопроса

Тип ответа

Фокус вопроса

Ключевые слова вопроса

Документы

Ответ(ы)

Индекс коллекции

IR-поиск

Фильтрация параграфов

Качество параграфов

Сортировка параграфов

нет

да

Разбор

Идентификация ответа

Извлечение ответа

Оценка правильности ответа

Архитектура Lasso Q/A System Вопрос Обработка вопроса Индексирование параграфов Обработка ответа Тип

Слайд 14

Разбор (парсер) + идентификация ответов

Определение частей речи
Выделение именованных сущностей с помощью словарей

Разбор (парсер) + идентификация ответов Определение частей речи Выделение именованных сущностей с
Gazetteers и WorldNet.
Распознавание имен персон, названий организаций, мест валют и продуктов, дат с помощью эвристических правил.
Все те же возможности наиболее широко используются в системах Information Extraction
=> Все слова, подходящие по типу под тип ответа, помечаются как ответы-кандидаты.

Слайд 15

Извлечение ответа и оценка

Оценивается ответ-окно. Оценка ответа-окна считается так:
+32 * Оценка за

Извлечение ответа и оценка Оценивается ответ-окно. Оценка ответа-окна считается так: +32 *
совпадения с ключевыми словами
+16 * Оценка за пунктуацию (за ответом следует знак препинания)
+16 * Оценка за слова из вопроса, следующие сразу за ответом-кандидатом после запятой
+16 * Оценка слова из вопроса, найденные в том же поддереве разбора
+16 * Оценка за слова из вопроса в том же предложении
+16 * Оценка за общее количество ключевых слов во всем ответе-окне
-4 * sqrt (Оценка за расстояние между ответом-кандидатом и другими словами вопроса в ответе-окне)
Имя файла: Система-вопросно-ответного-поиск-Lasso-Q/A-System-по-материалам-конференции-TREC-1999.pptx
Количество просмотров: 240
Количество скачиваний: 0