ИНТЕГРАЦИЯ ЛИНГВИСТИЧЕСКИХ И СТАТИСТИЧЕСКИХ МЕТОДОВ ПОИСКА В ПОИСКОВОЙ МАШИНЕ «EXACTUS»

Содержание

Слайд 2

Состояние дел в области поисковых алгоритмов

Статистические алгоритмы поиска (с учетом морфологии).
Лингвистические

Состояние дел в области поисковых алгоритмов Статистические алгоритмы поиска (с учетом морфологии).
алгоритмы поиска (без учета статистики).
Цель разработчиков Exactus:
объединение статистических и лингвистических методов поиска.

Слайд 3

Особенности алгоритма поиска Exactus (1)

Учет статистических характеристик текста:
TF*IDF веса термов

Особенности алгоритма поиска Exactus (1) Учет статистических характеристик текста: TF*IDF веса термов
(с некоторой модификацией).
Значимость фрагментов текстов (заголовки, разметка, удаленность от начала документа и т.д.).

Слайд 4

Особенности алгоритма поиска Exactus (2)

Учет лингвистических характеристик текста:
Значения синтаксем (Золотова

Особенности алгоритма поиска Exactus (2) Учет лингвистических характеристик текста: Значения синтаксем (Золотова
Г.А.).
Семантические связи (Осипов Г.С.).

Слайд 5

Особенности алгоритма поиска Exactus (3)

Особенности алгоритма поиска Exactus (3)

Слайд 6

Что у других?

Что у других?

Слайд 7

Что у других? (2)

Что у других? (2)

Слайд 8

Как Exactus нашел ответ

Как Exactus нашел ответ

Слайд 9

Как Exactus нашел ответ(2)

На этапе индексации производится преобразование документов к внутреннему формату

Как Exactus нашел ответ(2) На этапе индексации производится преобразование документов к внутреннему
Exactus, обсчет TF*IDF весов.
Производится синтаксический и семантический анализ текстов (выявление синтаксем и их значений).
Полученные в результате анализа данные укладываются в линейные упорядоченные списки вхождений слов в документы с весами и значениями
Поиск представляет собой слияние линейных упорядоченных списков.

Слайд 10

Особенности архитектуры Exactus

Модули расположены на узлах кластерной установки.
Управление задачами осуществляется посредством

Особенности архитектуры Exactus Модули расположены на узлах кластерной установки. Управление задачами осуществляется
PVM-машины (Parallel Virtual Machine).
Модули разделены на два типа: основные (лингвистические процессоры, индексаторы и т.д.) и вспомогательные (агрегаторы, синхронизаторы и т.д.).
Система является кросс-платформенной, код написан на С и C++.
Экспериментальная установка состоит из 8-и узлов кластера пиковой производительностью 100 Gigaflops.
В качестве вычислительных узлов используются обычные персональные компьютеры, объединенные в стойку.
Для взаимодействия узлов используется Gigabit Ethernet.

Слайд 11

Exactus – вид сбоку

Exactus – вид сбоку

Слайд 12

Экспериментальная проверка алгоритма Exactus (1)

Принципы оценки результатов поиска
Эксперт оценивает соответствие документов исходному

Экспериментальная проверка алгоритма Exactus (1) Принципы оценки результатов поиска Эксперт оценивает соответствие
запросу на основе расширенного описания информационной потребности
Используются следующие шкалы оценки релевантности:
точно релевантно;
возможно релевантно;
вероятно релевантно;
не релевантно;
невозможно оценить.
Результат считается релевантным, если он получил оценку по одному из первых двух пунктов шкалы

Слайд 13

Экспериментальная проверка алгоритма Exactus (2)

Для выставления оценки результата используются два способа:
Строгая оценка

Экспериментальная проверка алгоритма Exactus (2) Для выставления оценки результата используются два способа:
AND – документ получает оценку релевантен или нерелевантен, если все оценщики выставили соответствующую оценку.
Нестрогая оценка OR - результат получает оценку релевантен, если хотя бы один оценщик выставил соответствующую оценку.

Слайд 14

График TREC

График TREC

Слайд 15

Краткий анализ результатов участия в РОМИП-2007 (1)

Exactus принимал участие в поиске по

Краткий анализ результатов участия в РОМИП-2007 (1) Exactus принимал участие в поиске
коллекции белорусского Интернета.
Наилучшие результаты достигнуты системой в AND-оценке по точности.
Хорошие оценки достигнуты по другим показателям.
Отсутствие Page Rank в алгоритме Exactus не привело к отставанию от других систем в точности и полноте поиска.

Слайд 16

Краткий анализ результатов участия в РОМИП-2007 (2)

Полученные на РОМИП результаты показывают перспективность

Краткий анализ результатов участия в РОМИП-2007 (2) Полученные на РОМИП результаты показывают
симбиоза лингвистических и статистических алгоритмов поиска и возможность их применения в реальных условиях.
Скорость поиска Exactus сравнима с современными поисковыми машинами на больших объемах данных (не более 2х секунд на любой запрос по коллекции РОМИП).
Индексация и лингвистический анализ, по-прежнему, остаются узким местом Exactus. Единственный путь преодоления барьеров скорости анализа - использование современных вычислительных систем и параллельных вычислений.
Имя файла: ИНТЕГРАЦИЯ-ЛИНГВИСТИЧЕСКИХ-И-СТАТИСТИЧЕСКИХ-МЕТОДОВ-ПОИСКА-В-ПОИСКОВОЙ-МАШИНЕ-«EXACTUS».pptx
Количество просмотров: 109
Количество скачиваний: 0