Инициативный проект Российского семинара по оценке методов информационного поиска (РОМИП)

Содержание

Слайд 2

Что такое РОМИП?

РОМИП=
(КОРПУС + ЗАДАЧИ + ОЦЕНКА) +
ОРГАНИЗАЦИОННЫЕ ПРОЦЕДУРЫ +
СЕМИНАР

Что такое РОМИП? РОМИП= (КОРПУС + ЗАДАЧИ + ОЦЕНКА) + ОРГАНИЗАЦИОННЫЕ ПРОЦЕДУРЫ + СЕМИНАР

Слайд 3

Международные аналоги

CLEF (Cross-Language Evaluation Forum) – европейский форум по многоязычному поиску на европейских

Международные аналоги CLEF (Cross-Language Evaluation Forum) – европейский форум по многоязычному поиску
языках
NTCIR – японский семинар с интернациональными участниками по многоязычному поиску
SUMMAC – конференция по оценке качества автоматического аннотирования MUC (Message Understanding Conference) – серия конференций, направленных в основном на определении в текстах объектов
TDT (Topic Detection and Tracking) – проект по обнаружению новых тем в потоке новостей и отслеживанию их развития
DUC (Document Understanding Conference) – конференция по вопросам автоматического аннотирования

Слайд 4

Задачи РОМИП

∙ создание общедоступных корпусов (тексты + задания + оценки) с возможностью

Задачи РОМИП ∙ создание общедоступных корпусов (тексты + задания + оценки) с
повторного использования;
∙ независимая оценка методов ИП;
∙ объединение профессионалов;
∙ формирование «правил игры».

Слайд 5

Принципы семинара

Равноправие систем
Анонимность источника результата
Использование апробированных подходов

Принципы семинара Равноправие систем Анонимность источника результата Использование апробированных подходов

Слайд 6

Корпус narod_romip

Источник – narod.ru
Общий объем – 7 Гб +
Документов – 600

Корпус narod_romip Источник – narod.ru Общий объем – 7 Гб + Документов
000 +
Число сайтов – 20 000+
Лицензия основана на пользовательском соглашении Яндекса

Слайд 7

Задачи (tracks)

Поиск по произвольному запросу (ad hoc)
10000 запросов из лога Яндекса
Выдача –

Задачи (tracks) Поиск по произвольному запросу (ad hoc) 10000 запросов из лога
100 документов
Тематическая классификация
Классификация документов по 70 категориям категориям второго уровня каталога narod.ru
Обучающая выборка – сайты каталога narod.ru (модерируемый самоввод), не менее 5 для каждой категории

Слайд 8

Оценка

Метод «общего котла» (pooling)
~NT первых документов из выдачи
Оценка общего числа документов для

Оценка Метод «общего котла» (pooling) ~NT первых документов из выдачи Оценка общего
проверки ~ T0.7·NT
T – количество участников
Полнота рассчитывается по числу релевантных документов в пуле

Слайд 9

Объективность оценки

~50 неизвестных участникам запросов из 10 000
5 неизвестных участникам категорий из

Объективность оценки ~50 неизвестных участникам запросов из 10 000 5 неизвестных участникам
70
расширенное описание запроса составляется экспертом
оценщик не знает «происхождение» и ранг документа в выдаче
троекратная оценка каждого документа
Имя файла: Инициативный-проект-Российского-семинара-по-оценке-методов-информационного-поиска-(РОМИП).pptx
Количество просмотров: 95
Количество скачиваний: 0