Слайд 2Что такое РОМИП?
РОМИП=
(КОРПУС + ЗАДАЧИ + ОЦЕНКА) +
ОРГАНИЗАЦИОННЫЕ ПРОЦЕДУРЫ +
СЕМИНАР
Слайд 3Международные аналоги
CLEF (Cross-Language Evaluation Forum) – европейский форум по многоязычному поиску на европейских
языках
NTCIR – японский семинар с интернациональными участниками по многоязычному поиску
SUMMAC – конференция по оценке качества автоматического аннотирования
MUC (Message Understanding Conference) – серия конференций, направленных в основном на определении в текстах объектов
TDT (Topic Detection and Tracking) – проект по обнаружению новых тем в потоке новостей и отслеживанию их развития
DUC (Document Understanding Conference) – конференция по вопросам автоматического аннотирования
Слайд 4Задачи РОМИП
∙ создание общедоступных корпусов (тексты + задания + оценки) с возможностью
повторного использования;
∙ независимая оценка методов ИП;
∙ объединение профессионалов;
∙ формирование «правил игры».
Слайд 5Принципы семинара
Равноправие систем
Анонимность источника результата
Использование апробированных подходов
Слайд 6Корпус narod_romip
Источник – narod.ru
Общий объем – 7 Гб +
Документов – 600
000 +
Число сайтов – 20 000+
Лицензия основана на пользовательском соглашении Яндекса
Слайд 7Задачи (tracks)
Поиск по произвольному запросу (ad hoc)
10000 запросов из лога Яндекса
Выдача –
100 документов
Тематическая классификация
Классификация документов по 70 категориям категориям второго уровня каталога narod.ru
Обучающая выборка – сайты каталога narod.ru (модерируемый самоввод), не менее 5 для каждой категории
Слайд 8Оценка
Метод «общего котла» (pooling)
~NT первых документов из выдачи
Оценка общего числа документов для
проверки ~ T0.7·NT
T – количество участников
Полнота рассчитывается по числу релевантных документов в пуле
Слайд 9Объективность оценки
~50 неизвестных участникам запросов из
10 000
5 неизвестных участникам категорий из
70
расширенное описание запроса составляется экспертом
оценщик не знает «происхождение» и ранг документа в выдаче
троекратная оценка каждого документа