Слайд 2Что такое РОМИП?
РОМИП=
(КОРПУС + ЗАДАЧИ + ОЦЕНКА) +
ОРГАНИЗАЦИОННЫЕ ПРОЦЕДУРЫ +
СЕМИНАР
![Что такое РОМИП? РОМИП= (КОРПУС + ЗАДАЧИ + ОЦЕНКА) + ОРГАНИЗАЦИОННЫЕ ПРОЦЕДУРЫ + СЕМИНАР](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/407101/slide-1.jpg)
Слайд 3Международные аналоги
CLEF (Cross-Language Evaluation Forum) – европейский форум по многоязычному поиску на европейских
![Международные аналоги CLEF (Cross-Language Evaluation Forum) – европейский форум по многоязычному поиску](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/407101/slide-2.jpg)
языках
NTCIR – японский семинар с интернациональными участниками по многоязычному поиску
SUMMAC – конференция по оценке качества автоматического аннотирования
MUC (Message Understanding Conference) – серия конференций, направленных в основном на определении в текстах объектов
TDT (Topic Detection and Tracking) – проект по обнаружению новых тем в потоке новостей и отслеживанию их развития
DUC (Document Understanding Conference) – конференция по вопросам автоматического аннотирования
Слайд 4Задачи РОМИП
∙ создание общедоступных корпусов (тексты + задания + оценки) с возможностью
![Задачи РОМИП ∙ создание общедоступных корпусов (тексты + задания + оценки) с](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/407101/slide-3.jpg)
повторного использования;
∙ независимая оценка методов ИП;
∙ объединение профессионалов;
∙ формирование «правил игры».
Слайд 5Принципы семинара
Равноправие систем
Анонимность источника результата
Использование апробированных подходов
![Принципы семинара Равноправие систем Анонимность источника результата Использование апробированных подходов](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/407101/slide-4.jpg)
Слайд 6Корпус narod_romip
Источник – narod.ru
Общий объем – 7 Гб +
Документов – 600
![Корпус narod_romip Источник – narod.ru Общий объем – 7 Гб + Документов](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/407101/slide-5.jpg)
000 +
Число сайтов – 20 000+
Лицензия основана на пользовательском соглашении Яндекса
Слайд 7Задачи (tracks)
Поиск по произвольному запросу (ad hoc)
10000 запросов из лога Яндекса
Выдача –
![Задачи (tracks) Поиск по произвольному запросу (ad hoc) 10000 запросов из лога](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/407101/slide-6.jpg)
100 документов
Тематическая классификация
Классификация документов по 70 категориям категориям второго уровня каталога narod.ru
Обучающая выборка – сайты каталога narod.ru (модерируемый самоввод), не менее 5 для каждой категории
Слайд 8Оценка
Метод «общего котла» (pooling)
~NT первых документов из выдачи
Оценка общего числа документов для
![Оценка Метод «общего котла» (pooling) ~NT первых документов из выдачи Оценка общего](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/407101/slide-7.jpg)
проверки ~ T0.7·NT
T – количество участников
Полнота рассчитывается по числу релевантных документов в пуле
Слайд 9Объективность оценки
~50 неизвестных участникам запросов из
10 000
5 неизвестных участникам категорий из
![Объективность оценки ~50 неизвестных участникам запросов из 10 000 5 неизвестных участникам](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/407101/slide-8.jpg)
70
расширенное описание запроса составляется экспертом
оценщик не знает «происхождение» и ранг документа в выдаче
троекратная оценка каждого документа