Инициативный проект Российского семинара по оценке методов информационного поиска (РОМИП)

Февраль 14, 2021

Главная
Разное
Инициативный проект Российского семинара по оценке методов информационного поиска (РОМИП)

Содержание

2. Что такое РОМИП? РОМИП= (КОРПУС + ЗАДАЧИ + ОЦЕНКА) + ОРГАНИЗАЦИОННЫЕ ПРОЦЕДУРЫ + СЕМИНАР
3. Международные аналоги CLEF (Cross-Language Evaluation Forum) – европейский форум по многоязычному поиску на европейских языках NTCIR
4. Задачи РОМИП ∙ создание общедоступных корпусов (тексты + задания + оценки) с возможностью повторного использования; ∙
5. Принципы семинара Равноправие систем Анонимность источника результата Использование апробированных подходов
6. Корпус narod_romip Источник – narod.ru Общий объем – 7 Гб + Документов – 600 000 +
7. Задачи (tracks) Поиск по произвольному запросу (ad hoc) 10000 запросов из лога Яндекса Выдача – 100
8. Оценка Метод «общего котла» (pooling) ~NT первых документов из выдачи Оценка общего числа документов для проверки
9. Объективность оценки ~50 неизвестных участникам запросов из 10 000 5 неизвестных участникам категорий из 70 расширенное
11. Скачать презентацию

Что такое РОМИП?
РОМИП=
(КОРПУС + ЗАДАЧИ + ОЦЕНКА) +
ОРГАНИЗАЦИОННЫЕ ПРОЦЕДУРЫ +
СЕМИНАР

Международные аналоги
CLEF (Cross-Language Evaluation Forum) – европейский форум по многоязычному поиску на европейских

языках
NTCIR – японский семинар с интернациональными участниками по многоязычному поиску
SUMMAC – конференция по оценке качества автоматического аннотирования MUC (Message Understanding Conference) – серия конференций, направленных в основном на определении в текстах объектов
TDT (Topic Detection and Tracking) – проект по обнаружению новых тем в потоке новостей и отслеживанию их развития
DUC (Document Understanding Conference) – конференция по вопросам автоматического аннотирования

Слайд 4

Задачи РОМИП
∙ создание общедоступных корпусов (тексты + задания + оценки) с возможностью

повторного использования;
∙ независимая оценка методов ИП;
∙ объединение профессионалов;
∙ формирование «правил игры».

Слайд 5

Принципы семинара
Равноправие систем
Анонимность источника результата
Использование апробированных подходов

Слайд 6

Корпус narod_romip
Источник – narod.ru
Общий объем – 7 Гб +
Документов – 600

000 +
Число сайтов – 20 000+
Лицензия основана на пользовательском соглашении Яндекса

Слайд 7

Задачи (tracks)
Поиск по произвольному запросу (ad hoc)
10000 запросов из лога Яндекса
Выдача –

100 документов
Тематическая классификация
Классификация документов по 70 категориям категориям второго уровня каталога narod.ru
Обучающая выборка – сайты каталога narod.ru (модерируемый самоввод), не менее 5 для каждой категории

Слайд 8

Оценка
Метод «общего котла» (pooling)
~NT первых документов из выдачи
Оценка общего числа документов для

проверки ~ T0.7·NT
T – количество участников
Полнота рассчитывается по числу релевантных документов в пуле

Слайд 9

Объективность оценки
~50 неизвестных участникам запросов из 10 000
5 неизвестных участникам категорий из

70
расширенное описание запроса составляется экспертом
оценщик не знает «происхождение» и ранг документа в выдаче
троекратная оценка каждого документа

Инициативный проект Российского семинара по оценке методов информационного поиска (РОМИП)

Содержание

Слайд 2

Что такое РОМИП?
РОМИП=
(КОРПУС + ЗАДАЧИ + ОЦЕНКА) +
ОРГАНИЗАЦИОННЫЕ ПРОЦЕДУРЫ +
СЕМИНАР

Слайд 3

Международные аналоги
CLEF (Cross-Language Evaluation Forum) – европейский форум по многоязычному поиску на европейских

Слайд 4

Задачи РОМИП
∙ создание общедоступных корпусов (тексты + задания + оценки) с возможностью

Слайд 5

Принципы семинара
Равноправие систем
Анонимность источника результата
Использование апробированных подходов

Слайд 6

Корпус narod_romip
Источник – narod.ru
Общий объем – 7 Гб +
Документов – 600

Слайд 7

Задачи (tracks)
Поиск по произвольному запросу (ad hoc)
10000 запросов из лога Яндекса
Выдача –

Слайд 8

Оценка
Метод «общего котла» (pooling)
~NT первых документов из выдачи
Оценка общего числа документов для

Слайд 9

Объективность оценки
~50 неизвестных участникам запросов из 10 000
5 неизвестных участникам категорий из

Инициативный проект Российского семинара по оценке методов информационного поиска (РОМИП)

Содержание

Что такое РОМИП?РОМИП= (КОРПУС + ЗАДАЧИ + ОЦЕНКА) + ОРГАНИЗАЦИОННЫЕ ПРОЦЕДУРЫ + СЕМИНАР

Международные аналогиCLEF (Cross-Language Evaluation Forum) – европейский форум по многоязычному поиску на европейских

Задачи РОМИП∙ создание общедоступных корпусов (тексты + задания + оценки) с возможностью

Принципы семинараРавноправие систем Анонимность источника результата Использование апробированных подходов

Корпус narod_romipИсточник – narod.ru Общий объем – 7 Гб +Документов – 600

Задачи (tracks)Поиск по произвольному запросу (ad hoc)10000 запросов из лога ЯндексаВыдача –

ОценкаМетод «общего котла» (pooling)~NT первых документов из выдачиОценка общего числа документов для

Объективность оценки~50 неизвестных участникам запросов из 10 0005 неизвестных участникам категорий из

Похожие презентации

Что такое РОМИП?
РОМИП=
(КОРПУС + ЗАДАЧИ + ОЦЕНКА) +
ОРГАНИЗАЦИОННЫЕ ПРОЦЕДУРЫ +
СЕМИНАР

Международные аналоги
CLEF (Cross-Language Evaluation Forum) – европейский форум по многоязычному поиску на европейских

Задачи РОМИП
∙ создание общедоступных корпусов (тексты + задания + оценки) с возможностью

Принципы семинара
Равноправие систем
Анонимность источника результата
Использование апробированных подходов

Корпус narod_romip
Источник – narod.ru
Общий объем – 7 Гб +
Документов – 600

Задачи (tracks)
Поиск по произвольному запросу (ad hoc)
10000 запросов из лога Яндекса
Выдача –

Оценка
Метод «общего котла» (pooling)
~NT первых документов из выдачи
Оценка общего числа документов для

Объективность оценки
~50 неизвестных участникам запросов из 10 000
5 неизвестных участникам категорий из