Слайд 2Зачем ещё один?
У существующих корпусов:
Авторские права
На текст
На разметку
Административные ограничения
Недоступна сама разметка
Слайд 3Что будет уметь?
Просмотр и редактирование разметки
(многопользовательский)
Возможность скачивания в разных форматах
Встроенный поиск
по популярным запросам
Обработка «тяжёлых» запросов
Слайд 4Кто будет делать?
Техническая часть – группа разработчиков
Наполнение – пользователи
Слайд 5Откуда брать тексты?
Тексты с истекшим авторским правом
Тексты, на которые авторское право не
распространяется
Тексты под свободной лицензией (e.g. Википедия)
Остальное – по договорённости с правообладателем
Слайд 6Задачи инструментария
Редактирование
Хранение
Поиск
Слайд 7Как можно использовать?
Статистические исследования
Машинное обучение (как обучающий корпус)
Тестовый корпус для других ресурсов
Слайд 8Проблемы
Почему эта модель доступа должна работать?
Как обеспечить совместную работу многих людей? (многопользовательский)
Как
обеспечить целостность данных?
Слайд 9Проблемы
Откуда взять столько квалифицированных редакторов?
Как бороться с ошибками редактирования?
Как не делать разметку
с нуля?
Как унифицировать разметку?