Содержание

Слайд 2

Задача

Разработать классификатор для автоматического определения категории запроса по тексту сообщения, оставленному на

Задача Разработать классификатор для автоматического определения категории запроса по тексту сообщения, оставленному
сайте Администрации Курской области

Слайд 3

Цель

Сократить время ответа на обращения жителей

Цель Сократить время ответа на обращения жителей

Слайд 4

Pipeline

Обращения

Препроцессинг
и feature engineering

Модель

Результат

Pipeline Обращения Препроцессинг и feature engineering Модель Результат

Слайд 5

Pipeline

Обращения представлены в виде текста с дополнительной
информацией об ответственном лице, тематике

Pipeline Обращения представлены в виде текста с дополнительной информацией об ответственном лице, тематике и лейблом категории
и лейблом категории

Слайд 6

Pipeline

Препроцессинг

Очистка корпуса от html тегов попавших в текст при сборе данных
Очистка текста

Pipeline Препроцессинг Очистка корпуса от html тегов попавших в текст при сборе
от стоп-слов
Токенизация и удаление биграм встречающихся менее 5 раз

Слайд 7

Pipeline

Feature engineering

Создание словаря весов TF/IDF для всего корпуса (train+test)
Upsampling обучающей выборки разделением

Pipeline Feature engineering Создание словаря весов TF/IDF для всего корпуса (train+test) Upsampling
текстов на куски не более 256 символов
Кластеризация обучающей выборки в соответствии с лейблами тематики
На основании кластеризации предсказание тематики в тестовом наборе данных через матрицу весов TF/IDF

Слайд 8

Pipeline

Модель

Объединение текста с предсказанной тематикой на основе кластеризации
Bert finetuning на классификацию текстов
В

Pipeline Модель Объединение текста с предсказанной тематикой на основе кластеризации Bert finetuning
качестве базовой модели использована rubert-base-cased-conversational от DeepPavlov

Слайд 9

Pipeline

Результат

Multi AUC-ROC на публичном лидерборде 0.998829

Pipeline Результат Multi AUC-ROC на публичном лидерборде 0.998829