Слайд 2Постановка задачи
Разработать интеллектуальную автоматизированную систему для классификации пользовательских обращений в техническую поддержку
![Постановка задачи Разработать интеллектуальную автоматизированную систему для классификации пользовательских обращений в техническую](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/1103832/slide-1.jpg)
приложения, включающую в себя подсистему предварительной обработки исходных сообщений, а также модель для классификации сообщений.
Слайд 3Цели и задачи
Провести исследование предметной области – задачи обработки данных на естественном
![Цели и задачи Провести исследование предметной области – задачи обработки данных на](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/1103832/slide-2.jpg)
языке
Проанализировать исходный набор данных
Разработать концептуальную схему работы системы
Исследовать способы выполнения предварительной обработки исходных текстов и реализовать их
Исследовать существующие линейные модели классификации и провести отбор моделей с наилучшим результатом классификации
Для отобранных наилучших моделей провести полное исследование доступных для изменения параметров, подобрать наилучшие параметры и произвести анализ результатов обучения
Слайд 4План разработки
Создание программного модуля предобработки обращений
Тестирование и доработка модуля предобработки
Обучение модели-классификатора
Тестирование классификатора
![План разработки Создание программного модуля предобработки обращений Тестирование и доработка модуля предобработки](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/1103832/slide-3.jpg)
и анализ результатов, поиск методов их улучшения
Тестирование всего программного комплекса (предобработка в тандеме с классификатором)
Доработка модулей по результатам тестирования
Слайд 5Концепция и предполагаемые результаты
![Концепция и предполагаемые результаты](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/1103832/slide-4.jpg)
Слайд 6Концепция и предполагаемые результаты
![Концепция и предполагаемые результаты](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/1103832/slide-5.jpg)
Слайд 7Исходные данные
Формат:
Таблица Excel с размеченными данными
Поля:
Header – заголовок
Body – само обращение
Class –
![Исходные данные Формат: Таблица Excel с размеченными данными Поля: Header – заголовок](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/1103832/slide-6.jpg)
класс обращения
Group – группа обращения
Объем:
2504 записи, 2315 уникальных
Самое частое обращение встретилось 15 раз
Слайд 8Проблемы датасета
Малый объем данных
Дисбаланс классов
Множество слов с одной и более опечатками
рекаищиты, тноефона,
![Проблемы датасета Малый объем данных Дисбаланс классов Множество слов с одной и](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/1103832/slide-7.jpg)
прогоаммоц
По ошибке склеенные и разделенные слова
оплаченданные, удо бнее
Обилие словоформ и синонимов
моби кеш, мобикэш, mobicash, moby cash
Даты и время, суммы, и др. числа которые не несут смысла
21.09.2019, 4576 рублей, в 14:15, версия ОС 7.18.2020
Служебные части речи
Слайд 9Методы решения проблем
Для исправления опечаток в словах был использован модуль PyEnchant, а
![Методы решения проблем Для исправления опечаток в словах был использован модуль PyEnchant,](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/1103832/slide-8.jpg)
также ряд составленных своими силами словарей замен
С помощью регулярных выражений даты, время и суммы были заменены словами DATE, TIME, SUM, остальные числа были удалены
С помощью модуля PyMorphy был произведен морфологический разбор – удалены слова служебных частей речи, остальные слова приведены к начальной форме
Слайд 10Полученные результаты
Изначальное количество словоформ:
Число
Количество словоформ после предобработки:
число
Число уникальных обращений после предобработки:
2176
Ключевые термины
![Полученные результаты Изначальное количество словоформ: Число Количество словоформ после предобработки: число Число](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/1103832/slide-9.jpg)
были приведены к одному образцу (н-р mobicash, cashback)
Даты, время, суммы и др. числовые данные были либо заменены словами, либо исключены из обращений