Разработка системы классификации обращений клиентов в техподдержку приложения

Содержание

Слайд 2

Постановка задачи

Разработать интеллектуальную автоматизированную систему для классификации пользовательских обращений в техническую поддержку

Постановка задачи Разработать интеллектуальную автоматизированную систему для классификации пользовательских обращений в техническую
приложения, включающую в себя подсистему предварительной обработки исходных сообщений, а также модель для классификации сообщений.

Слайд 3

Цели и задачи

Провести исследование предметной области – задачи обработки данных на естественном

Цели и задачи Провести исследование предметной области – задачи обработки данных на
языке
Проанализировать исходный набор данных
Разработать концептуальную схему работы системы
Исследовать способы выполнения предварительной обработки исходных текстов и реализовать их
Исследовать существующие линейные модели классификации и провести отбор моделей с наилучшим результатом классификации
Для отобранных наилучших моделей провести полное исследование доступных для изменения параметров, подобрать наилучшие параметры и произвести анализ результатов обучения

Слайд 4

План разработки

Создание программного модуля предобработки обращений
Тестирование и доработка модуля предобработки
Обучение модели-классификатора
Тестирование классификатора

План разработки Создание программного модуля предобработки обращений Тестирование и доработка модуля предобработки
и анализ результатов, поиск методов их улучшения
Тестирование всего программного комплекса (предобработка в тандеме с классификатором)
Доработка модулей по результатам тестирования

Слайд 5

Концепция и предполагаемые результаты

Концепция и предполагаемые результаты

Слайд 6

Концепция и предполагаемые результаты

Концепция и предполагаемые результаты

Слайд 7

Исходные данные

Формат:
Таблица Excel с размеченными данными
Поля:
Header – заголовок
Body – само обращение
Class –

Исходные данные Формат: Таблица Excel с размеченными данными Поля: Header – заголовок
класс обращения
Group – группа обращения
Объем:
2504 записи, 2315 уникальных
Самое частое обращение встретилось 15 раз

Слайд 8

Проблемы датасета

Малый объем данных
Дисбаланс классов
Множество слов с одной и более опечатками
рекаищиты, тноефона,

Проблемы датасета Малый объем данных Дисбаланс классов Множество слов с одной и
прогоаммоц
По ошибке склеенные и разделенные слова
оплаченданные, удо бнее
Обилие словоформ и синонимов
моби кеш, мобикэш, mobicash, moby cash
Даты и время, суммы, и др. числа которые не несут смысла
21.09.2019, 4576 рублей, в 14:15, версия ОС 7.18.2020
Служебные части речи

Слайд 9

Методы решения проблем

Для исправления опечаток в словах был использован модуль PyEnchant, а

Методы решения проблем Для исправления опечаток в словах был использован модуль PyEnchant,
также ряд составленных своими силами словарей замен
С помощью регулярных выражений даты, время и суммы были заменены словами DATE, TIME, SUM, остальные числа были удалены
С помощью модуля PyMorphy был произведен морфологический разбор – удалены слова служебных частей речи, остальные слова приведены к начальной форме

Слайд 10

Полученные результаты

Изначальное количество словоформ:
Число
Количество словоформ после предобработки:
число
Число уникальных обращений после предобработки:
2176
Ключевые термины

Полученные результаты Изначальное количество словоформ: Число Количество словоформ после предобработки: число Число
были приведены к одному образцу (н-р mobicash, cashback)
Даты, время, суммы и др. числовые данные были либо заменены словами, либо исключены из обращений
Имя файла: Разработка-системы-классификации-обращений-клиентов-в-техподдержку-приложения.pptx
Количество просмотров: 37
Количество скачиваний: 0