Разработка системы классификации обращений клиентов в техподдержку приложения

Март 10, 2021

Главная
Информатика
Разработка системы классификации обращений клиентов в техподдержку приложения

Содержание

2. Постановка задачи Разработать интеллектуальную автоматизированную систему для классификации пользовательских обращений в техническую поддержку приложения, включающую в
3. Цели и задачи Провести исследование предметной области – задачи обработки данных на естественном языке Проанализировать исходный
4. План разработки Создание программного модуля предобработки обращений Тестирование и доработка модуля предобработки Обучение модели-классификатора Тестирование классификатора
5. Концепция и предполагаемые результаты
6. Концепция и предполагаемые результаты
7. Исходные данные Формат: Таблица Excel с размеченными данными Поля: Header – заголовок Body – само обращение
8. Проблемы датасета Малый объем данных Дисбаланс классов Множество слов с одной и более опечатками рекаищиты, тноефона,
9. Методы решения проблем Для исправления опечаток в словах был использован модуль PyEnchant, а также ряд составленных
10. Полученные результаты Изначальное количество словоформ: Число Количество словоформ после предобработки: число Число уникальных обращений после предобработки:
12. Скачать презентацию

Постановка задачи
Разработать интеллектуальную автоматизированную систему для классификации пользовательских обращений в техническую поддержку

приложения, включающую в себя подсистему предварительной обработки исходных сообщений, а также модель для классификации сообщений.

Цели и задачи
Провести исследование предметной области – задачи обработки данных на естественном

языке
Проанализировать исходный набор данных
Разработать концептуальную схему работы системы
Исследовать способы выполнения предварительной обработки исходных текстов и реализовать их
Исследовать существующие линейные модели классификации и провести отбор моделей с наилучшим результатом классификации
Для отобранных наилучших моделей провести полное исследование доступных для изменения параметров, подобрать наилучшие параметры и произвести анализ результатов обучения

Слайд 4

План разработки
Создание программного модуля предобработки обращений
Тестирование и доработка модуля предобработки
Обучение модели-классификатора
Тестирование классификатора

и анализ результатов, поиск методов их улучшения
Тестирование всего программного комплекса (предобработка в тандеме с классификатором)
Доработка модулей по результатам тестирования

Слайд 5

Концепция и предполагаемые результаты

Слайд 6

Концепция и предполагаемые результаты

Слайд 7

Исходные данные
Формат:
Таблица Excel с размеченными данными
Поля:
Header – заголовок
Body – само обращение
Class –

класс обращения
Group – группа обращения
Объем:
2504 записи, 2315 уникальных
Самое частое обращение встретилось 15 раз

Слайд 8

Проблемы датасета
Малый объем данных
Дисбаланс классов
Множество слов с одной и более опечатками
рекаищиты, тноефона,

прогоаммоц
По ошибке склеенные и разделенные слова
оплаченданные, удо бнее
Обилие словоформ и синонимов
моби кеш, мобикэш, mobicash, moby cash
Даты и время, суммы, и др. числа которые не несут смысла
21.09.2019, 4576 рублей, в 14:15, версия ОС 7.18.2020
Служебные части речи

Слайд 9

Методы решения проблем
Для исправления опечаток в словах был использован модуль PyEnchant, а

также ряд составленных своими силами словарей замен
С помощью регулярных выражений даты, время и суммы были заменены словами DATE, TIME, SUM, остальные числа были удалены
С помощью модуля PyMorphy был произведен морфологический разбор – удалены слова служебных частей речи, остальные слова приведены к начальной форме

Слайд 10

Полученные результаты
Изначальное количество словоформ:
Число
Количество словоформ после предобработки:
число
Число уникальных обращений после предобработки:
2176
Ключевые термины

были приведены к одному образцу (н-р mobicash, cashback)
Даты, время, суммы и др. числовые данные были либо заменены словами, либо исключены из обращений

Разработка системы классификации обращений клиентов в техподдержку приложения

Содержание

Слайд 2

Постановка задачи
Разработать интеллектуальную автоматизированную систему для классификации пользовательских обращений в техническую поддержку

Слайд 3

Цели и задачи
Провести исследование предметной области – задачи обработки данных на естественном

Слайд 4

Слайд 5

Концепция и предполагаемые результаты

Слайд 6

Концепция и предполагаемые результаты

Слайд 7

Исходные данные
Формат:
Таблица Excel с размеченными данными
Поля:
Header – заголовок
Body – само обращение
Class –

Слайд 8

Проблемы датасета
Малый объем данных
Дисбаланс классов
Множество слов с одной и более опечатками
рекаищиты, тноефона,

Слайд 9

Методы решения проблем
Для исправления опечаток в словах был использован модуль PyEnchant, а

Слайд 10

Разработка системы классификации обращений клиентов в техподдержку приложения

Содержание

Постановка задачиРазработать интеллектуальную автоматизированную систему для классификации пользовательских обращений в техническую поддержку

Цели и задачиПровести исследование предметной области – задачи обработки данных на естественном

Концепция и предполагаемые результаты

Концепция и предполагаемые результаты

Исходные данныеФормат:Таблица Excel с размеченными даннымиПоля:Header – заголовокBody – само обращениеClass –

Проблемы датасетаМалый объем данныхДисбаланс классовМножество слов с одной и более опечаткамирекаищиты, тноефона,

Методы решения проблемДля исправления опечаток в словах был использован модуль PyEnchant, а

Похожие презентации

Постановка задачи
Разработать интеллектуальную автоматизированную систему для классификации пользовательских обращений в техническую поддержку

Цели и задачи
Провести исследование предметной области – задачи обработки данных на естественном

Исходные данные
Формат:
Таблица Excel с размеченными данными
Поля:
Header – заголовок
Body – само обращение
Class –

Проблемы датасета
Малый объем данных
Дисбаланс классов
Множество слов с одной и более опечатками
рекаищиты, тноефона,

Методы решения проблем
Для исправления опечаток в словах был использован модуль PyEnchant, а