Комплексная технология автоматической классификации текстов ИПИ РАН

Содержание

Слайд 2

Особенности реальных массивов текстов

Недостаточное количество обучающих примеров
Наличие ошибок в эталонной классификации
Несоответствие обучающих

Особенности реальных массивов текстов Недостаточное количество обучающих примеров Наличие ошибок в эталонной
и обрабатываемых данных
Совместное использование нескольких принципов деления на классы
Политематический и зашумленный характер текстов
Сложность интерпретации результатов классификации
Наличие повторяющейся и дублирующей информации

Слайд 3

Организационные проблемы

Ограниченный доступ разработчиков систем автоматической классификации к исходным данным и массивам

Организационные проблемы Ограниченный доступ разработчиков систем автоматической классификации к исходным данным и
текстов
Выполнение настройки и использования средств классификации пользователями, которые не являются специалистами в области автоматической обработки текстов

Слайд 4

Комплексная технология классификации текстов

Комплексная технология классификации текстов

Слайд 5

Недостаточное количество обучающих примеров

Прикладные проблемы:
невозможность построения правил классификации для большинства методов,

Недостаточное количество обучающих примеров Прикладные проблемы: невозможность построения правил классификации для большинства
основанных на обучении по примерам;
низкая надежность оценки качества обучения.
Решение: поддержка совместного использования трех типов решающих правил для рубрик:
статистических (обучаемых на примерах документов),
логических (задаются экспертами на специальном информационно-поисковом языке),
шаблонных (задаются экспертами в виде регулярных выражений).

Слайд 6

Наличие ошибок в эталонной классификации

Прикладные проблемы:
формирование ошибочных правил классификации;
результаты оценки

Наличие ошибок в эталонной классификации Прикладные проблемы: формирование ошибочных правил классификации; результаты
качества обучения оказываются некорректными.
Решение:
выполнение при обучении оценки качества классификации и ошибок в эталонном множестве документов;
учет степени тематической близости рубрик друг к другу;
реализация интерактивной процедуры обучения классификатора.

Слайд 7

Пример оценки эталонного множества документов

Пример оценки эталонного множества документов

Слайд 8

Несоответствие обучающих и обрабатываемых данных

Прикладные проблемы:
результаты классификации текстов могут быть неопределенными;

Несоответствие обучающих и обрабатываемых данных Прикладные проблемы: результаты классификации текстов могут быть

результаты оценки качества обучения являются завышенными.
Решение:
выполнение оценки качества классификации в процессе обучения;
обеспечение переобучения в процессе обработки новой информации;
использование дополнительных словарей квазисинонимов для повышения полноты классификации.

Слайд 9

Иерархический характер и использование нескольких принципов деления на классы

Прикладные проблемы:
сложность построения

Иерархический характер и использование нескольких принципов деления на классы Прикладные проблемы: сложность
эффективных процедур классификации, основанных на использовании одной модели или метода для всех рубрик и уровней классификатора.
Решение:
поддержка нескольких типов признаков (лексических, грамматических, синтаксических);
комбинирование различных методов классификации;
поддержка режима фасетной классификации.

Слайд 10

Комбинированный иерархический метод классификации

Комбинированный иерархический метод классификации

Слайд 11

Базовые методы классификации

Базовые методы классификации

Слайд 12

Пример реализации базовых методов

Пример реализации базовых методов

Слайд 13

Комбинированные классификаторы рубрик

Комбинированные классификаторы рубрик

Слайд 14

Интегральная оценка качества работы для массива «Reuters-21578-6»

Интегральная оценка качества работы для массива «Reuters-21578-6»

Слайд 15

Оценка качества работы базовых методов для рубрик «Reuters-21578»

Оценка качества работы базовых методов для рубрик «Reuters-21578»

Слайд 16

Политематический и зашумленный характер текстов

Прикладные проблемы:
сложность формирования решающих правил из-за негативного

Политематический и зашумленный характер текстов Прикладные проблемы: сложность формирования решающих правил из-за
влияния посторонней информации и наложение рубрик друг на друга;
неопределенность расположения в тексте информации, релевантной рубрике.
Решение:
идентификация форматов, языков и кодировок документов;
очистка текста документов от элементов оформления;
исключение из текстов вспомогательной информации;
использование робастных алгоритмов оценивания параметров;
выделение значимых фрагментов в текстах.

Слайд 17

Выделение значимых фрагментов

Выделение значимых фрагментов

Слайд 18

Пример разметки текста с помощью иерархического покрытия

Пример разметки текста с помощью иерархического покрытия

Слайд 19

Наличие повторяющейся и дублирующей информации во входном потоке текстов

Прикладные проблемы:
сложность просмотра

Наличие повторяющейся и дублирующей информации во входном потоке текстов Прикладные проблемы: сложность
и анализа результатов классификации.
Решение:
упорядочение документов в рубриках с учетом их тематической близости друг к другу;
выявление "почти дубликатов" документов;
выявление основных тем документов в рубриках;
автоматическое формирование сводных документов.
Имя файла: Комплексная-технология-автоматической-классификации-текстов-ИПИ-РАН.pptx
Количество просмотров: 183
Количество скачиваний: 0