Слайд 2Особенности реальных массивов текстов
Недостаточное количество обучающих примеров
Наличие ошибок в эталонной классификации
Несоответствие обучающих
и обрабатываемых данных
Совместное использование нескольких принципов деления на классы
Политематический и зашумленный характер текстов
Сложность интерпретации результатов классификации
Наличие повторяющейся и дублирующей информации
Слайд 3Организационные проблемы
Ограниченный доступ разработчиков систем автоматической классификации к исходным данным и массивам
текстов
Выполнение настройки и использования средств классификации пользователями, которые не являются специалистами в области автоматической обработки текстов
Слайд 4Комплексная технология классификации текстов
Слайд 5Недостаточное количество обучающих примеров
Прикладные проблемы:
невозможность построения правил классификации для большинства методов,
основанных на обучении по примерам;
низкая надежность оценки качества обучения.
Решение: поддержка совместного использования трех типов решающих правил для рубрик:
статистических (обучаемых на примерах документов),
логических (задаются экспертами на специальном информационно-поисковом языке),
шаблонных (задаются экспертами в виде регулярных выражений).
Слайд 6Наличие ошибок в эталонной классификации
Прикладные проблемы:
формирование ошибочных правил классификации;
результаты оценки
качества обучения оказываются некорректными.
Решение:
выполнение при обучении оценки качества классификации и ошибок в эталонном множестве документов;
учет степени тематической близости рубрик друг к другу;
реализация интерактивной процедуры обучения классификатора.
Слайд 7Пример оценки эталонного множества документов
Слайд 8Несоответствие обучающих и обрабатываемых данных
Прикладные проблемы:
результаты классификации текстов могут быть неопределенными;
результаты оценки качества обучения являются завышенными.
Решение:
выполнение оценки качества классификации в процессе обучения;
обеспечение переобучения в процессе обработки новой информации;
использование дополнительных словарей квазисинонимов для повышения полноты классификации.
Слайд 9Иерархический характер и использование нескольких принципов деления на классы
Прикладные проблемы:
сложность построения
эффективных процедур классификации, основанных на использовании одной модели или метода для всех рубрик и уровней классификатора.
Решение:
поддержка нескольких типов признаков (лексических, грамматических, синтаксических);
комбинирование различных методов классификации;
поддержка режима фасетной классификации.
Слайд 10Комбинированный иерархический метод классификации
Слайд 12Пример реализации базовых методов
Слайд 13Комбинированные классификаторы рубрик
Слайд 14Интегральная оценка качества работы для массива «Reuters-21578-6»
Слайд 15Оценка качества работы базовых методов для рубрик «Reuters-21578»
Слайд 16Политематический и зашумленный характер текстов
Прикладные проблемы:
сложность формирования решающих правил из-за негативного
влияния посторонней информации и наложение рубрик друг на друга;
неопределенность расположения в тексте информации, релевантной рубрике.
Решение:
идентификация форматов, языков и кодировок документов;
очистка текста документов от элементов оформления;
исключение из текстов вспомогательной информации;
использование робастных алгоритмов оценивания параметров;
выделение значимых фрагментов в текстах.
Слайд 18Пример разметки текста с помощью иерархического покрытия
Слайд 19Наличие повторяющейся и дублирующей информации во входном потоке текстов
Прикладные проблемы:
сложность просмотра
и анализа результатов классификации.
Решение:
упорядочение документов в рубриках с учетом их тематической близости друг к другу;
выявление "почти дубликатов" документов;
выявление основных тем документов в рубриках;
автоматическое формирование сводных документов.