Автоматическое формирование рубрикатора полнотекстовых документов

Содержание

Слайд 2

Постановка задачи

Дано:
фонд полнотекстовых документов университетской библиотеки (учебные, обзорно-аналитические материалы различного объёма)
Требуется:
создать средство

Постановка задачи Дано: фонд полнотекстовых документов университетской библиотеки (учебные, обзорно-аналитические материалы различного
тематической навигации по всему фонду или по его подмножествам, способное автоматически подстраиваться под тематику конкретного набора документов.

Слайд 3

Механизм применения средства тематической навигации

Механизм применения средства тематической навигации

Слайд 4

Требования к виду искомой навигационной схемы

Рубрикатор, унаследовавший основные характеристики от традиционного предметного

Требования к виду искомой навигационной схемы Рубрикатор, унаследовавший основные характеристики от традиционного
рубрикатора библиотеки МГТУ им. Н. Э. Баумана:
иерархические связи между рубриками (не более 2-3 уровней);
родственные связи между рубриками (типа «см. также»);
краткое описание и список ключевых слов.

Слайд 5

Способ представления рубрикатора

, где

– это множество вершин

– множество рёбер

Способ представления рубрикатора , где – это множество вершин – множество рёбер
графа,

Граф G* является многоуровневым и содержит подграфы

Каждая выявленная группа документов должна иметь название и список ключевых слов.

графа, отражающих кластеры документов, полученные при кластеризации коллекции полнотекстовых документов на заданном уровне иерархии;

Рубрикатор в виде графа

отражающих как иерархические так и родственные связи.

Слайд 6

Функциональная схема автоматического формирования рубрикатора

Функциональная схема автоматического формирования рубрикатора

Слайд 7

Выбор подхода к формированию образов документов

Выбор подхода к формированию образов документов

Слайд 8

Предложенный алгоритм формирования образов документов

Построение словаря признаков (одиночных слов) всех документов (морфологический

Предложенный алгоритм формирования образов документов Построение словаря признаков (одиночных слов) всех документов
анализ – стеммер М.Портера).
Принудительная редукция признаков:
удаление стоп-слов;
Удаление слов по критерию документальной частоты с порогами tDFmin и tDFmax, где tDFmin=<1 документ> и tDFmax=<80% документов>.
Взвешивание признаков документов по схеме TFIDF.
Принудительная редукция признаков (продолжение):
для каждого документа в отдельности удаление некоторой доли tWP самых маловесомых признаков, где tWP=0.60.
Избирательная редукция:
удаление из образов некоторых документов тех признаков, что обладают слабой различительной способностью для представления некоторого тематического класса.

Слайд 9

Иллюстрации к предположению об избирательной редукции (1)

Иллюстрации к предположению об избирательной редукции (1)

Слайд 10

Иллюстрации к предположению об избирательной редукции (2)

α

β

Иллюстрации к предположению об избирательной редукции (2) α β

Слайд 11

Алгоритм избирательной редукции

Алгоритм избирательной редукции

Слайд 12

Выбор алгоритма кластеризации

Выбор алгоритма кластеризации

Слайд 13

Модифицированный алгоритм кластеризации документов

Модифицированный алгоритм кластеризации документов

Слайд 14

Дополнение кластерной структуры до искомого рубрикатора

Дополнение кластерной структуры до искомого рубрикатора

Слайд 15

Тестовые коллекции

On-line библиотека CITFORUM (http://www.citforum.ru): наработка эмпирических сведений к методу формирования рубрикатора

Тестовые коллекции On-line библиотека CITFORUM (http://www.citforum.ru): наработка эмпирических сведений к методу формирования
и оценка его эффективности (CL1572).
Ресурсы библиотеки МГТУ им. Н. Э. Баумана – коллекция авторефератов диссертаций – апробация системы формирования рубрикатора (TAL234).
Коллекция нормативно-правовых документов законодательства Российской Федерации, сформированная в 2004 году для выполнения заданий в рамках РОМИП (Legal2004_5000). Отобраны те документы, для которых есть информация о их принадлежности рубрикам, - 25034 документов.

Слайд 16

Меры качества кластеризации

Внешние меры: автоматическое сравнение полученного разбиения документов с «эталонным» разбиение

Меры качества кластеризации Внешние меры: автоматическое сравнение полученного разбиения документов с «эталонным»
на кластеры (рубрики).
Внутренние меры: автоматическая оценка свойств отделимости и компактности полученного разбиения документов.

Слайд 17

Внешние меры качества кластеризации

Полнота
Точность
F1-мера
Ошибка
Аккуратность
и др.

Внешние меры качества кластеризации Полнота Точность F1-мера Ошибка Аккуратность и др.

Слайд 18

Внутренние меры качества кластеризации

Оценка иерархического разбиения:
Кофенетический коэффициент корреляции (CPCC)
Оценка плоского разбиения:
Индекс Данна

Внутренние меры качества кластеризации Оценка иерархического разбиения: Кофенетический коэффициент корреляции (CPCC) Оценка
(Dunn, DI)
Индекс Девиса-Булдина (Davies-Bouldin, DB)
Индекс Калинского и Гарабача (Calinski и Harabasz, CH)
I-индекс (I-index)

Слайд 19

Испытания алгоритма формирования образов (на CL1572)

Оценка способа формирования образов.
(1) – без

Испытания алгоритма формирования образов (на CL1572) Оценка способа формирования образов. (1) –
редукции, (2) – с принудительной редукцией,
(3) – с принудительной и избирательной редукцией

Слайд 20

Испытание модифицированного алгоритма кластеризации (на CL1572)

Оценка алгоритма кластеризации:
(1) – иерархический агломеративный

Испытание модифицированного алгоритма кластеризации (на CL1572) Оценка алгоритма кластеризации: (1) – иерархический
алгоритм (усечение дерева при пороге меры близости – 0,20),
(2) – исходный алгоритм послойной кластеризации (два уровня при порогах меры близости {0,40; 0,20}),
(3) – модифицированный алгоритм послойной кластеризации (два уровня при порогах меры близости {0,40; 0,20}).

Слайд 21

Пример интерфейса навигации по подмножеству CL1572

Пример интерфейса навигации по подмножеству CL1572

Слайд 22

Испытание модифицированного алгоритма кластеризации (на TAL234)

Ошибка автоматической классификации на TAL234:
3,2% - в

Испытание модифицированного алгоритма кластеризации (на TAL234) Ошибка автоматической классификации на TAL234: 3,2%
сравнении с классификацией авторефератов по УДК;
13,6% - в сравнении с областью знания по номенклатуре ВАК , что объясняется тематическим перекрытием укрупнённых направлений, по которым осуществляется подготовка и защита диссертаций.

Слайд 23

Испытания системы на Legal2004_5000 (1)

Оценить качество кластеризации предложенным методом со значениями параметров,

Испытания системы на Legal2004_5000 (1) Оценить качество кластеризации предложенным методом со значениями
подобранными ранее на других коллекциях.
Сравнить качество кластеризации при различных значениях параметров алгоритмов.
Продолжить экспериментальное исследование алгоритма избирательной редукции.
Оценить устойчивость метода (например, методом половинного деления).
Оценить зависимость значений внешних и внутренних мер качества кластеризации.
Усовершенствовать алгоритм формирования названий кластеров.

Слайд 24

Испытания системы на Legal2004_5000 (2)

Оценка кластеризации модифицированным алгоритмом (Legal2004_5000):
(1) – с принудительной

Испытания системы на Legal2004_5000 (2) Оценка кластеризации модифицированным алгоритмом (Legal2004_5000): (1) –
редукцией,
(2) – с принудительной и избирательной редукцией (порог меры близости = 0,60).

Слайд 25

Испытания системы на Legal2004_5000 (3)

Количественные характеристики пространства признаков

Испытания системы на Legal2004_5000 (3) Количественные характеристики пространства признаков

Слайд 26

Дальнейшие планы

Закончить эксперименты на 5000 документов
Провести исследования на 25034 документов
Получить основания для

Дальнейшие планы Закончить эксперименты на 5000 документов Провести исследования на 25034 документов
выбора дальнейшего пути развития метода формирования рубрикатора
Имя файла: Автоматическое-формирование-рубрикатора-полнотекстовых-документов.pptx
Количество просмотров: 131
Количество скачиваний: 1