Отбор признаков в задачах анализа данных

Содержание

Слайд 2

НАБОР ДАННЫХ

Набор данных в большинстве задач представляет собой таблицу, в которой строки

НАБОР ДАННЫХ Набор данных в большинстве задач представляет собой таблицу, в которой
являются объектами наблюдения, а столбцы – признаками (атрибутами) этих объектов.

Виды признаков:
бинарные (принимают одно из двух значений);
категориальные (принимают значение из конечного неупорядоченного множества);
порядковые признаки (принимают значение из упорядоченного, но не метрического множества);
числовые (вещественные, непрерывные) (значением являются числа);
неструктурированные признаки (всё остальное).

Обучающая выборка
N объектов, M признаков

N

M

Слайд 3

ЗАДАЧА КЛАССИФИКАЦИИ

Всё множество объектов наблюдения Ω разделено на L классов {Ωl}, так

ЗАДАЧА КЛАССИФИКАЦИИ Всё множество объектов наблюдения Ω разделено на L классов {Ωl},
что классы не пересекаются и каждый объект принадлежит одному из классов:

Идеальный классификатор Φ переводит объект в его класс:

Решить задачу классификации – значит построить классификатор , который тоже пытается перевести объект в его класс, но не владеет информацией о том, из какого класса этот объект, а использует лишь обучающую выборку U.

Слайд 4

ОТБОР ПРИЗНАКОВ

Векторы U(i, :) (строки таблицы) представляют собой точки в m-мерном признаковом

ОТБОР ПРИЗНАКОВ Векторы U(i, :) (строки таблицы) представляют собой точки в m-мерном
пространстве.

Отбор признаков – это процесс выбора некоторого конечного подмножества признаков с целью улучшения качества соответствующего признакового пространства и повышения эффективности дальнейшего решения задачи анализа данных (например, задачи классификации). При этом определённые столбцы исключаются из исходной обучающей выборки и далее не рассматриваются.

Назначение отбора признаков:
упрощение модели для визуализации и понимания человеком,
сокращение времени работы алгоритмов анализа данных,
принципиальное снижение сложности исходной задачи анализа данных, устранение избыточности,
повышение эффективности решения задач анализа данных за счёт компенсации недостатков алгоритмов решения этих задач хорошим качеством признакового пространства.

Слайд 5

ИРИСЫ ФИШЕРА

ИРИСЫ ФИШЕРА

Слайд 6

ПОСТАНОВКА ЗАДАЧИ ОТБОРА ПРИЗНАКОВ

Решить задачу отбора признаков – значит выбрать множество признаков
так

ПОСТАНОВКА ЗАДАЧИ ОТБОРА ПРИЗНАКОВ Решить задачу отбора признаков – значит выбрать множество
чтобы некоторый показатель J качества признакового пространства достигал своего максимального значения. Этот показатель качества зависит от выбранного множества признаков A и от обучающей выборки U.

Задача отбора признаков в большинстве постановок является NP-сложной, что впервые было показано ещё в [Amaldi, E. On the approximability of minimizing nonzero variables or unsatisfied relations in linear systems / E. Amaldi, V. Kann // Theoretical Computer Science. – 1998. – Vol. 209(1). – P. 237-260].

Постановки задачи отбора признаков могут отличаться характером признаков и видом показателя качества J.

Оптимальный по вычислительной сложности алгоритм для большинства постановок задачи отбора признаков:
полный перебор всех подмножеств A множества признаков

Вычислительная сложность большинства таких алгоритмов отбора признаков: O(N M 2M).

Слайд 7

КЛАССИФИКАЦИЯ АЛГОРИТМОВ ОТБОРА ПРИЗНАКОВ

По характеру показателя качества признакового пространства J:
Обёртки (wrappers) –

КЛАССИФИКАЦИЯ АЛГОРИТМОВ ОТБОРА ПРИЗНАКОВ По характеру показателя качества признакового пространства J: Обёртки
методы отбора признаков, использующие в качестве показателей качества значения эффективности предсказательных моделей, например, классификаторов. Достоинство: подбирается оптимальный набор признаков для конкретного классификатора. Недостаток: высокая вычислительная сложность, поскольку для каждого набора признаков требуется заново обучать классификатор. Примеры: достоверность классификации, коэффициент детерминации, F-мера Ван Ризбергена
Фильтры (filters) – методы отбора признаков, использующие в качестве показателей качества свойства самого признакового пространства, в котором лежат объекты из обучающей выборки. Достоинство: выбирается универсальный набор признаков, не зависящий от классификатора. Недостаток: предсказательная сила конкретного классификатора может быть хуже, чем при использовании обёртки. Примеры: взаимная информация, корреляция признаков, критерии дискриминантного анализа.
Встроенные методы (embedded) – это методы отбора признаков, естественным образом встроенные в сами предсказательные модели. Достоинство: каждый такой метод имеет хорошую основу и может получить уникальные результаты для конкретной задачи. Недостаток: если требуется только отобрать признаки, то вся остальная часть предсказательной модели не используется. Примеры: решающий лес, регуляризованные регрессионные модели.

Слайд 8

ПОКАЗАТЕЛИ КАЧЕСТВА КЛАССИФИКАЦИИ

Матрица ошибок
(Confusion Matrix)

Достоверность классификации (accuracy):

– контрольная выборка

Чувствительность (sensitivity, recall):

Специфичность (specificity,

ПОКАЗАТЕЛИ КАЧЕСТВА КЛАССИФИКАЦИИ Матрица ошибок (Confusion Matrix) Достоверность классификации (accuracy): – контрольная
selectivity):

Точность (precision):

F-мера Ван Ризбергена (F1-score, F-score, F-measure):

Слайд 9

ПОКАЗАТЕЛИ КАЧЕСТВА ПРИЗНАКОВОГО ПРОСТРАНСТВА

Матрица рассеяния внутри класса l:

где

– часть обучающей выборки из

ПОКАЗАТЕЛИ КАЧЕСТВА ПРИЗНАКОВОГО ПРОСТРАНСТВА Матрица рассеяния внутри класса l: где – часть
класса Ωl,

– среднее значение признаков в классе Ωl.

Матрица рассеяния между классами:

– среднее значение признаков во всей выборке.

Внутриклассовая матрица рассеяния:

Слайд 10

ПОКАЗАТЕЛИ КАЧЕСТВА ПРИЗНАКОВОГО ПРОСТРАНСТВА

Критерии дискриминантного анализа:

Другие способы выбора внутриклассовой матрицы рассеяния:

Другие способы

ПОКАЗАТЕЛИ КАЧЕСТВА ПРИЗНАКОВОГО ПРОСТРАНСТВА Критерии дискриминантного анализа: Другие способы выбора внутриклассовой матрицы
выбора матрицы рассеяния между классами:

[Fukunaga, K. Introduction to Statistical Pattern Recognition / K. Fukunaga. – Academic Press, 1990. – 592 p.]

Слайд 11

ПОКАЗАТЕЛИ КАЧЕСТВА ПРИЗНАКОВОГО ПРОСТРАНСТВА

Взаимная информация (mutual information):

X – признаки случайного объекта, Y

ПОКАЗАТЕЛИ КАЧЕСТВА ПРИЗНАКОВОГО ПРОСТРАНСТВА Взаимная информация (mutual information): X – признаки случайного
– класс этого объекта

Энтропия (entropy):

Условная энтропия (conditional entropy):

Для непрерывных признаков

– условная плотность вероятности вектора признаков в точке x для объектов из класса l

Слайд 12

КЛАССИФИКАЦИЯ АЛГОРИТМОВ ОТБОРА ПРИЗНАКОВ

По способу перебора подмножеств признаков:
Жадные алгоритмы отбора признаков
Упорядочение и

КЛАССИФИКАЦИЯ АЛГОРИТМОВ ОТБОРА ПРИЗНАКОВ По способу перебора подмножеств признаков: Жадные алгоритмы отбора
отбор признаков (best first)
Жадный прямой отбор признаков (greedy forward selection)
Жадное обратное исключение признаков (greedy backward elimination)
Кластеризация признаков
Эволюционные алгоритмы
Генетический алгоритм
Роевой алгоритм
Алгоритмы оптимизации на графах
Полный перебор

Слайд 13

УПОРЯДОЧЕНИЕ И ОТБОР ПРИЗНАКОВ

Входные данные: количество признаков k, обучающая выборка U, показатель

УПОРЯДОЧЕНИЕ И ОТБОР ПРИЗНАКОВ Входные данные: количество признаков k, обучающая выборка U,
качества J
Выходные данные: подмножество признаков A
Алгоритм:
Для каждого из M признаков вычислить индивидуальный показатель качества J(j) этого признака.
Упорядочить признаки по убыванию показателя качества J(j).
Выбрать k признаков с самым высоким показателем качества J(j).

Вычислительная сложность: O(N M log M)

Достоинство: высокая скорость работы по сравнению с другими алгоритмами.

Недостаток: никак не учитывает качество подмножеств из нескольких признаков.

Слайд 14

ЖАДНЫЕ АЛГОРИТМЫ ОТБОРА ПРИЗНАКОВ

Входные данные: количество признаков k, обучающая выборка U, показатель

ЖАДНЫЕ АЛГОРИТМЫ ОТБОРА ПРИЗНАКОВ Входные данные: количество признаков k, обучающая выборка U,
качества J
Выходные данные: подмножество признаков A

Жадный прямой отбор признаков

Жадное обратное исключение признаков

Начало

да

нет

Конец

Начало

да

нет

Конец

Слайд 15

ЖАДНЫЕ АЛГОРИТМЫ ОТБОРА ПРИЗНАКОВ

Модификации жадных алгоритмов могут быть основаны на их комбинировании.

ЖАДНЫЕ АЛГОРИТМЫ ОТБОРА ПРИЗНАКОВ Модификации жадных алгоритмов могут быть основаны на их
шаг вперёд

– шаг назад

Результаты работы алгоритма по схеме «два шага вперёд – один назад» для распознавания аэрофотоснимков:

[Goncharova, E.F. Greedy algorithms of feature selection for multiclass image classification / E.F. Goncharova, A.V. Gaidel // CEUR Workshop Proceedings. – 2018. – Vol. 2210. – P. 38-46]

k – количество признаков в наборе.
ε – оценка вероятности ошибочной классификации.

Слайд 16

КЛАСТЕРИЗАЦИЯ

Кластеризация (clustering) – это процедура разбиения множества векторов признаков в метрическом признаковом

КЛАСТЕРИЗАЦИЯ Кластеризация (clustering) – это процедура разбиения множества векторов признаков в метрическом
пространстве на непересекающиеся подмножества (кластеры), так чтобы расстояния между элементами одного и того же кластера были как можно меньше, а расстояния между элементами разных кластеров были как можно больше.

Слайд 17

КЛАСТЕРИЗАЦИЯ ПРИЗНАКОВ

Входные данные: количество признаков k, обучающая выборка U, расстояние между признаками

КЛАСТЕРИЗАЦИЯ ПРИЗНАКОВ Входные данные: количество признаков k, обучающая выборка U, расстояние между
ρ
Выходные данные: подмножество признаков A
Идея алгоритма:
Разбить множество признаков на k кластеров и выбрать по одному признаку из каждого кластера. Это обеспечит уникальность, важность, непохожесть на другие признаки для каждого признака из результирующего набора.
В качестве алгоритма кластеризации использовать, например, алгоритм k внутригрупповых средних (k-means)
В качестве расстояния между признаками использовать некоторую меру зависимости, например, модуль коэффициента корреляции Пирсона, вычтенный из единицы:

Выбирать в итоговый набор признаков те признаки, которые ближе всего к центрам своих кластеров.

Вычислительная сложность формально:

[Chormunge, S. Correlation based feature selection with clustering for high dimensional data / S. Chormunge, S. Jena // Journal of Electrical Systems and Information Technology. – 2018. – Vol. 5(3). – P. 542-549]

Слайд 18

ГЕНЕТИЧЕСКИЙ АЛГОРИТМ

Генетический алгоритм (genetic algorithm) – это эвристический алгоритм оптимизации, основанный на

ГЕНЕТИЧЕСКИЙ АЛГОРИТМ Генетический алгоритм (genetic algorithm) – это эвристический алгоритм оптимизации, основанный
использовании таких механизмов естественной эволюции, как естественный отбор, скрещивание и мутация.

Особь – это одно из возможных решений задачи.

Популяция – это текущее множество особей.

Отбор – это процедура исключения из популяции особей с наименьшими значениями целевой функции.

Скрещивание – это процедура формирования новых особей на основании пары уже существующих в популяции особей.

Мутация – это процедура формирования новых особей путём внесения случайных изменений в уже существующие в популяции особи.

Слайд 19

ГЕНЕТИЧЕСКИЙ АЛГОРИТМ ОТБОРА ПРИЗНАКОВ

Входные данные: количество признаков k, обучающая выборка U, показатель

ГЕНЕТИЧЕСКИЙ АЛГОРИТМ ОТБОРА ПРИЗНАКОВ Входные данные: количество признаков k, обучающая выборка U,
качества J
Выходные данные: подмножество признаков A
Идея генетического алгоритма:
Особь – это одно из подмножеств k признаков.
Скрещивание двух особей реализовано таким образом, чтобы в новый набор признаков вошли все признаки из объединения родительских наборов признаков и случайные признаки из оставшихся в родительских наборах, так чтобы общее количество признаков у потомка было ровно k.
Мутация особи представляет собой замену случайного признака в наборе на случайный признак, не входящий в набор.

Распознавание рака лёгких по генетическим данным.
Доля верно распознанных объектов: 0,69

Слайд 20

ОТБОР ПРИЗНАКОВ И ТЕОРИЯ ГРАФОВ

Рассмотрим граф:
вершины – подмножества признаков,
рёбра – близкие между

ОТБОР ПРИЗНАКОВ И ТЕОРИЯ ГРАФОВ Рассмотрим граф: вершины – подмножества признаков, рёбра
собой подмножества признаков (например, отличающиеся добавлением или удалением одного признака),
для каждой вершины задан показатель качества J.

Гипотеза: значения показателя качества J близкие у соседних вершин.

Задача отбора признаков заключается в поиске вершины с максимальным значением показателя качества путём обхода графа по рёбрам от вершины к вершине. Решения основаны на алгоритмах восхождения к вершине (hill climbing).

{рост, масса}

{рост, масса, раса}

{рост, масса, раса, цвет глаз}

{масса}

{рост}

Слайд 21

СПИСОК ЛИТЕРАТУРЫ

Guyon, I. An Introduction to Variable and Feature Selection / I.

СПИСОК ЛИТЕРАТУРЫ Guyon, I. An Introduction to Variable and Feature Selection /
Guyon, A. Elisseeff // The Journal of Machine Learning Research. – 2003. – Vol. 3. – P. 1157-1182.
Fukunaga, K. Introduction to Statistical Pattern Recognition / K. Fukunaga. – Academic Press, 1990. – 592 p.
Theodoridis, S. Pattern Recognition / S. Theodoridis, K. Koutroumbas. – Academic Press, 2008. – 984 p.
Tou, J.T. Pattern Recognition Principles / J.T. Tou, R.C. Gonzalez. – Addison‐Wesley Publishing Company, 1974. – 378 p.
Bennasar, M. Feature selection using Joint Mutual Information Maximisation / M. Bennasar, Yu. Hicks, R. Setchi // Expert Systems with Applications. – 2015. – Vol. 42 (22). – P. 8520-8532.
Bolón-Canedo, V. Recent advances and emerging challenges of feature selection in the context of big data / V. Bolón-Canedo, N. Sánchez-Maroño, A. Alonso-Betanzos // Knowledge-Based Systems. – 2015. – Vol. 86. – P. 33-45.
Глумов, Н.И. Метод отбора информативных признаков на цифровых изображениях / Н.И. Глумов, Е.В. Мясников // Компьютерная оптика. – 2007. – Т. 31, № 3. – С. 73-76.
Кутикова, В.В. Исследование методов отбора информативных признаков для задачи распознавания текстурных изображений с помощью масок Лавса / В.В. Кутикова, А.В. Гайдель // Компьютерная оптика. – 2015. – Т. 39, № 5. – С. 744-750.
Гайдель, А.В. Отбор признаков для задачи диагностики остеопороза по рентгеновским изображениям шейки бедра / А.В. Гайдель, В.Р. Крашенинников // Компьютерная оптика. – 2016. – Т. 40, № 6. – С. 939-946.

Слайд 22

ЗАКЛЮЧЕНИЕ

Когда подбор параметров классификатора уже не помогает повысить эффективность классификации, отбор признаков

ЗАКЛЮЧЕНИЕ Когда подбор параметров классификатора уже не помогает повысить эффективность классификации, отбор
в некоторых случаях всё ещё может помочь.
Отбор признаков устраняет избыточность данных, повышает качество признакового пространства, и за счёт этого положительно влияет на эффективность решения конкретной задачи анализа данных.
Отбор признаков до сих пор представляет собой сложную задачу, которая может быть полностью решена только полным перебором, что предоставляет большой простор для исследования различных эвристических алгоритмов отбора признаков.
Имя файла: Отбор-признаков-в-задачах-анализа-данных.pptx
Количество просмотров: 59
Количество скачиваний: 0