Кластерный анализ. Метод к – средних

Содержание

Слайд 2

предложен MacQueen в 1967 году
(цит. по Kopparapu, Desai Bayesian Approach to

предложен MacQueen в 1967 году (цит. по Kopparapu, Desai Bayesian Approach to Image Interpretation стр 99)
Image Interpretation стр 99)

Слайд 3

В пакете SPSS Quick Cluster.
В пакете SAS – процедура FASTCLUS.
Быстрый не

В пакете SPSS Quick Cluster. В пакете SAS – процедура FASTCLUS. Быстрый не значит небрежный.
значит небрежный.

Слайд 4

Идея метода
Заранее определяется k - число кластеров.
Это непросто. Хотя ниже обсуждается

Идея метода Заранее определяется k - число кластеров. Это непросто. Хотя ниже
процедура для определения числа кластеров.
Выбирается k точек — центры кластеров.

Слайд 5

Далее в цикле применяем правила.
Правило 1
Объект приписывается к тому кластеру, чей

Далее в цикле применяем правила. Правило 1 Объект приписывается к тому кластеру,
центр ближайший.
Правило 2
Центр кластера — центр тяжести объектов кластера.

Слайд 6

Используется только евклидово расстояние.
Недостаток исправляется в других вариантах метода к-средних.
Например k-медоиды
Реализован в

Используется только евклидово расстояние. Недостаток исправляется в других вариантах метода к-средних. Например
пакете flexclust

Слайд 7

Рассмотрим работу метода на примере.
Скрипт k_means_ex_pictures_2.r

Рассмотрим работу метода на примере. Скрипт k_means_ex_pictures_2.r

Слайд 8

Результат зависит от начальных центров кластеров

Результат зависит от начальных центров кластеров

Слайд 9

Начальное расположение центров кластеров.
Наиболее популярны два метода.
1 Forgy (фамилия).
Случайным образом выбираются

Начальное расположение центров кластеров. Наиболее популярны два метода. 1 Forgy (фамилия). Случайным
k наблюдений. Они и будут начальными центрами кластеров.
2. Случайное разбиение (Random Partition).
Каждое наблюдение случайным образом приписывается к одному из кластеров. Находятся центры тяжести кластеров. Они и будут начальными центрами.

Слайд 10

Определение числа кластеров
То, что надо задать число кластеров, не обременительно, ведь можно

Определение числа кластеров То, что надо задать число кластеров, не обременительно, ведь
прогнать процедуру, задав разное число кластеров.
И выбрать наилучшую кластеризацию.

Слайд 11

Математическая модель

Математическая модель

Слайд 12

Отступление

Расстояние Варда в иерархическом кластерном анализе
https://en.wikipedia.org/wiki/Nearest-neighbor_chain_algorithm#Complete_linkage_and_average_distance

Отступление Расстояние Варда в иерархическом кластерном анализе https://en.wikipedia.org/wiki/Nearest-neighbor_chain_algorithm#Complete_linkage_and_average_distance

Слайд 13

Недостатки k-means


Только евклидово расстояние.
Решение зависит от начальных центров.
Надо определять число кластеров
Слишком

Недостатки k-means Только евклидово расстояние. Решение зависит от начальных центров. Надо определять
много вычислений расстояний.
На поздних итерациях мало точек меняют кластер, вычисления для "определившихся" точек можно исключить. Только как?