Методы кластеризации

Март 1, 2021

Главная
Математика
Методы кластеризации

Содержание

2. Задачи интеллектуального анализа данных Задачи ИАД Описательные Ассоциативные правила Кластеризация Классификация Прогнозирование Предсказательные
3. Введение Задача кластеризации состоит в разделении исследуемого множества объектов на группы «похожих» объектов, называемых кластерами Решение
4. Кластеризация отличается от классификации тем, что этап обучения на примерах отсутствует В задачах классификации множество классов
5. Задача кластеризации часто решается на начальных этапах исследования, когда о данных мало что известно Ее решение
6. ПРИМЕР –кластеризация результатов поиска
8. Формальная постановка задачи Дано множество данных, состоящее из N объектов (векторов): S1, S2, …, SN Каждый
9. Формальная постановка задачи Таким образом, i-й объект можно записать в виде: Si = (xi1, xi2, …,
10. Формальная постановка задачи Требуется: найти способ сравнения d(Sp, Sq) объектов между собой (меру сходства, функцию расстояния)
11. евклидово расстояние Манхэттенское расстояние расстояние Чебышева Метрики расстояния между объектами
12. Методы кластерного анализа можно разделить на две группы: неиерархические иерархические
13. Виды кластеров Внутрикластерные расстояния, как правило, меньше межкластерных Но бывают ленточные кластеры, в которых внутрикластерные расстояния
14. Разные виды кластеров ведут к проблеме выбора оптимального алгоритма кластеризации
15. Алгоритмы кластеризации
16. Как сделать признаки равноправными в образовании кластеров? ИТОГ: мы получим значения признаков, 95% которых находится в
17. Метод k-средних Неиерархическим методом кластеризации является метод k-средних (k-means) Предварительно необходимо выбрать вероятное число кластеров k
18. Метод k-средних 1. Выбирается k произвольных исходных центров кластеров – обычно выбираются k объектов 2. Все
19. Метод k-средних Пример. Примем k = 3 Начальные центры – объекты 1, 3, 4 Разобьем все
20. Метод k-средних Найдем новые центры кластеров
21. Метод k-средних Найдем новые центры кластеров
22. Метод k-средних Разобьем все объекты по новым кластерам, относя каждый объект к кластеру с ближайшим центром
23. Метод k-средних Пересчитаем центры кластеров. Дальнейшая разбивка объектов по новым кластерам не меняет расположение центров
24. Метод k-средних: определение k с помощью метода каменистой осыпи J (Ck) - сумма квадратов расстояний от
25. До стандартизации После График средних значений Признаков в кластерах
26. Иерархические методы К иерархическим методам кластеризации относятся: агломеративный алгоритмы дивизимный алгоритмы
27. Агломеративный метод В начале работы алгоритма все объекты являются отдельными кластерами На первом шаге наиболее похожие
28. Метод ближайшего соседа (одиночная связь, Single linkage). Расстояние между двумя кластерами определяется расстоянием между двумя наиболее
29. 4. Невзвешенный центроидный метод (Unweighted pair-group centroid). В этом методе расстояние между двумя кластерами определяется как
30. Агломеративный метод Пример. Каждый объект формирует свой кластер
31. Агломеративный метод Выбираем и объединяем два наиболее близких кластера
32. Агломеративный метод Выбираем и объединяем два наиболее близких кластера
33. Агломеративный метод Выбираем и объединяем два наиболее близких кластера
34. Дивизимный метод На первом шаге все объекты помещаются в один кластер С1 Выбирается объект, у которого
35. Дивизимный метод Выбранный объект удаляется из кластера С1 и формирует первый элемент второго кластера С2 На
36. Дивизимный метод В результате один кластер делится на два дочерних, один из которых расщепляется на следующем
37. Иерархические методы
38. ДЕНДРОГРАММА
39. Метрики качества кластеризации Коэффициент силуэта: Здесь a — среднее внутрикластерное расстояние (то есть среднее расстояние между
40. Пример программы на Python from sklearn import datasets dataset = datasets.load_iris() X = dataset.data y =
41. DBSCAN На вход алгоритму подаётся набор точек, параметры ϵ (радиус окрестности) и m (минимальное число точек
42. DBSCAN
43. DBSCAN: результаты работы
45. Скачать презентацию

Задачи интеллектуального анализа данных
Задачи ИАД
Описательные
Ассоциативные правила
Кластеризация
Классификация
Прогнозирование
Предсказательные

Введение
Задача кластеризации состоит в разделении исследуемого множества объектов на группы «похожих» объектов, называемых

кластерами
Решение задачи кластеризации называют кластерным анализом

Кластеризация отличается от классификации тем, что этап обучения на примерах отсутствует
В задачах классификации

множество классов заранее известно, в кластеризации классы определяются в процессе анализа
Поэтому кластеризация относится к задачам обучения без учителя (unsupervised learning)

Задача кластеризации часто решается на начальных этапах исследования, когда о данных мало

что известно
Ее решение помогает лучше понять данные
После определения кластеров применяются другие методы Data Mining, чтобы попытаться установить, что означает такое разбиение
Кластерный анализ позволяет рассматривать достаточно большой объем информации и сжимать большие массивы информации, делать их компактными и наглядными

Слайд 6

ПРИМЕР –кластеризация результатов поиска

Слайд 7

Слайд 8

Формальная постановка задачи
Дано множество данных, состоящее из N объектов (векторов):
S1, S2, …,

SN
Каждый объект описывается набором признаков:
x1, x2, …, xm,
где m – размерность пространства признаков

Слайд 9

Формальная постановка задачи
Таким образом, i-й объект можно записать в виде:
Si = (xi1,

xi2, …, xim)
Класс для каждого объекта неизвестен

Слайд 10

Формальная постановка задачи
Требуется:
найти способ сравнения d(Sp, Sq) объектов между собой (меру сходства, функцию

расстояния)
определить множество кластеров
С1, C2, …, Cr
причем количество кластеров r – неизвестно
разбить данные по кластерам

Слайд 11

евклидово расстояние
Манхэттенское расстояние
расстояние Чебышева

Метрики расстояния между объектами

Слайд 12

Методы кластерного анализа можно разделить на две группы:
неиерархические
иерархические

Слайд 13

Виды кластеров
Внутрикластерные расстояния, как правило, меньше межкластерных
Но бывают ленточные кластеры, в которых

внутрикластерные расстояния большие
Идеальный случай- сферические кластеры с центром (встречаются редко)

Слайд 14

Разные виды кластеров ведут к проблеме выбора оптимального алгоритма кластеризации

Слайд 15

Алгоритмы кластеризации

Слайд 16

Как сделать признаки
равноправными в образовании кластеров?
ИТОГ: мы получим значения признаков,

95% которых находится в интервале (-2;2)

Стандартизация данных

Слайд 17

Метод k-средних
Неиерархическим методом кластеризации является метод k-средних (k-means)
Предварительно необходимо выбрать вероятное число

кластеров k

Слайд 18

Метод k-средних
1. Выбирается k произвольных исходных центров кластеров – обычно выбираются k

объектов
2. Все объекты разбиваются на k групп, наиболее близких к одному из центров
3. Вычисляются новые центры кластеров
4. Проводится новое разбиение всех объектов на основании близости к новым центрам
Шаги 3 и 4 повторяются до тех пор, пока центры кластеров не перестанут меняться или пока не достигнуто максимальное число итераций

Слайд 19

Метод k-средних
Пример.
Примем k = 3
Начальные центры – объекты 1, 3, 4
Разобьем

все объекты по кластерам

Слайд 20

Метод k-средних
Найдем новые центры кластеров

Слайд 21

Метод k-средних
Найдем новые центры кластеров

Слайд 22

Метод k-средних
Разобьем все объекты по новым кластерам, относя каждый объект к кластеру

с ближайшим центром

Слайд 23

Метод k-средних
Пересчитаем центры кластеров.
Дальнейшая разбивка объектов по новым кластерам не меняет расположение центров

Слайд 24

Метод k-средних: определение k с помощью метода каменистой осыпи
J (Ck) - сумма

квадратов расстояний от точек до центроидов кластеров, к которым они относятся, k- количество кластеров

Слайд 25

До стандартизации
После
График средних значений
Признаков в кластерах

Слайд 26

Иерархические методы
К иерархическим методам кластеризации относятся:
агломеративный алгоритмы
дивизимный алгоритмы

Слайд 27

Агломеративный метод
В начале работы алгоритма все объекты являются отдельными кластерами
На первом шаге

наиболее похожие (близкие) два кластера объединяются в дин кластер
На последующих шагах объединение продолжается до тех пор, пока все объекты не будут составлять один кластер
На любом этапе объединение можно прервать, получив нужное число кластеров

Слайд 28

Метод ближайшего соседа (одиночная связь, Single linkage). Расстояние между двумя кластерами определяется

расстоянием между двумя наиболее близкими объектами («ближайшими соседями») в различных кластерах.
Метод наиболее удаленного соседа (полная связь, Complete linkage). Расстояния между кластерами определяются наибольшим расстоянием между любыми двумя объектами в различных кластерах.
Попарное среднее (Unweighted pair-group average). Расстояние между двумя различными кластерами вычисляется как среднее расстояние между всеми парами объектов в них.

Вычисление расстояния между
кластерами

Слайд 29

4. Невзвешенный центроидный метод (Unweighted pair-group centroid). В этом методе расстояние между двумя

кластерами определяется как расстояние между их центрами.

Вычисление расстояния между
кластерами

5. Метод Варда (Ward's method). В качестве расстояния между кластерами берется прирост суммы квадратов расстояний объектов до центров кластеров, получаемый в результате их объединения В целом метод представляется очень эффективным, однако он стремится создавать кластеры малого размера.

Слайд 30

Агломеративный метод
Пример.
Каждый объект формирует свой кластер

Слайд 31

Агломеративный метод
Выбираем и объединяем два наиболее близких кластера

Слайд 32

Агломеративный метод
Выбираем и объединяем два наиболее близких кластера

Слайд 33

Агломеративный метод
Выбираем и объединяем два наиболее близких кластера

Слайд 34

Дивизимный метод
На первом шаге все объекты помещаются в один кластер С1
Выбирается объект,

у которого среднее значение расстояния до других объектов в этом кластере наибольшее:

Слайд 35

Дивизимный метод
Выбранный объект удаляется из кластера С1 и формирует первый элемент второго

кластера С2
На каждом последующем шаге объект в кластере С1, для которого разность между средним расстоянием до объектов, находящихся в С2 и средним расстоянием до объектов, остающихся в С1, наибольшая, переносится в С2

Слайд 36

Дивизимный метод
В результате один кластер делится на два дочерних, один из которых

расщепляется на следующем уровне иерархии
Каждый последующий уровень применяет процедуру разделения к одному из кластеров, полученных на предыдущем уровне

Слайд 37

Иерархические методы

Слайд 38

ДЕНДРОГРАММА

Слайд 39

Метрики качества кластеризации
Коэффициент силуэта:
Здесь a — среднее внутрикластерное расстояние (то есть

среднее расстояние между элементами, принадлежащими одному кластеру) , b— среднее межкластерное расстояние (cреднее расстояние между элементами, принадлежащими разным кластерам).
Значение коэффициента силуэта лежит в диапазоне [−1,1]. Чем больше величина коэффициента, тем качественнее проведена кластеризация. Значения, близкие к -1, соответствуют плохим (неправильным) кластеризациям, значения, близкие к нулю, говорят о том, что кластеры пересекаются и накладываются друг на друга, значения, близкие к 1, соответствуют плотно сгруппированным кластерам.

Слайд 40

Пример программы на Python
from sklearn import datasets
dataset = datasets.load_iris()
X =

dataset.data
y = dataset.target
from sklearn.cluster import KMeans
model = KMeans(n_clusters=3).fit(X)
labels = model.labels_
from sklearn import metrics
metrics.silhouette_score(X, labels, metric='euclidean')

Слайд 41

DBSCAN
На вход алгоритму подаётся набор точек, параметры ϵ (радиус окрестности)
и m (минимальное число точек в

окрестности).

Методы кластеризации

Содержание

Задачи интеллектуального анализа данныхЗадачи ИАДОписательныеАссоциативные правилаКластеризацияКлассификацияПрогнозированиеПредсказательные

ВведениеЗадача кластеризации состоит в разделении исследуемого множества объектов на группы «похожих» объектов, называемых

Кластеризация отличается от классификации тем, что этап обучения на примерах отсутствуетВ задачах классификации

Задача кластеризации часто решается на начальных этапах исследования, когда о данных мало

ПРИМЕР –кластеризация результатов поиска

Формальная постановка задачиДано множество данных, состоящее из N объектов (векторов):S1, S2, …,

Формальная постановка задачиТаким образом, i-й объект можно записать в виде:Si = (xi1,

Формальная постановка задачиТребуется:найти способ сравнения d(Sp, Sq) объектов между собой (меру сходства, функцию

евклидово расстояниеМанхэттенское расстояниерасстояние Чебышева Метрики расстояния между объектами

Методы кластерного анализа можно разделить на две группы:неиерархическиеиерархические

Виды кластеровВнутрикластерные расстояния, как правило, меньше межкластерныхНо бывают ленточные кластеры, в которых

Разные виды кластеров ведут к проблеме выбора оптимального алгоритма кластеризации

Алгоритмы кластеризации

Как сделать признаки равноправными в образовании кластеров? ИТОГ: мы получим значения признаков,

Метод k-среднихНеиерархическим методом кластеризации является метод k-средних (k-means)Предварительно необходимо выбрать вероятное число

Метод k-средних1. Выбирается k произвольных исходных центров кластеров – обычно выбираются k

Метод k-среднихПример. Примем k = 3Начальные центры – объекты 1, 3, 4Разобьем

Метод k-среднихНайдем новые центры кластеров

Метод k-среднихНайдем новые центры кластеров

Метод k-среднихРазобьем все объекты по новым кластерам, относя каждый объект к кластеру

Метод k-среднихПересчитаем центры кластеров.Дальнейшая разбивка объектов по новым кластерам не меняет расположение центров

Метод k-средних: определение k с помощью метода каменистой осыпиJ (Ck) - сумма

До стандартизацииПослеГрафик средних значений Признаков в кластерах

Иерархические методыК иерархическим методам кластеризации относятся:агломеративный алгоритмыдивизимный алгоритмы

Агломеративный методВ начале работы алгоритма все объекты являются отдельными кластерамиНа первом шаге

Метод ближайшего соседа (одиночная связь, Single linkage). Расстояние между двумя кластерами определяется

4. Невзвешенный центроидный метод (Unweighted pair-group centroid). В этом методе расстояние между двумя

Агломеративный методПример. Каждый объект формирует свой кластер

Агломеративный методВыбираем и объединяем два наиболее близких кластера

Агломеративный методВыбираем и объединяем два наиболее близких кластера

Агломеративный методВыбираем и объединяем два наиболее близких кластера

Дивизимный методНа первом шаге все объекты помещаются в один кластер С1Выбирается объект,

Дивизимный методВыбранный объект удаляется из кластера С1 и формирует первый элемент второго

Дивизимный методВ результате один кластер делится на два дочерних, один из которых

Иерархические методы

ДЕНДРОГРАММА

Метрики качества кластеризацииКоэффициент силуэта: Здесь a — среднее внутрикластерное расстояние (то есть

Пример программы на Pythonfrom sklearn import datasets dataset = datasets.load_iris() X =

DBSCANНа вход алгоритму подаётся набор точек, параметры ϵ (радиус окрестности) и m (минимальное число точек в

DBSCAN

DBSCAN: результаты работы

Похожие презентации

Задачи интеллектуального анализа данных
Задачи ИАД
Описательные
Ассоциативные правила
Кластеризация
Классификация
Прогнозирование
Предсказательные

Введение
Задача кластеризации состоит в разделении исследуемого множества объектов на группы «похожих» объектов, называемых

Кластеризация отличается от классификации тем, что этап обучения на примерах отсутствует
В задачах классификации

Формальная постановка задачи
Дано множество данных, состоящее из N объектов (векторов):
S1, S2, …,

Формальная постановка задачи
Таким образом, i-й объект можно записать в виде:
Si = (xi1,

Формальная постановка задачи
Требуется:
найти способ сравнения d(Sp, Sq) объектов между собой (меру сходства, функцию

евклидово расстояние
Манхэттенское расстояние
расстояние Чебышева

Метрики расстояния между объектами

Методы кластерного анализа можно разделить на две группы:
неиерархические
иерархические

Виды кластеров
Внутрикластерные расстояния, как правило, меньше межкластерных
Но бывают ленточные кластеры, в которых

Как сделать признаки
равноправными в образовании кластеров?
ИТОГ: мы получим значения признаков,

Метод k-средних
Неиерархическим методом кластеризации является метод k-средних (k-means)
Предварительно необходимо выбрать вероятное число

Метод k-средних
1. Выбирается k произвольных исходных центров кластеров – обычно выбираются k

Метод k-средних
Пример.
Примем k = 3
Начальные центры – объекты 1, 3, 4
Разобьем

Метод k-средних
Найдем новые центры кластеров

Метод k-средних
Найдем новые центры кластеров

Метод k-средних
Разобьем все объекты по новым кластерам, относя каждый объект к кластеру

Метод k-средних
Пересчитаем центры кластеров.
Дальнейшая разбивка объектов по новым кластерам не меняет расположение центров

Метод k-средних: определение k с помощью метода каменистой осыпи
J (Ck) - сумма

До стандартизации
После
График средних значений
Признаков в кластерах

Иерархические методы
К иерархическим методам кластеризации относятся:
агломеративный алгоритмы
дивизимный алгоритмы

Агломеративный метод
В начале работы алгоритма все объекты являются отдельными кластерами
На первом шаге

Агломеративный метод
Пример.
Каждый объект формирует свой кластер

Агломеративный метод
Выбираем и объединяем два наиболее близких кластера

Агломеративный метод
Выбираем и объединяем два наиболее близких кластера

Агломеративный метод
Выбираем и объединяем два наиболее близких кластера

Дивизимный метод
На первом шаге все объекты помещаются в один кластер С1
Выбирается объект,

Дивизимный метод
Выбранный объект удаляется из кластера С1 и формирует первый элемент второго

Дивизимный метод
В результате один кластер делится на два дочерних, один из которых

Метрики качества кластеризации
Коэффициент силуэта:
Здесь a — среднее внутрикластерное расстояние (то есть

Пример программы на Python
from sklearn import datasets
dataset = datasets.load_iris()
X =

DBSCAN
На вход алгоритму подаётся набор точек, параметры ϵ (радиус окрестности)
и m (минимальное число точек в