Слайд 2Что будет сегодня про кластеризацию
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок
Что это и

зачем
Описание нескольких алгоритмов
Слайд 3Что такое кластеризация
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок
Кластерный анализ (англ. cluster analysis):
задача разбиения

заданной выборки объектов (ситуаций) на подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались.
Слайд 4Картинка
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок

Слайд 5Другая картинка
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок

Слайд 6Виды кластеризации
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок
Centroid-based
Сonnectivity-based
Distribution-based
Constraint-based

Слайд 7Виды кластеризации
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок
Centroid-based
Сonnectivity-based
Distribution-based
Constraint-based

Слайд 8Другие классификации
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок
Чёткие/нечёткие
Плоские/иерархические

Слайд 9Другие классификации
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок
Чёткие/нечёткие
Плоские/иерархические

Слайд 10Другие классификации
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок
Чёткие/нечёткие
Плоские/иерархические

Слайд 11Centroid-based
Н. Поваров, И. Куралёнок
Санкт-Петербург, 2019

Слайд 12FOREL (сentroid-based)
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок

Слайд 13Факты о FOREL
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок
Один параметр!
Результат зависит от рандома
Детище советских

учёных
Слайд 14k-means (сentroid-based)
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок

Слайд 15k-means (сentroid-based)
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок

Слайд 16Факты о k-means
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок
Один параметр!
Нет гарантий сходимости
Можно использовать medians
А

можно использовать medoids
Слайд 17Правило локтя для k-means
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок
Вычисляем сумму квадратов расстояний от

точек до центров
Рисуем график
Выбираем k
Слайд 18Правило локтя для k-means
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок

Слайд 19Connectivity-based
Н. Поваров, И. Куралёнок
Санкт-Петербург, 2019

Слайд 20Односвязный (сonnectivity-based)
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок

Слайд 21Факты про односвязный алгоритм
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок

Слайд 22DBSCAN (сonnectivity-based)
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок

Слайд 23DBSCAN (сonnectivity-based)
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок

Слайд 24Факты о DBSCAN
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок

Слайд 25«Правило локтя» для DBSCAN
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок

Слайд 26«Правило локтя» для DBSCAN
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок

Слайд 27Интересные примеры DBSCAN
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок
Convex-hull & DBSCAN clustering to

predict future weather, 2015
Modelling website user behaviors by combining the EM and DBSCAN algorithms, 2016
Real-Time Superpixel Segmentation by DBSCAN Clustering Algorithm, 2016
Слайд 28Метрики качества кластеризации
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок
Внешние
Внутренние

Слайд 29Внешние метрики
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок
Rand measure = Accuracy
F-мера
Jaccard
...

Слайд 30Внутренние метрики
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок
Вводят внутрикластерное расстояние
Вводят межкластерное расстояние

Первое хотят минимизировать, второе максимизировать
Слайд 31Внутренние метрики
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок
Dunn Index
Силуэт
Davies-Bouldin index

...
Слайд 32Dunn index
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок

Слайд 33Silhouette
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок

Слайд 34Davies-Bouldin index
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок
