Слайд 2Что будет сегодня про кластеризацию
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок
Что это и
зачем
Описание нескольких алгоритмов
Слайд 3Что такое кластеризация
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок
Кластерный анализ (англ. cluster analysis):
задача разбиения
заданной выборки объектов (ситуаций) на подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались.
Слайд 4Картинка
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок
Слайд 5Другая картинка
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок
Слайд 6Виды кластеризации
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок
Centroid-based
Сonnectivity-based
Distribution-based
Constraint-based
Слайд 7Виды кластеризации
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок
Centroid-based
Сonnectivity-based
Distribution-based
Constraint-based
Слайд 8Другие классификации
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок
Чёткие/нечёткие
Плоские/иерархические
Слайд 9Другие классификации
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок
Чёткие/нечёткие
Плоские/иерархические
Слайд 10Другие классификации
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок
Чёткие/нечёткие
Плоские/иерархические
Слайд 11Centroid-based
Н. Поваров, И. Куралёнок
Санкт-Петербург, 2019
Слайд 12FOREL (сentroid-based)
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок
Слайд 13Факты о FOREL
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок
Один параметр!
Результат зависит от рандома
Детище советских
учёных
Слайд 14k-means (сentroid-based)
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок
Слайд 15k-means (сentroid-based)
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок
Слайд 16Факты о k-means
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок
Один параметр!
Нет гарантий сходимости
Можно использовать medians
А
можно использовать medoids
Слайд 17Правило локтя для k-means
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок
Вычисляем сумму квадратов расстояний от
точек до центров
Рисуем график
Выбираем k
Слайд 18Правило локтя для k-means
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок
Слайд 19Connectivity-based
Н. Поваров, И. Куралёнок
Санкт-Петербург, 2019
Слайд 20Односвязный (сonnectivity-based)
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок
Слайд 21Факты про односвязный алгоритм
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок
Слайд 22DBSCAN (сonnectivity-based)
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок
Слайд 23DBSCAN (сonnectivity-based)
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок
Слайд 24Факты о DBSCAN
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок
Слайд 25«Правило локтя» для DBSCAN
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок
Слайд 26«Правило локтя» для DBSCAN
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок
Слайд 27Интересные примеры DBSCAN
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок
Convex-hull & DBSCAN clustering to
predict future weather, 2015
Modelling website user behaviors by combining the EM and DBSCAN algorithms, 2016
Real-Time Superpixel Segmentation by DBSCAN Clustering Algorithm, 2016
Слайд 28Метрики качества кластеризации
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок
Внешние
Внутренние
Слайд 29Внешние метрики
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок
Rand measure = Accuracy
F-мера
Jaccard
...
Слайд 30Внутренние метрики
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок
Вводят внутрикластерное расстояние
Вводят межкластерное расстояние
Первое хотят минимизировать, второе максимизировать
Слайд 31Внутренние метрики
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок
Dunn Index
Силуэт
Davies-Bouldin index
...
Слайд 32Dunn index
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок
Слайд 33Silhouette
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок
Слайд 34Davies-Bouldin index
Санкт-Петербург, 2019
Н. Поваров, И. Куралёнок