Иерархический кластерный анализ

Содержание

Слайд 2

Происхождение термина
Кластер – калька слова «cluster»,
«сгусток», «гроздь (винограда)», «скопление (звезд)»

Происхождение термина Кластер – калька слова «cluster», «сгусток», «гроздь (винограда)», «скопление (звезд)» и т.п.
и т.п.

Слайд 3

Ранее использовались другие термины
распознавание образов без учителя,
стратификация,
таксономия,
автоматическая классификация.

Ранее использовались другие термины распознавание образов без учителя, стратификация, таксономия, автоматическая классификация.

Слайд 4

Задача
Кластерный анализ разбивает набор объектов на группы
Попутно определяется число групп

Задача Кластерный анализ разбивает набор объектов на группы Попутно определяется число групп

Слайд 5

Определение
Группы, на которые разбита выборка, называются кластерами.

Определение Группы, на которые разбита выборка, называются кластерами.

Слайд 6

Еще раз:
при иерархическом кластерном анализе заранее неизвестно число кластеров (групп, на которые

Еще раз: при иерархическом кластерном анализе заранее неизвестно число кластеров (групп, на которые разбивается набор объектов).
разбивается набор объектов).

Слайд 7

Другие методы кластеризации
Метод к-средних
Самоорганизующиеся карты Кохонена (SOM)
Смесь (нормальных) распределений

Другие методы кластеризации Метод к-средних Самоорганизующиеся карты Кохонена (SOM) Смесь (нормальных) распределений …

Слайд 8

В маркетинге: Сегментирование рынка

В маркетинге: Сегментирование рынка

Слайд 9

Пример: Определение групп потребителей
– По данным о покупателях (результаты опроса, поведение на

Пример: Определение групп потребителей – По данным о покупателях (результаты опроса, поведение
сайте) выявить и описать/понять рыночные сегменты.
– Прежде, чем фирма определится, какие сегменты рынка создают для нее наибольшие возможности, надо решить, какие сегменты уже существуют.

Слайд 10

Страховая компания интересуется группами, на которые разделяются потенциальные клиенты.
Результаты классификации используются,

Страховая компания интересуется группами, на которые разделяются потенциальные клиенты. Результаты классификации используются,
чтобы для разных групп определять оптимальные цены на услуги, оптимальные тарифы

Слайд 11

Пример: Определение групп потребителей
– Для разбиения потребителей на группы можно выбирать разные

Пример: Определение групп потребителей – Для разбиения потребителей на группы можно выбирать
наборы характеристики объектов, например возраст, образование, место жительства, тип личности, и так далее.
Несложно разделить покупателей на сегменты по одной (или по каждой) характеристике.
Кластерный анализ может помочь выявить уже сложившееся разбиение потребителей на «группы со схожими потребностями в отношении конкретного товара или услуги, достаточными ресурсами, а также готовностью и возможностью покупать» учитывая все выбранные показатели одновременно.

Слайд 12

Пример: товарные группы для рекомендательной системы

На рынке присутствует большой выбор товаров

Пример: товарные группы для рекомендательной системы На рынке присутствует большой выбор товаров
схожего назначения под разными торговыми марками. Надо разбить товары на группы.
Иногда такое разбиение известно и получается без применения статистической техники. Например, компьютеры бывают «для дома», «для офиса», «серверы» и «специализированные».
Кластерный анализ применяется, если нет классификации, признанной всеми.
Важно! Результат будет зависеть от выбора набора показателей.

Слайд 13

Пример

Определение целевой аудитории баннерной рекламной компании в интернете.
100000 сайтов
Каждый из них указывает

Пример Определение целевой аудитории баннерной рекламной компании в интернете. 100000 сайтов Каждый
на интересы куки, на текущее настроение куки…
Надо отождествить схожие сайты

Слайд 14

Другие задачи классификации
Machine Learning
Классификация с учителем
Распознавание образов

Другие задачи классификации Machine Learning Классификация с учителем Распознавание образов

Слайд 15

Отличие

Заранее известно, к какому классу принадлежит каждое из наблюдений.
Технологически - среди

Отличие Заранее известно, к какому классу принадлежит каждое из наблюдений. Технологически -
переменных присутствует так называемая группирующая переменная.

Слайд 16

Что тогда классифицировать?
Надо придумать правило.
Для классификации новых наблюдений.

Что тогда классифицировать? Надо придумать правило. Для классификации новых наблюдений.

Слайд 17

Другие задачи классификации

Классификация с обучающей выборкой
наивный байесовский классификатор
дискриминантный анализ
деревья классификации
К-го ближайшего

Другие задачи классификации Классификация с обучающей выборкой наивный байесовский классификатор дискриминантный анализ
соседа
Нейронная сеть прямого распространения
SVM
Случайный лес
Gradient boosting machine

Слайд 18

Вернемся к кластерному анализу

Вернемся к кластерному анализу

Слайд 19

Идея метода
Сведем задачу к геометрической

Идея метода Сведем задачу к геометрической

Слайд 20

Сведем задачу к геометрической

Каждый объект – точка.
Похожие объекты расположены «близко» друг к

Сведем задачу к геометрической Каждый объект – точка. Похожие объекты расположены «близко»
другу
Различающиеся объекты расположены «далеко»
Скопления точек – кластер.

Слайд 22

Расстояние между объектами
Евклидово расстояние
Квадрат Евклидова расстояния
Блок (Манхеттен, сити-блок)
и так далее…

Расстояние между объектами Евклидово расстояние Квадрат Евклидова расстояния Блок (Манхеттен, сити-блок) и так далее…

Слайд 23

Расстояние Евклида

Две точки
(x1, x2, x3)
(y1, y2, y3)

Расстояние Евклида Две точки (x1, x2, x3) (y1, y2, y3)

Слайд 24

Квадрат евклидова расстояния не является расстоянием...

Квадрат евклидова расстояния не является расстоянием...

Слайд 25

Расстояние Block (Manhatten, таксиста).

Расстояние Block (Manhatten, таксиста).

Слайд 26

Расстояние Block (Manhattan, таксиста, Минковского при р=1).

Расстояние Block (Manhattan, таксиста, Минковского при р=1).

Слайд 27

Расстояние Хэмминга

число позиций, в которых соответствующие символы двух слов одинаковой длины различны
D(1011101,

Расстояние Хэмминга число позиций, в которых соответствующие символы двух слов одинаковой длины
1001001) =
D(2173896, 2233796) =
D(toned, roses)

Слайд 28

Вопрос:
Когда выбирать евклидово расстояние, а когда растояние Манхэттен?

Вопрос: Когда выбирать евклидово расстояние, а когда растояние Манхэттен?

Слайд 29

Расстояние между кластерами

Среднее невзвешенное расстояние (Average linkage clustering).
Центроидный метод (Centroid Method).
Метод

Расстояние между кластерами Среднее невзвешенное расстояние (Average linkage clustering). Центроидный метод (Centroid
дальнего соседа, максимального расстояния (Complete linkage clustering).
Метод ближайшего соседа (Single linkage clustering).
Метод Варда (Ward's method).

Слайд 30

Среднее невзвешенное расстояние

Среднее невзвешенное расстояние

Слайд 31

Центроидный метод

Центроидный метод

Слайд 32

Центроидный метод

Вычислительная простота
Объем кластера не влияет.
Дендрограмма может иметь самопересечения
Выходит из употребления

Центроидный метод Вычислительная простота Объем кластера не влияет. Дендрограмма может иметь самопересечения Выходит из употребления

Слайд 33

Метод дальнего соседа

Метод дальнего соседа

Слайд 34

Метод ближнего соседа

Метод ближнего соседа

Слайд 35

Растояние Sørensen–Dice

Растояние Sørensen–Dice

Слайд 36

Метод Варда (WARD).
Предполагается использование квадрата евклидова расстояния

Метод Варда (WARD). Предполагается использование квадрата евклидова расстояния

Слайд 37

Начинающим рекомендуем


– метод Варда;
– метод ближнего соседа (Complete linkage clustering);

Начинающим рекомендуем – метод Варда; – метод ближнего соседа (Complete linkage clustering);
среднее невзвешенное расстояние (Average linkage clustering).

Слайд 38

Алгоритм кластерного анализа
Разберемся с процедурой иерархического кластерного анализа на примере

Алгоритм кластерного анализа Разберемся с процедурой иерархического кластерного анализа на примере

Слайд 40

Алгоритм построения дендрограммы

Алгоритм построения дендрограммы

Слайд 41

Ernst Haeckel
Tree of Life
The Evolution of Man (1879)
Но он не был

Ernst Haeckel Tree of Life The Evolution of Man (1879) Но он
первым…
Древо Порфирия (300+ год)

Слайд 47

каменистая осыпь / локоть

каменистая осыпь / локоть

Слайд 48

Где на дендрограмме кластеры?

Где на дендрограмме кластеры?

Слайд 49

Упражнение
Разбить на пары:
Каждой диаграмме рассеивания поставить в соответствие дендрограмму

Упражнение Разбить на пары: Каждой диаграмме рассеивания поставить в соответствие дендрограмму

Слайд 51

Участие аналитика

Отбор переменных
Метод стандартизации
Расстояние между кластерами
Расстояние между объектами

Участие аналитика Отбор переменных Метод стандартизации Расстояние между кластерами Расстояние между объектами

Слайд 52

Отбор переменных

1. Какие переменные будут использоваться при анализе?
Все?
Как влияет цвет глаз покупателя

Отбор переменных 1. Какие переменные будут использоваться при анализе? Все? Как влияет
на средний объем выпиваемого пива?
Распознавание танков

Слайд 53

С другой стороны

если нам неизвестны зарплаты/доходы покупателей, но для каждого из них

С другой стороны если нам неизвестны зарплаты/доходы покупателей, но для каждого из
известны профессия, образование и стаж работы, исключение этих трех переменных влечет за собой исключение из рассмотрения платежеспособность покупателей.
Если классифицируются школы, и не включены ни переменная «число школьников», ни переменная «число учителей», то кластеры будут формироваться без учета размера школ.

Слайд 54

Вывод

Правильный выбор переменных очень важен.
Критерием при отборе переменных для анализа является

Вывод Правильный выбор переменных очень важен. Критерием при отборе переменных для анализа
в первую очередь ясность интерпретации полученного результата, во вторую – интуиция исследователя.

Слайд 55

Надо ли стандартизировать переменные?

Правило для новичка:
если Вы не знаете, стандартизировать или

Надо ли стандартизировать переменные? Правило для новичка: если Вы не знаете, стандартизировать или нет, стандартизируйте.
нет, стандартизируйте.

Слайд 56

Надо стандартизировать

Надо стандартизировать

Слайд 57

Стандартизация

Для каждого столбца.
Линейное преобразование
1. Максимальное значение =1, минимальное = 0 (-1)
2. z-метки.

Стандартизация Для каждого столбца. Линейное преобразование 1. Максимальное значение =1, минимальное =
Среднее равно 0, выборочная дисперсия равна 1.

Слайд 58

Иногда решением будет преобразование данных

Иногда решением будет преобразование данных

Слайд 59

Если кластеров нет
Они все равно будут найдены

Если кластеров нет Они все равно будут найдены

Слайд 61

Результаты кластерного анализа нуждаются в интерпретации
какой вариант кластеризации даст лучшие результаты?
тот,

Результаты кластерного анализа нуждаются в интерпретации какой вариант кластеризации даст лучшие результаты?
который вы смогли понять и проинтерпретировать

Слайд 62

Еще раз об участии аналитика

Иерархический кластерный анализ требует вдохновенного выбора способа подсчета

Еще раз об участии аналитика Иерархический кластерный анализ требует вдохновенного выбора способа
расстояния между объектами и расстояния между кластерами. Кроме того, надо угадать число кластеров. Потом останется неясной геометрия кластеров. Таким образом, многое надо угадать и осмыслить. Не всегда это удается.

Слайд 63

Типы кластеров
Шаровые
Ленточные
...

Типы кластеров Шаровые Ленточные ...

Слайд 64

Выбор расстояния между кластерами

Выбор расстояния между кластерами

Слайд 65

Выраженные кластеры – все равно какой метод

Выраженные кластеры – все равно какой метод

Слайд 67

Какой метод будет лучше?

Какой метод будет лучше?

Слайд 68

Неудача

Неудача

Слайд 69

Неудача

Неудача

Слайд 70

Метод ближайшего соседа

Метод ближайшего соседа

Слайд 71

Пример
Сегментация потребителей безалкогольных напитков

Пример Сегментация потребителей безалкогольных напитков

Слайд 72

Компания провела опрос с целью выявить, какие напитки предпочитают респонденты. Опрошенные указывали,

Компания провела опрос с целью выявить, какие напитки предпочитают респонденты. Опрошенные указывали,
какие напитки из предложенного списка они пьют регулярно.

Слайд 73

В списке присутствовали
Coca-Cola,
диетическая Coca-Cola,
Pepsi-Cola,
диетическая Pepsi-Cola,
7-Up
диетический 7-Up,
Спрайт,

В списке присутствовали Coca-Cola, диетическая Coca-Cola, Pepsi-Cola, диетическая Pepsi-Cola, 7-Up диетический 7-Up, Спрайт, минеральная вода

минеральная вода

Слайд 75

Решение для трех кластеров

перечисляя сверху вниз на дендрограмме,
В верхний кластер войдут

Решение для трех кластеров перечисляя сверху вниз на дендрограмме, В верхний кластер
респонденты с номерами от 7-го до 27-го,
в средней группе – от 14-го до 13-го,
в нижний – от 31-го до 20-го.

Слайд 76

R нумерует кластеры не сверху вниз!
Как ему захочется!

R нумерует кластеры не сверху вниз! Как ему захочется!

Слайд 77

1 кластер 16 наблюдений

1 кластер 16 наблюдений

Слайд 78

2 кластер 11 наблюдений

2 кластер 11 наблюдений

Слайд 79

3 кластер 7 наблюдений

3 кластер 7 наблюдений

Слайд 80

Потребление протеинов в Европе

Переменные
redmeat Мясо
whitemeat Птица
eggs Яйца
milk Молоко
fish Рыба
cereals Хлебо-булочные
starch Крахмал: картофель, макароны
nuts Орехи
fruits_v Фрукты и овощи

Потребление протеинов в Европе Переменные redmeat Мясо whitemeat Птица eggs Яйца milk

Слайд 81

Задача:

Разбить страны на группы.
Надо ли проводить стандартизацию?
Как отличаются кластеры?
(Использовалось решение Тропинина.)

Задача: Разбить страны на группы. Надо ли проводить стандартизацию? Как отличаются кластеры? (Использовалось решение Тропинина.)

Слайд 82

Cтандартизация обязательна, так как средние значения некоторых переменных отличаются в десятки раз.
Из

Cтандартизация обязательна, так как средние значения некоторых переменных отличаются в десятки раз.
всех методов иерархического кластерного анализа наиболее понятную картину дал
метод Варда + стандартизация [0, 1]

Слайд 86

особенности питания зависят от
географического положения и от
экономического строя,
что вполне

особенности питания зависят от географического положения и от экономического строя, что вполне естественно
естественно

Слайд 87

Далее, сравниваем потребление в разных кластерах

1 кластер: большое потребление злаков и орехов

Далее, сравниваем потребление в разных кластерах 1 кластер: большое потребление злаков и
(Pulses, nuts, and oil-seeds);
маленькое потребление мяса (Red meat, White meat), рыбы, крахмалистых продуктов (Starchy foods) и яиц.
2 кластер: большое потребление мяса, яиц, молока; небольшое потребление злаков и орехов.
3 кластер: большое потребление птицы (White meat), крахмалистых продуктов; небольшое потребление орехов.
4 кластер: большое потребление яиц, молока, рыбы; маленькое потребление злаков, орехов, фруктов и овощей.
5 кластер: большое потребление рыбы, орехов, фруктов и овощей; маленькое потребление птицы.
Имя файла: Иерархический-кластерный-анализ.pptx
Количество просмотров: 73
Количество скачиваний: 1