Модели и задачи Data Mining

Февраль 28, 2021

Главная
Информатика
Модели и задачи Data Mining

Содержание

2. Классификация и регрессия Постановка задачи В задачах классификации и регрессии требуется определить значение зависимой переменной объекта
3. Формально задачу классификации и регрессии можно описать следующим образом. Имеется множество объектов: I={i1, i2, …ij, …in
4. В Data Mining часто набор независимых переменных обозначают в виде вектора: X={x1, x2, …xj, …xn },
5. Представление результатов Правила классификации В задачах классификации и регрессии обнаруженная функциональная зависимость между переменными может быть
6. 1. Классификационные правила состоят из двух частей: условия и заключения: если (условие) то (заключение). Условием является
7. Относительная независимость связана с возможной их противоречивостью друг другу. Если переменные, характеризующие некоторый объект, удовлетворяют условным
8. 2. Деревья решений — это способ представления правил в иерархической, последовательной структуре.
9. 3. Математическая функция выражает отношение зависимой переменной от независимых переменных. В этом случае анализируемые объекты рассматриваются
10. Очевидно, что все переменные должны быть представлены в виде числовых параметров. Для преобразования логических и категориальных
11. Другой способ представления исходно категориальной переменной в системе — это замена возможных значений набором двоичных признаков.
12. Методы построения правил классификации. Например, метод Naive Bayes Условная вероятность принадлежности объекта к cr при равенстве
13. Методы построения деревьев решений. Например, алгоритм покрытия Построение деревьев решений для каждого класса по отдельности. На
16. Методы построения математических функций. Семейство линейных функций Множественная линейная регрессия: Y = a1*X1 + a2*X2 +
17. Полиномиальная регрессия В полиномиальной регрессии степень некоторых независимых переменных превышает 1: Y = a1*X1 + (a2)²*X2
18. Линейная регрессия: Легко моделируется, полезна при создании не сложной зависимости, при небольшом количестве данных. Обозначения интуитивно-понятны.
19. Гребневая (ридж) регрессия В случае высокой коллинеарности переменных стандартная линейная и полиномиальная регрессии становятся неэффективными. Регрессия
20. Ансамбли моделей Разработано множество различных методов и алгоритмов формирования ансамблей. Цель объединения— улучшить (усилить) решение, которое
21. Правило 80/20 (Закон Парето) – эмпирическое правило, названное в честь экономиста и социолога Вильфредо Парето, в
22. ABC и XYZ совместный анализ Популярные методы классификации ресурсов: по поставщику, по клиенту, расположению зон хранения
23. Существует классический способ ранжирования по АВС анализу в части прибыльности где: А — 80% прибыли В
24. АВС анализ в управлении запасами (1) Эффективное управление запасами позволяет предприятию удовлетворять ожидания потребителей, создавая товарные
25. Анализ оборачиваемости товара (2) Оборачиваемость запасов - это показатель обновляемости товара в течение расчетного периода, например,
26. Расширенный АВС анализ (3) АВС анализ можно проводить по частотности заказов. Частотность заказов - сколько месяцев
27. Расширенный АВС анализ (4) Количество обращений означает, сколько отдельных заказов было сделано по каждому товару не
28. Расширенный АВС анализ «ААА» — супер ТОП «ССС» — нужны ли затраты на такой товар?
29. Выводы по расширенному АВС анализу: Товар по прибыльности относится к категории А, но в расширенном АВС
30. Топология склада по АВС анализу
31. Простые методы определения границ групп ABC-анализа: эмпирический метод, метод сумм Границы определяются по значению суммы двух
32. В этом примере с границами по методу сумм: Группа A — 79% выручки, 23.3% наименований Группа
33. XYZ анализ XYZ анализ, это метод прогноза и анализа стабильности и колебаний спроса продаж по товарам
34. XYZ-анализ позволяет классифицировать объекты в зависимости от характера потребления и точности прогнозирования его изменения. X –
35. Формула расчета коэффициента вариации (колебаний) спроса =СТАНДОТКЛОНП(C2:E2)/СРЗНАЧ(C2:E2) Магнитола и Утюг относятся к категории Z Ноутбук и
36. XYZ анализ по клиентам Клиенты категории X — стабильные продажи. По таким клиентам достаточно просто прогнозировать
37. Матрица ABC-XYZ – единый анализ Результаты ABC и XYZ анализа можно совместить и получить разделение на
46. Скачать презентацию

Классификация и регрессия Постановка задачи
В задачах классификации и регрессии требуется определить значение зависимой

переменной объекта на основании значений других переменных, характеризующих данный объект.

Формально задачу классификации и регрессии можно описать следующим образом.
Имеется множество объектов:

I={i1, i2, …ij, …in },
где ij — исследуемый объект.
Каждый объект характеризуется набором переменных:
Ij = { x1, x2,..., xh,..., xm, y},
где xh — независимые переменные, значения которых известны и на основании которых определяется значение зависимой переменной y.

Слайд 4

В Data Mining часто набор независимых переменных обозначают в виде вектора:
X={x1,

x2, …xj, …xn },
Каждая переменная xj может принимать значения из некоторого множества:
Ch={ch1, ch2, …},
Если значениями переменной являются элементы конечного множества, то
говорят, что она имеет категориальный тип.
Например, переменная наблюдение принимает значения на множестве значений {солнце, облачность, дождь}.
Если множество значений C={c1, c2, …cr, …ck } переменной y конечное, то задача называется задачей классификации.
Если переменная y принимает значение на множестве действительных чисел R , то задача называется задачей регрессии.

Слайд 5

Представление результатов Правила классификации
В задачах классификации и регрессии обнаруженная функциональная зависимость между переменными

может быть представлена одним из следующих способов:
классификационные правила;
деревья решений;
математические функции.

Слайд 6

1. Классификационные правила состоят из двух частей: условия и заключения:
если (условие)

то (заключение).
Условием является проверка одной или нескольких независимых переменных с использованием операций И, ИЛИ, НЕ.
Заключением является значение зависимой переменной или распределение ее вероятности по классам, например:
если (наблюдение = солнце И температура = жарко) то (игра = нет);
если (наблюдение = облачность И температура = холодно) то (игра = да).
Основными достоинствами правил являются легкость их восприятия и запись на естественном языке.
Еще одно преимущество — их относительная независимость.
В набор правил легко добавить новое правило без необходимости изменять уже существующие.

Слайд 7

Относительная независимость связана с возможной их противоречивостью друг другу.
Если переменные, характеризующие

некоторый объект, удовлетворяют условным частям правил с разными заключениями, то возникает неопределенность со значением его зависимой переменной. Например, пусть имеются правила:
если (наблюдение = солнце) то (игра = нет);
если (наблюдение = облачность И температура = холодно) то (игра = да)
В них объекты, удовлетворяющие условиям второго правила, удовлетворяют и условиям первого правила. Однако вывод делается разный.
Другими словами, в соответствии с этими правилами при одинаковых обстоятельствах будут получены противоречивые указания, что неприемлемо.

Слайд 8

2. Деревья решений — это способ представления правил в иерархической, последовательной структуре.

Слайд 9

3. Математическая функция выражает отношение зависимой переменной от независимых переменных.
В этом

случае анализируемые объекты рассматриваются как точки в (m + 1)-мерном пространстве.
Тогда переменные объекта ij = { x1, x2,..., xh,..., xm, y},
рассматриваются как координаты, а функция имеет следующий вид:
yj ={ω0 +ωx1 +ωx2 +…. +ωxm}
где ω0, ω1, ωm — веса независимых переменных, в поиске которых и состоит задача нахождения классификационной функции.

Слайд 10

Очевидно, что все переменные должны быть представлены в виде числовых параметров.
Для

преобразования логических и категориальных переменных
к числовым используют разные способы:
Логические типы, как правило, кодируют цифрами 1 (истина) и 0 (ложь).
Значениями категориальных переменных являются имена возможных состояний изучаемого объекта. Имена должны быть перечислены и пронумерованы в списке.
В итоге категориальная переменная преобразуется в числовую переменную. Например, значение переменной
наблюдение = {солнце, облачность, дождь} можно заменить значениями {0, 1, 2}.

Слайд 11

Другой способ представления исходно категориальной переменной в системе — это замена возможных

значений набором двоичных признаков.
В наборе столько двоичных признаков, сколько имен содержится в списке возможных состояний объекта.
При анализе объекта значение 1 присваивается тому двоичному признаку, который соответствует состоянию объекта. Остальным присваивается значение 0.
Например, для переменной наблюдения такими значениями будут {001, 010, 100}.

Слайд 12

Методы построения правил классификации. Например, метод Naive Bayes
Условная вероятность принадлежности объекта к

cr при равенстве его независимых переменных определенным значениям:

Слайд 13

Методы построения деревьев решений. Например, алгоритм покрытия
Построение деревьев решений для каждого класса

по отдельности.
На каждом шаге алгоритма выбирается значение переменной, которое разделяет все множество на два подмножества.
Разделение должно выполняться так, чтобы все объекты класса, для которого строится дерево, принадлежали одному подмножеству.
Такое разбиение производится до тех пор, пока не будет построено подмножество, содержащее только объекты одного класса.

Слайд 14

Слайд 15

Слайд 16

Методы построения математических функций. Семейство линейных функций
Множественная линейная регрессия: Y = a1*X1

+ a2*X2 + a3*X3 ……. an*Xn + b, где an — это коэффициенты, Xn — переменные и b — смещение.
Весовые коэффициенты an, а также смещение b вычисляются с применением стохастического градиентного спуска.

Слайд 17

Полиномиальная регрессия
В полиномиальной регрессии степень некоторых независимых переменных превышает 1: Y =

a1*X1 + (a2)²*X2 + (a3)⁴*X3 ……. an*Xn + b

Слайд 18

Линейная регрессия:
Легко моделируется, полезна при создании не сложной зависимости, при небольшом количестве

данных.
Обозначения интуитивно-понятны.
Чувствительна к выбросам.
Полиномиальная регрессия:
Моделирует нелинейно разделенные данные и сложные взаимосвязи.
Полный контроль над моделированием переменных объекта (выбор степени).
Необходимо обладать некоторыми знаниями о данных, для выбора наиболее подходящей степени.
При неправильном выборе степени модель может быть перенасыщена.

Слайд 19

Гребневая (ридж) регрессия
В случае высокой коллинеарности переменных стандартная линейная и полиномиальная регрессии

становятся неэффективными.
Регрессия по методу «лассо»
В регрессии лассо добавляется условие смещения в функцию оптимизации для того, чтобы уменьшить коллинеарность и, следовательно, дисперсию модели.
Регрессия «эластичная сеть»
Эластичная сеть — это гибрид методов регрессии лассо и гребневой регрессии.

Слайд 20

Ансамбли моделей
Разработано множество различных методов и алгоритмов формирования ансамблей.
Цель объединения— улучшить

(усилить) решение, которое дает отдельная модель.
Использование ансамблей позволяет повысить качество решений, однако такой подход связан с рядом проблем:
увеличение временных и вычислительных затрат на обучение нескольких моделей;
сложность интерпретации результатов;
неоднозначный выбор методов комбинирования результатов, выдаваемых отдельными моделями.

Слайд 21

Правило 80/20 (Закон Парето) – эмпирическое правило, названное в честь экономиста и

социолога
Вильфредо Парето, в наиболее общем виде формулируется так: «20% усилий дают 80% результата,
а остальные 80% усилий - лишь 20% результата».
Цифры 20 и 80 являются данью заслугам Парето, считать их безусловно точными нельзя.

Слайд 22

ABC и XYZ совместный анализ
Популярные методы классификации ресурсов:
по поставщику, по клиенту,

расположению зон хранения товара,
по прибыльности или оборачиваемости…

Слайд 23

Существует классический способ ранжирования по АВС анализу в части прибыльности где:
А —

80% прибыли
В — 15% прибыли
С — 5% прибыли
Более детальный способ деления - добавляется литера D. Ранжирование, в части прибыли, выглядит так:
А — 50% прибыли
В — 30% прибыли
С — 15% прибыли
D — 5% прибыли
Выбор классического или современного способа определяется важностью степени детализации, величиной ассортимента и так далее.

Слайд 24

АВС анализ в управлении запасами (1)
Эффективное управление запасами позволяет предприятию удовлетворять ожидания

потребителей, создавая товарные запасы, максимизирующие прибыль предприятия.
Ранжирование товара по АВС анализу в части управлении запасами, позволяет:
Расходовать бюджет на закупки более эффективно.
Эффективнее планировать и распределять страховой запас.
Лучше удовлетворять спрос покупателей.

Слайд 25

Анализ оборачиваемости товара (2)
Оборачиваемость запасов - это показатель обновляемости товара в течение

расчетного периода, например, в течение года.
Категория А - наиболее оборачиваемые товары.
Категория В - товары со средней оборачиваемостью.
Категория С - низко оборачиваемые товары.
Оборачиваемость запасов считают двумя способами:
Коэфф. оборачиваемости запасов = Себестоимость продаж/Среднегодовой остаток запасов (1)
Коэфф. оборачиваемость запасов = Выручка /Среднегодовой остаток запасов (2)
Зная коэффициент оборачиваемости в днях, и ранжируя товары по категориям А, В, С по прибыли, менеджер по закупкам планирует закупки.

Слайд 26

Расширенный АВС анализ (3)
АВС анализ можно проводить по частотности заказов.
Частотность заказов

- сколько месяцев в году продается определенный товар.
Например: 1) согласно АВС анализа, товары принадлежащие к категории “В” и “С“, в сумме дают всего 20% от общей прибыли. Но как часто покупают эти товары? 2) Товар дорогой, с высокой рентабельностью и он попадет по прибыли в категорию А, однако, за ним приходят всего пару раз в год. 3) Товар, который не так прибылен, но компания продает его стабильно каждый месяц.
Т.е., имеет смысл дополнительно ранжировать ассортимент по количеству месяцев в году когда товар продавался:
А - это продажи 10-12 месяцев в году.
В – 5-9 месяцев в году.
С- 4 и менее месяцев в году.

Слайд 27

Расширенный АВС анализ (4)
Количество обращений означает, сколько отдельных заказов было сделано по

каждому товару не зависимо от их количества, стоимости и прибыльности.
Сколько раз покупатель пришел в компанию за месяц. Например, по определенному товару было:
А – количество обращений от 100 и выше,
В – 50 – 99 обращений,
С – менее 50 обращений в месяц.
В итоге, получается расширенный АВС анализ:

Слайд 28

Расширенный АВС анализ
«ААА» — супер ТОП
«ССС» — нужны ли затраты на такой

товар?

Слайд 29

Выводы по расширенному АВС анализу:
Товар по прибыльности относится к категории А, но

в расширенном АВС анализе имеет категорию АСС - может не иметь большого веса.
На товар категории ВАА могли не обращать большого внимания, отодвигая на второй план, когда этот товар оказывался в дефиците. Однако, в таком расширенном спектре, этот товар оказывается очень важным.
Пересмотреть все товары категории САА и так далее.

Слайд 30

Топология склада по АВС анализу

Слайд 31

Простые методы определения границ групп ABC-анализа: эмпирический метод, метод сумм
Границы

определяются по значению суммы двух показателей:
доля по объему нарастающим итогом и доля по количеству нарастающим итогом.
Группа A. Нижняя граница (Доля по объему + Доля по количеству) = 100%
Группа B. Нижняя граница (Доля по объему + Доля по количеству) = 145%
Группа C. Все оставшееся.
Рекомендуемые границы 80%-15%-5% по объему и 20%-30%-50% по количеству не являются законом природы.
Самая распространенная эмпирическая рекомендация для групп:
Группа A. 80% по объему, 20% по количеству.
Группа B. 15% по объему, 30% по количеству.
Группа C. 5% по объему, 50% по количеству.
Получаем то же самое:
Группа A. 80% + 20% = 100%
Группа B. 80%+15% +20%+30% = 145%
Группа C. Все оставшееся

Слайд 32

В этом примере с границами по методу сумм:
Группа A — 79% выручки, 23.3%

наименований
Группа B — 15% выручки, 26.7% наименований
Группа C — 6% выручки, 50.3% наименований

Слайд 33

XYZ анализ
XYZ анализ, это метод прогноза и анализа стабильности и колебаний спроса

продаж по товарам или группам товаров.
Например, спрос на мобильные телефоны марки А составляет:
Апрель -1000 штук.
Май — 1100 штук.
Июнь — 920 штук.
Товар продается стабильно, примерно 1000 штук в месяц. Все колебания спроса в рамках 5- 10%. Этот продукт относится к категории X.
Телефон марки B может иметь колебания продаж в рамках 11% – 25% за период. Этот товар отнесем к категории Y.
Продажи телефонов марки С мало предсказуемы. Колебания спроса достигают 100%. Такие товары относятся к категории Z.
Также к группе Z можно отнести сезонные товары.

Слайд 34

XYZ-анализ позволяет классифицировать объекты в зависимости от характера потребления и точности прогнозирования

его изменения.
X – ресурсы со стабильной величиной потребления и высокой точностью прогноза.
Y – ресурсы с известными тенденциями потребления (например, сезонными колебаниями) и средними возможностями прогнозирования.
Z – ресурсы с нерегулярным потреблением, какие-либо тенденции отсутствуют, точность прогнозирования невысокая.

Слайд 35

Формула расчета коэффициента вариации (колебаний) спроса
=СТАНДОТКЛОНП(C2:E2)/СРЗНАЧ(C2:E2)
Магнитола и Утюг относятся к категории Z
Ноутбук и

Батарейки попадают в категорию X

Слайд 36

XYZ анализ по клиентам
Клиенты категории X — стабильные продажи. По таким клиентам

достаточно просто прогнозировать следующие продажи и свои запасы.
Клиенты категории Y — «плавающие» по стабильности продажи.
Клиенты в категории Z — разовые, редкие продажи.
По результатам XYZ анализа менеджеры по продажам могут точнее выстраивать свою клиентскую базу.
Аналитика по данному методу может наглядно показать недочеты в работе с клиентами: где 80% усилий дают всего 20% результата.

Слайд 37

Матрица ABC-XYZ – единый анализ
Результаты ABC и XYZ анализа можно совместить и

получить разделение на 9 групп, которые будут характеризовать ресурсы по обоим критериям.
Таким образом, группа AX будет содержать самые важные ресурсы: наиболее ценные и стабильно потребляемые, а группа CZ – наименее ценные с нерегулярными потреблением.

Модели и задачи Data Mining

Содержание

Классификация и регрессия Постановка задачиВ задачах классификации и регрессии требуется определить значение зависимой

Формально задачу классификации и регрессии можно описать следующим образом. Имеется множество объектов:

В Data Mining часто набор независимых переменных обозначают в виде вектора: X={x1,

Представление результатов Правила классификацииВ задачах классификации и регрессии обнаруженная функциональная зависимость между переменными

1. Классификационные правила состоят из двух частей: условия и заключения: если (условие)

Относительная независимость связана с возможной их противоречивостью друг другу. Если переменные, характеризующие

2. Деревья решений — это способ представления правил в иерархической, последовательной структуре.

3. Математическая функция выражает отношение зависимой переменной от независимых переменных. В этом

Очевидно, что все переменные должны быть представлены в виде числовых параметров. Для

Другой способ представления исходно категориальной переменной в системе — это замена возможных

Методы построения правил классификации. Например, метод Naive BayesУсловная вероятность принадлежности объекта к

Методы построения деревьев решений. Например, алгоритм покрытияПостроение деревьев решений для каждого класса

Методы построения математических функций. Семейство линейных функцийМножественная линейная регрессия: Y = a1*X1

Полиномиальная регрессияВ полиномиальной регрессии степень некоторых независимых переменных превышает 1: Y =

Линейная регрессия:Легко моделируется, полезна при создании не сложной зависимости, при небольшом количестве

Гребневая (ридж) регрессияВ случае высокой коллинеарности переменных стандартная линейная и полиномиальная регрессии

Ансамбли моделейРазработано множество различных методов и алгоритмов формирования ансамблей. Цель объединения— улучшить

Правило 80/20 (Закон Парето) – эмпирическое правило, названное в честь экономиста и

ABC и XYZ совместный анализПопулярные методы классификации ресурсов: по поставщику, по клиенту,

Существует классический способ ранжирования по АВС анализу в части прибыльности где:А —

АВС анализ в управлении запасами (1)Эффективное управление запасами позволяет предприятию удовлетворять ожидания

Анализ оборачиваемости товара (2)Оборачиваемость запасов - это показатель обновляемости товара в течение

Расширенный АВС анализ (3)АВС анализ можно проводить по частотности заказов. Частотность заказов

Расширенный АВС анализ (4)Количество обращений означает, сколько отдельных заказов было сделано по

Расширенный АВС анализ«ААА» — супер ТОП«ССС» — нужны ли затраты на такой

Выводы по расширенному АВС анализу:Товар по прибыльности относится к категории А, но