Модели и задачи Data Mining

Содержание

Слайд 2

Классификация и регрессия Постановка задачи

В задачах классификации и регрессии требуется определить значение зависимой

Классификация и регрессия Постановка задачи В задачах классификации и регрессии требуется определить
переменной объекта на основании значений других переменных, характеризующих данный объект.

Слайд 3

Формально задачу классификации и регрессии можно описать следующим образом.
Имеется множество объектов:

Формально задачу классификации и регрессии можно описать следующим образом. Имеется множество объектов:

I={i1, i2, …ij, …in },
где ij — исследуемый объект.
Каждый объект характеризуется набором переменных:
Ij = { x1, x2,..., xh,..., xm, y},
где xh — независимые переменные, значения которых известны и на основании которых определяется значение зависимой переменной y.

Слайд 4

В Data Mining часто набор независимых переменных обозначают в виде вектора:
X={x1,

В Data Mining часто набор независимых переменных обозначают в виде вектора: X={x1,
x2, …xj, …xn },
Каждая переменная xj может принимать значения из некоторого множества:
Ch={ch1, ch2, …},
Если значениями переменной являются элементы конечного множества, то
говорят, что она имеет категориальный тип.
Например, переменная наблюдение принимает значения на множестве значений {солнце, облачность, дождь}.
Если множество значений C={c1, c2, …cr, …ck } переменной y конечное, то задача называется задачей классификации.
Если переменная y принимает значение на множестве действительных чисел R , то задача называется задачей регрессии.

Слайд 5

Представление результатов Правила классификации

В задачах классификации и регрессии обнаруженная функциональная зависимость между переменными

Представление результатов Правила классификации В задачах классификации и регрессии обнаруженная функциональная зависимость
может быть представлена одним из следующих способов:
классификационные правила;
деревья решений;
математические функции.

Слайд 6

1. Классификационные правила состоят из двух частей: условия и заключения:
если (условие)

1. Классификационные правила состоят из двух частей: условия и заключения: если (условие)
то (заключение).
Условием является проверка одной или нескольких независимых переменных с использованием операций И, ИЛИ, НЕ.
Заключением является значение зависимой переменной или распределение ее вероятности по классам, например:
если (наблюдение = солнце И температура = жарко) то (игра = нет);
если (наблюдение = облачность И температура = холодно) то (игра = да).
Основными достоинствами правил являются легкость их восприятия и запись на естественном языке.
Еще одно преимущество — их относительная независимость.
В набор правил легко добавить новое правило без необходимости изменять уже существующие.

Слайд 7

Относительная независимость связана с возможной их противоречивостью друг другу.
Если переменные, характеризующие

Относительная независимость связана с возможной их противоречивостью друг другу. Если переменные, характеризующие
некоторый объект, удовлетворяют условным частям правил с разными заключениями, то возникает неопределенность со значением его зависимой переменной. Например, пусть имеются правила:
если (наблюдение = солнце) то (игра = нет);
если (наблюдение = облачность И температура = холодно) то (игра = да)
В них объекты, удовлетворяющие условиям второго правила, удовлетворяют и условиям первого правила. Однако вывод делается разный.
Другими словами, в соответствии с этими правилами при одинаковых обстоятельствах будут получены противоречивые указания, что неприемлемо.

Слайд 8

2. Деревья решений — это способ представления правил в иерархической, последовательной структуре.

2. Деревья решений — это способ представления правил в иерархической, последовательной структуре.

Слайд 9

3. Математическая функция выражает отношение зависимой переменной от независимых переменных.
В этом

3. Математическая функция выражает отношение зависимой переменной от независимых переменных. В этом
случае анализируемые объекты рассматриваются как точки в (m + 1)-мерном пространстве.
Тогда переменные объекта ij = { x1, x2,..., xh,..., xm, y},
рассматриваются как координаты, а функция имеет следующий вид:
yj ={ω0 +ωx1 +ωx2 +…. +ωxm}
где ω0, ω1, ωm — веса независимых переменных, в поиске которых и состоит задача нахождения классификационной функции.

Слайд 10

Очевидно, что все переменные должны быть представлены в виде числовых параметров.
Для

Очевидно, что все переменные должны быть представлены в виде числовых параметров. Для
преобразования логических и категориальных переменных
к числовым используют разные способы:
Логические типы, как правило, кодируют цифрами 1 (истина) и 0 (ложь).
Значениями категориальных переменных являются имена возможных состояний изучаемого объекта. Имена должны быть перечислены и пронумерованы в списке.
В итоге категориальная переменная преобразуется в числовую переменную. Например, значение переменной
наблюдение = {солнце, облачность, дождь} можно заменить значениями {0, 1, 2}.

Слайд 11

Другой способ представления исходно категориальной переменной в системе — это замена возможных

Другой способ представления исходно категориальной переменной в системе — это замена возможных
значений набором двоичных признаков.
В наборе столько двоичных признаков, сколько имен содержится в списке возможных состояний объекта.
При анализе объекта значение 1 присваивается тому двоичному признаку, который соответствует состоянию объекта. Остальным присваивается значение 0.
Например, для переменной наблюдения такими значениями будут {001, 010, 100}.

Слайд 12

Методы построения правил классификации. Например, метод Naive Bayes

Условная вероятность принадлежности объекта к

Методы построения правил классификации. Например, метод Naive Bayes Условная вероятность принадлежности объекта
cr при равенстве его независимых переменных определенным значениям:

Слайд 13

Методы построения деревьев решений. Например, алгоритм покрытия

Построение деревьев решений для каждого класса

Методы построения деревьев решений. Например, алгоритм покрытия Построение деревьев решений для каждого
по отдельности.
На каждом шаге алгоритма выбирается значение переменной, которое разделяет все множество на два подмножества.
Разделение должно выполняться так, чтобы все объекты класса, для которого строится дерево, принадлежали одному подмножеству.
Такое разбиение производится до тех пор, пока не будет построено подмножество, содержащее только объекты одного класса.

Слайд 16

Методы построения математических функций. Семейство линейных функций

Множественная линейная регрессия: Y = a1*X1

Методы построения математических функций. Семейство линейных функций Множественная линейная регрессия: Y =
+ a2*X2 + a3*X3 ……. an*Xn + b, где an — это коэффициенты, Xn — переменные и b — смещение.
Весовые коэффициенты an, а также смещение b вычисляются с применением стохастического градиентного спуска.

Слайд 17

Полиномиальная регрессия

В полиномиальной регрессии степень некоторых независимых переменных превышает 1: Y =

Полиномиальная регрессия В полиномиальной регрессии степень некоторых независимых переменных превышает 1: Y
a1*X1 + (a2)²*X2 + (a3)⁴*X3 ……. an*Xn + b

Слайд 18

Линейная регрессия:
Легко моделируется, полезна при создании не сложной зависимости, при небольшом количестве

Линейная регрессия: Легко моделируется, полезна при создании не сложной зависимости, при небольшом
данных.
Обозначения интуитивно-понятны.
Чувствительна к выбросам.
Полиномиальная регрессия:
Моделирует нелинейно разделенные данные и сложные взаимосвязи.
Полный контроль над моделированием переменных объекта (выбор степени).
Необходимо обладать некоторыми знаниями о данных, для выбора наиболее подходящей степени.
При неправильном выборе степени модель может быть перенасыщена.

Слайд 19

Гребневая (ридж) регрессия
В случае высокой коллинеарности переменных стандартная линейная и полиномиальная регрессии

Гребневая (ридж) регрессия В случае высокой коллинеарности переменных стандартная линейная и полиномиальная
становятся неэффективными.
Регрессия по методу «лассо»
В регрессии лассо добавляется условие смещения в функцию оптимизации для того, чтобы уменьшить коллинеарность и, следовательно, дисперсию модели.
Регрессия «эластичная сеть»
Эластичная сеть — это гибрид методов регрессии лассо и гребневой регрессии.

Слайд 20

Ансамбли моделей

Разработано множество различных методов и алгоритмов формирования ансамблей.
Цель объединения— улучшить

Ансамбли моделей Разработано множество различных методов и алгоритмов формирования ансамблей. Цель объединения—
(усилить) решение, которое дает отдельная модель.
Использование ансамблей позволяет повысить качество решений, однако такой подход связан с рядом проблем:
увеличение временных и вычислительных затрат на обучение нескольких моделей;
сложность интерпретации результатов;
неоднозначный выбор методов комбинирования результатов, выдаваемых отдельными моделями.

Слайд 21

Правило 80/20 (Закон Парето) – эмпирическое правило, названное в честь экономиста и

Правило 80/20 (Закон Парето) – эмпирическое правило, названное в честь экономиста и
социолога
Вильфредо Парето, в наиболее общем виде формулируется так: «20% усилий дают 80% результата,
а остальные 80% усилий - лишь 20% результата».
Цифры 20 и 80 являются данью заслугам Парето, считать их безусловно точными нельзя.

Слайд 22

ABC и XYZ совместный анализ

Популярные методы классификации ресурсов:
по поставщику, по клиенту,

ABC и XYZ совместный анализ Популярные методы классификации ресурсов: по поставщику, по
расположению зон хранения товара,
по прибыльности или оборачиваемости…

B

A

Слайд 23

Существует классический способ ранжирования по АВС анализу в части прибыльности где:
А —

Существует классический способ ранжирования по АВС анализу в части прибыльности где: А
80% прибыли
В — 15% прибыли
С — 5% прибыли
Более детальный способ деления - добавляется литера D. Ранжирование, в части прибыли, выглядит так:
А — 50% прибыли
В — 30% прибыли
С — 15% прибыли
D — 5% прибыли
Выбор классического или современного способа определяется важностью степени детализации, величиной ассортимента и так далее.

Слайд 24

АВС анализ в управлении запасами (1)

Эффективное управление запасами позволяет предприятию удовлетворять ожидания

АВС анализ в управлении запасами (1) Эффективное управление запасами позволяет предприятию удовлетворять
потребителей, создавая товарные запасы, максимизирующие прибыль предприятия.
Ранжирование товара по АВС анализу в части управлении запасами, позволяет:
Расходовать бюджет на закупки более эффективно.
Эффективнее планировать и распределять страховой запас.
Лучше удовлетворять спрос покупателей.

Слайд 25

Анализ оборачиваемости товара (2)

Оборачиваемость запасов - это показатель обновляемости товара в течение

Анализ оборачиваемости товара (2) Оборачиваемость запасов - это показатель обновляемости товара в
расчетного периода, например, в течение года.
Категория А - наиболее оборачиваемые товары.
Категория В - товары со средней оборачиваемостью.
Категория С - низко оборачиваемые товары.
Оборачиваемость запасов считают двумя способами:
Коэфф. оборачиваемости запасов = Себестоимость продаж/Среднегодовой остаток запасов (1)
Коэфф. оборачиваемость запасов = Выручка /Среднегодовой остаток запасов (2)
Зная коэффициент оборачиваемости в днях, и ранжируя товары по категориям А, В, С по прибыли, менеджер по закупкам планирует закупки.

Слайд 26

Расширенный АВС анализ (3)

АВС анализ можно проводить по частотности заказов.
Частотность заказов

Расширенный АВС анализ (3) АВС анализ можно проводить по частотности заказов. Частотность
- сколько месяцев в году продается определенный товар.
Например: 1) согласно АВС анализа, товары принадлежащие к категории “В” и “С“, в сумме дают всего 20% от общей прибыли. Но как часто покупают эти товары? 2) Товар дорогой, с высокой рентабельностью и он попадет по прибыли в категорию А, однако, за ним приходят всего пару раз в год. 3) Товар, который не так прибылен, но компания продает его стабильно каждый месяц.
Т.е., имеет смысл дополнительно ранжировать ассортимент по количеству месяцев в году когда товар продавался:
А - это продажи 10-12 месяцев в году.
В – 5-9 месяцев в году.
С- 4 и менее месяцев в году.

Слайд 27

Расширенный АВС анализ (4)

Количество обращений означает, сколько отдельных заказов было сделано по

Расширенный АВС анализ (4) Количество обращений означает, сколько отдельных заказов было сделано
каждому товару не зависимо от их количества, стоимости и прибыльности.
Сколько раз покупатель пришел в компанию за месяц. Например, по определенному товару было:
А – количество обращений от 100 и выше,
В – 50 – 99 обращений,
С – менее 50 обращений в месяц.
В итоге, получается расширенный АВС анализ:

Слайд 28

Расширенный АВС анализ

«ААА» — супер ТОП

«ССС» — нужны ли затраты на такой

Расширенный АВС анализ «ААА» — супер ТОП «ССС» — нужны ли затраты на такой товар?
товар?

Слайд 29

Выводы по расширенному АВС анализу:

Товар по прибыльности относится к категории А, но

Выводы по расширенному АВС анализу: Товар по прибыльности относится к категории А,
в расширенном АВС анализе имеет категорию АСС - может не иметь большого веса.
На товар категории ВАА могли не обращать большого внимания, отодвигая на второй план, когда этот товар оказывался в дефиците. Однако, в таком расширенном спектре, этот товар оказывается очень важным.
Пересмотреть все товары категории САА и так далее.

Слайд 30

Топология склада по АВС анализу

Топология склада по АВС анализу

Слайд 31

Простые методы определения границ групп ABC-анализа: эмпирический метод, метод сумм

Границы

Простые методы определения границ групп ABC-анализа: эмпирический метод, метод сумм Границы определяются
определяются по значению суммы двух показателей:
доля по объему нарастающим итогом и доля по количеству нарастающим итогом.
Группа A. Нижняя граница (Доля по объему + Доля по количеству) = 100%
Группа B. Нижняя граница (Доля по объему + Доля по количеству) = 145%
Группа C. Все оставшееся.
Рекомендуемые границы 80%-15%-5% по объему и 20%-30%-50% по количеству не являются законом природы.
Самая распространенная эмпирическая рекомендация для групп:
Группа A. 80% по объему, 20% по количеству.
Группа B. 15% по объему, 30% по количеству.
Группа C. 5% по объему, 50% по количеству.
Получаем то же самое:
Группа A. 80% + 20% = 100%
Группа B. 80%+15% +20%+30% = 145%
Группа C. Все оставшееся

Слайд 32

В этом примере с границами по методу сумм:
Группа A — 79% выручки, 23.3%

В этом примере с границами по методу сумм: Группа A — 79%
наименований
Группа B — 15% выручки, 26.7% наименований
Группа C — 6% выручки, 50.3% наименований

Слайд 33

XYZ анализ

XYZ анализ, это метод прогноза и анализа стабильности и колебаний спроса

XYZ анализ XYZ анализ, это метод прогноза и анализа стабильности и колебаний
продаж по товарам или группам товаров.
Например, спрос на мобильные телефоны марки А составляет:
Апрель -1000 штук.
Май — 1100 штук.
Июнь — 920 штук.
Товар продается стабильно, примерно 1000 штук в месяц. Все колебания спроса в рамках 5- 10%. Этот продукт относится к категории X.
Телефон марки B может иметь колебания продаж в рамках 11% – 25% за период. Этот товар отнесем к категории Y.
Продажи телефонов марки С мало предсказуемы. Колебания спроса достигают 100%. Такие товары относятся к категории Z.
Также к группе Z можно отнести сезонные товары.

Слайд 34

XYZ-анализ позволяет классифицировать объекты в зависимости от характера потребления и точности прогнозирования

XYZ-анализ позволяет классифицировать объекты в зависимости от характера потребления и точности прогнозирования
его изменения.
X – ресурсы со стабильной величиной потребления и высокой точностью прогноза.
Y – ресурсы с известными тенденциями потребления (например, сезонными колебаниями) и средними возможностями прогнозирования.
Z – ресурсы с нерегулярным потреблением, какие-либо тенденции отсутствуют, точность прогнозирования невысокая.

Слайд 35

Формула расчета коэффициента вариации (колебаний) спроса

=СТАНДОТКЛОНП(C2:E2)/СРЗНАЧ(C2:E2)

Магнитола и Утюг относятся к категории Z

Ноутбук и

Формула расчета коэффициента вариации (колебаний) спроса =СТАНДОТКЛОНП(C2:E2)/СРЗНАЧ(C2:E2) Магнитола и Утюг относятся к
Батарейки попадают в категорию X

Слайд 36

XYZ анализ по клиентам
Клиенты категории X — стабильные продажи. По таким клиентам

XYZ анализ по клиентам Клиенты категории X — стабильные продажи. По таким
достаточно просто прогнозировать следующие продажи и свои запасы.
Клиенты категории Y — «плавающие» по стабильности продажи.
Клиенты в категории Z — разовые, редкие продажи.
По результатам XYZ анализа менеджеры по продажам могут точнее выстраивать свою клиентскую базу.
Аналитика по данному методу может наглядно показать недочеты в работе с клиентами: где 80% усилий дают всего 20% результата.

Слайд 37

Матрица ABC-XYZ – единый анализ

Результаты ABC и XYZ анализа можно совместить и

Матрица ABC-XYZ – единый анализ Результаты ABC и XYZ анализа можно совместить
получить разделение на 9 групп, которые будут характеризовать ресурсы по обоим критериям.
Таким образом, группа AX будет содержать самые важные ресурсы: наиболее ценные и стабильно потребляемые, а группа CZ – наименее ценные с нерегулярными потреблением.