Анализ данных. Описательные статистики

Содержание

Слайд 2

Анализ данных. Описательная статистика

Задача описательных статистик — первичная систематизация данных, полученных экспериментально

Анализ данных. Описательная статистика Задача описательных статистик — первичная систематизация данных, полученных
или в ходе наблюдений и их наглядное представление. В бизнесе статистика используются повсеместно, от расчета зарплат сотрудникам до анализа популярности бренда на рынке.
Рассмотрим основные описательные статистики и их практическое применение.

Кафедра информационно-аналитических систем

Слайд 3

Анализ данных. Описательная статистика

Центральная тенденция

Кафедра информационно-аналитических систем

Измерение центральной тенденции (measure of central
tendency)

Анализ данных. Описательная статистика Центральная тенденция Кафедра информационно-аналитических систем Измерение центральной тенденции
состоит в выборе одного числа, которое наилучшим
образом описывает все значения признака из набора данных.
Такое число называют центром, типическим значением для
набора данных, мерой центральной тенденции.

Слайд 4

Анализ данных. Описательная статистика

Плюсы и минусы центральной тенденции

Кафедра информационно-аналитических систем

Плюсы:
Получение информацию

Анализ данных. Описательная статистика Плюсы и минусы центральной тенденции Кафедра информационно-аналитических систем
о распределении признака в сжатой
форме.
Можно сравнивать между собой два набора данных (две
выборки).
Минус:
Выбор центра ведет к потере информации по сравнению
с распределением частот.

Слайд 5

Центральная тенденция
Мода
Медиана
Среднее значение
Средневзвешенное значение


Анализ данных. Описательная статистика

Кафедра информационно-аналитических систем

Центральная тенденция Мода Медиана Среднее значение Средневзвешенное значение Анализ данных. Описательная статистика Кафедра информационно-аналитических систем

Слайд 6

Анализ данных. Описательная статистика

Мода

Кафедра информационно-аналитических систем

Мода – наиболее часто встречающееся значение в

Анализ данных. Описательная статистика Мода Кафедра информационно-аналитических систем Мода – наиболее часто
выборке, наборе данных. Обозначается Мо.

Слайд 7

Пример (вычисление моды)

Анализ данных. Описательная статистика

Кафедра информационно-аналитических систем

Пример (вычисление моды) Анализ данных. Описательная статистика Кафедра информационно-аналитических систем

Слайд 8

Анализ данных. Описательная статистика

Кафедра информационно-аналитических систем

Пример (вычисление моды для таксиста и светофоров)

Анализ данных. Описательная статистика Кафедра информационно-аналитических систем Пример (вычисление моды для таксиста и светофоров)

Слайд 9

Пример (вычисление моды при подсчете)

Анализ данных. Описательная статистика

Кафедра информационно-аналитических систем

Пример (вычисление моды при подсчете) Анализ данных. Описательная статистика Кафедра информационно-аналитических систем

Слайд 10

Бимодальное распределение

Если наибольшую частоту имеют два значения выборки,
выборочное распределение называется бимодальным.

Анализ

Бимодальное распределение Если наибольшую частоту имеют два значения выборки, выборочное распределение называется
данных. Описательная статистика

Кафедра информационно-аналитических систем

Слайд 11

Пример (бимодальное распределение)


Анализ данных. Описательная статистика

Кафедра информационно-аналитических систем

Пример (бимодальное распределение) Анализ данных. Описательная статистика Кафедра информационно-аналитических систем

Слайд 12

Пример (бимодальное распределение на гистограмме)

Анализ данных. Описательная статистика

Кафедра информационно-аналитических систем

Два значения

Пример (бимодальное распределение на гистограмме) Анализ данных. Описательная статистика Кафедра информационно-аналитических систем
имеют наибольшую частоту, равную 23.

Слайд 13

А если моды вообще нет или больше двух?

Анализ данных. Описательная статистика

Кафедра информационно-аналитических

А если моды вообще нет или больше двух? Анализ данных. Описательная статистика
систем

Если наибольшую частоту имеет более двух значений выборки, выборочное распределение называется мультимодальным. Если ни одно из значений не повторяется, мода отсутствует.

Слайд 14

Свойства моды

Анализ данных. Описательная статистика

Кафедра информационно-аналитических систем

Наличие одного или двух крайних значений,

Свойства моды Анализ данных. Описательная статистика Кафедра информационно-аналитических систем Наличие одного или
сильно отличающихся от остальных, не влияет на значение моды.
Мода совпадает с точкой наибольшей плотности данных.
Мода может иметь несколько значений.
Мода может существовать для всех типов данных.
Мода - единственная мера центральной тенденции, которая работает в номинальной шкале!

Слайд 15

Медиана


Анализ данных. Описательная статистика

Кафедра информационно-аналитических систем

Еще одна характеристика центральной тенденции

Медиана Анализ данных. Описательная статистика Кафедра информационно-аналитических систем Еще одна характеристика центральной
- медиана. Медиана основывается на понятии вариационного ряда.

Слайд 16

Анализ данных. Описательная статистика

Вариационный ряд

Кафедра информационно-аналитических систем

Вариационный ряд – это упорядоченные

Анализ данных. Описательная статистика Вариационный ряд Кафедра информационно-аналитических систем Вариационный ряд –
данные, расположенные в порядке возрастания значения признака, либо в порядке убывания.
Назван так, поскольку содержит варианты значений признака.

Слайд 17

Анализ данных. Описательная статистика

Пример (вариационный ряд)

Кафедра информационно-аналитических систем


Набор данных:
6 1

Анализ данных. Описательная статистика Пример (вариационный ряд) Кафедра информационно-аналитических систем Набор данных:
3 7 1 7 3
После упорядочения (в порядке возрастания) получим вариационный ряд:
1 1 3 3 6 7 7
В порядке убывания получим другой вариационный ряд:
7 7 6 3 3 1 1

Слайд 18

Медиана (Median)

Анализ данных. Описательная статистика

Кафедра информационно-аналитических систем

Медиана есть значение серединного элемента для

Медиана (Median) Анализ данных. Описательная статистика Кафедра информационно-аналитических систем Медиана есть значение
вариационного ряда.
Обозначается Me.
Для нахождения медианы требуется набор данных превратить в вариационный ряд, то есть расположить все значения признака в порядке возрастания или убывания, а затем найти средний элемент. Он и есть медиана.

Слайд 19

Вычисление медианы

Анализ данных. Описательная статистика

Кафедра информационно-аналитических систем

Для набора из n значений, если

Вычисление медианы Анализ данных. Описательная статистика Кафедра информационно-аналитических систем Для набора из
n нечетно, средний элемент имеет номер (N + 1)/ 2.

Если n четно, медиана находится как среднее арифметическое
двух соседних серединных элементов с номерами N/2 и N/2 +1.

Слайд 20

Пример (вычисление медианы)

Анализ данных. Описательная статистика

Кафедра информационно-аналитических систем

Пример (вычисление медианы) Анализ данных. Описательная статистика Кафедра информационно-аналитических систем

Слайд 21

Пример (вычисление медианы)

Анализ данных. Описательная статистика

Кафедра информационно-аналитических систем

Пример (вычисление медианы) Анализ данных. Описательная статистика Кафедра информационно-аналитических систем

Слайд 22

Свойства медианы

Сильно отличающиеся от остальных данных крайние значения не влияют на величину

Свойства медианы Сильно отличающиеся от остальных данных крайние значения не влияют на
медианы.
Значение медианы является единственным для каждого набора данных.
Медиана может быть определена не из полного набора данных. Достаточно иметь информацию об упорядоченности, общее число элементов в наборе и несколько значений, расположенных в середине вариационного ряда.
Медиана может быть определена для числовых и порядковых данных.

Анализ данных. Описательная статистика

Кафедра информационно-аналитических систем

Слайд 23

Среднее (Mean)

Анализ данных. Описательная статистика

Кафедра информационно-аналитических систем

Выборочным средним будем называть среднее арифметическое

Среднее (Mean) Анализ данных. Описательная статистика Кафедра информационно-аналитических систем Выборочным средним будем
выборки, то есть сумму всех значений выборки, деленную на ее объем выборки.

Слайд 24

Пример (вычисление среднего)

Анализ данных. Описательная статистика

Кафедра информационно-аналитических систем

Вычислим среднее для выборки из

Пример (вычисление среднего) Анализ данных. Описательная статистика Кафедра информационно-аналитических систем Вычислим среднее
семи значений: 1 1 3 3 6 7 7

Слайд 25

Свойства среднего

Вычисляется только в числовых шкалах.
При вычислении необходимо использовать все данные.
Для каждого

Свойства среднего Вычисляется только в числовых шкалах. При вычислении необходимо использовать все
набора данных имеется только одно среднее.
Среднее есть единственная мера центральной тенденции, для которого сумма отклонений каждого значения от среднего равна нулю:

Анализ данных. Описательная статистика

Кафедра информационно-аналитических систем

Слайд 26

Взвешенное среднее

Анализ данных. Описательная статистика

Кафедра информационно-аналитических си.стем

Взвешенное среднее Анализ данных. Описательная статистика Кафедра информационно-аналитических си.стем

Слайд 27

Среднее взвешенное

Среднее взвешенное вычисляется по формуле:

Анализ данных. Описательная статистика

Кафедра информационно-аналитических си.стем

Среднее взвешенное Среднее взвешенное вычисляется по формуле: Анализ данных. Описательная статистика Кафедра информационно-аналитических си.стем

Слайд 28

Пример (вычисление среднего взвешенного)

Анализ данных. Описательная статистика

Кафедра информационно-аналитических си.стем

Пример (вычисление среднего взвешенного) Анализ данных. Описательная статистика Кафедра информационно-аналитических си.стем

Слайд 29

Анализ данных. Описательная статистика

Кафедра информационно-аналитических систем

Пример: где особенно уместно использовать средневзвешенное значение

Анализ данных. Описательная статистика Кафедра информационно-аналитических систем Пример: где особенно уместно использовать средневзвешенное значение

Слайд 30

Среднее для дихотомической шкалы

Анализ данных. Описательная статистика

Кафедра информационно-аналитических си.стем

Среднее может также применяться

Среднее для дихотомической шкалы Анализ данных. Описательная статистика Кафедра информационно-аналитических си.стем Среднее
и для переменной, измеренной в дихотомической шкале. Если два значения признака кодируются 0 и 1, то среднее указывает долю (относительную частоту) единиц в выборке.
Пример: 1, 0, 0, 0, 1, 1, 1, 1, 1, 0
Среднее равно 0,6. То есть 60% значений выборки принимают значение, равное единице.

Слайд 31

Среднее – не значит лучшее

Пример. В деревне 50 жителей. Среди них 49

Среднее – не значит лучшее Пример. В деревне 50 жителей. Среди них
человек –
крестьяне с месячным доходом в 1 тыс.рублей, а один житель – зажиточный владелец строительной фирмы, с месячным доходом 451 тыс.рублей. Среднее равно 10 тыс. рублей. Однако, вряд ли можно утверждать, что это число адекватно представляет доход жителей деревни. В этом случае, более разумно взять в качестве меры центральной тенденции моду или медиану (обе равны 1 тыс. рублей).

Анализ данных. Описательная статистика

Кафедра информационно-аналитических си.стем

Слайд 32

Какое типическое значение наилучшее?

В зависимости от данных каждое из трех значений может

Какое типическое значение наилучшее? В зависимости от данных каждое из трех значений
стать наилучшим! Абсолютных рекомендаций нет.

Анализ данных. Описательная статистика

Кафедра информационно-аналитических си.стем

Слайд 33

Меры и шкалы

Анализ данных. Описательная статистика

Кафедра информационно-аналитических си.стем

Шкала, по которой измеряется переменная,

Меры и шкалы Анализ данных. Описательная статистика Кафедра информационно-аналитических си.стем Шкала, по
накладывает ограничения на выбор меры центральной тенденции.

Слайд 34

Анализ данных. Описательная статистика

Мера центральной тенденции – всего лишь одно число, которое

Анализ данных. Описательная статистика Мера центральной тенденции – всего лишь одно число,
не всегда достаточно емко может описать данные. Именно поэтому были придумано понятие размаха и квартильного размаха, как логическое продолжение мер центральной тенденции.

Кафедра информационно-аналитических систем

Слайд 35

Пример (три выборки)

Рассмотрим три выборки:
999 1000 1001
900 1000 1100
1 1000 1999
Во всех

Пример (три выборки) Рассмотрим три выборки: 999 1000 1001 900 1000 1100
трёх случаях среднее равно 1000. Однако это значение никаким образом не отражает особенности этих выборок.

Анализ данных. Описательная статистика

Кафедра информационно-аналитических си.стем

Слайд 36

Размах (Range)
Размах – разность между наибольшим значением набора данных и наименьшим.

Анализ данных.

Размах (Range) Размах – разность между наибольшим значением набора данных и наименьшим.
Описательная статистика

Кафедра информационно-аналитических си.стем

Пример: Для набора данных 27, 3, 26, 19, 12, 10, 8, 6
размах равен R = 27 – 3 = 24.
Размах – уже неплохо, чтобы расширить наше представление о выборке но можно пойти и дальше.

Слайд 37

Квартили (Quartile)

Под квартилями понимаются значения Q1,Q2,Q3 которые делят вариационный ряд на четыре

Квартили (Quartile) Под квартилями понимаются значения Q1,Q2,Q3 которые делят вариационный ряд на
равные части.
Второй квартиль Q2 совпадает с медианой.
Q1 - это медиана для значений, которые левее Q2.
Q3 - это медиана для значений, которые правее Q2.

Анализ данных. Описательная статистика

Кафедра информационно-аналитических си.стем

Слайд 38

Анализ данных. Описательная статистика

Проблемы с границами при определении квартилей
Есть разные способы определения

Анализ данных. Описательная статистика Проблемы с границами при определении квартилей Есть разные
Q1 и Q3. В некоторых сама медиана (Q2), полученная на предыдущем шаге учитывается при определении Q1, Q3, в других – нет (в литературе описывают по крайней мере 9 вариантов). Рассмотрим, как это делает EXCEL и ORACLE.

Кафедра информационно-аналитических систем

Слайд 39

Анализ данных. Описательная статистика

Нечетное количество чисел

Четное количество чисел

Кафедра информационно-аналитических систем

Применение функции КВАРТИЛЬ

Анализ данных. Описательная статистика Нечетное количество чисел Четное количество чисел Кафедра информационно-аналитических
в EXCEL

Слайд 40

Анализ данных. Описательная статистика

Нечетное количество чисел

Четное количество чисел

Кафедра информационно-аналитических систем

Вычисление квартилей в

Анализ данных. Описательная статистика Нечетное количество чисел Четное количество чисел Кафедра информационно-аналитических
ORACLE

Слайд 41

Размах квартилей (Inter Quartile Range)

Размах квартилей - это разница между третьим и

Размах квартилей (Inter Quartile Range) Размах квартилей - это разница между третьим
первым квартилем и вычисляется по формуле:

Анализ данных. Описательная статистика

Кафедра информационно-аналитических си.стем

Слайд 42

Сравнение размаха и квартильного размаха

При вычислении размаха используются только наибольшее и наименьшее

Сравнение размаха и квартильного размаха При вычислении размаха используются только наибольшее и
значения признака. Распределение данных между ними полностью игнорируется.
Размах – очень простая мера вариации, но очень «грубая».
При вычислении квартильного размаха игнорируются только крайние значения, расположенные за пределами первого и третьего квартилей.

Анализ данных. Описательная статистика

Кафедра информационно-аналитических си.стем

Слайд 43

Коробковая диаграмма (Box plot)

Анализ данных. Описательная статистика

Кафедра информационно-аналитических си.стем

Диаграмма, основанная на пяти

Коробковая диаграмма (Box plot) Анализ данных. Описательная статистика Кафедра информационно-аналитических си.стем Диаграмма,
важных числах. Удобна для анализа данных и широко используется для представления основных характеристик выборки.

Слайд 44

Еще один способ для определения выбросов

Умеренные выбросы удалены ниже первой квартили или

Еще один способ для определения выбросов Умеренные выбросы удалены ниже первой квартили
выше третьей от 1,5 IQR, но не более 3 IQR.
Экстремальные выбросы удалены ниже первой квартили или выше третьей более 3 IQR.

Анализ данных. Описательная статистика

Кафедра информационно-аналитических си.стем

Слайд 45

Пример (актеры и актрисы)

Имеются данные о возрасте актеров и актрис, в котором

Пример (актеры и актрисы) Имеются данные о возрасте актеров и актрис, в
они были удостоены Оскара. Актеры:

Анализ данных. Описательная статистика

Кафедра информационно-аналитических си.стем

Актрисы:

Слайд 46

Пример (Box plot с расширением)

Анализ данных. Описательная статистика

Кафедра информационно-аналитических си.стем

Несколько значений оказалось

Пример (Box plot с расширением) Анализ данных. Описательная статистика Кафедра информационно-аналитических си.стем
выбросами. Например, актер 76 лет - умеренный выброс.
Поскольку для актрис размах квартилей меньше, 80 и 74 года составили экстремальный выброс.
60 и 61 – умеренные выбросы.
Для оставшихся значений заново пересчитали статистики.

Слайд 47

Анализ данных. Описательная статистика

На сайте Москвы найдите открытые данные о том, как

Анализ данных. Описательная статистика На сайте Москвы найдите открытые данные о том,
называли младенцев в 2015 – 2018 годах. На основании этих данных постройте три Box Plot диаграммы для своего имени и своих родителей (или братьев – сестер). Определите, были ли выбросы (умеренные или экстремальные за этот период).
Примечание: Срок сдачи: 2 недели с момента выдачи. Задание отправлять по адреcу: N.Grafeeva@spbu.ru.
Topic: DataMining_2018_job4

Кафедра информационно-аналитических систем

Задание 4

Имя файла: Анализ-данных.-Описательные-статистики.pptx
Количество просмотров: 28
Количество скачиваний: 0