Описательная статистика

Содержание

Слайд 2

Математическая статистика

Математическая статистика - область науки, изучающая случайные явления, разрабатывающая  математические методы

Математическая статистика Математическая статистика - область науки, изучающая случайные явления, разрабатывающая математические
систематизации, обработки и использования статистических данных для научных и практических выводов.
Составными частями математической статистики являются:
(1) описание данных,
(2) статистическое оценивание
(3) проверка статистических гипотез.

Слайд 3

Переменные

Данные (data) представляют собой результаты наблюдений, испытаний, накапливаемые с целью последующего

Переменные Данные (data) представляют собой результаты наблюдений, испытаний, накапливаемые с целью последующего
изучения и анализа.
Переменная, признак (variable) - это некоторая общая для всех изучаемых объектов характеристика или свойство, конкретные проявления которого могут меняться от объекта к объекту.
Проявления признака называют значениями, показателями, альтернативами, градациями.
Распределение переменной (distribution of the variable) - совокупность различных значений, которые переменная принимает для различных изучаемых объектов.

Слайд 4

Определения

Генеральная совокупность (population) - вся интересующая исследователя совокупность изучаемых объектов.
Выборка,

Определения Генеральная совокупность (population) - вся интересующая исследователя совокупность изучаемых объектов. Выборка,
выборочная совокупность (sample) - некоторая, обычно небольшая, часть генеральной совокупности, отбираемая специальным образом и исследуемая с целью получения выводов о свойствах генеральной совокупности.

Параметры (parameters) - числовые характеристики генеральной совокупности.
Статистики (statistics) - числовые характеристики выборки.

Гипотеза (hypothesis) - предположение относительно параметров генеральной совокупности, которое подлежит проверке на основе анализа выборки.

Слайд 5

Измерение явлений

Измерение (measurement) означает присвоение чисел характеристикам изучаемых объектов, явлений согласно некоторому

Измерение явлений Измерение (measurement) означает присвоение чисел характеристикам изучаемых объектов, явлений согласно
правилу.
Шкала (scale) есть правило или алгоритм, в соответствии с которым изучаемым объектам, явлениям присваиваются числа.

Слайд 6

Типы данных

Дискретные данные (discrete data) представляют собой отдельные значения признака, общее число

Типы данных Дискретные данные (discrete data) представляют собой отдельные значения признака, общее
которых конечно либо если бесконечно, то является счетным, т.е. может быть подсчитано натуральными числами от одного до бесконечности.
Непрерывные данные (continuous data) могут принимать любое значение в некотором интервале.

Слайд 7

Измерительные шкалы (С. Стивенс)

номинативная, или номинальная, или шкала наименований (в том числе

Измерительные шкалы (С. Стивенс) номинативная, или номинальная, или шкала наименований (в том
дихотомическая)
порядковая, или ранговая, или ординальная шкала
интервальная, или шкала равных интервалов
шкала равных отношений или реляционная шкала

Слайд 9

3.1. Измерение центральной тенденции

Мода
Медиана
Среднее

3.1. Измерение центральной тенденции Мода Медиана Среднее

Слайд 10

Постановка задачи

Измерение центральной тенденции (measure of central tendency) состоит в выборе одного

Постановка задачи Измерение центральной тенденции (measure of central tendency) состоит в выборе
числа, которое наилучшим образом описывает все значения признака из набора данных. Такое число называют центром, типическим значением для набора данных, мерой центральной тенденции.
Зачем?
Получим информацию о распределении признака в сжатой форме.
Сможем сравнить между собой два набора данных (две выборки).
Минус: ведет к потере информации по сравнению с распределением частот.

Слайд 11

Мода

Мода – наиболее часто встречающееся значение в выборке, наборе данных. Обозначается Мо.
Выборка:

Мода Мода – наиболее часто встречающееся значение в выборке, наборе данных. Обозначается
5,4 1,2 0,42 1,2 0,48 Мода = 1,2
Для данных, расположенных в таблице частот, мода определяется как значение, имеющее наибольшую частоту.
Если наибольшую частоту имеет два соседних значения выборки, то мода определяется как среднее арифметическое этих значений.
Выборка: 5,4 1,2 0,48 1,2 0,48 Мода = (0,48+1,2)/2 = 0,84

Слайд 12

Одна ли мода?

Если наибольшую частоту имеет два несоседних значения выборки, выборочное распределение

Одна ли мода? Если наибольшую частоту имеет два несоседних значения выборки, выборочное
называется бимодальным.
Если наибольшую частоту имеет более двух значений выборки, выборочное распределение называется мультимодальным.
Если ни одно из значений не повторяется, мода отсутствует.

Слайд 13

Свойства моды

1. Наличие одного или двух крайних значений, сильно отличающихся от остальных,

Свойства моды 1. Наличие одного или двух крайних значений, сильно отличающихся от
не влияет на значение моды.
2. Мода совпадает с точкой наибольшей плотности данных.
3. Мода может иметь несколько значений.
4. Мода может существовать для всех типов данных. Единственная мера, которая работает в номинальной шкале!

Слайд 14

Вариационный ряд

Вариационный ряд - упорядоченные данные, расположенные в порядке возрастания значения признака,

Вариационный ряд Вариационный ряд - упорядоченные данные, расположенные в порядке возрастания значения
либо в порядке убывания.
Пример. Набор данных:
6 1 3 7 1 7 3
После упорядочения получим вариационный ряд:
1 1 3 3 6 7 7
В порядке убывания получим другой вариационный ряд:
7 7 6 3 3 1 1

Слайд 15

Ранжирование

Ранжирование означает присвоение числам рангов. Ранжирование данных производится после упорядочения. Ранги присваиваются

Ранжирование Ранжирование означает присвоение числам рангов. Ранжирование данных производится после упорядочения. Ранги
от 1 до последнего номера в наборе данных. Если несколько соседних элементов равны, им присваивается одинаковый ранг, равный среднему арифметическому.
Пример. Имеем упорядоченный набор данных из 9 чисел:
1 1 3 3 6 7 7 7 14
Нумеруем от 1 до 9:
1 2 3 4 5 6 7 8 9
А теперь находим ранги:
1,5 1,5 3,5 3,5 5 7 7 7 9
Например, значение 6 имеет ранг 5.

Слайд 16

Медиана

Медиана есть значение серединного элемента для набора данных. Обозначается Me. Для нахождения

Медиана Медиана есть значение серединного элемента для набора данных. Обозначается Me. Для
медианы требуется составить вариационный ряд, то есть расположить все значения признака в порядке возрастания или убывания. Медиана расположена в середине вариационного ряда.
Для набора из n значений, если n нечетно, средний элемент имеет номер:
Если n четно, медиана находится как среднее арифметическое двух соседних серединных элементов:

1

1

n

n

Слайд 17

Пример вычисления медианы

Для набора данных из семи чисел:
6 1 3 7 1

Пример вычисления медианы Для набора данных из семи чисел: 6 1 3
7 3
После упорядочения получим вариационный ряд:
1 1 3 3 6 7 7
Медиана есть средний элемент. Его номер четвертый.
Если набор данных включает восемь чисел:
1 1 3 3 6 7 7 9
Тогда медиана равна (3+6)/2=4,5

Слайд 18

Свойства медианы

1. Сильно отличающиеся от остальных данных крайние значения не влияют на

Свойства медианы 1. Сильно отличающиеся от остальных данных крайние значения не влияют
величину медианы.
2. Значение медианы является единственным для каждого набора данных.
3. Медиана может быть определена не из полного набора данных. Достаточно знать их расположение, общее число и несколько значений, расположенных в середине вариационного ряда.
4. Медиана может быть определена для числовых данных и данных, измеряемых порядковой шкалой. Для порядковой шкалы в случае четного количества элементов оба серединных значения объявляются медианой.

Слайд 19

Среднее значение

Выборочное среднее будем называть среднее арифметическое выборки, то есть сумму всех

Среднее значение Выборочное среднее будем называть среднее арифметическое выборки, то есть сумму
значений выборки, деленную на ее объем.
Формула:
где = сумма всех значений выборки
n = объем выборки
Индекс суммирования в статистической литературе часто опускается.

Слайд 20

Пример вычисления среднего

Среднее значение является «точкой равновесия».

Вычислим среднее для выборки из семи

Пример вычисления среднего Среднее значение является «точкой равновесия». Вычислим среднее для выборки
значений:
1 1 3 3 6 7 7
Получим:

0 1 2 3 4 5 6 7 8

Слайд 21

Свойства среднего

1. Вычисляется только в числовых шкалах.
2. При ее вычислении необходимо использовать

Свойства среднего 1. Вычисляется только в числовых шкалах. 2. При ее вычислении
все данные.
3. Имеется для каждого набора данных только одно значение средней.
4. Средняя есть единственная мера центральной тенденции, для которой сумма отклонений каждого значения от нее равна нулю:

Слайд 22

Среднее для сгруппированных данных

Среднее для сгруппированных данных вычисляется по формуле:
где = сумма

Среднее для сгруппированных данных Среднее для сгруппированных данных вычисляется по формуле: где
всех значений выборки
= сумма частот, равна объему выборки
Если данные сгруппированы по интервалам, в качестве значения выбирается середина интервала.

Слайд 23

Пример вычисления среднего

Имеются результаты экзамена. Найти среднее значение.
xi fi xi·fi
0 1 0
1 2 2
2 6 12
3 12 36
4 3 12
5 1 5
25 67

Пример вычисления среднего Имеются результаты экзамена. Найти среднее значение. xi fi xi·fi

Слайд 24

Среднее - еще не значит «лучшее»

Пример. В деревне 50 жителей. Среди них

Среднее - еще не значит «лучшее» Пример. В деревне 50 жителей. Среди
49 человек – крестьяне с месячным доходом в 1 тыс.рублей, а один житель – зажиточный владелец строительной фирмы, с месячным доходом 451 тыс.рублей.
Среднее равно 10 тыс. рублей.
Однако, вряд ли можно утверждать, что это число адекватно представляет доход жителей деревни.
В этом случае, более разумно взять в качестве меры центральной тенденции моду или медиану (обе равны 1 тыс. рублей).

Слайд 25

Три меры и тип шкалы

Три меры меры центральной тенденции накладывают ограничения

Три меры и тип шкалы Три меры меры центральной тенденции накладывают ограничения
на тип шкалы, в которой измеряется переменная.

Слайд 26

Среднее для дихотомической шкалы

Среднее может также применяться и для переменной, измеренной в

Среднее для дихотомической шкалы Среднее может также применяться и для переменной, измеренной
дихотомической шкале.
Если два значения признака кодируются 0 и 1, то среднее указывает долю (относительную частоту) единиц в выборке.
Пример.
1, 0, 0, 0, 1, 1, 1, 1, 1, 0
Среднее равно 0,6. То есть 60% значений выборки принимают значение, равное единице.

Слайд 27

Какое типическое значение наилучшее?

«Наилучшее значение» - это такое значение, что для случайно

Какое типическое значение наилучшее? «Наилучшее значение» - это такое значение, что для
взятого элемента выборки вероятность того, что переменная примет именно это значение, будет максимальной. ? Мода.
«Наилучшее значение» - это такое значение, что сумма абсолютных отклонений значений переменной от данного будет наименьшей. ? Медиана.
«Наилучшее значение» - это такое значение, что сумма квадратов отклонений значений переменной от данного будет наименьшей. ? Среднее.
В зависимости от данных каждое из трех значений может стать наилучшим.

Слайд 28

*

3.2. Измерение вариации

Размах
Дисперсия
Стандартное отклонение

* 3.2. Измерение вариации Размах Дисперсия Стандартное отклонение

Слайд 29

Постановка задачи

Рассмотрим три вариационных ряда:
а) 999, 1000, 1001
б) 900, 1000, 1100
в) 1,

Постановка задачи Рассмотрим три вариационных ряда: а) 999, 1000, 1001 б) 900,
1000, 1999
Во всех трёх случаях среднее равно 1000.
Однако, в случае в) значения признака «разбросаны» вокруг среднего сильнее, чем в б); а в случае б) – сильнее, чем в случае а).
Как выразить степень разброса (вариации, measure of variation) одним числом?

Слайд 30

Размах (Range)

Размах – разность между наибольшим значением набора данных и наименьшим.

Размах (Range) Размах – разность между наибольшим значением набора данных и наименьшим.

Пример: Для набора данных 27, 8, 3, 12, 10, 26, 6, 19
размах равен R = 27 – 3 = 24.
Размах – очень простая мера вариации, но очень «грубая».

Слайд 31

Подсчет дисперсии в таблице

Дисперсию удобно рассчитывать при помощи таблицы.

В первом столбце выборка.

Подсчет дисперсии в таблице Дисперсию удобно рассчитывать при помощи таблицы. В первом
Второй и третий столбцы для вычислений.
Сумма третьего столбца есть сумма квадратов отклонений значений выборки от среднего.

Слайд 32

Вторая формула для дисперсии

Дисперсия вычисляет также по равносильной формуле:
Считается, что эта

Вторая формула для дисперсии Дисперсия вычисляет также по равносильной формуле: Считается, что
формула более пригодна для практических вычислений при ручном счете и при использовании электронных таблиц.

Слайд 33

Подсчет дисперсии в таблице

Пример вычисления дисперсии по второй формуле. В таблице рассчитываются

Подсчет дисперсии в таблице Пример вычисления дисперсии по второй формуле. В таблице
лишь квадраты значений.

В первом столбце выборка. Во втором – квадраты значений. Сумма второго столбца есть сумма квадратов значений.
Не требуется вычислять среднее!!!

Слайд 34

Дисперсия для сгруппированных данных

Дисперсия для сгруппированных данных вычисляется по формуле:
Вычисления удобно проводить

Дисперсия для сгруппированных данных Дисперсия для сгруппированных данных вычисляется по формуле: Вычисления
при помощи таблицы или с помощью программных средств.

Слайд 35

Пример вычисления дисперсии

Рассчитаем дисперсию для сгруппированных данных, используя таблицу. В первом

Пример вычисления дисперсии Рассчитаем дисперсию для сгруппированных данных, используя таблицу. В первом
столбце – возраст службы, во втором – количество респондентов.
Используя вычисления в таблице, получим:

Слайд 36

Стандартное отклонение

Стандартное отклонение вычисляется как корень из дисперсии:
Стандартное отклонение имеет исключительную важность

Стандартное отклонение Стандартное отклонение вычисляется как корень из дисперсии: Стандартное отклонение имеет
для описания распределения данных.

Слайд 37

Интерпретация стандартного отклонения

На интервале с границами
содержится, по крайней мере, 3/4 всех данных

Интерпретация стандартного отклонения На интервале с границами содержится, по крайней мере, 3/4
(75%).
На интервале с границами
содержится, по крайней мере, 8/9 всех данных (89,9%).
Это выполнено для любого распределения!!!

Слайд 38

Стандартное отклонение для нормального закона

68,3%

95,4%

99,7%

13,5%

Стандартное отклонение для нормального закона 68,3% 95,4% 99,7% 13,5%

Слайд 39

Коэффициент вариации

Коэффициент вариации вычисляется как отношение стандартного отклонения к среднему:
Коэффициент вариации полезен,

Коэффициент вариации Коэффициент вариации вычисляется как отношение стандартного отклонения к среднему: Коэффициент
если:
1. Сравниваются несколько совокупностей, измеряемых в разных величинах.
2. Сравниваются совокупности, измеряемые в одинаковых величинах, но имеющие сильно отличающиеся средние.

Слайд 40

Пример для коэффициента вариации

Какие данные имеют большую вариацию:
имеющие стандартное отклонение 20

Пример для коэффициента вариации Какие данные имеют большую вариацию: имеющие стандартное отклонение
при среднем 200 или
имеющие стандартное отклонение 3 при среднем 30?
Ответ. Коэффициенты вариации равны. Вариация одинакова.
Имя файла: Описательная-статистика.pptx
Количество просмотров: 390
Количество скачиваний: 0