Проверка статистических гипотез. Версия 2

Содержание

Слайд 2

Определение

Статистическая гипотеза – утверждение о свойствах распределения вероятностей случайной величины (или

Определение Статистическая гипотеза – утверждение о свойствах распределения вероятностей случайной величины (или
случайного вектора).
Гипотеза нуждается в проверке.
Проверка основывается на результатах эксперимента, на наблюдениях.

Слайд 3

Напоминание


Что такое функция распределения?
Что такое плотность распределения?

Напоминание Что такое функция распределения? Что такое плотность распределения?

Слайд 4

Раздел 1
Зачем проверяют
статистические гипотезы
Обсудим наиболее важные статистические гипотезы.

Раздел 1 Зачем проверяют статистические гипотезы Обсудим наиболее важные статистические гипотезы.

Слайд 5

1. Гипотеза согласия.

Обозначим функцию распределения случайной величины Х.
Пусть - некоторая заданная

1. Гипотеза согласия. Обозначим функцию распределения случайной величины Х. Пусть - некоторая
функция распределения.
Гипотеза : функции распределения совпадают, то есть =
Кому и когда приходится проверять гипотезу согласия?

Слайд 6

Пример гипотезы согласия

Гипотеза о нормальности распределения
В этом случае

Пример гипотезы согласия Гипотеза о нормальности распределения В этом случае

Слайд 8

Почему гипотеза нормальности важна?
1. Нормальное распределение часто встречается
(вспомним центральную предельную теорему).

Почему гипотеза нормальности важна? 1. Нормальное распределение часто встречается (вспомним центральную предельную теорему).

Слайд 9

Почему гипотеза нормальности важна?

2. Когда распределение нормальное, экономим деньги: если
А) распределение

Почему гипотеза нормальности важна? 2. Когда распределение нормальное, экономим деньги: если А)
можно считать нормальным и
Б) задана необходимая погрешность результата,
то при проведении анализа можно обойтись меньшим числом наблюдений.
Например, опросить меньше покупателей.

Слайд 10

Пример гипотезы согласия 2

Гипотеза об экспоненциальности распределения.
В этом случае функция распределения

Пример гипотезы согласия 2 Гипотеза об экспоненциальности распределения. В этом случае функция распределения

Слайд 11

Почему важна гипотеза экспоненциальности?
Экспоненциальное распределение часто встречается, когда изучается «время ожидания».

Почему важна гипотеза экспоненциальности? Экспоненциальное распределение часто встречается, когда изучается «время ожидания».

Слайд 12

Например,

Время до аварии (нужно для расчета страховой премии).
Время обслуживания покупателя кассиром (нужно

Например, Время до аварии (нужно для расчета страховой премии). Время обслуживания покупателя
для определения числа касс в супермаркете).
Время до поломки изделия (нужно для планирования расходов на гарантийный ремонт).

Слайд 13

2. Гипотеза однородности.

Обозначим функцию распределения случайной величины Х.
Обозначим функцию распределения случайной

2. Гипотеза однородности. Обозначим функцию распределения случайной величины Х. Обозначим функцию распределения
величины Y
Гипотеза : функции распределения совпадают
Кому и когда приходится проверять гипотезу согласия?

Слайд 14

Например,

Распределение продаж до рекламной акции и после нее.
Если распределение продаж не изменилось,

Например, Распределение продаж до рекламной акции и после нее. Если распределение продаж
то улучшения нет.
Может сравниваться распределение покупателей по возрасту. Например, если реклама была нацелена на конкретный сегмент, например, на молодых мам.

Слайд 15

3. Гипотеза независимости.
Гипотеза : случайные величины X и Y независимы
Кому

3. Гипотеза независимости. Гипотеза : случайные величины X и Y независимы Кому
и когда приходится проверять гипотезу независимости?

Слайд 16

Например,

Если возраст покупателей и объем покупки зависимы, то возраст надо учитывать при

Например, Если возраст покупателей и объем покупки зависимы, то возраст надо учитывать
сегментации покупателей.
Иногда зависимость бывает неочевидной.
Длина волос и рост людей – зависимые переменные.

Слайд 17

Вопрос:

наличие балкона влияет на цену квартиры?

Вопрос: наличие балкона влияет на цену квартиры?

Слайд 18

На шаг дальше…

В эконометрике редко интересен сам факт зависимости. Обычно идут дальше,

На шаг дальше… В эконометрике редко интересен сам факт зависимости. Обычно идут
пытаются описать зависимость.
Подобные задачи решаются, в частности, методами регрессионного анализа.
Регрессионный анализ – сдедующая тема.

Слайд 19

4. Гипотезы о параметре распределения.

Очень часто не так важно распределение случайной величины.

4. Гипотезы о параметре распределения. Очень часто не так важно распределение случайной
Интересна лишь одна характеристика распределения.

Слайд 20

Если анализируются продажи магазина, то в первую очередь интересно…

Математическое ожидание
Так как

Если анализируются продажи магазина, то в первую очередь интересно… Математическое ожидание Так
математическое ожидание – вероятностная модель для среднего значения.
В данном случае для средних продаж.

Слайд 21

Гипотеза. Математические ожидания случайных величин X и Y одинаковы.
EX = EY

Гипотеза. Математические ожидания случайных величин X и Y одинаковы. EX = EY

Слайд 22

Если сравниваются медианы:
Гипотеза. Медианы случайных величин X и Y одинаковы.
Med(X) =

Если сравниваются медианы: Гипотеза. Медианы случайных величин X и Y одинаковы. Med(X) = med(Y)
med(Y)

Слайд 23

Основные условия применения статистических тестов

Вопрос должен касаться какой-либо характеристики массового явления.
Характеристика

Основные условия применения статистических тестов Вопрос должен касаться какой-либо характеристики массового явления.
меняется случайным образом от наблюдения к наблюдению.
Вопрос должен быть относительно простым и четко сформулированным

Слайд 24

Пример 1

В обычных условиях зафиксирован некоторый уровень продаж. Затем была проведена рекламная

Пример 1 В обычных условиях зафиксирован некоторый уровень продаж. Затем была проведена
акция.
Руководству фирмы надо оценить результат.
Для этого нужно выяснить, было ли существенное увеличение продаж. В частности, окупились ли затраты на рекламу.

Слайд 25

Основная проблема:

Увеличение продаж могло быть вызвано случайными факторами.
Продажи все время меняются,

Основная проблема: Увеличение продаж могло быть вызвано случайными факторами. Продажи все время
случайным образом отклоняются от заданного значения.
Статистически значимое отклонение должно превышать эти случайные отклонения.

Слайд 26

Пример 2

Разработан новый варианта упаковки товара.
Требуется проверить предположение, что товар в

Пример 2 Разработан новый варианта упаковки товара. Требуется проверить предположение, что товар
новой упаковке имеет в данном регионе больший уровень продаж, чем вариант в старой упаковке.

Слайд 27

Пример 3

Верно ли, что основной конкурент действует на том же сегменте рынка,

Пример 3 Верно ли, что основной конкурент действует на том же сегменте
что и фирма «Х»?
При ответе на этот вопрос может потребоваться проверить, одинаково ли распределение по возрасту у покупателей товаров фирмы «Х» и ее основного конкурента.

Слайд 28

Пример 4

Фирма изучает постоянных покупателей своей продукции, чтобы увеличить их лояльность и

Пример 4 Фирма изучает постоянных покупателей своей продукции, чтобы увеличить их лояльность
количество.
В рамках этой задачи аналитик проверяет, зависит ли лояльность потребителя от его пола, возраста, уровня образования.

Слайд 29

Пример 4. Часть 2

Статистическая формулировка: проверить гипотезы о независимости уровня лояльности и

Пример 4. Часть 2 Статистическая формулировка: проверить гипотезы о независимости уровня лояльности

а) пола покупателя;
б) возраста покупателя;
в) уровня образования покупателя.
Далее, можно проверить, различаются ли средние значения изучаемых показателей у лояльных и не лояльных покупателей.

Слайд 30


Раздел 2
Технологии проверки статистических гипотез
Основные понятия

Раздел 2 Технологии проверки статистических гипотез Основные понятия

Слайд 31

Выбираем из двух гипотез!

Гипотеза принимается или отвергается
Так неудобно
Надо: выбираем между двумя

Выбираем из двух гипотез! Гипотеза принимается или отвергается Так неудобно Надо: выбираем между двумя статистическими гипотезами.
статистическими гипотезами.

Слайд 32

Определение

Проверку гипотез на основе выборочных статистических данных называют статистической проверкой гипотез.

Определение Проверку гипотез на основе выборочных статистических данных называют статистической проверкой гипотез.

Слайд 33

Основная и альтернативная гипотезы

Одну из гипотез называют основной и обозначают, как правило,

Основная и альтернативная гипотезы Одну из гипотез называют основной и обозначают, как
Н, а другую — альтернативной (конкурирующей) и обозначают К.
Если не уточняется, о какой гипотеза идет речь, то имеется в виду основная гипотеза.
Чаще всего (но не всегда) одна гипотеза утверждает, что предположение верно, другая – что нет.

Слайд 34

Неточно говорить «…выбрана основная гипотеза…» или «…выбрана альтернативная гипотеза…»,
Неточно говорить
«…основная

Неточно говорить «…выбрана основная гипотеза…» или «…выбрана альтернативная гипотеза…», Неточно говорить «…основная
гипотеза принята…» или «основная гипотеза отвергнута…».

Слайд 35

Важное уточнение.

Правильно говорить
«основная гипотеза отвергнута…» и
«основная гипотеза не отвергнута…».
Так

Важное уточнение. Правильно говорить «основная гипотеза отвергнута…» и «основная гипотеза не отвергнута…».
как обычно проверяют лишь достаточное условие.

Слайд 36

Комментарий 1:
Гипотеза: число делится на 6 нацело.
Фактически проверяем, делится ли число на

Комментарий 1: Гипотеза: число делится на 6 нацело. Фактически проверяем, делится ли число на 2 нацело.
2 нацело.

Слайд 37

Комментарий 2:

Часто случается, что у аналитика недостаточно данных, чтобы проявился изучаемый эффект.

Комментарий 2: Часто случается, что у аналитика недостаточно данных, чтобы проявился изучаемый

Например,
фармацевтическая компания выпускает лекарство, аналогичное уже существующему, так называемый "дженерик" (generic) вместо оригинального, производимого разработчиком ("brand-named").
Компания проводит исследование, проверяющее, что лекарство-аналог эквивалентно уже существующему.

Слайд 38

Отвергнуть гипотезу недостаточно

Основная гипотеза при анализе: отличия между лекарствами нет.
Дело касается

Отвергнуть гипотезу недостаточно Основная гипотеза при анализе: отличия между лекарствами нет. Дело
здоровья людей, и не отвергнуть гипотезу недостаточно.
Необходимы более жесткие требования к процедуре. Надо проверить еще и побочные эффекты у лиц страдающих заболеванием «х1», «х2», и так далее…

Слайд 39

Вывод

Хотя часто можно услышать, что (основная) гипотеза принята, такое выражение неточно.
Точнее

Вывод Хотя часто можно услышать, что (основная) гипотеза принята, такое выражение неточно.
говорить, что (основная) гипотеза не отвергнута

Слайд 40

Ошибки первого и второго рода

Ошибка первого рода состоит в том, что отвергается

Ошибки первого и второго рода Ошибка первого рода состоит в том, что
основная гипотеза, когда на самом деле она верна.
Ошибка второго рода состоит в том, что отвергается конкурирующая гипотеза, когда она верна.

Слайд 41

Аналогия
В больнице врач принимает решение, направлять пациента на операцию, или нет.

Аналогия В больнице врач принимает решение, направлять пациента на операцию, или нет.

Слайд 42

Когда врач делает ошибку первого рода?
Когда врач делает ошибку второго рода?

Когда врач делает ошибку первого рода? Когда врач делает ошибку второго рода?

Слайд 43

Гипотеза: нужна срочная операция

Гипотеза: нужна срочная операция

Слайд 44

Может ли врач свести частоту (вероятность) ошибок первого рода к нулю?
Может

Может ли врач свести частоту (вероятность) ошибок первого рода к нулю? Может
ли врач свести частоту (вероятность) ошибок второго рода к нулю?

Слайд 45

Есть исключения

Например,
если мы будем вакцинацию считать операцией,
то получается, что врачи

Есть исключения Например, если мы будем вакцинацию считать операцией, то получается, что
предпочитают делать маленькую "превентивную" операцию всем, чтобы исключить ошибки первого рода.

Слайд 46

Последствия ошибок могут быть различными
Ошибка первого рода (обычно) опаснее, но полностью избежать

Последствия ошибок могут быть различными Ошибка первого рода (обычно) опаснее, но полностью
ее не удастся.
При проверке статистических гипотез исходят именно из этой предпосылки

Слайд 47

Уровень значимости

Долю ошибок первого рода ограничивают сверху числом, называемым уровень значимости.

Уровень значимости Долю ошибок первого рода ограничивают сверху числом, называемым уровень значимости.

Исторически сложилось так, что в качестве уровня значимости чаще всего выбирают одно из чисел 0.005, 0.01, 0.05.
То есть аналитик допускает, что (в среднем) одна проверка из 200, 100, 20 будет давать неверный результат.

Слайд 48

Для новичков!

Чаще всего уровень значимости равен 0,05
На самом деле выбор уровня значимости

Для новичков! Чаще всего уровень значимости равен 0,05 На самом деле выбор
– большая проблема! Зависит, например, от числа наблюдений!
Смотрите литературу

Слайд 49

«медицинский» пример
На что влияет выбор уровня значимости?
Проектирование атомной электростанции
Трелевочный трактор
Генетика: теперь

«медицинский» пример На что влияет выбор уровня значимости? Проектирование атомной электростанции Трелевочный
уровень значимости не 0.05, а 0.01

Слайд 50

Ошибка второго рода и мощность

Как добиться того, чтобы вероятность ошибки второго рода

Ошибка второго рода и мощность Как добиться того, чтобы вероятность ошибки второго
была малой?
Очень сложно.
Состоятельные критерии.
Ошибку можно уменьшить, если увеличить число анализируемых наблюдений.
Необходимы большие выборки.

Слайд 51

Дополнительно

Если выборка маленькая (часто границей между большой и маленькой выборкой рекомендуют считать

Дополнительно Если выборка маленькая (часто границей между большой и маленькой выборкой рекомендуют
30 наблюдений), проверить гипотезу по малой выборке удастся.
Но
Платой за малый размер будет неприемлемо большая вероятность ошибки второго рода.
Большинство практиков игнорируют ошибку второго рода.
Это неверно.
Профессиональные статистики в таких ситуациях часто увеличивают уровень значимости (например до 0.15 или 0.2), чтобы сделать вероятности ошибок сопоставимыми.

Слайд 52

Задача.

Вместо врача рассмотрим банковского служащего, принимающего решение, выдавать заем или нет.

Задача. Вместо врача рассмотрим банковского служащего, принимающего решение, выдавать заем или нет.

Как будут интерпретироваться статистические понятия в этом случае?

Слайд 53

Алгоритм проверки статистических гипотез

1. Имеются n наблюдений , то есть n

Алгоритм проверки статистических гипотез 1. Имеются n наблюдений , то есть n
чисел, полученных, например, в результате опроса.
2. Заранее задан уровень значимости α. Обычно это одно из чисел 0.005, 0.01, 0.05.

Слайд 54

3. Задан статистический критерий, то есть функция от наблюдений .
4. Найдено

3. Задан статистический критерий, то есть функция от наблюдений . 4. Найдено
p-значение (p-value).
Иногда переводится как значимость (Significance).

Слайд 55

5. Проверяются все условия, при которых критерий будет работать.
Условия – Из учебника

5. Проверяются все условия, при которых критерий будет работать. Условия – Из
или справочника.
Несколько важных критериев будет рассмотрено далее

Слайд 56

6.
Если p< α - гипотезу отвергаем, если p> α - не

6. Если p α - не отвергаем. Напомним: α – уровень значимости p - p-value.
отвергаем.
Напомним:
α – уровень значимости
p - p-value.

Слайд 57

Комментарии

Наблюдения не обязательно являются числами.
Выбор того статистического критерия, который подходит

Комментарии Наблюдения не обязательно являются числами. Выбор того статистического критерия, который подходит
для задачи – важная и сложная задача

Слайд 58

Проверка условий применимости

Например, для применения t – критерия Стьюдента или для проверка

Проверка условий применимости Например, для применения t – критерия Стьюдента или для
гипотезы независимости с помощью критерия Пирсона надо проверить близость распределения переменных к нормальному.

Слайд 59

Статистика критерия или тестовая статистикой

Иногда используют статистику критерия или тестовую статистику.
Изредка

Статистика критерия или тестовая статистикой Иногда используют статистику критерия или тестовую статистику.
она важна сама по себе (например, коэффициент корреляции), в таких конкретных случаях мы будем ее указывать.

Слайд 60

Интерпретация статистики критерия

Значение статистики критерия (обычно) измеряет, насколько данные согласуются с гипотезой.

Интерпретация статистики критерия Значение статистики критерия (обычно) измеряет, насколько данные согласуются с гипотезой.

Слайд 61

"Маленькие" значения статистики критерия указывают, что данные «ведут себя» в соответствии с

"Маленькие" значения статистики критерия указывают, что данные «ведут себя» в соответствии с
гипотезой.
В этом случае гипотеза не отвергается.

Слайд 62

"Большие" значения статистики критерия указывают, что данные не соответствуют гипотезе, противоречат ей.
Гипотеза

"Большие" значения статистики критерия указывают, что данные не соответствуют гипотезе, противоречат ей. Гипотеза отвергается.
отвергается.

Слайд 63

Пример

Нормальное распределение с дисперсией 1
Имеется n наблюдений
Основная гипотеза: математическое ожидание равно

Пример Нормальное распределение с дисперсией 1 Имеется n наблюдений Основная гипотеза: математическое
11
Альтернативная гипотеза: математическое ожидание равно 12

Слайд 64

Напоминание из теории вероятностей

Среднее арифметическое n независимых одинаково распределенных случайных величин с

Напоминание из теории вероятностей Среднее арифметическое n независимых одинаково распределенных случайных величин
общим нормальным распределением N(a, b) имеет нормальное распределение N(a, b/n)

Слайд 65

Вопрос:
Где на графике ошибка первого рода, где ошибка второго рода?

Вопрос: Где на графике ошибка первого рода, где ошибка второго рода?

Слайд 66

Интерпретация статистики критерия
В статистике жестко прописано, что именно задавать в качестве основной

Интерпретация статистики критерия В статистике жестко прописано, что именно задавать в качестве основной гипотезы. Примеры.
гипотезы.
Примеры.

Слайд 67

Раздел 3
Важные частные случаи

Раздел 3 Важные частные случаи

Слайд 68


Проверка гипотезы о нормальности распределения случайной величины

Проверка гипотезы о нормальности распределения случайной величины

Слайд 69

Статистическая формулировка

Гипотеза: Случайная величина имеет нормальное распределение, значения параметров распределения заранее не

Статистическая формулировка Гипотеза: Случайная величина имеет нормальное распределение, значения параметров распределения заранее
известны.
Конкурирующая гипотеза: Распределение случайной величины отличается от нормального.

Слайд 70

Литература

Thode
Testing For Normality
CRC Press 2002 368c

Литература Thode Testing For Normality CRC Press 2002 368c

Слайд 71

Критерий Шапиро-Уилка
Критерий Шапиро-Уилка.
shapiro.test(data)
От 3 до 5000 наблюдений

Критерий Шапиро-Уилка Критерий Шапиро-Уилка. shapiro.test(data) От 3 до 5000 наблюдений

Слайд 72

Package "nortest"

Критерий Anderson-Darling
library(nortest)
ad.test(data)
Критерий Lilliefors (Kolmogorov-Smirnov)
library(nortest)
lillie.test(x)

Package "nortest" Критерий Anderson-Darling library(nortest) ad.test(data) Критерий Lilliefors (Kolmogorov-Smirnov) library(nortest) lillie.test(x)

Слайд 73

Число наблюдений

Если меньше 2000 наблюдений, рекомендуется использовать критерий Шапиро-Уилка
если больше 2000, то

Число наблюдений Если меньше 2000 наблюдений, рекомендуется использовать критерий Шапиро-Уилка если больше 2000, то критерий Колмогорова-Смирнова.
критерий Колмогорова-Смирнова.

Слайд 74


А нужно ли проверять гипотезу нормальности?

А нужно ли проверять гипотезу нормальности?

Слайд 75

Методы, которые рассматриваются в курсе, работают не только когда переменные имеют нормальное

Методы, которые рассматриваются в курсе, работают не только когда переменные имеют нормальное
распределение, но и когда «распределение данных несущественно отличается от нормального».

Слайд 76

допустим известно, что распределение случайной величины не нормальное.
В каком случае отклонение

допустим известно, что распределение случайной величины не нормальное. В каком случае отклонение от нормальности не существенное?
от нормальности не существенное?

Слайд 77

Итак,

гипотеза о нормальности распределения изучаемой переменной уже отвергнута.

Итак, гипотеза о нормальности распределения изучаемой переменной уже отвергнута.

Слайд 78

Существенные отклонения

1. Наличие выбросов в данных.
2. Явная асимметрия гистограммы.
3. Очень

Существенные отклонения 1. Наличие выбросов в данных. 2. Явная асимметрия гистограммы. 3.
сильное отклонение формы гистограммы от колоколообразной формы.

Слайд 79

Рекомендуется

строго относиться к присутствию выбросов,
снисходительно к отклонениям от симметрии.
Наше отношение к

Рекомендуется строго относиться к присутствию выбросов, снисходительно к отклонениям от симметрии. Наше
колоколообразной форме гистограммы зависит от числа наблюдений. Если имеется меньше 30 наблюдений, наше отношение в высшей степени либерально, если число наблюдений находится между 30 и 150, мы относимся к отклонениям снисходительно, если имеется больше 150 наблюдений – строго.

Слайд 83

Лекарство Иногда оно опаснее болезни...

Выбросы — удаляем (осторожно!)
Асимметрия — преобразуем данные

Лекарство Иногда оно опаснее болезни... Выбросы — удаляем (осторожно!) Асимметрия — преобразуем
(например, логарифмируем, или преобразование Бокса-Кокса)
Бимодальность — разбиваем выборку на подвыборки

Слайд 84

Пример 1
Население городов России в 1959 году
Исходные данные
Логарифм населения

Пример 1 Население городов России в 1959 году Исходные данные Логарифм населения

Слайд 85

Пример 2

Альбукерк – продажи домов

Пример 2 Альбукерк – продажи домов

Слайд 86


Сравнение центров распределений

Сравнение центров распределений

Слайд 87

Сравнение центров распределений
Центр распределения - то одно единственное число, которое описывало,

Сравнение центров распределений Центр распределения - то одно единственное число, которое описывало,
характеризовало бы выборку.
В качестве центра чаще всего используют среднее арифметическое, медиану или усеченное среднее.

Слайд 88

Другие методы оценки центра распределения


Andrews; Bickel; Hampel; Huber; Rogers, Tukey.
Robust

Другие методы оценки центра распределения Andrews; Bickel; Hampel; Huber; Rogers, Tukey. Robust
estimates of location: survey and advances.
1972 Princeton University Press

Слайд 89

Среднее арифметическое или медиана?

Если распределение хотя бы одной из выборок существенно отличается

Среднее арифметическое или медиана? Если распределение хотя бы одной из выборок существенно
от нормального, в качестве центра предлагается использовать медиану.
В остальных случаях, то есть если распределение каждой выборки можно считать нормальным или несущественно отличающимся от нормального, в качестве центра предлагается использовать среднее арифметическое.

Слайд 90

Выбор центра распределения

Если центром распределения выбрана медиана, центры сравниваются с помощью критерия

Выбор центра распределения Если центром распределения выбрана медиана, центры сравниваются с помощью
Манна – Уитни-Вилкоксона.
Если центром распределения выбрано среднее арифметическое, центры сравниваются с помощью одной из версий критерия Стьюдента.

Слайд 91

Прагматичный подход

Применить оба теста. Если выводы совпадают, ответ есть
Если выводы различны, начинаем разбираться.

Прагматичный подход Применить оба теста. Если выводы совпадают, ответ есть Если выводы различны, начинаем разбираться.

Слайд 92

Примеры

Обучение менеджеров
Магазины

Примеры Обучение менеджеров Магазины

Слайд 93

Парные и независимые выборки

В случае парных выборок имеются пары наблюдений (измерений) одного

Парные и независимые выборки В случае парных выборок имеются пары наблюдений (измерений)
и того же объекта.
Вариант: пары измерений делались в один и тот же момент.

Слайд 94

Независимые выборки

В случае независимых выборок каждое наблюдение соответствует отдельному объекту, т.е. измеряются

Независимые выборки В случае независимых выборок каждое наблюдение соответствует отдельному объекту, т.е.
разные объекты.
Принадлежность объектов выборкам определяется по значениям дополнительной группирующей переменной.

Слайд 95

Независимые и парные выборки

Если выборки парные, используется опция paired = TRUE.
Если выборки

Независимые и парные выборки Если выборки парные, используется опция paired = TRUE.
независимые, используется опция paired = FALSE.

Слайд 96

Примеры

Время в магазинах
Альбукерк

Примеры Время в магазинах Альбукерк

Слайд 97

Сравнение медиан выборок
Гипотеза: Медианы равны.
Альтернативная гипотеза: Медианы различаются.

Сравнение медиан выборок Гипотеза: Медианы равны. Альтернативная гипотеза: Медианы различаются.

Слайд 98

Mood's median test

m <- median(c(x1,x2)) # joint median
f11 <- sum(x1>m) # Pop.1

Mood's median test m f11 m) # Pop.1 samples above median f12
samples above median
f12 <- sum(x2>m)
f21 <- sum(x1<=m) # Pop.1 samples below or at median
f22 <- sum(x2<=m)
# 2x2 contingency table
table <- matrix(c(f11,f12,f21,f22), nrow=2,ncol=2)
chisq.test(table)

Слайд 99

Mood's median test

Friedlin, B. & Gastwirth, J. L. (2000).
Should the median

Mood's median test Friedlin, B. & Gastwirth, J. L. (2000). Should the
test be retired from general use?
The American Statistician, 54, 161–164.
Ответ: да, не используем. Большая ошибка 2 рода даже для малых выборок (по сравнению с другими тестами)

Слайд 100

Критерий Манна-Уитни

Mann–Whitney–Wilcoxon,
Wilcoxon rank-sum test,
Wilcoxon–Mann–Whitney test

Критерий Манна-Уитни Mann–Whitney–Wilcoxon, Wilcoxon rank-sum test, Wilcoxon–Mann–Whitney test

Слайд 101

Важно!

Критерий Манна-Уитни проверяет не равенство медиан, а другое утверждение.
Имеются две

Важно! Критерий Манна-Уитни проверяет не равенство медиан, а другое утверждение. Имеются две
выборки наблюдений случайных величин Х и Y.
Гипотеза: P{X>Y}=P{XАльтернативная гипотеза: P{X>Y} ≠ P{X

Слайд 102

Статистика критерия Манна-Уитни U

U1 = n1*n2 + {n1 * (n1 + 1)/2}

Статистика критерия Манна-Уитни U U1 = n1*n2 + {n1 * (n1 +
— T1
U2 = n1*n2 + {n2 * (n2 + 1)/2} — T2
U = min(U1, U2)
Ti — сумма рангов в объединенной выборке наблюдений из выборки i
n1 и n2 — размеры выборок

Слайд 103

Статистика критерия Манна-Уитни идея метода

Обозначим одну выборку x, другую y.
Для каждого наблюдения из

Статистика критерия Манна-Уитни идея метода Обозначим одну выборку x, другую y. Для
выборки x сосчитаем число тех наблюдений в выборке y, которые меньше его. (пока считаем, что совпадений нет).
Сложим все полученные числа.

Слайд 104

Тогда причем тут медианы?

Дополнительные предположения
if the responses are assumed to be continuous

Тогда причем тут медианы? Дополнительные предположения if the responses are assumed to

alternative is restricted to a shift in location (i.e. F1(x) = F2(x + δ)),
we can interpret a significant MWW test as showing a difference in medians.

Слайд 105

Гипотеза отвергается: p=0.0288

Гипотеза отвергается: p=0.0288

Слайд 106

Гипотеза не отвергается: p=0.46

Гипотеза не отвергается: p=0.46

Слайд 107

Критерий Манна-Уитни-Вилкоксона

wilcox.test(x, y,
alternative = "two.sided",
paired = FALSE,

Критерий Манна-Уитни-Вилкоксона wilcox.test(x, y, alternative = "two.sided", paired = FALSE, exact = TRUE, correct = FALSE)
exact = TRUE,
correct = FALSE)

Слайд 108

Примеры

Время в магазинах
Альбукерк

Примеры Время в магазинах Альбукерк

Слайд 109

Сравнение средних значений выборок
Гипотеза: Математические ожидания равны.
Альтернативная гипотеза: Математические ожидания различны.

Сравнение средних значений выборок Гипотеза: Математические ожидания равны. Альтернативная гипотеза: Математические ожидания различны.

Слайд 110

T-критерий Стьюдента

t.test(x, y, alternative = "two.sided", paired = FALSE, var.equal = FALSE)

T-критерий Стьюдента t.test(x, y, alternative = "two.sided", paired = FALSE, var.equal = FALSE)

Слайд 111

Выбор статистического критерия

Если выборки парные, рекомендуется использовать парный t-критерий Стьюдента.
Если выборки независимые,

Выбор статистического критерия Если выборки парные, рекомендуется использовать парный t-критерий Стьюдента. Если
рекомендуется использовать t-критерий Стьюдента для 2-х независимых выборок.

Слайд 112

Надо еще сравнить дисперсии - 1

Метод 1
F-test of equality of variances
Не рекомендуется,

Надо еще сравнить дисперсии - 1 Метод 1 F-test of equality of
слишком чувствителен к отклонениям от нормальности. См.
http://en.wikipedia.org/wiki/F-test_of_equality_of_variances
var.test(x, y)

Слайд 113

Надо еще сравнить дисперсии - 2

Метод 2
Bartlett's test
Если данные нормально распределены, лучший

Надо еще сравнить дисперсии - 2 Метод 2 Bartlett's test Если данные
вариант.
Не рекомендуется: чувствителен к отклонениям от нормальности;
Если данные не нормальны, часто дает "false positive" результат.

Слайд 114

Надо еще сравнить дисперсии - 2

Метод 2
Bartlett's test
bartlett.test(x, g, data=data.table)
bartlett.test(x~g, data=data.table)

Надо еще сравнить дисперсии - 2 Метод 2 Bartlett's test bartlett.test(x, g, data=data.table) bartlett.test(x~g, data=data.table)

Слайд 115

Надо еще сравнить дисперсии - 3

Levene's test
Критерий Ливиня/Левена
Содержится в пакете car

Надо еще сравнить дисперсии - 3 Levene's test Критерий Ливиня/Левена Содержится в пакете car

Слайд 116

Надо еще сравнить дисперсии - 3

Levene's test
library(car)
leveneTest(x~g, data=data.table)

Надо еще сравнить дисперсии - 3 Levene's test library(car) leveneTest(x~g, data=data.table)

Слайд 117

Надо еще сравнить дисперсии - 4

Fligner-Killeen test
Робастный, рекомендуется.
Хотя есть еще Brown-Forsythe test,

Надо еще сравнить дисперсии - 4 Fligner-Killeen test Робастный, рекомендуется. Хотя есть
возможно он еще лучше...

Слайд 118

Надо еще сравнить дисперсии - 4

Fligner-Killeen test
fligner.test(x~g, data=data.table)

Надо еще сравнить дисперсии - 4 Fligner-Killeen test fligner.test(x~g, data=data.table)

Слайд 119

Примеры

Время в магазинах
Альбукерк

Примеры Время в магазинах Альбукерк

Слайд 120

Гипотеза независимости

Основная гипотеза:
Случайные величины X и Y независимы
Альтернативная гипотеза:
Случайные величины X и

Гипотеза независимости Основная гипотеза: Случайные величины X и Y независимы Альтернативная гипотеза:
Y зависимы

Слайд 121

На практике:
Отвечаем на вопрос: переменная X влияет на переменную Y?

На практике: Отвечаем на вопрос: переменная X влияет на переменную Y?

Слайд 122

Комментарий

Если неизвестно, что на что влияет:
X на Y или
Y на X
статистический

Комментарий Если неизвестно, что на что влияет: X на Y или Y
критерий не поможет!

Слайд 123

Пример Бернарда Шоу
Гибридизация нескольких методов распознавания образов

Пример Бернарда Шоу Гибридизация нескольких методов распознавания образов

Слайд 124

Диаграмма рассеивания

Иногда пишут - диаграмма рассеяния
Пример – швейцарские банкноты.

Диаграмма рассеивания Иногда пишут - диаграмма рассеяния Пример – швейцарские банкноты.

Слайд 125

Зависимость -1

X – в количественной шкале
Y – в количественной шкале
Применяется коэффициент корреляции

Зависимость -1 X – в количественной шкале Y – в количественной шкале
Пирсона
Или Спирмена
Иногда - Кендалла

Слайд 126

Функциональная зависимость

Функциональная зависимость

Слайд 127

Статистическая зависимость двух переменных

Обобщение функциональной зависимости.
Одному и тому же значению x могут

Статистическая зависимость двух переменных Обобщение функциональной зависимости. Одному и тому же значению
соответствовать разные значения y.
Например, один и тот же товар (например, телефон) может продаваться в разных магазинах по разной цене, то есть одному и тому же товару соответствуют разные цены.

Слайд 128

статистическая зависимость

Определение статистическая зависимость – это функциональная зависимость СРЕДНЕГО значения переменной y

статистическая зависимость Определение статистическая зависимость – это функциональная зависимость СРЕДНЕГО значения переменной
от значения переменной x.
Откуда появляется среднее значение? Проводятся эксперименты (или наблюдается явление) при одном и том же значении x, при этом регистрируются разные значения y, затем эти значения усредняются.
На практике не всегда заметно, что одному и тому же значению переменной x может соответствовать много значений y, например когда повторные наблюдения при одном значении x не делались.

Слайд 129

среднее значение переменной y равно натуральному логарифму значения x.

среднее значение переменной y равно натуральному логарифму значения x.

Слайд 130

среднее значение переменной y равно натуральному логарифму значения x.

среднее значение переменной y равно натуральному логарифму значения x.

Слайд 131

Коэффициент корреляции как «градусник», измеряющий степень зависимости
Формула для коэффициента корреляции

Коэффициент корреляции как «градусник», измеряющий степень зависимости Формула для коэффициента корреляции

Слайд 132

Выбор коэффициента

Если распределение каждой переменной несущественно отличается от нормального, применяется коэффициент корреляции

Выбор коэффициента Если распределение каждой переменной несущественно отличается от нормального, применяется коэффициент
Пирсона
В остальных случаях - коэффициент корреляции Спирмена
Вместо коэффициента корреляции Спирмена используют коэффициент корреляции Кендалла

Слайд 134

Как проявляется зависимость на диаграмме рассеивания

Как проявляется зависимость на диаграмме рассеивания

Слайд 135

Коэффициент корреляции равен 1

Коэффициент корреляции равен 1

Слайд 136

Коэффициент корреляции равен 0.9

Коэффициент корреляции равен 0.9

Слайд 137

Коэффициент корреляции равен 0.8

Коэффициент корреляции равен 0.8

Слайд 138

Коэффициент корреляции равен 0.6

Коэффициент корреляции равен 0.6

Слайд 139

Коэффициент корреляции равен 0.4

Коэффициент корреляции равен 0.4

Слайд 140

Коэффициент корреляции равен 0.2

Коэффициент корреляции равен 0.2

Слайд 141

Коэффициент корреляции равен 0.

Коэффициент корреляции равен 0.

Слайд 142

Проблемы и ошибки при использовании коэффициента корреляции

Проблемы и ошибки при использовании коэффициента корреляции

Слайд 145

Данные без выброса коэффициент корреляции равен -0.81

Данные без выброса коэффициент корреляции равен -0.81

Слайд 146

Добавлен выброс в точке (10,10). Коэффициент корреляции упал до -0,55.

Добавлен выброс в точке (10,10). Коэффициент корреляции упал до -0,55.

Слайд 147

Выброс сдвинут в точку (18,5, 18,5) Коэффициент равен 0

Выброс сдвинут в точку (18,5, 18,5) Коэффициент равен 0

Слайд 148

Выброс сдвинут в точку (53, 53). Корреляция равна +0,81

Выброс сдвинут в точку (53, 53). Корреляция равна +0,81

Слайд 149

Ложная корреляция

Ложная корреляция

Слайд 150

Зависимость -2

X – в количественной шкале
Y – в номинальной шкале
Сравниваем средние или

Зависимость -2 X – в количественной шкале Y – в номинальной шкале
медианы в группах
Или перекодируем количественную переменную, переводим ее в номинальную шкалу

Слайд 151

Зависимость -3

X – в порядковой шкале
Y – в порядковой шкале
Используем коэффициент корреляции

Зависимость -3 X – в порядковой шкале Y – в порядковой шкале
Спирмена
Или Кендалла

Слайд 152

Зависимость -4

X – в номинальной шкале
Y – в номинальной шкале
Таблица сопряженности и

Зависимость -4 X – в номинальной шкале Y – в номинальной шкале
критерий χ²

Слайд 153

Критерий хи-квадрат
Формула для статистики

Критерий хи-квадрат Формула для статистики

Слайд 154

Статистика хи-квадрат как коэффициент корреляции
Коэффициент Пирсона
Коэффициент Чупрова

Статистика хи-квадрат как коэффициент корреляции Коэффициент Пирсона Коэффициент Чупрова

Слайд 155

Примеры типичных ошибок при использовании критерия хи-квадрат

Примеры типичных ошибок при использовании критерия хи-квадрат

Слайд 156

Пример 1

Действительно ли использование Internet связано с полом?
Все опрошенные пользуются Интернетом. Тех

Пример 1 Действительно ли использование Internet связано с полом? Все опрошенные пользуются
из них, кто использует Интернет пять часов в месяц или меньше, отнесли к мало пользующимся, остальных – к активным пользователям.

Слайд 157

Пример 1

sex = пол.
Кодировка: "1" – мужчина, "0" – женщина.
internet = использование

Пример 1 sex = пол. Кодировка: "1" – мужчина, "0" – женщина.
Internet.
Кодировка: "0" – использует мало, "1" – использует активно.
Имеется 30 наблюдений (опрошенных).

Слайд 158

Пример 1

Пример 1

Слайд 159

Пример 2

В результате изучения связи между покупкой модной одежды и семейным положением

Пример 2 В результате изучения связи между покупкой модной одежды и семейным
получены, среди прочих, следующие данные.
Имеется 1000 наблюдений (опрошенных).

Слайд 160

Пример 2

Переменные.
sex = пол.
Кодировка: "1" – мужчина, "0" – женщина.
marriage = семейное

Пример 2 Переменные. sex = пол. Кодировка: "1" – мужчина, "0" –
положение.
Кодировка: "1" – женат/замужем, "0" – не женат/не замужем.
fashion = покупка модной одежды.
Кодировка: "0" – покупает мало, "1" – покупает много.

Слайд 161

Пример 2

Пример 2

Слайд 162

Пример 2

Пример 2

Слайд 163

Пример 2

Пример 2

Слайд 164

Пример 3

Маркетолог проводит исследование для рекламного агентства, разрабатывающего рекламу для автомобилей стоимостью

Пример 3 Маркетолог проводит исследование для рекламного агентства, разрабатывающего рекламу для автомобилей
свыше 30 тысяч долларов.
Он пытается проанализировать факторы, влияющие на владение дорогими автомобилями.

Слайд 165

Пример 3

Переменные.
high_edu = образование.
Кодировка: "1" – высшее образование, "0" – нет высшего

Пример 3 Переменные. high_edu = образование. Кодировка: "1" – высшее образование, "0"
образования.
expe_car = наличие дорогого автомобиля.
Кодировка: "0" – дорогого автомобиля нет, "1" – дорогой автомобиль есть.
income = доход.
Кодировка: "0" – низкий доход, "1" – высокий доход.
Имеется 1000 наблюдений (опрошенных).

Слайд 166

Пример 3

Пример 3

Слайд 167

Пример 3

Пример 3

Слайд 168

Пример 3

Пример 3

Слайд 169

Пример 4

Маркетолог, исследующий сферу туристических поездок за границу, предположил, что на желание

Пример 4 Маркетолог, исследующий сферу туристических поездок за границу, предположил, что на
путешествовать влияет возраст.
Имеющиеся в его распоряжении данные содержат, среди прочего, следующую информацию.

Слайд 170

Пример 4

Переменные.
desire = желание совершить путешествие за границу.
Кодировка: "1" – желание есть,

Пример 4 Переменные. desire = желание совершить путешествие за границу. Кодировка: "1"
"0" – желания нет.
sex = пол.
Кодировка: "0" – женщина, "1" – мужчина.
age = возраст.
Кодировка: "0" –до 45 лет, "1" – 45 лет или старше.
Имеется 1000 наблюдений (опрошенных).

Слайд 171

Пример 4

Пример 4

Слайд 172

Пример 4

Пример 4

Слайд 173

Пример 4

Пример 4

Слайд 174

Пример 4

Пример 4

Слайд 175

Пример 5

Результаты анкетирования о проведении семейного досуга содержат, среди прочего, следующую информацию.
Переменные.
fastfood

Пример 5 Результаты анкетирования о проведении семейного досуга содержат, среди прочего, следующую
= частота посещения ресторанов быстрого питания.
Кодировка: "1" – часто, "0" – редко.
income = доход семьи.
Кодировка: "1" – высокий, "0" – низкий.
family = размер семьи.
Кодировка: "1" – большая семья, "0" – малая семья.

Слайд 176

Пример 5

Пример 5

Слайд 177

Пример 5

Пример 5