Содержание
- 2. Определение Статистическая гипотеза – утверждение о свойствах распределения вероятностей случайной величины (или случайного вектора). Гипотеза нуждается
- 3. Напоминание Что такое функция распределения? Что такое плотность распределения?
- 4. Раздел 1 Зачем проверяют статистические гипотезы Обсудим наиболее важные статистические гипотезы.
- 5. 1. Гипотеза согласия. Обозначим функцию распределения случайной величины Х. Пусть - некоторая заданная функция распределения. Гипотеза
- 6. Пример гипотезы согласия Гипотеза о нормальности распределения В этом случае
- 8. Почему гипотеза нормальности важна? 1. Нормальное распределение часто встречается (вспомним центральную предельную теорему).
- 9. Почему гипотеза нормальности важна? 2. Когда распределение нормальное, экономим деньги: если А) распределение можно считать нормальным
- 10. Пример гипотезы согласия 2 Гипотеза об экспоненциальности распределения. В этом случае функция распределения
- 11. Почему важна гипотеза экспоненциальности? Экспоненциальное распределение часто встречается, когда изучается «время ожидания».
- 12. Например, Время до аварии (нужно для расчета страховой премии). Время обслуживания покупателя кассиром (нужно для определения
- 13. 2. Гипотеза однородности. Обозначим функцию распределения случайной величины Х. Обозначим функцию распределения случайной величины Y Гипотеза
- 14. Например, Распределение продаж до рекламной акции и после нее. Если распределение продаж не изменилось, то улучшения
- 15. 3. Гипотеза независимости. Гипотеза : случайные величины X и Y независимы Кому и когда приходится проверять
- 16. Например, Если возраст покупателей и объем покупки зависимы, то возраст надо учитывать при сегментации покупателей. Иногда
- 17. Вопрос: наличие балкона влияет на цену квартиры?
- 18. На шаг дальше… В эконометрике редко интересен сам факт зависимости. Обычно идут дальше, пытаются описать зависимость.
- 19. 4. Гипотезы о параметре распределения. Очень часто не так важно распределение случайной величины. Интересна лишь одна
- 20. Если анализируются продажи магазина, то в первую очередь интересно… Математическое ожидание Так как математическое ожидание –
- 21. Гипотеза. Математические ожидания случайных величин X и Y одинаковы. EX = EY
- 22. Если сравниваются медианы: Гипотеза. Медианы случайных величин X и Y одинаковы. Med(X) = med(Y)
- 23. Основные условия применения статистических тестов Вопрос должен касаться какой-либо характеристики массового явления. Характеристика меняется случайным образом
- 24. Пример 1 В обычных условиях зафиксирован некоторый уровень продаж. Затем была проведена рекламная акция. Руководству фирмы
- 25. Основная проблема: Увеличение продаж могло быть вызвано случайными факторами. Продажи все время меняются, случайным образом отклоняются
- 26. Пример 2 Разработан новый варианта упаковки товара. Требуется проверить предположение, что товар в новой упаковке имеет
- 27. Пример 3 Верно ли, что основной конкурент действует на том же сегменте рынка, что и фирма
- 28. Пример 4 Фирма изучает постоянных покупателей своей продукции, чтобы увеличить их лояльность и количество. В рамках
- 29. Пример 4. Часть 2 Статистическая формулировка: проверить гипотезы о независимости уровня лояльности и а) пола покупателя;
- 30. Раздел 2 Технологии проверки статистических гипотез Основные понятия
- 31. Выбираем из двух гипотез! Гипотеза принимается или отвергается Так неудобно Надо: выбираем между двумя статистическими гипотезами.
- 32. Определение Проверку гипотез на основе выборочных статистических данных называют статистической проверкой гипотез.
- 33. Основная и альтернативная гипотезы Одну из гипотез называют основной и обозначают, как правило, Н, а другую
- 34. Неточно говорить «…выбрана основная гипотеза…» или «…выбрана альтернативная гипотеза…», Неточно говорить «…основная гипотеза принята…» или «основная
- 35. Важное уточнение. Правильно говорить «основная гипотеза отвергнута…» и «основная гипотеза не отвергнута…». Так как обычно проверяют
- 36. Комментарий 1: Гипотеза: число делится на 6 нацело. Фактически проверяем, делится ли число на 2 нацело.
- 37. Комментарий 2: Часто случается, что у аналитика недостаточно данных, чтобы проявился изучаемый эффект. Например, фармацевтическая компания
- 38. Отвергнуть гипотезу недостаточно Основная гипотеза при анализе: отличия между лекарствами нет. Дело касается здоровья людей, и
- 39. Вывод Хотя часто можно услышать, что (основная) гипотеза принята, такое выражение неточно. Точнее говорить, что (основная)
- 40. Ошибки первого и второго рода Ошибка первого рода состоит в том, что отвергается основная гипотеза, когда
- 41. Аналогия В больнице врач принимает решение, направлять пациента на операцию, или нет.
- 42. Когда врач делает ошибку первого рода? Когда врач делает ошибку второго рода?
- 43. Гипотеза: нужна срочная операция
- 44. Может ли врач свести частоту (вероятность) ошибок первого рода к нулю? Может ли врач свести частоту
- 45. Есть исключения Например, если мы будем вакцинацию считать операцией, то получается, что врачи предпочитают делать маленькую
- 46. Последствия ошибок могут быть различными Ошибка первого рода (обычно) опаснее, но полностью избежать ее не удастся.
- 47. Уровень значимости Долю ошибок первого рода ограничивают сверху числом, называемым уровень значимости. Исторически сложилось так, что
- 48. Для новичков! Чаще всего уровень значимости равен 0,05 На самом деле выбор уровня значимости – большая
- 49. «медицинский» пример На что влияет выбор уровня значимости? Проектирование атомной электростанции Трелевочный трактор Генетика: теперь уровень
- 50. Ошибка второго рода и мощность Как добиться того, чтобы вероятность ошибки второго рода была малой? Очень
- 51. Дополнительно Если выборка маленькая (часто границей между большой и маленькой выборкой рекомендуют считать 30 наблюдений), проверить
- 52. Задача. Вместо врача рассмотрим банковского служащего, принимающего решение, выдавать заем или нет. Как будут интерпретироваться статистические
- 53. Алгоритм проверки статистических гипотез 1. Имеются n наблюдений , то есть n чисел, полученных, например, в
- 54. 3. Задан статистический критерий, то есть функция от наблюдений . 4. Найдено p-значение (p-value). Иногда переводится
- 55. 5. Проверяются все условия, при которых критерий будет работать. Условия – Из учебника или справочника. Несколько
- 56. 6. Если p α - не отвергаем. Напомним: α – уровень значимости p - p-value.
- 57. Комментарии Наблюдения не обязательно являются числами. Выбор того статистического критерия, который подходит для задачи – важная
- 58. Проверка условий применимости Например, для применения t – критерия Стьюдента или для проверка гипотезы независимости с
- 59. Статистика критерия или тестовая статистикой Иногда используют статистику критерия или тестовую статистику. Изредка она важна сама
- 60. Интерпретация статистики критерия Значение статистики критерия (обычно) измеряет, насколько данные согласуются с гипотезой.
- 61. "Маленькие" значения статистики критерия указывают, что данные «ведут себя» в соответствии с гипотезой. В этом случае
- 62. "Большие" значения статистики критерия указывают, что данные не соответствуют гипотезе, противоречат ей. Гипотеза отвергается.
- 63. Пример Нормальное распределение с дисперсией 1 Имеется n наблюдений Основная гипотеза: математическое ожидание равно 11 Альтернативная
- 64. Напоминание из теории вероятностей Среднее арифметическое n независимых одинаково распределенных случайных величин с общим нормальным распределением
- 65. Вопрос: Где на графике ошибка первого рода, где ошибка второго рода?
- 66. Интерпретация статистики критерия В статистике жестко прописано, что именно задавать в качестве основной гипотезы. Примеры.
- 67. Раздел 3 Важные частные случаи
- 68. Проверка гипотезы о нормальности распределения случайной величины
- 69. Статистическая формулировка Гипотеза: Случайная величина имеет нормальное распределение, значения параметров распределения заранее не известны. Конкурирующая гипотеза:
- 70. Литература Thode Testing For Normality CRC Press 2002 368c
- 71. Критерий Шапиро-Уилка Критерий Шапиро-Уилка. shapiro.test(data) От 3 до 5000 наблюдений
- 72. Package "nortest" Критерий Anderson-Darling library(nortest) ad.test(data) Критерий Lilliefors (Kolmogorov-Smirnov) library(nortest) lillie.test(x)
- 73. Число наблюдений Если меньше 2000 наблюдений, рекомендуется использовать критерий Шапиро-Уилка если больше 2000, то критерий Колмогорова-Смирнова.
- 74. А нужно ли проверять гипотезу нормальности?
- 75. Методы, которые рассматриваются в курсе, работают не только когда переменные имеют нормальное распределение, но и когда
- 76. допустим известно, что распределение случайной величины не нормальное. В каком случае отклонение от нормальности не существенное?
- 77. Итак, гипотеза о нормальности распределения изучаемой переменной уже отвергнута.
- 78. Существенные отклонения 1. Наличие выбросов в данных. 2. Явная асимметрия гистограммы. 3. Очень сильное отклонение формы
- 79. Рекомендуется строго относиться к присутствию выбросов, снисходительно к отклонениям от симметрии. Наше отношение к колоколообразной форме
- 83. Лекарство Иногда оно опаснее болезни... Выбросы — удаляем (осторожно!) Асимметрия — преобразуем данные (например, логарифмируем, или
- 84. Пример 1 Население городов России в 1959 году Исходные данные Логарифм населения
- 85. Пример 2 Альбукерк – продажи домов
- 86. Сравнение центров распределений
- 87. Сравнение центров распределений Центр распределения - то одно единственное число, которое описывало, характеризовало бы выборку. В
- 88. Другие методы оценки центра распределения Andrews; Bickel; Hampel; Huber; Rogers, Tukey. Robust estimates of location: survey
- 89. Среднее арифметическое или медиана? Если распределение хотя бы одной из выборок существенно отличается от нормального, в
- 90. Выбор центра распределения Если центром распределения выбрана медиана, центры сравниваются с помощью критерия Манна – Уитни-Вилкоксона.
- 91. Прагматичный подход Применить оба теста. Если выводы совпадают, ответ есть Если выводы различны, начинаем разбираться.
- 92. Примеры Обучение менеджеров Магазины
- 93. Парные и независимые выборки В случае парных выборок имеются пары наблюдений (измерений) одного и того же
- 94. Независимые выборки В случае независимых выборок каждое наблюдение соответствует отдельному объекту, т.е. измеряются разные объекты. Принадлежность
- 95. Независимые и парные выборки Если выборки парные, используется опция paired = TRUE. Если выборки независимые, используется
- 96. Примеры Время в магазинах Альбукерк
- 97. Сравнение медиан выборок Гипотеза: Медианы равны. Альтернативная гипотеза: Медианы различаются.
- 98. Mood's median test m f11 m) # Pop.1 samples above median f12 m) f21 f22 #
- 99. Mood's median test Friedlin, B. & Gastwirth, J. L. (2000). Should the median test be retired
- 100. Критерий Манна-Уитни Mann–Whitney–Wilcoxon, Wilcoxon rank-sum test, Wilcoxon–Mann–Whitney test
- 101. Важно! Критерий Манна-Уитни проверяет не равенство медиан, а другое утверждение. Имеются две выборки наблюдений случайных величин
- 102. Статистика критерия Манна-Уитни U U1 = n1*n2 + {n1 * (n1 + 1)/2} — T1 U2
- 103. Статистика критерия Манна-Уитни идея метода Обозначим одну выборку x, другую y. Для каждого наблюдения из выборки
- 104. Тогда причем тут медианы? Дополнительные предположения if the responses are assumed to be continuous alternative is
- 105. Гипотеза отвергается: p=0.0288
- 106. Гипотеза не отвергается: p=0.46
- 107. Критерий Манна-Уитни-Вилкоксона wilcox.test(x, y, alternative = "two.sided", paired = FALSE, exact = TRUE, correct = FALSE)
- 108. Примеры Время в магазинах Альбукерк
- 109. Сравнение средних значений выборок Гипотеза: Математические ожидания равны. Альтернативная гипотеза: Математические ожидания различны.
- 110. T-критерий Стьюдента t.test(x, y, alternative = "two.sided", paired = FALSE, var.equal = FALSE)
- 111. Выбор статистического критерия Если выборки парные, рекомендуется использовать парный t-критерий Стьюдента. Если выборки независимые, рекомендуется использовать
- 112. Надо еще сравнить дисперсии - 1 Метод 1 F-test of equality of variances Не рекомендуется, слишком
- 113. Надо еще сравнить дисперсии - 2 Метод 2 Bartlett's test Если данные нормально распределены, лучший вариант.
- 114. Надо еще сравнить дисперсии - 2 Метод 2 Bartlett's test bartlett.test(x, g, data=data.table) bartlett.test(x~g, data=data.table)
- 115. Надо еще сравнить дисперсии - 3 Levene's test Критерий Ливиня/Левена Содержится в пакете car
- 116. Надо еще сравнить дисперсии - 3 Levene's test library(car) leveneTest(x~g, data=data.table)
- 117. Надо еще сравнить дисперсии - 4 Fligner-Killeen test Робастный, рекомендуется. Хотя есть еще Brown-Forsythe test, возможно
- 118. Надо еще сравнить дисперсии - 4 Fligner-Killeen test fligner.test(x~g, data=data.table)
- 119. Примеры Время в магазинах Альбукерк
- 120. Гипотеза независимости Основная гипотеза: Случайные величины X и Y независимы Альтернативная гипотеза: Случайные величины X и
- 121. На практике: Отвечаем на вопрос: переменная X влияет на переменную Y?
- 122. Комментарий Если неизвестно, что на что влияет: X на Y или Y на X статистический критерий
- 123. Пример Бернарда Шоу Гибридизация нескольких методов распознавания образов
- 124. Диаграмма рассеивания Иногда пишут - диаграмма рассеяния Пример – швейцарские банкноты.
- 125. Зависимость -1 X – в количественной шкале Y – в количественной шкале Применяется коэффициент корреляции Пирсона
- 126. Функциональная зависимость
- 127. Статистическая зависимость двух переменных Обобщение функциональной зависимости. Одному и тому же значению x могут соответствовать разные
- 128. статистическая зависимость Определение статистическая зависимость – это функциональная зависимость СРЕДНЕГО значения переменной y от значения переменной
- 129. среднее значение переменной y равно натуральному логарифму значения x.
- 130. среднее значение переменной y равно натуральному логарифму значения x.
- 131. Коэффициент корреляции как «градусник», измеряющий степень зависимости Формула для коэффициента корреляции
- 132. Выбор коэффициента Если распределение каждой переменной несущественно отличается от нормального, применяется коэффициент корреляции Пирсона В остальных
- 134. Как проявляется зависимость на диаграмме рассеивания
- 135. Коэффициент корреляции равен 1
- 136. Коэффициент корреляции равен 0.9
- 137. Коэффициент корреляции равен 0.8
- 138. Коэффициент корреляции равен 0.6
- 139. Коэффициент корреляции равен 0.4
- 140. Коэффициент корреляции равен 0.2
- 141. Коэффициент корреляции равен 0.
- 142. Проблемы и ошибки при использовании коэффициента корреляции
- 145. Данные без выброса коэффициент корреляции равен -0.81
- 146. Добавлен выброс в точке (10,10). Коэффициент корреляции упал до -0,55.
- 147. Выброс сдвинут в точку (18,5, 18,5) Коэффициент равен 0
- 148. Выброс сдвинут в точку (53, 53). Корреляция равна +0,81
- 149. Ложная корреляция
- 150. Зависимость -2 X – в количественной шкале Y – в номинальной шкале Сравниваем средние или медианы
- 151. Зависимость -3 X – в порядковой шкале Y – в порядковой шкале Используем коэффициент корреляции Спирмена
- 152. Зависимость -4 X – в номинальной шкале Y – в номинальной шкале Таблица сопряженности и критерий
- 153. Критерий хи-квадрат Формула для статистики
- 154. Статистика хи-квадрат как коэффициент корреляции Коэффициент Пирсона Коэффициент Чупрова
- 155. Примеры типичных ошибок при использовании критерия хи-квадрат
- 156. Пример 1 Действительно ли использование Internet связано с полом? Все опрошенные пользуются Интернетом. Тех из них,
- 157. Пример 1 sex = пол. Кодировка: "1" – мужчина, "0" – женщина. internet = использование Internet.
- 158. Пример 1
- 159. Пример 2 В результате изучения связи между покупкой модной одежды и семейным положением получены, среди прочих,
- 160. Пример 2 Переменные. sex = пол. Кодировка: "1" – мужчина, "0" – женщина. marriage = семейное
- 161. Пример 2
- 162. Пример 2
- 163. Пример 2
- 164. Пример 3 Маркетолог проводит исследование для рекламного агентства, разрабатывающего рекламу для автомобилей стоимостью свыше 30 тысяч
- 165. Пример 3 Переменные. high_edu = образование. Кодировка: "1" – высшее образование, "0" – нет высшего образования.
- 166. Пример 3
- 167. Пример 3
- 168. Пример 3
- 169. Пример 4 Маркетолог, исследующий сферу туристических поездок за границу, предположил, что на желание путешествовать влияет возраст.
- 170. Пример 4 Переменные. desire = желание совершить путешествие за границу. Кодировка: "1" – желание есть, "0"
- 171. Пример 4
- 172. Пример 4
- 173. Пример 4
- 174. Пример 4
- 175. Пример 5 Результаты анкетирования о проведении семейного досуга содержат, среди прочего, следующую информацию. Переменные. fastfood =
- 176. Пример 5
- 177. Пример 5
- 179. Скачать презентацию