Дисперсионный анализ для сравнения средних. Тест Крускала-Уоллиса

Содержание

Слайд 2

Сравнение двух средних

На предыдущих семинарах мы обсуждали сравнение двух средних значений
В случае

Сравнение двух средних На предыдущих семинарах мы обсуждали сравнение двух средних значений
нормального распределения применяют, например, t-тест
Если распределение не описывается нормальной кривой, для сравнения двух распределений используют, например, тест суммы рангов Уилкоксона (Манна-Уитни)

Слайд 3

Сравнение нескольких средних

 

Сравнение нескольких средних

Слайд 4

Однофакторный дисперсионный анализ

 

Однофакторный дисперсионный анализ

Слайд 5

Объединенная оценка дисперсии

Остатки отражают разброс данных вокруг средних значений по группам
Модель ANOVA

Объединенная оценка дисперсии Остатки отражают разброс данных вокруг средних значений по группам
предполагает, что распределение признака во всех группах нормальное и имеет одинаковую дисперсию
Объединенная (усредненная) оценка дисперсии по I группам будет иметь вид:
Тогда несмещенная оценка σ:
Группы с бо́льшим количеством наблюдений будут иметь больший вес

Слайд 6

Регрессия и ANOVA: одно и то же

Из модели множественной регрессии мы помним,

Регрессия и ANOVA: одно и то же Из модели множественной регрессии мы
что:
Модель ANOVA аналогична регрессионной модели, где роль линии регрессии выполняют средние по группам
Поэтому SSM записывают как SSG, что означает сумма квадратов отклонений каждого среднего от генерального среднего
Аналогично регрессии: SSE – сумма квадратов отклонений значений от внутригрупповых средних, SST – сумма квадратов отклонений каждого значения от генерального среднего

Слайд 7

F-тест для дисперсионного анализа

Несложно догадаться, что и
Степени свободы для всех отклонений

F-тест для дисперсионного анализа Несложно догадаться, что и Степени свободы для всех
и F-тест :
Подчиняется распределению F(I-1, N-I)

(Аналогично регрессии)

Слайд 8

Пример

Имеем 3 переменных, в каждой 3 наблюдения:

 

 

 

 

 

 

 

 

Пример Имеем 3 переменных, в каждой 3 наблюдения:

Слайд 9

Индивидуальные сравнения. Контрасты

 

Индивидуальные сравнения. Контрасты

Слайд 10

Пример расчета контрастов

 

 

 

Пример расчета контрастов

Слайд 11

Множественные сравнения

 

Множественные сравнения

Слайд 12

Что делать, если допущения нарушаются

Если распределения остаются предположительно нормально распределенными, но дисперсия

Что делать, если допущения нарушаются Если распределения остаются предположительно нормально распределенными, но
в группах гетерогенна
Если наибольшее и наименьшее стандартные отклонения различаются менее чем в 2 раза, то можно ничего не делать
Если различия дисперсий резкие, рекомендуется использовать F-тест Уэлча для разных дисперсий
Далее для множественных сравнений можно применить тест Геймса-Хоуэлла (Games-Howell test)
Эти методы менее мощные, чем классические, однако применимы даже при очень малых выборках

Слайд 13

Ранговый ANOVA

Если резко нарушаются допущения, можно обратиться к непараметрическим методам оценки
Самый неприятный

Ранговый ANOVA Если резко нарушаются допущения, можно обратиться к непараметрическим методам оценки
случай – когда возможны резкие выбросы, которые нельзя объяснить и убрать
Простые и примитивные непараметрические тесты – ранговые
На предыдущих семинарах мы рассматривали ранговые корреляции Спирмена и тесты попарных сравнений Уилкоксона
Дисперсионный анализ также можно произвести ранговыми методами. В этом случае мы тестируем общую нулевую гипотезу не F-тестом, а тестом Крускала-Уоллиса (Kruskal-Wallis test)

Слайд 14

Тест Крускала-Уоллиса

 

Тест Крускала-Уоллиса

Слайд 15

Тест Крускала-Уоллиса

Рассмотрим урожаи культуры при разном количестве сорняков:
Графики нормальных квантилей по группам:

Тест Крускала-Уоллиса Рассмотрим урожаи культуры при разном количестве сорняков: Графики нормальных квантилей по группам:

Слайд 16

Ранги наблюдений и суммы рангов по группам
Статистика Крускала-Уоллиса

Тест Крускала-Уоллиса

P = 0.1344

Ранги наблюдений и суммы рангов по группам Статистика Крускала-Уоллиса Тест Крускала-Уоллиса P = 0.1344