Регрессионный анализ

Содержание

Слайд 2

В основе регрессионного анализа лежит предположение, что зависимая переменная является функций одной

В основе регрессионного анализа лежит предположение, что зависимая переменная является функций одной
или нескольких независимых переменных. Тогда, зная значения независимых переменных, мы можем сделать прогноз об изменении зависимой переменной.
Регрессионный анализ предполагает построение регрессионного уравнения, его оценку и анализ.

Определение

Слайд 3

Простейшей регрессионной моделью является парная линейная регрессия.
Уравнение парной линейной регрессии в

Простейшей регрессионной моделью является парная линейная регрессия. Уравнение парной линейной регрессии в
общем виде следующее:
у=b0+b1x , где
b0 – свободный член уравнения регрессии (Константа);
b1 –коэффициент уравнения регрессии.

Уравнение парной линейной регрессии

Слайд 4

Зависимая (результирующая) переменная должна быть непрерывной количественной переменной. Независимая переменная должна быть

Зависимая (результирующая) переменная должна быть непрерывной количественной переменной. Независимая переменная должна быть
непрерывной или дихотомической. Категориальные независимые переменные с более чем двумя значениями перекодируются в набор дихотомических переменных.
Изучаемая совокупность должна быть достаточно большой, чтобы показатели связей были статистически надежными (число единиц совокупности должно превосходить число коррелируемых переменных не менее чем в 6-8 раз).

Требования к исходным данным регрессионного анализа

Слайд 5

Каждое значение зависимой переменной должно быть независимо от других значений. Такие зависимости

Каждое значение зависимой переменной должно быть независимо от других значений. Такие зависимости
возникают если опрашивать одного и того же респондента в разные периоды времени или опрашивать респондентов, объединенных в группы (семья, бригада и т. д.).
Распределение зависимой переменной должно быть близким к нормальному и не иметь явных выбросов.
Должно выполняться требование гомоскедактичности, что означает, что ошибки не становятся меньше, если уменьшается значение у и не растут с увеличением значений у. Это предположение проверяется при построении диаграммы рассеяния между стандартизованными остатками и стандартизованными предсказанными значениями. Если облако рассеяния овальное – данные гомоскедактичные. Если облако рассеяния принимает форму конуса, требование гомоскедактичности нарушается и данные являются гетероскедактичными.

Требования к исходным данным регрессионного анализа

Слайд 6

Ошибка предсказания для каждого значения не должна зависеть от ошибки предсказания других

Ошибка предсказания для каждого значения не должна зависеть от ошибки предсказания других
значений (тест Дарбина-Уотсона), остатки должны быть нормально распределены (график остатков).
Для случая множественной регрессии должно отсутствовать явление мультиколлинеарности, которое возникает, когда независимые переменные сильно коррелируют между собой. Такого рода корреляция может оказать сильное воздействие на зависимый признак и это уже будет иное воздействие, чем независимых переменных по отдельности.

Требования к исходным данным регрессионного анализа

Слайд 7

Построить уравнение парной линейной регрессии для переменных «Возраст» и «Заболевания зубов» (измеренной

Построить уравнение парной линейной регрессии для переменных «Возраст» и «Заболевания зубов» (измеренной
по пятибалльной шкале, где 0 - здоровые зубы, а 4 – наибольшая степень развития заболевания)

Пример:

Слайд 8

Теоретически мы должны доказать, что изучение связи между причиной и следствием имеет

Теоретически мы должны доказать, что изучение связи между причиной и следствием имеет
смысл.
Причина всегда по времени должна предшествовать следствию.
Причина должна коррелировать со следствием.

Проверка причинно-следственной связи

Слайд 9

Рассмотрим корреляцию переменных «Возраст» и «Заболевания зубов»

Рассмотрим корреляцию переменных «Возраст» и «Заболевания зубов»

Слайд 10

Analyze/ Анализ ? Correlation/Корреляции ? Bivariate/Парные

Проверка на наличие корреляции возраста и заболевания

Analyze/ Анализ ? Correlation/Корреляции ? Bivariate/Парные Проверка на наличие корреляции возраста и заболевания зубов
зубов

Слайд 11

Выполнение команды:
Analyze/Анализ ? Regression/Регрессия ? Linear/Линейная
В поле Dependent
Имя зависимой переменной
В поле Independent(s)
Имя

Выполнение команды: Analyze/Анализ ? Regression/Регрессия ? Linear/Линейная В поле Dependent Имя зависимой
независимой переменной OK

Построение парной линейной регрессии

Слайд 13

Кнопка «Статистики/Statistics» - активизируем вычисление теста Дарбина-Уотсона;
Кнопка «Графики/Plots» - помечаем вывод в

Кнопка «Статистики/Statistics» - активизируем вычисление теста Дарбина-Уотсона; Кнопка «Графики/Plots» - помечаем вывод
отчет графиков стандартизованных остатков (Гистограмма, Нормальный вероятностный график), а также задаем Диаграмму рассеяния стандартизованных предсказанных значений (ZRESID по оси Х) и стандартизованных остатков (ZPRED по оси У)

Дополнительные настройки

Слайд 14


у=1,295+0,033x

Результаты выполнения команд регрессионного анализа

у=1,295+0,033x Результаты выполнения команд регрессионного анализа

Слайд 15

Анализ качества регрессионной модели

Анализ качества регрессионной модели

Слайд 16

Диаграмма рассеяния стандартных остатков и стандартизированных предсказанных значений, проверка гомоскедактичности

Диаграмма рассеяния стандартных остатков и стандартизированных предсказанных значений, проверка гомоскедактичности

Слайд 17


явление гомоскедактичности отсутствует
Остатки гомоскедактичные

Диаграмма рассеяния остатков

явление гомоскедактичности отсутствует Остатки гомоскедактичные Диаграмма рассеяния остатков

Слайд 18

Множественная линейная регрессия

В большинстве задач следствие не может быть объяснено одной единственной

Множественная линейная регрессия В большинстве задач следствие не может быть объяснено одной
причиной; как правило, приходится изучать влияние на него нескольких причин одновременно. Для исследования такой множественной связи используется уравнение множественной линейной регрессии:

Слайд 19

Построить уравнение множественной линейной регрессии для зависимой переменной «Заболевания зубов» и независимых

Построить уравнение множественной линейной регрессии для зависимой переменной «Заболевания зубов» и независимых
переменных «Возраст», «Периодичность чистки зубов».

Пример:

Слайд 20

Выполнение команды:
Analyze ? Regression ? Linear
В поле Dependent
Имя зависимой переменной
В поле Independent(s)
Имена

Выполнение команды: Analyze ? Regression ? Linear В поле Dependent Имя зависимой
независимых переменных
Дополнительные вычисления аналогичны парной регрессии

Множественная линейная регрессия

Слайд 21

В случае множественной регрессии можно использовать установленный по умолчанию метод Enter (включения

В случае множественной регрессии можно использовать установленный по умолчанию метод Enter (включения
всех переменных в модель одновременно)
или специальный пошаговый метод Stepwise (модель строиться не для всех исходных причин сразу, а пошагово в модель включаются новые причины, оговоренные в условии)

Выбор метода анализа

Слайд 22

Корреляционная таблица

Корреляционная таблица

Слайд 23

Результаты множественной линейной регрессии (метод Enter)

Уравнение множественной регрессии
у=2,461+0,033возраст - 0,05щетки – 0,528чистки

Стандартизованное

Результаты множественной линейной регрессии (метод Enter) Уравнение множественной регрессии у=2,461+0,033возраст - 0,05щетки
уравнение множественной регрессии
у=0,439возраст - 0,153щетки – 0,282чистки

Слайд 24

Качество множественной линейной регрессии. Метод Enter

Качество множественной линейной регрессии. Метод Enter

Слайд 25


Результаты множественной линейной регрессии (метод Stepwise)

Результаты множественной линейной регрессии (метод Stepwise)