Парная регрессия и корреляция. Тема 2

Содержание

Слайд 2

Тема 2. Парная регрессия и корреляция

2.1. Основные цели и задачи регрессионного анализа
2.2.

Тема 2. Парная регрессия и корреляция 2.1. Основные цели и задачи регрессионного
Постановка задачи, основные предположения регрессионного анализа
2.3. Парная линейная регрессия и метод наименьших квадратов
2.4. Меры вариации в уравнении регрессии
2.5. Проверка гипотез в модели парной регрессии
2.6. Прогнозирование в регрессионных моделях

Слайд 3

Виды связи между явлениями
(переменными Y и X):
Функциональная (жестко детерминированная). ПеременныеY

Виды связи между явлениями (переменными Y и X): Функциональная (жестко детерминированная). ПеременныеY
и X являются неслучайными, значения Y полностью определяются соответствующими значениями X, т.е.Y является некоторой функцией от переменной X (например, зависимость длины окружности от радиуса).
Стохастическая (случайно детерминированная). Зависимость Y от X проявляется в среднем (в массе случаев). В каждом отдельном случае может не проявиться в силу случайных обстоятельств. Это зависимость среднего значения Y от изменения X (например, зависимость потребления мяса от дохода):
- Регрессионная. Y является случайной переменной, а X – неслучайной.
- Корреляционно-регрессионная. Y и X являются случайными по своей сущности.

Слайд 4

По направлению связи различают:

а) прямую;
б) обратную.

По направлению связи различают: а) прямую; б) обратную.

Слайд 5

По виду аналитической функции различают:

а) линейную связь;
б) нелинейную связь.

По виду аналитической функции различают: а) линейную связь; б) нелинейную связь.

Слайд 6

Постановка задачи регрессии


Будем предполагать, что объясняющая переменная X оказывает воздействие

Постановка задачи регрессии Будем предполагать, что объясняющая переменная X оказывает воздействие на
на значения переменной Y, которая, таким образом, является зависимой переменной, т.е. имеет место зависимость
Y=f(X)

Слайд 7

Постановка задачи регрессии

Пусть мы располагаем n парами выборочных наблюдений над двумя

Постановка задачи регрессии Пусть мы располагаем n парами выборочных наблюдений над двумя
переменными X и Y: X1, …, Xn; Y1, …, Yn
Функция f(X) называется функцией регрессии Y по X, если она описывает изменение условного среднего значения результирующей переменной Y в зависимости от изменения значений объясняющей переменной X:
f(X)=E(Y | X).

Слайд 8

Модель регрессии между Y и X имеет вид
Yi =f(Xi)+εi,
i=1,…,n,

Модель регрессии между Y и X имеет вид Yi =f(Xi)+εi, i=1,…,n, f(X)

f(X) - функция регрессии Y по X
ε – случайная составляющая (случайный член, возмущение).

Слайд 9

Выбор вида аналитической функции f(X)

используется априорная информация о содержательной экономической сущности

Выбор вида аналитической функции f(X) используется априорная информация о содержательной экономической сущности
анализируемой зависимости – аналитический способ,
предварительный анализ зависимости с помощью визуализации – графический способ,
использование различных статистических приемов обработки исходных данных и экспериментальных расчетов.

Слайд 10

Парная линейная регрессия и корреляция

Пусть функция f – линейная.
Тогда модель парной линейной

Парная линейная регрессия и корреляция Пусть функция f – линейная. Тогда модель
регрессии примет вид:
Yi = β0+β1Xi+εi,
i=1,…,n,
где:
β0 - свободный член (константа);
β1 – коэффициент регрессии;
ε – случайная составляющая.

Слайд 11

Показатели направления и степени тесноты связи

Для того чтобы иметь основание включить объясняющую

Показатели направления и степени тесноты связи Для того чтобы иметь основание включить
переменную X в модель регрессии, необходимо, чтобы между переменными X и Y существовала значимая статистическая связь.
Для оценки направления и степени тесноты статистической связи используются коэффициенты ковариации, корреляции, эмпирическое и теоретическое корреляционные отношения.
Направление линейной связи можно определить с помощью линейного коэффициента ковариации.
Направление и степень тесноты линейной связи – с помощью линейного коэффициента корреляции К.Пирсона.

Слайд 12

Коэффициент ковариации

Коэффициент ковариации

Слайд 13

Для выявления влияния стажа работы (X) в годах на выработку (Y) в

Для выявления влияния стажа работы (X) в годах на выработку (Y) в
штуках в смену из большого количества рабочих отобраны 5 человек. Ниже приведены результаты обследования.

Слайд 14

Задание

Оценить параметры модели парной линейной регрессии;
Записать уравнение регрессии;
Проверить значимость уравнения регрессии в

Задание Оценить параметры модели парной линейной регрессии; Записать уравнение регрессии; Проверить значимость
целом;
Проверить значимость оценок параметров модели регрессии;
Найти границы 95%-ных доверительных интервалов параметров линейной модели регрессии;
Дать интерпретацию полученных результатов.

Слайд 15

Рассчитать:

Среднюю арифметическую
Моду
Медиану
Дисперсию: а) неисправленную; б) исправленную
Среднее квадратическое отклонение
Коэффициент вариации
Коэффициент асимметрии
Коэффициент эксцесса
Коэффициент ковариации
Коэффициент

Рассчитать: Среднюю арифметическую Моду Медиану Дисперсию: а) неисправленную; б) исправленную Среднее квадратическое
корреляции
Коэффициент детерминации

Слайд 16

Расчет коэффициента ковариации

Расчет коэффициента ковариации

Слайд 17

 

Линейный коэффициент корреляции К.Пирсона

Линейный коэффициент корреляции К.Пирсона

Слайд 18

 

Дисперсия

 

Дисперсия

Слайд 20

 

Дисперсия

 

Дисперсия

Слайд 21

Cреднее квадратическое отклонение

 

 

Cреднее квадратическое отклонение

Слайд 22

Cреднее квадратическое отклонение

 

 

Cреднее квадратическое отклонение

Слайд 23

 

Линейный коэффициент корреляции К.Пирсона

Линейный коэффициент корреляции К.Пирсона

Слайд 24

 

Коэффициент детерминации

Коэффициент детерминации

Слайд 25

Коэффициент детерминации показывает, какая часть колеблемости (вариации) Y объясняется колеблемостью (вариацией) X.
Коэффициент

Коэффициент детерминации показывает, какая часть колеблемости (вариации) Y объясняется колеблемостью (вариацией) X.
детерминации показывает, на сколько процентов Y зависит от X.

Слайд 26

Проверка значимости коэффициента корреляции

Формулируем гипотезы
(линейной корреляцонной связи между X и

Проверка значимости коэффициента корреляции Формулируем гипотезы (линейной корреляцонной связи между X и
Y нет; коэффициент корреляции не значим)
(между X и Y есть линейная корреляцонная связь; коэффициент корреляции значим)

Слайд 27

 

Устанавливаем уровень значимости α

Устанавливаем уровень значимости α

Слайд 28

 

Находим наблюдаемое значение критерия

 

Находим наблюдаемое значение критерия

Слайд 29

 

Находим наблюдаемое значение критерия

 

Находим наблюдаемое значение критерия

Слайд 30

 

Находим критическое значение критерия по таблице Стьюдента по уровню значимости α и

Находим критическое значение критерия по таблице Стьюдента по уровню значимости α и
по числу степеней свободы k=n-m

 

Слайд 31

Критические точки распределения Стьюдента

Критические точки распределения Стьюдента

Слайд 32

Если |tнабл.| > tкр., то нулевая гипотеза отклоняется в пользу альтернативной о

Если |tнабл.| > tкр., то нулевая гипотеза отклоняется в пользу альтернативной о
статистической значимости коэффициента корреляции.
Если |tнабл.| ≤ tкр., оснований отклонять нулевую гипотезу нет.

Слайд 33


С надежностью, большей 0,95, и риском ошибиться, меньшим 0,05, можно утверждать,

С надежностью, большей 0,95, и риском ошибиться, меньшим 0,05, можно утверждать, что
что между X и Y (между стажем и выработкой) в генеральной совокупности (для всех рабочих) существует линейная корреляционная связь.

3,58 > 3,18

Слайд 34

Доверительный интервал коэффициента корреляции в генеральной совокупности

 

 

 

Доверительный интервал коэффициента корреляции в генеральной совокупности

Слайд 35


С надежностью 0,95 и риском ошибиться 0,05 можно утверждать, что коэффициент

С надежностью 0,95 и риском ошибиться 0,05 можно утверждать, что коэффициент корреляции
корреляции между X и Y (между стажем и выработкой) в генеральной совокупности (для всех рабочих) находится в интервале от 0,1 до 1.

Слайд 36

Модель парной линейной регрессии

Y = β0+β1X+ε,
где:
β0 - свободный член (константа);
β1

Модель парной линейной регрессии Y = β0+β1X+ε, где: β0 - свободный член
– коэффициент регрессии;
ε – случайная составляющая.

Слайд 37

Задачи регрессионного анализа
Для любых значений объясняющей переменной X построить наилучшие по

Задачи регрессионного анализа Для любых значений объясняющей переменной X построить наилучшие по
некоторому критерию оценки для неизвестной функции f(X).
По заданным значениям объясняющей переменной X построить наилучший по некоторому критерию прогноз для неизвестного значения результирующей переменной Y(X).

Слайд 38

Эмпирическое уравнение регрессии:

 

Эмпирическое уравнение регрессии:

Слайд 40

Модель и уравнение регрессии

 

Модель и уравнение регрессии

Слайд 41

Если связь между переменными X и Y функциональная, наблюдения будут в точности

Если связь между переменными X и Y функциональная, наблюдения будут в точности лежать на прямой линии.
лежать на прямой линии.

Слайд 42

В действительности, большинство экономических связей не являются функциональными и наблюдаемые значения Y

В действительности, большинство экономических связей не являются функциональными и наблюдаемые значения Y
отличаются от тех, которые лежат на одной прямой.

Слайд 43

На практике мы наблюдаем только точки P.

На практике мы наблюдаем только точки P.

Слайд 44

Очевидно, мы можем использовать точки P для поиска линии, которая приближает Y

Очевидно, мы можем использовать точки P для поиска линии, которая приближает Y
= β0 + β1X+ε. Если записать уравнение прямой то будет оценкой β0 и оценкой β1.

 

 

 

 

 

Слайд 45

Уравнение регрессии – лишь оценка модели регрессии.

 

 

Уравнение регрессии – лишь оценка модели регрессии.

Слайд 46

 

 

 

 

y

x

)

 

 

 

y x )

Слайд 47

 

 

 

 

 

 

 

y

x

Метод наименьших квадратов

y x Метод наименьших квадратов

Слайд 50

Принцип метода наименьших квадратов
(МНК) заключается в выборе таких оценок b0

Принцип метода наименьших квадратов (МНК) заключается в выборе таких оценок b0 и
и b1, для которых сумма квадратов остатков (ошибок) (e) для всех точек становится минимальной.

 

Слайд 51

 

Для определения оценок параметров модели регрессии b0 и b1 необходимо минимизировать выражение:

Для определения оценок параметров модели регрессии b0 и b1 необходимо минимизировать выражение:

Слайд 53

 

Отсюда получим формулы расчета оценок параметров модели регрессии

 

Отсюда получим формулы расчета оценок параметров модели регрессии

Слайд 54

Для выявления влияния стажа работы (X) в годах на выработку (Y) в

Для выявления влияния стажа работы (X) в годах на выработку (Y) в
штуках в смену из большого количества рабочих отобраны 5 человек. Ниже приведены результаты обследования.

Слайд 55

 

Расчет оценок параметров модели регрессии

 

Расчет оценок параметров модели регрессии

Слайд 56

 

Уравнение регрессии

 

Уравнение регрессии

Слайд 57

Интерпретация коэффициента регрессии

Коэффициент регрессии b1 показывает на сколько единиц увеличится (уменьшится) в

Интерпретация коэффициента регрессии Коэффициент регрессии b1 показывает на сколько единиц увеличится (уменьшится)
среднем значение зависимой переменной Y (в единицах измерения переменной Y) при увеличении (уменьшении) значения объясняющей переменной Х на одну единицу (в единицах измерения переменной Х).

Слайд 58

Интерпретация константы

Константа b0 показывает базисный (начальный) уровень, т.е. значение зависимой переменной Y

Интерпретация константы Константа b0 показывает базисный (начальный) уровень, т.е. значение зависимой переменной
при условии, что объясняющая переменная Х равна нулю.
В случае, если такая интерпретация лишена экономического смысла, константа интерпретируется как параметр, отражающий агрегированное влияние переменных, не включенных в модель.

Слайд 59

Интерпретация коэффициента регрессии

Коэффициент регрессии b1 показывает, что при увеличении стажа на 1

Интерпретация коэффициента регрессии Коэффициент регрессии b1 показывает, что при увеличении стажа на
год выработка в среднем увеличится на 1,8 штуки в смену.

Слайд 60

Интерпретация константы

Константа b0 показывает, что средняя выработка рабочего, не имеющего стажа, составит

Интерпретация константы Константа b0 показывает, что средняя выработка рабочего, не имеющего стажа,
0,6 штуки в смену.

Слайд 61

Проверка статистической значимости уравнения регрессии в целом.

Y не зависит от всех X,

Проверка статистической значимости уравнения регрессии в целом. Y не зависит от всех
включенных в модель (уравнение в целом не значимо)
Y зависит от всех X (вместе взятых), включенных в модель (уравнение в целом значимо)

Сформулируем гипотезы:

Слайд 62

 

Устанавливаем уровень значимости α

Устанавливаем уровень значимости α

Слайд 63

Найдем наблюдаемое значение критерия
где n – число наблюдений,
m – число параметров

Найдем наблюдаемое значение критерия где n – число наблюдений, m – число
в модели регрессии (для парной регрессии m=2)

Слайд 64

Расчет SSR, SSE и SST

Расчет SSR, SSE и SST

Слайд 65

Расчет SSR, SSE и SST

Расчет SSR, SSE и SST

Слайд 66

Найдем наблюдаемое значение критерия

 

Найдем наблюдаемое значение критерия

Слайд 67

По таблице распределения Фишера найдем критическое значение критерия:

По таблице распределения Фишера найдем критическое значение критерия:

Слайд 69

Если Fнабл.>Fкр., то нулевая гипотеза отклоняется в пользу альтернативной о статистической

Если Fнабл.>Fкр., то нулевая гипотеза отклоняется в пользу альтернативной о статистической значимости
значимости уравнения регрессии в целом. Если Fнабл.≤Fкр., оснований отклонять нулевую гипотезу нет.

Слайд 70

12,79>10,13
С надежностью, большей 0,95, и риском ошибиться, меньшим 0,05, можно утверждать,

12,79>10,13 С надежностью, большей 0,95, и риском ошибиться, меньшим 0,05, можно утверждать,
что Y (выработка) зависит от всех Х, включенных в модель (от стажа).

Слайд 71

Проверка статистической значимости коэффициента регрессии

Сформулируем гипотезы

Y не зависит от данного конкретного X

Проверка статистической значимости коэффициента регрессии Сформулируем гипотезы Y не зависит от данного
(коэффициент регрессии не значим)
Y зависит от данного конкретного X (коэффициент регрессии значим)

Слайд 72

 

Устанавливаем уровень значимости α

Устанавливаем уровень значимости α

Слайд 73

 

Находим наблюдаемое значение критерия

 

 

Находим наблюдаемое значение критерия

Слайд 74

Стандартная ошибка уравнения регрессии

 

 

Стандартная ошибка уравнения регрессии

Слайд 75

Стандартная ошибка коэффициента регрессии

 

Стандартная ошибка коэффициента регрессии

Слайд 76

 

Находим наблюдаемое значение критерия

Находим наблюдаемое значение критерия

Слайд 77

 

Находим критическое значение критерия по таблице Стьюдента по уровню значимости α и

Находим критическое значение критерия по таблице Стьюдента по уровню значимости α и
по числу степеней свободы k=n-m

 

Слайд 78

Критические точки распределения Стьюдента

Критические точки распределения Стьюдента

Слайд 79

Если |tнабл.|>tкр.,то нулевая гипотеза отклоняется в пользу альтернативной о статистической значимости коэффициента

Если |tнабл.|>tкр.,то нулевая гипотеза отклоняется в пользу альтернативной о статистической значимости коэффициента
регрессии.
Если |tнабл.|≤ tкр., оснований отклонять нулевую гипотезу нет.

Слайд 80

3,58>3,18
С надежностью, большей 0,95, и риском ошибиться, меньшим 0,05, можно утверждать,

3,58>3,18 С надежностью, большей 0,95, и риском ошибиться, меньшим 0,05, можно утверждать,
что Y (выработка) зависит от данного конкретного Х (от стажа).

Слайд 81

Проверка статистической значимости константы

Сформулируем гипотезы

Константа не значима (незначимо отличается от 0)
Константа значима

Проверка статистической значимости константы Сформулируем гипотезы Константа не значима (незначимо отличается от
(значимо отличается от 0)

Слайд 82

 

Устанавливаем уровень значимости α

Устанавливаем уровень значимости α

Слайд 83

Наблюдаемое значение критерия

 

Наблюдаемое значение критерия

Слайд 84

Стандартная ошибка константы:

 

 

Стандартная ошибка константы:

Слайд 85

Наблюдаемое значение критерия

Наблюдаемое значение критерия

Слайд 86

 

Находим критическое значение критерия по таблице Стьюдента по уровню значимости α и

Находим критическое значение критерия по таблице Стьюдента по уровню значимости α и
по числу степеней свободы k=n-m

 

Слайд 87

Если |tнабл.|>tкр.,то нулевая гипотеза отклоняется в пользу альтернативной о статистической значимости

Если |tнабл.|>tкр.,то нулевая гипотеза отклоняется в пользу альтернативной о статистической значимости константы.
константы.
Если |tнабл.|≤ tкр., оснований отклонять нулевую гипотезу нет.

Слайд 88

0,36 < 3,18
На уровне значимости α=0,05 константа не значима.

0,36 На уровне значимости α=0,05 константа не значима.

Слайд 89

Доверительные интервалы неизвестных значений β1 и β0

 

 

Доверительные интервалы неизвестных значений β1 и β0

Слайд 90

Доверительный интервал неизвестного значения β1

 

 

 

Доверительный интервал неизвестного значения β1

Слайд 91


С надежностью 0,95 и риском ошибиться 0,05 можно утверждать, что коэффициент

С надежностью 0,95 и риском ошибиться 0,05 можно утверждать, что коэффициент регрессии
регрессии в генеральной совокупности (для всех рабочих) находится в интервале от 0,2 до 3,4.
При увеличении стажа на 1 год выработка в среднем увеличится от 0,2 до 3,4 штуки в смену.
Так как интервал не включает 0, коэффициент регрессии значим.

Слайд 92

Доверительный интервал неизвестного значения β0

 

 

 

Доверительный интервал неизвестного значения β0

Слайд 93


С надежностью 0,95 и риском ошибиться 0,05 можно утверждать, что константа

С надежностью 0,95 и риском ошибиться 0,05 можно утверждать, что константа в
в генеральной совокупности (для всех рабочих) находится в интервале от -4,71 до 5,91.
Так как интервал включает 0, константа не значима.

Слайд 94

Точечный прогноз по уравнению регрессии

Точечный прогноз по уравнению регрессии

Слайд 95

Точечный прогноз по уравнению регрессии

Точечный прогноз по уравнению регрессии

Слайд 97

Интервальный прогноз неизвестного среднего генерального значения Y

Интервальный прогноз неизвестного среднего генерального значения Y

Слайд 100

Интервальный прогноз неизвестного среднего генерального значения Y

Интервальный прогноз неизвестного среднего генерального значения Y

Слайд 101

С надежностью 0,95 можно утверждать, что средняя выработка рабочих со стажем 2.5

С надежностью 0,95 можно утверждать, что средняя выработка рабочих со стажем 2.5
года находится в интервале от 2,7 до 7,5 шт.

Слайд 102

Интервальный прогноз неизвестного индивидуального значения Y

Интервальный прогноз неизвестного индивидуального значения Y

Слайд 103

Интервальный прогноз неизвестного индивидуального значения Y

Интервальный прогноз неизвестного индивидуального значения Y
Имя файла: Парная-регрессия-и-корреляция.-Тема-2.pptx
Количество просмотров: 38
Количество скачиваний: 0