Множественные связи. Порядковые и категоризованные переменные

Содержание

Слайд 2

Линейная зависимость
от нескольких объясняющих переменных

2

Парные коэффициенты корреляции ryx(i) не учитывают влияние на

Линейная зависимость от нескольких объясняющих переменных 2 Парные коэффициенты корреляции ryx(i) не
эту связь других переменных x(j). Следовательно, необходим измеритель связи, очищенный от опосредованного влияния других переменных, т.е. дающий оценку тесноты связи между y и x(i) при условии, что ос-тальные переменные зафиксированы на некотором постоянном уровне.

Предположение: простой (линейный) характер влияния всех остальных переменных на y:

Обозначим для удобства y ≡ x(0).

Rij – алгебраическое дополнение для rij в
определителе корреляционной матрицы.

Rij = (–1)i+j det Aij, матрица Aij получена из R
вычеркиванием i-строки и j-столбца.

Слайд 3

Частные (очищенные)
коэффициенты корреляции

3

– частный коэффициент корреляции, коэффициент кор-реляции между переменными x(i) и

Частные (очищенные) коэффициенты корреляции 3 – частный коэффициент корреляции, коэффициент кор-реляции между
x(j) при фиксиро-ванных значениях всех остальных переменных.

Случай трех переменных:

Свойства частных коэффициентов корреляции:
Проверка гипотезы о наличии/отсутствии связи, а также построение до-верительного интервала для частного коэффициента корреляции k-по-рядка (при исключении влияния k переменных) происходит по тем же формулам, что и для парного коэффициента корреляции с единственным отличием: объем выборки уменьшается на k.

Слайд 4

Численные примеры

4

n = 37 – число исследуемых предприятий легкой промышленности,
x(0) ≡ y

Численные примеры 4 n = 37 – число исследуемых предприятий легкой промышленности,
– качество ткани (в баллах),
x(1) – среднемесячное число профилактических наладок автоматич. линии,
x(2) – среднемесячное число обрывов нити.

Пример 1:

При нахождении доверительного интервала корректируем n = 37 – 1 = 36.

Связь есть, что согласуется с профессиональными представлениями!

Слайд 5

Численные примеры

5

n = 20 – число лет метеонаблюдений,
x(0) ≡ y – урожайность

Численные примеры 5 n = 20 – число лет метеонаблюдений, x(0) ≡
кормовых трав,
x(1) – весеннее количество осадков,
x(2) – накопленная за весну сумма активных (выше +5,5°С) температур.

Пример 2:

Связь со второй переменной не отрицательная, а слабая положи-тельная, что согласуется с профессиональными представлениями!

Слайд 6

Множественный
коэффициент корреляции

6

Множественный коэффициент корреляции – коэффициент корреляции между y и линейной функцией

Множественный коэффициент корреляции 6 Множественный коэффициент корреляции – коэффициент корреляции между y
регрессии, т.е. между y и наилучшей ли-нейной комбинацией переменных x(1),…,x(p) – той, для которой значение коэффициента корреляции максимально.

Свойства множественного коэффициента корреляции:
1. При предположении о линейности связи
2. Вычисление множественного коэффициента корреляции по корреля-ционной матрице:

Слайд 7

Множественный
коэффициент корреляции

7

Свойства множественного коэффициента корреляции:
3. Вычисление МКК по частным коэффициентам корреляции:
4. МКК

Множественный коэффициент корреляции 7 Свойства множественного коэффициента корреляции: 3. Вычисление МКК по
мажорирует все парные и частные КК, характеризующие стати-стическую связь: где Ij – любое подмножество {1,…,p}, не содержащее j.
5. Присоединение новой переменной не может уменьшить величины R вне зависимости от порядка присоединения:

Слайд 8

Проверка гипотезы о наличии
множественной линейной связи

8

1. Выбираем уровень значимости α.
Типичные значения

Проверка гипотезы о наличии множественной линейной связи 8 1. Выбираем уровень значимости
α = 0,05; 0,1; 0,01, 0,001.
2. Вычисляем эмпирическое значение критерия:
3. Вычисляем критическую точку:
FРАСПОБР (α; p; n – p – 1).
4. Сравниваем эмпирическое и критическое значение и делаем вывод:
Если Fэмп > Fкрит , то гипотеза H0 об отсутствии множественной линей-ной связи отвергается при уровне значимости α, связь есть.

Гипотеза о статистической независимости y и x(1),…, x(p) H0: Ry.X = 0.

Слайд 9

Корреляционный анализ
порядковых переменных

9

Типовые задачи:
1. Анализ структуры упорядочений.
Точки разбросаны равномерно, нет согласованности между

Корреляционный анализ порядковых переменных 9 Типовые задачи: 1. Анализ структуры упорядочений. Точки
пере-менными.
Часть из p переменных близки между собой.
Часть из n объектов близки между собой.
2. Анализ совокупной согласованности переменных.
## Исследование степени согласованности мнений экспертов.
3. Построение единого группового упорядочения объектов, т.е. ран-жировки x(0), минимально удаленной от x(1),…, x(p).

x(1),…, x(p) – порядковые переменные (обозначающие порядковое место в ряду, отсортированному по соответствующему показателю).

Объединенные ранги:
Если есть неразличимые по некоторому свойству объекты, им всем приписывается единый ранг, равный среднему арифметическому.

Слайд 10

Ранговый коэффициент
корреляции Спирмена

10

Базовая формула:

Свойства коэффициента Спирмена:

m(k) – число групп объединенных рангов,
nt(k) –

Ранговый коэффициент корреляции Спирмена 10 Базовая формула: Свойства коэффициента Спирмена: m(k) –
число элементов в каждой групп.

Формула для случая объединенных рангов:

Слайд 11

Численные примеры

11

10 инвестиционных проектов,
проранжированных 2 экспертами.

Пример 1:

10 стран, проранжированных по уровню жизни

Численные примеры 11 10 инвестиционных проектов, проранжированных 2 экспертами. Пример 1: 10
и качеству институтов.

Пример 2:

Недостатки коэффициента Спирмена:
Недостаточная изученность статистических свойств.
Невозможность построения частных коэффициентов корреляции.
Необходимость полного пересчета при добавлении объекта.

Слайд 12

Ранговый коэффициент
корреляции Кендалла

12

Базовая формула:

Свойства коэффициента Кендалла:

минимальное число обменов со-седних элементов переменной x(j)

Ранговый коэффициент корреляции Кендалла 12 Базовая формула: Свойства коэффициента Кендалла: минимальное число
для ее приведения к виду x(k).

Расчет числа обменов неудобен, v – также число инверсий (число рас-положенных в разном порядке пар элементов из x(k) и x(j).
Удобно произвести сортировку данных по одной из переменных!

Слайд 13

Ранговый коэффициент
корреляции Кендалла

13

Формула для случая объединенных рангов:

Пример 1:

Пример 2:

Ранговый коэффициент корреляции Кендалла 13 Формула для случая объединенных рангов: Пример 1: Пример 2:

Слайд 14

Проверка гипотезы о наличии
связи между порядковыми переменными

14

Связь есть, если
или

0,915 > СТЬЮДРАСПОБР ,

Проверка гипотезы о наличии связи между порядковыми переменными 14 Связь есть, если
0,915 > 0,392.

0,778 > НОРМСТОБР(0,975) , 0,778 > 0,487.

Неравенства утверждают, что связь есть при уровне значимости α = 0,05.

Доверительный интервал
для коэффициента Кендалла

Интервал приближенный, формулу использовать для больших выборок!

Слайд 15

Связь между несколькими
порядковыми переменными

15

Коэффициент конкордации:

n – число объектов,
m – число переменных,
k1,…,km –

Связь между несколькими порядковыми переменными 15 Коэффициент конкордации: n – число объектов,
номера переменных.

– при наличии объединенных рангов.

Свойства коэффициента конкордации:

W(m) ∈ [0;1],
W(m) = 1 при полном совпадении переменных,
W(m) = 0, когда распределение случайно.

Коэффициент конкордации не может быть отрицательным:

Слайд 16

Численный пример

16

Ранжировка 10 инвестиционных проектов, осуществленная 3 экспертами.

2 2
2 2 2
4 3

Численный пример 16 Ранжировка 10 инвестиционных проектов, осуществленная 3 экспертами. 2 2

Слайд 17

Проверка гипотезы о наличии
связи между несколькими
порядковыми переменными

17

Связь есть, если

Пример 1:

22,35 > 16,92

Проверка гипотезы о наличии связи между несколькими порядковыми переменными 17 Связь есть,
⇒ связь между 3 переменными есть при α = 0,05.

Пример 2:

26,88 > 21,03 ⇒ связь между 28 переменными есть при α = 0,05.

Замечание: при большом количестве переменных даже малого значения коэффициента конкордации достаточно для вывода о наличии связи.

Слайд 18

Корреляционный анализ
категоризованных переменных

18

x(1), x(2) – категоризованные переменные (переменные, описываемые конечным числом состояний).
##

Корреляционный анализ категоризованных переменных 18 x(1), x(2) – категоризованные переменные (переменные, описываемые
пол, социальная страта, сезон, фирма-производитель,…

Таблица сопряженности:

Статистическая независимость переменных:

Чем больше отклонение, тем больше показатель связи:

Слайд 19

Случаи тесной связи
и независимости переменных

19

## x(1) – пол (муж/жен), x(2) – уровень

Случаи тесной связи и независимости переменных 19 ## x(1) – пол (муж/жен),
зарплаты (высокая/низкая), n = 100.

Максимально тесная связь, знание значения одной переменной позво-ляет восстановить значение другой.

Полное отсутствие связи, знание значения одной переменной не позволяет сделать никаких выводов о значении другой.

Полное отсутствие связи, знание значения одной переменной не позволяет сделать никаких выводов о значении другой.

Слайд 20

Квадратичная сопряженность –характеристика тесноты связи

20

Квадратичная сопряженность: два способа расчета:

Проверка гипотезы о наличии

Квадратичная сопряженность –характеристика тесноты связи 20 Квадратичная сопряженность: два способа расчета: Проверка
связи:

⇒ связь есть при уровне значимости α.

Коэффициент Крамера:

Недостатком квадратичной сопряженности является неограниченность ее значений: при n → ∞ X 2 → ∞. Следовательно, желательно построить другой показатель, находящийся в привычном диапазоне [0; 1].

Слайд 21

Численный пример

21

Зависимость оплаты труда (низкая; средняя; высокая) от образования (неполное среднее; среднее;

Численный пример 21 Зависимость оплаты труда (низкая; средняя; высокая) от образования (неполное
среднее специальное; высшее; высшее со степенью), n = 300.

Равномерное распределение

56,48 > 26,12 ⇒ связь есть при α=0,001.

Имя файла: Множественные-связи.-Порядковые-и-категоризованные-переменные.pptx
Количество просмотров: 31
Количество скачиваний: 0