Корреляционный анализ

Содержание

Слайд 2

План
Понятие корреляционной связи
Виды корреляционных коэффициентов баз данных

План Понятие корреляционной связи Виды корреляционных коэффициентов баз данных

Слайд 3

Литература
Абрамов В.К. Корреляционный анализ в исторических исследованиях. Саранск, 1990.
Мазур Л.Н. Методы исторического

Литература Абрамов В.К. Корреляционный анализ в исторических исследованиях. Саранск, 1990. Мазур Л.Н.
исследования. Екатеринбург, 2011.
Миронов Б.Н. История в цифрах. Л, 1991.

Слайд 4

Причины использования метода в исторических исследованиях

Изучая историю, нетрудно заметить, что существует взаимосвязь

Причины использования метода в исторических исследованиях Изучая историю, нетрудно заметить, что существует
явлений и процессов, происходящих в природе и обществе, внутри общества, во времени и пространстве.
Оценка исторического факта предполагает выявление факторов способствовавших и препятствовавших его появлению,
а их оценка в историческом исследовании чаще всего бывает расплывчатой.
Читаем -"сильное влияние...", "решающее значение..","определенное воздействие…." и т.п.

Слайд 5

Причины использования метода в исторических исследованиях

Внести количественную определенность помогает корреляционная связь,
направленная

Причины использования метода в исторических исследованиях Внести количественную определенность помогает корреляционная связь,
на определение тесноты взаимосвязи признаков и степени воздействия различных факторов на изучаемый объект.
Констатировать наличие связи между признаками позволяют аналитические группировки,
Но:
они не дают возможность количественно выразить силу взаимодействия одного признака с другим (парная корреляция)
или же с совокупностью признаков (множественная корреляция).

Слайд 6

Причины использования метода в исторических исследованиях

Все связи, которые могут быть измерены, можно

Причины использования метода в исторических исследованиях Все связи, которые могут быть измерены,
считать статистическими,
частным случаем которых являются функциональные (жестко детерминированные).
Они возможны при условии, что на один из двух рассматриваемых признаков влияет только второй признак этой же пары и ничто больше.
В реальной природе, а тем более в общественной жизни таких связей нет.
На каждый исторический факт одновременно воздействует множество причин.

Слайд 7

Термин корреляция

употребляется в науке с конца XYIII века.
Его ввел французский палеонтолог

Термин корреляция употребляется в науке с конца XYIII века. Его ввел французский
Жорж Кювье,
основавший "закон корреляции",
согласно которому череп с рогами обязательно принадлежал травоядному животному, обладавшему копытными конечностями;
если же лапа имела когти, то животное
было хищным, без рогов, но с крупными клыками.

Слайд 8

Термин корреляция

Об этом законе сохранился рассказ о неудачной шутке студентов, пытавшихся во

Термин корреляция Об этом законе сохранился рассказ о неудачной шутке студентов, пытавшихся
время университетского карнавала напугать Кювье.
Ряженный в шкуре и маске с рогами крикнул профессору: "Я тебя съем!"
На что получил спокойный ответ, что рогатых хищников не бывает,
а за незнание закона корреляции можно получить плохую оценку.

Слайд 9

Термин корреляция

Это систематическая и обусловленная связь между двумя рядами данных
Или связь переменных,

Термин корреляция Это систематическая и обусловленная связь между двумя рядами данных Или
при которой одному значению признака соответствует несколько значений другого признака

Слайд 10

Корреляционная связь

Характеризует сложный механизм взаимодействия двух или нескольких признаков
При котором при изменении

Корреляционная связь Характеризует сложный механизм взаимодействия двух или нескольких признаков При котором
одного признака случайные варианты второго признака закономерно изменяются
И величина значений второго признака зависит от величины первого
(например, связь между ростом и весом человека;
посевной площадью и валовым сбором зерна,
понижением жизненного уровня и революционной активностью т.п.)

Слайд 11

Идея метода

Идея сопоставления колебаний значений признака относительно друг друга
Если численные значения одного

Идея метода Идея сопоставления колебаний значений признака относительно друг друга Если численные
признака изменяются одновременно со значением другого, то можно предположить, что между ними существует связь
Следовательно, метод позволяет приблизиться к пониманию причинно-следственных связей

Слайд 12

Пути возникновения корреляционной связи

Причинная зависимость предполагает, что один из пары рассматриваемых признаков

Пути возникновения корреляционной связи Причинная зависимость предполагает, что один из пары рассматриваемых
выступает как фактор,
второй - как результат.
Например, качество почвы может рассматриваться фактором урожайности сельскохозяйственных культур.

Слайд 13

Пути возникновения корреляционной связи

Существует корреляционная связь и между двумя следствиями одной причины.

Пути возникновения корреляционной связи Существует корреляционная связь и между двумя следствиями одной

Пример такой связи приводил крупнейший российский статистик начала XX в. Александр Александрович Чупров.
Рассматривались два признака –
количество пожарных команд в городе и
размер ущерба, причиненного городу от пожаров.
Выходило,
что, чем больше в городе пожарных, тем больше убытков от
пожаров.
Встал вопрос - не сократить ли пожарные команды?

Слайд 14

Пути возникновения корреляционной связи

В данном случае мы имеем дело не с причиной

Пути возникновения корреляционной связи В данном случае мы имеем дело не с
и следствием,
а с двумя следствиями общей причины - размером города.
Логично, что в крупных городах больше штат пожарных, т.к. чаще возникают пожары и ущерб огнем причиняется значительный.

Слайд 15

Пути возникновения корреляционной связи

Сложнее дело обстоит тогда, когда каждый из признаков
является одновременно

Пути возникновения корреляционной связи Сложнее дело обстоит тогда, когда каждый из признаков
и причиной, и следствием.
Здесь мы сталкиваемся со взаимосвязью, взаимозависимостью между признаками.
Например, размер оплаты труда зависит от его производительности,
но, в то же время, выступает в качестве стимула, а
значит, фактора повышения уровня производительности труда.

Слайд 16

Условия применения корреляционного анализа

1. Необходимо достаточное количество наблюдений для изучения.
На практике

Условия применения корреляционного анализа 1. Необходимо достаточное количество наблюдений для изучения. На
считается, что число наблюдений должно не менее чем в 5–6 раз превышать число факторов
(также встречается рекомендация использовать пропорцию, не менее чем в 10 раз превышающую количество факторов).

Слайд 17

Условия применения корреляционного анализа

2. Исходная совокупность значений должна быть качественно однородной.
3.

Условия применения корреляционного анализа 2. Исходная совокупность значений должна быть качественно однородной.
Сам по себе факт корреляционной зависимости не даёт основания утверждать, что одна из переменных предшествует или является причиной изменений, или то, что переменные вообще причинно связаны между собой,
а не наблюдается действие третьего фактора.

Слайд 18

Методика метода

Прежде, чем приступать непосредственно к корреляционному анализу,
надо проверить правомерность его

Методика метода Прежде, чем приступать непосредственно к корреляционному анализу, надо проверить правомерность
применения,
надо проверить, будут ли его результаты реально отражать историческую картину.

Слайд 19

Методика метода

Признаки, исследуемые методом корреляции, должны быть нормально распределены и линейно зависимы

Методика метода Признаки, исследуемые методом корреляции, должны быть нормально распределены и линейно
между собой.
Признак обладает свойством нормальности, если его
значения симметрично распределяются от "центра",
которым считается его средняя арифметическая величина.

Слайд 20

Методика метода

Проще всего проверить нормальность распределения графическим методом.
График нормально распределенного признака имеет

Методика метода Проще всего проверить нормальность распределения графическим методом. График нормально распределенного
колоколообразный вид с центром, совпадающим со значением средней арифметической

Слайд 21

Пример графического изображения нормального распределения

Пример графического изображения нормального распределения

Слайд 22

Нормальное распределение в социальных науках

В истории среди признаков, характеризующих развитие общества, нет

Нормальное распределение в социальных науках В истории среди признаков, характеризующих развитие общества,
строгой нормальности распределения.
Практика использования математических методов в общественных науках доказала целесообразность относить к нормальным распределения с незначительно нарушенной симметрией,
с перекосами в ту или иную сторону, с центром, совпадающим не со значением средней
арифметической,
а перенесенным в максимальное значение признака.
К нормальным можно причислять и графики V-образной
формы и "опрокинутые колоколы".

Слайд 23

Нормальное распределение в социальных науках

Нормальное распределение в социальных науках

Слайд 24

Методика метода

Свойство линейности в изучении взаимосвязи признаков
также служит необходимым предварительным условием использования

Методика метода Свойство линейности в изучении взаимосвязи признаков также служит необходимым предварительным
многих математических методов.
Линейная зависимость между двумя признаками характеризуется условием,
при котором с увлечением на единицу значений одного признака изменяются в ту или иную сторону значения второго.

Слайд 25

Методика метода

Проверка формы зависимости проводится с помощью графического метода.
В системе координат

Методика метода Проверка формы зависимости проводится с помощью графического метода. В системе
двух признаков точками
отмечаются имеющиеся данные.
Если пространство точек имеет вид прямой линии, то можно эту зависимость характеризовать как линейную, независимо от направления точечного скопления.

Слайд 26

Проверка формы зависимости проводится с помощью графического метода

Проверка формы зависимости проводится с помощью графического метода

Слайд 27

Методика метода

Так же, как и нормальности, строгой линейности в истории не существует.

Методика метода Так же, как и нормальности, строгой линейности в истории не
Достаточно приближенного выполнения данного свойства без привлечения более сложных специальных методик.

Слайд 28

Методика метода

1. Проверка нормальности и линейности должна обязательно проводиться перед применением математических

Методика метода 1. Проверка нормальности и линейности должна обязательно проводиться перед применением
методов.
От этого зависит степень исторической достоверности результатов математических вычислений.
2. Свойства нормальности и линейности выясняются по
несгруппированным данным.

Слайд 29

Методика метода

3. Нормальность и линейность определяются относительно каждого признака изучаемого явления.
4. Если

Методика метода 3. Нормальность и линейность определяются относительно каждого признака изучаемого явления.
признаки не отвечают свойствам нормальности и линейности - это еще не означает отказа от применения математико-статистических методов.
Разработан ряд приемов, преобразующих значения признаков, существенно отклоняющихся от указанных свойств.

Слайд 30

Выбор формулы корреляции

Зависит:
От характера исходных данных,
от особенностей источника
и задач исследования

Выбор формулы корреляции Зависит: От характера исходных данных, от особенностей источника и задач исследования

Слайд 31

формулы корреляции

Чаще всего при изучении массовых источников применяют
коэффициент линейной корреляции (r).
Он

формулы корреляции Чаще всего при изучении массовых источников применяют коэффициент линейной корреляции
вычисляется по
формуле:

Слайд 32

коэффициент линейной корреляции

X и y - значения рассматриваемых признаков;
Х и Y- средние

коэффициент линейной корреляции X и y - значения рассматриваемых признаков; Х и
арифметические величины признаков;
п - общее число наблюдений

Слайд 33

Пример коэффициента линейной корреляции (r)

рассмотрим по данным о возрасте и количестве

Пример коэффициента линейной корреляции (r) рассмотрим по данным о возрасте и количестве
детей двадцати пяти учителей.
Необходимо определить тесноту связи между возрастом (х) и количеством детей (у) в выделенной группе учителей.
возраст выступает как факторный признак, а количество детей этом распределении как
- как результативный.

Слайд 34

Пример

Все коэффициенты корреляции изменяются в пределах от О
до ア1.
Чем ближе значение

Пример Все коэффициенты корреляции изменяются в пределах от О до ア1. Чем
коэффициента к 0, тем меньше,
слабее связь между признаками
и чем ближе величина коэффициента к +.1, тем сильнее, значительнее, весомее связь между
признаками.
Если коэффициент корреляции принимает положительные значения - связь между признаками прямая,
т.е. с увеличением значения одного признака - растет среднее значение второго.
Если коэффициент корреляции имеет значение меньше О
(т.е. отрицательное) - связь обратная.

Слайд 35

Пример

При r больше или равным ア0,5 можно констатировать наличие существенной связи между

Пример При r больше или равным ア0,5 можно констатировать наличие существенной связи
признаками.
Оценка значимости r во многом зависит от объема исследуемой совокупности.
Если число наблюдений велико, то даже небольшая величина коэффициента линейной корреляции имеет определенную значимость, которой не следует пренебрегать.
Это проверяется специальными статистическими таблицами, раскрывающими зависимость
величины г от объема изучаемой совокупности.

Слайд 36

Пример

нашем примере - связь между признаками очень тесная и прямая,
т.е. количество

Пример нашем примере - связь между признаками очень тесная и прямая, т.е.
детей в семье в значительной мере зависит от возраста родителей и чем старше опрашиваемый, тем
больше у него детей.

Слайд 37

коэффициент корреляции

Линейный коэффициент корреляции может принимать значения от –1 до 1.
Чем

коэффициент корреляции Линейный коэффициент корреляции может принимать значения от –1 до 1.
ближе величина коэффициента корреляции к предельным значениям, тем теснее взаимосвязь между признаками.
Равенство коэффициента нулю свидетельствует об отсутствии линейной связи между признаками.

Слайд 38

Коэффициент корреляции

Если коэффициент корреляции положительный (до 1),
то между признаками существует прямая

Коэффициент корреляции Если коэффициент корреляции положительный (до 1), то между признаками существует
функциональная зависимость,
если отрицательный, то обратная

Слайд 39

Ограничения применения коэффициента линейной корреляции

Во-первых, он исчисляется только для количественных признаков.

Ограничения применения коэффициента линейной корреляции Во-первых, он исчисляется только для количественных признаков.

Во-вторых, признаки, связь между которыми выявляется, должны быть нормально распределены.
В-третьих, связь, сила которой должна быть измерена, должна быть линейной.
До вычисления коэффициента следует проверить имеющиеся данные на соответствие, предъявляемым условиям.
Нормальность и линейность проверяются графчески
Приведенная формула определения величины r применяется
только для первичных, несгруппированных данных.

Слайд 40

Другие коэффициенты корреляции

При анализе исторических событий исследователи работают
преимущественно с качественными признаками, разновидностью
которых

Другие коэффициенты корреляции При анализе исторических событий исследователи работают преимущественно с качественными
выступают альтернативные (здесь: принимающие только два значения).
Для изучения силы их связи применяются
коэффициент ассоциации (Q) и коэффициент сопряженности
(Ф) или коэффициент контингенции (Kk).

Слайд 41

Другие коэффициенты корреляции

Их вычисление предваряется тем, что имеющиеся данные сводятся в таблицу

Другие коэффициенты корреляции Их вычисление предваряется тем, что имеющиеся данные сводятся в
четырех полей:
а затем ведется расчет по формулам

Слайд 42

Благодарю за внимание!

Благодарю за внимание!