2_LEKTsIYa_1

Содержание

Слайд 2

ВОПРОСЫ

ВОПРОСЫ

Слайд 10

ОРГАНИЗАЦИЯ ДАННЫХ

ОРГАНИЗАЦИЯ ДАННЫХ

Слайд 18

ИЗМЕНЕНИЕ ЗНАЧЕНИЙ ДАННЫХ

ИЗМЕНЕНИЕ ЗНАЧЕНИЙ ДАННЫХ

Слайд 25

ОПИСАТЕЛЬНАЯ СТАТИСТИКА ДЛЯ КАТЕГОРИАЛЬНЫХ ДАННЫХ

Частотный анализ для категориальных переменных.
Частотные таблицы для порядковых

ОПИСАТЕЛЬНАЯ СТАТИСТИКА ДЛЯ КАТЕГОРИАЛЬНЫХ ДАННЫХ Частотный анализ для категориальных переменных. Частотные таблицы
шкал.
Графическое представление категориальных переменных.
Таблицы сопряженности и их анализ.
Критерий хи-квадрат.

Слайд 26

ТАБЛИЦЫ СОПРЯЖЕННОСТИ

ТАБЛИЦЫ СОПРЯЖЕННОСТИ

Слайд 27

Таблица сопряженности двумерного распределения категориальных переменных для выявления взаимосвязи:
- строки таблицы задаются

Таблица сопряженности двумерного распределения категориальных переменных для выявления взаимосвязи: - строки таблицы
категориями одной переменной;
- столбцы таблицы задаются категориями другой переменной;
на пересечении строки i и столбца j в таблице сопряженности находится количество объектов (наблюдений, записей), для которых переменная строк принимает значение i, а переменная столбцов - значение j.

Слайд 28

Независимая переменная оказывает влияние на зависимую переменную.
Например: уровень образования респондента может оказывать

Независимая переменная оказывает влияние на зависимую переменную. Например: уровень образования респондента может
влияние на категорию частоты просмотра телепередач.
зависимая переменная задает строки таблицы,
независимая переменная - столбцы

Слайд 29

ПРОЦЕНТЫ В ЯЧЕЙКАХ ТАБЛИЦЫ СОПРЯЖЕННОСТИ

ПРОЦЕНТЫ В ЯЧЕЙКАХ ТАБЛИЦЫ СОПРЯЖЕННОСТИ

Слайд 31

Вычисление остатков – разница между наблюденными частотами и ожидаемыми частотами. Остатки являются

Вычисление остатков – разница между наблюденными частотами и ожидаемыми частотами. Остатки являются
показателем того, насколько сильно наблюдаемые и ожидаемые частоты отклоняются друг от друга.
Нестандартизированные – отображаются ненормированные остатки, т.е. разность между наблюдаемыми и ожидаемыми частотами;
Стандартизированные – отображаются нормированные остатки, для этого ненормированные остатки делятся на квадратный корень из ожидаемой частоты;
Скорректированные стандартизированные – нормированные остатки вычисляются с учетом сумм по строкам и столбцам.

ОЖИДАЕМЫЕ ЧАСТОТЫ И ОСТАТКИ В ТАБЛИЦАХ СОПРЯЖЕННОСТИ

Слайд 32

ОПИСАТЕЛЬНЫЙ АНАЛИЗ ДАННЫХ

ОПИСАТЕЛЬНЫЙ АНАЛИЗ ДАННЫХ

Слайд 33

МЕТОДЫ ПРОВЕРКИ ГИПОТЕЗ

МЕТОДЫ ПРОВЕРКИ ГИПОТЕЗ

Слайд 34

1. оценка параметров – получение точечных и интервальных оценок параметров генеральной совокупности;

1. оценка параметров – получение точечных и интервальных оценок параметров генеральной совокупности;
проверка статистических гипотез – тестирование выдвинутых на этапе проектирования статистического исследования рабочих гипотез и предположений;
- статистическое изучение взаимосвязи – построение математико-статистической модели зависимости изучаемых явлений.
2. Выбор статистик для оценки параметров генеральной совокупности зависит от свойств выборочной совокупности.
3. Методы проверки статистических гипотез и изучения взаимосвязи могут быть параметрические и непараметрические, и также зависят от свойств выборочной совокупности.
4. Основное мастерство статистического анализа данных заключается в получении и интерпретации данных.

ЗАДАЧИ СТАТИСТИЧЕСКОГО АНАЛИЗА

Слайд 35

Проверка гипотез и изучение взаимосвязи для категориальных шкал происходит, как правило, на

Проверка гипотез и изучение взаимосвязи для категориальных шкал происходит, как правило, на
основе таблиц сопряженности.
Таблица сопряженности – это таблица, строки которой задают категории одной переменной, а столбцы – категории другой переменной.
Проверка гипотез на основе таблиц сопряженности относят к непараметрическим методам статистики.
Для применения непараметрических методов не нужна информация о форме и параметрах распределения исследуемой переменной.

МЕТОДЫ ПРОВЕРКИ ГИПОТЕЗ

Слайд 36

СТАТИСТИЧЕСКАЯ ГИПОТЕЗА

СТАТИСТИЧЕСКАЯ ГИПОТЕЗА

Слайд 37

Статистическая гипотеза – это любое предположение (утверждение) относительно неизвестного закона распределения

Статистическая гипотеза – это любое предположение (утверждение) относительно неизвестного закона распределения переменной
переменной в генеральной совокупности или значениях его параметров.
Любое статистическое исследование направлено на определение некоторой характеристики изучаемой генеральной совокупности или выявление взаимосвязи между переменными.
Статистическая достоверность – это возможность распространить результат исследования на всю генеральную совокупность.
Проверка статистической достоверности сводится к проверке статистических гипотез.

СТАТИСТИЧЕСКАЯ ГИПОТЕЗА

Слайд 38

При проверке статистических гипотез различают основную (выдвигаемую, нулевую) гипотезу, которую необходимо проверить,

При проверке статистических гипотез различают основную (выдвигаемую, нулевую) гипотезу, которую необходимо проверить,
и альтернативную (конкурирующую) гипотезу.
Как правило, нулевую гипотезу формируют об отсутствии различий или отсутствии взаимосвязей, или о соответствии заданному закону распределения.
Точная формулировка гипотезы зависит от конкретного вида гипотезы.
Альтернативная гипотеза утверждает о наличии связи, различий или расхождении законов распределения.
Альтернативная гипотеза обычно является «рабочей» гипотезой исследования, которую необходимо доказать.
Альтернативная гипотеза может быть: ненаправленной – цель исследования просто опровергнуть нулевую гипотезу;
направленной – цель исследования опровергнуть нулевую гипотезу с учетом направления изменения (различий).

НУЛЕВАЯ И АЛЬТЕРНАТИВНАЯ ГИПОТЕЗА

Слайд 39

КРИТЕРИЙ ХИ-КВАДРАТ

КРИТЕРИЙ ХИ-КВАДРАТ

Слайд 40

Критерий хи-квадрат основан на различиях между наблюденными и ожидаемыми частотами в ячейках

Критерий хи-квадрат основан на различиях между наблюденными и ожидаемыми частотами в ячейках
таблицы сопряженности:
Чем больше различия между наблюденными и ожидаемыми частотами, тем более вероятно, что между переменными существует зависимость.
В критерии хи-квадрат проверяется гипотеза об отсутствии статистической связи между переменными таблицы сопряженности. Cамо по себе значение критерия хи-квадрат не позволяет сделать однозначного вывода о наличии или отсутствии связи между переменными, поскольку значение этого критерия зависит еще и от количества строк и столбцов в таблице сопряженности.
Расчетное значение критерия необходимо сравнить с критическим, взятым из распределения хи-квадрат Пирсона с заданным уровнем значимости и числом степеней свободы.
Если расчетное значение критерия больше критического, то проверяемая нулевая гипотеза отвергается (связь есть).
Критерий хи-квадрат применим, когда ожидаемые частоты больше 5 и суммы по строкам и столбцам всегда должны быть больше 0. Обычно должно быть не более 20% ячеек с ожидаемыми частотами меньше 5.

КРИТЕРИЙ ХИ-КВАДРАТ

Слайд 41

7. При вычислении критерия хи-квадрат может использоваться альтернативная формула с поправкой на

7. При вычислении критерия хи-квадрат может использоваться альтернативная формула с поправкой на
правдоподобие.
8. При большом объеме выборки формула Пирсона и подправленная формула дают очень близкие результаты.
При анализе основное внимание следует обращать на показатель значимости критерия хи-квадрат:
- если значение в ячейке Асимпт.значимость (2-стор.) меньше, чем 0,05 (либо другого приемлемого уровня значимости 0,01; 0,001), то между переменными существует статистическая связь;
- если значение в этой ячейке больше или равно 0,05, то статистическая связь между переменными отсутствует.

КРИТЕРИЙ ХИ-КВАДРАТ

Слайд 42

ЗАДАНИЕ СЛОЕВ В ТАБЛИЦЕ СОПРЯЖЕННОСТИ

ЗАДАНИЕ СЛОЕВ В ТАБЛИЦЕ СОПРЯЖЕННОСТИ

Слайд 43

Процедура Таблицы сопряженности также позволяет добавлять в таблице третье измерение - слои.
В

Процедура Таблицы сопряженности также позволяет добавлять в таблице третье измерение - слои.
этом случае появляется возможность ответить на вопрос, существует ли зависимость между двумя переменными, задаваемыми в строках и столбцах, для различных категорий третьей переменной, которая задается в измерении слоев.
Количество слоев также может быть более одного, что позволяет получать таблицы с большим количеством измерений, однако такие таблицы достаточно сложно интерпретировать.

Слайд 44

ОПИСАТЕЛЬНЫЙ АНАЛИЗ ДАННЫХ

ОПИСАТЕЛЬНЫЙ АНАЛИЗ ДАННЫХ

Слайд 45

МЕТОДЫ ПРОВЕРКИ ГИПОТЕЗ

МЕТОДЫ ПРОВЕРКИ ГИПОТЕЗ

Слайд 46

СТАТИСТИКИ ЦЕНТРАЛЬНОЙ ТЕНДЕНЦИИ

СТАТИСТИКИ ЦЕНТРАЛЬНОЙ ТЕНДЕНЦИИ

Слайд 47

Основные показателя оценки «типичных» значений:
- среднее арифметическое – сумма всех значений числового

Основные показателя оценки «типичных» значений: - среднее арифметическое – сумма всех значений
ряда, деленная на количество
значений в ряде.
- медиана – значение, разбивающее упорядоченный ряд на две равные части так, что 50%
значений ряда имеют значение ниже медианы, а другие 50% – выше медианы.
- мода – наиболее часто встречающееся значение данных.

Слайд 49

Медианное значение – альтернативная мера оценки среднего значения в генеральной совокупности вместо

Медианное значение – альтернативная мера оценки среднего значения в генеральной совокупности вместо
средней арифметической.
Медиану используют при статистически неоднородной совокупности и нарушении нормальности распределения.
Для определения медианы по не сгруппированным данным необходимо: - ранжировать наблюдения;
- медианой будет центральное значение при нечетном числе наблюдений
или среднее арифметическое двух центральных значений.

МЕДИАННОЕ ЗНАЧЕНИЕ

Слайд 51

Для определения, насколько сильно значения переменной отличаются друг от друга, используют статистики

Для определения, насколько сильно значения переменной отличаются друг от друга, используют статистики
разброса или вариации.
Статистики разброса показывают степень разброса значений признака от средней величины.
Задача анализа статистик разброса – обобщить индивидуальные различия изучаемых единиц.
Показатели вариации при изучении многих процессов служат показателями риска.
Чем выше степень вариации (статистик разброса), тем выше степень риска (риска отклониться от среднего значения).
Вариация – это изменение (варьирование) значений признака у каждой единицы изучаемой совокупности.

СТАТИСТИКИ РАЗБРОСА

Слайд 52

Используют следующие меры разброса:
- дисперсия – сумма квадратов разностей каждого значения переменной

Используют следующие меры разброса: - дисперсия – сумма квадратов разностей каждого значения
и среднего значения,
деленная на количество наблюдений;
- стандартное отклонение – корень квадратный из дисперсии;
- максимум – наибольшее значение, встречающееся в данных;
минимум – наименьшее значение, встречающееся в данных;
- размах – разность между максимумом и минимумом.
Дисперсия позволяет дать информацию о разбросе значений в целом, но ее недостаток в том, что
она измеряется в возведенных в квадрат единицах исходной переменной.
Стандартное отклонение измеряется в тех же единицах, что исходная переменная.
Максимум, минимум и размах имеют второстепенный характер по сравнению с показателями
дисперсии и стандартного отклонения.

Слайд 55

Значение процентиля – это значение количественной переменной, которое разделяет упорядоченные данные на

Значение процентиля – это значение количественной переменной, которое разделяет упорядоченные данные на
две группы таким образом, что определенный процент наблюдений имеет значение количественной переменной меньше или равно значений процентиля, а прочие наблюдения имеют значение больше процентиля.
К примеру, выражение «40% процентиль данных о доходе равен 15.000 рублей» означает, что 40% респондентов имеют доход не выше 15.000 рублей.
2. N-% процентиль представляет собой такое значение упорядоченного ряда, N% значений которого меньше или равно N-% процентиля.
3. Наиболее часто используемыми процентилями являются квартили.
4. Квартили – это значения, которые делят упорядоченный ряд на четыре равные части и отделяют, соответственно, 25%, 50% и 75% значений данных.
Второй квартиль, отделяющий 50% наблюдений, по определению является также и медианой.
5. децили (значения, делящие ряд на десять равных частей), квинтили (значения, деляющие ряд на пять равных частей).
6. Разница между 75% и 25% процентилями называется межквартильным размахом или межквартильной широтой.

ПРОЦЕНТИЛИ

Слайд 57

Одним из наиболее информативных средств подытоживания и наглядного представления количественных переменных является

Одним из наиболее информативных средств подытоживания и наглядного представления количественных переменных является
гистограмма.
В отличие от столбиковой диаграммы гистограмма позволяет компактно представить в графическом виде переменные с большим количеством уникальных значений.
На гистограмме отображаются также стандартное отклонение, среднее значение и общее количество наблюдений, а также кривая нормального распределения.

ГИСТОГРАММЫ

Слайд 59

1. Предпосылкой применения большинства методов статистического анализа является нормальность распределения.
2. Для переменных,

1. Предпосылкой применения большинства методов статистического анализа является нормальность распределения. 2. Для
относящихся к интервальной шкале и подчиняющихся нормальному распределению, в качестве основной обобщающей характеристики используют среднее значение, а в качестве меры разброса – стандартное отклонение или стандартную ошибку.
3. Для порядковых или интервальных переменных, не подчиняющихся нормальному распределению, в качестве основной характеристики используют медиану, а в качестве меры разброса – межквартильный размах или широту (разницу между первым и третьим квартилями).
4. Для выборки, подчиняющейся нормальному распределению, в интервале шириной:
- равной удвоенному стандартному отклонению, который отложен по обе стороны от среднего значения, располагается примерно 68% всех наблюдений;
- равной четырем стандартным отклонениям, который отложен по обе стороны от среднего значения, располагается примерно 95% всех наблюдений;
- равной шести стандартным отклонениям, который отложен по обе стороны от среднего значения, располагается примерно 99,7% всех наблюдений.

НОРМАЛЬНЫЙ ЗАКОН РАСПРЕДЕЛЕНИя

Слайд 61

Асимметрия и эксцесс – это статистики, описывающие форму и симметричность распределения изучаемой

Асимметрия и эксцесс – это статистики, описывающие форму и симметричность распределения изучаемой
переменной по сравнению с нормальным распределением.
Коэффициенты асимметрии и эксцесса (коэффициенты формы распределения) рассчитывают для оценки нормальности распределения.
У нормального распределения коэффициенты асимметрии и эксцесса равны нулю.
Если коэффициенты формы и симметричности распределения по модулю меньше 1, то распределение близко к нормальному.
Коэффициент асимметрии показывает симметричность распределения по сравнению с нормальным распределением.
Коэффициент эксцесса показывает отличие формы распределения от нормального распределения.

АСИММЕТРИЯ И ЭКСЦЕСС

Слайд 63

Для приблизительной оценки нормальности распределения необходимо сравнить моду, медиану и среднее значение,

Для приблизительной оценки нормальности распределения необходимо сравнить моду, медиану и среднее значение,
а также проанализировать коэффициенты асимметрии и эксцесса.
Если характеристики меры тенденции приблизительно равны между собой, а коэффициенты асимметрии и эксцесса приблизительно равны нулю, то можно признать распределение нормальным.
Для визуальной оценки нормальности распределения можно построить гистограмму с наложением кривой нормального распределения.
В качестве формального теста на нормальность можно использовать критерии КолмогороваСмирнова.

ПРОВЕРКА РАСПРЕДЕЛЕНИЯ НА НОРМАЛЬНОСТЬ

Слайд 65

Для проверки гипотезы о нормальности распределения применяют статистический тест Колмогорова-Смирнова или Шапиро-Уилка.
В

Для проверки гипотезы о нормальности распределения применяют статистический тест Колмогорова-Смирнова или Шапиро-Уилка.
тесте на нормальность проверяется гипотеза, что исследуемое распределение соответствует нормальному.
Для применения теста на нормальность необходимо в диалоговом окне Исследовать процедуры Разведочный анализ установить параметр Графики и критерии для проверки нормальности.
В результате выполнения теста на нормальность в окне Вывода будет получена таблица с расчетными значениями критерия Колмогорова-Смирнова и Шапиро-Уилка.
Если в таблице результатов теста на нормальность получена вероятность в столбце Значимость менее 0,05 (или другого выбранного уровня значимости), то проверяемое распределение значимо отличается от нормального.

ТЕСТ НА НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ

Слайд 66

ВЫЯВЛЕНИЕ СТАТИСТИЧЕСКОЙ ВЗАИМОСВЯЗИ
МЕЖДУ КОЛИЧЕСТВЕННЫМИ ПЕРЕМЕННЫМИ

ВЫЯВЛЕНИЕ СТАТИСТИЧЕСКОЙ ВЗАИМОСВЯЗИ МЕЖДУ КОЛИЧЕСТВЕННЫМИ ПЕРЕМЕННЫМИ

Слайд 68

Одна из задач статистического анализа – изучение взаимосвязи между переменными.
Факторные признаки

Одна из задач статистического анализа – изучение взаимосвязи между переменными. Факторные признаки
– переменные, которые обуславливают изменение других, связанных с ним переменных (результативных). Результативные признаки – переменные, значения которых формируются под воздействием факторных признаков.
Функциональная взаимосвязь – такая связь, при которой определенному значению факторного признака соответствует одно и только одно значение результативного признака.
Статистическая взаимосвязь – зависимость, которая проявляется не в каждом отдельном случае, а в общем, в среднем, при большом числе наблюдений.
По направлению связи различают статистическую зависимость: прямую и обратную.
По тесноте связи различают статистическую зависимость: слабую, статистически незначимую; среднюю или умеренную; сильную. 8.
По форме выражения связи различают статистическую зависимость: линейную и нелинейную.
По количеству изучаемых переменных различают парные и множественные модели взаимосвязи.

КЛАССИФИКАЦИЯ ВИДОВ ВЗАИМОСВЯЗИ

Слайд 69

При анализе взаимосвязи двух переменных можно построить диаграмму рассеяния (поле корреляции).
Диаграмма

При анализе взаимосвязи двух переменных можно построить диаграмму рассеяния (поле корреляции). Диаграмма
рассеяния – это простейший графический способ изучения взаимосвязи между количественными переменными.
Диаграмма рассеяния представляет каждую единицу совокупности в пространстве двух измерений, соответствующих двум переменным.
Обычно при построении диаграммы рассеяния придерживаются следующих правил: - по оси абсцисс (горизонтали) указывают значение факторной переменной; - по оси ординат (вертикали) указывают значение результативной переменной.
При отсутствии взаимосвязи между изучаемыми переменными точки на диаграмме рассеяния будут расположены случайным образом.
Чем сильнее взаимосвязь между изучаемыми переменными, тем ближе будут группироваться точки вокруг определенной линии, выражающей форму связи.
При построении диаграммы рассеяния следует обращать внимание на: - наличие выбросов (выбросы необходимо исключить из дальнейшего анализа).

ДИАГРАММА РАССЕЯНИЯ

Слайд 72

Корреляционный анализ – метод определения тесноты и направления линейной взаимосвязи между двумя

Корреляционный анализ – метод определения тесноты и направления линейной взаимосвязи между двумя
количественными переменными.
Теснота и направление связи выражается величиной парного коэффициента корреляции Пирсона.
Значение коэффициента корреляции безразмерная величина, принимающая значения от -1 до +1.
Чем ближе значение коэффициента корреляции по модулю к 1, тем сильнее взаимосвязь, и, наоборот, чем ближе значение к нулю – тем слабее взаимосвязь.
Знак коэффициента корреляции характеризует направление связи между изучаемыми признаками : Положительный знак говорит о прямой взаимосвязи между изучаемыми переменными, отрицательный знак – об обратной взаимосвязи.
Коэффициент корреляции можно вычислять только для количественных переменных.
При расчете коэффициента корреляции факторный и результативный признак должны иметь нормальное распределение.
В случае отсутствия нормального распределения можно применить нормализующее преобразование или рассчитать альтернативный коэффициент ранговой корреляции, рассмотренный ниже.
Значение коэффициента корреляции не изменится, если факторный и результативный признак поменять местами.

КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ ПИРСОНА

Слайд 77

Ранжирование – это процедура упорядочения объектов изучения, которая выполняется на основе предпочтения.

Ранжирование – это процедура упорядочения объектов изучения, которая выполняется на основе предпочтения.

Ранг – это порядковый номер значений переменной, расположенных в порядке возрастания или убывания их величин.
Принцип ранжирования значений исследуемых переменных является основой непараметрическихметодов оценки тесноты связи.
Среди непараметрическихметодов оценки тесноты взаимосвязи наибольшее распространение получили ранговые коэффициенты корреляции Спирмена (ρ) и Кендалла (τ).
При вычислении ранговых коэффициентов корреляции Спирмена и Кендалла в формуле для коэффициентов корреляции используются преобразованные значения данных: вместо значений подставляются их ранги.
Непараметрические ранговые коэффициенты корреляции применяются, когда изучаемые признаки имеют разное распределение, в том числе отличное от нормального распределения.
Ранговые коэффициенты корреляции могут рассчитываться как между количественными переменными, так и между порядковыми переменными при условии, что их значения проранжированы по возрастанию или убыванию.

РАНГОВЫЕ КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ