Теория и практика статистических выводов. Лекция 3

Содержание

Слайд 2

Понятие статистического вывода


Статистический вывод: использование выборочных данных для получения и формализации

Понятие статистического вывода Статистический вывод: использование выборочных данных для получения и формализации
знаний о свойствах генеральной совокупности

Оценить количественные характеристики генеральной совокупности (вопрос «насколько точно?»)
Выбрать и настроить модель описания генеральной совокупности (вопрос «подходит или нет?»)
Валидировать модель, т.е. оценить ее качество (вопрос «насколько близко?»)

Слайд 3

Метод Монте-Карло


Генеративный (регенеративный) подход: исследование статистических свойств на основе «размножения» заданной

Метод Монте-Карло Генеративный (регенеративный) подход: исследование статистических свойств на основе «размножения» заданной
выборки

Механизмы генерации:
На основе априорных знаний о свойствах генеральной совокупности
На основе действий с выборкой

Слайд 4

Случайные числа


Значения γ равномерно распределенной случайной величины в интервале [0,1]:
Псевдослучайные числа

Случайные числа Значения γ равномерно распределенной случайной величины в интервале [0,1]: Псевдослучайные
(ПСЧ): на основе детерминированного алгоритма (заданный период повторяемости)
Случайные числа (СЧ): на основе физических механизмов или алгоритма ПСЧ с внешним источником энтропии (бесконечный период повторяемости)
Методы, основанные на перемешивании за счет сдвига регистра, в том числе - «Вихрь Мерсенна» (период 219937 − 1)

Слайд 5

Моделирование случайных событий


Выбор варианта реализации события по значению γ:

Геометрическая интерпретация

Моделирование случайных событий Выбор варианта реализации события по значению γ: Геометрическая интерпретация
случайного события заданной вероятности P(A) - имитация попадания точки в интервал [0,P(A)]

Слайд 6

Моделирование дискретных величин


Закон распределения (вероятности набора событий)

Выбор реализации события

при

Моделирование дискретных величин Закон распределения (вероятности набора событий) Выбор реализации события при попадании точки в интервал
попадании точки в интервал

Слайд 7

Моделирование непрерывных величин (1/3)



Дискретно-равномерное приближение (на основе группированных данных)

Выбор номера столбца

Моделирование непрерывных величин (1/3) Дискретно-равномерное приближение (на основе группированных данных) Выбор номера
i
Выбор значения х внутри столбца

Слайд 8

Моделирование непрерывных величин (2/3)



Метод обратной функции (на основе преобразования квантилей)

Моделирование непрерывных величин (2/3) Метод обратной функции (на основе преобразования квантилей)

Слайд 9

Моделирование непрерывных величин (3/3)



Геометрический метод (на основе плотности распределения)

при условии, что

Моделирование непрерывных величин (3/3) Геометрический метод (на основе плотности распределения) при условии, что

Слайд 10

Моделирование гауссовых случайных величин



1) На основе центральной предельной теоремы:

Нормированное

Моделирование гауссовых случайных величин 1) На основе центральной предельной теоремы: Нормированное распределение Гаусса N(0,1)
распределение Гаусса N(0,1)

Слайд 11

Интервальное оценивание на основе Монте-Карло



Для избранной статистики :

Сгенерировать M

Интервальное оценивание на основе Монте-Карло Для избранной статистики : Сгенерировать M выборок
выборок

Выбрать метод моделирования случайной величины с этим распределением

Рассчитать по каждой выборке точечную оценку статистики

По выборке определить характерные параметры, в том числе границы β%-доверительного интервала:

Слайд 12

Задача об отборе на выставку кошек (1/2)

Найти интервальные оценки математического ожидания и

Задача об отборе на выставку кошек (1/2) Найти интервальные оценки математического ожидания
дисперсии для: (а) выборки из всех 109 кошек, (б) для случайно отобранных 10 кошек

Слайд 13

Задача об отборе на выставку кошек (2/2)

Для малых выборок асимптотические формулы некорректны,

Задача об отборе на выставку кошек (2/2) Для малых выборок асимптотические формулы
а метод Монте-Карло – без ограничений

Слайд 14

Непараметрические методы: бутстреп


Формирование М псевдовыборок

на основе случайного выбора с возвращением из

Непараметрические методы: бутстреп Формирование М псевдовыборок на основе случайного выбора с возвращением из исходной выборки: Псевдовыборки
исходной выборки:

Псевдовыборки

Слайд 15

Непараметрические методы: джекнайф



Формирование N подвыборок

путем выкалывания одного из членов исходной

Непараметрические методы: джекнайф Формирование N подвыборок путем выкалывания одного из членов исходной
выборки:

Подвыборки

Методическая проблема джекнайфа и бутстрепа: смещенность оценок

Слайд 16

Обобщение: генеративная статистика



Метод Монте-Карло: универсальный инструмент статистического оценивания, когда аналитика

Обобщение: генеративная статистика Метод Монте-Карло: универсальный инструмент статистического оценивания, когда аналитика не
не справляется
Методы моделирования случайных величин: могут использовать как параметрические, так и непараметрические оценки распределений
Интервальное оценивание на основе метода Монте-Карло: просто, надежно, но чувствительно к модели распределения
Методы бутстреп и джекнайф: не зависят от распределения, но оценки могут быть смещены

Слайд 17

Александр Валерьевич Бухановский, Анна Владимировна Калюжная
boukhanovsky@mail.ifmo.ru

Автор признателен всем котикам (и хозяевам) за

Александр Валерьевич Бухановский, Анна Владимировна Калюжная boukhanovsky@mail.ifmo.ru Автор признателен всем котикам (и
возможность некоммерческого использования их изображений, размещенных в публичном Интернете

Слайд 18

ЗАНЯТИЕ 3 ТЕОРИЯ И ПРАКТИКА СТАТИСТИЧЕСКИХ ВЫВОДОВ

Александр Валерьевич Бухановский, Анна Владимировна Калюжная
Раздел 2.

ЗАНЯТИЕ 3 ТЕОРИЯ И ПРАКТИКА СТАТИСТИЧЕСКИХ ВЫВОДОВ Александр Валерьевич Бухановский, Анна Владимировна
Проверка гипотез. Непараметрические статистические критерии

Слайд 19

Проверка статистических гипотез

=

?

Нулевая (базовая) гипотеза

?

Проверка статистических гипотез = ? Нулевая (базовая) гипотеза ?

Слайд 20

Гипотеза о виде распределения (пример)

Альтернатива :

Выборочная характеристика

Теоретическая характеристика

Критерий согласия

Гипотеза о виде распределения (пример) Альтернатива : Выборочная характеристика Теоретическая характеристика Критерий согласия

Слайд 21

Критерии: сравнение характеристик

Односторонний критерий

Двусторонний критерий

Ошибка проверки непараметрических гипотез (ошибка I рода) –

Критерии: сравнение характеристик Односторонний критерий Двусторонний критерий Ошибка проверки непараметрических гипотез (ошибка
с вероятностью α отвергнуть верную гипотезу

Слайд 22

Критерий Колмогорова

Проверка гипотезы о виде (модели) распределения
Статистическая характеристика:

- квантиль распределения Колмогорова

Максимальное расстояние

Критерий Колмогорова Проверка гипотезы о виде (модели) распределения Статистическая характеристика: - квантиль
между объектами

Теоретическое распределение

Слайд 23

Критерий (Крамера-вон Мизеса-Смирнова)

Проверка гипотезы о виде (модели) распределения
Статистическая характеристика:

- квантиль табулированного

Критерий (Крамера-вон Мизеса-Смирнова) Проверка гипотезы о виде (модели) распределения Статистическая характеристика: - квантиль табулированного распределения
распределения

Слайд 24

Значение случайной величины x

 

 

Проверка гипотезы о виде (модели) распределения по группированным данным
Статистическая

Значение случайной величины x Проверка гипотезы о виде (модели) распределения по группированным
характеристика :

Критерий (Пирсона)

- квантиль распределения

Слайд 25

Вероятностный биплот

Критерии для проверки однородности

Критерий Колмогорова Смирнова

Критерий Розенблатта

Правила проверки – как

Вероятностный биплот Критерии для проверки однородности Критерий Колмогорова Смирнова Критерий Розенблатта Правила
для критериев согласия

Слайд 26

Задача о поддельных мейн-кунах (1/3)

В одном питомнике разводят крупных котов и продают

Задача о поддельных мейн-кунах (1/3) В одном питомнике разводят крупных котов и
как мейн-кунов. Однако ассоциация заводчиков мейн-кунов засомневалась в том, что эти коты действительно принадлежат породе, а не являются смесью c норвежской лесной кошкой. Для того, чтобы принять или отклонить гипотезу о принадлежности котов из питомника породе мейн-кун, заводчики решили сравнить распределения характерного параметра кошек между собой. В качестве параметров для сравнения могут быть выбраны отношения длин тел животных, хвостов или хвоста к длине тела.
Известно, что в средние длина тел котов норвежской породы и мейн-кунов совпадает и составляет 47 - 50 см. Известно также, что отношение длины хвоста к телу у породистых норвежских кошек должно быть больше 0,9, а у породистых мейн-кунов больше 3/5. Для чистоты эксперимента сравнение решили проводить только на взрослых котах, которых в питомнике оказалось 30. Из базы ассоциации мейн-кунов для сопоставления были выбраны 43 самых породистых кота.
Однако, стоит учесть, что если кошки из питомника являются смесью пород, тогда ими могут быть унаследованы как признаки мейн-кунов, так и норвегов, поэтому некоторые известные соотношения могут нарушаться.

a

b

x = a/b

Слайд 27

Задача о поддельных мейн-кунах (2/3)

Задача о поддельных мейн-кунах (2/3)

Слайд 28

Задача о поддельных мейн-кунах (3/3)

Задача о поддельных мейн-кунах (3/3)

Слайд 29

Критерий ранговых сумм Вилкоксона

Альтернативная гипотеза :

Неоднородность как превалирование

Статистическая характеристика:

Критерий проверки (отрицание

Критерий ранговых сумм Вилкоксона Альтернативная гипотеза : Неоднородность как превалирование Статистическая характеристика: Критерий проверки (отрицание ):
):

Слайд 30

Обобщение: непараметрические критерии

Решаемые задачи: проверка соответствие распределения определенному закону, проверка однородности двух

Обобщение: непараметрические критерии Решаемые задачи: проверка соответствие распределения определенному закону, проверка однородности
выборок.
Все критерии несовершенны: критерий Колмогорова прост, но чувствителен к выбросам, критерий согласия Пирсона – для группированных данных (все проблемы гистограмм), критерий Крамера-вон Мизеса-Смирнова табулирован не для всех распределений
Проверку можно строить по-разному: просто проверять неоднородность, модифицируя критерии для теоретических распределений (Смирнова, Розенблатта), или оценивать превалирование (критерии Вилкоксона и Манна-Уитни).
Проверка гипотез – не панацея: она может только опровергать, но не может доказывать.

Слайд 31

Александр Валерьевич Бухановский, Анна Владимировна Калюжная
boukhanovsky@mail.ifmo.ru

Автор признателен всем котикам (и хозяевам) за

Александр Валерьевич Бухановский, Анна Владимировна Калюжная boukhanovsky@mail.ifmo.ru Автор признателен всем котикам (и
возможность некоммерческого использования их изображений, размещенных в публичном Интернете

Слайд 32

ЗАНЯТИЕ 3 ТЕОРИЯ И ПРАКТИКА СТАТИСТИЧЕСКИХ ВЫВОДОВ

Александр Валерьевич Бухановский, Анна Владимировна Калюжная
Раздел 3.

ЗАНЯТИЕ 3 ТЕОРИЯ И ПРАКТИКА СТАТИСТИЧЕСКИХ ВЫВОДОВ Александр Валерьевич Бухановский, Анна Владимировна
Проверка гипотез. Параметрические статистические критерии

Слайд 33

Логика параметрических критериев

Объект исследования – набор параметров , характеризующих модель распределения генеральной

Логика параметрических критериев Объект исследования – набор параметров , характеризующих модель распределения генеральной совокупности
совокупности

Слайд 34

Построение наиболее мощных (в своем классе) критериев:

 

 

 

 

 

Критическая зона для значимости α

 

Зона

Построение наиболее мощных (в своем классе) критериев: Критическая зона для значимости α
ошибки II рода для критерия с мощностью 1-β

Уровень значимости 1-α

Мощность 1-β

0

1

0

1

 

 

 

Ошибка статистического оценивания (вероятность 1-β): упустить истинное значение из β%- доверительного интервала
Ошибки проверки гипотез:
А) Ошибка I рода (вероятность α): отвергнуть верную гипотезу
Б) Ошибка II рода (вероятность γ): принять неверную гипотезу

при заданном уровне значимости α

Ошибки первого и второго рода

Слайд 35

 

 

 

Распределение статистики

Плотность распределения

Значение статистики

 

 

 

 

 

 

Плотность распределения

Значение СВ

Критерий для среднего значения

Базовая гипотеза:

Для больших

Распределение статистики Плотность распределения Значение статистики Плотность распределения Значение СВ Критерий для
выборок:

Статистическая характеристика:

Критерий проверки:

Для малых выборок (N<30):

Критерий проверки:

=

?

Слайд 36

- табличная квантиль распределения с N-1 степенью свободы

 

 

Распределение статистики

Плотность распределения

Значение

- табличная квантиль распределения с N-1 степенью свободы Распределение статистики Плотность распределения
статистики

 

 

Критерий для выборочной дисперсии

Базовая гипотеза:

Статистическая характеристика:

Слайд 37

 

 

 

Распределение статистики

Плотность распределения

Значение статистики

 

 

 

Плотность распределения

Значение статистики

 

Распределение статистики

 

 

 

 

Критерий для равенства средних

Распределение статистики Плотность распределения Значение статистики Плотность распределения Значение статистики Распределение статистики
и дисперсий

Равенство двух средних значений:

Статистическая характеристика:

Критерий проверки:

Равенство двух выборочных дисперсий:

Статистическая характеристика:

Критерий проверки:

- табулированное распределение Фишера

Слайд 38

Суждение о выраженности пика распределения
Базовая гипотеза:

Суждение об асимметрии распределения
Базовая гипотеза:

 

 

 

Распределение статистики

Плотность

Суждение о выраженности пика распределения Базовая гипотеза: Суждение об асимметрии распределения Базовая
распределения

Значение статистики

 

 

 

 

 

Распределение статистики

Плотность распределения

Значение статистики

 

 



.

Критерии для асимметрии и эксцесса

Критерий проверки:

Критерий проверки:

Слайд 39

Метод Монте-Карло для проверки гипотез



Для базовой гипотезы и альтернативы :

Метод Монте-Карло для проверки гипотез Для базовой гипотезы и альтернативы : Сгенерировать

Сгенерировать M выборок по закону ,и М выборок по закону

Выбрать метод моделирования случайной величины с этим распределением

Рассчитать по каждой выборке точечную оценку параметров и

Оценить распределения и оценок параметров

Для заданного значения уровня значимости найти ошибку второго рода .

Слайд 40

Задача об отборе на выставку кошек (продолжение)

Средний вес по выборке из

Задача об отборе на выставку кошек (продолжение) Средний вес по выборке из
30 кошек составил 5.97 кг, а СКО – 0.39 кг.
Можно ли с 10% уровнем значимости считать, что математическое ожидание веса кошек по генеральной совокупности составляет 6.0 кг?
Какова при этом вероятность реализации гипотезы, что математичес-
кое ожидание веса кошек
составляет 6,3 кг?

Слайд 41

Развитие: статистические игры и решения

Риск: средние потери при решении

Смысл игры: предугадать

Развитие: статистические игры и решения Риск: средние потери при решении Смысл игры:
реакцию «противника» (значение Ξ) так, чтобы минимизировать свои риски

Слайд 42

Александр Валерьевич Бухановский, Анна Владимировна Калюжная
boukhanovsky@mail.ifmo.ru

Автор признателен всем котикам (и хозяевам) за

Александр Валерьевич Бухановский, Анна Владимировна Калюжная boukhanovsky@mail.ifmo.ru Автор признателен всем котикам (и
возможность некоммерческого использования их изображений, размещенных в публичном Интернете

Слайд 43

ЗАНЯТИЕ 3 ТЕОРИЯ И ПРАКТИКА СТАТИСТИЧЕСКИХ ВЫВОДОВ

Александр Валерьевич Бухановский, Анна Владимировна Калюжная
Раздел 4.

ЗАНЯТИЕ 3 ТЕОРИЯ И ПРАКТИКА СТАТИСТИЧЕСКИХ ВЫВОДОВ Александр Валерьевич Бухановский, Анна Владимировна
Конструктивные модели распределений

Слайд 44

Подбор распределения как задача приближения



Минимизация нормы невязки:

Подбор распределения как задача приближения Минимизация нормы невязки:

Слайд 45

Идея метода наименьших квадратов (МНК)

Невязка как евклидово расстояние:

Идея метода (минимизация суммы

Идея метода наименьших квадратов (МНК) Невязка как евклидово расстояние: Идея метода (минимизация
квадратов невязок по L характерным квантилям):

Реализация метода (система уравнений):

Слайд 46

МНК для линейно-масштабируемых величин

Квантиль линейно-масштабируемой величины:

- квантиль нормированного модельного распределения

Реализация МНК:
система из

МНК для линейно-масштабируемых величин Квантиль линейно-масштабируемой величины: - квантиль нормированного модельного распределения
двух линейных алгебраических уравнений

Слайд 47

Простейшее приближение: МНК по всей выборке

МНК

Среднее и СКО по выборке

Задача: приблизить модельное распределение

Простейшее приближение: МНК по всей выборке МНК Среднее и СКО по выборке
к выборке, которая не вполне ему соответствует

Все выборочные квантили равнозначны,

Слайд 48

Взвешенный МНК: учитываем особенности

Целевая функция с весами

Среднее и СКО по выборке

МНК

МНК

Выборочные квантили

Взвешенный МНК: учитываем особенности Целевая функция с весами Среднее и СКО по
неравнозначны,

Слайд 49

МНК по избранным квантилям

Среднее и СКО по выборке

МНК А (по центральным
квантилям)

МНК Б (по верхним
квантилям)

Предположение: избранные

МНК по избранным квантилям Среднее и СКО по выборке МНК А (по
квантили равнозначны,

A: квантили (10%,25%,35%,50%,65%,75%)
Б: квантили (75%,85%,90%,95%, 97%,99%)

Слайд 50

Модель усеченного распределения

Модель усеченного распределения

Слайд 51

Модель склейки распределений

С – нормировочная константа

Точка склейки

Модель склейки распределений С – нормировочная константа Точка склейки

Слайд 52

Модель смеси распределений

Модель смеси распределений

Слайд 53

Модель распределения с засорением

5%

95%

- параметр масштаба засорения

Модель распределения с засорением 5% 95% - параметр масштаба засорения

Слайд 54

Модель в форме ряда Эджворта

Разложение в окрестности модельного распределения

Модель в форме ряда Эджворта Разложение в окрестности модельного распределения

Слайд 55

Обобщение: конструктивные распределения

Метод МНК: удачный механизм для «натягивания» моделей распределений на реальные

Обобщение: конструктивные распределения Метод МНК: удачный механизм для «натягивания» моделей распределений на
данные
Механизмы управления детализацией модели распределения: выбор весов и расположения квантилей для МНК.
Составные модели распределений (усечение, склейка): применение МНК к разным частям вариационного ряда
Модели на основе смесей: просто использовать, сложно оценивать
Разложения в ряд Эджворта: эффективно, но лишь при малых отклонениях

Слайд 56

Александр Валерьевич Бухановский
boukhanovsky@mail.ifmo.ru

Автор признателен всем котикам (и хозяевам) за возможность некоммерческого использования

Александр Валерьевич Бухановский boukhanovsky@mail.ifmo.ru Автор признателен всем котикам (и хозяевам) за возможность
их изображений, размещенных в публичном Интернете

Слайд 57

ЗАНЯТИЕ 3 ТЕОРИЯ И ПРАКТИКА СТАТИСТИЧЕСКИХ ВЫВОДОВ

Александр Валерьевич Бухановский, Анна Владимировна Калюжная
Раздел 5.

ЗАНЯТИЕ 3 ТЕОРИЯ И ПРАКТИКА СТАТИСТИЧЕСКИХ ВЫВОДОВ Александр Валерьевич Бухановский, Анна Владимировна
Практическая реализация с использованием инструментов компьютерной математики

Слайд 58

Инструменты компьютерной математики

MATLAB
R
Python
MS Excel
Statistica

Инструменты компьютерной математики MATLAB R Python MS Excel Statistica

Слайд 59

Интервальное оценивание на основе Монте-Карло в MATLAB

Интервальное оценивание на основе Монте-Карло в MATLAB

Слайд 60

Тест Колмогорова-Смирнова в MATLAB

Тест Колмогорова-Смирнова в MATLAB

Слайд 61

Интервальное оценивание на основе Монте-Карло в Python

Интервальное оценивание на основе Монте-Карло в Python

Слайд 62

Тест Колмогорова-Смирнова в Python

Тест Колмогорова-Смирнова в Python

Слайд 63

Колонтитул

Метод наименьших квадратов в Statistica(1/2)

Колонтитул Метод наименьших квадратов в Statistica(1/2)

Слайд 64

Колонтитул

Метод Монте-Карло в Statistica(2/2)

Колонтитул Метод Монте-Карло в Statistica(2/2)

Слайд 65

Проверка статистических гипотез в Excel (1/1)

Проверка статистических гипотез в Excel (1/1)

Слайд 66

Интервальное оценивание на основе Монте-Карло в R (1/2)

Интервальное оценивание на основе Монте-Карло в R (1/2)
Имя файла: Теория-и-практика-статистических-выводов.-Лекция-3.pptx
Количество просмотров: 36
Количество скачиваний: 0