Элементы математической статистики. Лекция 1

Содержание

Слайд 2

непараметрической статистики. В сороковые годы ХХ в. румын А. Вальд (1902–1950) построил

непараметрической статистики. В сороковые годы ХХ в. румын А. Вальд (1902–1950) построил
теорию последовательного статистического анализа.
Задачи математической статистики
Все задачи математической статистики касаются вопросов обработки наблюдений над массовыми случайными явлениями, но в зависимости от характера решаемого практического вопроса и от объѐма имеющегося экспериментального материала эти задачи могут принимать ту или иную форму.
Укажем некоторые типичные задачи математической статистики, часто встречаемые на практике.
1. Оценивание характеристик изучаемых явлений, объектов, то есть
нахождение подходящих значений характеристик, например, параметров распределений случайных величин.

Проверка статистических гипотез.
Обеспечение методики сбора, обработки и анализа статистических данных, планирование эксперимента.
К методике обработки статистических данных предъявляются следующие требования: она должна сохранять типичные, характерные черты наблюдаемого явления и отбрасывать все несущественное, второстепенное, случайное.
В экономике, социологии, страховом деле постоянно приходится иметь дело со статистическим материалом, полученным в результате наблюдений, измерений, эксперимента, испытаний. Обработка статистического материала,
характеризующего эти явления, и анализ полученных данных в зависимости
от цели исследования представляет собой несомненную практическую ценность для описания деятельности обособленных страховых организаций, целью которых является продажа страхового обеспечения. В основном задачи, решаемые экономистами страховых компаний, являются комплексными, так как в условиях уже содержат рассчитанные элементы, связанные с теорией вероятности, обычно это результаты многолетних наблюдений и расчетов специалистов. Например, к таким элементам относят вероятность смерти в определенном возрасте или вероятность наступления другого страхового случая.
Результаты отдельных испытаний в экспериментах, наблюдениях и т.д. обычно считаются независимыми, а условия их проведения – неизменными.

Слайд 3

В этом содержится некоторая идеализация, поскольку реально меняются внешние условия, режимы работы

В этом содержится некоторая идеализация, поскольку реально меняются внешние условия, режимы работы
аппаратуры и т.д.
Описательная статистика
Генеральная совокупность. Выборка. Выбор
В практике статистических наблюдений различают два вида наблюдений:
сплошное (изучают все объекты совокупности);
выборочное (изучается лишь часть объектов совокупности);
Генеральная совокупность – вся подлежащая изучению совокупность объектов.
Выборочная совокупность (выборка) – часть объектов, которая отобрана для непосредственного наблюдения из генеральной совокупности. Обычно выборка составляет 5%-10% от генеральной совокупности.
Использование выборки для построения закономерностей, которым
подчинена наблюдаемая случайная величина, позволяет избежать ее сплошного (массового) наблюдения, что часто бывает ресурсоемким процессом, а то и просто невозможным.
Числа объектов в генеральной совокупности и выборке называют их объемами. Генеральная совокупность может иметь как конечный, так и бесконечный объем. На практике всю генеральную совокупность изучают сравнительно редко, поскольку если совокупность содержит очень большое число объектов, то провести сплошное обследование невозможно. Тем более если исследование связано с уничтожением объекта или требует больших
материальных затрат. В этих случаях изучают выборку.
Примеры.
Вся продукция предприятия есть генеральная совокупность, а отдельные экземпляры, подвергнутые контролю, составляют выборку.
При изучении продолжительности жизни отдельных слоев населения генеральной совокупностью является все население, а выборкой являются те совокупности, которые подвергались обследованию.
При изучении продолжительности телефонного разговора генеральной совокупностью являются все вызовы, а выборкой являются те вызовы, продолжительность которых измерялась.
Сущность выборочного метода состоит в том, чтобы по некоторой
части генеральной совокупности выносить суждения об ее свойствах в целом.
Основной недостаток выборочного метода – ошибки исследования, называемыми ошибками репрезентативности (представительства).

Слайд 4

Однако неизбежные ошибки, возникающие при выборочном методе, могут быть заранее оценены и

Однако неизбежные ошибки, возникающие при выборочном методе, могут быть заранее оценены и
при правильно организованной выборке сведены к практически незначимым величинам.
Сплошное наблюдение (даже если оно возможно) приводит не только к
росту стоимости, трудоемкости, увеличению времени исследования, но и к появлению неустранимых ошибок (т.к. каждое отдельное наблюдение поневоле производится с меньшей точностью).
Требования к выборке. Чтобы по выборке можно было судить о
генеральной совокупности, она должна быть репрезентативной, т.е. она должна достаточно хорошо воспроизводить генеральную совокупность. Выборка будет обладать таким свойством, если каждый объект генеральной совокупности будет иметь один и тот же шанс быть выбранным, в этом случае выборка является случайной.
Число N объектов генеральной совокупности и число n объектов выборки называют объемами генеральной и выборочной совокупностей соответственно.
На практике применяются различные способы получения выборки.
Принципиально эти способы можно подразделить на два вида:
Отбор, не требующий расчленения генеральной совокупности на части.
Сюда относятся:
а) простой случайный бесповторный отбор (объекты извлекают по одному из всей генеральной совокупности);
б) простой случайный повторный отбор.
Отбор, при котором генеральная совокупность разбивается на части. Сюда относятся:
а) типический отбор (объекты отбираются не из всей генеральной совокупности, а из каждой ее «типической» части. Например, если детали изготовляют на нескольких станках, то отбор производят не из всей совокупности деталей, произведенных всеми станками, а из продукции каждого станка в отдельности);
б) механический отбор (генеральную совокупность «механически» делят на столько групп, сколько объектов должно войти в выборку, а из каждой группы отбирают один объект. Например, если нужно отобрать 20 %
изготовленных станком деталей, то отбирают каждую пятую деталь; если требуется отобрать 5 % деталей, то отбирают каждую двадцатую деталь, и т. д.);
в) серийный отбор (объекты отбирают из генеральной совокупности не по одному, а «сериями», которые подвергаются сплошному обследованию. Например, если изделия изготовляются большой группой станков-автоматов, то подвергают сплошному обследованию продукцию только нескольких станков.

Слайд 5

Вариационный и статистический ряды
Выборка является труднообозримым множеством. Для дальнейшего изучения выборку подвергают

Вариационный и статистический ряды Выборка является труднообозримым множеством. Для дальнейшего изучения выборку
перегруппировке.
Определение. Вариационным рядом называется последовательность всех элементов выборки, расположенных в неубывающем порядке. Одинаковые элементы повторяются.
Запись вариационного ряда: x1,x2,..., xn . Ему соответствует следующая таблица:

Элементы вариационного ряда xi называют его вариантами или порядковыми статистиками.
Пример 1. Студенты получили следующие баллы по тесту: 11, 8, 9, 10,
8, 6, 7, 7, 9, 11, 10, 6, 5, 11, 10. Записать статистический и вариационный ряды.
Решение:
11, 8, 9, 10, 8, 6, 7, 7, 9, 11, 10, 6, 5, 11, 10 – это статистический ряд. Расположим данные в порядке возрастания:
5, 6, 6, 7, 7, 8, 8, 9, 9, 10, 10, 10, 11, 11, 11 – это вариационный ряд.
Представим данный ряд в виде таблицы (с учетом повторений) и в
порядке возрастания значений признака, получим ранжированный вариационный ряд.

Здесь xi – значение признака (варианта), ni – его частота («вес» значения признака). Сумма всех частот значений признака равна объему выборки: 1+ 2 + 2 + 2 + 2 + 3+ 3=15.

Слайд 6

Дискретный статистический ряд
Вариационный ряд называется дискретным, если любые его варианты отличаются на

Дискретный статистический ряд Вариационный ряд называется дискретным, если любые его варианты отличаются
конечную постоянную величину, и называется непрерывным (или интервальным), если его варианты могут отличаться друг от друга на сколь угодно малую величину.
Определение. Дискретным статистическим рядом называется последовательность различных вариант хi с указанием частот повторения

элементов. При этом вместо абсолютных частот ni можно задавать
n

i

i

w =

распределение относительных частот n , где n объем выборки.

Дискретный статистический ряд можно записать в виде таблицы

n

∑ωi = 1:
i=1

Для наглядного представления эмпирических распределений для переменной дискретного типа строится график, где по оси Х откладываются значения переменной, а по оси Y – значения частот. Полученные точки соединяют ломаной линией. Этот график называется полигоном.

Пример 2. Дана выборка, состоящая из чисел 1, 3, 1, 2, 3, 5, 1, 3, 1, 2.

и статистический ряды. Построить полигон

Составить вариационный относительных частот.
Решение:

Вариационный ряд имеет следующий вид: 1,1,1,1,2,2,3,3,3,5. Объем выборки n = 10.
Статистический ряд приведен в таблице.

Слайд 7

Полигон относительных частот имеет вид (рис. 1):

Рис. 1. Полигон относительных частот
Полигон относительных

Полигон относительных частот имеет вид (рис. 1): Рис. 1. Полигон относительных частот
частот дает хорошее представление о распределении частот в выборке.
Элемент, отвечающий наибольшей частоте по сравнению с соседними элементами статистического ряда, называется выборочной модой (mod). Так, для выборки из примера 2 получаем, что mod = 1.
Минимальный и максимальный элементы называются крайними, иначе
– экстремальными элементами вариационного ряда:

xmin = x1;
Разность

xmax = xn.
между максимальным и минимальным элементами

называется размахом, или широтой выборки:
R = xmax - xmin.
Информативность этого показателя невелика. Можно привести много распределений, сильно отличающихся по форме, но имеющих одинаковый размах. Размах вариации используется иногда в практических исследованиях при малых (не более 10) объемах выборки, например, по размаху выборки легко оценить, насколько различаются лучший и худший результаты в группе спортсменов. При больших объемах выборки к его использованию надо относиться с осторожностью.

Слайд 8

Интервальный статистический ряд
В случае непрерывного вариационного ряда составляют интервальный статистический ряд, под

Интервальный статистический ряд В случае непрерывного вариационного ряда составляют интервальный статистический ряд,
которым понимают упорядоченную совокупность интервалов варьирования значений случайной величины с соответствующими частотами или частостями попаданий в каждый из них значений случайной величины.
Как правило, частичные интервалы, на которые разбивается весь интервал варьирования, имеют одинаковую длину и представимы в виде

[zi , zi + h) i = 1, 2,..., k,

где k число интервалов.
– наибольшее и наименьшее значения случайной

Пусть

xmax, xmin

k

величины. Длину h = xmax − xmin

следует выбирать так, чтобы построенный

ряд не был громоздким, но в то же время позволял выявлять характерные изменения случайной величины.
Рекомендуется для нахождения m использовать формулу Старджесса:
m = 1+ 3,322lg n
Если окажется, что k – дробное число, то за длину интервала следует принять либо ближайшую простую дробь, либо ближайшую целую величину. Рекомендуется за начало первого интервала брать величину

1 min

2

k .

z = x

n

Частота ωi представляет собой число наблюдений, попавших в данный интервал.
Интервальный статистический ряд можно записать в виде таблицы
∑ωi = 1:
i=1

Пусть Δxi = xi − xi−1 - длина i-го интервала. Обозначим длину интервала hi = Δxi . Интервальный ряд графически изображается в виде гистограммы (рис. 2).

Слайд 9

ωi / hi

Рис. 2 Гистограмма
Гистограммой относительных частот называют ступенчатую фигуру, состоящую из

ωi / hi Рис. 2 Гистограмма Гистограммой относительных частот называют ступенчатую фигуру,
прямоугольников, основаниями которых служат интервалы длиной hi, а высоты равны ωi / hi.
Площадь i-го прямоугольника равна частоте ωi , а площадь гистограммы относительных частот равна 1.
Пример 3. При измерении роста девушек некоторого института была получена следующая выборка (объема n = 30):

Необходимо гистограмму.
Решение:

построить интервальный вариационный ряд и его

Найдем по формуле Старджесса оптимальное количество интервалов:
m =1+ 3,332lg n ≈ 5,59, т.е. m = 6.
Так как наибольшая варианта равна 186, а наименьшая 153, то вся выборка попадает в интервал (153; 186).

Слайд 10

1 min

2

z = x − h = 153 − 3 = 150

и длина каждого частичного интервала равна

186 −150 =

1 min 2 z = x − h = 153 − 3
6.
6
Получаем следующие шесть интервалов:

а соответствующий интервальный вариационный ряд представлен в таблице.

i

Находим высоты y по формуле

i

i

i

h 6

ω ω

= .

График построенной гистограммы приведен на рисунке 3.

Рис. 3 Гистограмма

Слайд 11

Эмпирическая функция распределения

Рассмотрим теперь статистический аналог интегральной функции распределения F(x)=P(X

Эмпирическая функция распределения Рассмотрим теперь статистический аналог интегральной функции распределения F(x)=P(X Обозначим
X, называемый в статистике эмпирической функцией распределения.
Обозначим через nx число наблюдений, при которых наблюдалось значение признака X < x . Число nx называется накопленной частотой, а
nx
отношение n называется накопленной частостью. Накопленную частость
nx

n

можно получить последовательным суммированием частостей

*

i

ω

всех

удовлетворяющих условию X < x.

вариантов xi или интервалов
Определение. Эмпирической функцией распределения (функцией

распределения выборки) называется функция F*(x), определяющая для каждого значения x накопленную частость события X < x:

F * (x) = nx ,

n
где nx - число вариантов, меньших x ; n - объем выборки.
Эмпирическая функция распределения выборки F*(x) служит для оценки теоретической функции распределения генеральной совокупности

F(x)=P(X

Функция F*(x) является «ступенчатой», имеются разрывы в точках, которым соответствуют наблюдаемые значения вариант. Величина скачка равна относительной частоте варианты.
В случае построения эмпирической функции распределения для
интервального вариационного ряда при ее графическом изображении можно соединить точки графика, соответствующие правым концам интервалов, отрезками прямой. В результате получим непрерывную линию, называемую кумулятивной кривой или кумулятой.
Пример 4. Найти эмпирическую функцию по заданному распределению выборки:

Слайд 12

График этой функции изображен на рисунке 4.

Рис. 4 График эмпирической функции распределения

График этой функции изображен на рисунке 4. Рис. 4 График эмпирической функции распределения

Слайд 13

Пример 5. Данные о количестве пациентов кардиологического отделения больницы приведены в таблице.

Найти эмпирическую функцию распределения по данным выборки.
Решение:
Найдем

Пример 5. Данные о количестве пациентов кардиологического отделения больницы приведены в таблице.
по формуле Старджесса оптимальное количество интервалов:
m =1+ 3,332lg n ≈ 7, 66, т.е. m = 8.
Так как наибольшая варианта равна 100, а наименьшая 4, то вся выборка попадает в интервал (4; 100).

Длина каждого частичного интервала равна

100 − 4 = 12 .

8

Получаем следующие восемь интервалов:
а соответствующий интервальный вариационный ряд представлен в таблице ниже.

Гистограмма и эмпирическая функция плотности распределения для полученного интервального ряда представлены на рисунке 5.

Слайд 14

Рис. 5 Гистограмма функции распределения
Запишем эмпирическую функцию распределения.

График эмпирической функции распределения и кумулята представлена на рисунке 6.

Рис. 5 Гистограмма функции распределения Запишем эмпирическую функцию распределения. График эмпирической функции