Представление данных. Генеральная совокупность, выборка. Понятие о задачах математической статистики
Статистикой называется наука о сборе, классификации, обработке и анализе всевозможных качественных и количественных данных, о получении фактов из обобщающих выводов. Одна из задач статистики – сделать имеющуюся информацию наглядной. Здесь помощь оказывают как математические приёмы, так и диаграммы, таблицы, графики. Например, если вы изучаете данные о заболеваемости 1000 человек, то статистика рекомендует разбить эту тысячу на возрастные группы: 100 человек моложе 20 лет, 170 – в возрасте от 20 до 25 лет и т.д. По этим данным можно составить таблицу, а по таблице построить гистограмму возраста и график заболеваемости. В настоящее время использование ЭВМ значительно облегчает составление отчётов, построение таблиц, графиков и других документов. Но применение специальных компьютерных программ мало помогает при выборе методов обработки и анализе результатов. Здесь исследователям помогает изучение методов, разработанных статистикой как наукой. В статистике применяют два основных подхода: метод сплошных наблюдений (описательная статистика) и выборочный метод. Метод сплошных наблюдений предполагает изучение всех элементов совокупности. Он применяется, если надо изучить успеваемость в группе или на факультете, работу предприятия и его филиалов и т.д., когда количество изучаемых объектов не слишком велико. Когда количество объектов велико или сплошное обследование невозможно в силу того, что обследование может привести к уничтожению объекта (например, чтобы узнать качество консервов, банку надо вскрыть), то есть когда не хотят проводить полное обследование объекта, пользуются выборочным методом, при котором из общей совокупности выбирают ограниченное число объектов и их подвергают изучению. Тогда возникает вопрос, насколько результаты такого обследования будут справедливы для всей совокупности. Разрешить этот вопрос помогает математическая статистика. Математическая статистика – раздел математики, посвящённый математическим методам систематизации, обработки и использования статистических данных для научных и практических выводов. При этом статистическими данными называются сведения о числе объектов в какой-либо более или менее обширной совокупности, обладающих теми или иными признаками. Понятие о математической статистике. Историческая справка Математическая статистика возникла в XVII веке и создавалась параллельно с теорией вероятностей. В России методы математической статистики применялись к демографии и страховому делу В.Я. Буняковским ещё в середине прошлого века. В СССР значительные результаты в области математической статистики получены В.И. Романовским, А.Н. Колмогоровым, Е.Е. Слуцким, Н.В. Смирновым, Ю.В. Линником. Большой вклад в математическую статистику внесли английские (Стьюдент, Р. Фишер, Э. Пирсон), а также и американские (Ю. Нейман, А. Вальд) учёные. Решающее значение для математической статистики имели работы русской классической школы теории вероятностей 2-й половины XIX – начала XX века (П.Л. Чебышев, А.А. Марков, А.М. Ляпунов, С.Н. Бернштейн) и работы немецких и английских математиков (К.Ф. Гаусс, К. Пирсон, Ф. Гальтон). Нельзя не отметить вклад советских математиков в составление таблиц функций (Е.Е. Слуцкий, Н.В. Смирнов, Л.Н. Большев). Математическая статистика для решения своих задач активно привлекает теорию вероятностей. Но, в отличие от теории вероятностей, которая занимается исчислением вероятностей, когда из каких-либо соображений распределение вероятностей известно, статистика решает обратную задачу: отыскивание вероятностных характеристик случайных величин по наблюдаемым реализациям и частотам их появления. Ответ на поставленный выше вопрос о том, насколько результаты выборочного обследования будут справедливы для всей совокупности, математическая статистика формулирует в вероятностных терминах, вводя понятие «уровень доверия» – вероятность, с которой мы не ошибёмся, если поверим выводам, сделанным на основе анализа выборки. Применение вероятностного подхода к изучению выборки очень естественно: данные выборки, не охватывая всей совокупности целиком, являются случайными значениями. По результатам эксперимента необходимо сделать вывод о некотором признаке объекта, когда закон распределения получаемой в результате эксперимента случайной величины (или его параметры), вообще говоря, неизвестен, а эксперимент проводится именно для получения информации о законе распределения случайной величины (что и позволяет сделать вывод о признаке объекта). В вероятностных терминах эксперимент состоит в проведении п независимых испытаний над некоторой случайной величиной; по результатам испытаний надо сделать вывод относительно параметров распределения этой случайной величины (или связанной с ней). При этом изучаемый признак объекта может быть как количественным, так и качественным. Например, если объект – это совокупность всех выпущенных ампул с новокаином, то количественным признаком может быть завод изготовитель, а качественным – бездефектность. На языке теории вероятностей: завод изготовитель – непрерывная случайная величина (случайная величина, возможные значения которой заполняют некоторый интервал), бездефектность – дискретная (случайная величина, принимающая конечное или счётное число значений). В частности, бездефектность – случайная величина, принимающая значение 1 для ампул без дефекта и 0 – для ампул с дефектом. С помощью эксперимента получаются данные о распределении вероятностей случайной величины – например, о проценте бракованных ампул в партии. Методы математической статистики используются как при исследовании непрерывных случайных величин, так и при вычислении их вероятностей