Введение в компьютерный и интеллектуальный анализ данных (ВКИАД)

Содержание

Слайд 2

Мультидисциплинарная область

Мультидисциплинарная область

Слайд 3

Цели курса

изучение теоретических основ предварительного (домодельного) статистического анализа данных
формирование навыков практического

Цели курса изучение теоретических основ предварительного (домодельного) статистического анализа данных формирование навыков
решения задач анализа данных

Слайд 4

(ВКИАД)

Тема 1.
Типы статистических данных и
способы их первичной обработки

(ВКИАД) Тема 1. Типы статистических данных и способы их первичной обработки

Слайд 5

Литература

Статистика: учебник / Под ред. И.И.Елисеевой. - М: Изд-во Проспект, 2019.
Локальная сеть БГУ:

Литература Статистика: учебник / Под ред. И.И.Елисеевой. - М: Изд-во Проспект, 2019.
FPMI-STUD\subfaculty\КТС\ Казаченок\ВКИАД

Слайд 6

Развитие статистики

Др.Китай, др.Рим, Ср.век.Европа
Описательная статистика Г.Конринг (сер. XVIIв., Германия)
Политическая арифметика В.Петти (сер. XVIIв., Англия)
Математическая

Развитие статистики Др.Китай, др.Рим, Ср.век.Европа Описательная статистика Г.Конринг (сер. XVIIв., Германия) Политическая
статистика Кетле, Гальтон, Пирсон, Госсет, Фишер, Митчел (XIX-XXв.)

Слайд 7

Термин «статистика»

STATUS (лат.) – состояние дел
«Статистика» – (Готфрид Ахенваль, XVIII век)
Современное значение:
Отрасль

Термин «статистика» STATUS (лат.) – состояние дел «Статистика» – (Готфрид Ахенваль, XVIII
деятельности
Научная дисциплина
Цифровой материал

Слайд 8

Статистика как…

Отрасль деятельности
Государственная статистика
Ведомственная статистика
Муниципальная статистика, …
Научная дисциплина
Описательная статистика
Экономическая статистика
Математическая статистика, …

Статистика как… Отрасль деятельности Государственная статистика Ведомственная статистика Муниципальная статистика, … Научная

Слайд 9

Статистическое исследование

Сбор первичной информации

Сводка и обработка данных

Анализ и интерпретация результатов

Потребители статистических данных

Объекты статистического наблюдения




Статистическое исследование Сбор первичной информации Сводка и обработка данных Анализ и интерпретация

Слайд 10

Категории статистики

1 Статистическая совокупность
2 Единица совокупности
3 Признак
4 Статистический показатель
5 Система статистических показателей

Категории статистики 1 Статистическая совокупность 2 Единица совокупности 3 Признак 4 Статистический

Слайд 11

Методы статистики

Статистическое наблюдение
Метод группировок
Метод статистических показателей

Методы статистики Статистическое наблюдение Метод группировок Метод статистических показателей

Слайд 12

Статистическая совокупность

- совокупность изучаемых социально-экономических объектов или явлений, имеющих общую качественную основу, но

Статистическая совокупность - совокупность изучаемых социально-экономических объектов или явлений, имеющих общую качественную
отличающихся друг от друга отдельными признаками.

Слайд 13

Единица совокупности

- первичный элемент статистической совокупности, являющийся носителем признаков, подлежащих регистрации.
Единица совокупности

Единица совокупности - первичный элемент статистической совокупности, являющийся носителем признаков, подлежащих регистрации.
рассматривается как неделимый элемент

Слайд 14

Признак

- показатель, характеризующий индивидуальную особенность единицы совокупности, рассматриваемый как случайная величина
Значение признака - измеренный

Признак - показатель, характеризующий индивидуальную особенность единицы совокупности, рассматриваемый как случайная величина
индивидуальный показатель

Слайд 15

Классификация признаков

По типу значений (измерений)

Признаки

Количественные

Атрибутивные
(качественные)

Дискретные

Непрерывные

Многозначные

Альтернативные

Классификация признаков По типу значений (измерений) Признаки Количественные Атрибутивные (качественные) Дискретные Непрерывные Многозначные Альтернативные

Слайд 16

Типовые измерительные шкалы

Тип шкалы
Качественные (атрибутивные)
Шкала наименований
Порядковая шкала
Количественные
Интервальная шкала
Шкала отношений

Типовые измерительные шкалы Тип шкалы Качественные (атрибутивные) Шкала наименований Порядковая шкала Количественные Интервальная шкала Шкала отношений

Слайд 17

Шкала наименований

= номинальная = классификационная
Примеры:
имя, пол, семейство, класс, номер игрока …
Обработка таблиц

Шкала наименований = номинальная = классификационная Примеры: имя, пол, семейство, класс, номер
наблюдений:
Неупорядоченный список класса эквивалентных объектов


Слайд 18

Порядковая шкала

= ранговая = ординальная
Примеры:
ранг служащего, балльные шкалы (сила ветра, оценка на

Порядковая шкала = ранговая = ординальная Примеры: ранг служащего, балльные шкалы (сила
экзамене, магнитуда землетрясения, твердость минерала) …
Обработка таблиц наблюдений:
Упорядочение объектов
Ранг (порядковый номер) объекта


Слайд 19

Интервальная шкала

= шкала разностей
Примеры:
температура oC, oF, летоисчисление, высота над уровнем моря …
Обработка

Интервальная шкала = шкала разностей Примеры: температура oC, oF, летоисчисление, высота над
таблиц наблюдений:
Взятие интервалов – разностей


Слайд 20

Шкала отношений

= метрическая
Примеры:
длина, высота, вес, скорость, светимость …
Обработка таблиц наблюдений:
Арифметические операции


Шкала отношений = метрическая Примеры: длина, высота, вес, скорость, светимость … Обработка

Слайд 21

Статистический показатель

количественно-качественная обобщающая характеристика какого-либо свойства группы (части) единиц совокупности или совокупности

Статистический показатель количественно-качественная обобщающая характеристика какого-либо свойства группы (части) единиц совокупности или
в целом
Стат.данные – совокупность значений стат.показателей

Слайд 22

Типы показателей

Первичные (объемные)
Вторичные (производные)
Индивидуальные (единичные)
Сводные (групповые, суммарные)

Типы показателей Первичные (объемные) Вторичные (производные) Индивидуальные (единичные) Сводные (групповые, суммарные)

Слайд 23

Система статистических показателей

- совокупность взаимосвязанных показателей, отражающая существующие между явлениями взаимосвязи
Сист. стат. показателей

Система статистических показателей - совокупность взаимосвязанных показателей, отражающая существующие между явлениями взаимосвязи
фиксирует:
Множество показателей
Классификацию единиц

Слайд 24

Статистическое наблюдение

Определение
Формы и виды
Программа
Точность наблюдения



Статистическое наблюдение Определение Формы и виды Программа Точность наблюдения ❶ ❶

Слайд 25

Статистическое наблюдение

- планомерный, научно организованный сбор информации о массовых общественных явлениях путем регистрации заранее

Статистическое наблюдение - планомерный, научно организованный сбор информации о массовых общественных явлениях
намеченных признаков с целью получения обобщающих характеристик

Слайд 26

Виды стат. наблюдения

По охвату единиц совокупности:
Сплошное: все единицы
Несплошное: часть единиц
Метод основного массива:

Виды стат. наблюдения По охвату единиц совокупности: Сплошное: все единицы Несплошное: часть
наиболее «крупные» единицы
Выборочное: механический или случайный отбор единиц

Слайд 27

Выборочный метод

Генеральная совокупность (исследуемая стат. совокупность)
Выборочная совокупность (отобранные единицы, «выборка»)
Представительность выборки (репрезентативность) - близость

Выборочный метод Генеральная совокупность (исследуемая стат. совокупность) Выборочная совокупность (отобранные единицы, «выборка»)
свойств генеральной и выборочной совокупностей

Слайд 28

Формирование выборки

1 Выясняется состав совокупности (N)
2 Определяется объем выборки (n)
3 Осуществляется отбор:
Индивидуальный
Механический
Случайный
и т.д.

Формирование выборки 1 Выясняется состав совокупности (N) 2 Определяется объем выборки (n)

Слайд 29

Механический отбор

- отбор каждой (N/n)-ой единицы ki = k1 + [ (i-1) N/n

Механический отбор - отбор каждой (N/n)-ой единицы ki = k1 + [ (i-1) N/n ] i=1..n
] i=1..n

Слайд 30

Точность наблюдения


Статистическое наблюдение

Точность наблюдения Статистическое наблюдение

Слайд 31

Ошибки (погрешности)

различия между показателями выборочной и генеральной совокупностей
Измеряется с помощью
Абсолютная ошибка (разность)
Относительная

Ошибки (погрешности) различия между показателями выборочной и генеральной совокупностей Измеряется с помощью
ошибка (отношение, %)

Слайд 32

Ошибки выборки

Оценка

Число студентов

Ген.совок

Выборка 1

Выборка 2

2
3
4
5

100
300
520
80

9
27
54
10

12
29
52
7

1000

100

100

Итого

3,58

3,65

3,54

Среднее

0,6

0,64

0,59

Доля «4 и 5»

Ошибки выборки Оценка Число студентов Ген.совок Выборка 1 Выборка 2 2 3

Слайд 33

Ряды динамики

Ряды динамики – статистические данные,
отображающие развитие во времени изучаемого
явления.

Ряды динамики Ряды динамики – статистические данные, отображающие развитие во времени изучаемого
Их также называют динамическими рядами,
временными рядами.

Пример. Производство изделий «А» в 2009-2015гг.

Слайд 34

Вариационный ряд

Если ряд распределения построен по
количественному признаку, то такой ряд
называют вариационным.
Построить

Вариационный ряд Если ряд распределения построен по количественному признаку, то такой ряд
вариационный ряд - значит
упорядочить количественное распределение
единиц совокупности по значениям признака, а
затем подсчитать числа единиц совокупности с
этими значениями (построить групповую
таблицу).

Слайд 35

Пример вариационных рядов

Пример 1.
В магазине продана мужская обувь следующих

Пример вариационных рядов Пример 1. В магазине продана мужская обувь следующих размеров:
размеров:
38, 41, 41, 38, 43, 39, 39, 42, 42, 39, 42, 39, 40, 40, 40, 39, 39.
Дискретный вариационный ряд:

2

6

3

Кол-во пар

38-39

40-41

42-43

Размеры обуви

8

5

43

Кол-во пар

Размер обуви

38

1

41

40

39

3

2

Интервальный вариационный ряд:

43

42

Слайд 36

Атрибутивный ряд

Если за основу группировки взят качественный признак, то такой ряд

Атрибутивный ряд Если за основу группировки взят качественный признак, то такой ряд
распределения называют атрибутивным 
(распределение по видам труда, по полу,
по профессии, по религиозному признаку, национальной принадлежности и т.д.).

Слайд 37

Пример атрибутивного ряда


130

ИТОГО

100

Образование рабочих

Высшее

Неполное высшее

Среднее специальное

Среднее

Количество рабочих

абсолютное

20

25

35

50

в %

15,4

19,2

26,9

38,5

Пример атрибутивного

Пример атрибутивного ряда 130 ИТОГО 100 Образование рабочих Высшее Неполное высшее Среднее
ряда

Слайд 38

Статистическая группировка

Формально-математический способ предполагает использование формулы Стерджесса:
k = 1 + [

Статистическая группировка Формально-математический способ предполагает использование формулы Стерджесса: k = 1 +
log2n ]
где k — число групп;
n — число единиц совокупности.

Слайд 39

Применение группировки (шаг 1)

Пример 2.
Построить интервальный вариационный ряд

Применение группировки (шаг 1) Пример 2. Построить интервальный вариационный ряд распределения по
распределения по первичным данным о размере
прибыли 20 коммерческих банков за год (млрд. руб.)

3.7 4.3 6.7 5.6 5.1 8.1 4.6 5.7 6.4 5.9 5.2 6.2 6.3 7.2 7.9 5.8 4.9 7.6 7.0 6.9

1. Упорядочиваем ряд:

3.7 3.7 4.6 4.9 5.1 5.2 5.6 5.7 5.8 5.9 6.2 6.3 6.4 6.7 6.9 7.0 7.2 7.6 7.9 8.1

РЕШЕНИЕ (6 шагов)

Слайд 40

Применение группировки (шаги 2-4)

3. Вычисляем количество групп:

k = 1 +

Применение группировки (шаги 2-4) 3. Вычисляем количество групп: k = 1 +
[ log220 ] = 5

4. Вычисляем величину интервала:

H = R / k = 4.4 / 5= 0.88 ~ 0.9

R = Xmax – Xmin= 8.1 – 3.7 = 4.4

2. Вычисляем размах:

Слайд 41

Применение группировки (шаги 5-6)

6. Подсчитаем количество вариант, попавших
в каждый

Применение группировки (шаги 5-6) 6. Подсчитаем количество вариант, попавших в каждый интервал,
интервал, и запишем в таблицу:

[3.7;4.6), [4.6;5.5), [5.5;6.4), [6.4;7.3), [7.3;8.2]

5. Вычисляем границы интервалов:

Слайд 42


Непараметрическое
описание распределений

Непараметрическое описание распределений

Слайд 43


Пример: Взвешиваем N кроликов

Пример: Взвешиваем N кроликов

Слайд 44

Пример: Упорядочение кроликов

1. Упорядочим кроликов по возрастанию веса (значения переменной);
2. Разобьём

Пример: Упорядочение кроликов 1. Упорядочим кроликов по возрастанию веса (значения переменной); 2.
их на группы по равным интервалам веса.

Слайд 45

Гистограмма – графическое представление частотного распределения, разбитого по интервалам, где высота столбика

Гистограмма – графическое представление частотного распределения, разбитого по интервалам, где высота столбика
отражает ЧАСТОТУ

Частотное распределение переменной (Плотность распределения вероятностей ?)

Частота – то, сколько раз встретилось данное значение переменной

Интервалы должны быть одного размера.

Слайд 46

Другой пример гистограммы

Для интервальных вариационных рядов

Другой пример гистограммы Для интервальных вариационных рядов

Слайд 47

Три ОСНОВНЫЕ ХАРАКТЕРИСТИКИ:

«Середина» распределения;
«Ширина» распределения;
Форма распределения

Описание частотного распределения

Это

Три ОСНОВНЫЕ ХАРАКТЕРИСТИКИ: «Середина» распределения; «Ширина» распределения; Форма распределения Описание частотного распределения
относится
не только к количественным данным,
но и к качественным

Слайд 48

«Середина»

Мода
(mode)

Медиана (median)

Среднее значение (mean)

Все значения могут служить оценками.
Среднее значение в

«Середина» Мода (mode) Медиана (median) Среднее значение (mean) Все значения могут служить
выборке –
наиболее эффективная оценка.

Варианты «Середины» распределения

Слайд 49

Медиана (квартиль?)

Медиана – значение, которое делит
распределение пополам (его площадь в

Медиана (квартиль?) Медиана – значение, которое делит распределение пополам (его площадь в
т.ч.):
половина значений больше медианы,
половина – не больше.

1,0

3,2

3,2

5,7

9,5

6,0

7,1

7,9

10,4

11,0

Медиана

Имеет смысл не только для количественных переменных, но и для ранговых! (не для качественных).

3,2

Слайд 50

Медиана 1

Если дискретный ряд содержит нечетное количество вариант, то находится та единственная

Медиана 1 Если дискретный ряд содержит нечетное количество вариант, то находится та
варианта,
справа и слева от которой находится одинаковое число вариант:

Слайд 51

Медиана 2

Если дискретный ряд содержит четное количество вариант, то находятся две варианты,

Медиана 2 Если дискретный ряд содержит четное количество вариант, то находятся две
справа и слева от которых располагается одинаковое количество вариант. Ме равна средней арифметической из двух значений:

Слайд 52

Квартиль 1

Квартиль 3

медиана

Частота

Значение переменной

25%

25%

25%

25%

Квартиль

Квартиль 1 Квартиль 3 медиана Частота Значение переменной 25% 25% 25% 25% Квартиль

Слайд 53

Интерквартильный размах

Квартили (quartiles) делят распределение на четыре части так, что

Интерквартильный размах Квартили (quartiles) делят распределение на четыре части так, что в
в каждой из них оказывается поровну значений (2-я квартиль = медиана).
1-я квартиль = 25% процентиль
3-я квартиль = 75% процентиль
Интерквартильный размах – разность между третьей и первой квартилями.

Слайд 54

Распределение можно поделить не только на ДВЕ равные части, но и

Распределение можно поделить не только на ДВЕ равные части, но и на:
на:
ЧЕТЫРЕ (значения, стоящие на границах - квартили);
ВОСЕМЬ (... октили);
СТО (... процентили);
N (квантили порядка 1/N).

Деление распределения на части

Слайд 55

Процентили, пример

95% процентиль – значение переменной,
левее которого находится 95%

Процентили, пример 95% процентиль – значение переменной, левее которого находится 95% значений переменной 95%
значений переменной

95%

Слайд 56

Мода – наиболее часто встречающееся значение

Мода

Существует не только для количественных, но

Мода – наиболее часто встречающееся значение Мода Существует не только для количественных,
и для ранговых, и для качественных переменных

Мода может быть не единственной

Слайд 57

Мода

Мода — это варианта, которая имеет наибольшую частоту. Она соответствует определенному

Мода Мода — это варианта, которая имеет наибольшую частоту. Она соответствует определенному
значению признака.
Соглашения о существовании моды:
Если все варианты наблюдаются с одинаковой частотой, то говорят, что вариационный ряд не имеет моды.
Если две или более соседние варианты имеют наибольшие частоты, равные между собой, то мода равна средней арифметической этих вариант.
Если равные варианты, имеющие наибольшие частоты, расположены не по соседству, то принято говорить, что признак имеет две и более моды (бимодальный, полимодальный признаки и т.д.)

Слайд 58

Пример полигона частот

Для дискретных вариационных рядов

Пример полигона частот Для дискретных вариационных рядов

Слайд 59

Пример данных для кумуляты

Пример данных для кумуляты

Слайд 60

Пример кумуляты
(Функция распределения вероятностей ?)

Для дискретных и интервальных вариационных рядов

Пример кумуляты (Функция распределения вероятностей ?) Для дискретных и интервальных вариационных рядов

Слайд 61

Пример: «Середина» распределения

Мода, медиана и среднее СОВПАДАЮТ для симметричного унимодального распределения

Пример: «Середина» распределения Мода, медиана и среднее СОВПАДАЮТ для симметричного унимодального распределения

Слайд 62

Пример: «Середина» распределения

Мода, медиана и среднее СОВПАДАЮТ для симметричного унимодального распределения

К

Пример: «Середина» распределения Мода, медиана и среднее СОВПАДАЮТ для симметричного унимодального распределения
появлению перекоса чувствительнее всего среднее значение

= 14 000

= 46 833

= 16 500

14 000

46 833

16 500

Имя файла: Введение-в-компьютерный-и-интеллектуальный-анализ-данных-(ВКИАД).pptx
Количество просмотров: 41
Количество скачиваний: 0