Компьютерный и интеллектуальный анализ данных. Теория вероятностей

Содержание

Слайд 2

0. Введение. Общие сведения.

Объем курса – 18 часов лекции 16 часов лабораторные занятия
Лабораторные

0. Введение. Общие сведения. Объем курса – 18 часов лекции 16 часов
занятия проводятся в классе ПЭВМ и выполняются в среде пакета R
Форма отчетности – зачет
Лектор – Воротницкая Татьяна Ивановна

Слайд 3

0. Введение. Что такое компьютерный анализ данных

Компьютерный анализ данных - научное направление,

0. Введение. Что такое компьютерный анализ данных Компьютерный анализ данных - научное
объединяющее вероятностно-статистические, логико-алгебраические, графические, другие модели, а также алгоритмы, программные средства обработки и анализа эмпирических данных с целью получения научно-обоснованных выводов и принятия решений относительно исследуемых объектов

Слайд 4

0. Введение. Основные разделы

Статистический анализ данных (Statistical Data Analysis – SDA)

0. Введение. Основные разделы Статистический анализ данных (Statistical Data Analysis – SDA)

Интеллектуальный анализ данных (Data Mining или Knowledge Discovery in Database - KDD)
Анализ больших данных (Big Data Analysis - BDA)

Слайд 5

0. Введение. Литература.
Ширяев А.Н. Вероятность. Москва, 1980.
Вентцель Е.С. Теория вероятностей: Учеб. для

0. Введение. Литература. Ширяев А.Н. Вероятность. Москва, 1980. Вентцель Е.С. Теория вероятностей:
вузов. — 6-е изд. стер. — М.: Высш. шк., 1999.
Колмогоров А.Н. Основные понятия теории вероятностей. Москва, 1936.
Хацкевич Г.А. Статистика. Описательный подход / Г.А. Хацкевич. – Минск: НИУП. – 2002.
А. А. Барсегян, М. С. Куприянов, В. В. Степаненко, И. И. Холод Технологии анализа данных. Data Mining, Visual Mining, Text Mining, OLAP
Елисеева И.И. Общая теория статистики / И.И. Елисеева, М.М. Юзбашев. – М. – 1996.
Тюрин Ю.Н. Анализ данных на компьютере / Ю.Н. Тюрин, А.А. Макаров
Torgo L. Data Mining with R: learning by case studies / L. Torgo - LIACC-FEP, University of Porto. – 2003.

Слайд 6

1. Основные понятия теории вероятностей

Теория вероятностей - математическая наука, изучающая закономерности в

1. Основные понятия теории вероятностей Теория вероятностей - математическая наука, изучающая закономерности
случайных явлениях
Случайное явление – это такое явление, которое при неоднократном воспроизведении одного и того же опыта протекает каждый раз несколько по-иному

Слайд 7

1. Основные понятия теории вероятностей Примеры случайных явлений

Стрельба из орудия, установленного под заданным

1. Основные понятия теории вероятностей Примеры случайных явлений Стрельба из орудия, установленного
углом к горизонту
Детерминированы: начальная скорость снаряда, угол бросания, форма снаряда
Фактическая траектория снаряда отклоняется за счет совокупного влияния второстепенных случайных факторов: ошибки изготовления снаряда, отклонение веса порохового заряда от номинала, неоднородность структуры и неравномерность горения заряда, ошибки установки ствола, вариации атмосферного давления и др.

Слайд 8

1. Основные понятия теории вероятностей Примеры случайных явлений

Взвешивание одного и того же тела

1. Основные понятия теории вероятностей Примеры случайных явлений Взвешивание одного и того
на аналитических весах
Детерминированы: массы тела и разновесов, геометрические форма и размеры плеч весов, значение ускорения свободного падения
Результаты повторных взвешиваний несколько отличаются за счет совокупного влияния второстепенных случайных факторов: положения тела на чашке весов, случайные вибрации, ошибки отсчета показаний прибора и др.

Слайд 9

1. Основные понятия теории вероятностей Примеры случайных явлений

Бросание игральной кости
Детерминированы: форма (куб) и

1. Основные понятия теории вероятностей Примеры случайных явлений Бросание игральной кости Детерминированы:
распределение плотности материала (в идеале – равномерное)
Результаты повторных выбрасываний отличаются за счет случайных направлений и скоростей поступательного и вращательного движений при бросании кости

Слайд 10

1. Основные понятия теории вероятностей Какие закономерности изучает теория вероятностей

Теория вероятностей изучает закономерности,

1. Основные понятия теории вероятностей Какие закономерности изучает теория вероятностей Теория вероятностей
проявляющиеся при рассмотрении большого числа однородных случайных явлений.
Закономерности, проявляющиеся в массе случайных явлений нивелируют, «погашают» индивидуальные особенности каждого из случайных явлений.
Методы теории вероятностей по природе приспособлены только для исследования массовых случайных явлений; они не дают возможности предсказать исход отдельного случайного явления, но дают возможность предсказать средний суммарный результат массы однородных случайных явлений, предсказать средний исход массы аналогичных опытов, конкретный исход каждого из которых остается неопределенным, случайным.

Слайд 11

1. Основные понятия теории вероятностей Событие

Под «событием» в теории вероятностей понимается всякий факт,

1. Основные понятия теории вероятностей Событие Под «событием» в теории вероятностей понимается
который в результате опыта может произойти или не произойти.
Примеры событий:
Появление герба при однократном бросании монеты
появление трех гербов при трехкратном бросании монеты;
попадание в цель при выстреле;
появление туза при вынимании карты из колоды;
обнаружение объекта при одном цикле обзора радиолокационной станции;
обрыв нити в течение часа работы ткацкого станка.
Каждое событие обладает различной степенью возможности.
С каждым событием можно попытаться связать некоторое число, характеризующее объективную возможность события – вероятность.
Единица измерения вероятностей вероятность достоверного события = 1. Вероятность невозможного события = 0.

Слайд 12

1. Основные понятия теории вероятностей Статистическая устойчивость

Если А – некоторое случайное событие, то

1. Основные понятия теории вероятностей Статистическая устойчивость Если А – некоторое случайное
доля m/n экспериментов, в которых данное событие произошло, имеет тенденцию стабилизироваться с ростом общего числа экспериментов n, приближаясь к некоторому числу p(A). Это число служит объективной характеристикой «степени возможности» произойти событию А
Пример: эксперимент по бросанию монеты.
Случайное событие – выпадение герба
Проведем по 10 экспериментов, в каждом из которых будем проводить n испытаний, n=102, 104, 106.
Число выпадений герба в каждой серии обозначим m.
В таблице показаны значения m в каждом из экспериментов и значения относительной частоты p(A)=m/n выпадений герба при различном числе испытаний

Слайд 13

1. Основные понятия теории вероятностей Статистическая устойчивость

Очевидна стабилизация относительной частоты p(A)=m/n выпадений герба

1. Основные понятия теории вероятностей Статистическая устойчивость Очевидна стабилизация относительной частоты p(A)=m/n
с ростом числа испытаний n, а также стремление р(А) к величине ½.

Слайд 14

1. Основные понятия теории вероятностей. Пространство элементарных исходов.

Пространством элементарных событий Ω называется множество,

1. Основные понятия теории вероятностей. Пространство элементарных исходов. Пространством элементарных событий Ω
содержащее все возможные случайные результаты данного эксперимента, из которых в эксперименте происходит ровно один. Элементы этого множества называют элементарными исходами ω.
 Событиями будем называть подмножества множества Ω. Говорят, что в результате эксперимента произошло событие А⊆Ω, если в эксперименте произошел один из элементарных исходов, входящих в множество А.

Слайд 15

1. Основные понятия теории вероятностей. Пространство элементарных исходов.

Пример: однократное подбрасывание игральной кости.
Пространством элементарных

1. Основные понятия теории вероятностей. Пространство элементарных исходов. Пример: однократное подбрасывание игральной
событий Ω = {1,2,3,4,5,6}.
Элементарное событие – число выпавших очков
Примеры событий: А={1,2} – выпало одно или два очка; B={1,3,5} – выпало нечетное число очков.
Достоверным называется событие, которое обязательно происходит в результате эксперимента, т.е. единственное событие, включающее все элементарные исходы
Невозможным называется событие, которое не может произойти в результате эксперимента, т.е. событие не содержащее ни одного элементарного исхода – пустое множество.

Слайд 16

1. Основные понятия теории вероятностей. Вероятность на дискретном пространстве элементарных исходов

 

1. Основные понятия теории вероятностей. Вероятность на дискретном пространстве элементарных исходов

Слайд 17

1. Основные понятия теории вероятностей. Свойства вероятности на дискретном пространстве элементарных исходов

 

1. Основные понятия теории вероятностей. Свойства вероятности на дискретном пространстве элементарных исходов

Слайд 18

1. Основные понятия теории вероятностей. Классическое определение вероятности

 

1. Основные понятия теории вероятностей. Классическое определение вероятности

Слайд 19

1. Основные понятия теории вероятностей. Классическое определение вероятности

 

1. Основные понятия теории вероятностей. Классическое определение вероятности

Слайд 20

1. Основные понятия теории вероятностей. Вероятность и частота

 

1. Основные понятия теории вероятностей. Вероятность и частота

Слайд 21

1. Основные понятия теории вероятностей. Геометрическое определение вероятности

Для испытаний с бесконечным числом исходов

1. Основные понятия теории вероятностей. Геометрическое определение вероятности Для испытаний с бесконечным
классическое определение вероятности неприменимо.
Тогда вводят понятие геометрической вероятности, как вероятности попадания точки в область (отрезок, часть плоскости, часть n-мерного пространства).
Пример: случайное бросание точки в область G, причем все точки этой области равноправны. Событие A – попадание точки в область g.
Геометрической вероятностью события A называют

 

Слайд 22

1. Основные понятия теории вероятностей. Геометрическое определение вероятности

Пример.
Два студента A и B

1. Основные понятия теории вероятностей. Геометрическое определение вероятности Пример. Два студента A
условились встретиться в определенном месте во время перерыва между 13 ч и 13 ч 50 мин. Пришедший первым ждет другого в течение 10 мин., после чего уходит. Чему равна вероятность их встречи, если приход каждого из них в течение указанных 50 минут может произойти наудачу и моменты прихода независимы?

 

Слайд 23

1. Основные понятия теории вероятностей. Условная вероятность

Пример. Игральная кость подбрасывается один раз. Известно,

1. Основные понятия теории вероятностей. Условная вероятность Пример. Игральная кость подбрасывается один
что выпало более трех очков. Какова при этом вероятность, что выпало четное число очков?
Решение
а) Ω = {4,5,6}, A={4,6}. p(A)=2/3.
б) Ω = {1,2,3,4,5,6}; B = {4,5,6}. Вопрос: какова вероятность того, что при осуществлении B происходит А ={4,6}: p(A|B) ?
p(A|B) = p(A ∩ B)/P(B) =(2/6)/(3/6)=2/3.
Условной вероятностью события A по отношению к событию B p(A|B) называют вероятность события A, найденную при условии, что произошло событие B

Слайд 24

1. Основные понятия теории вероятностей. Правило умножения вероятностей событий

Правило умножения вероятностей: Вероятность произведения

1. Основные понятия теории вероятностей. Правило умножения вероятностей событий Правило умножения вероятностей:
двух событий равна произведению вероятности одного из этих событий на условную вероятность другого, найденную в предположении, что первое событие произошло, т.е. p(AB)=p(A)p(B|A) или p(AB)=p(B)p(A|B)
События A и B называются независимыми, если p(A|B) = p(A) и p(B|A) = p(B). Для независимых событий p(AB)=p(A)p(B).
Пример. В первом ящике 2 белых и 10 красных шаров, во втором ящике – 8 белых и 4 красных. Из каждого ящика вынули по шару. Какова вероятность, что оба шара белые?
Решение. A={появление белого шара из первого ящика}, B={появление белого шара из второго ящика}. A и B – независимы. p(AB)=p(A)p(B)=2/12 ∙ 8/12 = 1/9

Слайд 25

1. Основные понятия теории вероятностей. Формула полной вероятности

 

1. Основные понятия теории вероятностей. Формула полной вероятности

Слайд 26

1. Основные понятия теории вероятностей. Формула полной вероятности

Пример. Имеется четыре одинаковых ящика с

1. Основные понятия теории вероятностей. Формула полной вероятности Пример. Имеется четыре одинаковых
электрическими лампочками, причем первый ящик содержит 10 исправных и 2 бракованные лампочки, второй и третий ящики содержат по 5 исправных и по 5 бракованных лампочек, а четвертый ящик содержит только 10 исправных лампочек. Наудачу выбирается один ящик и из него одна лампочка. Какова вероятность того, что эта лампочка окажется исправной?
Решение. Событие A={выбор исправной лампочки}. Гипотезы Bi={выбор i-го ящика}. События Bi образуют полную группу событий, p(Bi)=1/4. p(A|B1)=10/12=5/6; p(A|B2)= p(A|B3)=5/10=1/2; p(A|B4)=10/10=1. Тогда по формуле полной вероятности p(A)=p(B1)p(A|B1)+ p(B2)p(A|B2)+ p(B3)p(A|B3)+ p(B4)p(A|B4) = 1/4 ∙5/6+ 1/4 ∙1/2+ 1/4 ∙1/2+ 1/4 ∙1=17/24

Слайд 27

1. Основные понятия теории вероятностей. Формула Байеса

 

1. Основные понятия теории вероятностей. Формула Байеса

Слайд 28

2. Случайные величины и их характеристики Понятие случайной величины

Случайной величиной называется величина которая

2. Случайные величины и их характеристики Понятие случайной величины Случайной величиной называется
в результате опыта принимает то или иное числовое значение, причем заранее, до опыта, неизвестно, какое именно.
Дискретные случайные величины принимают конечное или счетное множество значений. Примеры: число попаданий в цель при трех выстрелах, число вызовов, поступавших на телефонную станцию за сутки.
Случайные величины, значения которых непрерывно заполняют некоторый промежуток (конечный или бесконечный) числовой оси называют непрерывными. Примеры: скорость космического аппарата при выходе на орбиту, ошибка взвешивания тела на аналитических весах.

Современная теория вероятностей предпочитает оперировать не с событиями, а с соответствующими им случайными величинами.

1

0

Слайд 29

2. Случайные величины и их характеристики Закон распределения

Законом распределения случайной величины называется всякое

2. Случайные величины и их характеристики Закон распределения Законом распределения случайной величины
соотношение, устанавливающее связь между возможными значениями случайной величины и соответствующими им вероятностями.
Закон распределения может быть задан аналитически, графически, для дискретной случайной величины – в виде таблицы:

Слайд 30

2. Случайные величины и их характеристики Функции распределения случайных величин

 

0

x

X

p

2. Случайные величины и их характеристики Функции распределения случайных величин 0 x X p

Слайд 31

2. Случайные величины и их характеристики Свойства функции распределения

 

0

a

x

 

b

F

2. Случайные величины и их характеристики Свойства функции распределения 0 a x b F

Слайд 32

2. Случайные величины и их характеристики Плотность распределения непрерывной случайной величины

 

 

dx

f(x)

f(x)

a

b

 

2. Случайные величины и их характеристики Плотность распределения непрерывной случайной величины dx f(x) f(x) a b

Слайд 33

2. Случайные величины и их характеристики Дискретное равномерное распределение

f

F

2. Случайные величины и их характеристики Дискретное равномерное распределение f F

Слайд 34

2. Случайные величины и их характеристики Непрерывное равномерное распределение

 

 

2. Случайные величины и их характеристики Непрерывное равномерное распределение

Слайд 35

2. Случайные величины и их характеристики Основные характеристики случайных величин

 

0

x1

X

p1

x2

x3

xn


p2

p3

pn

μx

2. Случайные величины и их характеристики Основные характеристики случайных величин 0 x1

Слайд 36

2. Случайные величины и их характеристики Основные характеристики случайных величин

 

2. Случайные величины и их характеристики Основные характеристики случайных величин

Слайд 37

2. Случайные величины и их характеристики Нормальное распределение

 

2. Случайные величины и их характеристики Нормальное распределение

Слайд 38

2. Случайные величины и их характеристики Нормальное распределение

 

- функция Лапласа или интеграл

2. Случайные величины и их характеристики Нормальное распределение - функция Лапласа или интеграл вероятности
вероятности

Слайд 39

2. Случайные величины и их характеристики Понятие случайного процесса

 

0

t

t1

t2

2. Случайные величины и их характеристики Понятие случайного процесса 0 t t1 t2

Слайд 40

2. Случайные величины и их характеристики Основные задачи статистики

Предмет математической статистики – разработка

2. Случайные величины и их характеристики Основные задачи статистики Предмет математической статистики
методов регистрации, описания и анализа статистических экспериментальных данных, получаемых в результате наблюдения массовых случайных явлений.
Основные задачи математической статистики:
Задача определения закона распределения случайной величины (или системы случайных величин) по статистическим данным
Задача проверки правдоподобия гипотез
Задача нахождения неизвестных параметров распределения

«There are three kinds of lies: lies, damned lies, and statistics.» Приписывается премьер-министру Великобритании Бенджамину Дизраэли.

Слайд 41

2. Случайные величины и их характеристики Генерация псевдослучайных последовательностей

Источники настоящих последовательностей случайных чисел

2. Случайные величины и их характеристики Генерация псевдослучайных последовательностей Источники настоящих последовательностей
– случайные природные процессы: оптические квантовые эффекты (отражение фотонов от полупрозрачного зеркала), радиоактивный распад, дробовой шум в радиоэлектронных приборах за счет дискретности носителей тока, детектирование космического излучения и т.п.).
Компьютер – детерминированная система. С его помощью можно генерировать только псевдослучайные последовательности.

Слайд 42

2. Случайные величины и их характеристики Генерация псевдослучайных последовательностей

Линейный конгруэнтный (рекурсивный) метод (Lehmer,

2. Случайные величины и их характеристики Генерация псевдослучайных последовательностей Линейный конгруэнтный (рекурсивный)
1949):
m > 0, 0 < a ≤ m, 0 ≤ c ≤ m, начальное значение X0: 0 < X0 ≤ m.
Модуль m должен быть достаточно большим, т.к. период не больше m. Удобно связать m с длиной слова компьютера и использовать m=2e – 1, либо m=2e + 1 для e-разрядной машины, а еще лучше – m наибольшее простое, меньшее 2e.
Длина периода равна m в следующем случае: c и m – взаимно простые числа, b = a – 1 кратно p для любого p, являющегося множителем m, b кратно 4, если m кратно 4.

Xn+1 = (aXn + c) mod m

X0

Случайное число

Обратная связь

a, c, m

Слайд 43

2. Случайные величины и их характеристики Генерация псевдослучайных последовательностей

Генератор MS FORTRAN: m =

2. Случайные величины и их характеристики Генерация псевдослучайных последовательностей Генератор MS FORTRAN:
231-1, c=0, a=48271
Xn+1 = 48271Xn mod (231-1)
Генератор Парка-Миллера: m = 231-1, c=0, a=75
Xn+1 = 75Xn mod (231-1)
Нелинейные генераторы:
Xn+1 = (aXn3 + bXn2 + cXn +d)mod m
Суперпозиция нескольких конгруэнтных генераторов посредством нелинейной функции.

Слайд 44

2. Случайные величины и их характеристики Генерация псевдослучайных последовательностей

Линейные регистры с обратной связью

1

0

1

0

0

1

2

L-1=3

F

2. Случайные величины и их характеристики Генерация псевдослучайных последовательностей Линейные регистры с

Слайд 45

2. Случайные величины и их характеристики Генерация псевдослучайных последовательностей

 

1

0

1

0

0

1

2

L-1=3

F

2. Случайные величины и их характеристики Генерация псевдослучайных последовательностей 1 0 1

Слайд 46

2. Случайные величины и их характеристики Генерация псевдослучайных последовательностей

 

2. Случайные величины и их характеристики Генерация псевдослучайных последовательностей

Слайд 47

2. Случайные величины и их характеристики Генерация псевдослучайных последовательностей

Линейные регистры с обратной связью

1

0

1

0

0

1

Выходная

2. Случайные величины и их характеристики Генерация псевдослучайных последовательностей Линейные регистры с
последовательность:
0

Слайд 48

2. Случайные величины и их характеристики Генерация псевдослучайных последовательностей

Линейные регистры с обратной связью

1

1

0

1

1

1

Выходная

2. Случайные величины и их характеристики Генерация псевдослучайных последовательностей Линейные регистры с
последовательность:
01

Слайд 49

2. Случайные величины и их характеристики Генерация псевдослучайных последовательностей

Линейные регистры с обратной связью

1

1

1

0

0

1

Выходная

2. Случайные величины и их характеристики Генерация псевдослучайных последовательностей Линейные регистры с
последовательность:
010

Слайд 50

2. Случайные величины и их характеристики Генерация псевдослучайных последовательностей

Линейные регистры с обратной связью

1

1

1

1

1

0

Выходная

2. Случайные величины и их характеристики Генерация псевдослучайных последовательностей Линейные регистры с
последовательность:
0101

Слайд 51

2. Случайные величины и их характеристики Генерация псевдослучайных последовательностей

Линейные регистры с обратной связью

0

1

1

1

1

0

Выходная

2. Случайные величины и их характеристики Генерация псевдослучайных последовательностей Линейные регистры с
последовательность:
0101 1

Слайд 52

2. Случайные величины и их характеристики Генерация псевдослучайных последовательностей

Линейные регистры с обратной связью

0

0

1

1

1

0

Выходная

2. Случайные величины и их характеристики Генерация псевдослучайных последовательностей Линейные регистры с
последовательность:
0101 11

Слайд 53

2. Случайные величины и их характеристики Генерация псевдослучайных последовательностей

Линейные регистры с обратной связью

0

0

0

1

1

1

Выходная

2. Случайные величины и их характеристики Генерация псевдослучайных последовательностей Линейные регистры с
последовательность:
0101 111

Слайд 54

2. Случайные величины и их характеристики Генерация псевдослучайных последовательностей

Линейные регистры с обратной связью

1

0

0

0

0

1

Выходная

2. Случайные величины и их характеристики Генерация псевдослучайных последовательностей Линейные регистры с
последовательность:
0101 1110 …

Слайд 55

2. Случайные величины и их характеристики Генерация псевдослучайных последовательностей

Недостатки генераторов псевдослучайных чисел:
Конечный период
Последовательные

2. Случайные величины и их характеристики Генерация псевдослучайных последовательностей Недостатки генераторов псевдослучайных
значения не являются независимыми.
Некоторые биты «менее случайны», чем другие.
Неравномерное одномерное распределение.
Обратимость.

Слайд 56

2. Случайные величины и их характеристики Генерация псевдослучайных последовательностей

Основные критерии криптостойкости:
Нет аналитической зависимости

2. Случайные величины и их характеристики Генерация псевдослучайных последовательностей Основные критерии криптостойкости:
между последовательно сгенерированными числами
Зная предыдущие числа, нельзя найти следующее (атака из прошлого)
Зная последующие числа, нельзя восстановить предшествующие (атака из будущего)
Вероятность появления любого числа в последовательности одинакова