Abordări probabiliste Machin Learn

Содержание

Слайд 2

PROBABILITATE?

PROBABILITATE?

Слайд 3

Ce este probabilitatea?

Probabilitatea este un concept care estimează răspunsul la întrebarea:
“Se

Ce este probabilitatea? Probabilitatea este un concept care estimează răspunsul la întrebarea:
va produce oare un anumit eveniment?", unde răspunsul clasic "nu" sau "da" este înlocuit cu scara numerică de la 0 până la 1.
”0” arată că evenimentul nu va avea loc (echivalent răspunsului ferm "nu"),
”1” reprezintă faptul că evenimentul va avea loc (echivalent răspunsului ferm "da").

Слайд 4

Definiții și notații

Probabilitatea este adesea asociată cu cel puțin un eveniment
aruncarea zarului
bile

Definiții și notații Probabilitatea este adesea asociată cu cel puțin un eveniment
negre/roșii din coș
Rezultatul evenimentului este random
variabila care reprezintă rezultatul acestor evenimente se numește variabilă aleatorie (VA)

Слайд 6

Prin urmare, vrem să știm care este probabilitatea că X = 3
„Care

Prin urmare, vrem să știm care este probabilitatea că X = 3
este probabilitatea?” – notăm prin P
Așadar, enunțul „care este probabilitatea ca atunci când arunc un zar corect să aterizeze pe un 3?”
Îl putem traduce matematic ca „P (X = 3)”

Слайд 7

Cele 3 tipuri de probabilitate

Probabil că primul lucru care trebuie înțeles este

Cele 3 tipuri de probabilitate Probabil că primul lucru care trebuie înțeles
că există diferite tipuri de probabilitate:
Probabilitate marginală
Probabilitatea comună
Probabilitate condiționată

Слайд 8

Probabilitate marginală

Dacă A este un eveniment, atunci probabilitatea marginală este probabilitatea ca

Probabilitate marginală Dacă A este un eveniment, atunci probabilitatea marginală este probabilitatea
acel eveniment să se producă, P (A).
Presupunem că avem un pachet de cărți de joc
un exemplu de probabilitate marginală ar fi probabilitatea ca o carte extrasă dintr-un pachet să fie roșie: P (roșu) = 0,5.

Слайд 9

Probabilitate comună

Probabilitatea a două evenimente care sunt intersectate
Dacă A și B sunt

Probabilitate comună Probabilitatea a două evenimente care sunt intersectate Dacă A și
două evenimente, atunci probabilitatea comună a celor două evenimente este scrisă ca P (A ∩ B)
Presupunem că avem un pachet de cărți de joc:
probabilitatea ca o carte extrasă dintr-un pachet să fie roșie și să aibă valoarea 4 este P (roșu și 4) = 2/52 = 1/26

Слайд 11

Probabilitate condiționată

Probabilitatea ca un eveniment să aibă loc știind că alte evenimente

Probabilitate condiționată Probabilitatea ca un eveniment să aibă loc știind că alte
au avut deja loc
Dacă A și B sunt două evenimente, atunci probabilitatea condiționată a apariției A având în vedere că B s-a produs se scrie ca P (A | B)
Presupunem că avem un pachet de cărți de joc:
probabilitatea ca o carte să fie 4, dat fiind faptul că am extras o carte roșie este P (4 | roșu) = 2/26 = 1/13

Слайд 12

Legarea celor 3 tipuri

 

Legarea celor 3 tipuri

Слайд 13

Explicații

Uneori, distincția dintre probabilitatea comună și probabilitatea condiționată poate fi destul de

Explicații Uneori, distincția dintre probabilitatea comună și probabilitatea condiționată poate fi destul
confuză, așa că folosind exemplul alegerii unei cărți dintr-un pachet de cărți de joc vom încerca să facem diferența

Слайд 14

În cazul în care dorim să găsim probabilitatea de a extrage o

În cazul în care dorim să găsim probabilitatea de a extrage o
carte care este roșie și 4 adică probabilitatea comună P (roșu și 4) imaginați-vă că toate cele 52 de cărți sunt cu fața în jos și alegeți una la întâmplare
Dintre cele 52 de cărți, 2 dintre ele sunt „roșu și 4” (4 de dobă și 4 de inimă). Deci, probabilitatea comună este 2/52 = 1/26

Слайд 15

În cazul în care dorim să găsim probabilitatea de a extrage o

În cazul în care dorim să găsim probabilitatea de a extrage o
carte care este 4 având în vedere că știm că cardul este deja roșu, adică probabilitatea condiționată, P (4 | roșu), imaginați-vă că aveți toate cele 52 de cărți
însă, înainte de a alege o carte la întâmplare, sortați cărțile și selectați toate cele 26 de roșii. Acum puneți cele 26 de cărți cu fața în jos și alegeți o carte la întâmplare. Din nou, 2 dintre acele cărți roșii sunt 4, astfel încât probabilitatea condiționată este 2/26 = 1/13

Слайд 17

Inferența Bayesiană

Înainte de a introduce inferența bayesiană, este necesar să înțelegem teorema

Inferența Bayesiană Înainte de a introduce inferența bayesiană, este necesar să înțelegem
lui Bayes
Cunoștințe apriorii - Prior
De exemplu, dacă dorim să găsim probabilitatea de a vinde înghețată într-o zi caldă și însorită, teorema lui Bayes ne oferă instrumentele pentru a utiliza cunoștințe prealabile despre probabilitatea de a vinde înghețată în orice alt tip de zi

Слайд 18

Definiția matematică

 

Definiția matematică

Слайд 19

Exemplu

În pachet sunt 52 de cărți, 26 dintre ele sunt roșii și

Exemplu În pachet sunt 52 de cărți, 26 dintre ele sunt roșii
26 negre. Care este probabilitatea ca cartea aleasă să fie un 4 având în vedere că știm că cartea este de roșu?
Traducerea în matematică:
evenimentul A este evenimentul în care cartea aleasă este un 4, iar evenimentul B este că cartea este de roșu
P (A | B) în ecuația de mai sus este P (4 | roșu) în exemplul nostru, și asta este ceea ce vrem să calculăm, dar după teorema lui Bayes

Слайд 21

Cum ne permite teorema lui Bayes să încorporăm observările anterioare?

Cum ne permite teorema lui Bayes să încorporăm observările anterioare?

Слайд 25

Acum știm care este teorema lui Bayes și cum să o folosim,

Acum știm care este teorema lui Bayes și cum să o folosim,
putem începe să răspundem la întrebarea: Ce este inferența bayesiană?

Слайд 26

Inferența este procesul de distribuire a probabilității din date
Inferența bayesiană este, așadar,

Inferența este procesul de distribuire a probabilității din date Inferența bayesiană este,
doar procesul de distribuire a probabilităților din date folosind teorema lui Bayes

Слайд 27

În exemplul de înghețată de mai sus, am văzut că probabilitatea anterioară

În exemplul de înghețată de mai sus, am văzut că probabilitatea anterioară
de a vinde înghețată era de 0,3
Cu toate acestea, dacă 0.3 ar fi doar cea mai bună presupunere a mea, dar eram un pic nesigur cu privire la această valoare, probabilitatea ar putea fi, de asemenea, 0,25 sau 0,4.
Această distribuție este cunoscută sub numele de distribuție anterioară.

Слайд 28

Probabilitatea vânzării de înghețata

Probabilitatea vânzării de înghețata

Слайд 29

Modelul teoremei lui Bayes

În loc de evenimentul A, vom vedea de obicei

Modelul teoremei lui Bayes În loc de evenimentul A, vom vedea de
Θ, acest simbol se numește Theta.
Deci, dacă încercăm să estimăm valorile parametrilor unei distribuții gaussiene, atunci Θ reprezintă atât media, μ cât și abaterea de la standard, σ, scrisă matematic ca Θ = {μ, σ}.
În loc de evenimentul B, vom vedea date sau
x = {x1, x2, ..., xn}
Acestea reprezintă datele, adică setul de observații pe care le avem.

Слайд 31

Am văzut că P (Θ) este distribuția anterioară. Reprezintă observările noastre despre

Am văzut că P (Θ) este distribuția anterioară. Reprezintă observările noastre despre
adevărata valoare a parametrilor, la fel cum am avut distribuții care reprezintă observarea noastră despre probabilitatea de a vinde înghețată.

Слайд 32

P (Θ | data) din partea stângă este cunoscută sub numele de

P (Θ | data) din partea stângă este cunoscută sub numele de
distribuție posterioară. Aceasta este distribuția care reprezintă observarea noastră despre valorile parametrilor după ce am calculat tot pe partea dreaptă, luând în considerare datele observate.

Слайд 33

TEORIA PROBABILITĂȚII & ML

În general vorbind, teoria probabilității este studiul matematic al

TEORIA PROBABILITĂȚII & ML În general vorbind, teoria probabilității este studiul matematic
incertitudinii.
Acesta joacă un rol central în procesul de învățare a mașinilor,
întrucât proiectarea algoritmilor de învățare se bazează adesea pe asumarea probabilistică a datelor.

Слайд 34

Exemplul 1

Avem următoarea figură:

Există o anumită stare - de exemplu, temperatură ridicată

Exemplul 1 Avem următoarea figură: Există o anumită stare - de exemplu,
sau scăzută a aerului.
Ce fel de stare - nu știm, dar cunoaștem semnele: soarele strălucea, ploua, erau nori.
Avem un set de valori colectate în timpul perioadei statistice: soarele - ploaia,
soarele - ploaia - norii.

Слайд 35

Exemplul 1

Numerele de deasupra săgeților sunt probabilități, adică :
dacă este însorit, atunci

Exemplul 1 Numerele de deasupra săgeților sunt probabilități, adică : dacă este
cu o probabilitate de căldură de 60% și cu o probabilitate de 20% este rece.
dacă există nori, atunci căldura este de 10% și este rece cu o probabilitate de 40%.

Слайд 36

Din exemplul anterior concluzionăm că ML întipărește informația statistică pe o perioadă

Din exemplul anterior concluzionăm că ML întipărește informația statistică pe o perioadă
studiată, fie zile, luni, ani,
luând în considerare probabilitatea producerii evenimentului anumit.
Pe măsură ce acumulează informația ML poate face o prognoză a vremii pe viitor.

Слайд 37

Scurt istoric

Pentru prima dată abordări probabiliste în Machine Learning au avut loc

Scurt istoric Pentru prima dată abordări probabiliste în Machine Learning au avut
în anii ’90 și 2000 până când a început revoluția profundă declanșată de apariția rețelelor neuronale.

Слайд 38

Abordări probabiliste: Bayes

Abordarea Bayes este cea mai academică viziune a învățării mașinilor.

Abordări probabiliste: Bayes Abordarea Bayes este cea mai academică viziune a învățării

Acest lucru este bun și rău.

Слайд 39

Abordări probabiliste: Bayes

Pentru că oferă o descriere matematică clară a formării și

Abordări probabiliste: Bayes Pentru că oferă o descriere matematică clară a formării
a estimărilor numerice ale fiabilității ipotezelor.

De ce e bun?

De ce e rău?

Pentru că în viața reală nu este întotdeauna posibilă implementarea unui model matematic impecabil.

Слайд 40

Avem notațiile:
P(h) - probabilitatea că se petrece evenimentul h (h, în acest

Avem notațiile: P(h) - probabilitatea că se petrece evenimentul h (h, în
caz nu este număr, ci înseamnă o abstractizare, care, desigur, poate fi și un număr; vom desemna prin h - o anumită ipoteză )
P(A^B) - este probabilitatea că a avut loc atât evenimentul A cât și evenimentul B
P(A\B) - probabilitatea că s-a întâmplat evenimentul A, cu condiția că avut loc și B (adică, în cazul în care A - posesia mașinii roșii și B- posesia mașinii, atunci P(A\B) - probabilitatea de a deține o mașină roșie, calculată numai pentru proprietarii de autoturisme)

Слайд 41

Teorema lui Bayes este o consecință a afirmației evidente:
P(A^B)=P(A\B)P(B)=P(B\A)P(A)
Adică:
Bineînțeles, P (B) trebuie

Teorema lui Bayes este o consecință a afirmației evidente: P(A^B)=P(A\B)P(B)=P(B\A)P(A) Adică: Bineînțeles,
să fie mai mare decât 0, dar acest lucru este de înțeles, dacă B este un eveniment improbabil, atunci P(A\B) este de asemenea improbabil.

Teorema Bayes

Слайд 42

Fie că notăm datele noastre – D, iar ipotezele noastre – h.

Fie că notăm datele noastre – D, iar ipotezele noastre – h.
Atunci trebuie să găsim probabilitatea ipotezei pentru datele noastre P(h\D), care prin teorema lui Bayes este egală cu:

Слайд 43

Suntem interesați doar de relația de probabilitate, deci putem elimina P(D) din

Suntem interesați doar de relația de probabilitate, deci putem elimina P(D) din
această expresie (D nu depinde de h) și P (h) (presupunem că toate ipotezele sunt la fel de probabile, strict vorbind, acest lucru nu este întotdeauna așa, dar în multe cazuri acest lucru este adevărat).
Reiese că trebuie să găsim o ipoteză h pentru care P(D\h) este maximă.

Слайд 44

Până ce nu avem nici date concrete, nici mulțimea ipotezelor.
Hai să

Până ce nu avem nici date concrete, nici mulțimea ipotezelor. Hai să le inventăm.
le inventăm.

Слайд 45

Exemplul 2

Să presupunem că am extras N=3 mere: R=1 roșii și G=2

Exemplul 2 Să presupunem că am extras N=3 mere: R=1 roșii și
verzi.
Să prezentăm două ipoteze:
- în coș sunt 10 mere dintre care 3 sunt roșii și 7 verzi
- în coș sunt 10 mere dintre acestea 7 sunt verzi și 3 roșii
Acum, trebuie doar să calculam probabilitatea obținerii datelor noastre în fiecare dintre aceste ipoteze.

Слайд 46

Notăm prin R0 și G0 numărul de mere roșii și verzi din

Notăm prin R0 și G0 numărul de mere roșii și verzi din
coș.
În câte moduri putem extrage R mere din R0?
Aceasta este formula coeficientului binomial. Adică dacă avem 3 mere, atunci putem să extragem 2 mere din ele în trei moduri ● ● ○, ● ○ ●, ○ ●●:
Formula dată este necesară doar p/u rezolvarea problemei respective .

Слайд 47

Atunci probabilitatea căutată este egală cu:
A rămas să aplicăm aceasta (probabilitatea) la

Atunci probabilitatea căutată este egală cu: A rămas să aplicăm aceasta (probabilitatea)
ipotezele noastre:
ipoteza
ipoteza
Se observă că ipoteza I este în câștig.

Слайд 48

MĂRIM COLECȚIA DE IPOTEZE

Hai să nu ne limităm la 2 ipoteze. Luăm

MĂRIM COLECȚIA DE IPOTEZE Hai să nu ne limităm la 2 ipoteze.
în considerare oricare combinație R0 și G0 (R și G rămân aceleași). Obținem tabelul :

Слайд 49

Se observă 2 probleme:
Problema mai mică: multe ipoteze au aceeași probabilitate (De

Se observă 2 probleme: Problema mai mică: multe ipoteze au aceeași probabilitate
ex: și )
Problema mai mare: am obținut că soluția cea mai bună este . Acest rezultat este atât exact, cât și fără sens. Adică ML ne-a spus:
”dacă ați extras din coș 1 măr roșu și 2 mere verzi, înseamnă că cel mai probabil acolo și era 1 măr roșu și 2 mere verzi.”
Așa și este. ML are dreptate, dar avem nevoie de așa un răspuns?
Evident că acesta nu e rezultatul la care ne așteptam.
Aceasta se numește supraînvățare a mașinii.

Слайд 50

Inteligența artificială a noastră a învățat pe de rost toate datele de

Inteligența artificială a noastră a învățat pe de rost toate datele de
învățare. Cel mai probabil ML nu e în stare să rezolve problemele calitativ, dar la toate întrebările de învățare ea dă un răspuns de învățare exact.

Слайд 51

Să presupunem că știm de undeva că în coș se află doar

Să presupunem că știm de undeva că în coș se află doar
6, 7 sau 8 mere. Probabilitatea altor ipoteze este 0. Atunci tabelul nostru ia forma: