State -of-the-art [614231]

Retele
neuronale
Deep Learning

Continut
●Istor ie
●State -of-the-art
●Structur a
○Neuron i, Straturi , Con exiuni
●Forward Propagation
●Functii de activare
●Antrenare sifunctii pierdere
●Interpretabili tate
●Probleme Com une
●Cresterea eficientei
●Demo

Istor ie

Retelele neuronale sunt inspirate
din sistemele neuronale biologice

1943
Prima lucrare despre retele neuronale este publicata paper
( Warren McCulloch , neuro fiziolog , siWalter Pitts , logician).

Domeniul retelelor neuronale a stagnat dupa
publicarea unui articol de catre Minsky siPapert
(1969). Eiau descoperit doua probleme
fundamentale cu modelul computational folosit .
Prima problema a fost ca reteaua cu un singur
strat nu este capabila sarezove un XOR
(exclusive OR).
A doua problema : computerele nu erau
sufficient de puternice pentru rularea
indelungata ceruta de retelele neuronale mari .

Un moment de cotitura
ImageNet Large Scale Visual Recognition Challenge

Un moment de cotitura

Principala utilitate a retelelor neuronale
artificiale este capacitatea de a aproxima
o functie din observatii side a le folosi .

State -of-the-art

State -of-the-art
DeepMind Alpha Go ( Video )

State -of-the-art
DeepMind AlphaStar ( Video )

Predictiile devin neliniare sisunt bazate
pe date de dimensiuni mari

Se extrag trasaturi in mod automat
Se combina , unesc sise ignora valori de intrare pentru celemaibune performante

Pot invata din maimulte date
Performantele nu se aplatizeaza asade usor

Structur a

Inspir ate din biologie
Doar inspir ate. Neuron i, Sinapse , Activa ri.

Structur a unei retele neuronale
O retea neuronala cu 1 strat ascuns -perceptron
Input
1
Input
2Hidden
1
Hidden
2Output
1
Input Layer Hidden Layer Output Layer

Forward Propagation
Source: 3Blue1Brown

Gradient Descent
Source: 3Blue1Brown

Back propagation
Source: 3Blue1Brown

Backpropagation calculus
Source: 3Blue1Brown

Forward Propagation
Input
1
Input
2Hidden
1
Hidden
2Output
1w1=0.2
B1 = 0.3 Target: 0.20.3
0.4

Focus pe un neuron.
Input 1
(i1)
Input 2
(i2)Hidden 1
(h1)w1=0.2
B1 = 0.30.3
0.4h1 = i1*w1 + i2*w2 + b1 h1 = 0.3*0.2 + 0.4*0.1 + 0.3 = 0.4

Surprin zator de aproape de target
Hidden 1 = 0.4, Hidden 2 =0.59, Output 1 = 0.198
Input
1
Input
2Hidden
1
Hidden
2Output
1w1=0.2
B1 = 0.3
Target: 0.20.3
0.4
B2 = 0.3

Functii de activa re

Tipuri de functii de activare
Integra re de ne -liniaritate
[0 1]
[-1 1]
Valorile negative sunt inlocuite cu 0

Antrenare sifunctii de pierdere

Secventa de antrenare
1.Initializeaza ponderile si deplasarile
2.Se aplica o intrare
3.Forward Propagate
4.Se cuantifica rezultatul
5.Ajustarea ponderilor si deplasarilor
6.Se face acest lucru pentru fiecare intrare si fiecare epoca
7.Eventual se opreste antrenarea

Functie de pierdere
Functii Cost, Functii obiective , Functii de eroare , Functii de energie
Valoare Prezisa Valoare dorita MAE MSE
14 16 2 4●Functii de pierdere :
○Regres ie
șMean Absolute Error
șMean Squared Erro r
○Clasifica re
șCross -entropy
ș…

Backpropagation
Metoda Backpropagation schimba fiecare parametru pentru a minimiza pierderea globala .
ParameterLoss

Backpropagation
ParameterLoss

Backpropagation
ParameterLoss

Backpropagation
ParameterLoss

Backpropagation
ParameterLoss

Backpropagation
ParameterLoss

Backpropagation
ParameterLoss

Interpretabilit ate

Interpretabilit ate-Acuratete

Probleme comune

Problemele simple cersolutii simple
When the only thing you have is a hammer, everything looks like a nail.

Flash Quiz
Care este celmaibun model?
A B C

Overfitting
Principala cauza a performatelor slabe in machine learning.
●Overfitting -ul conduce la modele proaste .
●Overfitting apare cand modelul invata setul de antrenare foarte bine, darare
performante slabe pe date noi.
●Sa clasificam un punct nou
●Punctul nou este verde, dar modelul il
clasifica drept albastru.
●Stim ca modelul este suprantrenat cand scorul
pe setul de antrenare este mult maimare
decat pe celde test.

Overfitting ( supra -invatare )pe grafic

Cum se previne supra -invatarea ?
●Se antreneaza cu maimulte date .
Datele trebuie safie curate sirelevante .
●Se folosesc retele maimici.
Uneori modelele maicomplicate au scoruri maimici.
●Regulariz are.
●Cross Valida re
●Oprire timpurie
●Dropout
●Data augmentation

Cross -validation
●Cross validation (k -fold cross validation) este o metoda de antrenare unde se imparte setul
de date in k sub-seturi . Fiecare sub-set se foloseste pentru test, iarcelelalte pentru antrenare

Early stopping
●Se stopeaza antrenarea cand functia deloss nu maiscade .

Dropout
●Dropout se refera la renuntarea la uniineuroni .
●In timpul antrenarii , anumite parti ale retelei sunt ignorate pe durata propagarii inainte
siinapoi .
●In dropout seseteaza unparametr u‘p’ →probabilit atea nodurilor retinute

Data augmentation
●Sunt variatii ale intrarii originale

Underfitting
A doua cauza a performantelor slabe in machine learning.
●Se intampla cand modelul nu poate captura tendinta implicita a datelor (este
prea simplu ).
Solutii :
●Se creste dimensiunea modelului
●Se folosesc maimulte date relevate .

Cresterea eficientei .

Gradient Descent
●Gradient ul descrescator este foarte complex deoarece are nevoie
de tot setul de antrenare iarapoi se modifica gradientul . In
majoritatea cazurilor se ajunge intr-un minim local.
●Stochastic Gradient Descent nu updateaza dupa fiecare intrare . Se
produc iesiri zgomotoase .
●Mini Batch Gradient Descent este o combinatie a celor doua
mentionate mai sus. Se iaun lot de intrari sise updateaza ponderile .
Se accelereaza antrenarea sise poate ajunge la minimul global.

Batch Gradient Descent
●Se impart datele in loturi . In general nu se poate antrena pe tot setul (doar daca
memoria este gigantica ).

Similar Posts