Procesul de recunoaștere facială dintr -o imagine [614868]

1
Universitatea “Politehnica” din Bucure ști
Facultatea de Electronic ă, Telecomunica ții și Tehnologia Informa ției

Procesul de recunoaștere facială dintr -o imagine

Lucrare de diserta ție

prezentat ă ca cerin ță parțială pentru ob ținerea titlului
de Master în domeniul Inginerie electronică,
telecomunicații și tehnologii informaționale
programul de studii de masterat Telecomunicații

Conducător științific Absolvent: [anonimizat]. Nicolae Vizireanu Iordanov Eugen

2018

2

3
Anexa 5
Declara ție de onestitate academic ă

Prin prezenta declar c ă lucrarea cu titlul ” Procesul de recunoaștere facială dintr -o
imagine” , prezentat ă în cadrul Facult ății de Electronic ă, Telecomunica ții și Tehnologia
Informa ției a Universit ății “Politehnica” din Bucure ști ca cerin ță parțială pentru ob ținerea
titlului de Master în domeniul Inginerie electronică, telecomunicații și tehnologii
informaționale , programul de studii Telecomunicații, este scris ă de mine și nu a mai fost
prezentat ă niciodat ă la o facultate sau institu ție de înv ățămînt superior din țară sau str ăinătate.
Declar c ă toate sursele utilizate, i nclusiv cele de pe Internet, sunt indicate în lucrare, ca
referin țe bibliografice. Fragmentele de text din alte surse, reproduse exact, chiar și în
traducere proprie din alt ă limbă, sunt scrise între ghilimele și fac referin ță la surs ă.
Reformularea în cuv inte proprii a textelor scrise de c ătre al ți autori face referin ță la surs ă.
Înțeleg c ă plagiatul constituie infrac țiune și se sanc ționeaz ă conform legilor în vigoare.
Declar c ă toate rezultatele simul ărilor, experimentelor și măsurătorilor pe care le
prezint ca fiind f ăcute de mine, precum și metodele prin care au fost ob ținute, sunt reale și
provin din respectivele simul ări, experimente și măsurători. În țeleg c ă falsificarea datelor și
rezultatelor constituie fraud ă și se sanc ționeaz ă conform regulame ntelor în vigoare.

Bucure ști, 21.06.2018

Absolvent: [anonimizat]

_________________________

(semn ătura în original)

CUPRINS

Introducere ………………………….. ………………………….. ………………………….. ………………………….. ……………… 8
1.Prezentarea sistemelor și algoritmilor existente ………………………….. ………………………….. ………………….. 10
1.1 Sistemul "FaceVACS". ………………………….. ………………………….. ………………………….. …………………… 10
1.2 Sistemul ”VeriLook SDK”. ………………………….. ………………………….. ………………………….. ……………… 11
1.3 Sistemul ”NEC’s Face Recognition” ………………………….. ………………………….. ………………………….. ….13
1.4 Sistemul ”Re:Action” ………………………….. ………………………….. ………………………….. ……………………. 14
1.5 Sistemele ”Face Detection” și ”Face Recognition” ………………………….. ………………………….. …………. 15
2.Dezavantajele sistemelor moderne de recunoaștere facială ………………………….. ………………………….. …..15
3.Analiza algoritmilor de captare a feței dintr -o imagine ………………………….. ………………………….. …………. 16
3.1 Algoritmul bazat pe metode empiric e………………………….. ………………………….. ………………………….. 16
3.2 Algoritmi bazați pe modele de contur ………………………….. ………………………….. ………………………….. 17
3.2.1 Metoda gradientului ………………………….. ………………………….. ………………………….. ………………. 18
3.2.2 Metoda Canny ………………………….. ………………………….. ………………………….. ………………………. 23
3.2.3 Metoda Laplace ………………………….. ………………………….. ………………………….. …………………….. 23
3.2.4 Metoda Laplace -Gauss ………………………….. ………………………….. ………………………….. …………… 24
3.3 Algoritmul bazat pe compararea șabloanelor ………………………….. ………………………….. ……………….. 25
3.4 Algoritm bazat pe învățare ………………………….. ………………………….. ………………………….. ……………. 27
3.4.1 Metoda Viola -Jones ………………………….. ………………………….. ………………………….. ……………….. 27
4.Analiza algoritmilor de recunoaștere a feței din imagini ………………………….. ………………………….. ……….. 34
4.1 Metoda ”fețelor proprii” (Eigenface) ………………………….. ………………………….. ………………………….. .34
4.2 Rețele neuronale artificiale ………………………….. ………………………….. ………………………….. …………… 36
4.3 Metoda arborelui (decision forest) ………………………….. ………………………….. ………………………….. ….39
5.Descrierea aplica ției ………………………….. ………………………….. ………………………….. ………………………….. .40
5.1 Aplicația pas cu pas ………………………….. ………………………….. ………………………….. ……………………… 42
5.2Rezultatele aplica ției ………………………….. ………………………….. ………………………….. …………………….. 46
Concluzii ………………………….. ………………………….. ………………………….. ………………………….. ………………… 59
Aplicația ………………………….. ………………………….. ………………………….. ………………………….. ………………… 61
Bibliografie ………………………….. ………………………….. ………………………….. ………………………….. …………….. 63

5
Listă figuri :
Figura 1 Algoritmul general pentru recunoașterea feței ………………………….. ………………………….. … 9
Figura 1.1 Detec ția feței cu ajutorul soft -ului VeriLook 10.0 ………………………….. ……………………. 12
Figura 1.2 Eroare de detecție al softu -ului VeriLook 10.0 ………………………….. ………………………… 12
Figura 1.3 Soft -ul VeriLook determ ină unele trăsături și caracteristici ale feței/persoanei după
imaginea analizată ………………………….. ………………………….. ………………………….. ……………………. 13
Figura 3.1 Fereastră de scanare cu dimensiun ea 2 x 2 cu valori de luminozitate 𝑍𝑖 …………………… 19
Figura 3.2 Masca operatorului Roberts pentru 𝐺𝑥………………………….. ………………………….. ………. 19
Figura 3.3 Masca operatorului Roberts pentru 𝐺𝑦………………………….. ………………………….. ………. 19
Figura 3.4 Fereastră de scanare cu mărimea 3 x 3 cu valori de luminozitate 𝑍𝑖 ………………………… 20
Figura 3.5 Masca operatorului Prewitt pentru 𝐺𝑥 ………………………….. ………………………….. ………. 20
Figura 3.6 Masca operatorului Prewitt pentru 𝐺𝑦 ………………………….. ………………………….. ………. 21
Figura 3.7 Masca operatorului Sobel pentru 𝐺𝑥 ………………………….. ………………………….. …………. 21
Figura 3.8 Masca operatorului Sobel pentru 𝐺𝑦 ………………………….. ………………………….. …………. 22
Figura 3.9 Primele 4 măști ale operatorului Robinson ………………………….. ………………………….. …. 22
Figura 3.10 Măștile La place ………………………….. ………………………….. ………………………….. ………. 24
Figura 3.11 Obținerea valorii de corelație în punctul (𝑥0,𝑦0) ………………………….. ………………….. 26
Figura 3.12 Caracteristicile standard Haar ………………………….. ………………………….. ………………… 28
Figura 3.13 Schema principiului de lucru a ferestrei de scanare. ………………………….. ……………….. 29
Figura 3.14 Imaginea originală ………………………….. ………………………….. ………………………….. …… 29
Figura 3.15 Imaginea integrală ………………………….. ………………………….. ………………………….. …… 30
Figura 3.16 Calculul imaginii integrale ………………………….. ………………………….. ……………………. 30
Figura 3.17 Calcularea sumei luminozității pixelilor înt r-un dreptunghi arbitrar. ……………………… 30
Figura 3.18 Caracteristicile Haar pentru un clasificator. ………………………….. ………………………….. 31
Figura 3.19 Cascadă de clasificatori. ………………………….. ………………………….. ……………………….. 32
Figura 3.20 Rezultatele detectării faciale cu ajutorul metodei Viola -Jones. ………………………….. …. 33
Figura 4.1 ”Fețe proprii” (Eigenfaces) ………………………….. ………………………….. ……………………… 34
Figura 4.2 Modelul matematic al unui singur neuron. ………………………….. ………………………….. …. 37
Figura 4.3 Arhitectura unei rețele neuronale cu două straturi. ………………………….. …………………… 38
Figura 4 .4 Exemplul metodei arborelui. ………………………….. ………………………….. ……………………. 39
Figura 5.1 Schema generală a algoritmului de recunoaștere a feței din cadru ………………………….. . 40
Figura 5.2 Imagine de intrare, prezența obiectului perturbator (șapca) ………………………….. ……….. 46
Figura 5.3 Uniformizarea și filtrarea imaginii de intrare ………………………….. ………………………….. 46
Figura 5.4 Detecția și dec uparea feței din imaginea de intrare ………………………….. ………………….. 47
Figura 5.5 Imagine de intrare (mâna ridicată la nivelul capului) ………………………….. ……………….. 47
Figura 5.6 Detecția și decuparea feței din imaginea de intrare ………………………….. ………………….. 48
Figura 5.7 Imagine de intrare (mâna ridicată la nivelul gurii) ………………………….. …………………… 48
Figura 5.8 Uniformizarea și filtrarea imaginii de intrare ………………………….. ………………………….. 49
Figura 5.9 Detecția și decuparea feței din imaginea de intrare ………………………….. ………………….. 49
Figura 5.10 Imagine de intrare, predomină culorile întunecate ………………………….. ………………….. 50
Figura 5.11 Uniformizarea și filtrarea imaginii de intrare ………………………….. ………………………… 50
Figura 5.12 Detecția și decuparea feței din imaginea de intrare ………………………….. ………………… 51
Figura 5.13 Imagine de intrare, 3 maturi și un copil ………………………….. ………………………….. ……. 51
Figura 5.14 Uniformizarea și filtrarea imaginii de intrare ………………………….. ………………………… 52

6
Figura 5.15 Detecția și decuparea fețelor di n imaginea de intrare ………………………….. ……………… 52
Figura 5.16 Imagine de intrare, lipsa detecției faciale ………………………….. ………………………….. …. 53
Figura 5.17 Imagine de intrare, lipsa detecției faciale ………………………….. ………………………….. …. 53
Figura 5.18 Imagine de intrare cu mai multe persoane ………………………….. ………………………….. … 54
Figura 5.19 Uniformizarea și filtrarea imaginii de intrare ………………………….. ………………………… 54
Figura 5.20 Detecția și decuparea fețelor di n imaginea de intrare ………………………….. ……………… 55
Figura 5.21 Imagine de intrare, 3 copii ………………………….. ………………………….. …………………….. 55
Figura 5.22 Uniformizarea și filtrarea imaginii de intrare ………………………….. ………………………… 56
Figura 5.23 Detecția și decuparea fețelor copiilor din imaginea de intrare ………………………….. ….. 56
Figura 5.24 Imagine de intrare, 2 persoane (ochelari) ………………………….. ………………………….. …. 57
Figura 5.25 Uniformizarea și filtrarea imaginii de intrare ………………………….. ………………………… 57
Figura 5.26 Detecția și decuparea fețelor din imaginea de intrare ………………………….. ……………… 58

7
Listă acronime :
GMFD – General Matching Face Detection
PSM – Perturbation Space Method
ARBM – Adaptive Regional Blend Matching
LoG – Laplacian of Gaussian
AdaBoost – Adaptive Boosting
MCP – Metoda Componentelor Principale
CART – Classification and Regression Tree
QUEST – Quick, Unbiased, Efficient Statistical Tree
RGB – Red, Green, Blue

8
Introducere

Problema recunoașterii modelelor faciale aparține claselor de sarcini greu de formulat, iar în
prezent este destul de actuală în legătură cu necesitatea de automatizare a proceselor de comunicare
(vizual) în sistemele inteligente. Prin urmare , și în prezen t continuă căutarea și realizarea unor
principii eficiente de a transfera capacitatea omului de recunoaștere sistemelor computerizate.
Pentru rezolvarea problemei date, rețelele neuronale artificiale par foarte promițătoare. Acest ea sunt
induse din biologi e, deoarece ele constau din elemente ale căror capacități funcționale sunt similare
celor mai multe dintre funcțiile elementare ale unui neuron biologic. În ciuda similarității
superficiale, rețelele neuronale artificiale demonstrează proprietățile inerent e creierului uman. În
special, acestea sunt ”instruite” pe baza experienței, generalizează situațiile anterioare din exemple
noi, extrag proprietăți esențiale din informațiile primite care conțin date excesive.
În prezent, domeniile cele mai răspândite de utilizare a camerelor de filmat sunt sistem ele de
securitate și monitoriz are a securității. Principala funcție a supravegherii video este fixarea
infracțiunii pe obiectul protejat și pe teritoriul său, pre cum și controlul accesului. Din această cauză
sarci na cea mai urgent ă pentru sistemul inteligent de monitorizare este problema de izolare și
identificare a fețelor umane în prezența diferit or tipuri de factori precum : zgomot ul, calitatea slabă
a imaginii , nivelurile de lum ină, prezența unui fundal complex , înclinarea imaginii și altele.
Sarcinile recunoașterii persoanei după imaginea feței sunt împărțite în trei clase mari :
căutarea în baze de date voluminoase, controlul accesului și controlul fotografiilor în documente.
Ele diferă atât după cerinț ele date sistemelor de recunoaștere, cât și după metodele de soluționare și,
prin urmare, sunt clase separate [1].
Semnalul video recepționat de la camera de filmat este privit ca o secvență de cadre având
un format predeterminat care corespunde numărului de pixeli ai fotodetectorului matricei. Fiecare
cadru, matematic este văzut ca o matrice bidimensională constând din eșantioane de semnale de
luminanță sau semnale cromatice. Procesul de recu noaștere facială este complex, respectiv este
împărți t în două e tape: detecția feței în imagine și compararea feței detectate cu cele din baza de
date.
În ultimul timp, sarcina recunoașterii fețelor umane devine o necesitate tot mai pronunțată.
Recunoașterea facială – este o aplicație practică a teoriei recunoașterii m odelelor, în sarcina căreia
intră localizarea automată a feței umane într -o imagine, iar în caz de necesitate, recunoașterea
persoanei după față.
Recunoașterea facială este aplicabilă în următoarele domenii : sisteme de securitate,
criminalistică, grafică computerizată, interacțiune om -calculator, realitate virtuală, gaming, comerț
electronic , personalizare și protecția datelor, etc. Astfel observăm cât de actuală este sarcina dată.

9
În Figura 1 de mai jos, vedem algoritmul general pentru recunoașterea facială din imagine.

Figura 1 Algoritmul general pentru recunoașterea feței
În prima etapă, un cadru din secvența video de intrare este capturat, și este alocat celui de -al
doilea bloc – selectarea feței di n cadru. Algoritmul de selecție pentru cadrul ca pturat determină
prezența fețelor în imagine și recunoaște locația lor. Obiectivul algoritmilor de selecție a feței din
imagini este de a scana imaginea cu o ”fereastră”, care are o anumită dimensiune și formă, precum
și de a detecta în interiorul ”ferestr ei” dacă e ste prezentă o față umană sau nu. După detectarea feței
din imagine, aceasta este tăiată din fundalul principal, care este neuniform și conține obiecte care
vor complica etapa de recunoaștere. Sarcina recunoașterii este de a determina, pe baza
caracteristicilor obiectului selectat și apartenenței sale la o anumită clasă din baza de date, în acest
caz fața persoanei.

10
1. Prezentarea sistemelor și algoritmi lor existente
La momentul de față, există zeci de sisteme de recunoaștere a fețelor umane care pot căuta
și identifica persoana în fotografii digitale dar și în fluxuri video. Sistemele oferă un procent ridicat
de recunoaștere și pot fi utilizate împreună cu sistemele de control al accesului pentru a spori
nivelul de securitate și acces la obiectivele cu cerințe sporite de securitate.
Sistemele moderne de recunoaștere facială :
1.1 Sistemul "FaceVACS".
FaceVACS este un sistem de recunoaștere și identificare a feței creat de compania Cognitec
Systems [2], care implementează identificarea și verificarea persoanelor din imagine, găsește
duplicate în baze mari de date și permite comparația imaginilor persoanelor din diferite surse, cu
imagini stocate în diferite baze de date. Sistemul FaceVACS utilizează algoritmul B8T8 [2], car e
este stabil și destul de sigur la rotirea feței cu ± 15ș, expresii faciale, coafură, obiecte interferente,
inclusiv utilizarea ochelarilor și diferențele de iluminare.
Pentru a îmbunătăți calitatea imaginilor, se utilizează filtre speciale, cum ar fi fil trul de
corecție a feței din fotografie, care utilizează tehnologia de modelare 3D pentru a crea o poziție
frontală a feței umane din imaginile cu fețe obținute în profil [2].
Cerințele minime față de imaginile procesat e în sistemul "FaceVACS -DBScan" sunt :
1. Imagin e relativ clară ;
2. Fața este vizibilă în totalitate în imagine ;
3. Distanța dintre ochi mai mare de 32 pixeli ;
4. 64 tonuri gri în zona imaginii feței .
Caracteristicile funcționale ale sistemului [100] :
1. Detecteaz ă simultan mai multe fețe;
2. Compară fețele cu imaginile din bazele de date în timp real;
3. Afișează semnale în timp real atunci când apar ev enimente definite de utilizator;
4. Afișează și exportă statistici despre fluxul de persoane, demografia vizitatorilor și
comportamentul persoanelor;
5. Trimite semnal e și statistici către dispozitivele mobile ;
6. Suportă înregistrarea interactivă din imaginea statică și fluxul video live;
7. Oferă scalabilitate ridicată în ceea ce privește dimensiunea listei de vizionări, numărul de
fluxuri video și numărul de fețe vizibile .
Sistemul dat permite import area rapid ă de seturi de fi șiere video și imagini, pentru a facilita
efectuarea investigațiilor detaliate. De exemplu, agenții de securitate și poliția , pot încărca
videoclipuri înregistrate într -o anumită locație și într-un anu mit timp, pentru a urmări eventualii
participanți la o infracțiune. Utilizat orii sistemului FaceVACS pot găs i o persoană înscrisă într -o
bază de date cu imagini sau pot căuta o persoană necunoscută și pot localiza aparițiile acesteia în
mai multe fișiere v ideo. Sunt folosite filtre unde sunt specificate intervalele de vârstă, sexul, etnia.

11
FaceVACS -Video Scan procesează fișierele video înregistrate mai rapid decât streaming -urile video
live [3].
1.2 Sistemul ”VeriLook SDK”.
”VeriLook SDK” este un sistem de recunoaștere a feței, creat de compania
Neurotechnology [4 ]. Tehnologia dată reprezintă un sistem de detectare a fețelor cu posibilitatea
recunoașterii simultane multiple și id entificarea rapidă facială "unu -la-unu" și "unu -la-mai-mulți"
[4].
Sistemul este alcătuit din mai multe module care implementează următorii algoritmi :
1. Preluc rarea prin distribuire a fețelor și imaginilor ;
2. Detecția și recunoașterea fețelor din tr-un semnal video ;
3. Recunoașterea sexului persoanei detectate ;
4. Liveness – detect ion : suprimarea accesului unui intrus bazat pe un eșantion biometric al
unui utilizator înregistrat ;
5. Recunoașterea emoțiilor : uimire, bucur ie, frică, tristețe, furie, etc;
6. Analiza punctelor ”cheie” ale feței ;
7. Identificarea trăsăturilor faciale : zâmbet, gură deschisă, ochi închiși, etc;
8. Recunoașterea facial chiar și în prezența elementelor interferente : ochelari, pălărie, eșarfă,
etc;
9. Determinarea calității imaginii feței ;
10. Reînregistrarea și generalizarea trăsăturilor faciale .
Cerințele minime ale sistem ului VeriLook SDK pentru imagini și fluxuri video:
1. Rezoluția imaginii : mai mare decât 640 x 480 ;
2. Distanța dintre ochi : mai mult de 50 de pixeli ;
3. Numărul de cadre pentru Liveness – detection : 10-25;
Avantajele tehnologiei date includ e stabilitatea softul ui la rotirea feței cu ± 15° și înclinarea
capului la 45ș în orice direcție față de poziția frontală -verticală , precum ș i timpul de detectare a feței
din cadru, care este de la 10 ms la 0,86 secunde.
Precizia sistemului "VeriLook SDK" depinde de calitatea imaginii feței. Luminile f rontale și
difuze sunt potrivite pentru recunoașterea feței, deoarece pe fotografie este observată o distribuție
uniformă a luminii pe suprafața feței. Pentru identificare, dezvoltatorii sistemului recomandă o
expresie facială neu tră, deoarece un zâmbet larg, ochii închisi, sprâncenele încruntate reduc
acuratețea procesului de recunoaștere .

12

Figura 1. 1 Detec ția feței cu ajutorul soft -ului VeriLook 10.0

Figura 1. 2 Eroare de detecție al softu -ului VeriLook 10.0

13

Figura 1. 3 Soft-ul VeriLook determină unele trăsături și caracteristici ale feței/persoanei după
imaginea analizată

1.3 Sistemul ”NEC’s Face Recognition”
”NEC’s Face Recognition” este un sistem de recunoaștere a feței oferit de compania ”N EC”
[5]. Sistemul dat inclu de câ teva module care implementează următorii algoritmi :
1. Se utilizează metoda generală de identificare a feței (General Matching Face Detection –
GMFD), care asigură o viteză ridicată de detecție și o precizie înaltă a recunoașterii faciale.
Metoda GMFD se bazează pe rețele neuronale și efectuează o căutare preliminară după
perechi de ochi;
2. Algoritmul PSM (Perturbation Space Method), creat de compania ”NEC”. Acesta este
capabil să se descurce în mod eficient cu variaț iile locației feței în cadru (fața înclinată sau
sub un oarecare unghi). Folosind acest algoritm, imaginile bidimensionale pot fi convertite
în imagini tridimensionale, pentru analize ulterioare;
3. Metoda ARBM (Adaptive Regional Blend Matching), datorită căr eia este minimalizat
impactul variațiilor nesemnificative la față (cum ar fi prezența unor bijuterii, ochelari,
pălărie) asupra preciziei recunoașterii faciale .

14
Siste mul de recunoaștere a fețelor ” NEC’s Face Recognition” are următoarele
caracteristici :
1. Recunoaștere multiplă ;
2. Detectare de fețe și a ochilor ;
3. Recunoașterea independentă a direcției de privire și a trăsăturilor feței (prezența ochelarilor,
păr facial și expresia feței) ;
4. Identificarea zonelor faciale similar;
5. Identificare pe baza trăsăturilor faciale individuale ;
6. Integrarea în sistemele de supraveghere video ;
7. Posibilitatea de identificare în regim ”unu -la-mai-mulți” ;
8. Sistemul se manifestă stabil la rotirea feței cu ±15°, înclinarea capului la 45ș în orice direcție
față de poziția frontală iniț ială și la un coeficient de compresie a imaginii ridicat.
În comparație cu alte sisteme biometrice care utilizează datele de pe amprent ă și iris,
recunoașterea feței are avantaje distincte datorită procesului său non -contact. Imaginile feței pot fi
captate de la distanță fără a deranja persoana identificată și identificarea nu necesită interacțiunea cu
persoana. În plus, recunoașterea feței servește scopului de descurajare a crim inalității, deoarece
imaginile de față care au fo st înregistrate și arhivate pot ajuta mai târziu să identifice o persoană.
Tehnologia NEC constă în toleranța sa la o calitate slabă , inclusiv imaginile cu rezoluție redusă
până la 24 de pixeli între ochi. Videoclipurile și imaginile de supraveghere video comprimate,
considerate anterior ca fiind puțin sau deloc folositoare, sunt acum dovezi utile care măresc rata de
identificare [6].

1.4 Sistemul ”Re:Action”
"Re:Action" este un sistem de recunoaștere a feței creat de compania VisionLabs [7 ], care
permite căutarea pe fotografii digitale sau într -un flux video. Se utilizează algoritmii pentru
extragerea informațiilor cheie : un portret al unei persoane și un descriptor de față corespunzător
acestui portret. Pentru recunoașterea ulterioară, se utilizează numai descriptorul feței. Sistemul
analizează și corectează rezultatele detectării, apoi urmărește și verifică rezultatele detectării feței și
utilizează algoritmi de învățare adaptivă.
Sistemul dat are următoarele caracteristici tehnice :
1. Rezoluția minimă a cadrului este de 320 x 240 pixeli ;
2. Dimensiunea minimă a feței în cadru este de 40 x 40 pixeli, iar dimensiunea maximă – 200 x
200 pixeli ;
3. Unghiul de înclinare admis al feței în cadru este de ±10° ;
4. Prelucrarea simultană a până la 5 fețe într -un cadru .

15
1.5 Sistemele ”Face Detection” și ”Face Recognition”
Două sisteme de detectare și recunoaștere a fețelor umane în fotografii și semnale video
digitale au fost propuse de către compania ”FACE++”. Caracteristica principală a acestor sisteme
este posibilitatea detectării fețelor în condiții de iluminare nesatisfăcătoare și sub diferite poziții ale
capului [8 ].
Sistemul "Face Recognition" utilizează algoritmi de învățare profundă (deep learning) în
sarcinile de verificare și detectează punctele che ie ale feței, care corespund ochilor, nasului, gurii și
sprâncenelor. Pentru verificarea fețelor se utilizează modele de covarianță, și se face o analiză a
identității pentru două modele.
Pentru recunoașterea facială dintr -un flux video sunt necesare următoarele cerințe minime :
1. Cel puțin 20 de cadre (pentru dispozitivele mobile) ;
2. Dimensiunea minimă a feței în cadru este de 16 x 16 pixeli. Producătorii ”FACE++” susțin
că datorită algoritmi lor folosiți, expresiile faciale complexe pot fi procesate în timp real .

2. Dezavantajele sistemelor moderne de recunoaștere facială
Sistemele moderne de recunoaștere a feței umane prezentate mai sus dau rezultate bune (în
multe cazuri probabilitatea recunoa șterii corecte, conform dezvoltatorilor, atinge 99%) și este
utilizată cu succes în sistemele de securitate și în verificarea de acces. Multe dintre sisteme rezolvă
problemele cu iluminarea, prezența obiectelor perturbatoare, cum ar fi barbă, ochelari, coafuri, iau
în considerare modificările posibile ale expresiilor faciale și detectează fețele frontale chiar și
întoarse sub un unghi. Cu toate acestea, cerințele minime stabilite de producătorii de sistem pentru
fluxul video și imagin i, precum rezoluția cadrelor, claritate înaltă și numărul de cadre pe secundă,
nu sunt întotdeauna respectate.
Toate acestea duc la o serie de probleme cu car e se confruntă multe sisteme de
recunoaștere :
 Rezoluție mică a fluxului video provenit de la camera de supraveghere video, fapt ce
complică sarcina de recunoaștere ;
 Zgomotele prezente în imagini și video, cauzate de condițiile ne favorabile de mediu (de
exemplu : ceață, opacitate, ploaie, radiație, interferențe electromagnetice și filmări nocturne) ;
 Prezența unui fundal complex – camera de filmat folosită la sistemele de supraveghere se
află afară, respectiv în fluxul video este prezent fundalul complex în j urul feței unei
persoane.

16
3. Analiza algoritmilor de captare a feței dintr -o imagine
Să luăm în considerare prima abordare a detectării feței – selectarea zonei feței din imaginea
originală. Prin evidențierea acesteia, vom înțelege localizarea acesteia – detectarea zonei feței în
cazul în care doar o persoană este prezentă pe imaginea sursă și este obiectul principal. Pentru a
rezolva problema selecției obiectelor, sunt utilizați mai mulți algoritmi diferiți, care folosesc
abordări diferite pentru a rezolv a această problemă. Principalii algoritmi pentru localizarea
obiectelor sunt :
1. Metodele empirice
2. Metodele bazate pe modele de contur
3. Metode bazate pe comparație cu un model (șablon)
4. Metode bazate pe ”învățare”
3.1 Algoritmul bazat pe metode empirice
Metodele empirice de detectare a feței se bazează pe anumite reguli, obținute din rezultatele
cercetării și ale cunoștințelor despre fața umană. Regulilor simple le este atribuită descrierea
trăsăturilor faciale și proporția lor :
 Fața are nas, gură și och i, care sunt amplasate oarecum simetric între ele ;
 Proporțiile și relațiile de legătură între părțile faciale (frunte, zona medie și inferioară a
feței) ;
 Diferența vizibilă de luminozitate între partea superioară și partea centrală a feței .
Pe baza acestor reguli, se construiește un algoritm care verifică prezența acestora în imagine.
În primul rând, sunt căutate trăsăturile faciale, apoi fețele găsite în imagine sunt verificate p e baza
unor reguli codificate [9 ].
Oamenii de știință Yang și Huang au folosit cunoștințe ierarhice pentru a detecta fețele
dintr-o imagine [10 ]. Acest sistem este format din trei reguli. O ierarhie complexă a imaginilor este
creată prin mediere secvențială și sub -eșantionarea imaginii de intrare .
În primul rând, imaginea este scana tă la primul nivel, care are cea mai mică rezoluție, pentru
identificarea potențialilor candidați. După ce datele primite sunt transferate la un nivel mai superior,
unde este realizată alinierea histogramelor și sunt selectate limitele imaginilor. Apoi, zo nele
selectate sunt transferate la ultimul nivel, unde se detectează posibilele fețe ale persoanelor, folosind
o fereastră de scanare, care aplică regulile generale, ce răspund de elementele faciale – ochii, nasul
și gura.
A doua metodă, bazată pe cunoștințe empirice, a fost dezvoltată de oamenii de știință
Kotropoulos și Pitas [11]. Metoda se bazează pe construirea de histograme de -a lungul liniilor
verticale și orizontale în zona în care s -ar afla fața umană. Proiecțiile orizontale și verticale în
punctul imaginii sunt calculate cu ajutorul următoarelor formule :
HI(x,y)= ∑ 𝐼(𝑥,𝑦)𝑛
𝑦=1 ,
VI(x,y)= ∑ 𝐼(𝑥,𝑦)𝑚
𝑥=1 ,

17
unde I(x,y) este intensitatea imaginii în punctul (x,y) .
Mai întâi, se calculează proiecția orizontală a imaginii și se identifică minime le locale,
determinat e de modificările bruște în HI(x,y) . Aceste minime locale corespund marginilor feței. În
mod similar, este calculată și proiecția vertical ă, și se identifică minime le locale care determină
localizarea ochilor, nasului și gurii. Aceste mini me locale reprezintă o zonă din imagine în care se
presupune că s -ar afla fața .
Algoritmii empirici detectează bine fețele frontale pe un fundal nu prea complex ș i ce nu
conține mult e zgomote [9 ]. Principalul dezavantaj al acestui algoritm este dificultatea de a traduce
cunoștințele umane în reguli clar definite. Dacă regulile sunt formate în detaliu (strict), sistemul va
elimina fețele din imagine care nu respectă toate regulile. Dac ă regulile sunt prea generale, atunci
aceasta va duce la o creștere a reacționării sistemului la detecții false faciale. De altfel , este dificil să
se aplice o astfel de me todă și să se detecteze fețele în poziții diferite, deoarece trebuie luate în
consid erare toate cazurile posibile.
3.2 Algoritmi bazați pe modele de contur
Selectarea contururilor este folosită ca o etapă preliminară în procesul de extragere a
caracteristicilor ima ginii. Astfel de algoritmi lasă contururi pe imagine . Contururile imaginii sunt
zone cu o concentrație mare de informații care este necesară pentru a recunoaște obiectele din
imagine.
Există multe metode pentru delimitarea contururilor, care sunt asociate cu corecția după
histograme și binarizarea imaginii . Luăm în considera re una dintre metode – segmentarea bazată pe
evidențierea contururilor. Segmentarea este procesul de împărțire a unei imagini digitale în părțile
sale componente sa u obiecte, în funcție de sarcină , care în acest caz este selectarea feței persoanei
din imagine.
Algoritmii de segmentare a imaginii se bazează pe una din două proprietăți de bază ale
luminozității imaginii: discontinuitatea și omogenitatea. Discontinu itatea este împărțirea imaginii în
părți, bazată pe modificări bruște ale va lorilor luminozității. Omogenitatea este împărțirea imaginii
în regiuni omogene, conform unor criterii predefinite [12 ]. În procesul segmentării, reprezintă un
interes diferențele de luminozitate datorate limitelor obiectelor, deoarece scopul segmentării, este
selecția obiectelor din imagini.
Procedura de selectare a contururilor implică doi pași. În primul rând, sunt detectate în
imagine diferențele de luminozitate, după care se formează contururile. Apoi, rezultatele obținute
sunt comparate cu valoarea pr agului T, care est e selectată experimental. Dacă 𝑇>|𝐺|, atu nci
pixelul cu coordonatele (x,y) aparține conturului și i se dă valoarea de luminozitate : 𝑍𝑘, dacă însă
𝑇<|𝐺| – pixelul aparține fundalu lui și i se atribuie luminozitatea 𝑍𝛷 [13].
După ce contururile imaginii au fost găsite, este necesar să se izoleze obiectul de interes din
imagine, în acest caz fața persoanei. Deoarece se analizează o imagine cu fundal complex, pot fi
selectate de altfel și alte obiecte, ale căror valori ale intensității coincid cu intensitatea pixelilor de
pe fața persoanei. Criteriile de căutare ale obiectului de interes pot fi diferite: căutare după formă,
după zonă, arie și altele. În acest caz, căutarea este efectuată după arie, deoarece fața persoanei
ocupă cea mai mare parte a imaginii. Selecția feței se realizează prin căutarea unor zone de pixeli

18
conectate și crearea unei matrice, fiecare element al cărei este egal cu numărul obiectului căruia îi
aparține pixelul corespunzător al imaginii originale.
În practică se utilizează câteva metode de evidențiere a diferențelor de luminozitate :
1. Metoda gradientului
2. Metoda Canny
3. Metoda Laplace
3.2.1 Metoda gradientului
Metoda gradientului – constă în calcularea primei derivate a funcției de luminozitate (este
utilizată pentru a detecta prezența unui contur în imagine). Gradientul imaginii 𝑓(𝑥,𝑦) în punctul
(𝑥,𝑦) reprezintă vectorul G, orientat în direcția modificării maxime a luminozității, modulul căruia
este egal cu :
|𝐺|=√𝐺𝑥2+𝐺𝑦2
𝐺𝑥=𝑑𝑓(𝑥,𝑦)
𝑑𝑥
𝐺𝑦=𝑑𝑓(𝑥,𝑦)
𝑑𝑦
unde 𝐺𝑥 și 𝐺𝑦 sunt componentele acestui vector [2].
Pentru a reduce din calcule, modulul gradientului este calculat după formula de mai jos :
|𝐺|≈|𝐺𝑥|+|𝐺𝑦|
Pentru a găsi derivatele gradientului 𝐺𝑥 și 𝐺𝑦, se folosește una dintre următoarele metode :
1. Operatorul Roberts
2. Operatorul Prewitt
3. Operatorul Sobel
4. Operatorul Robinson

19
Operatorul Roberts
Imaginea discretă este scanată cu o fereastră de 2 x 2 pixel i, care este afișată în Figura 3.3 .

Figura 3.1 Fereastră de scanare cu dimensiunea 2 x 2 cu valori de luminozitate 𝑍𝑖
Pentru fiecare poziție a ferestrei, sunt calculate componentele 𝐺𝑥 și 𝐺𝑦 :
𝐺𝑥=𝑍4−𝑍1
𝐺𝑦=𝑍3−𝑍2
unde 𝑍1, 𝑍2, 𝑍3, 𝑍4 sunt valorile de luminozitate ale pixelilor din fereastra 2 x 2.
Aceste derivate pot fi realizate prin prelucrarea întregii imagini cu ajutorul operatorului
descris d e măștile prezentate în Figurile 3.2 și 3.3.

Figura 3.2 Masca operatorului Roberts pentru 𝐺𝑥

Figura 3.3 Masca operatorului Roberts pentru 𝐺𝑦
După găsirea derivaților, se face calculul conform formulei modulului gradientului pentru
fiecare pixel situat în rândul 𝑚 și coloana 𝑛. Operatorul Roberts este ușor în implementare și rapid,
dar realizarea măștilor de dimensiuni de 2 x 2 nu este convenabilă din cauza lipsei unui element
central clar exprimat. Prin urmare, sunt mai des folosite măști cu o dimensiune de 3 x 3.

20
Operatorul Prewitt
Pentru a detecta d iferențele de luminozitate, imaginea este scanată folosind fereastra 3 x 3,
care este prezentată în Figura 3.4.

Figura 3.4 Fereastră de scanare cu mărimea 3 x 3 cu valori de luminozitate 𝑍𝑖
Pentru fiecare poziție a ferestrei, valorile 𝐺𝑥 și 𝐺𝑦 sunt calculate în felul următor :
𝐺𝑥=(𝑍7+𝑍8+𝑍9)−(𝑍1+𝑍2+𝑍3)
𝐺𝑦=(𝑍3+𝑍6+𝑍9)−(𝑍1+𝑍4+𝑍7)
În formulele de mai sus, diferența dintre sumele de pe rândurile de sus și de jos ale unui
cluster de 3 x 3 este o valoare aproximativă a derivatei de -a lungul axei x, iar diferența dintre
sumele de pe prima și ultima coloană este derivată de -a lungul axei y [12 ]. Pentru a pune în aplicare
aceste formule, se folosește operatorul Previtt, care este descris d e măștile prezentate în Figurile 3.5
și 3.6 .

Figura 3.5 Masca operatorului Prewitt pentru 𝐺𝑥

21

Figura 3.6 Masca operatorului Prewitt pentru 𝐺𝑦
Operatorul Prewitt este ușor de realizat, dar există o eroare de calcul semnificativă, respectiv
fața poate să nu fie evidențiată, sau este evidențiată și fața d ar și corpu l persoanei .

Operatorul Sobel
Operatorul Sobel utilizează de obicei o mască cu o dimensiune de 3 x 3, în timp ce valorile
medii ale luminozității sunt calculate cu coeficientul 2 . Calculul gradientului de imagine constă în
obținerea valorilor derivatelor parțiale pentru fiecare punct.
𝐺𝑥=(𝑍7+2𝑍8+𝑍9)−(𝑍1+2𝑍2+𝑍3)
𝐺𝑦=(𝑍3+2𝑍6+𝑍9)−(𝑍1+2𝑍4+𝑍7)
După calculul derivatelor parțiale, modulul gradientului în punctul central al vecinătății se
calculează folosind formula prezentată anterior [13 ]. Pentru a implementa expresiile descrise mai
sus, se folosesc măștile prezentate în Figurile 3.7 și 3.8 .

Figura 3.7 Masca operatorului Sobel pentru 𝐺𝑥

22

Figura 3.8 Masca operatorului Sobel pentru 𝐺𝑦
Utilizarea coeficientului 2 în masca operatorului Sobel se bazează pe dorința de a acorda o
mai mare importanță punctel or centrale [12 ].

Operatorul Robinson
Operatorul Robinson este simplu în implementare datorită utilizării coeficienților 0, 1 și 2.
Măștile acestui operator sunt simetrice față de axa centrală umplută cu zerouri. Este suficient de
obținut rezultatul prelucrării primelor patru măști, restul obținându -se pri n inversarea primelor
(Figura 3.9 ).
Valoarea maximă , obținută după aplica rea tuturor celor patru măști pe pixel și în
împrejurimile sale este considerată amploarea gradientului, iar unghiul de gradient poate fi
aproximat ca unghiul liniilo r zero din mască.

Figura 3.9 Primele 4 măști ale operatorului Robinson

Din rezultatele obți nute se poate observa că există întreruperi de contururi, și puncte pe
imaginea segmentată, dar acest lucru nu a afectat selecția corectă a feței. De asemenea, se observă
că operatorul Robinson se descurcă mai bine cu zgomotul din imagine în comparație cu operatorul
Sobel.

23
3.2.2 Metoda Canny
Este una din cele mai eficiente metode de selecție a contururilor, utilizează operații
morfologice.
Algoritmul dat constă din câteva etape :
1. Imaginea este nivelată, uniformizată cu un filtru, folosind funcția de imp uls descrisă de
legea Gaussiană :
ℎ(𝑥,𝑦)=1
2𝜋𝜎2exp (−𝑥2+𝑦2
2𝜎2)
unde 𝜎 – este un parametru care determină gradul de nivelare a funcției de impuls asupra
zgomotului prezent în imagine.
2. În fiecare punct, se calculează gradientul variației luminozității din imagine :
|𝐺|=√𝐺𝑥2+𝐺𝑦2
3. Se realizează suprimarea ușoară a salturilor de luminozitate din imagine. În rezultat, sunt
salvat e valorile gradienților care depășesc valorile gradienților ce se află în vecinătate, în
direcția gradientului imaginii;

4. Prelucrarea morfologică a rezultatelor, în care sunt stabilite două praguri: inferior și
superior . Toate punctele care au depășit pragul superior sunt păstrate, iar punctele care
depășesc pragul inferior sunt de asemenea salvate însă doar dacă sunt vecine cu punctele de
mai sus, celelalte sunt excluse di n imaginea conturată formată [12 -13].
Operatorul Canny oferă o mai bună selecție a contururilor decât celelalte metode descrise,
chiar și în prezența zgomotului, și de asemenea lipesc discontinuitățile în contururi, punctele sau
unele linii.

3.2.3 Metoda Laplace
Metoda Laplace de separare a contururilor diferă de metoda gradientului prin faptul că
limitele sunt evidențiate indiferent de direcția lor. Datorită acestei caracteristici, contururile
imaginilor se disting mai putern ic decât în celelalte metode [12 ]. Metoda constă în calcularea celei
de-a doua derivate al funcției de luminozitate. Laplacianul imaginii analogice 𝑓(𝑥,𝑦) se calculează
conform relației :
𝛻2(𝑓(𝑥,𝑦))=𝛿2𝑓(𝑥,𝑦)
𝛿𝑥2+𝛿2𝑓(𝑥,𝑦)
𝛿𝑦2
Laplacianul unei imagini discrete pentru un pixel într -un perimetru de 3 x 3 poate fi
determinat astfel :

24
𝛻2(𝑓(𝑥,𝑦))=4𝑍8−(𝑍1+𝑍3+𝑍5+𝑍7)
unde locația variabilelor 𝑍𝑖 (vezi Figura 3.4 ).

Aproximarea discretă folosind elementele vecine pe diagonală are forma :
𝛻2(𝑓(𝑥,𝑦))=8𝑍8−(𝑍0+𝑍1+𝑍3+𝑍5+𝑍6+𝑍7+𝑍8+𝑍9)
Pentru realizarea acestor ecuații, se folosesc măști, care sunt prezentate în F igura 3.10 .

Figura 3.10 Măștile Laplace
Cu toate acestea, metoda Laplace în forma sa pură nu este folosită pentru detectarea
contururilor din următoarele motive :
1. Metoda Laplace este prea sensibil ă la zgomot ;
2. Folosirea modulului Laplace duce la dublarea contururilor, ceea ce complică procesul de
segmentare.
Din aceste motive, metoda Laplace în problemele de segmentare se reduce la utilizarea
proprietății sale de intersectare a nivelului zero pentru localizarea conturului.

3.2.4 Metoda Laplace -Gauss
Metoda Laplace -Gauss este o convoluție a operatorilor Laplace și Gauss. Acest operator
reprezintă derivata a doua a funcției :
ℎ(𝑟)=−𝑒−𝑟2
2𝜎2
unde 𝑟2=𝑥2+𝑦2; 𝜎 – deviația standard.
Convoluția imagini i cu o astfe l de funcție duce la defocusarea acesteia, cu valoarea deviației
standard. A doua derivată al lui ℎ cu privire la 𝑟 are forma :
𝛻2ℎ(𝑟)=−(𝑟2−𝜎2
𝜎4)𝑒−𝑟2
2𝜎2

25
Acest operator a fost numit Laplace -ul operatorului Gaussian (LoG -Laplacian of Gaussian),
deoarece ecuația de mai sus definește o funcție Gaussiană. Convoluția imaginii cu operatorul
𝛻2ℎ(𝑟) este echivalentă cu imaginea care inițial ar fi fost minimizată cu funcția Gauss, iar apoi ar fi
fost calculat Laplace -ul [12 ].
În această metodă, sarcina funcției Gaussiene constă în nivelarea imaginii și reducerea
influenței zgomotului, iar obiectivul Laplacian este de a localiza contururile.
Caracteristicile algoritmului :
 Algoritmul funcționează corect, atunci când obiectul se află pe un fundal uniform ;
 Algoritmul poate funcționa incorect, atunci când imaginea este mai luminoasă sau
întunecată, respectiv umbrele din imagine po t fi percepute drept conturu ri;
 Detecții false, în cazul prezenței zgomotului în imagine ;
 Cu cât rezoluția imaginii este mai redusă, cu atât crește probabilitatea erorilor de localizare.
Astfel, utilizarea metodelor de segmentare nu va fi considerată ca o metodă independentă
pentru rezolvarea problemei localizării unei fețe într -o imagine în ca re există un fundal complex,
zgomot și rezoluție scăzută.
3.3 Algoritmul bazat pe compararea șabloanelor
Metoda cea mai simplă de detectare a fețelor într -o imagine digitală este o metoda bazată pe
o comparație cu un șablon. Această metodă se bazează pe vi zualizarea întregii imagini sursă cu o
mască locală și compararea imaginii din câmpul acestei măști cu un etalon (șablon). Un șablon este
imaginea cu o dimensiune specificată în care fața umană sau o parte din ea (ochi, nas, gură) este
situată în centru, i ar fundalul din jurul feței corespunde cu fundalul imaginii originale.
Se utilizează două tipuri de șabloane :
1. Non-deformabile – sunt șabloanele care sunt expu se scalării și pot fi deplasate ;
2. Deformabile – sunt șabloanele care își schimbă forma, ajustându -se conform datelor de
intrare. Cel mai des sunt folosite pentru a selecta părțile feței (nas, ochi, gură).
Atunci când se compară imaginile, ca măsură de proximitate, se selectează eroarea medie
pătratică sau corelația reciprocă dintre imaginea d in zona mască și șablonul. Minimul erorii medii
pătratice sau maximul corelației reciproce obținute ca rezultat, va indica cea mai bună potrivire a
imaginii din zona de mască cu șablonul.
Considerăm o imagine 𝑓(𝑥,𝑦), cu dimensiunile M x N, și șablonul 𝑤(𝑥,𝑦) cu dimensiunil e
J x K, unde J ≤ M și K ≤ N [12 ]. Mutând șablonul pe întreaga imagine, este calculată corelația (a se
vedea formula în forma sa generală) :
𝑐(𝑥,𝑦)=∑∑𝑓(𝑠,𝑡)𝑤(𝑥+𝑠,𝑦+𝑡)
𝑡 𝑠
unde 𝑥 = 0,1,2,…,M – 1 și 𝑦 = 0,1,2,…,N – 1 .

26
Suma este efectuată în zona în care se intersectează imaginea și șablonul. În Figura 3.11 este
prezentată procedura de corelare, în care vizualizarea imaginii sursă pornește de la o poziție din
colțul din stânga sus și continuă vertical în jos până când șablonu l se află în câmpul imaginii
originale.
Analizăm punctul imaginii – (𝑥0,𝑦0). După calcularea valorii de corelație, obținem o
valoare 𝑐(𝑥0,𝑦0). Atunci când 𝑥 și 𝑦 se schimbă, șablonul trece peste întreaga imagine și dă funcția
𝑐(𝑥,𝑦). Poziția maximelor funcției 𝑐(𝑥,𝑦) indică punctele în care aria șablonului se potrivește cel
mai bine cu aria imaginii. Cu toate acestea, în apropierea marginilor imaginii, precizia scade,
deoarece mărimea erorii de corelare este proporțională cu aria șa blonului, care a depășit limitele
imaginii [12 ].

Figura 3.11 Obținerea valorii de corelație în punctul (𝑥0,𝑦0)
Dezavantajul funcției de corelație 𝑐(𝑥,𝑦) este sensibilitatea sa la schimbarea amplitudinii
imaginii și a șablonului. Pentru a elimina acest dezavantaj, se folosește funcția normalizată de
corelație încrucișată, deoarece este invariabilă pentru modificările imaginii. Funcția dată se
calculează conform relației :
𝛾(𝑥,𝑦)=∑∑[𝑓(𝑠,𝑡)−𝑓̅(𝑠,𝑡)] 𝑡 𝑠 [𝑤(𝑥+𝑠,𝑦+𝑡)−𝑤̅]
√∑∑[𝑓(𝑠,𝑡)−𝑓̅(𝑠,𝑡)]2∑∑[𝑤(𝑥+𝑠,𝑦+𝑡)−𝑤̅]2𝑡 𝑠 𝑡 𝑠
unde 𝑥 = 0,1,2,…,M – 1, 𝑦 = 0,1,2,…,N – 1, 𝑤̅ – valoarea medie a pixelilor în etalonul 𝑤 ; 𝑓̅ –
valoarea medie a elementelor imaginii 𝑓 în regiunea ce coincide cu poziția curentă 𝑤.
În ciuda simplității acestei metode, abordarea descrisă realizează căutarea feței în
conformitate cu șablonul, rapid și eficient, însă necesită ca dimensiunile imaginii dorite să
corespundă cu dimensiunile șa blonului. Însă această relați e este dificil de realizat, respectiv
procesul este efectuat de mai multe ori, de fiecare dată dimensiunea imaginii originale schimbându –
se [14].

27
Din imaginea originală a chipului persoanei se obțin etaloanele care acoperă cea mai
informativă parte a feței: sprâncenele, ochii, nasul și gura. Sprâncenele, ochii și nasul unei persoane
sunt neschimbătoare. Metoda de comparație cu șablonul face posibilă selectarea unei fețe în cazurile
în care dimensiunile, punctul de observare și f undalul din imaginea originală nu corespund cu
șablonul. Erorile se pot datora complexității fundalului, pe care sunt prezente un număr mare de
obiecte interferente, deoarece condițiile de ilu minare se modifică și respectiv preluarea și utilizarea
informațiilor din imagine este dificilă.
Metoda bazată pe compararea cu șablonul a devenit destul de răspândită. Cu toate acestea,
localizarea obiectelor reale se caracterizează printr -o complexitate mare de calcul asociată
problem elor discutate mai sus.
3.4 Algoritm bazat pe învățare
Analiza efectuată a algoritmilor de recunoaștere facială de pe o imagine are următoarele
dezavantaje :
1. Metodele empirice sunt complexe în implementare, deoarece cunoașterea umană este dificil
de trans format în anumite reguli care ar putea funcționa cu imag ini reale care au zgomote,
un fu ndal complex și o rezoluție redusă;
2. Metodele bazate pe modelele de contur nu funcționează bine atunci când imaginea este
zgomotoasă, prea luminoasă sau prea întunecată, are un fundal complex și o rezoluție
scăzută. Umbrele din imagine sunt percepute ca limite, ceea ce duce la funcționarea
incorectă a algoritmului. Astfel de metode sunt cel mai bine de utilizat în pre -procesare la
imagini;
3. Metodele bazate pe compararea cu șablonul evidențiază fața, când imaginea are un fundal
uniform, dar în practică (de exemplu la sisteme le de supraveghere/securitate) , o astfel de
condiție nu este întotdeauna fezabilă.
Metoda bazată pe învățare (formare) es te lipsită de deficiențele menționate mai sus, prin
urmare ele sunt utilizate în sistemele de supraveghere video și de control al accesului.

3.4.1 Metoda Viola -Jones
Metoda Viola -Jones este una dintre m etodele eficiente de căutare a feței uman e în imagine,
deoarece are viteză mare și probabili tate scăzută de detecție falsă [15 ]. Algoritmul funcționează
bine și recunoaște caracteristicile faciale la un unghi de până la 30 de grade. Pe măsură ce unghiul
crește, rata de detecție scade semnificativ, cee a ce face dificilă utilizarea algor itmului în sistemele
moderne [16 ]. Metoda st ă la baza majorității algoritmilor de recunoaștere și identificare existenți,
iar metoda Viola -Jones este implementată în majoritatea ca merelor moderne și camerelor
telefoanelor mobile .

28
Algoritmul se bazează pe ideile -cheie :
1. Reprezentarea imaginii în formă integrală – pentru calculul rapid al caracteristicilor;
2. Folosirea caracteristicilor lui Haar – pentru a extrage informații de pe imagine;
3. Folosind o metodă specială de învățare/formare – un boosting pentru selectarea semnelor;
4. Primirea de semne la intrarea unui clasificator, care dă rezultat "adevărat" sau "fals";
5. Utilizarea ”cascadei” – pentru a elimina rapid ferestrele pe care nu există nici o față.
Deoarece în algorit m se produce ”învățarea” clasificatorilor, este necesar un eșantion
pregătit de imagini pozitive și negative. Pe imaginile pozitive sunt prezente fețe frontale cu
dimensiunea de 24 x 24 sau 20 x 20 pixeli. Această dimensiune este convenabilă pentru învățar e,
deoarece fața u nei persoane poate fi departe în imagine și este necesară găsirea unei fețe de
dimensiuni mici. Eșantionul de formare conține to ate invariantele la lumină, caracteristici ale rasei,
persoane de sex e diferite și persoane cu emoții pe față.
Imaginile negative reprezintă o colecție de fotografii diferite cu aceeași dimensiune, pe care
nu există nici o față umană. Numărul de imagini pozitive este mult mai mic decât cel negativ, de
exemplu, autorii metodei au utilizat 5000 de imagini cu fețe și 10.000 de imagini fără f ețe [17 ].
După construirea eșantionului de formare, trebuie de extras din imagine caracteristicile după
care va fi instruit clasificatorul. Pentru aceasta, se folosesc caracteristicile Haar, care sunt filtre
formate din suprafețe re ctangulare adiacente, așa cum e ste arătat în Figura 3.12.

Figura 3.12 Caracteristicile standard Haar
Aceste dreptunghiuri sunt suprapuse pe o imagine cu dimensiunea de 24 x 24 și se
realizează numărarea tuturor luminozităților pixelilor, care au nimerit în zonele luminoase și
întunecate. Apoi se calculează diferența dintre sume :
𝑓=∑𝐼𝑆1−∑𝐼𝑆2
unde 𝐼 – intensitatea pixelilor; 𝑆1 – toți pixelii din regiunea dreptunghiului alb; 𝑆2 – toți pixelii din
regiunea dreptunghiului negru.
Diferența calculată este valoarea unei anumite caracteristici. În plus, această valoare este
comparată cu pragul determinat în timpul procesului de formare . Dacă valoarea depășește pragul,
atunci caracteristica a detectat obiectul , altfel nu a făcut -o. Caracteristicile date sunt calculate în
zona fereastrei de scanare, care se mișcă în jurul într egii imagini.

29

Figura 3.13 Schema principiului de lucru a ferestrei de scanare.
Fereastra de scanare este prezentată în Figura 3.13. Acest proces se repetă de mai multe ori
pentru diferite dimensiuni ale ferestrei scanate, adică se aplică scalarea deasupra ferestrei și a
semnelor. Pentru calcularea caracteristicilor cât mai rapid , este utilizată o reprezentare integrală a
imaginilor. În reprezentarea integrată a imaginilor, se formează o matrice , dimensiuni le căruia
coincid cu dimensiunile imaginii originale. În fiecare element al matricei este stocată suma
intensităților tuturor pixelilor situați în stânga și deasupra acesteia. [18 ]. Elementele matricei sunt
calculate după formula :
𝑖𝑖(𝑥́,𝑦́)= ∑ 𝑖(𝑥,𝑦)
𝑥≤𝑥́,𝑦≤𝑦́
unde 𝑥, 𝑦 – coordonatele pixelului pe imagine; 𝑖𝑖(𝑥́,𝑦́) este intensitatea pixelului cu coordonatele
𝑥́,𝑦́ ale imaginii integrale; 𝑖(𝑥,𝑦) este intensitatea pixelilor cu coordonatele imaginii o riginale (a se
vedea Figura 3.14).

Figura 3.14 Imaginea originală

30

Figura 3.15 Imaginea integrală
O astfel de imagine integrală rezultă dintr -o singură trecere prin imagine. Analizăm pixelul
cu coordonatele 𝑖(𝑥,𝑦) (Figura 3.16 ).

Figura 3.16 Calculul imaginii integrale
Pentru fragmentul din stânga sus, suma intensităților pixelilor se calculează astfel :
𝑠(𝑥,𝑦)=𝑠(𝑥−1,𝑦)+𝑖(𝑥,𝑦)
𝑖𝑖(𝑥,𝑦)=𝑖𝑖(𝑥,𝑦−1)+𝑠(𝑥)
unde 𝑠(𝑥,𝑦) este suma acumulată a rândului. Din formulele de mai sus rezultă că 𝑠(𝑥,−1)=0 și
𝑖𝑖(−1,𝑦)=0 [15]. Atunci când imaginea integrală este construită, este po sibilă calcularea rapidă a
sumel or pixelilor unui dreptunghi care poate avea deja orice suprafață. Fie A, B, C, D – valorile
imaginii integrale în colțurile dreptunghiului (Figura 3.17).

Figura 3.17 Calcularea sumei luminozității pixelilor într -un dreptunghi arbitrar.

31
Suma valorilor intensităților pixelilor din imaginea original :
𝑆(𝐴𝐵𝐶𝐷 )=𝐴−𝐵−𝐶+𝐷
În acest caz, dacă imaginea integrală este calculată , atunci pentru un dreptunghi amplasat în
orice loc al imaginii, sunt suficiente trei operații de adăugare.
Fiecare dintre aceste caracteristici se calculează foarte rapid, dar numărul de semne este un număr
mare: deci pentru o fereastră de 24 x 24 pixeli, obținem 160.000 de semne. Toate caracteristici le nu
pot fi calculate, deci trebuie de selectat un subset de caracteristici care vor permite de împărțit
efectiv eșantionul de formare în ”față” și ”lipsa feței”. În Figura 3.18 sunt prezentate toate
caracteristicile Haar pe care le folosește un singur cl asificator.

Figura 3.18 Caracteristicile Haar pentru un clasificator.
Pentru a selecta un subset specific de caracteristici este folosită metoda boosting -ului.
Boosting – este o metodă modernă de clasificare și recunoaștere a modelelor, este o
procedură pentru construirea secvențială a compozițiilor algoritmului de învățare, atunci când
fiecare algoritm ulterior urmărește să compenseze d eficiențele celui precedent. [19 – 20].
Un clasificator care permite câteva erori este considerat "puternic", dar un clasificator care
are o m arjă de la 51% – "slab" sau simplu. Ca urmare a funcționării algoritmului boosting, la fiecare
iterație se formează un clasificator simplu precum :
ℎ𝑗(𝑧)={1,𝑑𝑎𝑐ă 𝑝𝑗𝑓𝑗(𝑧)<𝑝𝑗𝜃𝑗
0,𝑝𝑒𝑛𝑡𝑟𝑢 𝑟𝑒𝑠𝑡𝑢𝑙 𝑐𝑎𝑧𝑢𝑟𝑖𝑙𝑜𝑟
unde 𝑝𝑗 – arată direcția semnului inegalității, dacă valoarea semnului este negativă și indică separat
pentru fiecare caracteristică; 𝜃𝑗 – valoarea pragului; 𝑓𝑗(𝑧) – valoare a calculată a caracteristicii; 𝑧 –
fereastra de căutare; 𝑗 – numărul iterație i. Ulterior, a fost dezvoltat un algoritm de boosting mai
avansat – AdaBoost ( Adaptive B oosting – îmbunătățire adaptivă) [19 ]. AdaBoost combină
clasificatorii simpli și atribuie fiecăruia o sarcină specifică. A ceastă combinație ponderată este
considerat un clasificator "puternic".

32
În metoda lui Viola -Jones, clasificatorii au fost combinați într -o secvență de filtre. Fiecare
astfel de filtru este un clasificator separat AdaBoost, având un număr mic de clasificato ri simpli.
AdaBoost -ul utilizat pentru căutarea fețelor arată în felul următor :
1. Calcularea tuturor caracteristicilor lui Haar pentru toate imaginile eșantionului de
învățare/formare;
2. Este ales un astfel de criteriu și prag pentru care suma greutăților imaginilor clasificate
eronat era minimă;
3. Definim greutățile întregului eșantion.
Folosind metoda AdaBoost pentru a găsi fețe în imagine, trebuie de vizualizat un număr
mare d e ferestre. Din moment ce prezența feței în imagini este întâlnită rar, trebuie respectiv de
eliminat cât mai repede ferestrele pe care nu există fețe. Din această cauză este construită o cascadă
de clasificatori.

Cascada constă dintr -un lanț de clasificatori instruiți, structura cărora este ilustrată în Figura
3.19.

Figura 3.19 Cascadă de clasificatori.

Lucr ul cascadei începe cu clasificatori "slabi", care e limină o parte din ferestrele ne gative,
acceptând aproape toate cele pozitive. Dacă primul clasificator reacționează bine la fragmentul în
care potențial se află fața , atunc i este lansat al doilea clasificator, mai complex. Răspunsul negativ
al unuia dintre clasificatori în orice etapă duce la respingerea ferestrei. Această structură în cascadă
mărește rata de detecție, accentuând activitatea sa în zone mai informative ale im aginii, adică acolo
unde este prezentă persoana.

33
În Figura 3.20, este preze ntată o imagine cu zgomot, unde fe țele sunt selectate utilizând
algoritmul Viola -Jones.

Figura 3.20 Rezultatele detectării faciale cu ajutorul metodei Viola -Jones.
Se observă că metoda găsește fețe cu obiecte perturbatoare, în cazul dat ochelari, și atunci
când fața este înclinată la un unghi mic și este prezentă expresia facială. Fundalul complex nu a
generat probleme de detecție , metoda Viola – Jones a selectat o fereastră a feței destul de mică în
cazul in care fața este sub un oarecare unghi, de asemenea mărimea ferestrei depinde și de fundal
unde pot exista multe obiecte diferite care induc zgomot .
Algoritmul Viola -Jones și persoanele de culoare
De mulți ani deja, detectarea feței persoanelor de origine africană a fost problematică. Fețele
de culoare întunecată sunt greu de detectat în comparație cu fețele de culoare deschisă . Asta se
datorează printre altele diferenței de intensitate a contrastului dintre och i, obraji și nas, care este
greu de separat de un algoritm. F undalul complicat (multe obiecte de fundal) / întunecat complică și
mai mult sarcina detecției fețelor persoanelor de culoare. Procesul de detecție facială în cazul
persoanelor de rasă negroidă î ntâlnește următoarele probleme :
1. Raportul de contrast al imaginii și al fețelor;
2. Dificil de separat elemente faciale precum : ochi, nas și gură;
3. Culoarea feței și al părului este în majoritatea cazurilor aceeași. Sau părul de pe cap poate fi
tuns foarte scurt sau chiar lipsi (cazul bărbaților și a copiilor);
Algoritmul Viola -Jones cu o an umită valoare de prag specific, oferă rezultatul cu o rată de
detectare rapidă și are o precizie ridicată pentru detecția fețelor persoanelor de origine africană,
origine asiatică, precum și fețele nou -născuților. Trebuie menționat însă că timpul de calcul este
puțin mai mărit decât în cazul persoanelor cu fața de culoare deschisă. Timpul mediu de calcul
poate varia în jurul valorii de 2.894 secunde (pentru persoanele de r asă europeană această valoare
variază in jur de 1 sec, Procesor Intel I3, 2.10 GHz, 3 Gb RAM, Windows 7), desigur această

34
valoare depinde de complexitatea imaginii. Rata medie d e detecție este de aprox. 92,47%.. N umăr ul
mare de fețe care sunt prezente în i magine nu afectează timpul de calcul și rata de detecție.[21 ]
4. Analiza algoritmilor de recunoaștere a feței din imagini
În prezent, există mai multe metode de r ecunoaștere a unei persoane după fața sa : metoda
”fețelor proprii” (eigenfaces) , rețelele neuronale artificiale, metoda de luare a deciziilor – metoda
arborelui (decision forest) , modele Markov cu stări invizibile , analiza diferențială liniară și altele.
Să analizăm în detaliu primii trei algoritmi, după performanța și precizia lor.

4.1 Metoda ”fețelor proprii” (Eigenface )
La baza algoritmului Eigenface stă metoda componentelor principale (MCP), care este cea
mai eficientă metodă în prezent. Ideea metodei este aceea că matricea imaginii poate fi reprezentată
ca un vector unidimensional prin plasarea celei de -a doua coloane sub prima, a treia sub cea a doua,
și așa mai departe. Vectorii care rezultă se află în spațiu, care are o dimensiune foarte mare, iar
datele necesare aparțin unei dimensiuni mai mici, deci trebuie de găsit spațiul optim în care se poate
de identificat și descris trăsăturile individuale ale fiecărei fețe. Pentru a rezolva această problemă, se
folosesc principalele componente ale distribuției feței, care sunt vectorii proprii ai matricei de
covarianță a setului de imagini. Vectorii proprii se aranjează în funcție de mărimea valorii proprii.
Fieca re din acești vectori descrie trăsăturile feței și pot fi priviți ca un set de trăsături caracteris tice.
De asemenea, fiecare zonă a imaginii contribuie la fiecare vector propriu, lucr u care permite
reprezentarea vectorului ca aproximație la imaginea feței, din această cauză sunt numiți ”fețe
proprii” (Eigenface). Fiecare imagine a feței este reprezentată ca o combinație lini ară a fețelor
proprii (Figura 4.1 ) [22 ].

Figura 4.1 ”Fețe proprii ” (Eigenface s)

35
Analizăm imaginea cu dimensiunea de 𝑚 x 𝑛 pixeli. Această imagine poate fi descrisă de un
vector cu dimensiunea 𝑚 :
𝑥𝑖 ,𝑖=1,2,3,…,𝑁
unde 𝑖 – numărul imaginii.
Este necesar de găsit vectorii care descriu cel mai bine distribuția imaginilor fețelor în întreg
spațiul imaginii. Se consideră un set de imagini cu vectorii 𝑥1,…,𝑥𝑁, care este un eșantion de
antrenament. Calculăm vectorul mediu pe întregul eșantion de antrenament :
𝑥0̅̅̅=1
𝑁∑𝑥𝑖̅𝑁
𝑖=1

După calcularea vectoru lui mediu, îl scădem din fiecare imagine :
𝛷̅=𝑥𝑖̅−𝑥0̅̅̅
Vectorii rezultați stochează informații unice despre chipul uman. Pentru cea mai bună
descriere a distribuției imaginilor, este construit un set de 𝑁 vectori ortogonali 𝑢𝑙̅, în care fiecare
vector 𝑖 – este calculat conform formulei :
𝜆𝑖=1
𝑁∑(𝛷𝑙̅̅̅𝑢𝑙̅𝑇)2𝑁
𝑘=1
𝑢𝑙̅𝑇𝑢𝑘̅̅̅=𝛿𝑙𝑘={1,𝑙=𝑘
0,î𝑛 𝑎𝑙𝑡𝑒 𝑐𝑎𝑧𝑢𝑟𝑖
unde 𝜆𝑖 sunt valorile proprii ale matricei de covarianță și 𝑢𝑙̅ sunt vectorii proprii ai matricei de
covarianță.
Matricea de covarianță se calculează astfel :
𝐾=1
𝑁∑𝛷𝑙̅̅̅ 𝛷𝑘̅̅̅̅𝑇𝑁
𝑘=1
Dacă numărul de imagini este mai mic decât dimensiunea spațiului, atunci vectorii proprii 𝑢𝑙̅
cu valori proprii nenule 𝜆𝑖 vor fi 𝑁−1. Aici încheie procesul cu eșantionul de antrenament.
Acum, la intrare este aplicată o imagine de testare cu o față ”x”, care este descompusă în
”fețe proprii” [22 ]. Se calculează coeficienții de descompunere și se construiește un vector care
descrie contribuția fiecăre i ”fețe” la reprezentarea imaginii test.
𝑤𝑖=𝑢𝑙̅𝑇(𝑥̅−𝑥0̅̅̅)
𝛺̅𝑇={𝜔1,…,𝜔𝑁},
unde 𝑖=1,…,𝑁.

36
După realizarea vectorului, se proiectează această imagine într -un spațiu nou și se definește
cărei imagini a eșantionului de formare, exemplul dat îi este cel mai apropiat. Pentru asta se
calculează distanța dintre imaginea în sine și proiecția sa :
𝑑2=‖𝛷̅−𝛷𝑓̅̅̅̅‖2
𝛷𝑓̅̅̅̅=∑𝑤𝑖𝑁
𝑖=1𝑢𝑖
Dacă valoarea 𝑑2 este mare, atunci imaginea de intrare cu o probabilitate mare nu aparține
bazei de date cu imagini.
4.2 Rețele neuronale artificial e
Una dintre cele mai comune metode de recunoaștere sunt rețelele neuronale artificiale.
Rețelele neuronale au apărut ca urmare a modelării funcțiilor creierului uman și reprezintă un sistem
liniar universal care ajustează paramet rii bazați pe datele primite [22 ].
Atunci când este antrenată o rețea neuronală, sunt oferite diverse imagini ale fețelor
oamenilor, indicând din ce clasă fac parte. Eșantionul este reprezentat ca ve ctor al valorilor
caracteristicilor . În acest caz, toate caracteristicile trebuie să determine în mod unic clasa din c are
face parte eșantionul. Dacă caracteristicile nu sunt suficiente, rețeaua poate corela același tipar cu
mai multe clase, ceea ce va duce la eror i de recunoaștere. Instruind o rețea neuronală, este posibil de
găsit fețele nerecunoscute anterior și de pri mit un răspuns despre apartenența lor la o anumită clasă.
Rețeaua neuronală constă din particule elementare – neuronii artificiali, care sunt modelul
neuronilor biologici din creierul uman.
În Figura 4.2 este prezentat modelul matematic al neuronului, care este un anumit element
care primește mai multe semnale de intrare, apoi înmulțește aceste semnale cu coeficienții de
ponderare și le însumează :
𝑆=∑𝑋𝑖𝑛
𝑖=1𝑊𝑖
unde 𝑋𝑖 – semnale de intrare; 𝑊𝑖 – coeficienți de ponderare.
După sumare, se face o transformare neliniară a neuronului, rezultând un semnal de ieșire :
𝑌=𝐹(𝑆−𝑏)
unde 𝐹 este funcția de transfer neliniară a neuronului; 𝑏 – deplasarea continuă.
Ca funcție neliniară pentru un neuron, se folosește o funcție sigmoidă, ale cărei valori se
situează între 0 și 1.
𝐹(𝑥)=1
1+𝑒−𝛽𝑥

37
Deoarece deplasarea continuă este de obicei echivalată cu o greutate suplimentară 𝑏=𝑊0,
care primește un singur semnal, atunci :
𝑆=∑𝑋𝑖𝑊𝑖𝑛
𝑖=1+𝑊0
𝑌=𝐹(𝑆)
Transformarea descrisă mai sus se numeș te funcția de activare, dacă semnalul sumar , ținând
cont de multiplicatorii de pondere , depășeș te pragul, atunci neuronii devin activi și transmit
semnalul, de exemplu 1, altfel neuronul nu este se activează .

Figura 4.2 Modelul matematic al unui singur neuron.
Astfel, un neuron este un clasificator lin iar, deoarece ia o combinație li niară de caracteristici
de intrare. N euronul poate fi reprezentat ca o hiperplană liniar ă de separare într -un spațiu mare de
caracteristici . Adică, un neuron poate rezolva o problem ă liniară de clasificare în care există obiecte
de două tipuri și în spaț iu ele pot fi separate de un hi perplan. Procesul de învățare a unui neuron este
un proces de alegere a greutăților pentru f iecare caracteristică. Pentru aceasta, se folosesc metode de
formare , cum ar fi metoda descendentă a gradientului stochastic, metoda vectorului de suport. Cu
toate acestea, s -au constatat situații când a fost imposibil să se implementeze algoritmul folosin d o
clasificare liniară (neuron), din această cauză s -a trecut la utiliza rea mai multor neuroni, care deja
formează rețeaua neuronală . O rețea neurală constă din mai multe straturi de n euroni astfel încât
informațiile din ea s ă fie transferate de la intrare la ieșire , iar fiecare neuron primește informații
numai de la stra tul anterior și transmite următorul ui. Toate rețelele neuronale pot fi împărțite
condiționat în două grupuri : propagarea directă și inversă . În rețelele de pr opagare directă,
semnalul se transmite de la intrarea în rețea spre ieșirea ei . În rețel ele neuronale de propagare
inversă , datele de ieșire ale oricărui neuron pot fi transmise la ieșirile sale, ceea ce permite
simularea unor procese mai complexe [1]. Arh itectura rețelei neuronale cu mai multe straturi este
prezentată în Figura 4.3.

38

Figura 4.3 Arhitectura unei rețele neuronale cu două straturi.
Primul strat este alimentat cu date prelucrate care trec prin toate straturile rețelei neuronale,
respectiv la ieșire sunt obținute rezultatele prelucrării. Numărul de neuroni ai straturilor de intrare și
de ieșire trebuie să coincidă cu dimensiunea datelor de ieșire. Toate straturile, cu excepția intrărilor
și ieșirilor, nu sunt afișate și prin urmare se numesc ascunse. Neuronii din stratul de intrare nu
convertesc semnalele, deoarece distribuie semnalul de intrare între neuronii primului strat și stratul
ascuns. Semnalul, atunci când trece prin rețeaua neuronală, suferă modificări care depind de
valoarea inițial ă a semnalului, de coeficienții de ponderare ai neuronilor și de funcția de activare.
Formarea unei astfel de rețele neuronale se realizează folosind un algoritm pentru
propagarea inversă a erorii, care este un fel de gradient descendent în spațiul de greu tăți cu scopul
de a minimiza eroarea totală a rețelei :
𝛥𝑊 =−𝛼𝑑𝐸
𝑑𝑊
𝐸=1
2∑(𝑦𝑗−𝑡𝑗)2
𝑗 ,
unde 𝐸 este energia de eroare a rețelei, reprezentând funcția greutății rețelei și a semnalului de
intrare; 𝑡𝑗 este valoarea de referință a ieșirilor de rețea.
Erorile de rețea rezultate sunt valorile corecției greutăților care se propagă în direcția opusă
dinspre intrări către ieșiri, prin legăturile/”greutățile” care leagă neuronii [1]. Algoritmul invers de
propagare a erorilor este complex și se învață un timp îndelungat. Pe lângă rețelele neuronale, se
folosesc și rețele probabilistice, rețele Kohonen, rețele neuronale convoluționale, arbori neuronali .
Alegerea arhitecturii depinde de specificitatea obiectului care este recunoscut.

39
4.3 Metoda arborelui (decision forest)
Metoda arborelui este o structură ierarhică secvențială care permite de obținut o decizie
finală privind cl asificarea unui obiect cu ajutorul logici binare . Respectiv, î ntrebarea care se pune la
următorul nivel ierarhic depinde de răspunsul primit la nivelul anterior.

Figura 4.4 Exemplu l metodei arborelui.
Un arbore este alcătuit din noduri de luare a deciziilor, care sunt unite între ele prin ramuri și
noduri ramur ale, după cum vedem în Figura 4.4 . Este exclus de altfel ca ramurile arborelui sa
creeze un ciclu. În arbore există un nod special, care se numește nod rădăcină. Acest nod este baza
arborelui, deoarece de la el se poate ajunge la orice nod.
Fiecare nivel din arbore este considerat ca fiind una dintre soluții, adică fiecare nod al
arborelui este pus în conformitate cu o întrebare care conține mai multe opțiuni de răspuns
corespunzătoare ramurilor de ieșire. Nodurile de decizie conțin criterii de selecție, iar ramurile
verifică dacă condițiile sunt adevă rate sau false. În funcție de opțiunea de răspuns selectată, este
realizată trecerea la nodul următor până când se ajunge la nodul ramural, căruia îi este atribuită o
etichetă care indică caracteristicile obiectului recunoscut la una dintre clase.
Până în prezent, există numeroși algoritmi care implementează construcția arborilor de
decizie, dintre care cei mai frecvenți sunt :
 CART (Classification and Regression Tree – arbore de clasificare și regresie) este un
algoritm care reprezintă construcția unui arbore binar de decizie. Fiecare nod al copacului
are doi descendenți care rezolvă problem a de clasificare și regresie [23 ];
 C4.5 – un algoritm care rezolvă doar problema clasificării. Se bazează pe construirea unui
arbore de decizie cu un număr nel imitat de descendenți la nod [23 ];

40
 QUEST (Quick, Unbiased, Efficient Statistical Tree – arbore statistic, rapid, echidistant și
eficient) este un algoritm care utilizează metode îmbunătățite care rezolvă problemele
metodelor de mai sus: echidistant în aleger ea va riabilelor pentru ramificare [23 ].
5. Descrierea aplica ției
Algoritmul lui Viola -Jones, în comparație cu alte metode și algor itmi de selecție, este
algoritm de ”formare/învățare” . Respectiv este necesar să avem o bază d e imagini pozitive și
negative. I magini le pozitive sunt considerate imaginile în care sunt prezente persoane de diferite
vârste, naționalit ăți, cu ochelari și barbă, iar imagini le negative – este doar fundal ul. Algoritmul se
descurcă perfect cu imaginile zgomotoase, precum și cu imaginile ce au rezoluție redusă.
Întoarcerea capu lui persoanei nu afectează eficacitatea selecției feței. Pentru a îmbunătăți
stabilitatea algoritmului de recunoaștere în prezența fundalului complex, a zgomotului și a rezoluției
scăzute, a fost elaborată o metodă de extracție combinată. Algoritmul constă în mai multe etape de
prelucrare preliminară a imagini i originale și a extragerii feței utilizând metoda Viola -Jones. Scopul
acestui algoritm este de a restrânge câmpul de căutare din imagine pentru recunoașterea ulterioară a
feței.
Astfel, algoritmul general de recunoaș tere va arăta astfel (Figura 5.1 ) :

Figura 5.1 Schema generală a algori tmului de recunoaștere a feței di n cadru
Pentru a crește probabilitatea de detectare corectă a feței din imagine, se aplică procesarea
preliminară, care constă în trei etape :
1. Traducerea imaginii în tonuri de gri ;
2. Filtrarea zgomotului ;
3. Echilibrarea histogramei.
Cadrul capturat al fluxului video, care vine de la aparatul de fotografiat, este reprezentat în
modelul de culoare RGB. Culoarea nu este foarte informativă pentru problema recunoașterii, astfel
încât a doua etapă a preprocesării este reprezentarea acestei imagini în spațiul de culoare YUV,
unde componenta de luminozitate este separată de diferența de culoare, deoarece aceasta
accelerează funcționarea detectorului . Pentru a converti o imagine RGB într -un sistem de culori
YUV, trebuie de utilizat următoarele formule :
𝑌=0.299 𝑅+0.587 𝐺+0.114 𝐵
𝑈=−0.14713 𝑅−0.28886 𝐺+0.436 𝐵
𝑉=0.615 𝑅−0.51499 𝐺−0.10001 𝐵

41
unde R este intensitatea culorii roșii ; G – intensitatea culorii verzi; B – intensitatea culorii albastre; Y
este componenta de luminanță; U, V – componente de culoare diferită.
Pentru o imagine în semiton , este importantă numai valoarea componentei luminante,
deoarece conține o imagine în nuanțe de gri, iar componentele de culoare diferită conțin informații
pentru restaurarea culorii necesare.
Prin converti rea imaginii sursă în spațiul de culoare YUV, zgomotul este atenuat prin
filtrare. În acest caz, scopul principal al acestei etape este eliminarea eficientă a zgomotului,
păstrând în același timp detalii importante pentru alocarea ulterioară și apoi recuno așterea facială .
Luând în considerare un model de zgomot Gaussian, așa cum se întâlnește adesea în camerele de
securita te, Gaussianul se manifestă sub condiții de recepție a semnalelor adverse, cum ar fi
zgomotul în circuitele electrice, zgomotul în senzor i din cauza lipsei iluminării sau a temper aturii
ridicate a senzorului [24 ]. Suprimarea efectivă a zgomotului poate fi realizată dacă efectul pixelilor
asupra rezultatelor se reduce odată cu creșterea distanței.
Spațiul de culori YUV este un pic neobișnuit . Componenta Y determină luminozitatea
culorii (denumită și luminanță ), în timp ce componentele U și V d etermină culoarea însăși . Y
variază de la 0 la 1 (sau 0 la 255 în formate digitale), în timp ce U și V variază de la – 0,5 până la
0,5 (sau -128 până la 127 în formă digitală semnată sau între 0 și 255 în formă nesemnată). Unele
standarde limitează în continuare intervalele, astfel încât valorile depășite să indice informații
speciale cum ar fi sincronizarea. Un aspect al YUV este că se poate de renunțat la componentele U
și V și astfel de obținut o imagine de tip gri. Deoarece ochiul uman este mai receptiv la luminozitate
decât este la culoare, multe formate de compresie a imaginilor se debarasează de jumătate sau mai
multe canale chroma tice pentru a reduce din cantitatea de date cu care urmează de lucrat , fără a
afecta grav calitatea imaginii. [25]
Probabilitatea detecție i false pentru un eșantion de 50 de fotogra fii pentru un filtru Gaussian
este de aprox. 4%. În ciuda faptului că exist ă o eroare destul de joasă, acest filtru nu este utilizat de
unul singur . Imaginile prelucrate cu ajutorul filtrul ui Gaussian sunt foar te neclare, ceea ce are o
influență negativă asupra etapei de recunoaștere.
Filtrul median este distribuit pe scară largă în procesarea ima ginilor, dar are un dezavantaj –
filtrul estompează detaliile fine din imagine. Acest lucru s e datorează faptului că mărimea detaliilor
este mai mică decât jumătate din dimensiunea ferestrei mediane a filtrului. Pentru a rezolva această
problemă, trebu ie de mărit dimensiunea ferestrei mediane .
O metodă bună de filtrare adaptivă este filtru l bilateral. Filtrul dat efectuează uniformizarea
imaginii, suprimând zgomotul și obiectele de dimensiuni mici ce au contrast redus , menținând în
același timp claritatea limitelor obiectelor mari. Acest rezultat se obține prin calcularea intensității
fiecărui pixel ca medie ponderată a int ensităților pixelilor învecinați . Greutatea asociată cu pixelii
adiacenți variază în funcție de valorile de distanță în planul imaginii și pe axa intensi tății. Această
caracteristică permite de păstrat limitele clare a le obiectelor din imagine. Filtrul este numit bilateral,
deoarece proximitatea pixelului este evaluată din ambele părți: după distanță și intensitate . Filtrul
bilateral, spre deosebire de alte met ode de reducere a zgomotului, păstrează limitele feței persoanei
însă detalii le mici devin neclare .

42
Deoarece filtrele median și gaussian modifică imaginile astfel încât acestea devin un eori
foarte neclare , ceea ce poate fi rău pentru etapa de recunoaștere, combinăm filt rul bilateral și filtrul
median. Metoda combinată suprimă zgomotul de intrare din imagini și la prima iterație selectează
cu suc ces fețele din imagini, reducând timpul de funcționare al algoritmului. Pentru un lucru mai
eficient a metodei Viola -Jones, se propune o etapă de prelucrare a imaginii înainte de extracția feței,
care constă în utilizarea unei metode combinate de reducere a zgomotului constând dintr -un filtru
median și bilateral .
5.1 Aplicația pas cu pas
TestDatabasePath = uigetdir('D: \image', 'Alege folder -ul'); – Aici
putem personaliza și indica căile folder -ului de unde vor fi preluate imaginile din biblioteca
personală care vor fi prelucrate în Matlab și vom analiza cât de bine detectează fața umană din ele.
uigetdir – Deschide fereastra de dialog pentru selectarea folderului indicat.
prompt = {'Alege poza :'}; – afișează un mesaj și așteaptă ca utilizatorul să introducă
textul și apoi returnează valoarea introdusă sau nulă dacă intrarea este anulată (CANCEL / Esc).
Specifică o secvență de sus în jos a câmpurilor de editare din caseta de dialog. Afișează textul scris
între ‘ ‘ și așteaptă introducerea titlului pozei care urmează a fi prelucrată ;
dlg_title = 'Imaginea originală '; – specific ăm titlul pentru figura ce urmează să fie
arătată de către Matlab ;
num_lines= 1; – fereastra ce apare și unde se scrie “numele” pozei care urmează a fi prelucrată,
are 1 r ând ”lățime” ;
def = {'1'}; – definim numele pozei de intrare ;
Image=inputdlg(pro mpt,dlg_title,num_lines,def); – creeaz ă o variabilă cu
datele deja specificate mai sus și oferă utilizatorului posibilitatea de a introduce imaginea de intrare
dorită ;
Image=strcat(TestDataba sePath,' \',char(Image),'.jpg'); – leagă orizontal
corespondența rândurilor de caractere ale caracterelor menționate între paranteze . Toate matricele
de intrare trebuie să aibă același număr de râ nduri (sau oricare poate fi un singur șir). Când intrările
sunt matric e de caractere, ieșirea este, de a semenea, o matrice de caractere – în acest caz ”calea”
folder -ului, titlul variabilei (imaginea de intrare) și formatul variabilei ;
Picture = imread( Image); – este citită imaginea de intrare ;
[m, n, r] = size(Picture); – stabilim variabilele ce vor defini mărimea rândurilor și
coloanelor imaginii, cu alte cuvinte mărimea imaginii ;
Picture_2 = imresize (Picture, [480 640]); – aici este stabilită noua mărime a
imginii, care va fi micșorată în comparație cu mărimile ei inițiale , respective va fi de 480×640 ;

43
if(size(Picture_2,3)>1) – valoarea ”3” ar fi pentru ”r” specificat mai sus, care este de
fapt intensitatea culorii, respectiv în cazul în care ea de pășește valoarea de 1 (iar în cazul unei poze
color sigur depășește), imaginea urmează să fie prelucrată și transformată în imagine bi -tonală.
for i=1:size(Picture_ 2,1)
for j=1:size(Picture_2,2) – imaginea urmează a fi transformată în imagine bi -tonală, în
nuanțe gri, r ând cu rând, și coloană după coloană ;
GrayImg(i,j)=0.2989*Picture_2(i,j,1)+0.5870*Picture_2( i,j,2)+0.114
0*Picture_2(i,j,3); – are loc transformarea imaginii în imagine bi -tonală; este modificat
spațiul de culori din RGB în YUV ; Pentru a realiza conversia din RGB în YUV este necesar de
înmulțit constantele R,G,B cu următorii coeficienți :
R = 0. 299; G = 0.587; B = 0.114; [26 ]
figure(1) – apare o fereastră unde urmează să apară variantele prelucrate ale imaginii de intrare;
subplot (1,2,1) – fereastra în care vor apărea imaginile prelucrate va consta din două părți ;
imshow(Picture) – în prima parte va fi imaginea de intrare, originală ;
title ('Imaginea de intrare') – titlul imaginii de intrare, amplasat deasupra imaginii ;
subplot (1,2,2) – a doua parte a ferestrei, alături de imaginea de intrare ;
imshow (GrayImg) – în a doua parte a ferestrei, lângă imaginea de intrare va fi prezentat ă
aceeași imagine, dar în tonuri gri, bi -tonală ;
title('Imaginea bitonală') – titlul imaginii în tonuri gri, amplasat deasupra imaginii
respective ;
Noise = imnoise( GrayImg, 'gaussian',0,0.0008 ); – o nouă variabilă ”Noise”,
care reprezintă zgomotul; adaugă zgomot Gaussian asupra imaginii bi -tonale cu media 0 și variația
0.0008 ;
Med = medfilt2(Noise,[3 3]);% Filtrul median – o nouă variabilă ”Med”; asupra
imaginii bi -tonale este aplicat filtrul median ; fiecare pixel de ieșire conține valo area mediană în
zona 3×3, în jurul pixelului corespunzător din im aginea de intrare ;
img1 = double(Med)/255; – double i -a valori între 0 și 1, 8 biți per pixel, împărțiți pe
întreaga gamă a imaginii RGB (255) ;
img1 = img1+0.03*randn(size(img1)); – returnează o serie de intrări aleatoare care are
aceeași dimensiune ca img1; este reînnoită valoarea variabilei img1 ;
img1(img1<0) = 0; img1(img1>1) = 1; – sunt impuse condițiile date pentru a putea
trece imaginea prin filtru.
w = 5; % semi-lățime

44
sigma = [2 0.1]; % deviație standard
bfltfilter = bfilter2(img1,w,sigma); – este realizată conversia bi -dimensională a
imaginii img1 după valoarea w; este filtrat ă imaginea img1 cu o deviație standard specificată de
sigma.
Gamma = histeq(bfltfilter,20); – varia bila Gamma transformă imaginea filtrată ,
întorcând în ‘bfltfilter’ o intensitate a imaginii cu 20 nivele de gri. Un număr aproximativ
egal de pixeli este mapat la fiecare dintre 20 de nivele în imagine, astfel încât histograma ei este
aproximativ uniformizat ă.
figure(2) – apare o fereastră unde urmează să apară variantele filtrate ale imaginii de intrare ;
subplot (1,3,1) – fereastra în care vor apărea imaginile prelucrate va consta din trei părți ;
imshow (Noise) – în prima parte va fi imaginea cu zgomot ;
title ('Imaginea cu zgomot ') – titlul imaginii cu zgomot, amplasat deasupra imaginii
respective ;
subplot (1,3,2) – a doua parte a ferestrei, alături de imaginea de intrare ;
imshow(bfltfilter ) – în a doua parte a ferestrei va fi imaginea cu filtrată ;
title ('Imaginea filtrată ') – titlul imaginii filtrate, amplasat deasupra imaginii
respective ;
subplot (1,3,3) – a treia parte a ferestrei, alături de imaginea de intrare ;
imshow (Gamma) – în a treia parte va fi imaginea cu corecție Gamma ;
title ('Corecție Gamma ') – titlul imaginii corectată Gamma, amplasat deasupra imaginii
respective ;
image = uint8(round(Gamma*255)); – pentru a co nverti o imagine corectat ă Gamma de
la ‘double’ la uint8 , amplificat cu 255 ;
FaceDetect = vision.CascadeObjectDetector('FrontalFaceCART'); – Mode l
antrenat de clasificare în cascadă, specificat ca ve ctor de caractere. ClassificationModel controlează
tipul de obiect de detectat. Implicit, detectorul est e configurat să detecteze fețe .
BB = step(FaceDetect,image); – step calculează răspunsul pas cu pas al unui sistem
dinamic. În cazul dat, detectează fața în imagine ;
IFaces = insertObjectAnnotation(image, 'rectangle', BB, 'Face'); –
IFaces returne ază o formă de dreptunghi și etichetă în locația specificată de poziție.
Face = imcrop (image,BB); – decupează imaginea image în funcție de BB, care specifică
dimensiunea și poziția dreptunghiului de decupare în termeni de coordonate spațiale. Imaginea
tăiată include toți pixelii din imaginea de intrare care sunt complet sau parțial închiși de dreptunghi.

45
TestImage = imresize (Face, [200 180]); – variabila TestImage reprezintă fața
cu mărimi de 200×180 ;
figure(3) – apare o fereastră unde urmează să apară imaginile în care este arătată zona unde s -a
detectat fața și o imagine unde este arătată doar fața ;
subplot (1,2,1) – fereastra în care vor apărea imaginile unde a fost detectată fața va consta
din două părți ;
imshow(IFaces) – în prima parte va fi imaginea de intrare, dar cu locația specificată a feței ;
title('Fața selectată ') – titlul imaginii în care a fost depistată fața, amplasat deasupra
imaginii respective ;
subplot (1,2,2) – în a doua parte va fi imaginea doar cu fața ;
imshow(TestImage) – este reprezentată imaginea feței ;
title('Fața decupată ') – titlul imaginii feței, amplasat deasupra imaginii respective ;

46
5.2 Rezultatele aplica ției

Figura 5.2 Imagine de intrare, prezența obiectului perturbator (șapca)

Figura 5.3 Uniformizarea și filtrarea imaginii de intrare

47

Figura 5.4 Detecția și decuparea feței din imaginea de intrare
Observăm că aplicația a detectat corect fața persoanei din imagine. Prezența obiectului
perturbator (șapca) nu a afectat în mod deosebit selecția feței. Prezența bărbiei de culoare neagră a
dus la faptul că fereastra de selecție a decupat fața până la bărbie, excluzând astfel din fereastra de
decupare prezența părului faci al.

Figura 5.5 Imagine de intrare (mâna ridicată la nivelul capului)

48

Figura 5.6 Detecția și decuparea feței din imaginea de intrare
Observăm că mâna ridicată la nivelul frunții nu a afectat nici într -un fel detectarea și selecția
feței. Avem aceeași si tuație ca și în cazul precedent (Figura 5.2 ).

Figura 5.7 Imagine de intrare (mâna ridicată la nivelul gurii)

49

Figura 5.8 Uniformizarea și filtrarea imaginii de intrare

Figura 5.9 Detecția și decuparea feței din imaginea de intrare
Mâna dusă la față nu a afectat în mod esențial detecția facială. Limita de jos a ferestrei de
selecție cel mai probabil este la nivelul dat, fiindcă a perceput drept contur diferența dintre
”culoarea” degetelor mare și arătător și culoarea feței.

50

Figura 5.10 Imagine de in trare, predomină culorile întunecate

Figura 5.11 Uniformizarea și filtrarea imaginii de intrare

51

Figura 5.12 Detecția și decuparea feței din imaginea de intrare
În imaginea de intrare predomină culorile întunecate, iar luminozitatea e ste slabă. Însă
aceste condiții nu au afectat foarte mult detecția corectă a feței. În imaginea de intrare putem
observa că partea din stânga a feței este mai întunecată, deoarece persoana este luminată artificial
din partea dreaptă de sus, respectiv dimensiu nile ferestrei de selecție variază puțin, și nu acoperă în
întregime toată fața.

Figura 5.13 Imagine de intrare, 3 maturi și un copil

52

Figura 5.14 Uniformizarea și filtrarea imaginii de intrare

Figura 5.15 Detecția și decuparea fețelor din imaginea de intrare
În imaginea de intrare sunt prezente 3 persoane mature și un copil. Aplicația nu a detectat
fața copilului. În general, detecția facială a unui copil este mai complicată decât în cazul
persoanelor mature. Acest lucru se datorează trăsăturilor ma i mici, neaccentuate ale feței, în afară
de aceasta, detecția și recunoașterea facială la copii este mai dificilă din cauza asemănării
trăsăturilor feței cu trăsăturile faciale ale altor copii.

53

Figura 5.16 Imagine de intrare, lipsa detecției faciale
În cazul imaginii de mai sus, fața nu a fost detectată. Acest lucru se datorează prezenței
obiectelor perturbatoare cum ar fi : ochelarii de soare, paharul de cafea, mâna ridicată la nivelul
feței, fața întoarsă sub un unghi față de obiectivul camerei.

Figura 5.17 Imagine de intrare, lipsa detecției faciale
La fel ca și în cazul de mai sus, fața în imaginea dată nu a fost detectată. Acest lucru se
datorează prezenței obiectului perturbator (cana).

54

Figura 5.18 Imagine de intrare cu mai multe persoane

Figura 5.19 Uniformizarea și filtrarea imaginii de intrare

55

Figura 5.20 Detecția și decuparea fețelor din imaginea de intrare
Observăm că nu toate fețele persoanelor din imagine au fost detectate. Acest lucru are la
bază următoarele cauze : fața este întoarsă sub un unghi prea mare pentru a mai fi posibilă detecția
feței, capul este înclinat la un unghi mai mare de 15°, fața nu este vizibilă în întregime.

Figura 5.21 Imagine de intrare, 3 copii

56

Figura 5.2 2 Uniformizarea și filtrarea imaginii de intrare

Figura 5.2 3 Detecția și decuparea fețelor copiilor din imaginea de intrare
Observăm că fețele care sunt lizibile au fost detectate, însă fața copilului din dreapta nu a
fost detectată, trăsăturile faciale ale acestuia nu sunt văzute în întregime.

57

Figura 5.24 Imagine de intrare , 2 persoane (ochelari)

Figura 5.25 Uniformizarea și filtrarea imaginii de intrare

58

Figura 5.26 Detecția și decuparea fețelor din imaginea de intrare
În imaginea de intrare sunt prezente două persoane. Ambele fețe au asupra lor obiecte
perturbatoare (ochelari), însă fereastra de selecție a feței este mai mare în cazul persoanei din
dreapta. Acest lucru se datorează faptului că trăsăturile faciale sunt m ai evidente, poziția capului
este aproape complet verticală, acest lucru simplificând și mai mult detecția.

59
Concluzii
În ace astă lucrare au fost examinate sistemele moderne de detectare a feței și au fost
identificate deficiențe care reduc probabilitatea de detectare corectă. Am încercat să identific un
algoritm care să rezolve problema detecției faciale indiferent de rezoluț ia scăzută a imaginii, de un
fundal complex și de zgomotul present în imagine . În acest scop, a u fost luați în considerare
algoritmii pentru selectarea unei fețe într -o imagine utilizând diferite abordări, cum ar fi analiza
conturului, filtrarea potrivită și pre -formarea. De asemenea, se face o prezentare generală a
algoritmilor de recunoaștere exis tenți. Pentru a dezv olta un astfel de algoritm, trebuie de analizat
comparativ toate metodele de mai sus pentru selecție și detectare , precum este și necesar de a
efectua o analiză comparativă a tuturor algoritmilor de ex tracție și de recunoaștere pe eșant ionul de
imagini .
Am încercat să fac o prezentare succintă a celor mai principale abordări în domeniul
detecției faciale și să le descriu pe fiecare în parte, dar mai mult m -am axat pe metoda Viola -Jones.
Detecția facială din imagini digitale sau fluxuri v ideo face parte din viața noastră de zi cu zi, ne
confruntăm cu acest ”proces” tot mai des : atunci când încărcăm poze pe rețelele de socializare,
atunci când facem o poză sau filmăm un video cu telefonul nostru mobil, etc. Aplicațiile de detecție
și recun oaștere facial sunt incluse în sistemele de securitate, controlul accesului, verificarea
identității, gaming, interacțiune evoluată om -calculator, ș.a.m.d.
Problema detecției feței în cazul oamenilor în imagini nu este una tocmai trivială, mai ales
că este o varietate foarte mare de moduri în care ele pot fi percepute de un sensor 2D, luând în
considerație trăsăturile faciale, particularitățile fizionomice, culoarea pielii, dimensiunea
trăsăturilor/elementelor faciale, poziției, fundalul complex, luminozita tea variabilă din cauza
amplasării diferite a surselor de lumină, zonele de umbră, etc. Algoritmii și sistemele nou -create
încearcă să facă față respectivelor probleme, și desigur acest lucru să se producă în timp real, or
sistemele de detecție facială sunt evaluate și în dependență de viteză de reacție, rata fals -pozitivă
(raportări eronate ale fețelor când de fapt fețele nu sunt prezente în imagine), rata fals -negativă
(atunci când aplicația nu detectează fața în imagine), care ar trebui să fie cât mai reduse, în ideal –
nule.
Metodele utilizate, indifent de ce tip sunt, se bazează fie pe o antrenare minuțioasă a unor
clasificatoare, fie pe niște cunoștințe umane codate în listing -ul soft -urilor, fie pe o combinație între
aceste 2 abordări.
Metoda Viola -Jones, începând cu anul 2001 a reprezentat o evoluție excepțională în
sistemele de detectare facială, considerată ingenioasă, apreciată pentru performanță și viteza de
lucru. În comparație cu alte metode, Viola -Jones nu abordează piramidal prin scalare a imaginii de
intrare cu diverși factori, și nici la o analiză clasică a valorilor de intensitate a pixelilor imaginii.
Metoda analizează caracteristicile locale din imagine (caracteristicile Haa r), care reprezintă niște
dreptunghiuri adiacente deschise și închise la culoare, având formă și dimensiuni identice între ele.
Altă inovație a fost imaginea integrală care a ajutat la optimizarea lucrului procesoarelor. Viola –
Jones utilizează un clasifica tor AdaBoost; metoda selectează cele mai discriminante caracteristici,
combinate în mai multe nivele, cascade de filtru, clasificatoare AdaBoost mai puțin performante.
Primele nivele include puține caracteristici, respectiv are nevoie de mai puțin timp de calcul, și

60
elimină rapid sub -ferestrele ce nu conțin fața. Nivelele următoare fiind mai complexe și având mai
multe caracteristici analizează mai profund sub -ferestrele rămase, pentru a hotărî dacă este prezentă
fața sau nu. Antrenamentul algoritmului Viol a-Jones a durat săptămâni și a folosit 5000 exemple de
față și 10000 exemple non -față. Învățarea propriu -zisă durează , detecția facială însă este destul de
rapidă. Metoda Viola -Jones are rezultate destul de bune, fiind suficient de rapid și nu solicită pre a
mult puterea de calcul care este limitată, a camerelor digitale de clasă medie, astfel încât acestea să
poată face față.

61
Aplicați a
TestDatabasePath = uigetdir('D: \image', 'Alege folder -ul');
prompt = {'Alege poza :'};
dlg_title = 'Imaginea originală ';
num_lines= 1;
def = {'1'};
Image = inputdlg(prompt,dlg_title,num_lines,def);
Image = strcat(TestDatabasePath,' \',char(Image),'.jpg');
Picture = imread(Image);
[m, n, r] = size(Picture); % m – înălțimea n – lățimea
Picture_2 = imres ize (Picture, [480 640]);
if(size(Picture_2,3)>1)
for i=1:size(Picture_2,1)
for j=1:size(Picture_2,2)
GrayImg(i,j)=0.2989*Picture_2(i,j,1)+0.5870*Picture_2(i,j,2)+0.114
0*Picture_2(i,j,3);
end
end
end
figure(1)
subplot (1,2,1)
imshow(Picture)
title ('Imaginea de intrare ')
subplot (1,2,2)
imshow (GrayImg)
title('Imaginea bitonală ')
Noise = imnoise(GrayImg, 'gaussian',0,0.0008 );
Med = medfilt2(Noise,[3 3]);% Filtrul median
img1 = double(Med)/255;
img1 = img1+0.03*randn(size(img1));
img1(img1<0) = 0; img1(img1>1) = 1;

62
w = 5; % semi-lățime
sigma = [2 0.1]; % deviație standard
bfltfilter = bfilter2(img1,w,sigma);
Gamma = histeq(bfltfilter,20);
figure(2)
subplot (1,3,1)
imshow (Noise)
title ('Imaginea cu zgomot ')
subplot (1,3,2)
imshow(bfltfilter )
title ('Imaginea filtrată ')
subplot (1,3,3)
imshow (Gamma)
title ('Corecție Gamma ')
image = uint8(round(Gamma*255));
FaceDetect = vision.CascadeObjectDetector('FrontalFaceCART');
BB = step(FaceDetect,image);
IFaces = insertObjectAnnotation(image, 'rectangle', BB, 'Face');
Face = imcrop (image,BB);
TestImage = imresize (Face, [200 180]);
figure(3)
subplot (1,2,1)
imshow(IFaces)
title('Fața selectată ')
subplot (1,2,2)
imshow(TestImage)
title('Fața decupată ')

63
Bibliografie
[1] Тропченко А. Ю., Тропченко А. А. Ме тоды вторичной обработки и рас познавания
изображений. СПб.: Университет ИТМО, 2015. p. 215
[2] FaceVACS -DBScan // URL : http://www .security .mti.ua
[3] FaceVACS Features // URL: http://www.cognitec.com/facevacs -videoscan.html
[4] VeriLook SDK // URL: http://www.neurotechnology.com/verilook.html
[5] Face Reco gnition // URL: http://www.nec.com
[6] NEC’s Neo Face Strenghts // URL:
https:// www.nec.com/en/global/solutions/safety/face_recognition/index.html
[7] VisionLabs // URL: http://www.visionlabs.ru/face -recognition
[8] Face Detection / Tracking // URL: http://www.faceplusplus.com/tech_track/
[9] Qaim M., Bal G., Rizwan B. A Review on Face Detection Methods Available // URL:
https://ww w.researchgate.net/publication/257338580
[10] Yang G., Huang T. S. Human face d etection in complex background.
[11] Kotropoulos C., Pitas I. Ruled based face de tection in frontal views, 1997. p. 2537 – 2540.
[12] Гонсалес Р., Вудс Р. Цифровая обраб отка изображений , 2005. p. 1072
[13] Красильников Н. Н. Цифровая обработка 2 D- и 3- изображений. СПб: БХВ -Петербург,
2011. p. 608
[14] Кухарев, Г. А. Биометрические системы. СПб: Политехника, 2001. p. 240
[15] Viola P., Jones M.J. Robust real -time face detection. // Intern. J. of Comput – er Vision.
2004. Vol. 57, iss. 2. p. 137 – 154
[16] Татаренков Д. А. Анализ методов обнаружения лиц на изображении // Молодой
ученый. 2015. № 4. p. 270 – 276.
[17] Viola P., Jones M. J. Rapid Object Detection using a Boosted Cascade of Simple Features. ,
2001. p. 511 – 518.
[18] Обнаружение лиц на цветном растровом изображении с применением
модифицированного метода Виолы -Джонса / М. Н. Вязовых, К. И. Зай – цев, М.В.
Мухортов, А. Н. Перов // URL : http://sntbul .bmstu .ru/doc/45828
[19] Freund Y., Schapire R. E. A Short Introduction to Boosting // J. of Japanese Society for
Artificial Intelligence. 1999. Vol. 14, iss. 5. p. 771 – 780.

64
[20] Sochman J., Matas J. AdaBoost. // URL: https://scholar.google.ru/citations
[21] Face Detection of African Origin People and Newborn Infants // URL:
http://www.ijcttjournal.org/2017/Volume51/number -2/IJCTT -V51P112.pdf
[22] Лукьяница А. А., Шишкин А. Г. Ци фровая обработка видеоизображений , 2009. p. 518
[23] Полосухин И . С. Классификация и регрессия с помощью деревьев принятий решений
// URL : https ://habrahabr .ru/post/116385/
[24] Приоров А. Л., Апальков И. В., Хрящев B. В. Цифровая обработка изображений ,
2007. p. 235
[25] YUV Colorspace //URL: http://softpixel .com/~cwright /programming /colorspace /yuv/
[26] Conversion to/from RGB // URL:
https://en.wikipedia.org/wiki/YUV#Conversion_to/from_RGB

Similar Posts