Tehnologii și Sisteme Informaționale [613207]

Universitatea Politehnica, Timișoara
Facultatea de Elect ronică,Telecomunicații,
Tehnologii și Sisteme Informaționale

Lucrare de dizertație
Descriptori invarianți la deformări
pentru clasificarea imaginilor

Coordonator: Absolventă:
Prof. dr. ing. Alexandru Isar Petcu Emanuela – Maria

Timișoara
2020

2

3

4
Cuprins

Lista acronimelor folosite ………………………….. ………………………….. ………………………….. ……………………….. 6
Lista figurilor ………………………….. ………………………….. ………………………….. ………………………….. ……………. 7
Capitolul I Motivul și scopul lucrării ………………………….. ………………………….. ………………………….. ………… 9
Capitolul II Algoritmi de clasificare a imaginilor ………………………….. ………………………….. ………………….. 10
Capitolul III Descriptori de imagine ………………………….. ………………………….. ………………………….. ……….. 13
3.1 Descriptori de culoare ………………………….. ………………………….. ………………………….. …………………. 13
3.1.1 Histograme ………………………….. ………………………….. ………………………….. …………………….. 13
3.1.2 Momente de culoare ………………………….. ………………………….. ………………………….. ………… 14
3.2 Desc riptori SIFT color ………………………….. ………………………….. ………………………….. …………………. 14
3.2.1 HSV -SIFT ………………………….. ………………………….. ………………………….. ………………………….. … 15
3.2.2 HueSIFT ………………………….. ………………………….. ………………………….. ………………………….. ….. 15
3.3 Descriptori de textură ………………………….. ………………………….. ………………………….. ………………….. 15
3.3.1 GLCM ………………………….. ………………………….. ………………………….. ………………………….. …….. 15
3.3.2 Descriptori de textură Haralick ………………………….. ………………………….. ………………………….. . 16
3.4. Descriptori vizuali MPEG -7 ………………………….. ………………………….. ………………………….. ………… 16
3.4.1. Descriptori vizuali de culoare ………………………….. ………………………….. ………………………….. … 16
3.4.2 Descriptori vizuali de textură ………………………….. ………………………….. ………………………….. …. 17
3.5 Descriptori în domeniul frecvență ………………………….. ………………………….. ………………………….. … 18
Capitolul IV Descriptori de imagine invarianți la deformări ………………………….. ………………………….. …… 19
Capitolul V Rețele de împrăștiere ………………………….. ………………………….. ………………………….. …………… 21
5.1. Invarianța la translații ………………………….. ………………………….. ………………………….. ………………… 21
5.2. Funcții wavelet ………………………….. ………………………….. ………………………….. ………………………….. . 23
5.3 Rețele convoluționale de împrăștiere ………………………….. ………………………….. ………………………….. 27
5.4 Proprietăți de împrăștiere ………………………….. ………………………….. ………………………….. …………….. 31
5.4.1 Propaga rea energiei și stabilitatea deformării ………………………….. ………………………….. ………. 31
5.4.2 Calcule rapide de împrăștiere ………………………….. ………………………….. ………………………….. … 33
5.4.3 Procese staționare de împrăștiere ………………………….. ………………………….. ……………………….. 33
5.4.4 Transformata de împrăștiere cosinus ………………………….. ………………………….. ……………………. 35
5.5. Clasificare ………………………….. ………………………….. ………………………….. ………………………….. …….. 37

5
5.5.1 PCA – Selec tarea spațiului afin ………………………….. ………………………….. ………………………….. … 37
5.5.2 Recunoașterea numerelor scrise de mână ………………………….. ………………………….. …………….. 39
5.5.3 Discriminarea texturii ………………………….. ………………………….. ………………………….. ……………. 41
Capitolul VI Rezultate de simulare ………………………….. ………………………….. ………………………….. …………. 44
Concluzii ………………………….. ………………………….. ………………………….. ………………………….. ………………… 54
Bibliografie ………………………….. ………………………….. ………………………….. ………………………….. …………….. 56

6
Lista acronimelor folosite

MNIST : Modified National Institute of Standards and Technology -bază de date pentru scrisul de mână
PCA : Principal Component Analysis – Analiza în componentă principală
RGB : Red Green Blue – Roșu Verde Albastru
SIFT Shift Invariant Features Transform – Transformare cu descriptori invarianți la translație
SVM Support V ector Machine – algoritm de clasificare

7
Lista figurilor

Figura 1: Schema bloc a unui clasificator.
Figura 2: Transformarea wavelet Morlet complexă. (a) Partea reală a lui ψ(u). (b) Partea imaginară
a lui ψ(u). (c) Modulul transformatei Fourier |
()2 1,ˆ |.
Figura 3: Convoluție de mișcare rigidă cu un filtru separabil 𝑦̃(v,θ) = y(v) 𝑦̃(θ) în SE(2) care poate
fi factorizat într -o convoluție bidimensională cu filtre rotite y(𝑟−𝜃v) și o convoluție
unidimensională cu 𝑦̃(θ).
Figura 4: Împărțirea discului care acoperă suport ul frecvențial al imaginii, în sectoare 𝛺[𝑝], care
depind de calea p. (a) Pentru m=1 , fiecare 𝛺[𝜆1] este un sector rotit cu 𝑟1 care aproximează suport ul
frecvențial al lui 𝜓̂𝜆1. (b) Pentru m=2, 𝛺[𝜆1,𝜆2] sunt obținute prin subdivizarea fiecărui 𝛺[𝜆1].
Figura 5: (a) Două imagini x(u). (b) Modulul transformatei Fourier |𝑥̂(𝜔)|. Coeficienții de
împrăștiere de ordin I, 𝑆𝑥[𝜆1,𝜆2].
Figura 6: Texturi diferite cu același spectru de putere
Figura 7: Varia nța sortată a coeficienților de împrăștiere de ordin I și II, calculați în baza de date
CalTEch101 .
Figura 8: (a) Imaginea X(u) a cifrei „3”. (b) Vectori ai coeficienților de împrăștiere de ordin m=1,
cu u eșantionat la intervale 2𝐽=8 pixeli . (c) Coeficienți de împrăștiere de ordin m=2.
Figura 9: (a) Exemplu de te xtură CureT X(u). (b) Coeficienți de împrăștiere de ordinul I, pentru
2𝐽, egal cu lățimea imaginii. (c) Coeficienți de împrăștiere de ordinul II
Figura 10: a) Imaginea de intrare, b) Imaginea coeficienților (5 discuri concentrice), c) Imaginea
coeficienților (7 discuri concentrice)
Figura 11: a) Imaginea de intrare, b) Imaginea coeficienților (5 discuri concentrice), c) Imaginea
coeficienților (7 discuri concentric e)
Figura 12 : a) Imaginea de intrare translatată, b) Imaginea coeficienților (5 discuri concentrice), c)
Imaginea coeficiențilo r (7 discuri concentrice)

8
Figura 13 : a) Imaginea de intrare rescalată(factor 2) de dimensiuni duble, b) Imaginea
coeficienților (5 discuri concentrice), c) Imaginea coeficienților (7 discuri concentrice)
Figura 14 : a) Imaginea de intrare rescalată(factor 1/2) de aceleași dimensiuni, b) Imaginea
coeficienților (5 discuri concentrice), c) Imaginea coeficienților (7 discuri concentr ice)

9
Capitolul I
Motivul și scopul lucrării

Proiect ul de dizertație a fost realizat sub îndrumarea domnului Prof. Dr. Ing. Alexandru
Isar, din cadrul D epartamentului de Comunicații al Facultății de Electronică , Telecomunicații și
Tehnologii Informațional e al Universității Politehnica din Timișoara.
Această lucrare este dedicată studiului algoritmilor de clasificare a imaginii, a
descriptorilor invarianți la deformări, precum și a rețelelor de împrăștiere.
Lucrarea este structurată pe 6 capitole, a căror s inteză este prezentată în continuare.
Primul capitol intitulat Motivul și scopul lucrării , conține o sinteză a celorlalte capitole.
Capitolul II este intitulat Algoritmi de clasificare a imaginilor și con ține enumerarea
acestor algoritmi, precum și prezen tarea unei structuri de clasificator de imagine .
Capitolele III și IV prezintă noțiunile de descriptori de imagine și descriptori de imagine
invarianți la deformări, precum și o clasificare a acestor descr iptori de imagine, astfel ilustrându –
se diferențele dintre ei.
Lucrarea continuă cu al cincilea capitol, în care se prezintă rețelele de împrăștiere, care
reprezintă un tip special de rețe le neuronal e convoluționale profund e și a căr or arhitectură este
inspirată din teoria funcțiilor wavelet.
Capitolul al șaselea reprezintă partea practică a lucrării și constă într -o simulare în
programul Matlab și interpretarea rezultatelor simulării.
Finalul lucrării este reprezentat de concluziile rezultate în urma cercetării noastre cu privire
la Descriptori invarianți la deformări pentru clasificarea imaginilor , precum și de materialele
bibliografice necesare realizării acesteia.

10
Capitolul II
Algoritmi de clasificare a imaginilor

Există mai mulți algoritmi de clasificare a imaginilor cum ar fi: K -Nearest Neighbor
(KNN), arbori de clasificare sau de regresie, analiză discriminantă liniară sau pătra tică,
clasificatorul Bayes naiv, Support Vecto r Machine (SVM), sau cei care folosesc rețele
neuronale.[1]
Structura unui clasificator de imagini este prezentată în figur a 1. Clasificatorul este compus
dintr -un bloc de extragere de p arametri (descriptori) ai imaginii și dintr -un bloc de comparare a
vectorului de descriptori extrași din imaginea curentă (care trebuie clasificată la momentul curent)
cu vectorii de descriptor i de imagini din baza de date.

Figura 1 : Schema bloc a unui clasificator.
Semnalul care este adus la intrarea clasificatorului es te o imagine, care este introdusă în
blocul de extragere de parametri. În acest bloc se realizează extragerea parametrilor a ferenți
imaginii, ca de exemplu: media statistică a imaginii, varianța imaginii, exponentul Hurst (care
caracterizează gradu l de rug ozitate al imaginii) sau orice alt parametru al imaginii. Acești
descriptori reprezintă elementele vectorului de parametri ( descriptori) ai imaginii curente. La
ieșirea blocului de extragere a parametrilor rezultă un vector de parametri, care este adus mai
departe la intrarea blocului de comparare. De asemenea, la cealaltă intrare a blocului de comparare
sunt aduși vectori de p arametri ai imaginilor din baza de date în scopul comparării lor cu vectorul
de parametri ai imaginii de la intrarea în clas ificator . Acești vectori de parametri sunt preluați dintr –
o bază de date care, de obicei, este de dimensiuni foarte mari.

11
Blocul de comparare are rolul de a compara vectorul de parametri corespunzător imaginii
introduse în clasificator cu vectorii de parametri din baza de date pe baza unui anumit criteriu, cum
ar fi distanța Euclidiană, care este dată de expresia:
𝑑𝑖𝑗 = √(𝑥0𝑖−𝑥0𝑗1)2+ (𝑥1𝑖−𝑥1𝑗1)2+⋯+(𝑥𝑛𝑖−𝑥𝑛𝑗1)2 (1)
unde : 𝑥0𝑖, 𝑥1𝑖, …, 𝑥𝑛𝑖 reprezintă parametri corespunzători imaginii de la intrare, iar 𝑥0𝑗1, 𝑥1𝑗1, …, 𝑥𝑛𝑗1
reprezintă valorile dintr -un vector de parametri din baza de date de imagini [1].
În urma comparării vectorului de parametri corespunzător imaginii de la intrarea în
clasificator cu fiecare vector de parametri din baza de date de imagini, se consideră că imaginea
care a fost adusă la intrarea în clasificator este foarte asemănătoare cu imaginea din baza de date
de imagini al cărei vector de parametri are distanța Eucli diană cea mai mică față de vectorul de
parametri corespu nzător imaginii de la intrare, iar dacă distanța Euclidi ană dintre vectorul de
parametri ai imaginii de la intrare și un vector de parametri din baza de date este nulă, atunci se
poate afirma că imagi nea de la intrare este identică cu imaginea din baza de date. Pe baza distanței
Euclidiene dintre cei doi vector i de parametri rezultă că imaginea de la intrare aparține clasei de
imagini care este definită de vectorul de parametri cel mai apropiat.
O pro prietate foarte importantă pe care trebuie să o îndeplin ească parametrii unei imagini
este aceea de a fi invaria nți la anumite transformări la care sunt supuse imaginile, cum ar fi:
scalarea, translația sau rotația, modificarea luminozității sau distorsiun ile geometrice locale.
Descriptorii invarianți își păstr ează aceeași valoare chiar dacă imaginea este supusă uno r
transformări.
Întreg procesul de clasificare (atât extragerea de parametri cât și comparația) poate fi
implementat cu rețele neuronale profun de supravegheate.
Rețelele neuronale profunde pot furni za arhitecturi de învățare a unei can tități mari de
date, obținând rezultate remarcabile pentru o gamă largă de tipuri de semnale sau date. Principiul
pe care se bazează o rețea neuronală profundă es te acela că se alternează operatori liniari ai căror
coeficienți sunt optimizați în permanență prin antrenare, c u operatori neliniari. În scopul obținerii
unor rezultate bune în domeniul clasificării, se impune o serie de constrângeri ale arhitecturii
rețelei în sprijinul operatorilor liniari.

12
În ultimii ani, rețelele neuronale profunde supravegheate au beneficiat de succese în
domeniul clasificării multor tipuri de semnale cum ar fi : imagini, semnale video, semnale audio,
voce, text [2]. De obicei, rețele le neuronale convoluționale furnizează cele mai eficient e arhitecturi
printre rețelele neuronale profunde suprav egheate.
Pentru detecția și descrierea unor parametri locali ai unei imagini în vederea cu calculatorul
(computer vision), poate fi utilizată t ransformarea parametrilor invariantă la scalare (The Sca le-
Invariant Feature Transform -SIFT). Această transforma re reprezintă un algoritm de detecție a
parametrilor. Puncte SIFT cheie ale obiectelor sunt extrase din imagini de referință și înregistrate
într-o bază de date. Un obiect este recunoscut într -o nouă imagine comparând individual fiecare
parametru din noua imagine cu această bază de date și găsind parametri candidați pentru potrivire
pe baza distanței Euclidiene a vectorilor lor de parametri. Din m ulțimea totală de potriviri,
submulțimi de puncte cheie care se potrivesc cu obiectul și localizarea sa, scara ș i orientarea sa în
noua imagine, sunt identificați pentru a extrage potriviri bune. Determinarea unor grupări
consistente este realizată rapid f olosind transformarea Hugh. Fiecare grupare de 3 sau mai mulți
parametri care se potrivește cu obiectul curent și poziția sa din imaginea nouă este apoi verificată
și nepotrivirile găsite conduc la eliminarea grupării. Apoi se calculează probabilitatea ca o anumită
grupare de parametri să indice prezența obiect ului, obținându -se acuratețea potrivirii și numărul
de alarme false. Potrivirile care trec toate aceste teste pot fi identificate drept corecte cu un grad
de încredere ridicat.
Un prim pas necesar p entru clasificare este construirea de descriptori invari anți la aceste
transformări care să fie adaptivi. Se poate afirma că nivelul de invarianță poate fi adaptat în funcție
de sarcina de clasificare pe care o are de îndeplinit rețeaua neuronală.

13
Capito lul III
Descriptori de imagine

În majoritatea cazurilor , un grup de parametri (descriptori) este ales de la început, ignorând
proprietăți importante ale acestora. Se introduc parametrii bazați pe culoare, textură și formă cei
mai utilizați și se prezintă principalele lor proprietăți.
Descriptorul de imagine es te o metrică sau o anumită valoare cuantificabilă , utilizată pentru
a descrie o imagine la nivel înalt. Descriptori de culoare, textură, formă sau colțuri pot fi identificați
într-o imagine. Primul pas este identificarea unor puncte de interes în imagine c are să fie repetabili
(să aibă abilitatea de a detecta aceleași puncte de interes fizice în diferite condiții de vizibilitate) și
este urmat de descrierea punctelor de interes. E necesar ca d escriptorii să fie unici, adică dacă
puncte similare sunt descris e în două sau mai multe imagini atunci trebuie ca aceste puncte s ă aibă
descrieri similare [5].
3.1 Descriptori de culoare
Culoarea este un atribut de bază pentru reprezentarea imaginilor și este un descriptor
invariant la scalare, translații și rotații a le imaginii.
3.1.1 Histograme
O histogramă este distribuția pixelilor dintr -o imagine. Numărul de elemente dintr -o
histogramă este dat de numărul de biți din fiecare pixel al ima ginii.
3.1.1.1 Histograme RGB
Histograma RGB este o combinație de trei histog rame unidimensionale bazate pe canalele
R (roșu ), G (verde) și B (albastru) ale spațiului de culori RGB. Această histogramă nu are
proprietăți de invarianță.
3.1.1. 2 Histogramă RG
În modelul RGB normalizat, componentele de crominanță R și G descriu inform ația de
culoare din imagine. Datorită normalizării , R și G sunt invariante la scalare, adică invariante la
modificări ale intensității luminoase și umbre.

14
3.1.1.3 Dist ribuții de culoare transformate
O histogramă RGB nu este invariantă la schimbările de ilu minare. Invarianța la scalare și
la translație pot fi obț inute referitor la intensitatea luminii prin normalizarea valorilor pixelilor.
Deoarece fiecare canal de culoa re este normalizat independent, acest descriptor este de asemenea
normalizat în raport cu modificările de iluminare și de offset arbitrar.
3.1.1.4 Vector de culoare coerent ( Color Coherent Vector – CCV)
Histogramele de culoare nu depind de informația spațială, distribuții de culoare similare se
pot obține pentru imagini diferite. În cazul ac estui descriptor, fiecare rezervor din histogramă are
două părți, una coerentă și cealaltă incoerentă. Partea coerentă conține valori de pixeli aparținân d
unei regiuni mari.
3.1.2 Momente de culoare
O imagine color este o funcție I definind triplete RGB pentru pozițiile pixelilor (x, y): I :
(x, y) → (R(x, y ),G(x, y),B(x, y)). Considerând tripletele RGB ca și puncte de date provenite dintr –
o distribuție, e posibil să se definească momente Mab cpq. Notația Mabcpq se referă la un moment
de culoare generaliza t de ordinul p + q și de gradul a + b + c. Nici o informație sp ațială nu este
conținută în momentul de ordinul 0 și momentele de gradul 0 nu conțin nici o informație
fotometrică. Momentele de culoare de ordinul 0 sunt invariante la rotații , în timp ce mome ntele de
culoare de ordin superior nu sunt invariante la rotații. Cele mai folosite momente de culoare sunt
următoarele: M000pq, M100pq, M010 pq, M001 p q, M200 pq, M110 pq, M020 pq, M011 pq,
M002 pq și M101 pq. Combinându -le se obțin descriptori care de o bicei au 27 de dimensiuni.
Acești descriptori nu sunt invarianți decât la translații.
3.2 Descriptori SIFT color
Acești descriptori descriu forma locală a unei regiuni prin histograme de orientare a
muchiilor. Gradientul unei imagini poate fi invariant l a translații , deoarece calculul derivatei
elimină offseturile. Chiar dacă intensitatea luminii de modifică (datorită s calării canalului de
culoare) direcția gradientului și modulul acestuia nu se modifică. Deoarece descriptorul SIFT este
normalizat, modifi carea modulului gradientului nu influențează descriptorul fina l. Descritorul
SIFT nu este invariant la modificarea cul orii, deoarece canalele R, G și B se combină pentru a
forma canalul de intensitate.

15
3.2.1 HSV-SIFT
Sunt descriptori SIFT pentru toate ce le trei canale ale modelului HSV color. Fiecare
descriptor are 3×128 dimensiuni, 128 de dimensiuni pe canal. Nu au proprietăți de invarianță.
3.2.2 HueSIFT
Acest descriptor se obține concatenând histograma H cu un descriptor SIFT. Este invariant la
scalare și la translații.
3.3 Descriptori de textură
De multe ori textura se dovedește a fi un bun păstrător de informație. Nu există o definiție
formală a texturii, dar această caracteristică a imaginii conține informații despre netezime sau
despre regularit ate. Pentru a măsura proprietățile texturii unei imagini se folosesc metode statist ice,
structurale sau spectrale. Unul dintre cei mai populari descriptori de textură este matricea de
apariție a nivelelor de gri (Gray Level Co -occurrence Matrix – GLCM).
3.3.1 GLCM
Poate fi folosit pentru extragerea parametrilor statistici de textură de ordinul II utili (pentru
estimarea mișcării din secvențele video ). În extragerea GLCM se calculează următorii patru
parametri : momentul unghiular de ordinul doi (Angular s econd order moment), corelația
(correlation), momentul diferență inversă (inverse difference moment) și entropia (entropy).
3.3.1.1 Momentul unghiular de ordinul doi
Momentul unghiular de ordinul doi este cunoscut și sub numele de uniformitate sau
energi e. El este egal cu suma pătratelor valorilor pixelilor și măsoară omogenitatea imaginii.
Valoarea momentului unghiular de ordinul doi este mare atunci când imaginea este omogenă sau
când pixelii sunt foarte asemănători.
3.3.1.2 Momentul diferență inv ersă
Momentul diferență inversă (Inverse Difference Moment -IDM) c aracterizează
omogenitatea locală. El are o valoare mare când nivelul local de gri este uniform și când GLCM
este mic.
3.3.1.3 Entropia
Entropia arată conținutul de informație din imagine care este necesar pentru compresia
imaginii. Entrop ia măsoară pierderea de informație sau mesajul dintr -un semnal transmis.

16
3.3.1.4 Corelația
Corelația măsoară dependența lineară a nivelurilor de gri ale pixelilor vecini. Când se
extrag parametrii unei imagini cu GLCM, în momentul conversiei RGB -nivel de gr i, timpul
necesar pentru compresia imaginii poate fi redus mult.
3.3.2 Descriptori de textură Haralick
Aceș tia capturează informația despre formă existentă în textură. Ei se calculează folosind
matri cea de apariție, ce necesită resurse de calcul însemnate. Există 1 2 descriptori de acest tip,
dintre care amintim: 1) Energia, 2) Corelația, 3) Inerția, 4) Entropia, 5) Momentul diferență
inversă, 6) Suma mediată, 7) Suma varianță, 8) Suma entropie, 9) Dif erența medie, 10) Diferența
varianță , 11) Diferența entropie, 12) Măsura informațională a corelației.
3.4. Descriptori vizuali MPEG -7
Standardul vizual MPEG -7 specifică descriptori bazați pe conținut care permit utilizatorilor
să măsoare similaritatea în imagini sau secvențe video cu ajutorul criteriilor vizuale și pot fi folosiți
pentru identificarea eficientă, filtrarea sau găsirea imaginilor pe baza conținutului lor. Mai precis,
MPEG -7 specifică culoarea, textura, forma obiectului, mișcarea globală sau parametrii mișcării
obiectelor .
3.4.1. Descriptori vizuali de culoare
Culoarea este cel mai folosit descriptor vi zual. Parametrii de culoare sunt robuști la
modificarea culorilor fondului și sunt independenți de orientare și de dimensiunea imaginii, putân d
fi folosiți pentru definirea conținutului de imagine sau secvență video.
3.4.1.1 Spații de culoare
Pentru a face posibilă inter -operabilitatea diferiților descriptori de culoare, se folosesc
spațiile de culoare: HSV și hue -min-max-diff(-HMMD). HSV est e un spațiu de culoare bine
cunoscut. HMMD este un nou spațiu de culoare definit de MPEG și este folosit doar în descriptorul
structural de culoare (color structure descriptor -CSD) explicat în continuare.
3.4.1.2 Descriptorul scalabil de culoare (Scalable Color Descriptor -SCD )
Descr iptorul MPEG -7 SCD este o histogramă de culoare codată cu ajutorul unei
transformate Haar. El folosește spațiul de culoare HSV cuantizat uniform pe 8 biți.

17
3.4.1.3 Descriptorul de culoare dominantă
Descrie distribuția spațială globa lă sau locală de culoare în imagini pentru găsirea rapidă
în baze de date. Descriptorul constă din culorile repre zentative, procentajul lor într -o regiune,
coerența spațială a culorii și varianța culorii.
3.4.1.4 Descriptorul de culoare a fondului
Descri e distribuția spațială a culorii într -o regiune de formă arbitrară. Distribuția de culoare
în fiecare regiune poate fi descrisă folosind descriptorul de culoare dominantă.
3.4.1.5 Descriptorul de culoare dominantă (CSD)
Scopul principal al CSD este să ex prime parametrii locali de culoare din imagine.
3.4.2 Descriptori vizuali de textură
Textura se referă la motivele vizuale omogene sau care nu rezultă din prezența multiple lor
culori sau intensități în imagine. Este o proprietate a oricărei suprafețe și conține informație
structurală importantă pentru suprafețe și relația lor cu mediul înconjurător.
3.4.2.1 Descriptorul de căutare a texturii
Pentru a caracteriza regularitatea texturii (2 biți), direcționalitatea (3 biți x 2) și rugozitatea
(2 biți x 2), acest descriptor compact necesită doar 12 biți. O textură poate avea mai mult decât o
direcție dominant ă și o scară asociată. Astfel , specificația acestui descriptor permite o valoare
maximă de 2 direcții diferite și de 2 valori de rugozitate.
3.4.2.2 Descriptorul de omogenitate a texturii
Acesta descrie rugozitatea, regularitatea și direcționalitatea motivelor din imagine și este
mai potrivit pentru o caracterizare cantitativă a texturii care are proprietăți de omogenitate.
3.4.2.3 Descriptorul de ne -omogenitate a texturii (Histograma muchiilor -Edge Histogram)
În scopul descrierii imaginilor cu textur i neomogene, MPEG -7 a definit un descriptor de
histogramă a muchiilor (Histogram Descriptor). Acest a capturează distribuția spațială a muchiilor,
similar cu modul în care lucrează descriptorul de culoare a fondului. Este invariant la scalare , dar
sensibil la rotație. De asemenea, este foarte compact având o dimensiune de 240 de biți.

18
3.5 Descriptori în domeniul frecvență
Acești a au un cost computa țional mai mic. Ideea din spatele descriptorilor binari este că
fiecare bit din descriptor este independent și că drept măsură de similaritate poate fi folosită
distanța Hamming în locul distanței Euclidiene. Cei mai recenți și promițăto ri descriptori binari
sunt: (1) Binary Robust Independent Elementary Feature -BRIEF, (2) Oriented Fast and Rotated
BRIEF (ORB), (3) Binary Robust Invariant Scalable Key points (BRISK) și (4) Fast Retina Key
point (FREAK) [5].

19
Capitolul IV
Descriptori de imag ine invarianți la def ormări

O dificultate majoră în clasificarea imaginilor vine de la variabilitatea mare dintre clasele
de imagini și de la inabilitatea distanței Eu clidiene de a măsura similaritățile dintre imagini. Parte
din această variabilitate e datorată translațiilor rigide, rotațiilor sau scalării. De obi cei, această
variabilitate este neinformativă pentru clasificare și deci trebuie eliminată [5].
Variabilitatea datorată transformărilor rigide este eliminat ă dacă modalitatea de
reprezentare a imaginii e invariantă l a aceste tran sformări. Și deformările nerigide induc o
variabilitate importantă între clasele de obiecte conținute în imagini. De exemplu, în recunoașterea
digitală a scrisului de mână, trebuie luate în considerare deform ările digiților datorate stiluri lor
diferite de scriere. O invarianță completă la deformare ar reduce discriminarea clasificatorului
deoarece un digit poate fi deformat într -un digit diferit (ex: 1 poate fi confundat cu 7 ). Deci
reprezentarea nu trebuie s ă fie complet invariantă la deformă ri, ci trebuie să liniarizeze deformări
mici pentru a le putea manipula cu clasificatori liniari. Liniarizarea înseamnă că reprezentarea este
continuă Lipschitz la deformări. Reprezentări invariante la translație pot fi c onstruite cu algoritmi
de înregistr are a imaginilor, cu autocorelație sau cu modulul transformatei Fourier a imaginii.
Acești invarianți nu sunt stabili la deformări , deci nu sunt adaptați pentru clasificarea imaginilor.
Încercarea de a evita instabilități le introdu se de transformarea Fouri er sugerează înlocuirea undelor
sinusoidale cu unde localizate, cum sunt funcțiile wavelet. Totuși, transformările wavelet nu sunt
invariante la translații , ci covariante cu ele. Construirea reprezentărilor invariante cu ajutorul
coeficienților wavelet nec esită introducerea unor operatori neliniari, care duc la o arhitectură de
rețea (neuronală) convoluțională. Rețelele neuronale convoluționale profunde au abilitatea să
construiască invarianți la scări mari , ce par stabili la deformări si care au fost aplic ați la o gamă
largă de sarcini de clasificare a imaginilor. În ciuda succesului acestor arhitecturi de rețele
neuronale, proprietățile și configurația optimă a rețele lor nu sunt bine înțelese datorită exist enței
neliniarităților. De ce să se folosească mai multe straturi de neuroni ? Câte straturi să se folosească?
Câți neuroni pe un strat intern /extern? Răspunsuri le se obțin în urma unor simulări ce necesită
expertiză semnificativă. În continuare, aceste întrebări vor fi abordate dintr -o perspectivă
matemat ică și algoritmică cu ajutorul unei clase speciale de rețele neuronale convoluționale

20
profunde definite de transformările de împrăștiere (scattering networks) introduse de Stephan
Mallat [5].

21
Capitolul V
Rețele de împrăștiere

În acest proiect se stud iază extragerea de descriptori cu ajutorul unui tip special de rețea
neuronală profundă, numit rețea de împrăștiere (scattering network), a cărei arhitectură este
inspirată din teoria funcțiilor wavelet.
În cazul unei rețele de împrăștiere se implementează o filtrare liniară în cascadă , bazată pe
convoluții, urmată de prelucrări neliniare și sub -eșantionare [7]. Rețelele convoluționale profunde
obțin rezultate remarcabile în clasificarea imaginilor și nu numai , comparabile cu performanțele
obținute de ope ratori umani care trebuie să îndep linească aceeași sarcină.
O problemă majoră este înțelegerea proprietăților acestor rețe le și ce au în comun
majoritatea problemelor de clasificare a imaginilor. Cele mai comune surse de variabilitate pentru
majoritatea i maginilor sunt scalarea, rotația ș i translația, deoarece apar schimbări ale perspectivei
proiecțiilor și ale punctelor de vedere în spațiul tridimensional. Pentru o clasificare cât mai
performantă a imaginilor, atunci când se utilizează un clasificator car e funcționează pe baza unor
vector i de parametri (descriptori) rezultați din imaginea care se dorește a fi comparată cu o altă
imagine preluată dintr -o bază de date de mari dimensiuni, comparare care este realizată pe baza
unui criteriu bine definit, trebu ie pusă condiția ca parametrii cor espunzători imaginii să fie
invarianți la transformări uzuale ale imaginilor cum ar fi scalarea, translația sau rotația [4].
Rețelele de împrăștiere au fost introduse în scopul construirii unor descriptori ai imaginii
(imp lementarea blocului Extragere de param etri din figura 1) invarianți la translație, fiind totdată
stabili la deformare . Sunt implementate ca o rețea neuronală convoluțională în care, pe fiecare st rat
al rețelei sunt efectuate convoluții cu funcții wavelet spațiale succesive. Pentru construcția unui
clasificator de imagini, celelalte blocuri din figura 2 pot fi implementate cu ajutorul algoritmului
SVM.
5.1. Invarianța la translații
O reprezentare a imaginii x,
()x , este invariantă la tran slații globale
()()cuxuxc−= cu
()2
21 R ,= ccc
dacă
x xc= . Un invariant canonic
()()()xauxux−= înregistrează x cu un punct
de ancorare
()xa , care este translatat atunci când x este translatat:
()()cxa xac+= . De exemplu,

22
punctul de ancorare poate fi un maximum obținut după filtrare
() ()uhx xau = maxarg cu un filtru
liniar cu răspunsul la impuls
()uh . Modulul transformatei Fourier este un alt exemplu de
reprezentare invari antă la translații. Fie
()xˆ transformata Fourier a lui
()ux . Deoarece
()()=−x e xjc
cˆ ˆ
, rezultă că
()()= x xcˆ ˆ nu depinde de c. Și autocorelația
()()() − = duvuxux vRx
este invariantă la translații
cRx Rx= [4].
Pentru ca reprezentarea să fie stabilă la zgomot aditiv
()()()u uxux +=' este necesară
îndeplinirea unei condiții de continuitate Lipschitz, care presupune că există
0C astfel încât
pentru toate imaginile
x și
'x:
' ' xx x x −− , unde
()= duux x2 2 . Toerema lui Plancherel
demonstrează că modulul transformatei Fourier
xxˆ= satisface această proprietate cu
=2C .
Pentru a fi stabilă la deformări, reprezentarea
 trebuie să fie Lipschitz continuă la
deformări. O mică deformare a lui
x poate fi scrisă ca
()()()u uxux −= , unde
()u este un câmp de
deplasare neco nstantă care deformează imaginea. Tensorul gradient de deformare
()u este o
matrice a cărei normă
()u măsoară amplitudinea deformării în
u iar
()uu sup reprezintă
amplitudinea globală a deformării. O deformare mică este inversabilă dacă
()1u . Condiția de
continuitate Lipschitz la deformări este ca să existe
0C astfel încât pentru toți
 și
x:
()u xCx x
u− sup
. Această proprietate implică invarianța la translații globală deoarece
dacă
()cu= atunci
()0=u , dar este mult mai puternică. O reprezentare de tipul modul de
transformare Fourier este invariantă la translații și stabil ă la zgomot aditiv dar instabilă la
deformări mici la frecvențe înalte. Într -adevăr,
()()−x x ˆ ˆ poate fi arbitrar de mare la frecvențe,

, înalte, chiar și pentru deformări mici și în particular pentru o mică dilatare
()u u= . Ca rezultat,
xxˆ=
nu satisface condiția de continuitate la deformări. Reprezentarea de tipul autocorelație,
Rxx=
îndeplinește condiția:
()()2ˆ ˆ= x Rx . Folosind formula lui Plancherel se demonstre ază că
autocorelația are aceleași instabilități ca și modulul transformării Fourier:
()2 2 1ˆ ˆ 2−−=− x x Rx Rxr
. Pe lângă instabilitățile de deformare, reprezentarea de tipul modul
al transformatei Fourier și reprezentarea de tip autocorelație pie rd prea multă informație. De

23
exemplu, un impuls Dirac,
()u și un chirp liniar
2jue sunt două semnale ale căror module ale
transformatelor Fourier sunt egale și constante. Deci semnale foarte diferite nu pot fi deosebite
(discriminate ) pe baza modulelor transformatelor lor Fourier [4].
Din punct de vedere arhitectural, rețeaua de împrăștier e este compusă dintr -o serie de filtre
rapide, implementată prin dispunerea în cascadă a unor convoluții spațiale și a unor procese de
subeșantion are. Aceasta este structura unei transformări wavelet discretă.
5.2. Funcții wavelet
O transformare wavelet c alculează convoluții cu funcții wavelet dilatate și rotite. Spre
deosebire de undele sinusoidale, funcțiile wavelet sunt funcții localizate (în sp ațiu și în frecvență)
care au proprietatea de a fi stabile la deformări. Totuși, convoluțiile sunt covariante la translație
nu invariante. O transformare de împrăștiere construiește invarianți neliniari din coeficienții
wavelet cu ajutorul funcțiilor modul și de sub -eșantionare. Transformările wavelet au fost utilizate
pentru a nalizarea proceselor staționare și a texturii imaginilor și pot furniza un set de coeficienți
strâns legați de spectrul de putere. O transformare wavelet direcțională are capacitatea de a extrage
semnalele de frecvențe mari în diferite benzi de frecvență ș i cu diferite orientări. Transformările
wavelet direcționale bidimensionale sunt obținute prin scalarea și rotația unui singur filtru trece
bandă cu răspunsul la impuls notat cu ψ [4].
Fie
G un grup de rotații
r de un ghiuri
Kk/2 pentru
Kk0 . Funcțiile wavelet
direcționale bidimensionale se obțin rotind un singur filtru trece -bandă
 cu
Gr și făcând o
dilatare cu factorul
m2 cu
Zm .
Filtrele wavelet direcționale multisc ală sunt definite pentru orice m ∈ ℤ și rotație 𝑟𝜃 cu
unghiul θ ∈ [0,2π] prin [3]:
ψθ,(𝑢) 𝑚 =2−2𝑚 ψ(2−𝑚𝑟−θu). (2)
Dacă transformarea Fourier ψ̂(ω) (răspunsul în frecvență al filtrului) este centrată la
frecvența η, atunci ψ̂θ,𝑚(ω)= ψ̂(2𝑚𝑟−θ ω) are un suport centrat la 2−𝑚𝑟θ η, cu o lățime de bandă
de frecvență proporțională cu 2−𝑚. Transformata wavelet a lui
x este
()
mu xm,, . Este o
transformare redundantă ne -ortogonală.

24
În cazul imaginilor discrete, pentru evitarea fenomenului de aliere, se captează doar
frecvențele care se află în interiorul cercului |ω|≤ π. Majoritatea imaginilor achiziționate de către
cameră au o energie care poate fi neglijabilă în afara acestui cerc de f recvență. În figura 2 se
prezintă un exemplu de funcție wavelet bidimensională. Este vorba despre funcția wavelet a lui
Morlet, care în cazul unidimensional este descrisă analitic în ecuația (3). În figură sunt reprezentate
pe rând părțile reală și imagina ră ale funcției wavelet a lui Morlet bidimensională și modulul
transformatei sale Fourier bidim ensională.

Figura 2: Transformarea wavelet Morlet complexă. (a) Partea reală a lui 𝜓(u). (b) Partea imaginară a lui 𝜓(u). (c)
Modulul transformatei Fourier |𝜓̂(ω1,)|[6].
Funcția wavelet Morlet undimensională ψ este un exemplu de funcție wavelet complexă,
dată de următoarea relație:
ψ(u) = α ( 𝑒𝑗𝑢.𝜉- β)𝑒−|𝑢|2/2𝜎2 (3)
unde β << 1 este ajustat în scopul realizării egalității
()
−duu = 0. Partea reală și partea imaginară
a funcției wavelet a lui Morlet reprezintă aproximativ răspunsuri la impuls de filtre cu faza în
cuadratu ră. În figura 1 este reprezentată funcția wavelet Morlet bidimensională cu σ = 0.85 și ξ =
3π/4, utilizată frecvent în clasificarea imaginilor [6].
Transformarea Wavelet Discretă nu este invariantă la translații. Pentru construirea unei
reprezentări invar iante la translații este necesară introducerea unor neliniar ități. Dacă se consideră
că operatorul liniar sau neliniar Q comută cu translațiile atunci se poate afirma că ∫𝑄𝑥(𝑢)𝑑𝑢 este
un invariant la translații. Neliniaritatea introdusă în cazul re țelelor de împrăștiere constă în calculul
modulelor coeficienț ilor wavelet. Dacă considerăm operatorul liniar de convoluție
m x Qx,=
se obține un invariant trivial
()  =  0, duu xm pentru orice
x deoarece
() 0,=  duum

25
(∫𝑄𝑥(𝑢)𝑑𝑢 nu depinde de valoarea translației). Dacă și M este un operator liniar care comută cu
translațiile, atunci integrala ∫𝑄𝑥(𝑢)𝑑𝑢 încă se anulează. Aceste considerații arată că pentru
construcția unor invarianți este neces ară folosirea unui operator nelinia r M. Întrebarea este care
operator neliniar? În [4] este propus un operator neliniar care conduce la invarian ți stabili la
deformări și la zgomot aditiv care conservă energia. Coeficienții invarianți la translații
corespu nzători acestui operator sunt norme pe spațiul
()21RL :
()duu x xm m  =,1, . Aceste
norme conduc la o reprezentare crudă a sem nalului care măsoară parcimonia coeficienților
wavelet. Pierderea de informație nu vine de la calculul modulului (se poate demonstra că poate fi
reonstruit din modulul coeficienților săi wavelet, pân ă la o constantă multiplicativă [4]) ci de la
integrarea modulului, care anulează toate componentele spectrale de frecvență nenulă. Aceste
componente spectrale de frec vență nenulă pot fi recuperate calculând coeficienții wavelet
 ()2 22 2 11 ,, ,mm m x 
ai semnalului
11,m x . Normele
()21RL ale acestor coeficienți
definesc o familie mult mai largă de invarianți, pentru toate perechile
()11,m și
()2 2,m :
() du u x xm m m m       =2 2 11 2 2 11 , , , ,
.
Mai mulți coeficienți invarianți la translație pot fi calculați integrând mai departe operatorii
de transformare wavelet și de modul. Notăm perechea
()m, cu
 . Fie
mx x U U UxpUm   == … …2 1 1 2
, cu
xx U= , unde s -a notat cu
 mulțimea
vidă. O transformare de împrăștiere pe calea p este definită ca o integrală, normalizată cu răspunsul
la un impuls Dirac:
()()duuxpU pxSp−=1
cu
()= duupUp .
Fiecare coeficient de împrăștiere
()pxS este invariant la translații ale lui
x . Această
transformare are multe asemănări cu modulul transformării Fourier, care este de asemenea
invariantă la translații. Totuși transformarea de împrăștiere este continuă Lipschitz în raport cu
deformările spre deo sebire de modulul transformării Fourie r. Pentru clasificare este de obicei mai
bine să se calculeze descriptori localizați invarianți la translații mai mici decât o scară predefinită
M2
și să se păstreze variabilitatea spațială la scări mai mari decât
M2 . Aceasta se obține prin

26
localizarea integralei de împrăștiere cu o fereastră spațială scalată
()()u uM M
M−−= 2 22
2 . Ea
definește o transformare de împrăștiere cu fereastră în vecinătatea pixelului u:
() ()u x uxpS Mm 2…2 1= 
.
Pentru fiecare cale p,
()uxpS este funcție de poziția ferestrei u, care poate fi sub –
eșantionată cu un pas proporțional cu d imensiunea ferestrei
M2 . Medierea cu
M2 implică faptul
că dacă
()()cuxuxc−= cu
Mc 2 , atunci împrăștierea cu fereastră este aproape invariantă la
translații:
cxpSxpS .
Operat orii de împrăștiere (scattering) invarianți la translație (obținuți prin calculul
modulelor coeficienților obținuți prin calculul transformării wavele t discrete bidimensionale a
imaginii de clasificat) pot fi extinși pentru a defini reprezentări invariante la transformări
aparținând la orice grup Lie, prin calcularea transformării wavelet discrete bidimensiona le pe
grupul respectiv. Asemenea transformăr i wavelet sunt foarte bine definite impunând condiții slabe
pe grupul Lie. Principalul scop în construcția rețelelor de împrăștiere este invarianța la operațiile
de rotație și translație, care apa rțin grupului Special E uclidian (SE) [3].
Setul de mișcări rigide este numit grup E uclidian special. O mișcare rigidă în ℝ2 este
parametrizată de translația v ∈ ℝ2 și rotația 𝑟𝜃 ∈ SO(2) cu unghiul θ ∈ [0,2π). Se poate scrie
g=(v,θ). Poate fi definită variabila u ∈ ℝ2 prin care:
gu = v + 𝑟𝜃u. (4)
O mișcare rigidă g aplicată unei imagini x(u) translatează și rotește imaginea conform:
g.x(u) = x( 𝑔−1u) = x( 𝑟−𝜃(u – v)). (5)
Acțiunea grupul ui trebuie să f ie compatibilă cu produsul g’(gu) = (g’.g)u, pentru ca
aplicațiile succesive a două mișcări rigide g și g’ să fie echivalente cu aplicația unui singur produs
de mișcare rigidă g’.g. Acest fapt implică :
g’.g = (v’ + 𝑟𝜃′v, θ + θ’). (6)
Acest grup nu este comutativ. Elementul neutru este (0,0), iar inversul lui g este :

27
𝑔−1 = (-𝑟−𝜃v, -θ). (7)
Produsul din SE(2) este definit ca produsul dintre produsul semidirect a l grupului de
translație ℝ2 și produsul de rotație SO(2) :
SE(2) = ℝ2 ⋊ SO(2) . (8)
În figura 3 se prezintă modalitatea de construcție a unor descriptori invarianți la mișcare
rigidă prin convoluție bidimensională cu răspunsuri la impuls de filtre rotite (care implementează
produsul semidirect a l grupului de t ranslație ℝ2) urmată de o convoluție unidimensională (care
implementează produsul de rotație SO(2)).

Figura 3 : Convoluție de mișcare rigidă cu un filtru separabil 𝑦̃(v,θ) = y(v) 𝑦̃(θ) în SE(2) care poate fi factorizat
într-o convoluție bidimensio nală cu filtre rotite y( 𝑟−𝜃 v) și o convoluție unidimensională cu 𝑦̃(θ)[3].

5.3 Rețele convoluționale de împrăștiere
Dacă 𝑝=(𝜆1,…,𝜆𝑚) este o cale de lungime m, atunci S[p]x(u) se nume ște coeficient de
împrăștiere cu fereastră de or dinul m. Acesta este calculat la nivelul m al unei rețele convoluționale
specificate. În ceea ce privește invari anțele de scară largă, mai multe nivel uri sunt necesare pentru
a se evita pierderea informațiilor extrem de importante [4].
Pentru funcții wave let adecvate, coeficienții de ordinul I, S[𝜆1]x sunt echivalenți
coeficienților SIFT. SIFT calculează suma locală a amplitudinilor gradientului imaginii între
gradienții imaginii având aproape aceeași direcție într -o histogramă, cu opt direcții difer ite.
Aproximarea DAISY arată ca acești coeficie nți sunt aproximați corect de către 𝑆[𝜆1]𝑥 = |𝑥∗
𝜓𝜆1|∗𝜙2𝐽(𝑢), unde 𝜓𝜆1 sunt derivate parțiale ale unei funcții Gaussiene la o scară foarte fină a
imaginii, de -a lungul a opt rot ații diferite. Filtrul de mediere 𝜙2𝐽 este Gaussian scalat [4].

28
Derivatele parțiale wavelet sunt adaptate să detecteze m uchiile sau formele tranzițiilor, dar
nu au suficientă rezoluție direcțională pentru a diferenția structuri direcționale comple xe. Pentru
analiza texturii, mai multe cercetări au folosit amplitudinile medii ale coeficienților wavelet
|𝑥∗𝜓𝜆|∗𝜙2𝐽(𝑢), calculate cu o funcție wavelet complexă Ѱ, având o rezoluție direcțională mai
bună [4].
O transformată de împrăști ere calculează coeficienți de ordine înalte prin iterarea
transformatelor wavelet și a operator ului de modul [10]. Coeficienții wavelet sunt calculați până
la o sca ră maximă 2𝐽 și frecvențele cele mai joase sunt filtrate de 𝜙2𝐽(𝑢) = 2−2𝐽𝜙(2−𝐽𝑢) [8].
Pentru o funcție wavelet Morlet 𝜓, filtrul de medi ere 𝜙 este ales să fie Gaussian. Întrucât imaginile
sunt semnale reale , este suficient să considerăm rotațiile „pozitive” r 𝜖𝐺+ cu unghiul în [0, π):
𝑊𝑥(𝑢)={𝑥∗𝜙2𝐽(𝑢),𝑥∗𝜓𝜆(𝑢)}𝜆𝜖𝑃. (9)
Cu un set d e indici 𝑃={𝜆=2−𝑗𝑟:𝑟𝜖𝐺+,𝑗≤𝐽}, putem spune că 2𝐽 si 2𝑗 sunt variabile
spațiale scalate, unde 𝜆=2−𝑗𝑟 este un indice de frecvență care dă l ocația frecvenței suport pentru
𝜓̂𝜆(𝜔) [4].
Un propagator de modul wavelet păstrează media de frecvență joasă și calculează modulul
coeficienților wavelet comple cși:
𝑤̃𝑥(𝑢)={𝑥∗𝜙2𝐽(𝑢),𝑥∗𝜓𝜆(𝑢)}𝜆𝜖𝑃 . (10)
Rețeaua nodurilor de la nivelul m corespunde setului Pm al tuturor căilor 𝑝=(𝜆1,…,𝜆𝑚),
de lungime m. Nivelul m, păstrează semnalele propagate {𝑈[𝑝]𝑥}𝑝𝜖𝑃𝑚 și furnizează coeficienții de
împrăștiere {𝑆[𝑝]𝑥}𝑝𝜖𝑃𝑚. Pentru orice 𝑝=(𝜆1,…,𝜆𝑚), observăm că 𝑝+𝜆=(𝜆1,…,𝜆𝑚,𝜆).
Deoarece 𝑆[𝑝]𝑥=𝑈[𝑝]𝑥∗𝜙2𝐽 și 𝑈[𝑝+𝜆]𝑥=|𝑈[𝑝]𝑥∗𝜓𝜆, rezultă că:
𝑤̃𝑈[𝑝]𝑥={𝑆[𝑝]𝑥,𝑈[𝑝+𝜆]𝑥}𝜆∈𝑃 (11)
Aplicând 𝑤̃ tuturor semnalel or 𝑈[𝑝]𝑥 ale nivelului m de la ieșirile 𝑃𝑚 se obțin toate
semnalele de împrăștiere S[p]x și se calculează toate semnalele propagate 𝑈[𝑝+𝜆] pe urmatorul
nivel 𝑃𝑚+1. Toate semnalele de împrăștiere de ieșire 𝑆[𝑝]𝑥 de-a lungul căilor de lungime 𝑚≤𝑚̅
sunt obț inute calculând prima dată 𝑊̃𝑥= {𝑆[∅]𝑥,𝑈[𝜆]𝑥}𝜆∈𝑃 și apoi aplicând 𝑊,̃ pe fiecare nivel
al semnalelor propagate pentru a crește 𝑚≤𝑚̅ [4].

29
Invaria ția translației 𝑆[𝑝]𝑥 se datorează medie rii lui U[p]x cu 𝜙2𝐽. S-a susținut că o
operație de medie re conduce la pierde re de informații, ceea ce a motivat utilizarea altor operatori,
cum ar fi maximul ierarhic. O împrăștiere evită această pierdere d e informație, prin recuperarea
coeficienților wavelet la nivelul urmă tor, lucru ce explică importanța unei structuri de rețele
multistrat .
O rețea de împrăștiere este implementată de o rețea convoluțională profundă, aceasta
având o arhitectură specifică. Spre deosebire de standardele rețelelor convoluționale, coeficienții
de împrăștiere de ieșire sunt produși de fiecare nivel, în afară de u ltimul nivel . Filtrele folosite ca
elemente de convoluțíonare sunt funcții wavelet pred efinite , nefiind învațate din date. Într -adev ăr,
acestea realizează invarianțe în raport cu acțiunea grupului de translație, care nu necesită să fie
învațat e. Construcția invarianțelor în raport cu alte grupuri știute, cum sunt rotațiile sau scalările,
poate fi obínută în mod similar cu funcții wavelet predefinite , care efectuează convoluțiile de -a
lungul variabilelor de rotație sau de scalare.
Pot fi alese funcții wavelet diferite în faza de cuadratură complexă, dar separarea
varia nțielor semnalului la diferite scări este fundamentală pentru stabilitate. Folosirea unui modul
pentru a reuni filtre de fază în cuadratură este, de asemenea, importantă pentru a elimina oscilațiile
de înaltă frecvență ale coeficienților wavelet.
Pentru o poziție fixă-u, coeficienții de împrăștiere S[p]x(u) de ordinul m=1,2 sunt afișați
ca porțiuni de imagine constante pe un disc ce reprezintă suportul Fourier (frecvențial) pentru o
imagine x. Discul de frecvență este împărțit în sectoare {𝛺[𝑝]}𝑝𝜖𝑃𝑚, fiecar e fiind indexat du pă
calea p. Valoarea imaginii este S[p]x(u) pe sectoarele de frecvenț ă 𝛺[𝑝], ilustrate în figura 4.
Pentru m=1, un coeficient de împrăștiere S[λ1]x(u) depinde de energia locală a
transformatei Fourier a lui x peste suportul lui 𝜓̂𝜆1. Valoarea sa este afișată pe un sector 𝛺[𝜆1] care
aproximează suport ul frecvențial al lui 𝜓̂𝜆1. Pentru 𝜆1=2−𝑗1𝑟1, există K sectoare rotite localizate
într-un inel , corespunzând la fiecare 𝑟1𝜖𝐺, ilustrat e în figura 4 (a). Ariile lo r sunt proporționale cu
‖𝜓𝜆1‖2~𝐾−12−𝑗1.

30

Figura 4 : Pentru a fișarea coeficienților de împrăștiere, discul care acoperă suport ul frecvențial al
imaginii este împărțit în sectoare 𝛺[𝑝], care depind de calea p. (a) Pentru m=1, fiec are 𝛺[𝜆1] este un sector rotit cu
𝑟1 care aproximează suportul frecvenț ial al lui 𝜓̂𝜆1. (b) Pentru m=2, 𝛺[𝜆1,𝜆2] sunt obținute prin subdivizarea
fiecărui 𝛺[𝜆1] [4].
Coeficienții de împrăștiere de ordinul 2 , 𝑆[𝜆1,𝜆2]𝑥(𝑢) sunt calculați cu o a doua
transformată wavelet care efectuează o nouă subdiviz are de frecvență. Acești coeficienți sunt
afișați pe sectoarele de frecvență 𝛺[𝜆1,𝜆2], care subdivizeaza sectoarele 𝛺[𝜆1] ale prime lor funcți i
wavelet 𝜓̂𝜆1, așa cum se poate observa în figura 4 (b) . Pentru 𝜆2=2−𝑗2𝑟2, scara 2𝑗2 împarte axa
radială , iar sectoarele rezultate sunt subdivizate în K sectoare unghiulare corespunzătoare
diferitelor 𝑟2. Sca ra și subdiviziunile un ghiulare sunt ajustate astfel încât aria fiecărui 𝛺[𝜆1,𝜆2] să
fie proporțională cu ‖|𝜓𝜆1|∗ 𝜓𝜆2‖2. Figura 5 arată transformarea Fourier a două imagini și
amplitudinea coeficienților de împrăștiere [4].

Figura 5: (a) Două i magini x(u). (b) Modulul transformatei Fourier |𝑥̂(𝜔)|. (c) Coeficienții de împrăștiere de ordin
I, 𝑆𝑥[𝜆1] reprezentați pe sectoarele de frecvență din figura 4 (a); (d) Coeficienții de împrăștiere de ordinul II, ,
𝑆𝑥[𝜆1,𝜆2] reprezent ați peste sectoarele de frecvență din figura 4(b). Aceștia sunt diferiți penru cele două imagini
considerate [4].

31
În acest caz , scala 2𝐽 este echivalentă cu dimensiunea imaginii. Imaginile de sus și de jos
sunt diferite, dar au aceiași coeficienți de î mprăștiere de ordin I. Coeficienții de ordinul II
deosebesc clar imaginile. C oeficienții de împrăștiere de ordinul II ai imaginii de sus au o
amplitudine mai mare, deoarece coeficienții wavelet ai imaginii sunt mai redu și. Coeficienții de
ordine mai mari n u sunt afișați, întruc ât au o energie neglijabilă.
5.4 Proprietăți de împrăștiere
5.4.1 Propagarea energiei și stabilitatea deformării
O împrăștiere S este calculată cu o înșiruire de operatori modul wavelet, 𝑊̃ și proprietățile
lor depind de proprietă țile transformatei wavelet. Diferențele sunt date de funcția mamă wavelet ,
folosită pentru definirea transformării de împrăștiere, care este neexpansi vă și păstrează norma
semnalului. ‖𝑆[𝑝]𝑥‖ descrește repede odată cu creșterea lungimii lui p și nu este neglijabilă doar
pentru un subset particular de căi de frecvențe descrescătoare. Reducând calculele la aceste căi ,
putem defini o rețea de convoluție cu mai puțini coeficienți de intrare și ieșire.
Norma și distanța unei transformate 𝑇𝑥={𝑥𝑛}𝑛 a cărei ieșire este o familie de semnale va
fi definită de relația :
‖𝑇𝑥−𝑇𝑥′‖2=∑‖𝑥𝑛−𝑥′𝑛‖2
𝑛 (12)
Dacă există 𝜖>0 astfel încât, pentru toate 𝜔∈ℝ2, 1−𝜖≤|𝜙̂(𝜔)|2+1/
2∑ ∑ |𝜓̂(2𝑗𝑟𝜔)|2≤1, 𝑟∈𝐺∞
𝑗=0 aplicând formula lui Plancherel , demonstrăm că dacă x e real, atunci
𝑊𝑥 ={𝑥∗𝜙2𝐽,𝑥∗𝜓𝜆}𝜆∈𝑃 satisface (1−𝜖)‖𝑥‖2≤‖𝑊𝑥‖2≤‖𝑥‖2, cu ‖𝑊𝑥‖2=‖𝑥∗
𝜙2𝐽 ‖2+∑ ‖ 𝑥∗𝜓𝜆‖2
𝜆∈𝑃 .
Presupunem că 𝜖<1 și, prin urmare, că transformarea wavelet este un operator
neexpansibi l și inversabil, cu o inversă stabilă. Dacă 𝜖=0, atunci W este unitar. Dacă W este
unitar, atunci 𝑊̃ păstrează și norma semnalului ‖𝑊𝑥̃‖2=‖𝑥‖2 . Rețeaua de convoluție este
construită nivel cu nivel, prin iterarea lui 𝑊̃. Dacă 𝑊̃ păstrează norma semnalului, atunci energia
semnalului este egală cu suma energiei de împrăștiere a fiecărui nivel plus energia ultimului nivel
propagat:
‖𝑥‖2=∑ ∑ ‖𝑆[𝑝]𝑥‖2+∑ ‖𝑈[𝑝]‖2
𝑝∈𝑃𝑚̅̅̅+1 𝑝∈𝑃𝑚𝑚̅
𝑚=0 (13)

32
Pentru undișoarele adecvate, energia nivelului m, ∑ ‖𝑈[𝑝]‖2
𝑝∈𝑃𝑚 , converge la 0, când m
crește, la fel ca și energia coeficienților de împrăștiere de or din ≥𝑚. Acest rezultat este important
pentru aplicațiile numerice, pentru că explică de ce profunzimea rețelei poate fi limitată de o
pierdere de semnal neglijabilă. Lăsând profunzimea rețelei 𝑚̅ să tindă către infinit, rezultă că
transformata de împrăș tiere păs trează energia semnalului:
‖𝑥‖2=∑ ‖𝑆[𝑝]𝑥‖2=‖𝑆𝑥‖2
𝑝∈𝑃𝑚 (14)
Conservarea energiei de împrăștiere demonstrează totodată că dacă coeficienții wavel et
sunt mai puțini, atunci m ai multă energie va fi propagat ă către nivelele mai adânci.
Figura 5 ilustrează două imagini având aceiași coeficienți de împrăștiere de ordinul întâi,
însă imaginea de sus este formată din părți regula te și are mult mai puțini coeficienți wavelet,
compa rativ cu imaginea de jos , care are textură uniformă. În cazul imaginilor naturale , energia de
împrăștiere are o descreștere exponențial ă ca o funcție de lungimea căii m. Coeficienții de
împrăștiere sunt calculați cu undișoare spline cubice, care definesc o transformată wavelet un itară
și care satisfac conservarea energiei de dispersie. Energia coeficienților de dispersie converge către
zero odată cu creșterea lui m și este deja sub 1% pentru 𝑚≤3.
Conservarea energiei nu im plică ca informația semnalului să fie conservată. În timp ce o
transformată de împrăștiere este calculată aplicând iterativ 𝑊̃, va fi necesară inversarea lui 𝑊̃
pentru a inversa S. Faza coeficienților Fourier nu poate fi recuperată din modulele lor, însă
coeficienții wavelet sunt redu ndanți comparativ cu c oefici enții Fourier. Pentru undișoare
particulare, s -a dovedit că faza coeficienților wavelet poate fi recuperată din modulele acestora și
că 𝑊̃ are o inversă continuă, prin urmare faza poate fi recuperată cu o optimizare convexă. T otuși,
S nu poate fi exact inversată pentru c ă renunțăm la informații când se calculează coeficienții de
împrăștiere 𝑆[𝑝]𝑥=𝑈[𝑝]𝑥∗𝜙2𝐽 pentru ultimul nivel 𝑃𝑚̅. Într -adevăr, coeficienții propagați
|𝑈[𝑝]𝑥∗𝜓𝜆| ai următorului nive l sunt eliminați pentru că nu sunt invarianți și au o energie totală
neglijabilă. Numărul acestor coeficienți este mai mare decât numărul total al coeficienților de
împrăștiere de la nivele anterioare. Inițializând conversia cu acești coeficienți suprimați , se
produc e o eroare. Această eroare este amplif icată mai departe , în timp ce inversa rea lui 𝑊̃ parcurge
nivel urile de la 𝑚̅ la 0.Pentru aplicațiile de clasificare, pe lângă calcularea unui set mare de
descriptori invarianț i, cea mai importantă propri etate a unei tranformate de împrăștiere este

33
continui tatea Lipschitz la deformări [9]. Undișoarele sunt stabile la deformări și modulul comută
cu deformările. Fie 𝑥𝜏(𝑢)=𝑥(𝑢−𝜏(𝑢)) o imagine deformată de câmpul de deplasare τ. Fie
‖𝜏‖∞=𝑠𝑢𝑝 𝑢|𝜏(𝑢)| și ‖∇𝜏‖∞=𝑠𝑢𝑝 𝑢|∇𝜏(𝑢)|<1. Dacă Sx este calculat pe căi de lungime 𝑚≤
𝑚̅, atunci este demonstrat c ă pentru semnalele x cu suport compact există relația ‖𝑆𝑥𝜏−𝑆𝑥‖≤
𝐶𝑚̅‖𝑥‖(2−𝐽‖𝜏‖∞+‖∇𝜏‖∞), cu un termen Hessian de ordinul II, care este parte din definiția
metric ii pe deformările 𝐶2, dar care este neglijabil dacă 𝜏(𝑢) este regulat. Dacă 2𝐽≥
‖𝜏‖∞/‖∇𝜏‖∞, atunci coeficientul de translație poate fi neglijat și transformarea este Lipschitz
continuă la def ormări:
‖𝑆𝑥𝜏−𝑆𝑥‖≤𝐶𝑚̅‖𝑥‖‖∇𝜏‖∞ (15)
Dacă 𝑚̅ tinde la ∞, atunci C 𝑚̅ poate fi înlocuit de o expresie mai complexă care este
convergent ă numeric pentru imaginile naturale.
5.4.2 Calcule rap ide de împrăștiere
Descriem o implementare rapidă a rețelei de împrăștiere pe căi descrescătoare de frecvență
în care se află cea mai mare parte a energiei de împrăștier . O cale descrescătoare de frecvență
(2−𝑗1𝑟1,…,2−𝑗𝑚𝑟𝑚) satisface 0<𝑗𝑘≤𝑗𝑘+1≤𝐽. Dacă transformata wavelet este calculată în
funcție de unghiurile de rotație K, atunci numărul total al căilor descrescătoare de frecvență de
lungime m este 𝐾𝑚(𝐽
𝑚). Fie N numărul de pixeli dintr -o imagine x. Cât ti mp 𝜙2𝐽 este un filtru
trece -jos scal at cu 2𝐽, 𝑆[𝑝]𝑥=𝑈[𝑝]𝑥∗𝜙2𝐽 este eșantionat uniform la intervale 𝛼2𝐽, cu α=1 sau
α=1/2. Fiecare 𝑆[𝑝]𝑥 este o imagine cu 𝛼−22−2𝐽𝑁 coeficienți. Numărul total al coeficienților într –
o rețea de împrăștiere cu adâncimea maximă 𝑚̅ este:
𝑃=𝑁𝛼−22−2𝐽∑ 𝐾𝑚(𝐽
𝑚)𝑚̅
𝑚=0 (16)
Dacă 𝑚̅=2, atunci 𝑃≅𝛼−2𝑁2−2𝐽𝐾2𝐽2/2. Aceasta descrește exponențial, atunci câ nd scala
2𝐽 crește.
5.4.3 Procese staționare de împrăștiere
Texturile imaginilor pot fi modelate ca și realizări ale proceselor staționare X(u). Notăm
valoarea medie statistic a lui X cu E(X), care nu depinde de u. În ciuda importanței metodelor
spect rale, spectrul de putere este deseori insuficient pentru a diferenția texturile imaginii, pentru

34
că depinde doar de momentele de ordinul II. Fig. 6 ilustrează d ouă texturi care au același spectru
de putere .

Figura 6: Texturi diferite cu același spectru de putere . (a) Realizări a 2 procese staționare X (u). Sus-textură
Brodatz . Jos-proces Gausian. (b) Spectrele de putere ale celor două realizări sunt aproape identice. (c) Coeficienții
de împrăștiere de ordinul întâi S [p]X sunt aproape egali pentru 2J egal cu lățimea imaginii. (d) Coeficienții de
împrăștiere de ordinul doi S [p]X sunt clar diferiți [4].
O reprezentare de împrăștiere a proceselor staționare depinde de momentele de ordinul II
și de ordin mai mare și astfel pot fi diferenția te diverse texturi
Dacă X(u) este staționar, atunci U(p)X(u) rămâne staționar pentru că este calculat cu
ajutorul unei înșiruiri de convoluții și module care conservă staționaritatea. Valoarea sa medie
statistică nu depinde de u și definește transformata de împrăștiere:
𝑆̅𝑋(𝑝)=𝐸(𝑈[𝑝]𝑋). (17)
O transformare de împrăștiere cu fereastră generează un estimator al lui 𝑆̅𝑋(𝑝), calculat
pentru o singură realizare a lui X cu ajutorul unei convo luții:
𝑆[𝑝]𝑋(𝑢)=𝑈[𝑝]𝑋∗𝜙2𝐽(𝑢). (18)
Deoarece ∫𝜙2𝐽(𝑢)𝑑𝑢=1, acest estimator este nedeplasat :
𝐸(𝑆[𝑝]𝑋)=𝐸(𝑈[𝑝]𝑋)=𝑆̅𝑋(𝑝). (19)
Pentru undișoarele potrivit e este demonstrat că o transformare de împrăștiere cu fereastră
conservă mo mentul de ordinul doi al proceselor staționare:
∑ 𝐸(|𝑆[𝑝]𝑋|2)=𝐸(|𝑋|2) 𝑝∈𝑃∞. (20)

35
Momentele de ordinu l doi ale coeficienților wavelet care sunt utili pentru diferențierea
texturilor imaginilor, pot fi de asemenea recuper ate din coeficienții de împrăștiere. Într -adevăr,
pentru 𝑝=(𝜆1,…,𝜆𝑚), dacă scriem 𝜆+𝑝=(𝜆1𝜆1,…,𝜆𝑛), atunci : 𝑆[𝑝]|𝑋∗𝜓𝜆|=𝑆[𝑝]𝑈[𝜆]𝑋=
𝑆[𝜆+𝑝]𝑋 și înlocuind X cu |𝑋∗𝜓𝜆|, rezultă:
∑ 𝐸(𝑆[𝜆+𝑝]𝑋2)=𝐸(|𝑋∗𝜓𝜆|2) 𝑝∈𝑃∞. (21)
Dacă p are o lungime m, datorită neliniarităților modulelor succe sive se poate observa că
𝑆̅𝑋(𝑝) depinde de momentele de ordine înalte normalizate , în special de ordine peste 2𝑚. Astfel,
coeficienții de împrăștiere pot diferenția texturi care au aceleași momente de ordin ul doi , dar
momente de ordin mai înalt dif erite. Acest lucru este ilustrat de cele 2 imagini din Fig. 6, care a u
același spectru de putere, deci și aceleași momente de ordindoi. Coeficienții de împrăștiere 𝑆[𝑝]𝑋
sunt arătați pentru m=1 și m=2, în benzi de frecvență ilustrate în fig. 4. Distanța p ătrată dintre
coeficienții de împrăștiere de ordinul întâi ai acestor două texturi este de ordinul varia nței lor.
Coeficienții de împrăștiere de ordinul I de obicei depin d de momentele de ordinul doi și astfel sunt
aproape egali pentru ambele texturi. Coeficienții de împrăștiere de ordinul II sunt diferiți pentru
că depind de momente până la ordinul 4. Distanța lor pătrată este mai mare de cinci ori decât
varia nța lor.Mome ntele de ordin înalt sunt dificil de utilizat în procesarea semnalelor, pentru că
estimatorii lor au o varia nță mare , care poate introduce erori importante. Această varia nță mare
provine de la valorile extreme mari ale coeficienților produse de 𝑋𝑞, pentr u 𝑞≥2. O transformată
de împrăștiere este calculată cu ajutorul unui operator nee xpansiv, astfel având estimatori de
varia nță mult mai mic i. Estimarea lui 𝑆̅𝑋(𝑝)=𝐸(𝑈[𝑝]𝑋) prin 𝑆[𝑝]𝑋=𝑈[𝑝]𝑋∗𝜙2𝐽, are o
varia nță care este redusă odată cu creșterea sc ării 2𝐽.
5.4.4 Transformata de împrăștiere cosinus
Imaginile nat urale au coeficienți de împrăștiere 𝑆[𝑝]𝑋(𝑢) care sunt corelați la orice poziție
u dată, de căile 𝑝=(𝜆1,…,𝜆𝑚). Cea mai pute rnică corelație este între coe ficienții de pe același
nivel/strat. Pentru orice m, coeficienții de dispersie sunt decor elați într -o bază Karhunen -Loeve,
care diagonalizează matricea lor de covarianță. Fig. 7 compară descreșterea varia nțelor sortate
𝐸(|𝑆[𝑝]𝑋−𝐸(𝑆[𝑝]𝑋)|2) și descreșterea varia nței în baza Karhunen -Loeve calculată peste
jumătate din baza de date de imagini Cal TEch 101, pentru primul și al doilea nivel/strat al
coeficienților de împrăștiere . Coeficienții de împrăștiere sunt calculați cu o undișoară Morlet.
Descreșterea varia nței (calculată pentru a doua jumătate a datelor) este mult mai rapidă în baza

36
Karhunen -Loeve, c eea ce ne arată că există o corelație strânsă între coeficienții de împrăștiere de
la același nivel [4].
O schimbare a variabilelor demonstrează că o rotație și o scalare 𝑋2𝐽𝑟(𝑢)=𝑋(2−𝑙𝑟𝑢),
produce o rotație și scalare inv ersă pe variabila de cale: 𝑆̅𝑋2𝑙𝑟(𝑝)=𝑆̅𝑋(2−𝑙𝑟𝑝), unde 2−𝑙𝑟𝑝=
(2𝑙𝑟𝜆1,…,2𝑙𝑟𝜆𝑚) și 2𝑙𝑟𝜆𝑘=2𝑙−𝑗𝑘𝑟𝑟𝑘. Dacă imaginile naturale pot fi considerate ca fiind scalate
și rotite aleator, atunci ca lea p este rotită și scalat ă aleator. În acest caz, transformata de împrăștiere
are variații staționare de -a lungul variabilelor de scalare și rotație. Acest lucru sugerează
aproximar ea bazei Karhunen -Loeve de o bază cosinus de -a lungul acestor variabile. Dacă
parametrizăm fiecare rotație r, 𝜃∈[0,2𝜋), atunci o cale 𝑝=(2−𝑗1𝑟1,…,2−𝑗𝑘𝑟𝑘) este atunci
parametrizată de ((𝑗1,𝜃1),…,(𝑗𝑚,𝜃𝑚)). Deoarece coeficienții de împrăștiere sunt calculați de -a
lungul căilor d escrescătoare de frecvență, pentru care 0<𝑗𝑘<𝑗𝑘+1≤𝐽, pentru a reduce efectele
de margine, o transformat ă cosinus separată este calculată de -a lungul variabilelor 𝑙1=𝑗1,𝑙2=
𝑗2− 𝑗1,…,𝑙𝑚=𝑗𝑚−𝑗𝑚−1 și de-a lungul f iecărei variabile de unghi 𝜃1, 𝜃2,…,𝜃𝑚. Coeficienții de
împrăștiere cosinus sunt calculați prin aplicarea acestei transformate cosinus discrete separabil e,
de-a lungul variabilelor de sca ră și unghi ale lu i 𝑆[𝑝]𝑋(𝑢) pentru fiecare u și pentru fiecare cale
de lungime m. Figura 6 arată că există varia nțe pentru m-1 și m-2 pentru coeficienții de împrăștiere
cosinus, care descresc aproape la fel de repede ca și varia nțele în baza Karhunen -Loeve. Aceasta
arată că o DCT peste orient ări și scal ări este aproape optimă pentru a decorela coeficienții de
împrăștiere . Coeficienții DCT de frecvențe joase absorb o mare parte din energia de împrăștiere.

Figura 7 : A: Varia nțele sortat e ale coeficienților de împrăștiere de ordin I (stânga) și II (dreap ta), calculați în baza
de date CalTEch101 . B: varianțele sortate ale coeficienților transformării de împrăștiere cosinus. C: varianțele
sortate în baza Karhunen -Loeve calculate pentru fiecare s trat de coeficienți de împrăștiere [4].

37
5.5. Clasificare
O transformată de împrăștiere elimin ă variabilitatea imaginii cauzată de translațiile și
deformările liniare mici. Clasificarea este studiată cu modele generative liniare calculate cu analiza
componen telor principale (Principal Component Analysis – PCA ) și cu clasificatori SVM.
Ultimele rezultate sunt obținute pentru recunoașterea digitală a scrierii de mână și pentru
discriminarea texturii. Reprezentările de împrăștiere sunt calculate cu undișoarele M orlet [4].
5.5.1 PCA – Selectarea spațiului afin
Clasificato rii discriminanți ca de exemplu SVM au proprietăți asimptotice mai bune decât
clasificatorii generativi, situaț ia însă poate fi inversată pentru mulțimi de training mai mici. În [4]
se introduce un clasificator generativ robust simplu , bazat pe modele de s pații afine, calculate cu
PCA. Se aplică un DCT pe coeficienții de împrăștiere .. Păstrând doar 50% din coeficienții DCT
de frecvență joasă ai coeficienți lor de împrăștiere se reduc calculele înregistrându -se un efect
negativ neglijabil în rezultatele clas ificărilor. Fiecare clasă de semnal este reprezentată de un
vector aleator 𝑋𝑘, ale cărui realizări sunt imagini de N pixeli [4].
Fiecare vector de împrășt iere 𝑆𝑋𝑘 are P coeficienți. Fie 𝐸(𝑆𝑋𝑘) vectorul din clasa de
semnal k. Diferența 𝑆𝑋𝑘−𝐸(𝑆𝑋𝑘) este aproximată de proiecția sa într -un spațiu liniar de
dimensiuni reduse 𝑑≪𝑃. Matricea de covarianță a lui 𝑆𝑋𝑘 are 𝑃2 coeficienți. Fie 𝑉𝑘 spațiul liniar
generat de vectori proprii d PCA ai matricei de covarianță, avâ nd cele mai mari valori propr ii. De-
a lungul tuturor spațiilor liniare de dimensiune d, acesta este spațiul care aproximează 𝑆𝑋𝑘−
𝐸(𝑆𝑋𝑘) cu cea mai mică eroare pătratică așteptată. Acest lucru este echivalent cu aproximarea lui
𝑆𝑋𝑘 prin proiecția sa pe spațiul de aproximare afin: 𝐴𝑘=𝐸{𝑆𝑋𝑘}+𝑉𝑘.Clasificatorul asociază
fiecărui semnal x, clasa de index 𝑘̂ a spațiului cel mai bine aproximat:
𝑘̂(𝑥)=𝑎𝑟𝑔𝑚𝑖𝑛 ‖𝑆𝑥−𝑃𝐴𝑘(𝑆𝑥)‖. (22)
Micșorarea distanței are similarități cu micșorarea distanței tangențiale în sensul că,
eliminăm direcțiile principale de împrăștiere ale variabilității pentru a evalua distanța. Totuși, este
mai simplu deoarece nu se evaluează un spațiu tang ențial care depinde de Sx. Fie 𝑉𝑘⊥ ,
complementul ortogonal al lui 𝑉𝑘, care corespunde direcțiilor de variabilitate mică. Această

38
distanță este de asemenea egală cu norma diferenței dintre Sx și clasa medie „șablon„ 𝐸(𝑆𝑋𝑘),
proiectată în 𝑉𝑘⊥:
‖𝑆𝑥−𝑃𝐴𝑘(𝑆𝑥)‖=‖𝑃𝑉𝑘⊥(𝑆𝑥−𝐸(𝑆𝑋𝑘))‖. (23)
Micșor area erorii de aproximare a spațiului afin, este echivalent ă cu găsirea centroidului
de clasă 𝐸(𝑆𝑋𝑘), care este cel mai apropriat de Sx, fără a lua în considerare primele direcții de
variabilitate principale d. Direcțiile principale d ale spațiului 𝑉𝑘 rezultă din deformări și din
variabilitatea structurală. Proiecția 𝑃𝐴𝑘(𝑆𝑥) este predicția liniară optimă a lui Sx din aceste m oduri
principale a. Clasele selectate au cea mai mic ă eroare de predicție.Această selectare a spațiului
afin este efectivă dacă 𝑆𝑋𝑘−𝐸(𝑆𝑋𝑘) este bine aproximat de o proiecție în spațiul dimensional
scăzut. Acesta este cazul dacă realizările lui 𝑋𝑘 sunt translații și deformări limitate la un singur
model. Într -adevăr, continuitate a Lipschitz implică faptul că micile deformări sunt liniarizate de
transformata de împrăștiere. Dimensiunea d trebuie s a fie ajustată astfel încât 𝑆𝑋𝑘 să aibă o
aproximare mai bună în spațiul afin 𝐴𝑘, decât în spațiile afine 𝐴𝑙, de alte clase 𝑙≠𝑘. Acesta este
o problemă de selectare a modelului, care necesită o optimizare a dimensiunii d pentru a evita
overfittin g-ul.
Scara de invarianță 2𝐽 trebuie să fie de asemenea optimizată. Când sca ra 2𝐽 crește,
invaria nța translației crește, dar vine cu o pierdere parțială de informație, care aduc e reprezentările
diferitelor semnale mai aproape. Astfel, distanța de împrăștiere ‖𝑆𝑥−𝑆𝑥′‖ descrește c ând
2𝐽 crește și converge la o valoare nenulă , când 2𝐽 tinde la infinit. Pentru a clasifica
modelele/șabloanele deformate ca și scrierea de mână a num erelor, valoarea optimă a lui 2𝐽 este
ordinul deplasărilor pixelului maxim din cauza deformăr ilor și a translațiilor. Într -un cadru
stohastic, unde x și x’ sunt procese staționare, Sx și Sx’converg către transformata de împrăștiere
𝑆𝑥̅̅̅ și 𝑆𝑥̅̅̅’. Pentru a clasifica procesele staționare ca și texturile, sca ra optimă este sca ra maximă
egală cu lățimea imaginii, deoarece minimizează varia nța estimatorului de împrăștiere.
O procedură de validare încrucișată este folosită pentru a găsi dimensiunea d și sca ra 2𝐽,
care produce cea mai mică eroare de clasificare. Această eroare este calculată pe un subset de
imagini de învățare , care nu sunt folosite pentru a estima matricea de covarianță pentru calculele
PCA.Ca și în cazul SVM, performanț a clasificatorului afin PCA este îmbunătățită prin egalizarea
spațiului descriptor. Tabelul 1 arată că vectori i de împrăștiere au distribu ție de energie inegală de –

39
a lungul variabilelor de cale, în particular pe măsură ce comanda variază la fel cum variază ordinul .
O egalizare robustă este ob ținută prin divizarea fiecărui 𝑆[𝑝]𝑋(𝑢) cu 𝛾(𝑝)=
max
𝑥𝑖(∑|𝑆[𝑝]𝑥𝑖(𝑢)|2) 𝑢1/2, unde maximul este calculat dintre toate semnalele xi. Pentru
simplificarea notațiilor, notăm cu SX vectorul coeficienților de împrăștiere normalizați
𝑆[𝑝]𝑋(𝑢)/𝛾(𝑝). Modelele de dispersie ale spațiului afin pot fi int erpretate ca modele generative
calculate independent pentru fiecare clasă. În comparație cu clasificatorii discriminativi ca și SVM,
nu estimăm int ercorelațiile între clase, pe lângă optimizarea dimensiunii de model d. Astfel de
estimatori sunt eficienți în mo d particular pentru un număr mic de eșantioane de training per clasă.
Dacă sunt puține e șantioane de training per clasă, termenii de varia nță domină erorile de polarizare ,
la estimarea coeficienților de covarianță între clase.
Un clasificator de aproximare al spațiulu i afin poate fi de asemenea interpretat ca fiind un
clasificator discriminant robust în cuadratură, obținut prin cuantificarea grosieră a vectorilor
proprii ai inversei matricei de covarianță. Pentru fiecare clasă, vectorii proprii ai covarian ței
inverse sunt setați pe 0 în 𝑉𝑘 și pe 1 în 𝑉𝑘⊥, unde d este ajustat de validarea încrucișată . Această
cuantizare grosieră este justificată prin estimarea s ăracă a vectorilor proprii de covarianță din noile
eșantioane de training. Aceste mode le de spațiu afin s unt robuste când sunt aplicate la distribuții
ale vectorilor de dispersie având distribuții non -Gaussiene, unde un discriminant Gaussian Fisher
poate duce la erori semnificative [4].
5.5.2 Recunoașterea numerelor scrise de mână
Baza de date MNIST a cifrelor scise de mână este un exemplu de clasificare structurată
după model, unde majoritatea variabilității intra -clasă se datorează translațiilor locale și
deformărilor. Este formată din aproximativ 60 000 de eșantioane de training/de î nvățare și 10 000
de eșantioane de testare. Dacă setul de date de training nu este crescut cu deformări, rezultate foarte
bune de clasificare pot fi obținut e cu ajutorul rețele lor neuronale convoluționale profunde,
folosind dicționare de învățare. Aceste rezultate sunt îmbunătățite de un clasificator care folosește
rețele de împrăștiere .Toate calculele sunt făcute folosind reprezentarea de împrăștiere cosinus
redusă, descrisă în subcapitolul anterior, care păstrează jumătate dincoeficienți (cei e frecvenț ă
joasă). Clasificatorul SVM este învățat cu o renormalizare, care mapează toți coeficienții pe
intervalul [−1,1]. Clasificatorul PCA este învățat cu ajutorul factorilor renormalizați. Erorile de
clasificare sunt mult mai mici cu SVM decât cu PCA dacă algoritmu l este aplicat direct pe imagine .

40
Clasificatorii generativi pot depăși clasificatorii discriminativi când eșantioanele de învățare sunt
rare. Odată cu creșterea mărimii setului de învățare, varia nța abaterii se transformă în favoarea
clasificatorilor SVM [4].
Figura 8 arată vectorii unor coeficienți de împrăștiere pentru o cifră „3”. Coeficienții de
ordinul I și II ai lui 𝑆[𝑝]𝑋(𝑢) sunt ilustrați ca distribuții de energie peste discurile de frecvență .
Parametrul spațial u este eșantionat la intervale 2𝐽 astfel încât fiecare imagine de N pixeli este
reprezentată de 𝑁2−2𝐽=42 discuri translatate, ambele pentru coeficienți de ordinul I și II.

Figura 8 : (a) Imaginea X(u) a cifrei „3”. (b) Vectori ai coeficienților de împrăștier e de ordin m=1, c u u
eșantionat la intervale 2𝐽=8 pixeli. (c) Coeficienți de împrăștiere de ordin m=2 [4].
Crescând ordinul de împrăștiere de la 𝑚̅=1 la 𝑚̅=2, se reduc erorile de clasificare cu
aproximativ 30%, arătând că coeficienții de ordinul II transportă infor mație importantă chiar și la
o scară relativ mică , 2𝐽=8. Prin urmare, coeficienții de ordinul III au o energie neglijabilă și
includerea acestora aduce îmbunătățiri marginale clasificării, crescând volumul de calcule cu un
factor important . Cu creștere a setului de învățare în dimensiune, îmbunătățirea clasificării unei
transformate de împrăștiere crește în raport cu o transformată Fourier cu fereastră, deoarece
clasificarea este capabilă să incorpore ze mai multe structuri de frecvențe înalt e, care au in stabilități
de deformare în domeniul Fourier, față de domeniul de împrăștiere .Pentru a evalua precizia
modelelor de spațiu afin, se calcul ează o eroare de aproximare normalizată medie a proiecțiilor
vectorilor de împrăștiere în spațiul afin al propriei cla se, peste toate clasele k :
𝜎𝑑2=𝐶−1∑𝐸(‖𝑆𝑋𝑘−𝑃𝐴𝑘(𝑆𝑋𝑘)‖2
)
𝐸(‖𝑆𝑋𝑘‖2).𝐶
𝑘=1 (22)
Un factor de separare mediu măsoară raportul dintre eroarea de aproximare în spațiul afin
𝐴𝑘 al clasei de semnal și eroarea de aproximare minimă în alt model afin 𝐴𝑙, cu 𝑙≠𝑘, pentru toate
clasele k :

41
𝜌𝑑2=𝐶−1∑𝐸(𝑚𝑖𝑛 𝑙≠𝑘‖𝑆𝑋𝑘−𝑃𝐴𝑘(𝑆𝑋𝑘)‖2
)
𝐸(‖𝑆𝑋𝑘−𝑃𝐴𝑙(𝑆𝑋𝑘)‖2
)𝐶
𝑘=1 (23)
Mai mult eșantioane de învățare sunt necesare pentru a estima vectorii proprii ai matricei
de covarianță și prin urmare, pentru a calcula în mod fiabil modelele de spațiu afin pentru fiecare
clasă. Eroarea de aproximare medie 𝜎𝑑2 a modelelor spațiului afin este r eduă progresiv în timp ce
raportul de separare 𝜌𝑑2 crește.
Transformata de împrăștiere este stabil ă, dar nu este invariantă la rotații. Stabilitatea la
rotații este demostrată în baza de date MNIST. O bază de date cu 12000 de eșantioane de învățare
și 50000 de imagini de test este construită cu o rotație aleatoare a cifrelor MNIST. Selecția spa țiului
afin PCA ia în considerare variabilitatea rotației prin creșterea dimensiunii d a spațiul ui de
aproximare afin. Acest lucru este echivalent cu proiectarea di stanței pe centroidul clasei într -un
spațiu ortogonal mai mic, prin eliminarea mai multor componente principale. R ezultate mult mai
bune sunt obținute pentru o împrăștiere cu 𝑚̅=2, decât cu 𝑚̅=1, deoarece coeficienții de ordinul
II mențin suficientă discri mina re, chiar dacă se elimină un număr mare d de direcții principale. În
acest caz, 𝑚̅=3 reduce eroarea. Invariația scalării și a rotației este studiată prin introducerea unui
factor de scalare uniform distribuit și aleator între 1/√2 și √2 și o rotație alea toare de un unghi
uniform. În acest caz, cifra „9” este eliminată din baza de date astfel pentru a evita orice confuzie
cu cifra „6”, la rotație. Setul de învățare are 9000 de eșantioane.
Scalările au un efect mai mic pentru rata de eroare decât rotațiile, deoarece vectorii de
împrăștiere scalați generează un spațiu liniar invariant, de mici dimensiuni. Împrăștierea de ordinul
II depașește împrăștierea de ordinul I și diferența devine mai semnificativă când rotațiile și scalările
sunt combinate. C oeficienții de ordinul II sunt mult mai disciminativi în prezența combinației de
scalare și rotație [4].
5.5.3 Discriminarea texturii
Discriminarea texturii vizuale rămâne o problem ă a proceselor de imagine, deoarece
texturile sunt realizări ale proceselor staționare non -Gaussiene, care nu pot fi discriminate folosind
spectrul de putere. Clasificatorul bazat pe PCA elimină marea majoritate a variabilității lui S(X)-
E(SX) între clas e. Variabilitate a este datorată variabilității sto hastice reziduale, care descrește odată

42
ce J crește și variabilității cauzate de iluminare, rotație, scalare sau deformări, când texturile sunt
mapate pe suprafețe [4].
Clasificarea texturilor este testată în baza de date a texturilor CURet, care include 61 de
clase de texturi de imagine de câte 𝑁=2002 pixeli. Fiecare clasă de textură conferă imaginii
același material cu diferite posturi și condiții de iluminare. Variația posturii necesită rotație globală
și invaria nța luminozității. Figura 9 ilustrează variabilitatea intraclasă după o normalizare a
conținutului și a variației fiecărei texturi de imagine. Această bază de date este împărțită aleator
într-un set de învățare și un set de testare, cu 46 imagini de învățare pentru fiecare clasă. Din
rezultate se face o medie pentru 10 părți diferite. Un clasi ficator de spațiu afin PCA aplicat direct
pe pixelii imaginii, produce o eroare de clasificare mare, de 17 procente. Cele mai mici erori de
clasificare publicate obținute pe această bază de date sunt 2 % pentru câmpurile aleato are Markov,
1.53% pentru dicț ionare, 1.4 % pentru caracteristicile de bază ale imaginilor și 1% pentru
histogramele varia nțelor de imagini. Un clasificator PCA aplicat unui estimator de spec tru de
putere Fourier generează o eroare de 1%. Spectrul de putere este estimat cu transformata Fourier
cu fereastră, calculată pentru ferestrele suprapuse, ale căror module pătrate sunt mediate pentru
întreaga imagine pentru a reduce varia nța estimatorulu i. O validare încrucișată optimizează
dimensiunea ferestrei la 2𝐽=32 de pixeli.

Figura 9 : (a) Exemplu de te xtură CureT X(u). (b)Coeficienți de împrăștiere de ordinul I, pentru 2𝐽 egal cu
lățimea imaginii. (c) Coeficienți de împrăștiere de ordin ul II [4].
Pentru clasificatorul PCA de împrăștiere, validarea încrucișată alege o sca ră optimă
2𝐽egală cu lățimea imaginii, pentru a reduce eroarea de estimare a spectrului de putere. Contrar
estimării spectrului de putere, varia nța vectorului de împr ăștiere descrește când 2𝐽 crește. Figura
9 arată coeficienții de împrăștiere 𝑆[𝑝]𝑋 de ordin 𝑚=1 și 𝑚=2 ai unei imagini X de textur ă
CureT. O clasificare PCA cu coeficienți de ordinul I, produce o eroare de 0.5%, astfel coeficienții
de îm prăștiere de ordinul I sunt puternic corelați cu momentele de ordinul II a căror valori depind

43
de spectrul Fourier. E roarea de clasificare este îmbunătățită în raport cu estimatorul spectrului de
putere, deoarece 𝑆𝑋[𝜆1]𝑋=|𝑋∗𝜓𝜆1|∗𝜙2𝑗 este un e stimator de ordinul I , 𝑆𝑋[𝜆1]𝑋=
𝐸(|𝑋∗𝜓𝜆1|) și prin urmare, are o varia nță mai mică decât estimatoarele momentelelor de ordin
II. O clasificare PCA cu coeficienți de împrăștiere de ordinul I și II reduce erorile la 0.2%.
Coeficienții de împ răștiere de ordin m=2 depind de momentele de ordinul 4, care sunt necesare la
diferențierea texturilor, având aceleași momente de ordin II, c a în f igura 5. Estimare a lui
𝑆̅[𝜆1,𝜆2]𝑋=𝐸(‖𝑋∗𝜓𝜆1‖∗𝜓𝜆2) are o varia nță redusă, deoarece X este transformat de un
operator non -expansiv, față de 𝑋𝑞 pentru momentele de ordine înalte 𝑞≥2. Pentru 𝑚̅=2,
validarea încrucișată alege modelele spațiului afin de dimensiuni mici d=16 . Cu toate acestea, încă
produc o eroare de aproximare medie mică 𝜎𝑑2=2.5∙10−1 și raportul de separare este 𝜌𝑑2=3.
Clasificatorul PCA generează o invaria nță parțială la rotație, prin eliminarea unor
componente principale. Rotația lui 𝑝=(2−𝑗1𝑟1,…,2−𝑗𝑚𝑟𝑚) cu r este definit ă de 𝑟𝑝=
(2−𝑗1𝑟𝑟1,…,2−𝑗𝑚𝑟𝑟𝑚). Această invaria nță a rotației este obținută prin media intrărilor cu costul
unei discriminări reduse a reprezentării. O împrăștiere multistrat de -a lungul rotațiilor recuperează
informația pierdută de această medie de convoluții wavelet de -a lungul unghiurilor de rotație. Ea
oferă diferențiere prin producerea unui număr mare de coeficienți invarianți la translații și rotații,
care îmbunătățesc discriminarea de textură invariant ă la rotație. Combinația între împrăștierea de
translație și de rotație produce o reprezentare invariantă la translație și la rotație, care rămâne
stabil ă la deformări [4].

44
Capitolul VI
Rezultate de simulare

Acest capitol conține partea practică a prezentei lucrări, parte pract ică ce constă în rularea
unor coduri pentru studiul invarianței la rotație și la scalare, folosind programul Matlab.
Pentru început se prezintă codul referitor la studiul invarianței la rotație :
clear;
x1 = half_lena;
x=x1(65:128+64,65:128+64);
[Sx,meta] = scatt(x);
for p = 1:size(Sx,3)
imagesc(Sx(:,:,p));
pause(0.1);
end
subplot(311);
plot(meta.order);
subplot(312);
plot(meta.scale);
subplot(313);
plot(meta.orientation);

options.J = 5;
options.L = 8;
[Sx,meta] = scatt(x,options);

options.J = 5;
options.L = 6;
filters = gabor_filter_bank_2d([128,128],options);

resolution = 1;
j = 4;

45
theta = 3;
filt = ifft2(filters.psi{resolution}{j}{theta});
clf;
imagesc([real(fftshift(filt)),imag(fftshift(filt))]);
options.renorm_study = 1;
[Sx,meta] = scatt(x,op tions);
disp = fulldisplay2d(squeeze(Sx(16,16,:)),meta);
figure(1);
imagesc(disp{1});
figure(2);
imagesc(disp{2});
imagesc(x);
title('region of input image' )
Rezultate experimentale pentru codul referitor la studiul invarianței la rotație se pot observa
în figura 10 :

Figura 10 : a) Imaginea de intrare, b) Imaginea coeficienților (5 discuri concentrice), c) Imaginea
coeficienților (7 discuri concentrice)
Următorul cod rulat a fost folosit pentru a vedea diferența când imaginea de intrare este
rotită cu 9 0 de grade :
clear;x1 = half_lena;
x=x1(65:128+64,65:128+64);
[Sx,meta] = scatt(x');
for p = 1:size(Sx,3)

46
imagesc(Sx(:,:,p));
pause(0.1);
end
subplot(311);
plot(meta.order);
subplot(312);
plot(meta.scale);
subplot(313);
plot(meta.orientation);

options.J = 5;
options.L = 8;
[Sx,meta] = scatt(x,options);

options.J = 5;
options.L = 6;
filters = gabor_filter_bank_2d([128,128],options);

resolution = 1;
j = 4;
theta = 3;
filt = ifft2(filters.psi{resolution}{j}{theta});
clf;
imagesc([real(fftshift(filt)) ,imag(fftshift(filt))]);

clear options;

47
options.renorm_ study = 1;
[Sx,meta] = scatt(x,options);
disp = fulldisplay2d(squeeze(Sx(16,16,:)),meta);
figure(1);
imagesc(disp{1});
figure(2);
imagesc(disp{2});
figure(3);
imagesc(x');
title('rotated region of in put image' );
Rezultatele experimentale pentru codul de mai sus sunt:

Figura 1 1 : a) Imaginea de intrare, b) Imaginea coeficienților (5 discuri concentrice), c) Imaginea
coeficienților (7 discuri concentrice)
Dacă facem o comparație între imaginea de intr are rotită la 90 de grade și cea
nerotită (figurile 10 și 11), putem observa că imaginile coeficienților sunt foarte asemănătoare,
rezultând astfel că descriptorii extrași (coeficienții transformării) sunt perfect invarianți la rotație.

48
Imaginea de intr are rotită cu 90 de grade , reprezentată în figura 11 :

Imaginea de intrare nerotită , , reprezentată în figura 10 :

În cele ce urmează vom arăta studiul invarianței la translație rulând următorul cod :
clear;
x1 = half_lena;
x=x1(65:128+64,65:128+64);
l0=16;
c0=16;
x=x1(65+l0:128+6 4+l0,65+c0:128+64+c0);
[Sx,meta] = scatt(x);
for p = 1:size(Sx,3)
imagesc(Sx(:,:,p));
pause(0.1);
end

subplot(311);
plot(meta.order);
subplot(312);

49
plot(meta.scale);
subplot(313);
plot(meta.orientation);

options.J = 5;
options.L = 8;
[Sx,meta] = scatt(x,options);

options.J = 5;
options.L = 6;
filters = gabor_filter_bank_2d([128,128],options);

resolution = 1;
j = 4;
theta = 3;
filt = ifft2(filters.psi{resolution}{j}{theta});
clf;
imagesc([real(fftshift(filt)),imag(fftsh ift(filt))]);
clear options;
options.renorm_study = 1;
[Sx,meta] = scatt(x,options);
disp = fulldisplay2d(squeeze(Sx(16,16,:)),meta);
figure(1);
imagesc(disp{1});
figure(2);
imagesc(disp{2});
figure(3);
imagesc(x);
% title('region of input image');
title('translated region of input image' );
Rezultate le experimentale în urma rulării codului s e pot observa în figura 12 :

50

Figura 1 2 : a) Imaginea de intrare translatată, b) Imaginea coeficienților (5 discuri concentrice), c)
Imaginea coeficienților (7 discuri concentrice)
Comparație între imaginea de intrare netranslatată și cea translatată cu 16 linii și 16
coloane:
Imaginea de intrare netranslatată :

Imaginea de intrare translatată cu 16 linii și 16 coloane (figura 12) :

Comparând imaginile de coeficienți o bținute folosind 5 discuri concentrice se constată că
efectul translatării imaginii de intrare este rotirea imaginii coeficienților. Descriptorii nu sunt
perfect invarianți la translații.
Următorul cod este folosit pentru studiul invarianței la scalare:
clear;
x1 = half_lena;
x=x1(65:128+64,65:128+64);

51
x=imresize(x,2);
[Sx,meta] = scatt(x);

for p = 1:size(Sx,3)
imagesc(Sx(:,:,p));
pause(0.1);
end

subplot(311);
plot(meta.order);
subplot(312);
plot(meta.scale);
subplot(313);
plot(meta.orientation);

options.J = 5;
options.L = 8;
[Sx,meta] = scatt(x,options);

options.J = 5;
options.L = 6;
filters = gabor_filter_bank_2d([128,128],options);

resolution = 1;
j = 4;
theta = 3;
filt = ifft2(filters.psi {resolution}{j}{theta});
clf;
imagesc([real(fftshift(f ilt)),imag(fftshift(filt))]);
clear options;
options.renorm_study = 1;
[Sx,meta] = scatt(x,options);

52
disp = fulldisplay2d(squeeze(Sx(16,16,:)),meta);
figure(1);
imagesc(disp{1});
figure(2);
imagesc(disp{2});
figure(3);
imagesc(x);
title('rescaled region o f input image' );
Rezultate experimentale:

Figura 1 3 : a) Imaginea de intrare rescalată(factor 2) de dimensiuni duble, b) Imaginea coeficienților (5
discuri concentrice), c) Imaginea coefic ienților (7 discuri concentrice)

Figura 1 4 : a) Imaginea de intr are rescalată(factor 1/2) de aceleași dimensiuni, b) Imaginea coeficienților
(5 discuri concentrice), c) Imaginea coeficienților (7 discuri concentrice)

Comparație între figurile de mai sus și imaginea de intrare ne -rescalată :

53
Imaginea de intrare ne -rescalată

Imagine de intrare rescalată (cu factorul de scară 0,5) de aceeași dimensiune cu imaginea
originală

Imaginea de intrare rescalată cu factorul 2 (noile dimensiuni 256×256)

Prin rescalare , imaginea coeificienților cu 5 discuri se rotește (î n sensul creșterii frecve nței
în același inel de subbenzi). Descriptorii nu sunt perfect inv arianți la rescalare.

54
Concluzii

În prezenta lucrare s-a studia t extragerea de descriptori cu ajutorul unui tip special de rețea
neuronală profundă, numit rețea de împrăștiere (scattering network), a cărei arhitectură este
inspirată din teoria funcțiilor w avelet.
Descriptorul de imagine este definit ca o metrică sau o anumită valoare cuantificabilă ,
utilizată pentru a descrie o imagine la nivel înalt. Într-o imagine pot fi identificate mai multe tipuri
de descriptori, cum ar fi : descriptori de culoare, tex tură, formă sau colțuri. Primul pas este
identificarea unor puncte de interes în imagine care să fie repetabil e și este urmat de descrierea
punctelor de interes. E ste necesar ca descriptorii să fie unici, adică dacă puncte similare sunt
descrise în două sa u mai multe imagini atunci trebuie ca aceste puncte să aibă descrieri similare.
Rețelele neuronale pr ofunde pot furniza arhitecturi de învățare a unei cantități mari de
date, obținând u-se astfel rezultate remarcabile pentru o gamă largă de tipuri de semna le sau date.
Alternarea operatori lor liniari ai căror coeficienți sunt optimizați în permanență prin antrenare, cu
operatori neliniari este p rincipiul pe care se bazează o rețea neuronală profundă . În scopul obținerii
unor rezultate bune în domeniul clasi ficării, se impune o serie de constrâ ngeri ale arhitecturii
rețelei în sprijinul operatorilor liniari.
În ultimii ani, rețelele neuronale profunde supravegheate au beneficiat de succese în
domeniul clasificării multor tipuri de semnale cum ar fi : imagini, semnale video, semnale audio,
voce, t ext. De obicei, rețelele neuronale convoluționale furnizează cele mai eficiente arhitecturi
printre rețelele neuronale profunde supravegheate .
Rețelele convoluționale profunde au obțin ut rezultate remarcabile în clasifi carea imaginilor
și nu numai, compar abile cu performanțele obținute de operatori i umani care îndeplinea u aceeași
sarcină.
În cazul unei rețele de împrăștiere se implementează o filtrare liniară în cascadă , bazată pe
convoluții, urmată de prelucrări nelin iare și sub -eșantionare.
O problemă majoră constă în înțelegerea proprietăților acestor rețe le și ce au în comun
majoritatea problemelor de clasificare a imaginilor. Cele mai comune surse de variabilitate pentru
majoritatea imaginilor sunt scalarea, rota ția și translația, deoarece apar schimbări ale perspectivei

55
proiecțiilor și ale punctelor de vedere în spațiul tridimensional. Pentru o clasificare cât mai
performantă a imaginilor, atunci când se utilizează un clasificator care funcționează pe baza unor
vectori de parametri (descri ptori) rezultați din imaginea care se dorește a fi comparată cu o altă
imagine preluată dintr -o bază de date de mari dimensiuni, comparare care este realizată pe baza
unui criteriu bine definit, trebuie pusă condiția ca parametri i corespunzători imaginii s ă fie
invarianți la transformări uzuale ale imaginilor cum ar fi scalarea, translația sau rotația .
Rețelele de împrăștiere au fost introduse în scopul construirii unor descriptori ai imaginii
invarianți la translație, fiind totod ată stabili la deformare . Acestea fiind implementate ca o rețea
neuronală convoluțională în care, pe fiecare st rat al rețelei sunt efectuate convoluții cu funcții
wavelet spațiale succesive .

56
Bibliografie

[1] Documenta ție Matlab R2013A, help
[2] St éphan e Mallat, “Understanding Deep Convolutional Networks”, arXiv:1601.04920v1
[stat.ML], 19 Jan 2016.
[3] Laurent Sifre, St éphane Mallat, “Rigid -Motion Scattering for Texture Classification”, Applied
and Computational Harmonic Analysis 00 (2014) 1 -20.
[4] Joan Bruna, St éphane Mallat, “Invariant Scattering Convolution Networks”, IEEE
Transactions on Pattern Analysis and Machine Intelligence”, vol. 35, no. 8, August 2013.
[5] Rekhil M Kumar, Sreekumar K., A Survey on Image Feature Descriptors, (IJCSIT)
Internatio nal Journa l of Computer Science and Information Technologies, Vol. 5 (6) , 2014, 7668 –
7673 www.ijcsit. com 7668 3.2
[6] Joan Bruna Est rach, “Scattering Represe ntation for Re cognition ”, Noiembrie 201 2
[7] Eduard Oyallon, St éphane Mallat, “Deep Roto -Translati on for Object Classification ”, Ecole
Normale Supe rieure, 45 rue d ’Ulm, 75005 Paris
[8] Matthew Hir n, Stéphane Mallat, Nicolas Po livert, “Wavelet Scattering Regression of Quantum
Chemical Energ ies”, Ianuarie 2017
[9] Michael Eickenberg, G eorgios Exarchakis, Matthew Hirn, St éphane Mallat, “Solid Harmonic
Wavelet Scattering: Predicting Quantum Molecular Energy from Invariant D escriptors of 3D
Electronic Densities ”
[10] Václav Chud áček, Joakim And én, Stéphane Mallat , Patrice Abry, Muriel Doret, “Scattering
Transform for Intr apartum Fetal Heart Rate Variability Fractal Analysis: A Case -Control Stud y”

57

Similar Posts