Sandu Mădălina -Claudia [620726]

Universitatea Tehnică “Gheorghe Asachi” din Iași
Facultatea de Electronică, Telecomunicații și Tehnologia
Informației

Specializare: Microelectronică,optoelectronică și nanotehnologii

Proiect de diplomă

Coordonator științific:
Prof. dr. ing. Iulian Ciocoiu Student: [anonimizat]
2020

Universitatea Tehnică “Gheorghe Asachi” din Iași
Facultatea de Electronică, Telecomunicații și Tehnologia
Informației

Specializare: Microelectronică,optoelectronică și nanotehnologii

Studiu comparativ al performanțelor algoritmilor de
detecție de obiecte bazaț i pe arhitecturi neurale de tip Deep
Learning

Coordonator științific:
Prof. dr. ing. Iulian Ciocoiu Student: [anonimizat]

2020

CUPRINS

Capitolul 1:

1.1 Introducere
1.2 Metodele utilizate în detectarea obiectelor

Capitolul 2:

2.1 FAST R -CNN

2.2 YOLO

2.3 SSD

Capitolul 3:

3.1 Rezultate experimentale

3.2 Rezultate folosind alte metode de detectare

Concluzii

REZUMAT

Scopul recunoașterii obiectului este de a identifica obiectul ca fiind membru al unei clase.
Recunoașterea obiectelor în medii reale este o sarcină fundamentală și importantă în viziunea
computerului și în robotică. Această performanță ajută la înțelegerea seman tică, la etichetarea
scenelor și la înțelegerea obiectelor. Datorită utilității sale, recunoașterea obiectelor a primit o
considerație semnificativă în comunitățile de viziune computerizată și robotică.
Sistemele de detectare curente reutilizează clasificatorii pentru a efectua detectarea. Pentru a
detecta un obiect, aceste sisteme folosesc un clasificator pentru acel obiect și îl evaluează la
diverse locații la o imagine de test.
În această lucrare, sunt prezentate câteva metode de id entificare a obiectelor și rezultatele
experimentale ale acestora.
Primul capitol oferă informații generale despr e detectarea obiectelor, despre metodele de
recunoaștere a obiectelor și etapele care fac posibilă această operație.
Al doilea capitol prezintă cele mai importante și folosite metode de detectare a obiectelor , cât și
prezența altor candidați în această etapă de recunoaștere.
Al treilea capitol constă în prezentarea rezul tatelor experimentale ale celor 3 metode. De
asemenea, sunt prezentate rezult ate folosind alte două metode care au la bază detectarea
obiectelor.

CAPITOLUL 1

1.1. Introducere

1.2. Metodele utilizate în detectarea obiectelor

1.1.Introducere

Pentru o înțelegere completă a imaginii , trebuie estimată cu exactitate nu doar
concentrarea pe clasi ficarea diferitelor imagini,ci și conceptele ș i locațiile obiectelor conținute în
fiecare imagine. Această întrebuințare este denumită detecție de obiect și prezintă diferite
categorii,cum ar fi : detectarea feței, detectarea pietonilor și detectarea scheletului.
Detectarea obiectelor este în măsură să ofere informații valoroase pentru înțelegerea
semantică a imaginilor și videoclipurilor și este legată de multe aplicații, inclusiv clasificarea
imaginilor , analiza comportamentului uman , recunoașterea feței și conducere a autonomă .
Între timp, moștenind de la rețelele neuronale și sistemele de învățare aferente, progresul în
aceste categorii va dezvolta algoritmi de rețea neuronală și va avea, de asemenea, impacturi mari
asupra tehnicilor de detectare a obiectelor care pot fi considerate siste me de învățare .
Cu toate acestea, datorită variațiilor mari, a pozelor și a condițiilor de iluminare, este
dificilă detectarea obiectelor. Problema care apare în urma definiției detectării de obiecte este cea
de a determina unde se află obiectele într -o anumită imagine (localizarea obiectelor) și din ce
categorie aparține fiecare obiect (clasificarea obiectelor). Prin urmare, se folosesc met odele
tradiționale de de tectare a obiectelor, care pot fi împărțite în 3 etape: selectarea regiunii
informative, extragerea caracteristicilor și clasificarea.

Selectarea regiunii informative:
Deoarece obiectele apar în orice poziție a imaginii și au dimensiuni diferite, o alegere
potrivită este scanarea imaginii cu o fereastră glisantă pe mai multe scări. Deși această strategie
poate găsi toate pozițiile posibile ale obiectelor, deficiențele sa le sunt evidente. În cazul în
care,apare un număr mare de ferestre candidate și se aplică doar un număr fix de șabloane de
ferestre glisante, se pot produce regiuni nesatisfăcătoare.

Extragerea caracteristicilor:
Pentru recunoșterea difer itelor obiecte, trebuie extrase caracteristicile vizuale care pot
oferi o reprezentare semantică și robustă. Reprezentative sunt: histogramele gradienților orientați

și transformarea caracteristicilor invariante la scări. Acest lucru se datorează faptului că aceste
caracteristici pot produce reprezentări asociate cu celule le complexe din creierul uman .
Cu toate acestea, datorită diversității aparițiilor, condițiilor de iluminare și a fundalurilor, este
dificil ă proiectarea manual ă a unui descriptor de carac teristici robust pentru a descrie perfect
toate tipurile de obiecte.

Clasificarea:
Este nevoie de un clasificator pentru a distinge un obiect țintă de toate celelalte categorii
și pentru a face reprezentările mai ierarhice, semantice și informative pentru recunoașterea
vizuală. Alegerile bune, în acest sens sunt: mașina vector (SVM) și modelul deformabil bazat pe
părți (DPM). DPM este un model flexibil prin combinarea pieselor obiectului pentru a face față
deformărilor severe. Un exemplu de SVM este prezentat mai jos:

Funcția pentru SVM poate fi scrisă:
, unde x este proba de testare , xi
este un vector de suport, K este funția de nucleu pentru a măsura asemănarea dintre x și xi.
K(xi,x) este emis la fiecare neuron i ascuns.
fx() b
1M
iKxix () 
=+ = K

Cu ajutorul unui model grafic, sunt combinate funcții de nivel scăzut proiectate cu at enție și
descompunerile de piese de inspirație cinematică.

Pe baza acestor descriptori de caracteristici locali, rezul tatele de ultimă generație au fost
obținute la competițiile de detectare a obie ctelor vizuale PASCAL VOC . Cu toate acestea, au
fost obținute câștiguri mici în perioada 2010 -2012, doar prin construirea de sisteme de
ansambluri și prin utilizarea unor varian te minore de success. Acest fapt se datorează
următoarelor motive: generarea unor casete de delimitare a candidatului (BB) cu o strategie
redundantă și insuficientă pentru ferestrele glisante, și decalajul semantic care nu poate fi redus
prin combinarea ni velului scăzut de descriptori.

1.2 Metodele utilizate în detectarea obiectelor

Odată cu introducerea regiunilor cu caracteristicile rețelei neuronale convolutive (CNN),
datorită situației de urgență a rețelelor neuronale profunde (DNN), se obține un câștig mai
semnificati v. CNN -urile acționează într -un mod cu totul d iferit de abordăr ile tra diționale,
deoarece acestea au arhitecturi mai profunde, ce au capacitatea de a învăța caracteristici mult mai
complexe decât cele superficiale.

De asemenea,algoritmii de expresivitate și de formare robust ă permit învățarea
reprezentărilor obiectelor informative , fără a fi necesară proiectarea manual ă a fun cțiilor.
De la propunerea R -CNN,s -au sugererat mai multe metode îmbunătățite de detectare de obiecte,
cum ar fi: Fast R -CNN, Faster R -CNN, YOLO și SSD.
R-CNN este folosit la îmbunătățirea calității BB -urilor candidate și prezintă și o arhitectură
profundă pentru a extrage funcțiile de nivel înalt. R -CNN a fost propus de Girshick și a obținut o
precizie medie (mAP) de 53,3% , cu o îmbunătățire de 30% față de histogramele DPM de coduri
pe PA SCAL VOC 2012. R-CNN optimizează operațiile de regresie a unor casete.
Fast R -CNN este o nouă arhitectură propusă de Girshick, care a introdus o pierdere multitask pe
clasificarea și regresia cutiei de delimitare.
Faster R -CNN folosește o subrețea suplimentară pentru a genera propuneri de regiune.
YOLO care realizează detectarea obiec telor printr -o regresie a grilei fixe.
SSD prezintă un set de cutii de ancore implicate, cu raporturi și scale diferite de aspect.
O pierdere obiectivă de formare este derivată din SSD și Fast R -CNN, care rezultă dintr -o
sumă ponderată a pierderii d e clasificare (cls) și a pierderii de localizare (reg) :

, unde p denotă o distribuție de
probabilitate dis cretă care este calculată de un softmax peste ieșirile K+1, r este compensarea
regresiei “box -bounding”, g este ținta de regresie a “box -bounding -ului”, iar α este coeficientul
pentru a echilibra cele două pierderi.
O altă categorie o reprezintă eficiența principiilor de proiectare. În această secțiune, se
justifică eficacitatea fiecărui principiu de proiectare enunțat anterior.

1. Cadrul fără propuneri: se încearcă învățarea de la zero a detectoarelor de obiecte
folosind cadrul bazat pe propuneri, cum ar fi: Faster R -CNN și R -FCN cu setările
implicite. Cu toate acestea, procesul de instruire nu a reușit să realizeze o legătură între
structurile de rețea, care au fost propuse (VGGNet, Re sNet, DenseNet). În cele din urmă,
s-a încercat instruirea cadrului fără propuneri cu ajutorul SSD -ului. Pregătirea a avut un
succes, dar a avut rezultate nesatisfăcătoare (69,6% pentru VGGNet, comparativ cu
definirea cazurilor de la modelul pre -instruit, care a avut un rezultat de 75,8%).

Lppx r g ( ) Lclsppx () px Lregrg ()  + ( )1
N = pxpx

2. Supravegherea profundă: Deoarece VGGNet este o rețea simplă, se proiectează un
modul se supraveghere profundă, numit DSS pentru a valida și mai mult eficiența
supravegherii profunde. În această categorie, structura DSS c oncatenează 3 scări diferite
ale hărților caracteristice (nivelurile joase, medii și înalte) într -un singur modul de
predicție. Acest modul îmbunătățește semnificativ precizia SSD de la 70,4% la 77,4%,
care are un rezultat mai bun decât cazul pre -instruit Image -Net, care are un rezultat de
77,2%. Adoptarea modulului DSS în DSOD poate obține o îmbunătățire constantă de
79,1%.

3. Tranziția fără strat de acoperire: În primul rând, se compară carcasa fără acest strat
proiectat (care are doar 3 blocuri dense) și c arcasa care are acest strat (4 blocuri dense).
Această tranziție conduce la o structură de rețea mai profundă și aduce un câștig de
performanță de detect are de 1,7%, ceea ce validează eficacitatea acestui strat.

4. Stem Block: Acest bloc îmbunătățește în mod deosebit performanța de la 74,5% la 77,3%.
Acest lucru validează presupunerea potrivit căreia folosirea blocului stem poate proteja
pierderea de informații de la imaginile de intrare brute.

5. Structura de predi cție densă: Această struct ură se analizează în urma a 3 aspecte:
viteză,precizie și parametri. La această analiză, modulul DSOD are o structură frontală
densă care se desfășoară puțin mai jos față de o structură simplă (17,4 fps față de 20,6 fps)
pe un GPU Titan X. Cu toate acestea , structura densă îmbunătățește m AP de la 77,3% la
77,7%. De asemenea, s -a încercat înlocuirea straturilor de predicție SSD cu straturile de
predicție densă. Această precizie a setului de teste VOC 2007 poate fi îmbunătățită de la
75,8% (pentru un SSD ori ginal) la 76,1% (cu modele pre -instruite) și 69,6% la 70,4%
(fără modele pre -instruite), atunci când se utilizează VGG -16.

Pentru verificarea mecanismului de supraveghere profundă, se propune un modul de
supraveghere la scară profundă (DSS), care este similar cu Hypernet. Pentru funcțiile la
nivel inferior (rezoluție grosieră) se folosește o combinare maximă de 4 x 4 și un stride = 2
pentru a reduce rezoluția, urmând un strat conv 1 x 1 pentru a reduce numărul de hărți de
caracteristici. Se f olosește colectarea maximă de 2 x 2 pentru hărțile de caracteristici de
nivel mediu și care nu includ colectarea maximă pentru straturile de nivel înalt.

CAPITOLUL 2

2.1 FAST R -CNN

2.2 YOLO

2.3 SSD

2.1 FAST R -CNN

Această metodă combină clasificarea și regresia cutiei de delimitare într -o manieră de
învățare multitask . Fast R -CNN înglobează în mod natural ideea unei imagini ca un sac de BB.
Mai mult decât atât, în abordarea Fast R -CNN, fiecare mini -lot al procedurii SGD (Stochastic
Gradient Descent) este eșantionat ierarhic, prima dată se realizează eșantionarea de imagini și
apoi eșantionarea de BB -uri. Exploatarea acestor eșantioane se realizează „centrat pe imagine” ,
dar se modifică selecția aleatorie a imaginii f olosind o strategie de ritm automat în care sunt
selectate primele imagini care conțin casetele de cea mai mare confidență asociate cu clasele
adnotate. Întrucât se formează un clasificator cu mai multe clase (ceea ce este o abordare comună
în rețelele pro funde care exploatează distribuirea reprezentărilor intercategoriale), se exploatează
concurența între clasificatorii de categorii diferite (între diferiți neuroni de clasificare -ieșire din
aceeași rețea), iar imaginea este aleasă doar atunci când eticheta sa este în concordanță cu cel
mai puternic clasific ator de pe acea imagine. Această clasificare bazată pe imagini este utilizată
pentru a antrena progresiv diferiți clasificatori, începând de la cei mai puternici. Beneficiul
acestei strategii este că, în fazele inițiale de formare, rețeaua învață o reprezentare vizuală a
obiectelor obținute (comune tuturor claselor), împreună cu o reprezentare a clasei de fundal, iar
aceste reprezentări îmbunătățite sunt utilizate în fazele de formare ulterioare , atunci c ând rețeaua
prevede obiectele de clasificare a clădirilor.
Deși SPP -net a obținut îmbunătățiri impresionante atât în ceea ce privește precizia, cât și în
ceea ce p rivește eficiența față de R -CNN, are totuși unele dezavantaje notabile. SPP -net fol osește
aceeași conductă, doar că are mai multe etape față de R -CNN, ce include extracția
caracteristicilor, definirea rețelei, instruirea SVM și reglarea regresorului. În plus, straturile
convoluționar e care preced stratul SPP nu pot fi actualizate cu algoritmul de definire. În acest
scop, Girshick a introdus o pierdere multitask pe clasificarea și regresia cutiei de delimitare și a
propus o nouă arhitectură CNN numită Fast R -CNN. Această arhitectură este similară cu SPP –
net, deoarece întreaga imagine este procesată cu straturi de convoluție pentru a produce hărți de
caracteristici.

De asemenea, se folosește un vector cu o caracteristică de lungime fixă ce este extras din fiecare
propunere de regiune cu un st rat de colectare RoI. Acest strat de colectare RoI este un caz special
al stratului SPP, care are un singur nivel de piramidă. Fi ecare vector caracteristic este instrodus
într-o secvență de straturi FC înainte de a se ramifica definitiv în două straturi de ieșire . Un strat
de ieșire este responsabil pentru producerea probabilităților softmax pentru toate categoriile C+1
(clase de obiect C plus o clasă „fundal” ), iar celălalt strat de ieșire codifică pozițiile din caseta de
delimitare definită cu 4 numere reale. Toți parametrii din aceste p roceduri sunt optimizați printr –
o pierdere multitask într -un mod „end -to-end”.
Pierderea multitask, numită L, este definită pentru a antrena clasificarea și regresia casetei de
delimitare: , unde Lcls(p,u) = -log pu,
calculează pierderea jurnalului pentru clasa de adevăr de bază u, și pu este condus de la
distribuția discretă a probabilităților p = (p0, ···, pC) peste ieșirile C + 1 din ultimul strat FC.
Lloc(t^u, v) se definește pe compensările preconizate tu = (tu x, tu y, tu w, tu h) și ținte le de
regresie a casetei de limitare a adevărului v = (vx, vy, vw, vh), unde x, y, w și h indică cele două
coordonate ale centrului, lățimii și respectiv înălțimii casetei.Funcția indicatorului de paranteză
Iverson [u ≥ 1] est e folosită pentru a omite toate R oI-urile de fundal. Pentru a oferi mai multă
rezistență împotriva valorilor exterioare și pentru a elimina sensibilitatea în gradienți de
explodare, se adoptă o pierdere lină de L1 pentru a potrivi regresoarele de legătură , după cum
urmează:

Lpu tu v ( ) Lclspu ( )u 1( )Lloctuv ()  + = tutu

,

unde

Pentru a accelera conducta Fast R -CNN, sunt necesare alte 2 metode. Pe de o parte, dacă
eșantioanele de instruire (RoI) provin din imagini diferite, propagarea se face prin stratul SPP și
astfel devine mult mai dificilă. Eșantioanele Fast R -CNN grupează ie rarhic, și anume, N imagini
eșantionate aleatoriu la început și apoi R/N RoI eșantionate în fiecare imagine, unde R reprezintă
numărul de RoI. În mod critic, calculul și m emoria sunt împărtășite de către RoI din aceeași
imagine. Descompunerea valorii singu lare trunchiate (SVD) poate fi utilizată pentru a comprima
straturi le FC mari și pentru a accelera procedura de testare. La Fast R -CNN, indiferent de
generarea de propuneri de regiune, instruirea tuturor straturilor de rețea poate fi procesată într -o
singu ră etapă, cu o pierdere multitask. Ace asta economisește cheltuielile suplimentare pentru
spațiul de stocare și îmbunătățește atât precizia, cât și eficiența cu scheme de instruire mai
rezonabile.
Arhitecturile Meta: Plasele neuronale au devenit metoda principală pentru detectarea
obiectelor de înaltă calitate în ultimii ani. În această secțiune se analizează câteva dintre cele mai
importante momente ale acestei metode. Metoda R -CNN de Girshick a fost printre primele
încarnări moderne de detectare bazată pe rețea convoluțională. Această metodă a adoptat
abordarea simplă a recoltării propunerilor de cutii calculate extern din imaginea de intrare și de a
folosi un clasificator net pe aceste domenii. Însă această abordare este costisitoare, deoarece
multe domenii sunt necesare, ceea ce duce la o calculare semnificativă din domeniile suprapuse.
Fast R -CNN a atenuat această problemă punând întreaga imagine o singură dată printr -un
extractor de caracteristici, apoi a propus decuparea dintr -un strat in termediar, astfe l încât
domeniile să împărt ășească sarcina de calcul a extragerii de caracteristici. În timp ce R -CNN și
Fast R -CNN s -au bazat pe un generator de propuneri externe, lucrările recente au arătat că este
posibil să se genereze propuneri de cutii utilizând rețele neuronale.

Lloctuv ()
ixy w h ( )smooth L1tiuvi−( ) = tutu
smooth L1x()0.5×2ifx 1 
x 0.5− otherwise 



=ifif

În aceste lucrări, este necesar să existe o colecție de cutii așezate pe imagine în diferite locații
spațiale, scale și raporturi de aspect care acționează ca „ancore” (uneori numite „superioare” sau
„cutii implicite”). Un mode l este apoi instruit pentru a face două pred icții pentru fiecare ancoră:
o predicție de clasă discretă pentru fiecare anco ră și o prezicere continuă a unui decalaj prin care
ancora trebuie să fie schimbată pentru a găsi caseta de limitare a adevărului.
Lucrările care folosesc această metodologie de ancorare, minimizează o pierdere de clasificare și
de regresie. De exemplu, pentru fiecare ancoră a, se caută cea mai potrivită casetă de verificare a
solului b (dacă există). Dacă se gasește o astfel de potrivi re, a poate fi numit o „ancoră pozitivă”
și i se atribuie o etichetă de clasă Ya ∈ {1 … K} și o codificare vectorială a căsuței b în raport cu
ancora a (numită caseta care codifică φ (ba; a)) . În cazul, în care, nu se găsește nici o potrivire,
ancora a este numită „ancoră negativă” și se setează eticheta clasei să fie Ya=0. Dacă pentru
ancora a se prezice codul floc (I; a, θ) și clasa corespunzătoare fcls (I; a , θ), und e I este imaginea
și θ parametrii modelului, atunci pierderea pentru a este măsurată ca o sumă ponderată a unei
pierderi bazate pe locație și a unei pierderi de clasificare:
unde α, β sunt greutăți care echilibrează localizarea și pierderile de clasificare . Pentru a antrena
modelul, ecuația este mediată peste ancore și minimizată în raport cu parametrii θ. Alegerea
ancorelor are implicații semnificative atât pentru precizie, cât și pentru calcul. În Multibox,
aceste ancore au fost generate prin aglomerarea casetelor de control de sol din setul de date. În
studiile mai recente, ancorele sunt generate prin crearea unei colecții de cutii la diferite scal e și
raporturi de aspect în mod regulat pe imagine. Avantajul de a avea o grilă regulată de ancore,
constă în faptul că predicțiile pentru aceste cutii pot fi scrise ca predictori pe imagine cu
parametrii partajați (adică, convoluții) și sunt o succesiune a metodelor tradiționale de ferestre
glisante, cum ar fi: hârtia “Faster R -CNN ” și cea de -a doua hârtie Multi box, care au fost primele
documente care au adoptat această nouă abordare.

2.2 YOLO
,

LaI  ( ) 1elocbaa ()flocIa  ( ) − ( )  eclsyafclsIa  ( )  ( ) + =

Pentru a realiza detectarea obiectelor în timp real, s -a propus o altă metodă fără propuneri,
numită YOLO (You Only Look Once). Această metodă folosește o singură rețea convoluțională
de feed -forward pentru a prezice în mod direct clasele și locațiile de obiecte, care nu mai necesită
o a doua operație de clasificare pentru fiecare regiune, astfel încât aceasta să fie extrem de
rapidă. SSD îmbunătățește în continuare YOLO în mai multe aspecte, ce include utilizarea unor
mici filtre de convoluție pentru a prezice categoriile și compensarea ancorei pentru locațiile
casetei de delimitare și utilizarea unor caracteristici piramidale pentru predicție la diferite scări
de caracteristici. Un alt aspect îl reprezintă utilizarea unor casete implicite și raporturile de aspect
pentru ajustarea diferitelor forme ale obiectului. În multe studii se încearcă să se proiecteze
structuri de rețea specifice pentru detectarea obiectelor, dar acestea necesită o intervenție în setul
de date de clasificare ImageNet. În mod special, YOLO definește o rețea cu 24 de straturi
convoluționale urmate de 2 straturi complet conectate. YOLO9000 îmbunătățește YOLO
propunând o nouă rețea numită Darknet -19, care este o versiune simplificată a VGGNet.
O altă ramură mai performantă,ce aparține de metoda YOLO, o reprezintă YOLOv3, care
îmbunătățește performanța prin implicarea unei conexiuni reziduale pe Darknet -19.
Metoda Y OLO a fost propusă de Redmon, și constă în utilizarea întregii hărți de top a funcțiilor
pentru a prezice ambele sfere pentru mai multe categorii. Ideea de bază a lui YOLO este
prezentată în figura următoare:

YOLO împarte imagin ea de intrare într -o grilă SxS ș i fiecare celulă este responsabilă pentru a
prezice obiectul centrat în celula de grilă. Fiecare celulă grilă prezice B BB -uri și scorurile de
confidenț ă corespunzătoare ale acestora. De obicei, aceste scoruri sunt definite ca:
,ce indică existența unor obiecte (Pr (ob iect) ≥ 0) .

În același timp, indiferent de numărul de căsuțe, probabilitățile clasei condiționale C (Pr (Classi |
Object)) trebuie să fie prezise și în fiecare celulă grilă. Se remarcă faptul că, se calculează numai
contribuția din celula grilă care con ține un obiect. În timpul testului, scorurile de confidență
specifice clasei pentru fiecare casetă sunt obținute prin înmulțirea predicțiilor de confidență ale
căsuței individuale cu probabilitățile clasei condiționale după cum urmează:
luată în considerare probabilitatea existentă de obiecte specifice clasei în casetă și soliditatea
dintre caseta prevăzută și obiect.
Într-o anumită celulă i, (xi, yi) denotă centrul casetei în raport cu limitele celulei de grilă, (wi, hi)
reprezintă lăți mea și înălțimea normalizate în raport cu dimensiunea imaginii, Ci reprezintă
scorurile de confidență, obiectul i indică existența obiectelor, iar obj ij denotă faptul că predicția
este realizată de predictorul casetei de delimitare j. Se reține faptul că, doar atunci când un obiect
este pre zent în acea celulă de grilă, funcția de pierdere penalizează erorile de clasificare. În mod
similar, atunci când predictorul este „responsabil” pentru caseta de adevăr de bază (adică, cel mai
mare IoU al oricărui predic tor din acea celulă de grilă este atins), erorile de coordonare ale
casetei de delimitare sunt penalizate. YOLO este format d in 24 de straturi conv și 2 stra turi FC,
dintre care unele straturi conv construiesc ansambluri de module de început cu 1×1 stratur i de
reducere, care sunt urmate de 3×3 straturi conv. Rețeaua utilizată poate prelucra imagini în timp
real la 45 fps, iar o versiune mai simplificată, numită Fast YOLO poate atinge 155 fps cu
rezultate mai bune decât alte detectoare în timp real. În plus, YOLO produce mai puține operații
false, ceea ce face posibilă cooperarea cu Fast R -CNN. O altă versiune îmbunătățită, YOLOv2, a
fost propusă ulterior, și aceasta adoptă mai multe strategii impresionante, cum ar fi: BN, cutiile
de ancore, grupurile pentru dimensiuni și instruirea pe mai multe scări.
YOLO are o dificultate în tratarea obiectelor mici din diferite grupuri, care este cauzată de
puternicele constrângeri spațiale impuse predicțiilor casetei de delimitare. Între timp, YOLO
, unde este
PrObject( )IOU predtruth
PrObject( )IOU predtruth PrClass iObject ( )  PrClass i ( )IOU predtruth = PrObject( )IOU predtruth PrClass iObject ( )  PrObject( )IOU predtruth PrClass iObject ( ) 

luptă să generalizeze o biectele în configurații noi sau neobișnuite și astfel produce caracteristici
relativ grosiere datorită multiplelor operații de eșantionare.

2.3 SSD

În urma problemelor care apar la metod a YOLO, Liu a propus o altă metodă de detectare, și
anume SSD. Această metodă a fost inspirată din ancorele adoptate în MultiBox, RPN și în
reprezentarea pe mai multe niveluri. Deoarece există o organizare mai specifică de caracteristici,
în loc de grilele fixe adoptate în YOLO, SSD profită de un set de cutii de ancorare implicite, cu
raporturi și scale de aspect diferit pentru a discretiza spațiul de ieșire al BB -urilor. Pentru
gestionarea obiectelor de dimensiuni diferite, rețeaua fuzionează predicții de pe mai multe hărți
de caracteristici ce au rezoluții difer ite.

Având în vedere arhitectura structurii VGG16, SSD adaugă mai multe straturi de caracteristici la
capătul rețe lei, care sunt responsabile de a prezice compensațiile la casetele implicite, cu diferite
scări și raporturi de aspect. Rețeaua este instru ită cu o sumă ponderată a pierderii d e localizare
(de exemplu, Smooth L1) și a pier derii de confidență (de exemplu, Softmax). Rezultatele
detecției sunt obținute prin efectuarea de NMS pe BB -uri definite pe mai multe niveluri. Întrucât
s-a integrat cu o ex tracție negativă dură și cu o creștere a datelor și cu un număr mai mare de
ancore implicite alese cu grijă, SSD depășește semnificativ Faster R -CNN, în termeni de precizie
pe PASCAL VOC și COCO. Cu toate acestea, SSD nu este priceput să se ocupe de obiect e mici,
ceea ce poate fi ușurat prin adoptarea unei arhitecturi mai bune a extractorului (de exemplu,

ResNet), la care se adaugă straturi de convoluție cu conexiuni de salt pentru a introduce un
context suplimentar pe scară largă și proiectarea unei struct uri de rețea mai bune.
Liu, inspirat de arhitectura Faster R -CNN, a folosit cutii de referință de diferite dimensiuni si
raporturi de aspect pentru a prezice instanțele obiectului, dar a scăpat complet de stadiul
propunerii regiunii. A reușit acest lucru făcând întreaga rețea să funcționeze ca un regresor și
clasificator. În timpul testării, mii de căsuțe implicite corespunzătoare ancorelor diferite pe
hărțile cu caracteristici diferite au învățat să discrimineze între obiect și fundal. De asemenea, au
învățat să localizeze și să prezică direct probabilitățile de clasă pentru instanțele obiectului.
Acest lucru a fost realizat cu ajutorul un ei pierderi multitask. Deoarece , în timpul deducerii,
multe căsuțe încearcă să localizeze obiectele, în general, o etapă de post -procesare, precum
Greedy NMS, este necesară pentru a suprima detectările duplicate. Pentru a găzdui obiecte de
toate dimensiunile, a adăugat straturi convoluționale suplimentare la arhitectură și le -a folosit în
locul unei singure hărți de caracteristici, pentru a îmbunătăți performanța acesteia. Această
metodă a fost aplicată ulteri or abordărilor legate și detect oarelor în două etape.
Lucrările pe detectoarele cu o singură etapă, cum ar fi YOLO și SSD, demonstrează rezultate
promițătoare, producând detectoare mai rapide cu o acuratețe de 10 -40% în raport cu metodele
din ultima etapă. În continuare, este prezentat un detector de obiecte într -o etapă care, pentru
prima dată, se potrivește cu ce cea mai modernă aplicație COCO a detectoarelor c omplexe în
două etape, cum ar fi: FPN (Feature Pyramid Network) sau Mask R -CNN, care sunt variante de
Faster R -CNN. Pentru obținerea acestui rezultat, se identifică dezechilibrul clasei în timpul
testării, ca fiind drept principalul obstacol care împiedică detectorul cu o etapă să obțină o
acuratețe de ultimă generație și propune o nouă funcție de pierdere care elimină această barieră.
Detectoare cu o etapă: OverFeat a fost unul dintre primele detectoare moderne de obiecte cu o
etapă bazată pe rețele profun de. Mai recent, SSD și YOLO au reînnoit interesul pentru metodele
cu o etapă. Acești detectori au fost reglați pentru viteză, dar precizia lor este cea a metodelor de
întreținere. SSD are un AP mai scăzut cu 10 -20%, în timp ce YOLO se concentrează asupra u nei
schimbări de viteză mai extreme.
Unele lucrări au demonstrat că detectoarele în două etape pot fi făcute rapid prin reducerea
rezoluției imaginilor de intrare și a numărului de propuneri, dar metodele cu o singură etapă au
trasat inexactitatea chiar și cu un buget de calcul mai mare. Obiectivul aceste i demonstrații
constă în înțelegerea detectoarelor cu o singură etapă, care pot să corespundă sau pot să

depășească cu exactitate detectoarele cu două etape, în timp ce rulează cu vite ze similare sau mai
rapide. Proiectarea detectorului RetinaNet are multe similitudini cu detectoarele dense, în special
conceptul de ancore introdus de RPN și utilizarea piramidelor caracteristice ca în SSD și FPN.
Acest detector obține rezultate de top, c are nu sunt bazate pe inovații în proiectarea rețelei, ci din
cauza pierderilor apărute. Detectoarele cu un singur stadiu, nu oferă, în general, performanțe mai
bune decât cele cu două etape, dar sunt mult mai rapide.
Diferitele avan taje ale strategiei YOLO, constă în faptul că este extrem de rapid, cu 45 la 150
fps. Acesta vede întreaga imagine spre deosebire de strategiile bazate pe propuneri de regiune,
care sunt utile pentru codificarea informațiilor contextuale și învață reprezentări gene ralizate ale
obiectelor.
Dar această strategie prezintă și unele dezavantaje. Deoarece fiecare celulă grilă are doar două
casuțe de delimitare, poate prezice doar cel mult două obiecte dintr -o celulă grilă. Aceasta este o
strategie deosebit de ineficientă pentru obiectele mici. Un alt dezavantaj al metodei YOLO este
că folosește harta grosieră a funcțiilor doar la o singură scară. Pentru rezolvarea acestor
probleme, SSD a folosit un set căsuțe și a considerat previziuni din diverse hărți de caracteristi ci
în loc de una. Aceasta s -a îmbunătățit odată cu performanța YOLO. Întrucât trebuie să preleveze
din aceste seturi de detecții dense la momentul testării, acesta oferă performanțe mai scăzute pe
setul de date MS COCO, în comparație cu detectoarele cu două et ape. Detectoarele de obiecte în
două etape primesc un set rar de propuneri pentru care trebuie să efectueze predicții.

Îmbunătățiri suplimentare: Redmon și Farhadi au sugerat în anul 2017, respectiv 2018, o
mulțime de modificări în versiunile 2 și 3 ale metodei YOLO. Modificări ce constau în aplicarea
normalizării lotului, folosind imagini de intrare cu rezoluție mai mare, ce elimină stratul complet
conectat și făcându -l pe deplin convolutiv,dimensiunile casetei de mulțimi, predicția locației și
instrui rea pe mai multe scări au contribuit la îmbunătățirea performanței în timp ce o rețea
personalizată (DarkNet) a contribuit la îmbunătățirea vitezei . S-au propus multe evoluții de către
diferiți cercetători, care au fost făcute pe Single Shot MultiBox Detec tor. Detectorul
deconvoluțional cu o singură fotografie (DSSD), în loc de suma înțeleaptă a elementelor, a
utilizat un modul deconvolutiv pentru a mări rezoluția straturilor superioare și a adăugat fiecare
strat, prin produse în mod elementar la stratul an terior. Rainbow SSD a propus să concateneze
caracteristicile straturilor superficiale la straturile superioare prin combinarea maximă, precum și

caracteristicile straturilor superioare pânâ la straturile superficiale prin operațiunea de
deconvoluție. Infor mația finală fuzionată a crescut de la câteva sute la 2816 canale pe harta
funcțională. Lee a propus un bloc rezidual cu 3 căi pentru a combina straturile adiacente înainte
de predicția finală. Cao a fol osit module de concatenare și module de sumă de elem ente pentru a
adăuga informații contextuale într -un mod ușor divergent. Zheng modifică ușor DSSD prin
fuzionarea unui număr mai mic de straturi și adăugarea de ConvNets , în plus pentru a îmbunătăți
viteza, precum și performanța. Toate aceste caracteristici s-au îmbunătățit în funcție de
performanțele SSD convenționale și se situează într -o gamă mică între ele în setul de teste Pascal
VOC 2012. Chen a urmărit reducerea costurilor de calcul prin partajarea treptată a informațiilor
de la scările adiacente într -o manieră iterativă. Aceștia au emis ipoteza conform căreia, prin
țeserea informațiilor iterative, informațiile contextuale cu mai multe scări pot fi transferate și
integrate la o scară actuală.
În ultimul timp, au apărut 3 candidați puternici, care au propus variante mai îndelungate pentru
înlocuirea metodelor YOLO și SSD.
1. RetinaNet : care a fost propusă de Liu.Aceasta a împrumutat structura FPN, doar că într –
un singur scenariu. Este similar cu SSD, doar că are o popularitate mai mare, ce are în
vedere o viteză mai mare și o performanță mai bună. Principalul avans al acestei metode
o reprezintă pierderea focală.
2. RefineDet: a fost propusă de Zhang, care a încercat să combine avantajele metodelor cu
două etape cu metodele cu o singură etapă prin încorporar ea a două module noi în
arhitectura clasică cu un singur stadiu. Primul stadiu, ARM ( Anchor Refinement
modules ) este utilizat la modul de detectare a mai multor stadii pentru a reduce spațiul de
căutare și, de asemenea, pentru a reafirma iterativ localizare a detecțiilor. Un alt stadiu îl
reprezintă ODM ( Object Detection Module ), care a preluat ieșirea ARM pentru a da o
clasificare a fișierelor fără granule și pentru a îmbunătăți în continuare localizarea.
3. CornerNet: a fost propus de Law și Deng. Acesta a ado ptat o nouă abordare pentru
detectarea obiectelor, precizând astfel casetele de delimitare ca puncte cheie. De
asemenea, aceștia au demonstrat că se poate scăpa de pasul de ancorare proeminent în
timp ce câștigă o precizie și o acuratețe. Ei au folosit reț ele complet convoluționale
pentru a produce hărți de căldură cu scoruri independente pentru ambele colțuri pentru

fiecare clasă. Asemănările de încorporare au fost apoi folosite pentru a le grupa în mai
multe căsuțe de delimitare.
Cu toate acestea, cele ma i multe metode utilizate în competiții până în prezent sunt
metode predominant duble, deoarece structura lor este mai potrivită pentru clasificarea
nefinită.
În urma unor observații care sunt similare cu cele ale PASCAL VOC, s -au formulat
unele ipoteze:
1. Pregătirea și testarea pe mai multe niveluri sunt benefice în îmbunătățirea
performanței de detectare a obiectelor, care furnizează informații suplimentare în
diferite rezoluții (R -FCN). FPN ș i DSSD oferă câteva modalități mai bune de a
construi piramidele caracteristice pentru a obține reprezentarea pe mai multe niveluri.
Informațiile complementare din alte activități conexe sunt de asemenea utile pentru
locali zarea exactă a obiectelor (Mask R-CNN cu sarcina de segmentare a instanțelor).
2. În general, metod ele bazate pe propuneri de regiune, cum ar fi Faster R -CNN și R –
FCN, au performanțe mai bune decât abordările bazate p e regresie , și anume YOLO
și SSD, datorită faptului că se produc destu l de multe erori de localizare prin abordări
bazate pe regresie.
3. Mod elarea contextului este utilă pentru a localiza obiecte mici, care oferă informații
suplimentare prin consultarea obiectelor din apropiere și a împrejurimilor (GBD -Net
și multipath).
4. Datorită existenței unui număr standard de obiecte mici, rezultatele aces tui set de date
sunt mult mai grave decât cele ale VOC 2007/2012. Odată cu introducerea altor cadre
puternice (de exemplu, ResNeXt) și strategii utile (de exemplu, învățarea multitask),
performanța poate fi îmbunătățită.
5. Succesul DSOD în formarea de la zer o subliniază importanța proiectării rețelei pentru
a elibera cerințele pentru clasificatorii calificați pentru sarcini relevante și un număr
mare de eșantioane adnotate.

Deep Learning în detecția pietonilor : Deși s -au obținut performanțe excelente în cee a ce privește
detectarea generică a obiectelor, niciuna din aceste abordări nu a obținut rezultate mai bune decât
cea mai bună metodă manuală bazată pe caracteristici pentru o lungă perioadă de timp. Prin

urmare, au fost efectuate unele studii pentru a analiza aceste motive. S -a încercat adaptarea
metodei Faster R -CNN pentru detectarea pietonilor. Se modifică clasificatorul de fluxuri,
adăugând câteva hărți de caracteristici conv, de înaltă rezoluție, și se folosește un RPN pentru a
gestiona instanțe mici și exemple negative. Pentru a face față ocluziilor complexe existente pe
imagini pietonale, inspirate de DPM, s -a propus un cadru de învățare profundă numit DeepParts,
care ia decizii bazate pe un ansamblu de detectori de piese extinse. DeepParts are avantaje în
tratarea datelor slab etichetate, în propuneri scăzute de IoU și în ocluzia parțială.
Bazat pe Faster R -CNN, Liu a propus DNN -uri multispectrale pentru detectarea pietonilor pentru
a combina inform ații complementare din imagini color și termice. Du a propus o arhitectură de
fuziune DNN pentru detectarea rapidă și robustă a pietonilor. Pe baza BB -urilor candidate
generate cu detectoare SSD, mai mulți clasificatori binari sunt prelucrați în paralel pe ntru a
realiza fuziunea de rețea bazată pe respingerea soft, consultând astfel și gradul lor de conținut.

CAPITOLUL 3

3.1 Rezultate experimentale

➢ Fast R -CNN

➢ YOLO

➢ SSD

3.2 Rezultate folosind alte metode de
detectare

REZUMAT

Într-un mediu care este slab supravegheat, detectoarele de obiecte trebuie să
folosească doar o adnotare la nivel de imagine. Majoritatea soluțiilor propuse până
acum se bazează p e un cadru de învățare iterativ, care au mai multe instanțe în care
clasific atorul curent este utilizat pentru a selecta casetele cu cea mai mare confidență
din fiecare imagine, care sunt tratate în iterarea următoarei instruiri. Cu toate acestea,
erorile unui clasificator imatur pot face ca pr ocesul să deriveze, introducând multe
dintre pozitivele false în setul de date de instruire. Pentru a atenua această problemă,
au fost propuse mai multe metode de intruire, care sunt bazate pe paradigma învățării
cu ritm propriu. Ideea de bază la aceste metode, constă în selectarea unui subset de
imagini și cutii care sunt cele mai de încredere și de a le utiliza pentru antrenament.
Prima metodă propusă pentru acest experiment, este metoda Fast R -CNN, care poate
fi aplicată arhitecturilor similare care reprezintă imaginea de intrare în d iferite cutii.

3.1 Rezultate experimentale

Fast R -CNN

Această metodă de detectare a obiectelor este atent supravegheată pe platforma PASCAL VOC,
deoarece principala caracteristică a acesteia este stratul de colectare RoI. Acest strat este utilizat
pentru a extrage informații specifice pentru cutiile din hărțile conv oluționale și pentru a alimenta
ramurile de clasificare ale rețelei. Recent, au fost propuse câteva abordări WSD pentru instruirea
unei rețele profunde într -un mod end -to-end, care se bazează pe arhitecturi de rețea specifice.
Pentru acest lucru, se extind e o rețea asemănătoare cu Fast R -CNN la care se folosește două
fluxuri de date diferite, respectiv se calculează o clasificare și un scor de detectare pentru fiecare
casetă candidată a unei imagini. Scorul de detecție este obținut prin folosirea unui opera tor

softmax, care produce o distribuție a probabilității peste toate regiunile de int rare, evitând astfel
atribuirea dură a poziției de adevăr la o casetă specifică, care este comună în abordările similare
MIL. Un astfel de studiu, a fost propus în abordar ea WSD, care a extins o arhitectură
introducând regiuni specifice care descriu contextul care înconjoară fiecare casetă de candidat.
Unii examinatori abordează această problemă cu mai multe etichete (de exemplu, aceeași
imagine poate conține obiecte aparți nând unor clase diferite), și propun o pierdere de clasificare
specifică pentru instruirea unei rețele de clasificare a imaginilor. Această rețea de clasificare este
utilizată pentru inițializarea unui detector bazat pe Fast R -CNN, care este instruit folos ind un
cadru MIL.
Urmărind această abordare, se proiectează o rețea de clasificare, care este folosită ca inițializare a
detectorului de obiecte, și care este testată pe platforma PASCAL VOC, unde sunt depășite
câteva rezultate. Pentru fiecare casetă candidată a unei imagini, se calculează un scor de atenție
care estimează cât de probabil este ca acea casetă să conțină un obiect de interes. Întrucât diferite
studii propun arhitecturi de rețea specifice pentru rezolvarea problemei WSD, se propune și un
protocol de instruire care poate fi utilizat cu diferite arhitecturi, cu condiția ca acestea să aibă un
strat de regiune similar cu Fast R -CNN și o imagine strategică de eșantionare bazată pe
calcularea mini -lotului SGD. Cu toate ace stea, un set suplimentar de instruire, prevăzut cu
dimensiunea adevărului de ba ză pentru fiecare obiect, este necesar pentru a instrui regresorul de
mărime, ceea ce face ca această abordare să nu fie direct comparabilă cu alte lucrări folosind
doar date sl ab supravegheate. În ultimul rând, rețeaua profundă este instruită folosind o abordare
MIL mai simplă, în care selecția anterioară de imagine bazată pe autoformarea SVM este
utilizată doar pentru a selecta un set inițial de adevăr pentru studiu.
Această re țea are ca intrare o imagine I și un set de date BB, care se explică astfel : I:B(I) = {b1,
…. ,bn}. B(I) este calculat folosind un instrument extern, care selectează de obicei subdirecțiile
de imagine ținând cont de obiectivitatea lor. Dacă se declară o funcție f, care este calculată de
rețea, aceasta va avea formula:
, unde C reprezintă numărul de clase de obiecte, și pentru
fiecare clasă C și pentru fiecare casetă de intrare bi, care aparține de B(I),
, unde sic reprezintă scorul de detecție, iar pic reprezintă caseta

fIBI() ( ) dic() = BI()BI()
dic sicpic ( ) =sic

prevăzută. Stratul de colectare RoI face posibilă calcularea eficientă a funcției f(I, B(I)) și
dependența de ieșire a rețelei de un set de casuțe B(I), care este importantă pentru formarea
sacului de BB.
Un alt aspect al metodei Fast R -CNN exploatat în protocolul de formare este acela că fiecare
mini-lot este construit folosind doar un număr mic de imagini m, unde m = 2 este indicat ca un
bun compromis între calitatea eșantioanelor și efici ența acestora. În fiecare iterație SGD sunt
extrase m = 2 imagini din T. Dacă Ij este una dintre aceste 2 im agini, pentru fiecare (yi, bi), unde
yi = {1, ….., C} reprezintă eticheta, iar bi se potrivește cu casetele din B(I) folosind criterii
spațiale comune. Protocolul propus al acestei rețele este compus dintr -o succesiune de iterații cu
ritm propriu. La o a numită iterație de tip t, se folosește rețeaua actuală f pentru a selecta un
subset de clase ușoare și probe ușoare din aceste clase. Rezultatul acestui protocol este un nou set
de formare Tt, care este utilizat pentru a antrena un nou model Wt.
Protoco lul propus este rezumat în următorul algoritm:

Intrări: T, W0, r1, M
Ieșire: Rețeaua instruită f(Wm)
1. Pentru t=1 la M:
2. P=Ɵ, Tt=Ɵ
3. Pentru fiecare (I,Y) Ꞓ T:
4. Dacă y Ꞓ Y, atunci P = P U { (I, sy, zy, y) }
5. Ct = rtC
6. S = {c1, c2,….} (S fiind subsetul cel mai ușor al clasei Ct)
7. Nt = min(rtN, |P|)
8. Pentru fiecare (I, s, z, y) Ꞓ P' : Tt = Tt U {( I, { ( y, z ) } ) }
9. V0 = W(t -1)
10. Pentru t' = 1 la Nt/m:
11. Se selectează aleatoriu : (I1, { (y1, z1) } ),……, (Im, { (ym, zm) } ) Ꞓ Tt
12. Se calculează un mini -lot MB de BB -uri folosind: (I1, { (y1, z1) } ),……, (Im, { (ym, zm)
} )
13. Se calculează Vt' folosind MB și propagarea la f(Vt' -1)
14. Wt = V(Nt/m)
15. rt+1 = rt + 1 -r1/M

Bucla interioară t', al cărei număr de iterații depinde de lungimea setului de antrenament Tt, este
echiv alentă cu pr ocedura SGD, doar că are o dife rență important ă: deoarece nu există BB, fiecare
mini-lot este calculat folosind (y,z). MB este construit folosind probe BB care sunt colectate
folosind aceleași criterii spațiale adoptate în protocolul de instruire Fast R-CNN. De asemenea,
se folosesc m = 2 imagini care sunt folosite pentru a calcula un mini -lot de BB -uri.
În această buclă, greutățile rețelei sunt denumite Vt' , la care actualizarea lor depinde de t’ și nu
de t, dar în același timp există și un singur model de rețea, care este într -o continuă evoluție.
Jumătate din datele folosite pentru detectare , unde au avut un ritm automat și au început cu
r1=0.5 și cu M=4, au continuat până la rM=1, interpolând liniar creșterile intermediare.
Experimen tele cu M=5 au obținut rezultate foarte similar e. Toți parametrii specifici metodei Fast
R-CNN sunt identici cu cei utilizați pentru definirea unei rețele preinstruite, inc lusiv valoarea
ratei inițiale de învățare (0,001), dimensiunea MB (128), scăderea gr eutății (0,0005) și impulsul
(0,9). Motivul pentru care s -au folosit valorile parametrilor folosiți și în Fast R -CNN
supravegheat și s -au urmat aceleași alegeri de proiectare (de exemp lu, modul în care este calculat
un mini -lot) constă în ajustarea valoril or parametrilor într -un scenariu slab supravegheat. În acest
fel, protocolul de formare poate fi mai ușor generalizat la abordările WSD care se bazează pe
aceeași arhitectură Fast R -CNN.
Calcularea casetelor latente: Având o imagine I, o etichetă Y și rețeaua curentă f, acestea se
calculează folosind formula ( 2):

Selecția clasei: Concurența de clasificare este utilizată și pentru a sorta toate clasele C, de la cea
mai ușoară până la cea mai dificilă.
Selectarea celor mai ușoare probe de imagine: Odată ce eșantioanele de imagine asociate cu
clasele dificile au fost eliminate din P (care reprezintă un set de ima gini care nu sunt aruncate la
iterație), se selectează un subset Tt, care corespunde cu acele imagini din f. În acest scop, se
utilizează scorul calculat folosind formula (2), în care se aranjează P într -o ordine descendentă în
funcție de aceste scoruri. A poi se selectează primele elemente de top Nt, unde Nt = min (rtN, |P |)
și rtN reprezintă legătura superioară a numărului de elemente ale lui T care urmează să fie
selectate în iterația cu ritm propriu. .Un astfel de exemplu este arătat în imaginile următoar e:
syIzyI ( ) argmax sic = syI

Concurența între clasificatori: impune o concurență între clasificatori, în care un „clasificator”
pentru clasa C este neuronul de clasificare a specificației pentru clasa C. Doar dacă, numai unul
din clasificatorii care corespund unei etichete de imagine y este mai puternic decât toate celelalte

etichete, atunci el este inclus în Tt. Această competiț ie este foarte importantă pentru a reduce
riscul de eroare și pentru a implementa o strategie de învățare cu ritm propriu, care selectează cu
prudență eșantioanele de imagini ușor inițiale. Când rețeaua devine mai matură, riscul de eroare
scade treptat și un clasificator anterior mai slab poate obține o imagine corectă. O abordare mai
simplă pentru a antrena un Fast R -CNN este de a instrui complet rețeaua cu un set de date T1,
apoi se utilizează rețeaua curentă pentru a calcula variabilele latent ale unui s et mai mare T2, iar
la final se redefinește rețeaua. Această procedură nu este doar mai lentă decât strategia de
actualizare a setul ui de date (deoarece implică o pregătire completă a detectorului pentru fiecare
iterație), dar este, de asemenea, mai puțin efectivă. Rezultatele folosind această abordare au
arătat că rețeaua depășește rapid setul de date T1 și exactitatea finală a rețelei este mult mai mică
decât ceea ce se obține folosind primul algor itm.
În continuare, sunt prezentați pașii folosiți în experimentele pe Pascal VOC și pe ILSVRC. În
ambele seturi de date s -a folosit aceeași procedură realizată în două etape: (1) instruirea unei
rețele de clasificare (CN) și (2) toate eșantioanele setului de date sunt utilizate pentru
preinstruirea clasifica torului folosind un număr mic de iterații.
În cazul setului de date ILSVRC, CN se obține urmând pașii sugerați anterior: pornind de la
AlexNet, care este preinstruit pe ImageNet (1000 clase), se definește rețeaua pentru prima dată
de pe un set de date de detectare ILSVRC 2013, care este compus din clase C = 200. Acest lucru
se realizează prin eliminarea ultimului strat de pe AlexNet și prin înlocuirea acestuia cu un strat
de ieșire de 200 de clase. Pentru definire, se utilizează un subset aleatoriu al parti ției ILSVRC
2013, dar se simulează o situație în care există acces doar la etichete la nivel de imagine. Acesta
este notat cu h, iar CN și WCN ^I sunt ponderile sale, în care I este instruit pe ILSVRC 2013.
În cazul Pascal VOC, de asemenea, se ajustează un al doilea CN, folosind doar Pascal VOC
2007. De asemenea, în acest caz arhitectura de bază este AlexNet, preinstruit pe ImageNet (1000
de clase). Cu toate acestea, având în vedere că Pascal VOC 2007 reprezintă un set de date mult
mai mic decât scindarea metodei ILSVRC 2013 și, în medie, o imagine Pascal VOC conține mai
multe obiecte cu etichete diferite decât o imagine ILSVRC 2013. De aceea, se aprobă abordarea
propusă pentru instruirea unui CN pe un set de date cu mai multe etichete, în care a utorii
înlocuiesc pierderea softmax de rețea cu o pierdere cu mai multe etichete, care este bazată pe o
etichetă vectorială cu element binar 2C. CN instruit (h^P) și greutățile coresunzătoare (WCN^P)
sunt utilizate pentru colectarea datelor de adevăr și pe ntru inițializarea Fast R -CNN pentru etapa

Init, în care se folosesc aceleași iterații SGD, iar greutățile finale sunt numite W0^P. În cele din
urmă, sunt prezente și două experimente în care arhitectura de bază este VGG -16 și procedura de
inițializare est e aceeași ca și în cazul W0^P. Obiectivul aceste strategii, constă în eliminarea
datelor zgomotoase pentru a diminua problema în derivă într -un cadru MIL. Prin urmare,
protocolul de instruire descris în primul algoritm poate fi privit ca o strategie pruden tă, unde
datele bune sunt printre preferatele altor date. Acest lucru se întâmplă foarte des și se datorează
în principal constrângerii concurenței inter -clasificatoare. Cu toate acestea, într -un scenariu
WSD, adăugarea de date greșite (zgomotoase), nu îmb unătățește calitatea instruirii.

În acest exemplu, prima coloană, arată caseta de punctaj de top pentru un set de eșantioane de
imagine corespunzătoare y și fără concurență inter -clasificatoare. Într-o abordare MIL, este
selectată zy ca fiind o dată zgo motoasă. De aceea, strategia de învățare cu ritm propriu conduce
la selectarea și utilizarea zy -ului doar în unele etape, de cele mai multe ori scăzând cantitatea
totală de zgomot.

În concluzie, acest protocol a fost propus pentru reț elele profunde într -un scenariu WSD, care
vizează reducerea cantității de zgomot în timp ce se experimentează DN -ul. Protocolul de
instruire extinde paradigm ul de învățare cu ritm propriu, prin introducerea: (1) concurenței inter –
clasificatoare ca un mecanism p uternic de reducere a zgomotului, (2) selecția de clase în care
sunt instruite în primul rând cele mai ușoare clase și (3) utilizarea stratului de regresie Fast R –
CNN pentru modificarea implicită a setului de cutii.

YOLO

YOLO reprezintă o nouă abordare a detectării de obiecte. Detectarea de obiecte se încadrează ca
o problemă de regresie la casetele de delimitare spațiale și la probabilitățile de clasă asociate. O
singură rețea neuronală prezice casetele de delimitare și probabilitățile de clasă direct din
imaginile complete într -o singură evaluare. Întrucât întreaga conductă de detectare este o singură
rețea, aceasta poate fi optimizată de la capăt direct la performanțele de det ectare . În comparație
cu sistemele de detectare de ultimă generație , YOLO face mai multe erori de localizare, dar este
mai puțin probabil să prezică falsele pozitive pe fundal. În cele din urmă, YOLO învață
reprezentări foarte generale ale obiectelor, depășește alte metode de detectare, inclusiv DPM și
R-CNN, atunci când se generalizează de la imagini naturale la alte domenii. Detectarea de
obiecte este încadrată ca o problemă de regresie, de la pixeli de imagine la coordonatele casetei
de delimitare și la probabilitățile de clasă. Folosind YOLO se poate prezice ce obiect e sunt
prezente într -o imagine și unde se află.

O singură rețea convoluțională prezice simultan mai multe cutii de delimitare și probabilități de
clasă pentru acele cutii. YOLO se antrenează pe imagini complete și optimizează direct
performanțele de detectare. Acest model are mai multe beneficii în ceea ce privește metodele
tradiționale de detectare a obiectelor.
În primul rând, YOLO este extrem de rapid. Deoarece detectarea de obiecte este considerată ca
o problemă de regresie, nu e ste nevoie de o conductă complexă. Se rulează rețeaua neuronală pe
o nouă imagine la momentul testării pentru a prezice detectările. Rețeaua de bază rulează până la
45 de cadre pe secundă, fără o procesare de lot pe un GPU Titan X, iar o versiune mai rapid ă
rulează la peste 150 de cadre pe secundă. Mai mult decât atât, YOLO atinge mai mult de două ori
precizia medie a altor sisteme în timp real.
În al doilea rând, YOLO oferă motive la nivel global atunci când face predicții. Spre deosebire
de tehnicile baza te pe propunerea de ferestre glisante și regiuni, YOLO vede întreaga imagine în
timpul antrenamentului și al timpului de testare, astfel încât codifică implicit informații
contextuale despre clase, precum și despre aspectul acestora. Fast R -CNN, o metodă de
detectare de vârf, greșește corecțiile de fundal într -o imagine pentru obiecte, deoarece nu poate
vedea contextul mai larg. YOLO face mai puțin de jumătate din numărul de erori de fundal în
comparație cu Fast R -CNN.
În al treilea rând, YOLO învață repre zentări generalizate ale obiectelor. Deoarce este instruit pe
imagini naturale și testate pe lucrări de artă, YOLO depășește metodele de top, precum DPM și
R-CNN printr -o marjă largă. Întrucât YOLO este foarte generalizabil, este mai puțin probabil să
se descompună atunci când este aplicat pe domenii noi sau intrări neașteptate. YOLO rămâne în
urma sistemelor de detecție de ultimă generație în acuratețe. În timp ce poate identifica rapid
obiectele din imagini , se străduieș te să localizeze cu precizie unele obiecte, în special cele mici.
Se unifică componentele separate ale detectării obiectelor într -o rețea neuronală unică. Rețeaua
folosește funcții din întreaga imagine pentru a prezice fiecare casetă de delimitare. De asemenea,
prezice toate casetele de de limitare din toate c lasele pentru o imagine simultană. Designul YOLO
permite pregătirea de la capăt până la sfârșit, menținând în același timp o precizie medie mare.
Sistemul împarte imaginea de intrare într -o grilă S x S. Dacă centrul unui obiect se încadrează
într-o celulă grilă, acea celulă grilă este responsabilă pentru detectarea acelui obiect.

Pentru evaluarea YOLO pe PASCAL VOC, se folosesc următoarele valori: S = 7 și B = 2.
PASCAL VOC are 20 de clase etich etate, deci C=20. Predicția finală es te un tensor 7 x 7 x 30.
Se implementează acest model ca rețea neuronală convoluțională și se evaluează pe PASCAL
VOC. Straturile convoluționale inițiale ale extrasului de rețea sunt caracteristice din imagine în
timp real, în timp ce straturile complet conectate prezic probabilitățile și coordonatele de ieșire.
Arhitectura rețelei are 24 de straturi convoluționale urmate de 2 straturi complet conectate. În
locul modulelor de început utilizate de GoogleNet, se folosesc 1 x 1 straturi de reducere, urmate
de 3 x 3 straturi convoluționale.

De asemenea, se formează o versiune rapidă a metodei YOLO, concepută pentru a împinge
limitele detectării rapide a obiectelor. Fast YOLO folosește o rețea neuronală cu mai puține
straturi convoluționale (9 în loc de 24) și mai puține filtre în acele straturi. În afară de
dimensiunea rețelei, toți parametrii de formare și testare sunt identici între YOLO și Fast YOLO.
Se pregătesc straturile convoluționale pe setul de date de concu rență ImageNet, care au 1000 de
clase. Se folosesc primele 20 de straturi convoluționale, urmate de un strat de adunare medie și
un strat complet conectat. După formarea acestei rețele, se obține o singură precizie de 88% pe
setul de validare ImageNet 2012, comparabil cu modelel e GoogleNet. Apoi se convertește
modelu l pentru a efectua detectarea, iar apoi se arată că adăugarea de straturi convolutive și
conec tate la rețelele instruite poate îmbună tăți performanța. În cele din ur mă, se adaugă 4 straturi
convoluționale și 2 stratur i complet conectate cu greutăți inițializate aleatoriu. Detectarea
necesită adesea informații vizuale neregulate, astfel încât se crește rezoluția de intrare a rețelei de

la 224 x 224 la 448 x 448. Stratul fnal prezice atât probabilitățile de clasă cât și coordonatele
casetei de delimitare. Se normalizează lățimea și înălțimea casetei de delimitare cu înălțimea și
lățimea imaginii, astfel încât acestea să se încadreze între 0 și 1. Se parametrizează căsuța de
delimitare x și coordonatele y pentru a fi compe nsate pentru o anumită locație a celulei, astfel
încât acestea să fie delimitate între 0 și 1. Se utilizează o funcție de activare liniară pentru stratul
final, iar pentru celelalte straturi se folosește următoarea activare liniară:

Eroarea cu sumă pătrată se optimizează, însă aceasta nu se aliniază perfect cu obiectivul
principal de a maximiza precizia medie. Ea mărește eroarea de localizare în mod egal cu eroarea
de clasificare, care poate să nu fie ideală. De asemenea, în fiecare imagine, mul te celule de grilă
nu conțin niciun obiect.
Eroarea în pătrat de sumă, de asemenea, cântărește în mod egal erorile din cutii mari și cutii mici.
Metrica de eroare ar trebui să reflecte faptul că abaterile mici din casetele mari contează mai
puțin decât în casetele mici. YOLO prezice căsuțe de delimi tare multiple pentru fiecare celulă de
grilă. În timpul antrenamentului, trebuie să fie existe pentru fiecare obiect un singur predictor de
casete de delimitare. Fiecare predictor devine mai bun la prezicerea anumitor dimensiuni,
raporturi de aspect sau clase de obiecte, îmbunătățind retragerea generală.
La fel ca și în procesul de formare, prezicerea detectărilor pentru o anumită imagine de test
necesită doar o evaluare a rețelei. Pe platforma PASCAL VOC, rețeaua prevede 98 de casete de
delimitare pe imagi ne și probabilități de clasă pentru fiecare casetă. Metoda YOLO este extrem
de rapidă în timpul testului, deoarece necesită doar o evaluare de rețea unică, spre deosebire de
metodele clasificate. Proiectarea grilei aplică diversitatea spațială în previziun ile casetei de
delimitare. De cele mai multe ori, este clar în ce celulă de grilă intră un obiect și rețeaua prezice
doar o cutie pentru fiecare obiect.
Limitările YOLO: YOLO impune restricții spațiale puternice predicțiilor casetelor de
delimitare, deoar ece fiecare celulă grilă prezice doar două cutii și poate avea o singură clasă.
Această constrângere spațială limitează numărul d e obiecte din apropiere pentru un anumit
model. Întrucât modelul învață să prezică casetele de delimitare din date, acesta se s trăduiește să
generalizeze obiectele în raporturi sau c onfigurații de aspect noi sau neobișnuite. Acesta
folosește diferite funcții pentru a prezice casetele de delimitare, deoarece arhitectura poate avea
x()xx 0
0.1x otherwise =

mai multe straturi de prelevare de probe din imagi nea de intrare. În timp ce se lucrează la o
funcție de pierdere care să aproximeze performanța de detectare, funcția inițială tratează aceleași
erori în casetele de delimitare mici față de casetele de delimitare mari. O eroare mică într -o cutie
mare este î n gene ral benignă, dar o eroare mică î ntr-o cutie mică are un efect mult mai mare.
Comparație cu alte sisteme de detecție: Detectarea obiectelor este o problemă de bază în
viziunea computerului. Conductele de detecție încep, în general, prin extragerea unui set de
caracteristici robuste din imaginile de intrare. Apoi, clasificatorii sau localizatorii sunt folosiți
pentru a ide ntifica obiectele din spațiul caracteristicilor. Acești clasificatori sau localizatori se
execută fie în modul ferestrelor glisante pe întreaga imagine, fie pe un anumit subset de regiuni
din imagine.
Modelele de piese deformabile (DPM) utilizează o abord are a ferestrei glisante pentru detectarea
obiectelor. DPM folosește o conductă disjunctă pentru extragerea caracteristicilor statice,
clasificarea regiunilor, prezicerea casetelor de delimitare pentru regiunile cu punctaj mare.
Rețeaua realizează extrager ea de caracteristici, predicția casetei de delimitare, suprimarea non –
maximă și raționamentul contextual toate simultan. În loc de caracteristici statice, rețeaua
antrenează funcțiile în linie și le optimizează pentru sarcina de detectare.
R-CNN și variant ele sale utilizează propuneri de regiune în loc de ferestre glisante pentru a găsi
obiecte din imagini. Căutarea selectivă generează căsuțe de delimitare potențiale, o rețea
convoluțională extrage caracteristici, un SVM marchează casetele, un model liniar ajustează
casetele de delimitare și suprimarea non -maximă elimină detectările duplicate. Fiecare etapă a
acestei conducte complexe trebuie să fie reglată cu precizie , iar sistemul rezultat este foarte lent,
luând mai mult de 40 de secunde pe imagine în mom entul testării .
YOLO împărtășește unele asemănări cu R -CNN. Fiecare celulă de grilă propune căsuțe de
delimitare potențiale și punctează acele cutii folosind caracteristici convolutive. Cu toate acestea,
sistemul pune constrângeri spațiale pe propunerile d e celule de grilă care ajută la atenuarea mai
multor detecții ale aceluiași obiect. Alte detectoare rapide, cum ar fi Fast R -CNN și Faster R –
CNN se concentrează pe accelerarea cadrului R -CNN prin partajarea calculelor și folosirea
rețelelor neuronale pentr u a propune regiuni în loc de căutare selectivă. În timp ce oferă
îmbunătățiri de viteză și precizie față de R -CNN, ambele nu au performanțe în timp real. Acestea
accelerează calculul HOG, folosesc cascade și împing calculele către GPU. Cu toate acestea,
numai 30Hz rulează de fapt în timp real. În loc de a încerca optimizarea componentelor

individuale ale unei conducte mari de detectare, YOLO aruncă conducta în întregime și este
rapid prin proiectare. Detectoarele pentru clase individuale precum fețele sau persoanele pot fi
extrem de optimizate, deoarece acestea trebuie să facă față unei variații mult mai mici. YOLO
este un detector de scop general care învață să detecteze simultan o varietate de obiecte.
În continuare, s unt prezentate experimentele metodei YOLO pe diferite platforme.
Se începe cu compararea metodei YOLO cu alte sisteme de detecție în timp real pe PASCAL
VOC 2007. Pentru a înțelege diferențele dintre variantele YOLO și R -CNN, se verifică erorile
de la VO C 2007 făcute de YOLO și Fast R -CNN. Pe baza diferitelor programe de eroare, se
arată că YOLO poate fi utilizat pentru a rescrie detectările metodei Fast R-CNN și pentru a
reduce erorile din pozitivele false de fundal, oferind un impuls semnificativ de per formanță. În
cele din urmă, se arată că YOLO generalizează domenii noi mai bine decât alți detectori pe două
seturi de date de lucrări. Multe eforturi de cercetare în detectarea obiectelor se concentrează pe
realizarea rapidă a conductelor de detectare sta ndard. De aceea, se propune o altă metodă mai
rapidă, și anume Fast YOLO.
Fast YOLO este cea mai rapidă metodă de detectare a obiectelor pe PASCAL VOC. Cu 52,7%
mAP, este de mai mult de două ori mai exact decât lucrările anterioare de detectare în timp re al.
YOLO împinge mAP la 63,4% , menținând în același timp performanța în timp real. De
asemenea, antrenarea metodei YOLO se face folosind VGG -16. Acest model este mai precis, dar
semnificativ mai lent decât YOLO. Este util în comparație cu alte sisteme de detectare care se
bazează pe VGG -16, dar este mai lent în timp real. Deși este mult mai rapid decât R -CNN, este
totuși lipsit de timp real și are o precizie semnificativă, care nu are propuneri bune. Fast R -CNN
accelerează etapa de clasificare a metodei R -CNN, dar se bazează în continuare pe căutarea
selectivă, care poate dura aproximativ 2 secunde pe imagine pentru a genera propuneri de caset ă
de delimitare. Astfel, are un mAP mare, dar la 0,5 fps este încă departe de timpul real.
Faster R -CNN înlocuiește căutarea selectivă cu o rețea neuronală pentru a propune căsuțe de
delimitare. Versiunea VGG -16 a metodei Faster R -CNN este mai mare cu 10 mAP, dar este de
asemenea de 6 ori mai lentă decât YOLO. Faster R -CNN este de doar 2,5 ori mai lent decât
YOLO, dar e ste și mai puțin precis.
Pentru a examina diferențele dintre YOLO și detectoarele de ultimă generație, se realizează o
analiză detali ată a rezultatelor pe platforma VOC 2007. Se compară YOLO cu Fast R -CNN,
deoarece Fast R -CNN este unul dintre detectoarele cu cele mai mari performanțe pe PASCAL

VOC, iar detectările sale sunt mult mai disponibile. Pentru fiecare categorie la momentul testării ,
se verifică cele mai bune predicții N pentru acea categorie. Fiecare predicție este corectă sau este
clasificată în funcție de tipul de eroare:

În această figură, este prezentată prăbușirea fiecărui tip de eroare medie în toate cele 20 de clase.
YOLO încearcă să localizeze corect obiectele. Erorile de localizare reprezintă mai multe erori ale
metodei YO LO decât toate celelalte surse combinate. Fast R -CNN face mai puține erori de
localizare, dar mult mai multe erori de fundal. Faster R -CNN este aproape de 3 ori mai probabil
să prezică detectări de fond decât YOLO.
Combinând Fast R -CNN și YOLO, metoda YOL O face mai puține greșeli decât Fast R -CNN.
Folosind YOLO pentru a elimina detectările de fundal din Fast R -CNN, se obține o îmbunătățire
semnificativă a performanței. Pentru fiecare casetă de limitare prevăzută de R -CNN, se verifică
dacă YOLO prezice o ca setă simila ră. Dacă se întâmplă, acestei predicții i se oferă un impuls
bazat pe probabilitatea prevăzută de YOLO și suprapunerea dintre cele două casete. Cel mai bun
model Fast R -CNN realizează un mAP de 71,8% la testul VOC 2007. Când este combinat cu
YOLO, mAP -ul său crește cu 3,2% până la 75,0%. Sporul de la YOLO nu este pur și simplu un
produs secundar al modelelor asamblate, deoarece există prea puține avantaje de la combinarea
diferitelor versiuni ale metodei Fast R -CNN. Din păcate, această combinație nu beneficiază de
viteza YOLO din moment ce se rulează fiecare model separat și apoi se combină rezultatele. Cu

toate acestea, întrucât YOLO este atât de rapid, nu adaugă nici un timp de calcul semnificativ în
comparație cu Fast R -CNN.
Pe testul VOC 2012, YOLO punctează 57,9% mAP. Acesta este mai mic decât stadiul actual al
tehnicii, și este mai aproape de R -CNN original folosind VGG -16. Cu toate acestea, pe alte
categorii (de exemplu, pisica, trenul), YOLO obține performanțe mai mari. Modelul Fa st R-CNN
și YOLO este una dintre cele mai performante metode de detectare. Fast R -CNN obține o
îmbunătățire de 2,3% din combinația cu YOLO. YOLO are performanțe bune la VOC 2007, iar
AP-ul său se degradează mai puțin decât alte metode atunci când este apli cat pe lucrări de artă.
Ca și DPM, YOLO modelează dimensiunea și forma obiectelor, precum și relațiile dintre obiecte
și unde apar în mod obișnuit obiecte. Lucrările de artă și imaginile naturale sunt foarte diferite la
nivel de pixeli, dar sunt similare î n ceea ce privește dimensiunea și forma obiectelor, astfel
YOLO poate încă prezice căsuțe și detectări bune de delimitare. YOLO este un detector rapid și
precis de obiecte, ceea ce îl face ideal pentru aplicațiile de vizualizare a computerului.

Sistemul rezultat este interactiv și instruit. În timp ce YOLO prelucrează imaginile individual,
atunci când este atașat la o cameră web, acesta funcționează ca un sistem de urmărire, detectând
obiecte în timp ce se mișcă și își schimbă aspectul.
În conclu zie, YOLO este un model unificat pentru detectarea obiectelor. YOLO este instruit pe o
funcție de pierdere care corespunde direct performanței de detectare și întregul model este
instruit în comun. Fast YOLO este cel mai rapid detector de obiecte, iar YOLO împinge starea de

ultimă generație în detectarea obiectelor în timp real. Yolo generalizează bine și domeniile noi,
ceea ce îl face ideal pentru aplicațiile care se bazează pe detectarea rapidă și robustă a obiectelor.

SSD

Termenul SSD se referă la arhitecturi care folosesc o rețea convoluțională unică feed – forward
pentru a prezice direct clasele și ancorarea compensațiilor fără a necesita o a doua etapă pentru
operațiunea de clasificare. În cadrul acestei definiții, meta -arhitectura SSD a fost ex plorată într -o
serie de precursori.

Atât Multibox, cât și faza de propunere a rețelei de regiune (RPN) din Faster R -CNN, folosesc
această abordare pentru a prezice propunerile de casete agnostice. SSD este folosit pentru a
prezice etichetele de clasă f inale. Această idee a fost propusă pentru a defini cutiile, clasele și
pozele. În Faster R -CNN și R -FCN, modelele sunt instruite pe imagini scalate la M pixe li pe
marginea mai scurtă, unde în SSD, imaginile sunt întotdeauna r edimensionate la o formă fixă
MxM. Evaluarea fiecărui model este explorată pe imagini cu scară redusă, ca mod de a
tranzacționa exactitatea pentru viteză. În special, sunt pregătite versiuni cu rezoluție înaltă și
joasă pentru fiecare model. În setările de “înaltă rezoluție ”, se setează M = 600, iar în setarea

„rezoluție scăzută” , se setează M = 300. În ambele cazuri, aceasta înseamnă că metoda SSD
procesează în medie mai puțini pixeli decât un model Faster R -CNN sau R -FCN cu toate
celelalte variabile menținute constant.
Se formează toate modelele de la capăt până la sfârșit folosind actualizări de gradient asincrone
pe un cluster distribuit. Pentru Faster R -CNN și R -FCN, se folosește SGD cu impuls cu
dimensiuni de lot d e 1 (datorită faptului că aceste modele sunt instruite folosind dimensiuni
diferite de imagine ), iar pentru SSD, se folosește RMS Prop cu dimensiuni de lot 32 (în unele
excepții este redusă dimensiunea lotului din motive de memorie).
Introducerea unor repere standard precum ImageNet și COCO a făcut mai ușoară compararea cu
exactitate a metodelor de detecție. Cu toate acestea, când vine vorba de viteză și memorie,
comparațiile au fost mai dificile. Unele lucrări s -au optimizat pentru pr ecizie, iar altele pentru
viteză. În unele cazuri, valorile sunt raportate folosind seturi de instruire usor diferite (de
exemplu, set de instruire COCO vs. formarea combinată + seturile de validare). Pentru o
efectuare mai bună a comparațiilor, s -a creat o platformă de detecție în fluxul Tensor, și s -au
creat conducte de pregătire pentru meta -arhitecturi SSD, Faster R -CNN și R -FCN pe această
platformă. Dispunerea de un cadru unificat a permis schimbarea cu ușurință a arhitecturilor
extractoare de funcții, pentru a exista în fluxul de tensiune, deoarece permite o portabilitate
ușoară către diverse platforme pentru implementare. Liu a arătat că în setarea SSD, utilizarea mai
multor hărți de caracteristici pentru a face locații și predicții de confidență la sc ări multiple este
esențială pentru performanțe bune. În unele experimente, se urmărește metodologia acestor
extractoare foarte profund, selectând întotdeauna cea mai înaltă hartă a caracteristicilor
convolutive și o hartă a caracteristicilor de rezoluție mai înaltă la un nivel inferior, iar apoi se
adaugă o secvență de straturi convolutive cu o rezoluție spațială în descompunere cu un factor de
2 cu fiecare strat suplimentar utilizat pentru predicție. De asemenea, se folosește normalizarea
lotului în toate straturile suplimentare. Se evaluează toate combinați ile de meta -arhitecturi și de
extractoarele de caracteristici. În special, rețelele Inception nu au fos t niciodată utilizate în cadrul
metodei Faster R -CNN și până de curând nu au fost aprovizionate în mod deschis.
Deoarece, se folosește normalizarea lotul ui în toate straturile suplimentare, se inițializează și
greutățile cu o distribuție normal trunchiată cu o abatere standard de σ = .03. Cu excepția
mecanismului VGG, nu se efectuează normalizarea stra tului, deoarece nu este necesar pent ru

celelalte extrac toare. În ce le din urmă, se efectuează o instruire distribuită cu SGD asincron
folosind 11 mașini de lucru.
VGG : Se folosesc straturi de tip conv4_3 și fc7, adăugând 5 straturi convoluționale suplimentare
cu o rezoluție spațială în descompunere. Se aplică normaliz area L2 la stratul conv4_3, scalâ nd
norma de caracteristică la fiecare locație din harta caracteristicilor la o scară de învățare, s, care
este inițiată la 20,0.
Resnet101 : Folosind harta caracteristicilor din ultimul strat al blocului conv4, se obține o
dimensiune a pasului de 8 pixeli. Se adaugă 5 straturi convoluționale suplimentare cu o rezoluție
spațială în descompunere, care are adâncimi 512, 512, 256, 256, 128. De a semenea, se încearcă
și introducerea hărții caracteristice din ultimul strat al blocului conv5. Cu folosirea
caracteristicilor conv5, numerele m AP sunt foarte similar e, dar costurile de calcul sunt mai mari.
Prin urmare, se utilizează ultimul strat al bloc ului conv4.
Inception V2 : Folosind Mixed_4c și Mixed_5c, se adaugă 4 straturi convoluționale suplimentare
cu rezoluția de decădere cu adâncimi de 512, 256, 128. Se utilizează ReLU ca funcție non -liniară
de activare pentru fiecare strat conv. În timpul ex perimentului, se folosește o rată de învățare de
bază de 0,0005, urmată de o scădere a ratei de învățare de 0,95 la fiecare 800k pași.
MobileNet : Se utilizează conv_11 și conv_13 și se adaugă 4 straturi convoluționale suplimentare
cu o rezoluție în descom punere cu adâncimi 512, 256, 256, 128. Funcția de activare non -liniară
care este folosită este ReLU6 și ambii parametri de normă de lot β și γ sunt instruiți. În timpul
pregătirii, se folosește o rată de învățare de bază de 0,004, urmată de o scădere a ratei de învățare
de 0,95 la fiecare 800k.
La capătul frontierei de optimitate, se observă că modelele SSD cu Inception V2 și extractoarele
MobileNet sunt cele m ai exacte dintre cele mai rapide modele. De asemenea, există o strategie în
mijlocul frontierei de optimitate, care este ocupată de modelele R -FCN care utilizează
extractoare cu caracteristici de rețea reziduală, care par să facă cel mai bun echilibru într e viteză
și precizie. În cele din urmă, modelele Faster R -CNN și Resnet pot atinge viteze similar e dacă se
limitează numărul de propuneri la 50. Cu toate acestea, aceste modele sunt l ente, necesitând
aproape o secun dă de timp de procesare.

În această figură, se prezintă performanța pentru diferite modele pe diferite dimensiuni de
obiecte. Se observă că, deși modelele SSD au de obicei performanțe slabe pe obiecte mici, ele
sunt competitive cu Faster R -CNN și R -FCN pe obiecte mari, chiar depășind aceste meta –
arhitecturi pentru extractoarele mai rapide și mai ușoare. Din unele experimente, se observă o
scădere a rezoluției cu un factor de 2, iar în ambele dimensiuni scade în mod constant precizia
(cu 15,88% în medie), dar reduce și timpul de infer ență cu un factor relativ de 27,4% în medie.
De asemenea, se observă că performanțele puternice pe obiecte mici implică performanțe
puternice pe obiecte mari, dar nu și invers, întrucât modelele SSD se descurcă bine pe obiecte
mari, dar nu și pe cele mici.

În aceste imagini, se poate o bserva o comparație între cele 4 fișiere ale detectoarelor care se află
pe frontiera optimă a graficului de schimbare cu precizie a vitezei. Pentru vizualizare, se
selectează detectările cu scor mai mare decât un prag și se reprezintă cele mai bune 20 de
detectări din fiecare imagine. S e folosește un prag de .5 pentru Faster R -CNN și R -FCN, și un
prag de .3 pentru SSD. Aceste praguri au fost reglate manual pentru o atractivitate vizuală și nu
folosind criterii riguroase. De -a lungul experimentelor, toate detectoarele funcționează în mod
rezonabil la obiecte mari, doar SSD își arată slăbiciunea sa asupra obiectelor mici.

În concluzie, comparația dintre diferitele aspect care influențează viteza și acuratețea
detectoarelor moderne de obiecte influențează evoluția. De asemenea, se identifică câteva tehnici
noi pentru îmbunătățirea vitezei, fără a se oferi prea multă precizie , cum ar fi utilizarea unor
propuneri mai puține decât este de obicei pentru Faster R -CNN.

3.2 Rezultate folosind alte metode de
detectare

1. COCO

Este un nou set de date, ce are ca scop avansarea stadiului de ultimă generație în
recunoașterea obiectelor. Acest lucru se realizează prin strângerea de imagini cu scene
complexe de zi cu zi care conțin obiecte comune în contextul lor natural. Obiectele sunt
etichetate folosind segmentări per -instanță pentru a ajuta la localizarea preci să a
obiectelor. Crearea setului de date a fost bazată pe o implicare extinsă prin intermediul
unor intefețe de utilizator i noi pentru detectarea categoriilor, identificarea de categorii și
segmentarea instanțelor. În cele din urmă, se oferă o analiză a pe rfomanței de bază pentru
rezultatele detectării casetei de delimitare și a segmentării folosind un model de piese
deformabile. Obiectivul principal al acestei metode îl reprezintă înțelegerea scenelor
vizuale.
Înțelegerea scenelor implică numeroase sarcini, inclusiv recunoașterea obiectelor
prezente, localizarea obiectelor 2D și 3D, determinarea atributelor obiectelor și a scenei,
caracterizarea relațiilor dintre obiecte și furnizarea unei descrieri semantice a scenei. De
exemplu, setul de date ImageNet, care conține un număr fără precedent de imagini, a
permis descoperiri atât în cercetarea de clasificare cât și în cea de detectare a obiectelor.
De asemenea, s -au creat seturi de date care conțin atribute obiect, atribute scenă, puncte
cheie și informații despre scenele 3D. Se introduce un nou set de date la scară largă, care
abordează 3 probleme de cercetare de bază în înțelegerea scenei: detectarea punctelor de
vedere non -iconice ale obiectelor, raționamentul contextual între obiecte și lo calizarea
precisă 2D a obiectelor. Pentru multe categorii de obiecte, există o vedere iconică. De

exemplu, atunci când se efectuează o c ăutare de imagini pe web pentru categoria de
obiecte „bicicletă” , exemplele preluate de rangul cel mai înalt apar în fiș ier.
Sistemele actuale de recunoaștere funcționează destul de bine pe punctele iconice, dar se
străduiesc să recunoască obiectele altfel: în fundal, în mijlocul aglomerării, reflectând
compoziția scenelor actuale de zi cu zi. Identitatea multor obiecte poa te fi rezolvată doar
folosind contextul, datorită dimensiunilor mici sau aspectului ambiguu din imagine.
Pentru a verifica cercetarea în raționamentul contextual, sunt necesare imagini care
prezintă scene și nu obiecte izolate. Locația obiectului poate fi definită folosind o casetă
de delimitare sau o segmentare precisă a nivelului de pixeli.

Pentru a crea un set de date la scară largă care să îndeplinească aceste 3 obiective, se
folosește o conduct ă nouă pentru colectarea datelor cu utilizarea extensivă a platformei
Amazon Mechanical Turk.
În primul rând, se recoltează un set mare de imagini care conțin relații conte xtuale și
vizualizări de obiect non-iconic. Acest lucru s -a realizat folosind o tehni că simplă, dar
eficientă, care solicită perechi de obiecte împreună cu imaginile preluate prin interogări
bazate pe scenă. Fiec are imagine a fost etichetată că deține anumite categorii de obiecte

folosind o abordare de etichetă ierarhică. Pentru fiecare ca tegorie găsită, instanțele
indiv iduale au fost etichetate, verificate și segmentate definitiv.
Datele Microsoft Common Objects in COntext (MS COCO) conțin 91 de categorii de
obiecte comune, dintre care 82 au peste 5000 de instanțe etichetate.

În total, setul de date are 2.500.000 de instanțe etichetate în 328.000 de imagini. Spre
deosebire de setul de date ImageNet, COCO are mai puține categorii, dar mai multe
instanțe pe categorie. Acest lucru poate ajuta la învățarea modelelor detaliate de obiec te
capabile de localizare 2D precisă. Setul de date este, de asemenea, semnificativ mai mare
în număr de instanțe pe categorie decât seturile de date PASCAL VOC și SUN. În plus, o
distincție critică între setul de date COCO și altele este numărul de instan țe etichetate pe
imagine. În schimb, setul de date SUN, care conține informații contextuale semnificative,
are peste 17 obiecte pe imagine, dar în general, mai puține instanțe pe obiect.
Clasificarea imaginilor : Clasificarea obiectelor necesită etichete bi nare care să indice
dacă obiectele sunt prezente într -o imagine. Seturile de date de acest tip au cuprins
imagini care conțin un singur obiect cu fundaluri goale, cum ar fi cifrele scrise de mână

MNIST sau obiecte casnice COIL. Caltech 101 și Caltech 256 au marcat trecerea la
imagini de obiecte mai realiste preluate de pe internet, crescând, de asemenea, numărul
de categorii de obiecte la 101, respectiv 256. În timp ce aceste seturi de date conțineau
până la 60.000 de imagini și sute de categorii, acest ea încă au capturat doar o mică parte
din lumea vizuală.
Detectarea obiectelor : Detectarea unui obiect presupune atât declararea unui obiect
aparținând unei clase specificate, cât și localizarea acestuia în imagine. Locația unui
obiect este reprezentată de o casetă de delimitare. Algoritmii timpurii s -au concentrat pe
detectarea fețe i folosind diverse seturi de date ad hoc. Ulterior, au fost create seturi de
date de detecție a feței mai realiste și provocatoare. O altă provocare populară este
detectarea pietonilor pentru care au fost create mai multe seturi de date. Pentru detectarea
categoriilor de obiecte de bază, un efort multi anual din 2005 până în 2012 a f ost dedicat
creării și întreține rii unei serii de seturi de date de referință care au fost adoptate pe scară
largă. Seturile de date PASCAL VOC conțineau 20 de categorii de obiec te distribuite pe
11.000 de imagini. A fost creată o provocare de detectare din 200 de categorii de obiecte
folosind un subset de 400.000 de imagini ImageNet. Întrucât detectarea multor obiecte,
cum ar fi ochelarii de soare, telefoanele mobile sau scaunele depind foarte mult de
informațiile contextuale, de asemenea, este important ca seturile de date de detecție să
conțină obiecte în mediile lor naturale. Utilizarea casetelor de delimitare reduce, de
asemenea, precizia pentru care pot fi evaluați algoritmii de detectare.
Detectarea căsuței de delimitare : Se utilizează un subset de 55.000 de imagini din setul de
date1 și se obțin casete de delimitare de fixare de la măștile de segmentare adnotate. Se
evaluează modelele testate atât pe MS COCO, cât și pe PASCA L. Se evaluează o metodă
nouă, și anume DPMv5 -P, care este cea mai recentă implemenatare instruită pe
PASCAL. O altă metodă este DPMv5 -C, care este o implementare instruită pe COCO
(5000 de imagini pozitive și 10 .000 de imagini negative ). Dacă se compară performanța
medie a DPMv5 -P pe PASCAL VOC și MS COCO, se constată că performanța medie pe
MS COCO scade cu aproape un factor de 2, sugerând că MS COCO include mai multe
imagini dificile (non -iconice) ale obiectelor care sunt parțial ocluse, în mij locul
aglomerării . Se o bservă o scădere similară a performanței pentru modelul instruit pe MS

COCO (DPMv5 -C). Efectul asupra performanței de detectare a antre namentului asupra
PASCAL VOC sau MS COCO poate fi analizat prin compararea DPMv5 -P și DPMv5 -C.
În unele categorii (de exemplu, câine, pisică, oameni), modelele antrenate pe MS COCO
sunt mai slabe, în timp ce pe altele (de exemplu, autobuz, tv, cal), modelele antrenate pe
alte date sunt mai bune.

2. DSOD
Metoda DSOD reprezintă un cadru de detectare pe mai multe niveluri și fără propuneri. Structura
de rețea a DSOD poate fi împărțită în două părți: sub -rețeaua vertebrală pentru extragerea
caracteristicilor și sub -rețeaua front -end pentru predicție asupra hărților caracteristice cu
rezoluție multiplă. Sub -rețeaua vertebrală este o variantă a structurii DenseN ets, care este
compusă dintr -un bloc tulpină, 4 blocuri dense, 2 straturi de tranziție fără grupe. Sub -rețeaua
front -end fuzionează răspunsuri de predicție pe mai multe scări cu o structur ă densă elaborată.
În figura următoare, se ilustrează straturile de predicție DSOD propuse împreună cu structura
simplă folosită în SSD.

Se evaluează fiecare componentă și principiul de proiectare corespunzător:
– DSOD este primul cadru care poate antrena detectoarele de obiect de la zero cu
performanțe promițătoare;

– Se validează un set de principii pentru a proiecta rețele eficiente de detectare a obiectelor
de la zero;
– DSOD poate obține performanțe comparabile cu cele mai performante (de exemplu,
PASCAL VOC 2007, PASCAL VOC 2012 și MS COCO), între timp, are viteză de
procesare în timp real și modele mai compacte.
DSOD poate procesa o imagine în 48,6 ms (20,6 fps) pe un singur GPU Titan X cu o structură de
predicție simplă, și 57,5ms (17,4 fps) cu o structur ă de predicție densă. Între tim p, a fost
dezvoltată o altă metodă, și anume DSOD300, care are o structură de previziune densă ce
îmbunătățește rezultatul până la 77,7%.
În continuare, se experimentează această metodă pe diferite platforme :
1. Rezultate pe PASCAL VOC 2012: se folosește VOC201 2 trainval și VOC 2007
trainval+ test pentru antrenament și se testează pe setul de date VOC 2012. Rata inițială
este stabilită la 0,1 pentru primele iterații de 30k, apoi este împărțită la 10 după fiecar e
iterație de 20k. Iterațiile totale de formare sunt de 110k. DSOD300 realizează 76,3%
mAP și reprezintă un rezultat mai bun decât SSD300 (75,8%).
2. Rezultate pe MS COCO: MS COCO conține imagini de 80k pentru antrenament, 40k
pentru validare și 20k pentru t estare. Se folosește setul trainval pentru antrenament, în
care mărimea lotului este stabilită la 128. Rata inițială este setată la 0,1 pentru primele
iterații de 80k, apoi împărțite la 10 după fiecare iterație de 60k. Numărul total de iterații
de formare este de 320k.

CONCLUZII

Detectarea obiectelor a reprezentat un punct de cercetare în ultimii ani, datorită abilității sale de
învățare și a avantajelor în abordarea ocluziei, a trasformării la scară și a comutărilor de fundal.
În această lucrare se prezintă o revizuire detaliată asupra cadrelor de detectare a obiectelor bazate
pe învățarea profundă, care gestionează diferite probleme, cum ar fi ocluzia, dezordinea și
rezoluția scăzută, cu diferite modificări pe R -CNN.
Această revizuire este semnifica tivă și pentru evoluția rețelelor neuronale și a sistemelor de
învățare aferente, care oferă informații valoroase pentru un progres mai bun.
În prima parte a lucrării sunt prezentate metodele de detectarea a obiectelor pe diferite platforme,
cât și etapele care stau la baza acestui proces. Sunt prezentate și câteva diferențe experimentale
dintre diferite metode, care influențează viteza și precizia detectoarelor moderne de obiecte.
În ultima parte a lucrării sunt prezentate rezultatele experimentale folosin d metodele principale
de detectare a obiectelor, exemplificând acest lucru prin diferite imagini, ce conțin obiecte de
dimensiuni mari, cât și obiecte de dimensiuni mici. Prin acest experiment, se observă ș i care
metodă folosită în dete ctarea obiectelor este și cea mai exactă, în ceea ce privește recunoașterea
obiectelor de dimensiuni mai mici.

BIBLIOGRAFIE

[1] R. Girshick et al., “Rich feature hierarchies for accurate object detection and
semantic segmentation,” in Proc. CVPR, 2014
[2] R. Girshick, “Fast R -CNN,” in Proc. ICCV, 2015
[3] Y. Li, K. He, J. Sun, et al., “R -FCN: Object detection via region based fully
convolutional networks,” in Proc. Int. Conf. Neural Inf. Process. Syst., 2016
[4] Joseph Redmon, Santosh Divvala, Ross Girshick, and Ali Farhadi. You only look
once: Unified, real -time object detection,2016
[5] Chenyi Chen, Ming -Yu Liu 000 1, Oncel Tuzel, and Jianxiong Xiao. R -CNN for
Small Object Detection. Computer Vision – ACCV 2016 – 13th Asian Conference on
Computer Vision, Taipei, Taiwan, November 20 -24, 2016
[6] S. Ioffe and C. Szegedy. Batch normalization: Accelerating deep network training by
reducing internal covariate shift. arXiv preprint arXiv:1502.03167, 2015
[7] K. Simonyan and A. Zisserman, “Very deep convolutional networks for large -scale
image recognition,” arXiv:1409.1556, 2014
[8] T. Lin, M. Maire, S. Belongie , J. Hays, P. Perona, D. Ramanan, P. Doll´ar, and C. L.
Zitnick, “Microsoft COCO: Common objects in context,” in ECCV, 2014.
[9] Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi; The IEEE Conference
on Computer Vision and Pattern Recognition (CV PR), 2016

Similar Posts