Proiect De Diplomă Draghici Mihai (v2) [306826]

PROIECT DE LICENȚĂ

Coordonator științific:

Conf. Univ. Dr. Ing. EUGENIE POSDĂRĂSCU

Absolvent: [anonimizat]:

CONF. UNIV. DR. ING. EUGENIE POSDĂRĂSCU

Absolvent: [anonimizat] , acest sistem este folosit pentru indicarea șoferului sau a unei mașini inteligente asupra unor anumiți parametrii pentru asigurarea siguranței în mers dar și pentru asistarea acestora în alegerea unor decizii referitoare la drumul ales.

Absolvent: [anonimizat]

1.1. Modelul RGB

1.2. Modelul CMYK

1.3.Tonuri de gri

Capitolul II Formarea imaginii …………………………………………………………………….

2.1. Ochiul uman v.s Camera de luat vederi ……………………………………………………

2.1.1. Anatomia și fiziologia ochiului uman……………………………………………………

2.1.2. Aparatul de fotografiat……………………………………………………………………….

2.2. Reprezentarea imaginilor……………………………………………………………………………

2.3.Calitatea imaginilor…………………………………………………………………………………….

Capitolul III Aplicații ale sistemelor de detectare si recunoaștere automata a imaginii………………………………………………………………………………………………………..

3.1. Considerații generale……………………………………………………………………………….

3.2. Clasificare……………………………………………………………………………………………….

Capitolul IV Algoritmi folosiți în prelucrarea imaginilor……………………………………

4.1. Segmentare…………………………………………………………………………………………………

4.2. Clasificarea formelor ………………………………………………………………………………….

4.3. Recunoaștere………………………………………………………………………………………………

Capitolul V Proiectarea și realizarea unui detector de culoare……………………………

5.1. Elaborarea aplicației……………………………………………………………………………………

5.2. Analiza și schema bloc ………………………………………………………………………………….

Capitolul VI Rezultate și concluzii……………………………………………………………………..

6.1. Rezultate experimentale obținute ……………………………………………………………….

6.2. Concluzii finale ………………………………………………………………………………………….

Bibliografie………………………………………………………………………………………………………..

Anexe………………………………………………………………………………………………………………..

***

Introducere

Sistemul este capabil să detecteze și să recunoască semnele circulare, dreptunghiulare, triunghiulare și octogonale ,reușind să detecteze toate semnele de circulație existente. Marcajele rutiere oferă conducătorilor auto informații importante și îi ajută să conducă mai sigur, îndrumându-i și avertizându-i.

Sistemul de recunoaștere prezentat are la baza proprietățile de generalizare ale SVMs(Support vector machines). Sistemul este alcătuit din trei etape:

fragmentarea după culoarea pixelului;

detectarea marcajelor de circulație prin împărțirea formelor folosind sistemul Support Vector Machines

recunoașterea de conținut pe baza sistemului SVMs cu nucleu Gauss.

Datorită etapei de segmentare folosind culorile roșu, albastru, galben, alb, sau combinații ale acestor culori, toate marcajele de circulație pot fi detectate, iar unele dintre ele pot fi detectate de mai multe culori. Rezultatele arată o rată mare de succes și o cantitate foarte mică de rezultate fals pozitive în etapa de recunoaștere finală.

Din aceste rezultate, putem afirma că algoritmul propus este invariant la translatie, rotație, la scalare.

Detectarea și recunoașterea semnelor de circulație reprezintă o problemă importantă pentru cercetarea actuală. Indicatoarele rutiere au un dublu rol: acela de a reglementa traficul și, în al doilea rând, indică starea drumului și îi orienteaza și avertizează pe șoferii auto. Aceste indicatoare pot fi clasificate dupa culoare și forma lor, iar aceste două caracteristici constituie conținutul lor,.

Vizibilitatea marcajelor de circulație este necesara pentru siguranța șoferilor si pietonilor . De exemplu: accidente foarte periculoase apar atunci când șoferii nu observă un semn de STOP care nu este pozitionat corect sau nu este destul de curat .Multe dintre accidentele rutiere nu sunt legate de indicatoare ci se datorează unor factori externi, cum ar fi starea psihologică a conducătorilor auto. Cauzele accidentelor legate de marcajele de circulație poate fi acoperirea sau acoperirea parțială a semnului, deteriorare lui, sau neatenția conducătorului .Folosirea acestui algoritm este : în primul rând, poate fi folosit pentru a evalua semnalizarea șoselei în scopuri de întreținere, și în al doilea rând, pentru o viitoare aplicație, acesta poate fi utilizata pentru a asista și a ajuta un șofer sau o mașina inteligentă pe timpul mersului .

Este nevoie să se acorde atenție pentru unele problemele comune referitoare la detectarea semnelor de circulație. Prima problemă care trebuie revizuita este cauzată de condițiile de iluminare neregulată ale locului aflat într-un mediu natural. Aceste condiții diferite datorate schimbărilor de temperatură (producătoare de pete luminoase și umbre), pe perioada de zi sau noapte, precum și starea marcajului rutier supus uzurii sau distrugerii. Un alt punct care trebuie luat in calcul este posibila rotire a indicatoarelor. Chiar daca poziția optima pentru un semn rutier este perpendiculară pe directia de mers a vehiculului, de multe ori, semnul nu este poziționat în acest fel. Astfel, un sistem automat trebuie să fie capabil să indetifice semnele în diferite poziții și, asa incat , ele trebuie să fie invariante la rotație și translație. Urmatorul subiect abordeaza diferitele marimi ale semnelor rutiere deoarece putem inatlni semne de diferite dimensiuni, deși oficial, există doar trei dimensiuni optime pentru mediile non- urbane. Cu ajutorul metodei pe care o utilizam pentru a captura indicatoarele, vom obține o secvență de imagine pentru a ne apropia de semn. Astfel, scopul nostru este acela de a construi un algoritm pentru a detecta semnul imediat ce acesta devine observabil. Din acesta cauza, nu putem accepta un algoritm care identifica numai semne de o anumită dimensiune.

Ultimul punct pe care o il voi aborda aici a fost menționat anterior. Mascarea semnelor apar de multe ori din cauza obiectelor cum ar fi copacii, alte semne, sau vehicule ce pot reduce vizibilitatealor și, astfel, pot face sistemul de detectie să nu functioneze. Deoarece , numărul de indicatoare este destul de mare, trebuie să aplicam anumite strategii pentru a impartii procesul de detectie în diferite grupuri.

Descrierea algoritmului

Partea practică a proiectului constă într-o descriere pe larg a proceselor de detectare și de recunoaștere, care se foloseste de algoritmul prezentat în Fig. 2. Procesul complet este urmat de segmentarea în culori a cadrului, în cazul în care algoritmul va căuta obiecte cu nuanțe similare semnelor de circulație, cum ar fi , rosu, albastru, alb, galben.La urmatorul pas unele caracteristici cum ar fi dimensiunea sau raportul de aspect sunt procesate folosind un tabel ce cuprinde formele geometrice în care semnele de circulație sunt definite. Pe măsură ce numărul de marcajelor diferite de trafic crește , clasificarea dupa formă este facută înainte de modulul de recunoaștere folosind distanța până la frontierele (DtBs) ca vectori de intrare (așa cum este prezentat în capitolul VIII), cu scopul de a îmbunătăți timpul de calcul în etapa următoare de recunoaștere. Fiecare imagine este procesată în același mod; dacă nu se găsesc obiecte adecvate care se corelează în proprietăți, fie de culoare și geometrice, un alt cadru este analizat. Clasificarea formei și recunoașterea semnelor de circulație, sunt puse în aplicare cu ajutorul SVMs, care este o tehnică nouă în acest domeniu. În sistemul complet, posibilele ieșiri ale ambelor module sunt determinate de culoare. Obiectele cu culori similare semnelor de circulație (de exemplu, mașini și clădiri), care reprezintă, prin urmare, obiecte zgomotoase pentru procesul nostru, ele sunt respinse cu mare probabilitate în una dintre etapele selective prezentate :

selectare geometrică

clasificarea formei

recunoașterea zonei interioare

***

Capitolul I

Elemente de teorie a culorilor

1.1. Modelul RGB

Introducere

Modelul de culoare RGB este caracterizat ca un model unde lumina roșie, verde și albastră se contopesc în diverse moduri pentru a reproduce o gamă largă de culori. Numele modelului provine din inițialele celor trei culori primare adiționale, roșu, verde și albastru.

Untilizarea acestui tip de model este pentru detectarea, reprezentarea și afișarea imaginilor folosit atât pentru sisteme electronice, dar și pentru fotografierea convențională. Înainte de dezvoltarea acestuia , modelul avea deja o documentație solidă în spatele ei, formată pe baza organului vizual și percepția acestuia a culorilor.

Culori utilizate pentru modelul RGB

Pentru a forma o culoare de tip RGB, trebuie să se suprapună trei fascicule de lumină (roșu, verde și albastru) . Fiecare din cele trei fascicule reprezintă componentă a acelei culori și fiecare dintre ele poate avea o intensitate diferită , de la o nuanță mai deschisă la una mai inchisă.

Modelul de culoare RGB este aditiv în sensul că cele trei fascicule luminoase sunt adăugate împreună reușind sa creeze noi culori(fig.3.1.1). Din cauza proprietăților, aceste trei culori amestecate reușesc sa creeze culoarea alb, acest proces este total opus față de culorile fizice, cum ar fi coloranții care reușesc sa creeze negru atunci când sunt amestecați.

Fig.1.1.1-Amestecul culorilor în modelul RGB

Intensitatea zero pentru fiecare componentă produce cea mai întunecatăculoare negru, iar cea cu intensitatea integrală formează albul; calitatea acestui alb depinde foarte mult de sursele de lumină. Când intensitățile pentru toate componentele sunt aceleași, rezultatul este o nuanță de gri, mai întunecată sau mai ușoară, în funcție de intensitate.

O culoare secundară este formată din suma a două culori primare de intensitate egală: Cyan este verde + albastru, magenta este roșu + albastru, iar galbenul este roșu + verde. Fiecare culoare secundară are la bază o culoare primară; când culoarea primară și culoarea sa secundară complementară sunt amestecare , rezultatul este alb.

Modelul de culoare RGB nu se referă doar prin culorile roșu, verde și albastru, iar ce reiese în urma amestecării acestora nu sunt culori absolute, ci relativ la culori primare. Când sunt definite cromaticile exacte ale culorilor roșu, verde și albastru, modelul de culoare absolut, cum ar fi sRGB sau Adobe RGB.

sRGB(fig.1.1.2) este un spațiu de culoare RGB pe care HP și Microsoft l-au creat în cooperare în 1996 pentru a fi utilizate pe monitoare și Internet. Este adesea spațiul de culori "implicit" pentru imaginile care nu conțin informații despre spațiul de culoare, mai ales dacă pixelii de imagini sunt stocați în numere întregi pe 8 biți pe canalul de culoare.

Fig.1.1.2-Diagrama cromaticității sRGB

Spațiul de culoare Adobe RGB este un spațiu de culoare RGB dezvoltat de Adobe Systems, Inc. În anul 1998. Acesta a fost conceput pentru a cuprinde majoritatea culorilor realizabile pe imprimante color CMYK. Spațiul de culori Adobe RGB cuprinde aproximativ 50% din culorile vizibile specificate de spațiul de culoare CIELAB – îmbunătățind gama spațiului de culoare sRGB, în primul rând în nuanțe de culoare cyan-verde.

Fig.1.1.3-Diagrama cromaticității Adobe RGB

Principiile fizice pentru alegerea celor trei culori(roșu,verde,albastru)

Alegerea culorilor primare este strâns legată de construcția ochiului uman, imaginile primare sunt stimuli care maximizează diferența dintre răspunsurile celulelor conice ale retinei umane la lumina diferitelor lungimi de undă.

Cele trei tipuri de celule fotoreceptoare luminoase din ochiul uman răspund cel mai mult la culoarea galben, verde și lumină violetă lungimile de undă de vârf apropiate de 570 nm , 540 nm și, respectiv, 440 nm. Diferența dintre semnalele primite de la cele trei tipuri permite creierului să diferențieze o gamă largă de culori diferite.

Utilizarea celor trei culori primare nu este suficientă pentru a reproduce toate culorile; numai culorile din triunghiul culorilor definite pe baza cromaticitățile lor pot fi reproduse prin amestecul a unor cantități care nu sunt negative ale acelor culori.

Fig.1.1.4-Triunghiul Culorilor

RGB și camerele de luat vederi

În televizoarele color și camerele video aparute înainte de anii 1990, luminile de intrare au fost separate prin prisme și filtre în cele trei culori primare RGB, alimentând fiecare culoare într-un tub de prelucrare separat de cameră video.

Mai târziu, s-au aplicat electronice de integrare la scară mai mare , simplificând și chiar eliminând optica intermediară, reducând astfel dimensiunea camerelor video de acasă și, eventual, ducând la dezvoltarea camerelor video full. Webcamurile actuale și telefoanele mobile cu camere sunt cele mai miniaturizate forme comerciale ale acestor tehnologii.

Camerele digitale digitale care utilizează un senzor de imagine CMOS sau CCD(charged couple device) funcționează adesea cu unele variații ale modelului RGB.S-au folosit și alte procese pentru a mapa măsurătorile RGB ale camerei într-un spațiu standard de culoare RGB ca sRGB.

Reprezentarea numerică

O culoare din modelul RGB este descrisă prin indicarea cantității culorilor roșu, verde și albastru. Culoarea este exprimată ca un triplet RGB, fiecare componentă poate varia de la zero la o valoare maximă definită. Dacă toate componentele sunt egale cu zero culoarea rezultataă este negru; dacă toate sunt la maxim, rezultatul este o nuanță de alb foarte deschisă.

Aceste intervale pot fi împarțite în mai multe moduri:

De la 0 la 1. Această reprezentare este folosită în analizele teoretice și în sistemele care utilizează reprezentări în virgulă mobilă.

Fiecare valoare componentă de culoare poate fi scrisă sub formă de procent, de la 0% la 100%.

În calculatoare, valorile componentelor sunt stocate ca numere întregi în intervalul 0 până la 255, intervalul pe care un singur byte pe 8 biți îl poate oferi. Acestea sunt reprezentate adesea ca numere zecimale sau hexazecimale.

Echipamentele digitale performante sunt adesea capabile să lucreze în intervale mai mari întregi pentru fiecare culoare primară, cum ar fi 0..1023 (10 biți), 0..65535 (16 biți) sau chiar mai mari, prin extinderea celor 24 de biți ( trei valori pe 8 biți) la unitățile pe 32 de biți, pe 48 de biți sau pe 64 de biți .

Fig.1.1.5-Reprezentarea hexadecimală RGB pe 8 biți ale principalelor 125 de culori

Profunzimea culorii

Modelul RGB reprezintă cea mai comună metodă de codificare a culorilor . Caracteristica principală a acestora ,este cuantificarea valorilor posibile pentru fiecare componentă, folosind numai numere întregi într-un anumit interval, de obicei de la 0 la o putere de (2n – 1) pentru a se potrivi în câteva grupări de biți. Codificările de 1, 2, 4, 5, 8 și 16 biți pe culoare sunt des întâlnite ; numărul total de biți folosiți pentru o culoare RGB este denumit profunzimea culorii.

Reprezentare geometrică

Deoarece culorile sunt de obicei definite de trei componente, nu numai în modelul RGB, dar și în alte modele de culori cum ar fi CIELAB și Y'UV, printre altele, atunci este descris un volum tridimensional prin tratarea valorilor componentelor ca și coordonate cartesiene obișnuite într-un spațiu euclidian. Pentru modelul RGB, acesta este reprezentat de un cub care utilizează valori non-negative într-un interval 0-1, atribuind culoarea neagră la origine la vârf (0, 0, 0) și cu creșterea intensității valorilor care rulează de-a lungul celor trei axe la alb la punctul (1, 1, 1), în diagonală opus negru.

Un triplet RGB (r, g, b) reprezintă coordonatul tridimensional al punctului culorii date în interiorul cubului sau al fețelor acestuia sau de-a lungul marginilor acestuia. Această abordare permite calcularea asemănării culorilor a două culori RGB date prin simpla calculare a distanței dintre acestea: cu cât distanța este mai mică, cu atât este mai mare asemănarea. Calculul în afara grupei poate fi efectuat și în acest fel.

Fig.1.1.6-Modelul RGB mapat pe un cub

1.2. Modelul CMYK

Introducere

Modelul CMYK este un model de culoare subtilă, folosit în imprimarea folosit pentru a descrie procesul de imprimare în sine. CMYK se referă la cele patru tipuri de culori utilizate în imprimarea color: cyan, magenta, galben și cheie (negru).

Motivul pentru care culoarea neagră este denumită cheie este pentru că prin imprimarea în patru culori, plăcile de imprimare cyan, magenta și galben sunt aranjate cu grijă sau aliniate cu cheia plăcii neage. Unele surse sugerează că "K" din CMYK provine din ultima literă din "negru" și a fost aleasă deoarece B deja înseamnă albastru. Este normal ca imprimarea modernă pentru negru să fie imprimată ultima pentru a obține umbre mai profunde și o nuanță de negru mai clar decât negrul imperfect creat de combinația CMY atunci când aceste culori sunt imprimate pe negru. Modelul CMYK funcționează prin mascarea parțială sau integrală a culorilor pe un fundal mai ușor, de obicei alb. Cerneala reduce luminile care altfel ar fi reflectate. Un astfel de model se numește subtractiv, deoarece cernelurile "scad" culorile roșu, verde și albastru de la lumina albă. Lumina albă minus roșu duce la culoarea cyan, lumina albă minus culoarea verde crează magenta și lumina albă minus albastru duce la galben.

În modelele culorilor aditive , cum ar fi RGB, albul reprezintă combinația tuturor culorilor primare, în timp ce negrul este format prin absența luminii. În modelul CMYK, este opus: albul este culoarea hârtiei sau a unui fundal, în timp ce negrul rezultă dintr-o combinație completă de vopseluri colorate.

Fig.1.2.1-Modelul CMYK

(în urma amestecului apar culorile rosu ,verde , albastru și central negru)

CMYK reprezentare

Cu imprimarea CMYK, procesul de screening permite o saturație mai mică decât cea a culorilor primare; punctele mici ale fiecărei culori primare sunt tipărite într-un model suficient de mic încât oamenii percep o culoare solidă. Magenta tipărită cu un procent de 20%, de exemplu, produce o culoare roz, deoarece ochiul percepe minuscul puncte de magenta pe hârtia albă de dimensiuni mai ușoare.

Fără acest proces , cele trei culori primare pot fi tipărite numai ca blocuri de culoare solidă și, prin urmare, ar putea produce doar șapte culori: cele trei primare, plus trei culori secundare produse prin stratificarea a două primare: și culorile magenta produc albastru, galben și purpuriu roșu , plus stratul de acoperire pe toate trei având ca rezultat negru. Cu procesul de halftoning, poate fi rodusă o gamă completă de culori.

Fig.1.2.2-Reprezentarea procesului de halftoning cu separe CMYK

CMYK vs. RGB

Comparațiile dintre modelul RGB și cel CMYK pot fi dificile, deoarece tehnologiile și proprietățile de reproducere a culorilor sunt foarte diferite. Un monitor de computer combină nuanțele de lumină roșie, verde și albastră pentru a crea imagini color. În schimb, o imprimantă CMYK folosește cerneluri cyan, magenta și galben absorbite de lumină, ale căror culori sunt amestecate folosind o anumită tehnică optică.

Similar cu monitoarele, vopselele utilizate pentru printare produc o gamă de culori care este "doar un subset al spectrului vizibil".

Fig.1.2.3-Exemplul unei imagini trecute prim modeul CMYK

1.3.Tonuri de gri

Introducere

În fotografie o imagine în tonuri de gri este una în care valoarea fiecărui pixel este o singură probă reprezentând doar o cantitate de lumină, adică are doar informații despre intensitate. Imagini de acest tip sunt cunoscute sub numele de imagini alb-negru sau monocrom, ele fiind compuse doar din nuanțe de gri, variind de la negru cu cea mai scazută intensitate până la alb cu intensitate maximă.

Imaginile în nuanțe de gri sunt diferite față de imaginile bi-tonale alb-negru, care, în contextul imaginilor computerizate, sunt imagini cu doar două culori, alb-negru .

Aceste tipuri de imagini rezultă in urma măsurării intensității luminii la fiecare pixel în funcție de o combinație specială ponderată de frecvențe .

O imagine colorimetrică (fotometrică) în nuanțe de gri este o imagine care are un spațiu de culori în tonuri de gri definite, care cartografiază valorile probelor numerice stocate în canalul acromatic al unei culori standard, care se bazează pe proprietățile măsurate ale vederii umane.

Reprezentare numerică

Intensitatea unui pixel este exprimată într-un interval dat între un minim și un maxim. Acest interval este reprezentat ca un interval de 0, negru) și 1(alb), cu valori fracționate între ele. Această notație este folosită în lucrările academice, însă aceasta nu definește reprezentarea culorii negru sau alb în ceea ce privește colorimetria.

Tonurile de gri pot fi calculate prin numere raționale, pixelii de imagine sunt de obicei cuantizați pentru a le memora ca întregi neasignați, pentru a reduce stocarea și calculul necesar. Unele dintre primele monitoare în tonuri de gri puteau afișa numai până la șaisprezece nuanțe diferite, care erau stocate în formă binară folosind 4 biți. Dar, astăzi, imaginile în nuanțe de gri sunt stocate de obicei cu 8 biți pe pixel.

Utilizările tehnologice necesită adesea mai multe nivele, pentru a utiliza în întregime precizia senzorului și pentru a reduce erorile de rotunjire în calcul. Șaisprezece biți pe eșantion sunt adesea o alegere convenabilă pentru astfel de utilizări, deoarece computerele gestionează eficient cuvinte pe 16 biți. Pe plan intern pentru calcul și stocare de lucru, software-ul de procesare a imaginilor utilizează de obicei numere de puncte întregi sau în virgulă mobilă de dimensiuni de 16 sau 32 de biți.

Fig.1.3.1-Matricea reprezentării tonurilor de gri

Reprezentarea tonurilor de gri din imagini color

Imaginile color sunt de multe ori construite din mai multe canale de culoare, fiecare reprezentând nivele de valoare ale canalului dat. Imaginile RGB sunt compuse din trei canale independente pentru culorile primare roșu, verde și albastru. Imaginile CMYK au patru canale pentru plăcile cu cerneală cyan, magenta, galbenă și neagră.

Mai jos putem observa un exemplu de împărțire a canalelor de culoare cu o imagine color RGB. In partea din stânga sunt reprezentate canalele de culoare naturală, în timp ce la dreapta sunt echivalențele lor în tonuri de gri:

Fig.1.3.2-Compunerea unei imagini RGB din 3 culori cu nuanțe diferite de gi

Procedeul de creare inversă este, de asemenea, posibilă: pentru a construi o imagine color completă din canalele separate de tonuri de gri. Prin manevrarea canalelor, folosind compensări, rotații și alte manipulări, se pot obține anumite efecte în loc de reproducerea cu precizie a imaginii originale.

Capitolul II

Formarea imaginii

2.1. Ochiul uman v.s Camera de luat vederi

Camera obscură a aparatului foto reprezintă un compartiment cu un mic orificiu , în schimb  sistemul vizual are un mod de funcționare mult mai complex.

Pupila omului are același rol cu orificiul camerei obscure, lasă sa intre fasciculele de lumină reflectate de numite obiecte. La nivel intern razele întâlnesc cristalinul care functioneaza ca   o lentilă convergentă  .Ultima etapa este proiectarea imaginii pe retină .

La camerele foto lumina intra prin obiectiv  care este format din mai multe lentile convergente.  Fasciculul trece prin obturator într-un interval mic de timp  și va imprima pelicula aflată în partea din spate a aparatului.Pelicula fotografică are la bază un strat de substanțe speciale  care în contact cu un  lichid denumit revelator duce la crearea imaginii .

Fig.2.1 Formarea imaginii in aparatul de fotografiat si in ochi

a)O- obiectiv, M- montura cu filet, F- film

b)1-corneea, 2-sclerotica, 3-cristalin, 4-pupila, 5-iris, 6-retina, 7- fovea centrala, 8- nerv optic, 9- muschi ciliari

Imaginea A'B' reala a obiectului AB inversata in aparat printr-un sistem  converegent de lentile care alcatuiesc obiectivul O, se formeaza pe pelicula sensibilizata F aflata in planul focal al acestuia.

Pentru o imagine cat mai clara oferită de la distanțe mari obiecitvul camerei trebuie ajustatcorespunzator.

In funcție de nivelul de lumină a obiectului diafragma acestuia se va regla așa încât să se poată asigură fluxul de energie luminoasă pentru a creea o imagine de o calitate foarte mare.

La ochi fasciuculul de lumina se se concentrează pe retina prin sistemul fomat din cornee și cristalin. Acesta este  un  sistem convergent  cu distanță de focalizare de aproximativ 1.8 cm .

Dacă la camera foto , aranjarea obiectivului pentru o imagine cat mai clara se face manual, la sistemul vizual procesul de acomodare este automat fiind una din soluțiile ingenioase ale naturii.

După cum se observă in fig.2.1 există destule asemănări între cele două sisteme. Ele reușind să creeze imagini aproape identice.

Înregistrare imaginii la om este mult mai complexă„retina nu se comportă numai ca o placă fotografică ci ca un întreg laborator fotografic în care laborantul înlocuiește placa așternând un nou strat sensibil concomitent cu ștergerea vechii imagini.La aparatul de fotografiat acest proces este unul mai lung. O altă diferență între cele doua este că doar aparatul fotografic poate crea o imagine fizică , ochiul doar o înmagazinează în memorie. Adaptarea la lumină se face într-un mod automat pentru sistemul vizual la camera necesită mai multe reglaje ale obiectivului.

2.1.1. Anatomia și fiziologia ochiului uman

Ochiul este un organ care are ca funcție principala detecția luminii, și este foarte bine constituit pentru functia vizuala. Lumina ajungr la ochi prin partea din față a acestuia printr-o membrană transparentă numită cornee, împrejmuita de o zonă numită sclerotică(albul ochiului). După cornee se găsește amplasat irisul, de forma unui disc colorat (reprezinta o componetă unică pentru fiecare individ). Între cele doua medii de mai sus este un lichid denumit umoare apoasă. Pupila apare în centrul irislui și este de formă circulară și are culoarea neagră. Ochiul are o foarte mare adaptabilitatea la diferențele de lumină astfel atunci când lumina este foarte puternică, pupila se contractă ,iar atunci când lumina este foarte slabă, pupila se mărește. Următorul pas al luminii este traversarea cristalinului, acesta funcționând ca o  lentilă biconvexă, apoi umoarea sticloasă, la sfârșit imaginea se proiectează pe o membrană numită retină. Un rol important il au si ploapele și genele omului, acela find de protecție. Un înveliș subțire și transparent, acoperă interiorul pleoapelor și o parte din sclerotică acesta numindu-se conjunctivită.

Fig.2.1.1.1- Anatomia ochiului uman

Corneea face parte din primul înveliș, ea este foarte transparentă și ajută la refracția și reflexia luminii , ajutând foarte mult la calitatea imaginii de pe retină.

Cristalinul este unul dintre mediile refringente ale ochiului. Acesta poate fi comparat cu o lentilă astfel 2 dintre cele 3 refracții suferite de lumină la nivelul ochiului este în cristalin . Față de cornee și umoarea apoasa care au o putere refringenta unică, cristalinul iși poate modifica refracția în funcție de adaptabilitatea acestuia la diferite distanțe. Acest procedeu se face cu ajutorul muschiului ciliar. Astfel cristalinul ajută la o proiectare cât mai clară pe retina, oricare ar fi distanța imaginii.

Uveea sau tunica uveala este un înveliș bine vascularizat al ochiului alcătuit din iris, corp ciliar și coroidă.

Irisul este un înveliș situat în plan frontal, are o forma circulara , iar în centrul sau este un orificiu rotund de culoare neagră, pupila. Rolul principal al irisului este unul optic reușind să controleze intensitatea luminii de la nivelul ochiului.Atunci când lumina este foarte puternică, pupila se contractă ,iar atunci când lumina este foarte slabă, pupila se mărește.

Corpul ciliar este format din procese ciliare și mușchi ciliari el se gasește spre partea interioară a coroide și are rolul de acomodare a cristalinului.

Coroida este învelișul mediu al ochiului , care ajută la menținerea constantă a temperaturii

organului vizual ajutând desfășurarea optimă a proceselor foto-chimice de la nivelul retinei.

Apariția celulelor pigmentare la nivelul coroidei îi da acesteia un bun rol optic , fiind asemănată cu o cameră obscură.

Retina reprezintă prelungirea scoarței cerebrale la nivelul ochiului, ea reușsind să selecteze cu succes radiatiile electromagnetice aflate între 375 si 760nm.Ea este formată din fotoreceptori sensibili la lumină și celule nervoase. Retina poate fi comparată ca un sistem de transimtere și captare a informației intre creier si ochi ea fiind o expansiune a creierului.Celule receptori din retină sunt de două tipuri celule cu conuri si bastonașe . Aceste celule care produc rodopsină transformă energia electrică în energie luminosă. Imaginile de la nivelul retinei sunt  transmise prin caile optice la centrul cortical al vederii.

Celula retinitalamică primește informațiile cu ajutorul dendritelor și ajută la crearea imaginii.

Celula ganglionară transmite impulsuri del axon până în talamus. Acet grup de axoni formează, la nivel microscopic nervul optic. Cu ajutorul celulor cu bastonașe putem să vedem la lumină slabă , ele sunt poziționate la marginea retinei.Celulele cu conuri dimpotrivă, se activează la lumină puternică , ele ajutându-ne la observarea detaliillor mici și oferă posibilitatea de a diferenția culorile. Acestea se întâlnesc în foveea centrală, locul cu cea mai înaltă precizie vizuală.

Formarea imaginii

Imaginea apare proiectată pe retina invers, asemănătoare cu o imagine dintr-o cameră fotografică. Imaginea este percputa în pozișie normală datorită analizării corticale. Zonele de refractie apar la nivelul contactului dintre: aer și suprafața anterioară corneei, dintre fața posterioară a acesteia și umoarea apoasă, dintre umoarea apoasă și suprafața anterioară a cristalinului. Fiecare dintre zone are un indice diferit de refracție.Puterea de refracție a ochiului se schimbă așa încat imaginea unui obiect aflat la distanțe diferite să se poată forma pe retină.

Pentru a putea proiecta pe retină o imagine aflată la distanță, sistemul de refracție al ochiului trbuie sa fie relaxat. Când imaginea proiectată este aproape, cristalinul trebuie să îsi crească convexitatea.

Fig.2.1.1.2-Formarea imaginii

Etapa de fotorecepție

Fotoreceptorii sunt de fapt celulele cu conuri și bastonașe, ele se diferențiază prin aspectul celular. Celulele cu conuri se găsesc in număr de aproximativ 7 milioane, iar cele cu bastonaș sunt mai numeroase circa 130 milioane.

Celulele cu bastonaș au în componența membranei discurilor o proteină numită rodopsină, care are ca rol recepția mesajului fotonic, fiind principalul pigment fotosensibil. Celule cu conuri și bastonase se scurteaă și se alungesc la întuneric.

Fig.2.1.1.3-Reprezentarea celulelor fotoreceptor

Funcțiile ochiului

Vederea este compusă din urmatoarele funcții:

recunoașterea tiparului unui obiect – acuitate vizuala

face diferența intre lumină și întuneric – percepție luminoasă

dinstinge culoarea – vedere colorată

detectarea cât mai multor informații dintr-o imagine – câmp vizual

perceperea distanței – vederea binoculară

fixarea obiectelor aflate la disntanțe diferite – acomodația

fixarea ambilor ochi pe un anumit peisaj – convergență

2.1.2. Aparatul de fotografiat

Principiul funcționarii camerei fotografice apare de pe vremea inventatorului Leonardo da Vinci, care a arătat că se pentru proiecta o imagine este nevoie de o mic spațiu prin care să treacă lumina. Claritatea imaginii este controlată de cat de mic este orificiul pe unde se proiectează lumina. Acest procedeu se numește "camera obscură"( Fig.2.1.2.1)

, iar apariția lui este de la începutul sec. al XVII-lea. Procedeul de imprimare a imaginii pe un material a durat mai mult.Astfel in 1826 Joseph Niepce a descoperit că pentru a crea un material sensibil la lumina putea fi folosită clorura de argint.

Fig.2.1.2.1-Camera obscură

Părțile componente ale aparatului foto

Fig.2.1.2.2-Componentele aparatului de fotografiat

Camera obscură a aparatului este locașul in care este înmagazinat filmul și se mai numește corpul aparatului(fig2.1.2.2).

O altă componentă a camerei foto este obturatorul el este poziționat în fața filmului sau poate fi situat in obiectiv .

Obiectivul permite fasciculului de lumină să pătrundă și să focalizeze imaginea pe film.El influeteaza și mărimea imaginii prin , prin distanța sa focală. Obiectivul este alcătuit dintr-o lentilă subțire convergentă.Ea proiectează în partea din spate a camerei obscure, o imagine rasturnată mult mai mică decât obiectul. Obiectul fotografiat se gaseste la diferite distanțe față de camera foto astfel, distanța dintre film și obiectiv este variabilă.Unda luminoasă care cade pe emulsia fotografica are un efect chimic ea fiind limitata in timp și se numește timp de expunere.Cand obiectivul este mai apropiat de peisaj filmul va fi mult mai iluminat .

Diafragma controlează cantitatea fascicului luminos care intra in aparat. Ea se afla de obicei în interiorul camerei și este manevrată cu ajutorul unui inel aflat pe obiectiv.

Vizorul se află în partea din spate a fiind orificiul prin care fotograful incadrează imaginea.

Sistemul de transport nu este o componentă propriu-zisă a aparatului, este totuși un proces important în funcționarea acestuia. La modelele mai vechi era reprezentat de o parghie în partea de sus a apartului, însă la majoritatea aparatelor moderne sistemul este automat.

Iluminarea in fotografie

Fotografia se poate traduce prin scriere cu lumină. Pentru fotografie principala sursă de lumină este lumina solară dar au apărut si surse de lumină artificiala. Iluminarea se realizeaza cu ajutorul diafragmei si a timpului de expunere. Pentru a afla timpul de expunere se folosește exponometrul. Acesta conține un strat de celule fotosensibile care aflate în prezența fascicului de lumina creează un impuls electric.

Diafragma si dimensiunea campului de profunzime

Cele mai des întâlnite tipuri de diafragă sunt cele de tip „iris” formate din lame metalice așezate în mod circular în interiorul obiectivului aparatului de fotografiat.

Ca si in cazul timpilor de expunere, scara diafragmelor a fost uniformizata pentru majoritatea aparatelor de fotografiat. Intre valorile inscrise pe aparatul de fotografiat si deschiderea reala exista un raport de inversa proportionalitate.

Campul de profunzime in fotografie reprezintă de fapt spațiul care toate obiectele dispuse vor fi proiectare clar. In funcție de cât de inchisă este diafragma dimensiunea câmpului de profunzime devine mai mare, iar numărul detaliilor bine definite din imagine va fi mai mare.

Fig.2.1.2.3-Diafragma și câmpul de profunzime

Fotografia color

Prima fotografie cu culori afost realizată în 1861 de fizicianul James Clerk Maxwell.

Primul sistem color, Autochrome Lumière, a apărut pe piață la 17 decembrie 1903. Procesul de fotografiere se facea cu ajutorul a trei plăci fotografice alb/negru cu anumite substanțe cromatice sensibile doar la culorile roșu, verde și albastru, cele 3 fotografii se suprapuneau si formau o imagine color.Pelicula color de tip Kodachrome a apărut în 1935 și s-a bazat pe emulsii tri-colorate.

Fig.2.1.2.4-Prima fotografie color realizată

2.2. Reprezentarea imaginilor

Imaginea poate fi considerata o mulțime sau o matrice de pixeli ordonati pe linii și coloane.

Fig.2.2.1 -Reprezentarea unei imagini sub forma unei matrici de pixeli

Ea se poate caracteriza ca o funcție :

imaginea color de forma

⇒ R(x, y), G(x, y), B(x, y) o funcție cu trei valori

imagine cu nunațe de gri I(x,y) o funcție cu o singura valoare

Intr-o imagine de 8 biți în nunațe de gri fiecare element al acesteia variază de la 0 la 255 . O imagine în negru și alb este formată din mai multe nuanțe de gri ca sa putem face o corelație între imaginea color și cea alb negru.

Fig.2.2.2-Fiecare pixel are o valoare diferită de la 0(negru) la 255(alb).

Tonurile de culoare ale pixelilor depind de profunzimea acestora reprezentați în imagine color.

Fig.2.2.3-Reprezentarea imaginii color formată din trei nuanțe de culoare roșu , galben și albastru.

Acest tip de imagine poate sa conțină până la 16 milioane de culori diferite.

O imagine este de fapt o reprezentare 2-D a unei spațiu 3-D.

Fig.2.2.4-Exemplu de reprezentare și captare a imaginii

Faptul ca imaginea 2D este de fapt reprezentarea unei funcții 3D are multe aplicabilități în unele domenii.

Acest lucru este important în cazul reconfigurării imagini, de exemplu,unde structura proiecției poate fi folosită pentru comprimarea imaginii din diferite puncte de vedere.

2.3.Calitatea imaginilor

Informația digitală conține o lungă listă de pași de procesare printre care se află achiziția datelor, analiza lor, compresia, memorarea și reproducerea, oricare dintre ele putând fi cauza unor distorsiuni sau nereguli care înrăutățesc calitatea imaginii. Un exemplu clar il reprezintă algoritmii de compresie , ei sunt utilizați pentru a micșora lățimea de bandă pentru salvarea și trimiterea datelor în format digital, iar aceast proces duce la pierderea informației și implicit pierderea unor detalii legate de stimulii vizuali.

Un mod ușor de determinare a calității unei imagini digitale este măsurarea acesteia în urma unui experiment cu subiecți umani.Aceste tipuri de procedure sunt modalități de fectuase din cauza consumului mare de timp și de finanțe , ele neputând fi folosite pentru înglobarea lor în sisteme automate de detectare a calității semnalului. Scopul acestor studii este unul pur obiectiv pentru a crea anumite sisteme automate de măsurare a calității imaginii. O astfel de soluție poate fi utilă pentru o gamă largă de aplicațiiș achiziția imaginilor, analiza datelor ,comunicații și altele . Un factor major este acela ca pot fi utilizate pentru observarea și ajustarea calității vizuale. O altă posibilitate este utilizarea acestor sisteme de măsură pentru procesele și algoritmii de evaluare a performanțelor.

Lumina

Lumina este de fapt radiația electromagnetică cu o lungime de undă care se încadrează în domeniul vizibil pentru aparatul artic (380 – 400 nm până la 760 – 780 nm). Undă-particulă, lumina este compusă din mici straturi numite fotoni care prezintă proprietăți de undă cât și de articular.

Fig.2.3.1-Lungimea de undă

Fenomenele optice principale sunt : reflexia, refracția și difracția.Refracția este fenomenul fizic de schimbarea a direcției de propagare a luminii la suprafața de separație a două medii, dar cu indici de refracție diferiți. Indicele de refracție n al unui material este de fapt împarțirea dintre viteza luminii în vid c0 și viteza luminii în acel material c: 𝑛 = 𝑐0/𝑐. Unghiul de refracție ține cont de raportul indicilor de refracție a celor două medii, dar și de unghiul φ dintre lumina incidentă și cea normala: 𝑛1 sin𝜑1 = 𝑛2 sin𝜑2.

Percepția

Focalizare sau focus se referă la punctul concentrare a razele de lumină. In multe cazuri focalizarea se face correct în locul unui punct se obține un disc (blur circle). Dacă lumina nu trece prin același punct se spune că itemul nu este bine focalizat (fig.2.3.2). Termenul de adâncime a câmpului vizual face referire la locul de claritate dintr-un cadru. Putem spune ca , este acea locul unde imaginea digitala sa focalizat corect. O lentilă poate să focalizeze cu precizie la o anumită distanță, iar scăderea în claritate se întâmplă treptat pe o parte și alta a distanței de focalizare.

Fig.2.3.2-Exemple de focalizare

Acuitate vizuală

Acuitatea vizuală se poate defini ca și claritatea vederii și în mod special claritatea vizualizării diverselor forme. In funcție decalitatea de focalizare pe retina a imaginii se poate determina claritatea formelor. Acuitatea vizuala este metoda de determinare clinică a stării funcției vizuale a pacientului . Ea se poate caracteriza ca abilitatea organului vizual de a face diferența între detaliile fine ale unui obiect în mișcare

Unghiul de vizualizare și frecvența spațială

Pentru determinarea calității video, sunt necesare dimensiunea și rezoluția imaginii proiectate pe retină. Un factor important il reprezintă unghiul de vizualizare acesta este subântins în centrul ochiului de către un stimul vizual. Putem spune ca , este unghiul dintre format intre razele de lumina si cele doua marigini ale obiectului. Cel mai important aspect pentru masurarea calității unei imagini sau a unui semnal video, este unghiul de vizualizare și mai puțin important este dimensiunea imaginii sau a ecranului.

Fig.2.3.4-Unghiul de vizualizare

Frecvența spațială este un mod de masurare pentru cât de des se repetă structura per unitate de distanță. Stimulul sinusoidal apare in domeniul perceptiei vizuale fiind utilizat pentru testarea sistemului visual. Aceasta se poate determina prin raportul dintr numărul de perioade ale sinusoidei și unghiul de vizualizare.Frecvența spațială maximă fmax se măsoară în cicli per grad al unghiului de vizualizare :

𝑓𝑚𝑎𝑥 =

Frecvențele spațiale cu un numar mare de perioade ne arată modificările instantanee din imagine, cum ar fi muchiile. Frecvențele joase de cealaltă parte, țin de informațiile globale legate orientarea generală a imaginii. Pragul de discriminare a frecvențelor spațiale la adulți este în proporție de 7%.

Mascarea și adaptarea

Mascarea spațială

Mascarea și adaptarea sunt două sisteme foarte importante pentru aplicațiile de procesare de imagini, ele stând la baza dezvoltării modelului arhitectural de tip multi-canal pentru organul visual . Mascarea este fenomenul care apareatunci când nu se face detecția unui stimul din cauza prezenței altui stimul vizual. Mascarea spațială apare în momentul când stimulii au frecvențe spațiale diferite, sau unul dintre ei este colorat și celălalt acromatic. Mascarea cea mai puternică apare la aceași tip de stimuli, orientare sau culoare.

Fig.2.3.5-Curbele de mascare :

curba A corespunde efectului de mascare , curba B efectul de evidențiere

Ințelegerea mascarii este foarte important în domeniul procesării de imagine pentru a pentru a lua măsuri atunci când zgomotul de codare este mascat sau .Prin acest proces de mascare putem înțelege de ce unele distorsiuni sunt vizibile în anumite zone și aproape neperceptibile în altele.

Mascarea temporală

Mascarea temporală poate fi prezentată ca întreruperea apărută într-o secvență de film în după taierea unui cadru. După o tranziție bruscă de la mediu întunecat la cel luminos și invers, pragurile de vizibilitate cresc pentru câteva sute de milisecunde. Asemenea creșteri ale pragului de vizibilitate nu se întâmplă numai după o intrerupere bruscă a luminanței, ci și înainte să apară aceasta. Această mascare poate di explicată prin latența semnalelor neurale din sistemul vizual care variază în funcție de intensitatea luminii.

Adaptarea

Adaptarea la stimuli vizuali de un anumit tip poate conduce de asemenea la ajustări ale senzitivității sistemului vizual uman. Dacă ochiul se obișnuiește cu stimuli de o anumită frecvență spațială, atunci senzitivitatea la contrast va scădea pentru frecvențele spațiale apropiate .Fenomenul este numit “pattern adaptation”.

Arhitectura multi-canal

Cercetările supuse pentru determinarea pozițiilor receptoare ale neuronilor din cortexul vizual au arătat că multe celule sunt face legătura cu anumite tipuri de informații vizuale, cum culoarea, frecvență sau orientare spațială. Acești neuroni sunt excitați numai de stimulii respectivi. În urma experimentelor supuse asupra fenomenelor de mascare și adaptare discriminarea stimulilor au demonstrat că diversele caracteristici ale informației vizuale sunt procesate pe canale diferite din sistemul vizual uman. Cu ajutorul acestor rezultate s-a ajuns la modelarea multi-canal a sistemului vizual.

Mecanisme spațiale

Numeroși neuroni din cortexul vizual primar au zone receptoare care sunt excitate numai la o anumită frecvență spațială și orientare, putând fi definite ca filtre orientate trece-bandă. Cu un număr suficient de celule setate într-un mod caracteristic, pot fi acoperite toate orientările și frecvențele din domeniul de senzitivitate a sistemului vizual. Pentru căile vizuale acromatice, multe dintre cercetari estimează cu aproximație, 1-2 octave pentru lărgimea de bandă a frecvenței spațiale și 20-60 de grade pentru orientarea benzii. Căile cromatice au lărgimi de banda în domeniul frecvențelor spațiale asemănătoare, însă orientarea benzilor a rezultat a fii , între 60 și 130 de grade.

Clasificarea metodelor de evaluare a calității imaginilor

În încercarea de a dezvolta o nouă metodă de evaluare a calității video s-a încercat atât pe calea modelării sistemului vizual uman, cât și pe calea analizării anumitor caracteristici ale imaginilor, cum sunt de exemplu metodele de compresie. Abordarea psiho-fizică presupune modelarea mecanismelor sistemului vizual uman cum ar fi percepția culorii, senzitivitatea la contrast și mascarea anumitor nuanțe. Au fost făcute cercetări care au la bază cunoștințe din neurobiologie, ele fiinf mai puțin folosite în aplicațiile reale din cauza complexității lor.Abordarea inginerească are la bază extragerea unor elemente specifice de tipul contururilor sau al artefactelor de compresie pentru a putea face o estimare sigură a calității imaginilor respective. Asemenea metode se folosesc de caracteristicile și mecanismele prezente în sistemul vizual uman, ele nu încearcă modelarea vederii ci să analiza imaginilor.

Aceste metode de evaluare a calității imaginilor se impart în :

metrici cu referință complete(FR) -metode de evaluare a fidelității , realizează o comparație cadru cu cadru între secvența video luată ca referință și cea supusă testării.

metrici fără referință(NR) sunt metode care dispun doar de secvența care trebuie testată și nu dețin nici o informație despre referință. Dificultatea în acest caz constă în a face distincția între distorsiuni și conținutul propriu-zis al imaginii, distincție pe care omul o face ușor pe baza experienței acumulate.

metrici cu referință redusă(RR) -unde se extrag o serie de informații din secvența de referință și apoi se realizează comparația cu secvența de test. Este o soluție de compromise față de soluția precedent

Metricile bazate pe valoarea pixelilor și cele care se încadrează în abordarea psihofizică aparțin de obicei clasei de referință completă, celelalte două metode se folosesc exclusiv abordarea așa numită tehnică. Un punct de vedere foarte important care trebuie luat în calcul la metodele de tip FR este alinierea spațio-temporală perfectă între secvența de referință și cea de test, așa încât operația de comparare a unui pixel să se facă precis cu pixelul corespunzător din cealaltă imagine.In aplicațiile practice apare dezavantajul la alinierea temporală, deoarece codoarele pot să varieze rata cadrelor în fluxul video codat, astfel transmisia va avea unele întârzieri. Un alt inconvenient al acestei metode este trebuința unei calibrări specifice altfel ea nu răspunde corect la schimbările de luminanță, crominanță sau contrast. La metricile RR restricțiile sunt mai puțin severe, aici toate caracteristicile analizate trebuiesc aliniate. Aceste probleme de aliniere nu se aplică deloc metricilor NR.

Capitolul III

Aplicații ale sistemelor de detectare si recunoaștere automată a imaginii

Considerații generale

Pentru a crea un detector automat de imagine trebuie să ne bazăm pe metoda recunoașterii modelelor și a formei lor.

Recunoșterea formelor este o metodă automată de învățare a mașinilor care se focuseză pe recunoașterea asemănărilor în datele primite , în unele cazuri această metodă este considerată a fi sinonimă cu inteligența artificială.

Sistemele de recunoaștere sunt utilizate de multe ori cu ajutorul metodei de învățare asistată când primește informații etichetate cunoscute ,dar când acest tip de informații nu sunt utilizate se pot folosii alți algoritmi de recunoaștere aceasta încadrându-se în modul de învățare nesupravegheată.

Termenii de recunoaștere a formelor , învățare automată(machine learning), extragerea datelor și descoperirea informațiilor în bazele de date sunt greu de separat, deoarece se suprapun în mare măsură în domeniul lor de aplicare.

Învățarea automată este sinonimă cu învățarea controlată și are la baza inteligența artificială, în timp ce exploatarea datelor se concentrează mai mult pe metodele nesupravegheate și au o mai mare folosință pentru întreprinderi . Recunoașterea modelelor își are originea în inginerie, acest termen este des întâlnit în contextul de înțelegere al calculatoarelor cu privire la datele introduse.

În modul de recunoaștere a formelor se pune accent mai mult pe formalizarea , explicarea și vizualizarea modelului prezentat , în timp ce procesul de machine learning se concentrează asupra maximizării ratelor de recunoaștere. Cu toate acestea, multe dintre aceste domenii au evoluat foarte mult transformâdu-se în inteligență artificială, inginerie și statistici și au devenit din ce în ce mai asemănătoare prin utilizarea ideilor comune pentru fiecare domeniu.

Un exemplu de recunoaștere este acela de clasificare care încearcă să atribuie fiecare valoare de intrare unuia unui anumit set de clase (de exemplu, dacă un e-mail primit este "spam" sau "non-spam").

Algoritmii de recunoaștere sunt folosiți pentru a oferi un raspuns de potrivire cât mai corect în funcție de datele de la intrare luâd în calcul diferetele schimbări care pot apărea. Acest procedeu se opune algoritmilor de potrivire a tiparelor, care caută asemănări exacte la intrare cu modele deja existente . Un exemplu al unui astfel de algoritm a tiparelor este regex sau regexpn stringul unui text care ajută la crearea de modele cu scopul de găsire localizare și gestionare a textului.

Spre deosebire de pattern recognition, pattern matching este, în general, un mod de învățare a mașinii, deși algoritmii de pattern matching pot să furnizeze rezultate foarte bune asemănătoare de tipul furnizat de algoritmi de pattern recognition.

In figura 3.1 avem prezentată schema unui model de sistem de recunoaștere.

Fig. 3.1 Procesele unui sistem de recunoaștere

. Clasificare

Am constatat ca multe din detectoarele automate de imagine sunt folosite în domenii foarte diferite, ca de exemplu în aplicații medicale , in domeniul securitații si în aplicații ce privesc asistarea sofeului la modul de mers sau sunt intalnite in cadrul masinilor anutonome.

Detectoarele automate de imagine (TSR- Traffic sign recognition) reprezintă una din ramurile principale de documentare pentru implementarea sistemelor de asistare a mașinii in timpul mersului . Sistemele de conducere autonome necesită un proces special de manipulare a datelor de intrare: se dorește o modalitate cât mai ușoară și rapidă pentru procesarea de imagine și este necesară o analiză cât mai sigură oferită în timp real .Acest proces de creare a unui TSR devine foarte dificil de creat pentru o zonă de oraș unde sunt întâlinite multe semne de circulație , afișe ,pietoni ,mașini parcate și alte obiecte în mișcare care fac detecția de imagine mult mai dificilă.

Deși și au fost publicate numeroase soluții,acestea au fost testate pe drumuri de țară sau la viteza foarte mică . În această lucrare, oferim o scurtă trecere în revistă a principalelor Probleme și strategii cunoscute pentru a rezolva aceste probleme, și noi oferă o soluție generală pentru a aborda problemele în timp real în traficul urban recunoașterea semnelor.

Unele dintre domeniile care necesită aplicații DIP(procesarea digitală a imaginilor) de clasificare automată a imaginilor pe baza recunoașterii obiectelor componente sunt:

– Astronomie – pentru împărțirea automată a imaginilor preluate de la anumite telescoape cu benzi de frecvențe extinse;

– Fizica pământului – pentru clasificarea automată a imaginilor aduse de la sateliții pentru aflarea prognozei meteo, a controluluide de creștere a culturilor și a schimbărilor vulcanilor,activi sau pasivi ;

– Fizica atomica – pentru preluarea automata a imaginilor care au fost în experimente cu particule subatomice;

– Microelectronică – pentru repartizarea și detectarea calității circuitelor VLSI folosidu-se de imaginile microscopice;

– Automatică – pentru controlul automat al calității anumitor produse din diverse domenii economice, ce sunt procesate cu ajutorul pe benzii rulante prin fața unui sitem de detectare al calității (aici este inclus și domeniul alimentar);

– Televiziune – pentru controlulul și securitatea cu ajutorul camerelor video prin detectarea și recunoașterea în timp real a situațiilor periculoase ( este inclusă și controlul circulației prin camere video și radar, controlul bagajelor pe aeroporturi, urmărirea persoanelor în incinta băncilor, etc.);

– Armată – pentru maparea si aflarea țintelor și pentru dirijarea de la distanțe mari a rachetelor sau avioanelor de luptă;

– Inspecția non-chirurgicală – pentru detectarea și indicarea automată a zonelor sau organelor suspecte, din imaginile preluate tomografie ,fotografierea cu raze X și prin rezonanță magnetică, radiologie;

– Analiza compoziției chimice – prin detectarea și prelucrarea automată a informației primite cu ajutorul cromaticii, ;

– Microscopie – pentru detectarea automată a părților moleculare și atomice ale substanțelor studiate;

– Data mining – clasificare și identificare în volume mari de date structurate;

– Document image analysis – presupune împărțirea, căutarea informației cu ajutorul conversiei totale în text a unor documente salvate sub formă de imagini

– Multimedia database querying and content retrieval – se referă mai ales la cautarea unor documente video după criterii de căutare bine definite cum ar fi după chipul unei persoane;

Fig.3.2.1-Detecția unor recipienți necorespunzători

Fig.3.2.2-Detecție microsopică

In imaginile de mai sus sunt ilustrare folosirea unor metode de recunoaștere, detecție și control automate a calității anumitor produse farmaceutice: în prima imagine , produsul trece pe o banda rulantă iar camera detectează anumiți recipienți necorespunzători, iar în al doilea caz, prin procedura de inspecție microscopică se recunoaște prezența unui număr prea mare de bule de aer în compoziția substanței cercetate .

Fig.3.2.3-Detecția unei mașini dupa numărul de înmatriculare

Fig.3.2.4-Recunoaștere amprentă

Fig.3.2.5-Recunoașterea calității prin cameră cu raze X

Mai sus avem trei exemple de utilizare practică a metodelor de detectare și clasificare a imaginilor: în fig.3.2.3 este prezentată o cameră video care recunoaște numărul de înmatriculare a unei mașsini în mod automat ; In fig.3.2.4 este prezentată o imagine folosită într-un sistem de recunoaștere a poliției cu ajutorul unei baze de amprente digitale; in fig.3.2.5 avem o imagine facută cu raze X de o cameră de control a calității produselor alimentare și ne arată prezența oaselor in alimente .

Capitolul IV

Algoritmi folosiți în prelucrarea imaginilor

4.1. Segmentare

Similar Posts