Part 2 Licenta Cap. 1 Part 1 [608562]

1. Recu noasterea optica a caracterelor (OCR)

Recunoașterea optică a caracterelor (Optical character recognition, abreviat OCR) este
procesul prin care un sistem inteligent extrage secvențe de caractere din imagini ale acestora,
obținute de exemplu, prin scanare. Datorită acestei tehnologii, ne bucuram in zilele curente de
variante digital e ale multor cărți și documente importante. OCR se poate îmbin a de multe ori cu
tehnici de traducere automată sau text-to-speech, rezultând aplicații co mplexe și deosebit de utile.
Recunoașterea optică a caracterelor (OCR) este un subiect indelung studiat , ce poseda o
multitudine de aplicații in diferite domenii. Rezultatele soft-urilor OCR în domenii le cu probleme
limitate sunt promițătoare, totuși con struirea unei aplicații OCR foarte precise este încă
problematică în practică.
În următoarele secțiuni, voi detalia aspectele teoretice legate de OCR , etapele si
componentele unui process de OCR si clasificarea tipuril or de software -uri disponibile .

1.1 Recunoastere a automată
Modalitatea tradiționala de introducere a datelor într -un calculator este prin tastatură.
Aceasta nu este insa întotdeauna soluția cea mai bună sau cea mai eficientă. În multe cazuri,
identificarea automată poate fi o alternati vă superioara. Există diverse tehnologii pentru
identificarea automată ce acoperă nevoile pentru diferite domenii de aplicare. Mai jos o scurtă
enumerare a diferitelor tehnologiilor și aplicațiilor acestora.

1.1.1 Recunoaștere a vorbirii

În sistemele d e recunoaștere a vorbirii, sunt recunoscute vocile dintr -o bibliotecă
predefinită de cuvinte. Aceste sisteme ar trebui să fie independente de difuzoare și pot fi utilizate,
de exemplu, pentru rezervări sau comandarea mărfurilor prin telefon.

1.1.2 Viziunea artificiala

Prin utilizarea unei camere d e filamat , obiectele pot fi identificate pe baza form ei sau
mărim ii acestora. Această abordare poate fi, de exemplu, utilizată în automatele pentru reciclarea
sticlelor de plastic . Tipul de sticlă trebuie să fie recunoscut, deoarece suma rambursată pentru o
sticlă depinde de tipul acesteia.

1.1.3 Codurile de bare

Codul de bare consta in câteva linii întunecate și luminoase reprezentând un cod binar
pentru un număr de unsprezece cifre, zece dintre aces tea identificând produsul respectiv. Codul de

bare este citit optic atunci când produsul se deplasează pe o fereastră de sticlă, printr -un fascicul
laser concentrat de intensitate slabă . Lumina reflectată este măsurată și analizată de un calculator.
Codul de bare reprezintă un număr unic care identifică produsul, iar o căutare (PLU) este
necesar pentru a obține informații despre preț. Modelul binar reprezentând codul de bare ocupă
mult spațiu, având în vedere cantitatea redusă de informații pe care le deține conține. De asemenea,
codurile de bare nu sunt lizibile oamenilor. Prin urmare, ele sunt utile numai atunci când
informațiile pot fi tipărite în altă parte într -o formă care poate fi citită de om sau când este lizibilă
de om . Scanarea cu laser a co durilor de bare este, prin urmare, doar în câteva cazuri o alternativă
la recunoașterea optică a caracterelor.

1.3.3 Recunoaștere a optică a caracterelor.

Recunoaștere a optica a caracterelor este necesară atunci când informațiile trebuie citite
atât de oameni cat si de un calculator . În comparație cu celelalte tehnici de identificare automată,
recunoașterea optică a caracterelor este unică în sensul că nu necesită controlul procesului care
produce informația .

1.2 Definitie si clasificare OCR
Recunoaște rea optică a caracterelor implică citirea textului d e pe hârtie și transpunerea
acestuia într -o formă pe care calculatorul o poate manipula, cum ar fi codurile ASCII . Aceasta
operatie poate fi văzut a ca un proces de trei etape principale:
1. Identificarea blocurilor de text și imagini: În general, folosim spațiu alb pentru a încerca
să recunoaștem textul în ordinea corespunzătoare. Cu toate acestea, formatarea complexă, cum ar
fi rubricile sau tabelele încrucișate, trebuie prelucrate manual prin "zonare" ( identificarea și
numerotarea blocurilor de text) înainte de OCR.
2. Recunoașterea caracterelor: cea mai utilizată metodă este metoda de extragere, care
identifică un caracter prin analizarea formei acestuia si ii construieste un model de caracteristici
care va distinge acest caracter de celelalte.
3. Identificarea/recunoașterea cuvintelor: Sirurile de caractere sunt comparate cu cuvinte
din diferite dicționa re, în funcție de limba originala a documentului.
Există în mod tradi țional doi algoritmi pe ntru procesul de OCR:
• font-oriented : algoritm orienta t spre font , are informații anterioare despre caracterele care
trebuie să fie recunoscu te
• omni -font: algoritmul ”omni-font” măsoară și analizează diferite caracteristici din texte și
le clasifica fără a avea cunoștințe anterioare despre fontul sau mărimea caracterelor .
Algoritmii ”omni-font” pot recunoaște caracterele de calitate proastă datorită abilitățil or
de generalizare, dar rata de recunoaștere a acestora este de obicei mai mi că in comparatie
cu algoritmii ”font -oriented”

Prin urmare, majoritatea aplicatiilor ce folosesc algoritmul ”omni -font” pentru a face OCR
au nevoie si de o formă de învățare automată pentru a le îmbunătăți capacitatea de recunoaștere .
Pe scara larga, pentru a re aliza acest lucru sunt folosite rețelele neuronale . Un alt impas al acestui
algoritm este si faptul ca necesita o putere de procesare foarte mare (CPU) cat si o cantitate mare
de memorie.
In zilele de azi, software -urile comerciale OCR ating o rată de recunoaștere cuprinsă între
95% si 99%, în cazul documentelor tipărite pe hârtie obișnuit a. In comert se gasesc de asemenea
software -uri ICR ( Intelligent character recognition ) special concepute pentru recunoașterea
caracterelor scrise de mână . Cu toate acestea insa, aceste sisteme necesită ca scrierea caractere lor
sa fie asemănătoare cu cea a caractere lor tipărite. Recunoașterea caracterelor scrise de mână este
inca un domeniu încă in cercetare si va mai dura mult timp pana rata de recunoastere a a cestor
software -uri se va apropia de cea a celor de OCR. Performanța sistemelor OCR se bazează foarte
mult pe calitatea documentelor vizate. Aceasta reprezintă principala problemă atunci când se
incearca recunoasterea optica a caracterelor unui text.

1.3 Procesul de recunoastere
Recunoașterea imaginilor este un proces care, de obicei, constă în a face o fotografie,
procesarea acelei fotografii, prezenta rea rezultatelor și, în cele din urmă, reveni rea la primul pas și
corecta rea dacă este necesar a (fig 1.1). Pentru a spori gradul de utilizare a aplicației, trebuie create
câteva metode de ajutor pentru a ajuta utilizatorul să realizeze corect o fotografie. Metodele de
ajutor trebuie să detecteze dacă există erori de recunoaștere și să notifice utilizatorul în cazul în
care trebuie făcută o nouă fotografie.

Figur a 1.1: Procesul de recunoastere

Din punct de vedere istoric, cercetarea privind recunoașterea optică a caracterelor (OCR)
sa concentrat pe documentele scanate, însă creșterea numărului de dispoziti ve mobile echipate cu
camere a crescut interesul pentru OCR. Domeniile de aplicare includ căutarea prin imagini,
căutarea cuvintelor care apar în imagini, recunoașterea plăcuțe lor de înmatriculare, rezolvarea
puzzle -urilor .
In domeniile cu probleme restranse, r ezultatele obtinute in urma procesului de OCRizare
depasesc pragul de 90%. Aceste r ezultatele arată că este posibil să se obțină rezultate promițătoare
prin utilizarea cadrelor de procesare și recunoaștere a imaginii de ultimă generație, cum ar fi
OpenCV și Tesseract.

1.4 Componentele unui sistem OCR
1.4.1 Pre-procesarea
Software -ul OCR deseori are nevoie sa "pre-procese ze" imaginile pentru a îmbunătăți
șansele de reușită a recunoașter ii. Cateva dintre aceste t ehnici includ:
• Inclinarea – Dacă documentul nu a fost aliniat în mod corect atunci când a fost scanat, este
posibil să fie nevoie să fie înclinat cu câteva grade în sensul acelor de ceasornic sau în sens
invers acelor de ceasornic pentru a face linii le de text perfect orizontale sau verticale.
• Despicare – eliminarea petelor pozitive și negative, netezirea marginil or
• Binarizare – Conversia unei imagini de la culori /tonuri de gri la alb -negru (numită "imagine
binară" deoarece există două culori). Sarcina binarizării se realizează ca o modalitate simplă
de separare a textului (sau a oricărei alte componente dorite a imaginii) de fundal. Sarcina
binarizării însăși este necesară deoarece majoritatea algoritmilor de recunoaștere comercială
funcționează numai pe imagini binare, deoarece se dovedește a fi mai simplu să facă acest
lucru. În plus, eficacitatea etapei de binarizare influențează într -o măsură semnificativă
calitatea fazei de recunoaștere a caracterelor și se iau decizii atent e în alegerea binarizări i
utilizate pentru un anumit tip de imagine de intrare; deoarece calitatea metodei de binarizare
folosită pentru obținerea rezultatului binar depinde de tipul imaginii de intrare (documentul
scanat, imaginea textului )
• Îndepărtarea liniei – Stergerea liniil or si a diferitelor forme
• Analiza planului sau "zonare a" – Identifică coloane le, paragrafe le, legende le etc. ca blocuri
distincte. Aceasta tehnica e ste deosebit de important a în planurile și tabelele cu mai multe
coloane.
• Detectarea liniei și a cuvin telor – stabilește linia de bază pentru formele de cuvinte și caractere,
separă cuvintele dacă este necesar.
• Izolarea de caractere sau "segmentare a" – pentru OCR per caracter, mai multe caractere care
sunt conectate datorită artefactelor de imagine trebuie să fie separate; caracterele singure care
sunt rupte în mai multe bucăți din cauza unor artefacte trebuie să fie conectate .
• Normaliza rea raportul ui de aspect și scara

1.4.2 Recunoasterea caracterelor
Există două tipuri de bază ale algoritmului OCR, care pot produce o listă clasată de
caractere candidate.
Matricea de potrivire implică compararea unei imagini cu un simbol memorat sub forma
pixel *pixel , Este cunoscuta de asemenea si sub denumirea de "potrivire model" sau "recunoaștere
model" . Aceasta se bazează pe faptul că simbolul de intrare este corect izolat de restul imaginii,
iar simbolul stocat este într -un font similar și la aceeași scară. Această tehnică funcționează cel
mai bine cu textul scris de mașină și nu funcționează bine atunci când se întâlnesc noi fonturi.
Extracția elementelor descompune simbolurile în "caracteristici", cum ar fi linii, bucle
închise, direcții de linie și intersecții de linii. Caracteristicile de extracție reduc dimen sionalitatea
reprezentării și fac din procesul de recunoaștere un calcul eficient. Aceste caracteristici sunt
comparate cu o reprezentare abstractizată de vector a unui caracter , care s-ar putea reduce la unul
sau mai multe prototipuri de simboluri . Tehnic ile generale de detectare a caracteristicilor în
viziunea pe computer sunt aplicabile acestui tip de OCR, care este frecvent observat în
recunoașterea "inteligentă" a scrisului de.
Software -urile cum ar fi Cuneiform și Tesseract utilizează o abordare dua lă pentru
recunoașterea caracter elor. A doua trecere este cunoscută sub numele de "recunoaștere adaptivă"
și folosește formele literelor recunoscute cu mare încredere în prima trecere pentru a recunoaște
mai bine literele rămase de pe a doua trecere. Acest lucru este avantajos pentru fonturi neobișnuite
sau scanări de calitate scăzută în cazul în care fontul este distorsionat .

1.4.3 Post-procesarea
Precizia OCR -ului poate fi mărită dacă ieșirea este constrânsă de un lexicon – o listă de
cuvinte care pot să apară într -un document. Acest ea ar putea fi, de exemplu, toate cuvintele în
limba engleză sau un lexic mai tehnic pentru un anumit camp. Această tehnică poate fi
problematică dacă documentul conține cuvinte care nu sunt în lexicon, cum ar fi proprietățile
propriu -zise. Tesseract utilizează dicționarul său pentru a influența etapa de segmentare a
caracterelor, pentru o mai bună acuratețe.
Fluxul de ieșire poate fi u n flux de text simplu sau un fișier de caractere, dar sistemele
OCR mai sofisticate pot păstra aspectul original al paginii și pot produce, de exemplu, un PDF
adnotat care include atât imaginea originală a paginii, cât și o reprezentare textuală care poate fi
căutată.
Cunoașterea gramaticii limbajului scanat poate ajuta, de asemenea, să se determine dacă
un cuvânt ar putea fi un verb sau un substantiv, de exemplu, care să permită o mai mare
acuratețe. Algoritmul de distanță Levenshtein a fost de asemenea u tilizat în procesarea post –
procesare OCR pentru a optimiza în continuare rezultatele dintr -un OCR API.

Similar Posts