Indexarea Automata

Indexarea Automata

Byadmin ianuarie 1, 2024

Introducere

Indexarea automată după conținut a datelor este un domeniu de actualitate ce cîștigă din ce în ce mai mult teren datorită necesității crescînde de exploatare a volumelor mari de date multimedia. Progresul tehnologic al dispozitivelor de achiziție și prelucrare a datelor (terminale mobile, sisteme de calcul, medii de stocare, dispozitive de redare și captură audio-video) cît și a infrastructurii de transmisie de date (protocoale de transmisie fără fir: Wi-Fi, Bluetooth, rețele LAN de mare viteză, telefonia multimedia 3G și 4G) au condus practic la simplificarea stocării, transmisiunii și prelucrării volumului important de date specific multimedia (video, imagini, sunet, text).

Dacă în urmă cu aproximativ un deceniu, cantitatea de informație multimedia disponibilă era una redusă, în zilele noastre putem vorbi despre o explozie informațională. Accesul la informația multimedia sau ”conținut”, fie că este vorba de imagini, sunet, text sau video, a devenit practic parte iintegră din viața noastră de zi cu zi. Evoluția tehnologică a dispozitivelor de achiziție și prelucrare a datelor (terminale mobile, sisteme de calcul, medii de stocare, dispozitive de redare și captură audio-video) cît și a infrastructurii de transmisie de date (protocoale de transmisie fără fir: WiFi, Bluetooth, rețele LAN de mare viteză, telefonia multimedia 3G și 4G) au dus la creșterea exponențială a volumului multimedia prin facilitarea stocării și prelucrării acestuia.

La acestea contribuie semnificativ și răspîndirea Internet-ului tot mai multe medii sociale precum și succesul imens de care se bucură rețelele de so-cializare ”on-line” (exemplu: Facebook1, Twitter2, Linkedln3, Google+4) cît și platformele web multimedia (exemplu: YouTube5, Dailymotion6, Picasa7, Flickr8). Pe lîngă producția de conținut multimedia să spunem commercial (realizat de companii în vederea comercializării), accesul la rețele de socializare și platforme web a condus practic la facilitarea posibilității de a partaja și accesa date multimedia personale. Acestea reprezintă o sursă imensă de conținut multimedia, să luam ca exemplu rețeaua de socializare Facebook care în 2013 în sumă nu mai puțin de 1.2 miliarde de utilizatori ce partajează informații multimedia.

Capitolul 1

Conceptul de indexare după conținut

1.1 Scopul cercetării

Obiectivul principal al acestei lucrări este propunerea de soluții în vederea optimizării procesului de indexare automată a datelor multimedia. În cadrul Figurii 1.2 este prezentată arhitectura de bază a unui sistem multimedia, alături de principalele contribuții originale realizate în intervalul tezei de doctorat.

Fig. 1.2 Arhitectura de bază a unui sistem de căutare după conținut multimedia.

Prima componentă este interfața utilizator-calculator, care va permite utilizatorului să localizeze informațiile dorite, pe baza unei cereri de căutare. Aceasta poate să permită ca cererea să fie realizată într-un mod cît mai natural, la îndemîna oricărui utilizator. Totuși, utilizatorul poate să interacționeze cu sistemul nu numai pentru interogare, ci și pentru antrenarea acestuia, proces cunoscut sub denumirea de relevance feedback. Acesta reprezintă un mecanism interactiv de învațare în timp real, prin utilizarea sugestiilor oferite de utilizatorii aplicației. În cadrul aceste lucrări îmi propun să creez mecanisme de învățare rapide și eficiente care pot fi integrate în interacțiunea utilizator-calculator. Aceste metode vor fi utilizate în scopul îmbunătățirii performanțelor de indexare a bazelor de date de imagini.

Un alt concept important pentru căutarea de informației multimedia este cel de definire a unui sistem de similaritate dintre date și descriptorii aferenți (indexator). Practic identificarea rezultatelor căutării se realizează prin localizarea datelor ce sunt „similare” pînă la un anumit punct cu interogarea efectuată. Prezenta lucrare va expune diferite metode de evaluare și fuziune a similarității dintre diferite documente multimedia și aplicații ale acestora pentru probleme individuale de indexare.

Conceptul de indexare folosit pentru căutarea datelor este definit ca fiind procesul de adnotare a informației existente într-o colecție de date, prin adăugarea de informații suplimentare relative la conținutul acesteia, informații numite și indici de conținut [01]. Această etapă este necesară accesării colecției de date, deoarece permite catalogarea automată în funcție de conținut a datelor.

Într-o colecție de date suficient de vastă, putem spune că datele care nu au fost adnotate sunt practic inexistente pentru utilizator. Procesul de adnotare a datelor este văzut din două perspective: pe de-o parte există adnotarea manuală, iar pe de altă parte adnotarea automată. Gradul de complexitate al adnotării este direct proporțional cu nivelul de detaliu dorit pentru accesarea datelor. Dacă se dorește ca utilizatorul să poată accesa datele folosind criterii mai complexe, ca de exemplu căutarea unei anumite secvențe video pentru care nu se cunoaște nici numele, nici extensia fișierului, dar totuși utilizatorul dispune de informații referitoare la conținutul vizual al acesteia, în această situație, procesul de indexare va fi mult mai complex, necesitînd întelegerea de către calculator a conținutului datelor.

1.2 Problematica sistemelor de căutare după conținut

Sistemele de căutare a imaginilor după conținut se deosebesc de sistemele clasice de stocare prin tehnica nouă de indexare și interogare a sistemului denumită interogare după exemplu („query by example” – QBE) [4]. QBE este o tehnică de interogare prin care utilizatorul propune sistemului un model ca exemplu de căutare, iar sistemul va returna documentele asemănătoare cu interogarea aleasă. Spre exemplu, pentru un sistem de căutare de imagini, există mai multe tehnici de interogare posibile:

utilizatorul poate efectua o interogare după un set de cuvinte cheie, apoi selectează un document care va fi folosit ca și model de interogare;

userul desenează o aproximare a imaginii căutate utilizînd pete de culoare și exemple de texturi;

se încarcă o imagine de pe calculatorul personal.

Această tehnică are rolul de a elimina dificultățile care apar în descrierea imaginii prin utilizarea cuvintelor cheie. Query by example a fost utilizat pentru prima dată în (QBIC) [4]. Algoritmul folosește criteriul similarității și utilizează caracteristicile de nivel scăzut (low level) ca forma, culoarea și textura în recunoașterea de imagini asemănătoare. Sistemele ca Virage [7] și Excalibur [8] oferă utilizatorului posibilitatea de alegere a criteriului optim de interogare prin alocare de ponderi pentru fiecare tip de descriptor. Alte sisteme (Smith și Chang [9]) permit definirea de regiuni și specificarea relațiilor dorite între regiuni. Odată ce măsurile de similaritate sunt determinate, utilizatorul oferă exemplul bazei de date, iar sistemul va selecta criteriul ales și va afișa primele imagini găsite (de obicei între 10-30 de imagini). Acest model este reprezentativ pentru simplitatea lui, deoarece reprezintă o extensie naturală a problemei de găsire a similarității vectorilor în spațiul multidimensional. Prima problemă este complexitatea găsirii unui model reprezentativ pentru imaginea căutată. De foarte multe ori este dificil de obținut imaginea dorită pentru a putea fi oferită sistemului, iar uneltele puse la dispoziția utilizatorului pentru a putea desena modelul dorit, îl pot pune într-o mare dificultate. O altă problemă este că o schemă este o reprezentare mult simplificată a imaginii, și uneori este insuficientă pentru regăsirea imaginilor complexe.

Fig. 1.1 Exemplificare a paradigmei semantice prin utilizarea histogramei de culoare. Imaginea din centru (B) este o versiune mai luminoasa a imaginii din stînga (A) dar seturi diferite de caracteristici clasifica imaginile A și B ca fiind mai aproape de C decat distanta dintre ele: dist(A, B) = 0.20, dist(A, C) =0.25, dist(B, C) =0.05.

În computer vision conceptul este relevant atunci cînd încercăm să reprezentăm diferite scene utilizînd o reprezentare computațională. Interpretarea semantică a unei imagini are, de foarte multe ori, o foarte mică legătură cu corelația statistică a valorilor pixelilor. Un exemplu explicativ îl găsim în Figură 1.1 Pentru descrierea acestor imagini am utilizat un descriptor clasic, și anume histograma de culoare. Deși imaginile A și B au un conținut identic, imaginile B și C sunt mai similare deoarece în spațiul descriptive al imaginilor, distanța dintre cele două trăsături este mai mică.

Principalele provocări pe care un sistem de căutare după conținut trebuie să le satisfacă sunt:

performanța scăzută a sistemelor datorită volumelor mari de date (triliarde de documente);

crearea de unelte software performante pentru interogare și regăsire documentelor după concepte complexe;

mecanisme noi de navigare, astfel încît să ajute utilizatorul în îmbunătățirea interogării;

gradul de automatizare / reantrenare al sistemului în timp real;

conținutul: modul de întelegere al documentelor din punctul de vedere al utilizatorului;

descriptori: tipul de calcul al descriptorilor și limitările numerice ale acestora;

performanța: probleme de arhitectură a sistemului, de evaluare și integrare;

ușurința utilizării sistemului de către utilizator.

Fig. 1.2 Prezentarea procesului de interacțiune utilizator-sistem în cadrul algoritmului de relevance feedback.

1..1 Baze de date de imagini

ImageClef

Competiția ImageClef („The CLEF Cross Language Image Retrieval Track”) este creată și întreținută de către Cross Language Evaluation Forum (CLEF). Aceasta propune în fiecare an diferite task-uri cu baze de date diferite. În 2012, au fost propuse 4 competiții: clasificare de imagini medicale, adnotare de fotografii, identificare plante și Robot Vision, fiecare conținînd la rîndul lor mai multe task-uri.

Baza de date medicală conține 305.000 imagini, extrase din articolele publicate în diverse domenii medicale (radiografii și ecografii). Aceasta conține trei probe: determinarea sursei imagini preluate („Modality Classification”), regăsire de imagini după anumite interogări („Ad-hoc image-based retrieval”) și căutare imagini după concept („Case-based retrieval”). Competiția de indexare de fotografii conține două probe: prima presupune detecția de concepte vizuale pentru imagini de pe Flickr, iar a doua constă în indexarea de imagini de pe Web.

Fig. 2.14 Exemple de imagini din baza de date Image CLEF: (a) imagini din competiția de clasificare de fotografii (primele 3 imagini prezintă conceptual de reflexie iar ultimele două conceptual de lumini în trafic) și (b) imagini cu plante pentru competiția de identificare de tipuri de plante

Prima bază de date conține 25.000 de imagini downloadate de pe Flickr și constă în detecția anumitor concepte, ca de exemplu: perioada zilei, elemente natural (soare, nori), peisaje (floră, faună, identificare forme relief), numărul de persoane și vîrsta Prima bază de date conține 25.000 de imagini downloadate de pe Flickr și constă în detecția anumitor concepte, ca de exemplu: perioada zilei, elemente natural (soare, nori), peisaje (floră, faună, identificare forme relief), numărul de persoane și vîrsta acestora etc. Sunt permise utilizarea de trăsături vizuale cît și a metadatelor preluate de pe Flickr. Pentru a doua problemă, baza de date are o dimensiune mult mai mare, de 250.000 de imagini și conține un număr mult mai ridicat de concepte. Pentru fiecare bază de date sunt puse la dispoziția participanților un set de descriptori vizuali și de text.

Caltech

Prima bază de date Caltech a fost creată de către California Institute of Technology și conținea 4300 de imagini naturale grupate în modul următor: 1074 avioane, 1155 de mașini, 450 oameni, 826 motociclete și 900 imagini generale. Apoi, în septembrie 2003, aceasta a fost refăcută de către Fei-Fei Li, Marco Andreetto, Marc Aurelio Ranzato și Pietro Perona de la Caltech. Noua bază de date conținea 9146 imagini, împărțite în 101 obiecte distincte (incluzînd spre exemplu fețe, ceasuri, crocodili, avioane furnici, instrumente muzicale etc) și o categorie care conține imagini de background.

Fig. 2.15 Exemple de imagini din baza de date Image Caltech 101

Caltech 101 conține cîteva avantaje față de alte baze de date: imaginile au dimensiune uniformă, iar, pentru aceeași categorie, obiectele au dimensiuni apropiate și sunt așezate în poziții relative asemănătoare. Acest lucru înseamnă că utilizatorii care utilizează baza Caltech 101 pierd timp cu localizarea automată sau manuală a obiectelor. Obiectele sunt de cele mai multe ori în prim plan, nu există ocluziuni sau alte tipuri de zgomot. Deși imaginile au obiectele căutate foarte bine evidențiate, acestea au un background diferit, ceea ce face ca problema de clasificare să fie mai dificilă și mai aproape de un scenariu real.

Principalul dezavantaj al bazei de date Caltech 101 este reprezentat de numărul mic de clase și de faptul ca anumite clase sunt insuficient reprezentate (există clase cu 30 de imagini ceea ce este insuficient). Din acest motiv, în 2007 a fost creeată o nouă bază de date Caltech 256. Aceasta conține 30.607 imagini grupate în 256 categorii. Fiecare concept este mult mai bine reprezentat, numărul minim de imagini per categorie fiind egal cu 80.

2.5 Metode de fuzionare

În cele mai multe dintre cazuri, pentru reprezentarea conținutului multimedia este necesară combinarea mai multor tipuri de descriptori. De exemplu, conținutul unei secvențe de imagini poate fi reprezentat atît pe baza structurii temporale, cît și folosind descriptori de mișcare, descriptori audio și așa mai departe. Metodele de fuzionare se bazează pe principiul următor: o decizie agregată din partea mai multor sisteme expert poate avea o performanță superioară celei oferite de un singur sistem. O problemă complexă poate fi împărțită în mai multe subprobleme care sunt mai ușor de înțeles și de rezolvat (principiul „divide et impera”). De exemplu, conținutul unei secvențe de imagini poate fi reprezentat atît pe baza structurii temporale, cît și prin utilizarea descriptorilor de mișcare, descriptori audio și așa mai departe. În general, există două tipuri de fuzionare: fuzionare timpurie („early fusion”) și fuzionare tîrzie („Late Fusion”).

2.5.1 Metode de tip „Early Fusion”

Fuzionarea timpurie se efectuează la nivelul vectorilor descriptori, înainte de începerea procesului de clasificare. Clasificarea va fi apoi efectuată pe un vector care combină mai mulți descriptori. Deci, fuziunea datelor are loc în spațiul de caracteristici și constă practic în concatenarea propriu-zisă a tuturor descriptorilor fără a ține cont de redundanța acestora. De exemplu, dacă obiectul multimedia X este descris de descriptorii de conținut , și respectiv , unde a, b și c reprezintă valorile atributelor acestora, descriptorul agregat este dat de concatenarea valorilor . Acesta definește astfel un nou spațiu de caracteristici (n + m + l) dimensional.

Pentru a putea fi concatenați, descriptorii vor parcurge un proces individual de normalizare [33] și de filtrare (eliminare date lipsă, valori anormale etc).

Fig. 2.9 Schema unui sistem cu fuziune „Early Fusion”

Combinația unui număr ridicat de descriptori implică mai multe probleme elementare. Prima este generată de faptul că intervalele de variație ale descriptorilor pot fi diferite (de exemplu, un descriptor poate lua valori în intervalul [0,1] în timp ce altul poate varia în gama [1000,10000]).

Metodele de normalizare cele mai utilizate sunt [34]:

Min-Max (MM): această metodă mapează valorile vectorilor descriptori în intervalul [0,1]. Scalarea elementelor se va efectua în funcție de valorile maxime și minime ale vectorului descriptor:

Z-score (ZS): scalează valorile descriptorilor pe o distribuție de medie 0 și dispersie egală cu 1.

Norma vectorului (vector norm): reprezintă o metodă preluată din algebra liniară, unde, ca și în analiza funcțională sau alte arii ale matematicii, o normă reprezintă o funcție care atribuie o lungime strict pozitivă unui vector într-un spațiu multidimensional. Fie un vector multidimensional: . Fie norma vectorului x, avînd următoarele proprietăți:

pentru și pentru

, pentru k scalar

Definim funcția normă de ordin că fiind:

Valorile cele mai des întîlnite ale lui p sunt 1,2 și . Pentru , vom avea relația:

Tangenta hiperbolică (tanh): mapează valorile în intervalul (0,1), în funcție de distribuția sa statistică:

În ciuda dezavantajelor, fuzionarea „early fusion” are, în multe cazuri, o performanță similară și chiar mai ridicată decît în cazul în care este utilizată metoda „late fusion” [35].

2.5.2 Metode de tip „Late Fusion”

Algoritmii de tip „late fusion” propun îmbinarea deciziilor individuale a mai multor sisteme expert, după ce au fost utilizați clasificatorii pe fiecare trăsătură în parte. Pe baza răspunsurilor oferite de fiecare clasificator, se va calcula un raspuns agregat. În funcție de metoda de combinare a clasificatorilor, „late fusion” se clasifică în patru mari categorii:

fuziune paralelă: deciziile clasificatorilor sunt generate în mod paralel, ca apoi la sfîrșit să fie luată o decizie finală utilizînd rezultatele tuturor sistemelor;

fuziune serială: deciziile sunt acordate gradual. În funcție de fiecare răspuns intermediar, se decide dacă se trece la alt clasificator sau decizia este finală. Mecanismul este preluat din algoritmul AdaBoost, care creează o cascadă de clasificatori naivi [36].

fuziune ierarhică: deciziile sunt luate în mod ierarhic, utilizînd noduri de decizie. În funcție de decizia obținută într-un nod, se va trece într-un nou nod de decizie. Există două tipuri de abordări ierarhice: buttom-up (mai multe clasificatoare converg către un clasificator final) sau top-down (în funcție de decizia unui clasificator inițial, decizia se separă pe mai multe nivele). Variantele de fuziune ierarhică utilizează arhitecturi asemanatoare cu a arborilor de decizie (ID3, C4.5) [37] sau a arborilor aleatori [38].

fuziune mixtă: conține mai multe tipuri de fuziuni combinate.

(a) (b)

(c) (d)

Fig. 2.11 Ilustrații ale unor sisteme de „late fusion”: (a) Fuziune paralelă ierarhică, (b)Fuziune serială, (c) Fuziune Ierarhică Bottom-Up, (d)Fuziune Ierarhică Top-Down

Tehnicile de tip „late fusion” sunt mai avantajoase din punct de vedere computațional, deoarece agregarea se face folosind dimensiunea inițială a descriptorilor. Este mai eficientă clasificarea unor descriptori de dimensiuni reduse și agregarea rezultatelor decît clasificarea unui descriptor agregat de dimensiuni semnificativ mai mari. Principalul dezavantaj al acestor metode este, totuși, dat de pierderea eventualei corelații dintre descriptori, corelație ce se obține în cazul concatenării acestora și care poate furniza un nivel de discriminare superior folosirii individuale a acestora.

În ciuda diferențelor dintre cele două abordări, „early fusion” și respectiv „late fusion”, nu există o metodă preferențială în defavoarea celeilaltei, ambele abordări dovedindu-se eficiente în contexte diferite. Astfel că tehnica de fuziune a datelor rămîne dependentă de aplicație [35].

Capitolul 2

Metode clasice de descriere a conținutului multimedia

3.1 Descriptori de culoare

Culoarea este probabil cea mai expresivă dintre toate componentele vizuale. Primele sisteme de căutare după conținut a imaginilor au utilizat culoarea ca și informație de bază pentru indexare.

3.1.1 Spații de culoare

Primele studii despre culoare au fost efectuate de către Newton [1], prin trecerea luminii solare într-o prismă de cristal, demonstrîndu-se astfel dependența culorii de compoziția spectrală a luminii. O suprafață care reflectă lumina, reflectă independent fiecare componentă spectrală (fiecare frecvență sau, echivalent, fiecare lungime de undă). Atunci cînd un obiect este iluminat, el va absorbi o parte din radiația emisă, iar o partea din aceasta va fi reflectată. În funcție de suprafața fiecărui material, două obiecte diferă prin modul în care absorb, reflectă sau transmit lumina atunci cînd sunt iluminate, prin urmare ochiul uman vizualizează în mod diferit, deoarece primește o cantitate diferită de lumină.

Studiile au continuat și în secolele urmatoare fără îmbunătățiri notabile. Abia în secolul XIX, Young și Maxwell au descoperit că fiecare culoare poate fi matematic codată prin îmbinarea a trei culori fundamentale: R (roșu) G (verde) B (albastru), principiu cunoscut sub numele de teorie a tricromaticității [43]. Ochiul nu distinge ca avînd culori separate orice sursă luminoasă cu distribuții spectrale diferite. Explicația este că pe retină se găsesc trei tipuri de receptori, pentru diferite părți din spectrul luminii.

Fiecare tip de receptor va genera un nivel de excitație, în funcție de radiația luminoasă pe care o primește. În cele din urmă, aceasta poate fi reprezentată ca un număr real. Două culori sunt percepute identic dacă oricare dintre ele declanșează același răspuns din partea fiecărui tip de receptor. Matematic, cele de mai sus se formalizează astfel: fiecare tip de celule se caracterizează printr-o curbă de sensibilitate – o funcție definită pe intervalul de lungimi de undă ale luminii vizibile și cu valori reale pozitive. Răspunsul fiecărui tip de receptor este dat de produsul scalar al distribuției spectrale a luminii incidente cu o curbă de sensibilitate a receptorului respectiv.

Prima reprezentare a culorilor aparută a fost reprezentarea XYZ. Reprezentarea XYZ constă în trei numere reale pozitive, notate X, Y și Z, fiecare dintre ele fiind definit ca produsul scalar dintre distribuția spectrală a puterii luminii și o „curbă de sensibilitate” standardizată [43]. Ulterior, au fost dezvoltate mai multe teorii, descrieri și reprezentări ale culorilor, din care voi enumera cîteva mai importante [43]: teoria culorilor opuse (dezvoltată de Hering), eclipsele MacAdams, spațiul YUV, spațiul U*V*W*, CIE Lab 1976 și familia de culori HSV.

RGB

Modelul de culoare RGB este cel mai cunoscut, fiind aplicat în majoritatea dispozitivelor electronice. Acesta este un model aditiv în care culorile roșu, verde și albastru sunt adăugate împreună în diverse cantități pentru a reproduce o gamă largă de culori. Numele modelului vine de la inițialele celor trei culori aditive (Red, Green, Blue). Principalul scop al modelului RGB fiind de a afișa imagini în sistemele electronice (monitoarele sau aparate foto). În sistemele de căutare după conținut, acest spațiu de culoare este puțin utilizat deoarece conține un grad mare de corelare între cele trei componente. Culorile sunt exprimate prin valori cuprinse între 0 și 255, generînd un numar de culori (24 biti per culoare). Din RGB au fost derivate diverse modele de culoare:

sRGB – spațiul de culoare RGB standard creat de HP și Microsoft (monitor + Internet);

Adobe RGB – spațiul de culoare RGB creat de Adobe Systems în 1998.

Fig. 3.1 Cubul RGB(sursă imagine Wikipedia).

YCbCr

YCbCr este un alt spațiu de culoare utilizat în diverse componente electronice. Y reprezintă luminanța, iar Cr și Cb reprezintă diferențele de culoare roșie și albastră. YCbCr reprezintă o transformare liniară a RGB și are avantajul că separă informația de culoare de cea de luminanță. Relațiile de calcul ale celor trei componente sunt

Y = 0.299·R + 0.587·G + 0.114·B

Cb = -0.169·R – 0.331·G + 0.5·B

Cr = 0.5·R – 0.419·G + 0.081·B

Fig. 3.2 Planul YCbCr cu y = 0.5, (sursă imagine Wikipedia).

Familia de culori HSV

Familia de culori HSV conține mai multe tipuri de spații de culoare: HSV (Hue (nuanță), Saturation (saturație), Value (valoare)), HSB (Hue (nuanță), Saturation (saturație), Brightness (strălucire)) și HSL (Hue (nuanță), Saturation (saturație), Lumination (luminație)). Principalul avantaj al acestor reprezentări este descrierea diferențelor de culori într-o manieră mai apropiată de sistemul vizual uman. În computer vision, spațiul HSV prezintă o performanță de indexare mai bună în comparație cu RGB.

(a) (b)

Fig. 3.3 Spațiul de culoare a familiei HSV (a) Cilindrul HSL (b) Cilindrul HSV (sursă imagine Wikipedia).

HSV este ideal pentru manipularea culorii deoarece separă intensitatea de nuanță și saturație. H (hue) reprezintă componenta spectrală dominantă, culoarea în forma cea mai pură, ca de exemplu verde, roșu sau galben. A doua componentă a culorii în spațiul HSV este reprezentat de saturație: adaugarea sau substracția de alb dintr-o culoare va schimba intensitatea acesteia, mai precis va deveni mai mult / puțin saturată. Componenta value (V) corespunde luminanței culorii.

HMMD

HMMD (Hue Min Max Dif) [47] este un spațiu de culoare definit în MPEG-7. Prima componentă de nuanță de culoare are același înțeles ca în HSV, iar MIN și MAX reprezintă minimul și maximul în cadrul valorilor RGB. Componenta DIF este definită ca diferența dintre valorile minime și maxime ale tripletei RGB. Doar trei dintre cele patru componente sunt suficiente pentru descrierea conținutului de culoare, a patra componentă putînd fi calculată automat din primele trei. De asemenea, se poate defini o a cincea componentă Sum care reprezintă suma componentelor Min și Max.

Interpretarea fiecărei componente din spațiul HMMD este distinctă: nuanța ia valori în intervalul , la fel ca în cazul HSV, Max (în intervalul ) specifică cîtă culoare neagră este prezentă, Min (în intervalul ) arată cantitatea de culoare, Dif specifică puritatea culorii albe (avînd o interpretare asemănătoare cu a saturației), în timp ce Sum specifică luminozitatea culorii.

Sistemul de coordonate este reprezentat printr-un con dublu (Figura ). HMMD a fost conceput datorită proprietăților similare cu spațiul HSV, însă are avantajul că este mult mai rapid în procesul de calcul / conversie din spațiul RGB.

Fig. 3.4 Sistemul de coordonate pentru H.M.M.D. (sursă imagine Wikipedia).

CIE Lab

Modelul de culoare Lab își propune să modeleze spațiul de culoare cît mai aproape matematic de sistemul vizual uman. Valorile numerice din Lab descriu toate culorile care pot fi percepute de o persoană cu vedere normală. Modelul a fost definit în 1976 de către International Commission on Illumination, și mai este cunoscut sub următoarele denumiri: CIE 1976, L*a*b* sau CIELAB. Deoarece Lab descrie modul în care arată o culoare și nu cantitatea de culoare necesară unui dispozitiv (precum un monitor, o imprimantă desktop sau o cameră digitală) pentru a produce culori, Lab este considerat un model de culoare independent de dispozitiv. Sistemele de gestionare a culorii utilizează Lab ca referință de culoare, pentru a transforma o culoare dintr-un spațiu de culoare în alt spațiu de culoare.

Cele trei coordonate ale sistemului Lab reprezintă: luminanța culorii (L* = 0 reprezintă negru și L* = 100 indică un alb mat; valorile pentru alb strălucitor pot fi mai ridicate), poziția culorii între roșu-magenta și verde (a*, valorile negative caracterizează o culoare apropiată de verde și cea pozitivă indică magenta), iar ultima componentă prezintă poziția culorii între galben și albastru (b*, valori negative indică o culoare albastră în timp ce valorile pozitive reprezintă similaritatea față de galben).

Color Naming

Acest model [48] conține 11 culori elementare care au aceeași semnificație în toate limbile pămîntului: negru, albastru, maro, gri, verde, portocaliu, roz, purpuriu, roșu, alb și galben. Paleta de culori a fost antrenată și etichetată de către un grup extins de subiecți din diverse țări.

Figura 3.6 prezintă cele 11 culori fundamentale:

Fig. 3.6 Spațiul de culoare Color Naming (sursă imagine [48])

3.1.2 Histograma imaginii

Matematic, o imagine este o funcție , în cazul în care imaginea este color, sau , în cazul în care avem o imagine monocromă [44]. Histograma constituie un grafic al preponderenței pixelilor de anumită tonalitate. Pe scurt, ea ne oferă informații cu privire la distribuția culorilor dintr-o imagine. Pentru o imagine alb-negru avem un singur grafic, iar pentru spațiile de culoare color putem avea trei grafice, cîte unu pentru fiecare canal în parte. De asemenea, histograma RGB poate fi vizualizată și într-un spațiu 3D, în care numărul de pixeli de o anumită culoare este reprezentat ca o sferă de rază proporțională cu numărul de pixeli [1]. Primele aplicări ale histogramei în domeniul indexării de imagini, au fost efectuate în 1991 de către Swain și Ballard [49], aceasta, devenind de altfel, o metodă de referință pentru descrierea conținutului vizual. Calculul histogramei este realizat cu formula următoare:

unde c reprezintă o culoare dintr-un spațiu de culoare ales, f(m,n) reprezintă culoarea unui pixel la locația (m,n), iar M, N reprezintă dimensiunea imaginii.

Pentru ca histograma sa aibă o dimensiune cît mai scurtă (lungimea maximă poate fi 3×255) se recurge la discretizarea spațiului de culoare, iar apoi se numără de cîte ori o culoare discretizată se găsește în imagine. Pentru performanțe optime, trebuie ajuns la un compromis între discretizare pe intervale mai mari sau pe intervale mai mici. Intervale mari de discretizare vor genera pierderi de informație de culoare, în timp de intervale mici vor genera diferențe mari între două imagini apropiate prin conținut, dar afectate de zgomot sau alte efecte (ex: iluminare, translații, mici mișcari de scenă). În Figura 3.7 este prezentată variația histogramei în cazul unor variații de scenă. Histograma prezintă proprietăți interesante, deoarece este invariantă la translații și rotații, sau mișcări ale obiectelor din scenă. În același timp, histogramele, pentru două obiecte cu aspect distinct, diferă substanțial, generînd un număr imens de posibile histograme (exponențial pentru numărul de culori diferite dintr-o imagine). Histogramele de culoare sunt flexibil de construit în diverse spații de culoare și sunt ușor de calculat, fiind necesară o simplă parcurgere a imaginii.

Fig. 3.7 Ilustrare a variația histogramei în cazul unor modificări minore de scenă. Trei imagini similare și histogramele acestora. Se observă că fundalul imaginii generează diferențe majore de histogramă (surse imagini 10)

Principalul dezavantaj al histogramei este că nu ține cont de aranjarea spațială a imaginii, ignorînd textura și forma obiectului. Practic, nu există metode de a distinge o cană albă cu albastru de o farfurie albă și cu dungi albastre. O altă problemă a histogramei este sensibilitatea acesteia la zgomot, cum ar fi efecte de iluminare sau la erori de cuantizare.

3.1.3 Momente de culoare

Momentele de culoare determină gradul de apropiere dintre două imagini, utilizînd statistici ale culorilor conținute. Această metodă pleacă de la premiza că distribuția de culoare dintr-o imagine poate fi interpretată ca o distribuție de probabilitate. Distribuția probabilității este caracterizată de un număr unic de momente. Prima utilizare a momentelor de culoare a fost realizată de către Striker și Orengo [50]. Aceștia au utilizat

trei momente de culoare pentru fiecare canal din spațiul de culoare (medie, variația standard și skewness):

Momentul de ordin 1: media de ordin 1

unde reprezintă culoarea de la locația i, iar N numărul de pixeli din imagine.

Momentul de ordin 2: deviația standard

reprezintă radacina pătrată a varianței distribuției.

Momentul de ordin 3: Skewness

poate fi înțeleasă ca o măsură a gradului de asimetrie a distribuției.

3.1.4 Histograma „Color Coherence Vectors”

Pentru a măsura distribuția spațială a culorii dintr-o imagine a fost propus un nou tip de histogramă în [51]. Această structură pleacă de la premiza că un pixel din interiorul unei regiuni uniforme trebuie interpretat diferit, față de un pixel aflat într-o regiune de contur. Practic, se vor calcula două histograme: o histogramă a pixelilor de tranzit și o histogramă a obiectelor uniforme. Histograma „Color Coherence Vectors” (CCV) previne comparația de pixeli care provin din regiuni incoerente cu pixeli din zone coerente de culoare. Acest proces asigură o distincție fină între diverse tipuri de pixeli, ceea ce nu ar fi fost posibil cu o histogramă clasică de culoare. Algoritmul conține următorii pași de calcul:

se aplică un filtru medie (blur) asupra imaginii, astfel încît micile variații de culoare între pixelii vecini să dispară;

se discretizează spațiul de culoare, astfel încît să avem n culori distincte;

se separă pixelii coerenți de cei incoerenți (după diverse reguli) și se construiesc cele două histograme.

3.2 Descriptori de textură

Textura [43] reprezintă un concept foarte vast, atribuit oricărei suprafețe naturale. În general, textura reprezintă o structură de suprafață spațial repetitivă, formată prin repetiția de elemente în diverse poziții relative. Repetiția poate implica variații locale de scală, orientare și rotație. Imaginile de textură sunt definite ca imagini naturale texturate, împreună cu șabloane artificial create, ce pot fi asemănătoare cu structurile reale.

Fig. 3.10 Exemple de texturi aparținînd bazei de date Vis Tex

Există două metode de descriere a texturilor [43]:

studiul determinist se referă la căutarea de structuri de bază care se repetă în mod spațial. Aceasta abordare corespunde unei viziuni macroscopice, întîlnită de altfel în cazul rocilor, țesăturilor, sau a modelelor de tip mozaic. Elementul repetitiv de bază poartă numele de texton sau texel – „texture element” – (prin similaritate cu denumirea de „pixel”).

abordarea statistică (probabilistică) se referă la studiul atributelor haotice și omogene în același timp, care nu au legătură cu niciun element de bază localizabil (motiv), de nici o frecvență principală de repetiție.

Este aproape imposibil de descris texturile utilizînd cuvinte. Cu toate acestea, putem descrie suprafețe naturale, fiecare persoană definind anumite trăsături de aspect, ca de exemplu: asprime, finețe, granularitate, liniaritate, direcționalitate, rugozitate, regularitate, nivel haotic. Aceste trăsături care definesc în principal aranjarea spațială a texturilor constituente ajută la o descriere amănunțită a proprietăților texturii, însă aceste trăsături nu pot fi ușor asociate cantitativ. În cele ce urmează, vom prezenta diferiți descriptori de textură.

3.2.2 Matricea de concurență

Matricea de coocurență reprezintă o statistică de ordin II a perechilor nivelelor de gri dintr-o imagine. Aceasta calculează numărul de perechi de pixeli de anumite culori, separate de o distanță d, de-a lungul unei direcții a.

unde reprezintă 2 culori, x poziția în cadrul imaginii.

În final, acest descriptor va fi o matrice M patrată, de dimensiune egală cu numărul de valori posibile ale pixelilor.

Concepul de matrice de coocurență se poate aplica și pentru perechi de culori, nu numai pentru imagini cu nivele de gri, utilizînd diverse nivele de cuantizare a spațiului culorii. După calculul matricii de coocurență, sunt calculați diferiți parametri statistici cunoscuți sub numele de Haralick [57]:

Contrastul:

unde reprezintă valoarea intensității pixelilor aflați la locația (i,j), iar M și N reprezintă dimensiunile imaginii.

Corelația:

unde

Entropia:

3.2.3 Modele „Markov Random Fields”

Modelele „Markov Random Fields” (MRF) consideră imaginea 2D ca un șir de scalari (valori de nivele de gri) sau de vectori (culori), aflați într-o distribuție statistică [58]. Cu alte cuvinte, semnalul fiecărui pixel este considerat a fi o variabilă aleatoare. Fiecare textură este caracterizată de o probabilitate de distribuție a semnalului, prin interacțiunea acestuia cu alte semnale (în cazul nostru, prin interacțiunea pixelilor vecini). Modelul Markov presupune că probabilitatea fiecărui pixel (x,y) este determinată printr-o convoluție a pixelilor vecini. Aceste tehnici poartă numele de modele auto-regresive (simultaneous autoregressive – SAR), textura fiind reprezentată printr-o serie de parametri de autoregresie:

unde w este independent (zgomot alb de medie 0 și varianță 1) iar parametri a(m,n) sunt specifici modelului SAR. Problema de bază a algoritmului constă în metoda de găsire a vecinătății adecvate pentru calculul vecinătății.

3.2.4 Corelograma

Corelograma este o matrice care grupează probabilitațile de a avea o pereche de pixeli de valori specificate, separați de o distanță fixată [59]. Pentru fiecare distanță d, corelograma va fi o matrice pătrată de dimensiune egală cu numărul de valori diferite posibile pentru pixeli.

3.2.5 Matricea de izosegmente

Izosegmentele („run-length”) reprezintă o tehnică de extragere a caracteristicilor statistice a texturii. Această tehnică a fost utilizată inițial de către Galloway [60] în 1975 și de către Chu în 1990. Un izosegment de nivele de gri reprezintă o mulțime liniară de pixeli consecutivi, avînd același nivel de gri, orientați pe o anumită direcție. Lungimea unui izosegment este numărul de pixeli ce formează respectiva mulțime. Matricea de Iiosegmente („Gray Level Run Length Matrix” – GLRLM) este o matrice m x n, unde m reprezintă numărul de lungini de izosegmente posibile iar n este numărul de nivele de gri în care este cuantizată imaginea.

Numărul de nivele de gri din imagine va fi cuantizat. De obicei, aceasta se cuantizează pe 16 nivele de gri. Gradul de cuantizare este esențial pentru performanța algoritmului.

Fie următoarele notații:

p(i,j|θ) este al (i,j) – lea element al matricei de izosegmente pentru direcția θ

G – numărul de nivele de gri

R – cel mai lung izosegment

n – numărul de pixeli din imagine

Galloway a introdus cinci trăsături statistice care pot fi extrase din matricea de izosegmente:

plaja de izosegmente scurte („Short Run Emphasis”)

prin împărțirea fiecărui izosegment cu pătratul valorii acestuia sunt accentuate izosegmentele de lungime mică

plaja de izosegmente lungi („Long Run Emphasis”)

prin înmulțirea fiecărui izosegment cu pătratul valorii acestuia, se accentuează valoarea izosegmentelor lungi

neuniformitatea nivelului de gri („Gray Level Non-Uniformity”)

valorile mai mari ale izosegmentelor vor contribui mai mult la calculul acestei trăsături

neuniformitatea lungimilor plajelor („Run Length Non-Uniformity”)

procentul de izosegmente („Run Percentage”)

este raportul dintre numărul de izosegmente și numărul de pixeli ai regiunii.

Chu a introdus două trăsături adiționale: „Low Gray Level Emphasis” (LGRE) și „High Gray Level Emphasis” (HGRE):

Pentru simplificarea notațiilor se notează cu:

unde r reprezintă numărul de izosegmente de lungime j și g este numărul de izosegmente de culoare i.

Se definește S ca fiind numărul total de izosegmente din imagine:

ecuația putînd fi scrisă în felul următor:

iar de aici toate formulele pot fi scrise în funcție de r și g:

ceea ce înseamnă că toate trăsăturile pot fi calculate fără a determina întreaga matrice de izosegmente. Este suficient calculul a două șiruri ( r[j] și g[i]).

3.2.6 Calcul în spațiu transformat

Transformările reprezintă o categorie de prelucrări ce includ operații de tip integral, la calculul noii valori a unui pixel al imaginii transformate contribuind valorile tuturor pixelilor din imaginea originală. Pentru o imagine pătrată I de dimensiune N, o transformată unitară este de forma:

unde reprezintă imaginea cu un singur pixel de culoare la locația (k,l), iar V(k, l) sunt coeficienții dezvoltării în serie. O transformare unitară reprezintă un operator integral caracterizat prin faptul că valoarea fiecărui pixel din imaginea finală depinde de valorile tuturor pixelilor din imaginea pixelilor.

Transformatele unitare prezintă anumite proprietăți:

Energia semnalului se conservă printr-o transformare unitară;

Energia medie a semnalului se conservă printr-o transformare unitară;

Entropia unui vector cu componente aleatoare se conservă printr-o transformare unitară:

Coeficienții din spațiul transformatei sunt decorelați sau aproape decorelați. Transformata optimă, care compactează maximumul de energie într-un număr dat de coeficienți și care în același timp decorelează complet, este transformarea Karhunen-Loeve.

Transformata Fourier

Transformata Fourier se aplică unei funcții complexe și produce o altă funcție complexă care conține aceeași informație ca funcția originală, dar reorganizată după frecvențele componente. De exemplu, dacă funcția inițială este un semnal dependent de timp, transformata sa Fourier descompune semnalul după frecvență și produce un spectru al acestuia. Același efect se obține dacă funcția inițială are ca argument poziția într-un spațiu uni sau multidimensional, caz în care transformata Fourier relevă spectrul frecvențelor spațiale care alcătuiesc funcția de intrare.

În cazul prelucrarii de imagini, se utilizează transformata Fourier Discretă bidimensională unitară. Transformata Fourier bidimensională, pentru o imagine de dimensiune NxN, se calculează cu formula următoare:

unde f(a,b) este imaginea în domeniul real, iar F(k,l) reprezintă mediul transformat.

Transformarea Gabor

Transformarea Gabor îmbină avantajele transformatei Fourier (localizare bună în frecvență și orientare) cu avantajele localizării bune în spațiul cartezian [61]. Reprezentările frecvenței și orientării filtrelor GABOR sunt similare cu cele ale sistemului vizual uman. Transformarea 2D conține un nucleu gaussian modulat de o sinusoidă.

unde

3.2.7 Operatorul „Localy Binary Patterns”

Operatorul „Localy Binary Patterns” (LBP) a fost prima dată introdus de către Ojala [62]. Acesta etichetează pixelii unei imagini în valori binare, prin prăguirea vecinătății fiecărui pixel. Datorită puterii discriminative mari și a simplității computaționale, LBP a devenit popular în diverse domenii din computer vision, ca de exemplu: descrierea texturilor, recunoașterea de fețe [63] și recunoașterea și clasificarea de obiecte [64]. Cea mai importantă caracteristică a aoperatorului LBP se datorează invarianței acestuia la schimbări de iluminare și scalare.

Versiunea inițială a operatorului LBP folosea vecinătatea fiecărui pixel curent, de obicei de dimensiune 3×3, ca apoi acesta să utilizeze diferite tipuri de vecinătăți sau piramide spațiale.

Pașii de calcul ai descriptorului sunt următorii:

– pentru fiecare pixel din imagine, se prăguiesc valorile din vecinătatea punctului în funcție de valoarea pixelului central (Figura 3.12);

– pentru fiecare pixel () se va calcula următorul parametru:

se creează o histogramă a valorilor ;

– se concatenează histogramele în cazul în care se efectuează un proces de binarizare la mai multe scale ale imaginii.

Fig. 3.12 Schema de calcul a operatorului LBP

3.3 Descriptori de formă

Forma este una dintre componentele esențiale în procesul de recunoaștere și clasificare a obiectelor. Aceasta reprezintă descrierea geometrică a unui obiect prin determinarea frontierelor acestuia față de obiectele din jur. Principalele caracteristici pe care descriptorii de formă trebuie să le conțină sunt: caracterul compact (descriptorii trebuie să extragă trăsăturile relevante și definitorii), invarianța la scalare, rotație, translație și la distorsiuni ale formei conturului.

Tehnicile de calcul ale descriptorilor de formă se împart în două mari categorii: descriptori de regiuni și descriptori de contur.

În schimb, algoritmii de descriere a formelor prin contur utilizează informația spațială extrasă din linia de contur a obiectului. Exemple de algoritmi de descriere a formelor prin contur sunt: descriptorii Fourier de contur si algoritmii de aproximare poligonială.

3.3.3 Descriptori Fourier de contur

Descriptorii Fourier de contur sunt obtinuți prin aplicarea transformatei Fourier asupra punctelor aflate pe conturul obiectelor [68]. Algoritmul de calcul al descriptorului conține următorii pași:

se obțin coordonatele de contur ale obiectelor

se calculează coordonatele centroidului acelui obiect și apoi distanța dintre acesta și contur utilizînd, distanța euclidiană

unde , iar și

se aplică transformata Fourier 1D asupra semnalului r(t):

se calculează magnitudinea coeficienș=ților Fourier:

vectorul descriptor va fi format din următoarele valori: .

3.3.4 Aproximare poligonală

Aproximarea poligonală este una dintre cele mai populare metode de reprezentare a formelor. Ideea principală a algoritmului constă în reprezentarea siluetei printr-un set de segmente de dreaptă. Mai precis, se elimină formele redundante și insignifiante. Metoda caută punctele de contur și le elimină pe cele ale căror eroare pătratică are o valoare minimă. Există două tipuri de calcul utilizate în prezent: metoda evoluției conturului [69] și metoda detecției de colțuri utilizînd transformate wavelet [70]. Metoda evoluției conturului reduce influența zgomotului și simplifică forma, eliminînd caracteristicile irelevante ale formei. Inițial, forma este privită ca o inșiruire de segmente de dreaptă, după care perechile de segmente sunt comasate într-un singur segment.

Pentru a măsura nivelul de relevanță a unui segment de dreaptă se utilizează formula:

unde β(s1, s2) reprezintă unghiul dintre cele două segmente, iar l(s) reprezintă lungimea segmentului normalizat la perimetrul formei.

Procesul încetează atunci cînd valoarea parametrului K este mai mare decît un prag ales. Metoda evoluției curbei pleacă de la premiza că formele au diverse distorsiuni, iar acestea trebuie înlăturate printr-un process de netezire. Netezirea depinde foarte mult și de alegerea pragului de șlefuire. În final, fiecare poligon este reprezentat ca o funcție tangențială (tangenta unghiului format de axa orizontală și segmentul de dreaptă).

3.3.5 Histograma de orientare a gradienților

Histograma de orientare a gradientilor (HOG) [71] este un descriptor utilizat pentru prima data de către cercetatorii INRIA, Navneet Dalal și Bill Triggs. A fost propus în contextul problemei de detecție de pietoni. Tehnica constă în calculul apariției de orientări de gradient, localizate într-o anumită parte a imaginii.

Inițial, imaginea este împărțită în regiuni spațiale mici (celule) care pot avea diverse forme (radiale sau rectangulare). Pentru fiecare celulă, se calculează o histogramă a direcțiilor gradienților. Pentru imagini color, se vor calcula gradienții pe fiecare canal de culoare independent (Lab sau RGB). Histogramele sunt ponderate în functie de anumiți parametri: magnitudine, pătratul magntudinii, prezența / absența muchiilor etc. Pentru corectarea erorilor provocate de schimbarea iluminării și zgomot, se efectuează anumite corecții pe fiecare bloc în parte: corecție de gamă și egalizare de histogramă.

Au fost propuse diverse extensii pentru histograma de orientare a gradienților și anume: histograma piramidală de orientare a gradienților (Pyramidal HOG (PHOG) [72]) și histograma 3D de orientare a gradienților (3D HOG [73]).

3.4 Puncte de interes

3.4.1 Introducere

În primele secțiuni din acest capitol am prezentat algoritmi ce descriu informația globală a unei imagini. Însă, pentru probleme în care este necesară recunoașterea de obiecte, acești algoritmi ating o performanță scăzută, deoarece nu reușesc să extragă trăsăturile care sunt caracteristice unui obiect. Practic, descriptorii globali nu separă informația de fundal de cea a obiectelor constituente. Din acest motiv, au fost propuși o serie de algoritmi care extrag punctele de interes ale obiectelor („keypoints”). Mai exact, acești algoritmi extrag o serie de regiuni care conțin informație discriminatorie mai ridicată.

Apoi, fiecare punct de interes va fi descris cu ajutorul unui descriptor. Și astfel, fiecare imagine va fi descrisă de un set de descriptori. Punctele de interes reprezintă regiuni bine definite din spațiul imaginii, care au o valoare descriptivă ridicată. Odată extrase, punctele de interes vor fi utilizate în procesări ulterioare. Punctele de interes au proprietatea de a fi stabile în cazul anumitor perturbații, ca se exemplu: rotații, scalare, distorsiuni geometrice, zgomot, variații de iluminare.

Pentru a calcula gradul de similaritate dintre două imagini este necesar să se calculeze numărul de puncte de interes similare. Inițial, distanța dintre două puncte de interes a fost calculată cu distanța euclidiană. Această metodă este una intensă computațional, deoarece are complexitatea O(mnp), unde m și n reprezintă numărul de puncte de interes a celor două imagini care sunt comparate, iar k este lungimea descriptorului unui punct de interes. Din acest motiv, au apărut tehnici noi de aproximare a similarității, cea mai cunoscută dintre ele fiind algoritmul „k-nearest neighbors” [74].

După modul de aranjare spațială a punctelor cheie, algoritmii de extragere a trăsăturilor locale se împart în două categorii: algoritmi care extrag puncte cheie la intervale regulate din imagine („dense extraction” – extragere densă) (Figura 3.13 a) și algoritmi care extrag numai regiunile cu zone proeminente, considerate a fi cu mai multă informație discriminatorie (Figura 3.13 b). Dintre aceste metode, nu există o metodă preferențială în defavoarea celeilaltei, ambele abordări dovedindu-se eficiente în contexte diferite. Mai precis, un algoritm de extracție densă a punctelor cheie poate obține performanțe superioare în cazul în care informația de fundal este foarte importantă. Spre exemplu, în competiția Pascal, există 20 de clase care sunt dependente de context: avioanele apar de obicei în imagini cu nori, animalele sunt prezente într-un spațiu natural, iar obiectele de mobilier sunt localizate în interiorul unor camere. La extracția densă, calculul poziției punctelor cheie este mult mai rapidă, însă numărul de descriptori extras este mult mai ridicat, ceea ce compesează timpul căștigat pentru extracție.

(b)

Fig. 3.13 Exemple de metode de extragere a punctelor de interes: (a) extracție densă și (b) extracție a regiunilor proeminente

3.4.2 Modelul „SIFT”

Transformata SIFT („Scale Invariant Feature Transform”) a fost propusă și patentată de către David Lowe [75]. Aceasta se bazează pe extragerea de puncte cheie, pe baza convoluției unei imagini cu un set de nuclee gausiene:

unde (x,y) reprezintă locația pixelui curent, iar reprezintă deviația standard a nucleului gausian.

După calculul convoluțiilor, pentru fiecare se vor calcula diferențele acestor convoluții la diferite scale pentru σ.

unde k este un număr natural, I(x,y) reprezintă imaginea cu nivele de gri.

Metoda extrage puncte de extrem, considerate a fi candidați în extragerea de „puncte cheie”, utilizate în descrierea imaginii. Pentru fiecare punct, se va calcula magnitudinea și orientarea gradientului utilizînd formulele următoare:

Se va crea o histogramă de orientări și se vor reține acele valori maxime, împreună cu punctele care conțin minim 80% din valoarea maximă gasită (eliminandu-se astfel peste 95% din punctele extrase în procesul anterior).

După calculul extremelor, vor fi eliminate punctele cu contrast scăzut și muchii mai puțin ieșite în evidență. Punctele rămase reprezintă punctele de interes ale imaginii. Acestea sunt invariante la scalarea imaginii sau la adăugarea diferitelor forme de zgomot. Un descriptor al unui cuvînt cheie reprezintăun vector cu 128 de dimensiuni (un byte pentru fiecare trăsătură).

Un descriptor al unui punct cheie va fi calculat pe o vecinătate de 16×16 pixeli. Valorile de nivel de gri vor fi ponderate cu o fereastră gaussiană, iar apoi aceasță vecinătate va fi împărțită în 4X4 subregiuni. Pentru fiecare subregiune, se va reține o histogramă de orientări.

Pentru îmbunătățirea vitezei algoritmului, a fost propus PCA-SIFT [76]. Acesta aplică analiza componentelor principale (PCA) asupra vectorului descriptor a unui punct de interes. Descriptorul va avea o dimensiune mult redusă față de a descriptorului SIFT clasic (de la 128 la 20-36 dimensiuni), ceea ce duce la o creștere considerabilă a vitezei de comparație dintre două imagini. O alta extensie a SIFT este GLOH („Gradient location-orientation histogram”) [77], ce calculează descriptorii SIFT utilizînd coordonate polare.

3.4.2 Modelul „SURF”

Algoritmul SURF („Speeded Up Robust Feature”) reprezintă un extractor de puncte de interes robust și rapid, prezentat de catre Herbert Bay în 2006 [78]. Acesta a fost parțial inspirat din algoritmul SIFT. Autorii au demonstrat că acesta este de cîteva ori mai rapid decît versiunea standard de SIFT, iar în multe cazuri chiar mai robust în condiții similare de zgomot.

Pentru calcularea punctelor de interes, SURF utilizează imaginea integrală, o structură de reprezentare a unei imagini care permite calculul rapid al intensității din diferite regiuni ale imaginii.

Inițial, imaginea este transformată în imagine integrală, utilizînd următoarele formule:

unde (x,y) reprezintă poziția curentă în cadrul imaginii.

Calculul imaginii integrale se poate face și în mod recursiv utilizînd formula:

unde i(x,y) reprezintă valoarea pixelului aflat la poziția (x,y).

Pentru detecția punctelor cheie se utilizează matricea hessiană, care este rapidă din punct de vedere computațional. Valoarea acesteia într-un punct I(x,y) este dată de formula:

unde L(x,y,σ) reprezintă filtrul laplacian de gausiană („Laplacian of Gaussian”).

Dimensiunea descriptorului SURF poate fi mai mică sau egală decît cea a vectorului SIFT (64 sau 128 de numere de tip float).

3.4.3 Modelul „Harris”

Detecția de muchii cu detectorul Harris, reprezintă o metodă populară de extragere a a colțurilor și muchiilor dintr-o imagine [79]. Acesta este invariantă la rotație, scalare, variație de iluminare și zgomot de imagine. Algoritmul detectorului Harris se bazează pe funcția de autocorelare locală a semnalului definit în modul urmator:

unde w(x,y) reprezintă fereastra de calcul a funcției de autocorelație, reprezintă dimensiunea ferestrei, i(u,v) conțime valoarea pixelului aflat la poziția (u,v), iar w(u,v) poate fi o constantă sau poate avea valori ponderate în funcție de distanță (putînd lua o formă gausiană):

Utilizînd dezvoltarea după serie Taylor vom avea:

unde C(x,y) capturează structura intensității a vecinătății punctului curent și repezintă o matrice de dimensiune 2×2:

unde și vor reprezenta gradienții calculați pe aceste axe.

Pentru a calcula valoarea muchiei se vor măsura vectorii proprii ai matricei C.

unde și , iar k are o valoare apropiată de 0,04.

Vor fi luate în considerare următoarele trei aspecte:

1. dacă , au valori mici, funcția de autocorelare va avea o valoare mică(mici schimbări pe orice direcție), ceea ce inseamnă că fereastra va avea o intensitate constantă;

2. dacă doar una dintre cele două valori are o valoare mare indică faptul că fereastra conține o margine;

3. dacă ambele valori proprii au o valoare ridicată indică faptul că punctul va fi clasificat ca și punct de interes.

După calculul parametrului R pe fiecare fereastra se vor reține regiunile care conțin o valoare R mai mare decît un prag. Pentru fiecare regiune se va selecta o valoare maximă locală.

Alți algoritmi în detectia de puncte cheie sunt: MSER („Maximally Stable Extremal Region Detector”) [80], detectorul STAR [81], detectorul FAST [82], GOOD („Good Features to Track”) [83] și SUSAN [84].

3.4.4 Reprezentarea „Bag of Visual Words”

Modelul „Bag of Words” (BoW) reprezintă un algoritm utilizat pentru prima dată în clasificarea documentelor text [85]. În cadrul acestui model, se selectează un set de cuvinte reprezentive, numit „vocabular”, iar apoi pentru fiecare document text se creează o histogramă de apariție a cuvintelor. Aceste histograme sunt apoi clasificate cu ajutorul unor algoritmi de clasificare. Plecînd de la acest algoritm de bază, modelul BoW a fost transferat în diverse domenii de computer vision: clasificare de imagini [86], documente audio [87] și video, clasificarea și recunoașterea de acțiuni [88].

În cele ce urmează, vom prezenta modelul BoW pentru clasificarea imaginilor. Ideea principală constă în faptul că punctele cheie dintr-o imagine (keypoints) sunt considerate a fi similare cuvintelor din documentele text. Vectorul descriptor va conține o histograma de apariție a „cuvintelor” dintr-o imagine, după care aceste histograme vor fi clasificate cu ajutorul unor clasificatori. Noul algoritm poartă numele de „Bag of Visual-Words” (BoVW) [86]. În același timp, algoritmul BoVW este inspirat din sistemul uman de recunoaștere a formelor. O persoană poate recunoaște anumite obiecte chiar dacă vizualizează numai anumite părți componente ale obiectului.

Antrenarea algoritmului BoVW conține patru pași principali: extragerea de cuvinte vizuale dintr-un set extins de imagini, crearea vocabularului de cuvinte vizuale, calculul de histograme de cuvinte și antrenarea unui clasificator. Schema de antrenare a unui sistem BoVW este prezentată în Figura 3.14. Inițial, se extrag cuvintele cheie dintr-o imagine utilizand diverși algoritmi: SURF, SIFT, HARRIS etc. Aceste puncte cheie sunt adăugate într-un vector de cuvinte cheie. Apoi, se va reduce numărul de cuvinte cheie prin utilizarea anumitor algoritmi de clusterizare: kmeans, clusterizare ierarhică, cam-shift etc. Fiecare centroid rezultat va fi considerat un cuvînt dintr-un vocabular de cuvinte vizuale.

Numărul cuvintelor din vocabular diferă în funcție de aplicație de la cateva mii [89], pînă la sute de mii [90], [91]. Generarea unui dicționar vizual reprezintă un proces foarte costisitor. Din acest motiv, au fost propuse metode în care vocabularul de cuvinte vizuale este generat în mod artificial. În [91] s-a demonstrat că, în cazul în care dimensiunea vocabularului este suficient de mare (ordinul zecilor de mii), impactul alegerii modalității de selecție a vocabularului devine mai puțin importantă.

Fig. 3.14 Procesul de antrenare în cadrul algoritmului Bag of Words

Următorul pas este reprezentat de generarea histogramelor de cuvinte vizuale. Pentru calculul descriptorilor se vor efectua următorii pași:

pentru fiecare imagine din baza de date se vor extrage cuvintele cheie și se va calcula distanța minimă dintre acestea și cuvintele din dicționar;

fiecare cuvant cheie va fi atribuit unui cluster din dicționar, pe baza unui criteriu de similaritate maximă. De cele mai multe ori măsura de similaritate se calculează cu distanța euclidiană;

se va creea o histogramă de apariție a cuvintelor din dictionar.

După generarea descriptorului de va utiliza un algoritm de clasificare. Cele mai utilizate tehnici de clasificare sunt SVM [86] și Naïve Bayes [86]. Alte metode de clasificare utilizate sunt: „Probabilistic Latent Semantic Analysis” (pLSA) [92] [93]și „Latent Dirichlet Allocation” (LDA) [94] [95].

Principalele avantaje ale modelului Bag of Words sunt invarianța la scalări, rotații și translații (nu contează aranjarea spațială a cuvintelor vizuale într-o imagine), prezintă performanțe bune chiar dacă apar ocluziuni parțiale ale obiectelor și este intuitiv (datorită analogiei cu clasificarea de documente text și a similitudinii cu modul uman de recunoaștere a obiectelor).

Fig. 3.15 Procesul de clasificare în cadrul algoritmului Bag of Words

Principalele neajunsuri ale algoritmilor Bag of Words sunt:

nu există nici o metodă riguroasă de reprezentare a obiectelor componente, a distribuției spațiale dintre anumite perechi de cuvinte dintr-un document;

segmentarea și localizarea componentelor este neclară;

există multe cuvinte care nu sunt relevante;

procesul de cuantizare a cuvintelor generează zgomot de cuantizare;

costul computațional crește odată cu dimensiunea vocabularului de cuvinte.

Pentru a rezolva aceste neajunsuri au fost propuse mai multe modificări la modelul clasic BoVW. Pentru a incapsula informația spațială a obiectelor, au fost propuse diverse metode de corelare a localizării cuvintelor: corelograma de aparitie [96], sau diferite metode de corelație dintre componente [97], [98]. De asemeni, pentru eliminarea zgomotului de cuantizare au fost propuși algorimi ce utilizează distanța Earth Mover [30] sau Fisher Kernel [99]. În [100], au fost propuse diferite modalități în vederea creșterii vitezei de calcul.

3.5 Descriptori MPEG 7

3.5.1 Standardul MPEG 7

MPEG 7 reprezintă un standard ISO/IEC dezvoltat de catre MPEG (Moving Picture Experts Group), organizația care s-a ocupat și de standardele anterioare: MPEG 1, MPEG 2 și MPEG 4. MPEG-1 si MPEG-2 sunt cele care o facut posibilă ca informația video să fie disponibilă pe CD-ROM sau în televiziunea digitală (formatele: Video CD, MP3, digital audio broadcasting (DAB), DVD, televiziune digitală: DVB and ATSC), în timp ce MPEG-4 a dezvoltat standardul de integrare multimedia în tehnologii mobile (formatele: H.264, VRML, AAC).

Standardul MPEG 7 a fost dezvoltat deoarece era nevoie de metode și tehnici de indexare și descriere a conținutului multimedia. Acesta propune diferiți algoritmi pentru descrierea conținutului vizual. MPEG 7 propune trei clase de descriptori vizuali: de culoare, de textură și de formă.

3.5.2 Descriptori de culoare

Descriptorul „Color Histogram Descriptor”

Descriptorul „Color Histogram Descriptor” (CHD) [47] propune descrierea conținutului de culoare cu ajutorul unor histograme de culoare. Standardul conține un set bine definit de spații de culoare care pot fi utilizate: nivele de gri, RGB, YcbCr, HSV. De asemeni, este propus un nou spațiu de culoare HMMD (mai multe detalii în Secțiunea 3.2.1). Pentru fiecare spațiu de culoare sunt definite metode de cuantizare a culorii.

Descriptorul „Color Structure Descriptor”

Descriptorul „Color Structure Descriptor” (CSD) [47] incapsulează structura locală a culorii într-o imagine. Acest descriptor numără de cîte ori o culoare particulară este conținută într-un element structurant care scanează imaginea. CSD prezintă cît de „adunată” este o anume culoare, dacă există sau nu pete mari dintr-o anumită culoare. În cazul în care o culoare este aplicată în pete de dimensiuni mai mari, această va avea o pondere semnificativ mai mare decît culorile aflate în regiuni cu variații mari de culoare. Practic, culorile aflate în interiorul regiunile mate (obiectelor) vor avea o pondere mai ridicată. Spațiul de culoare folosit de acest descriptor este HMMD. Color Structure Descriptor utilizează patru tipuri de cuantizare: 184, 120, 64 și 32 de intervale. Pentru a construi o histogramă de 184 intervale, HMMD este cuantizat neuniform și împartit în cinci subspații.

Pentu a calcula dimensiunea elementului structurant se utilizează următoarele formule:

p = max(0,round(0.5*Log(width*height,2)-8));

k = Pow(2, p);

E = 8 k;

unde W, H sunt dimensiunile imaginii, ExE reprezintă dimensiunea elementului structurant iar K este factorul de multiplicare.

Spre exemplu, în cazul în care imaginea are dimensiunea 640×480, vom avea p = 1, k = 2 și E = 16. În cazul în care elementul structurant ar avea dimensiuni mai mici de 8×8, dimensiunea dimensiunea acestuia va fi fixată la această valoare.

Descriptorul „Dominant Color Descriptor”

Acest descriptor [47] este util în reprezentarea obiectelor și a regiunilor din imagine, unde un număr redus de culori este necesar pentru descrierea regiunii de interes. Imaginea este împărțită pe mai multe regiuni și sunt extrase un număr redus de culori pentru fiecare regiune în parte. Acest descriptor arată în același timp și gradul de coerență a culorii din imagine.

Culorile dintr-o regiune dată sunt clusterizate într-un număr redus de culori. Descriptorul va conține culorile reprezentative, procentajul și varianța acestora. Pentru măsurarea distanțelor este definită o distanța pătratică dintre histograme. De asemeni culorile pot fi indexate direct în spațiul 3D. Pentru căutarea similarității se vor căuta imaginile cu regiuni similare. La final descriptorul calculat va avea următoarea structură:

unde c, p și v reprezintă culoarea dominantă, procentajul și varianța, iar s este un parametru de calcul a omogenității totale a culorii.

Numărul de culori dominante variază de la o imagine la alta și un număr de maxim 8 culori sunt utilizate pentru reprezentarea unei regiuni. Metoda de clusterizare a culorii este bazată pe algoritmul de clusterizare a lui Loyd [1], al cărui principiu este cel de minimizare al erorii din fiecare cluster:

unde este centrul centroidului , x(i) culoarea pixelului din regiune, pondere a pixelului curent (valoare mai mare pentru regiuni texturate decît pentru regiuni neclare (blurate)).

Fie doi descriptori de culoare:

Distanța dintre cei doi descriptori va fi calculată cu formula:

unde distanța dintr cele două culori și valoarea maximă a distanței dintre două culori.

Descriptorul „Color Layer Descriptor”

Color Layer Descriptor [47] a fost creeat pentru a reține distribuția spațială a culorii dintr-o imagine, acesta putînd fi interpretat ca o schiță a imaginii. Codarea are doi pași:

transformarea imaginii în formă dreptunghiulară cuantizată (64 de blocuri)

cuantizarea cu ajutorul tranformatei DCT.

Transformata DCT, în special tipul bidimensional, este foarte utilizată în studiul sunetului și al imaginilor, în special pentru algoritmii de compresie. Transformata DCT beneficiază de o excelentă capacitate de „concentrare” a energiei: informația unui semnal fizic tipic este repartizată în principal pe coeficienții corespunzînd armonicelor de joasă frecvență (statistic vorbind). Pentru imaginile naturale, DCT este transformata care se apropie cel mai mult de transformata Karhunen-Loève care oferă o decorelație optimală între coeficienții reprezentării unui semnal markovian. Din punct de vedere practic, procedeele de compresie pleacă de la ipoteza ca o imagine naturală poate fi modelată ca fiind rezultatul unui proces markovian și aproximează transformata Karhunen-Loève, prea complexă din punct de vedere algoritmic și dependentă de date, cu o DCT.

Doar un număr mic de coeficienți sunt ne-nuli, și pot fi utilizați pentru reconstruirea imaginii inițiale prin transformata inversă (IDCT) cu ocazia decompresiei. Reducerea volumului datelor compresate vine din suprimarea coeficientilor nuli sau aproape nuli corespunzînd frecvențelor înalte, aparatul vizual uman fiind foarte puțin sensibil la aceste elemente spectrale ale imaginii (corespunzînd, de exemplu, unei zone cu contururi foarte fine dintr-o imagine), deci reproducerea exactă a acestor elemente nu este esențială pentru calitatea imaginii. Acest tip de mecanism este utilizat în standardele JPEG și MPEG, care aplică o DCT 2D pe blocuri de pixeli de talie 8×8.

Spațiul de culoare utilizat este YCrCb. Pentru a compara doi descriptori se utilizează formula de mai jos:

Numărul recomandat de biți de codare pentru descriptor este de 13. Acesta include șase coeficienti pentru Y și cîte trei coeficienți pentru Cr și Cb.

3.5.3 Descriptori de textură

Descriptorul „Texture Browsing Descriptor”

Acest descriptor [47] implementează trei dintre cei șase descriptori de textură Tamura, prezentați anterior în cadrul capitolului 3.2.1. Trăsăturile implementate sunt: asprimea, contrastul și direcționalitatea.

Descriptorul „Edge Histogram Descriptor”

Histograma marginilor [47] captează distibuția spațială a muchiilor din interiorul unei imagini. Distribuția marginilor este o bună semnatură de textură și este utilă în căutarea de imagini. Calculul descriptorului este ușor de realizat: marginile sunt grupate în cinci categorii: verticale, orizontale, diagonala 135, diagonala 145 și izotropic, iar pentru fiecare tip de margine vom avea un interval într-o histogramă de muchii. Imaginea va fi împărțită în 16 imagini (4×4), fiecare histogramă avînd cinci intervale, de unde vom avea 5×16 = 80 intervale. Procedeul poate continua printr-o împarțire mai detaliată a imaginii.

Procedeul de împărțire în subblocuri este prezentat în figura următoare:

Fig. 3.16 Impărțirea imaginii inițiale pentru descriptorul Edge Histogram

Pentru a calcula histogramele de muchii pentru fiecare 16 subimagini, fiecare bloc va fi împărțit în blocuri mai mici (la fel pentru fiecare imagine indiferent de dimensiunea imaginii). Detectoarele de margini vor fi aplicate fiecărei subimagini sub forma unei ferestre 2×2. În fiecare subdiviziune de subimagine se va reține media intensitătii pixelilor. Detectorul de margini va parcurge subimaginile cu ajutorul celor 5 fereste prezente în Figura 3.17.

Fig. 3.17 Exemple de ferestrele detectoare de muchii

După calculul muchiilor se va aplica un prag pentru eliminarea variațiilor fine, se calculează histogramele de margini, după care valorile se cuantizează în intervalul [0, 1].

3.5.4 Descriptori de formă

MPEG 7 conține trei descriptori de formă: descriptor de regiune, descriptor de contur și descriptor de forme 3D. Descriptorul de regiune utilizează un set de funcții numite ART (Angular Radial Transform) care compun o transformată 2D. Acesta oferă o metodă compactă și eficientă de descriere a unei forme în spatiul 2D. Funcțiile ART [101] reprezintă o transformată unitară definită în coordonate polare. Coeficientul de ordin (m,n) este calculat utilizînd urmatoarea formulă:

unde f este imaginea în coordonate polare iar este funcția ART:

iar

În MPEG 7 sunt utilizate un set de 12 funcții angulare și 3 funcții radiale (n<3 și m<12). Familia de funcții ART prezintă anumite avantaje. Acestea sunt capabile să descrie forme complexe care conțin zone necompactate, fiind robuste la zgomotul de segmentare. De asemenea, dimensiunea acestora este redusă și prezintă o viteză de calcul ridicată.

Descriptorul de contur utilizat de către standardul MPEG 7 este „Curvature Scale Space” [102]. Reprezentarea Curvature Scale Space este bazată pe reținerea poziției punctelor de inflexiune de pe contur, filtrate de o funcție trece-jos gausiană gausiană [103]. Metoda este similară cu tehnica de aproximare polinomială, descrisă în capitolul anterior. Primul pas este calculul conturului suprafetei (x(t), y(t)). Apoi se normalizează conturul la un număr finit de puncte de margine. Ca și la aproximarea polinomială se calculează o funcție pentru fiecare punct care exprimă gradul de importanță a punctului respective

3.9 Concluzii

În acest capitol am discutat diversele modalitați de analiză și caracterizare a conținutului multimedia. O primă componentă de descriere a trăsăturilor este canalul vizual, care cuprinde informația de culoare, formă, puncte de interes și mișcare. Culoarea este cea mai expresivă dintre toate componentele vizuale de culoare. Un rol important în analiza de culoare îl are spațiul de reprezentare al culorilor folosit. Acesta trebuie selectat astfel încît să pună în evidență anumite proprietăți caracteristice problemei. Astfel, spațiile de culoare evoluează de la reprezentările clasice precum RGB (utilizat de către majoritatea dispozitivelor hardware), pînă la cele inspirate de sistemul vizual uman (HSV, Lab, HMMD), astfel încît acesta să reflecte nivelul semantic de descriere universal, precum spațiul Color Naming.

Pe de altă parte, descrierea informației de textură caracterizează anumite aspecte de structură ale suprafețelor, precum: asprimea, contrastul, direcționalitatea, asemănarea liniară, regularitatea și rugozitatea. De cele mai multe ori, trăsăturile de textură se realizează prin interpretarea valorilor pixelilor ca realizări ale unor procese aleatoare corelate. Acestea pot fi descrise sub forma unor distribuții de caracteristici (contrastul, corelația, entropia, omogenitatea, varianța, energia) în domeniul spațial al imaginii sau în domeniul de frecvență (Fourier, Gabor).

Caracteristica de formă reprezintă o componentă esențială în procesul de recunoaștere și clasificare a obiectelor. Aceasta conține descrierea geometrică a unui obiect prin determinarea frontierelor acestuia față de obiectele din jur. Descriptorul de formă trebuie să fie invariant, obiectele trebuind să fie recunoscute indiferent de poziție, dimensiune și orientare. După modul de interpretare a conceptului de formă, descriptorii se împart în două mari categorii: descriptori de regiuni, care utilizează momente statistice și descriptori care utilizează informația de contur.

Punctele de interes reprezintă forme geometrice cu o poziție bine definită și pot fi viguros detectate. De obicei, detectoarele punctelor de interes extrag colțuri, maxime sau minime locale din regiuni de imagini care pot fi reprezentative pentru descrierea obiectelor. Acestea trebuie să fie invariante la schimbări de luminozităte, translație, rotație sau la alte transformări.

Evoluția temporală a informației vizuale sau informația de mișcare este una dintre particularitățile fundamentale ale documentelor video. Metodele existente folosesc ca punct de plecare pentru analiză estimarea cîmpului de mișcare al pixelilor din imagine, denumit și flux optic. Pornind de la problematica estimării mișcării la nivel de pixel, în acest capitol am descris principalele direcții de studiu abordate de metodele de analiză și caracterizare a mișcării.

Informația audio reprezintă o componentă de bază pentru multe aplicații multimedia. În general, descriptorii audio se calculează în domeniul timp sau frecvență pe unități fixe, denumite blocuri sau cadre audio. Aceste trăsături se agregă într-un singur descriptor final, care va fi utilizat într-un proces de antrenare. Deși aplicațiile în care informația audio este utilizată individual sunt puține, aceasta este de foarte multe ori utilă în multe probleme, prin fuziunea acesteia cu alte canale informaționale.

Studiul clasificării bazelor de date de text reprezintă unul dintre cele mai importante domenii de cercetare din ultimii 40 de ani. În prezent, o mare parte din informația web existentă poate fi accesată în format text: de la poșta electronică, la site-urile web și librăriile digitale. În cadrul acestui capitol am trecut în revistă principalele metode de descriere a informației textuale: Bag of Words și TF-IDF.

Global, tendința de evoluție a sistemele actuale de indexare după conținut este spre descrierea semantică automată a conținutului datelor, în scopul simplificării problematicii de accesare a informației multimedia. Deși paradigma semantică nu a fost înlăturată complet, evoluția sistemelor a fost remarcabilă în ultimii ani.

Capitolul 3

Algoritmi de Relevance Feedback

4.1 Conceptul de Relevance Feedback

Relevance Feedback (RF) reprezintă un mecanism interactiv de învațare online a preferințelor utilizatorului și are scopul de a îmbunătăți performanțele de indexare ale sistemelor multimedia. Metodele de relevance feedback reprezintă un domeniu intens studiat în ultimii ani, reprezentînd o alternativă viabilă pentru îmbunătățirea căutării în sistemele multimedia multimodale [129].

Mecanismul prin care funcționează un algoritm de relevance feedback este următorul: utilizatorul selectează un document / concept care va folosi ca interogare pentru sistem. Sistemul va returna un o listă inițială de documente, ordonate pe baza unui criteriu inițal de similaritate. Utilizatorul va selecta documentele care sunt relevante pentru căutarea sa, iar sistemul își va reformula interogarea pe baza feedback-ului utilizatorului. Apoi, sistemul va afișa o nouă listă de documente. În cazul în care utilizatorul nu este mulțumit de noile rezultate oferite, are posiblitatea de a genera o nouă antrenare a sistemului, prin acordarea unei noi sesiuni de feedback.

După modul în care se preia feedback-ul, algoritmii de relevance feedback se împart în trei categorii principale: relevance feedback clasic (sau feedback explicit – mecanism descris în paragraful anterior), pseudo-relevance feedback (cunoscut și ca blind relevance feedback), și relevance feedback indirect (global)

Pseudo-relevance feedback [130] reprezintă o metodă în care relația cu utilizatorul este simulată automat. Acest lucru presupune că trăsăturile utilizate pentru descrierea documentelor sunt suficient de bune astfel încît sistemul să poată returna în primele documente afișate un număr ridicat de rezultate relevante. Inițial, pe baza interogării inițiale a utilizatorului, se generează o căutare în baza de date, iar apoi sistemul presupune că primele k documente sunt relevante pentru utilizator. Pe baza primelor rezultate returnate, urmează un proces de reantrenare a sistemului. Fiecare document va primi un nou scor pe baza răspunsului sistemului.

Succesul unei astfel de strategii depinde foarte mult de gradul de adevăr al presupunerii efectuate. În cazul în care presupunerea este adevarată, experimentele au arătat că tehnica de pseudo-feedback îmbunătațeste considerabil performanțele sistemului [130] [131] [132]. Totuși, situațiile negative sunt foarte des întîlnite și conduc la o scădere considerabilă a preciziei, cu fiecare iterație de relevance feedback.

Relevance feedback indirect [130] utilizează surse indirecte de feedback, și anume sistemul poate utiliza informația despre documentele pe care utilizatori diferiți le-au accesat în căutările unor documente cu conținut asemănător. Acesta este mai puțin eficient decît feedback-ul explicit [133], însă mai util și corect decît tehnicile de pseudo-feedback, care nu conțin în nici o măsură feedback real preluat de la utilizator. Feedback-ul implicit poate fi stocat cu ușurință în sistemele cu volume mari de date, ca de exemplu motoarele de căutare. Această idee a fost implementată pentru prima data de către sistemul DirectHit [134], iar în prezent este utilizat de către cele mai importante motoare de căutare de text. Principalul avantaj al feedback-ului implicit este faptul că utilizatorul nu mai este nevoit să acorde feedback. Aceste tehnici rețin istoricul interacțiunii utilizator-sistem, și utilizînd anumite principii, generează automat un feedback și reantrenează sistemul. Feedback-ul implicit este utilizat în căutarea și filtrarea informației pentru diverse categorii cum ar fi: hiperlinkuri, documente web, emailuri, articole de știri, filme, cărți, programe TV etc [135].

După perioada în care se execută procesul de antrenare al sistemului, algoritmii de RF se împart în două categorii: antrenare cu termen scurt de învățare (short-term relevance feedback) și antrenare pe termen lung de învățare („long-term relevance feedback”).

Antrenarea cu termen scurt de învățare utilizează doar feedback-ul acordat în sesiunea curentă, iar pentru acest proces de învațare utilizează doar vectorul descriptor al documentului. Acești algoritmi nu utilizează feedback-ul preluat anterior de către sistem. Această clasă de algoritmi este cea mai des studiată. Algoritmii de relevance feedback cu antrenare cu termen scurt de învățare se împart la rîndul lor în patru mari categorii:

algoritmi de mutare a punctului de interogare;

algoritmi de determinare a importanței trăsăturilor;

algoritmi statistici;

algoritmi care privesc procesul de relevance feedback ca o problemă de clasificare a două clase: documente pozitive și documente negative.

Principalele provocări pe care algoritmiii de relevance feedback cu termen scurt de învățare trebuie să le aibă în vedere sunt:

numărul documentelor pe care se acordă feedback este mult mai mic decît spațiul descriptorilor. Acest aspect generează așa numitul fenomen de „paradigmă a dimensionalității” („curse of dimensionality”) [136];

dezechilibru în modul de acorda feedback între utilizatori diferiți. Doi utilizatori diferiți pot avea percepții separate asupra acelorași concepte („senzorial gap”). Un alt motiv care generează acest aspect este diferența dintre utilizatori: userii care cunosc mecanismul intern al unui sistem de indexare după conținut vor aprecia mai bine ce trebuie să selecteze;

dezechilibru între numărul de documente pozitive și negative. De cele mai multe ori numărul de documente relevante este foarte mic, iar sistemul se află în imposibilitatea de a învăța. Aceeași problemă apare și atunci cînd nu există documente nerelevante;

viteza algoritmului (sistemul trebuie să răspundă în timp real).

Învățarea de lunga durată (Long-Term Learning) [137], poate realiza performanțe superioare față de tehnicile tradiționale de relevance feedback. Avantajul acestor algoritmi este că înlătură problemele de dezechilibru de acordare a feedback-ului, prin utilizarea feedback-ului preluat în sesiuni anterioare de către utilizatori diferiți. Feedback-ul este stocat de cele mai multe ori în fișiere de loguri, și prezintă o structură asemănătoare unor matrici de relație între documente. De obicei, dimensiunea matricei este una ridicată. Din acest motiv, multe metode propuse utilizează algoritmi de reducere a dimensiunii matricei de loguri, utilizînd de exemplu analiza componentelor principale, sau alte metode statistice.

Principalele limitări ale unui astfel de sistem sunt:

algoritmii sunt greu de implementat pe sisteme în care documentele sunt frecvent adăugate sau șterse;

performanța depinde mult de cantitatea de feedback anterior stocată. De preferat în acest caz ar fi o combinație între o strategie de invațare de lungă durată cu una de scurtă durată;

neomogenitatea feedback-ului acordat (nu toate imaginile din baza de date primesc feedback). O implementare care incearcă să elimine problema se gasește în [138];

procesul trebuie realizat în sisteme real-time și să prelucreze volume mari de date ale unui număr mare de utilizatori, cu un număr ridicat de elemente semantice. Fiecare proces presupune o reantrenare a sistemului pentru noile căutari care vor urma. Din acest punct de vedere este necesar împărțirea bazei de date în ierarhii arborescente.

4.2 Metode de Relevance Feedback existente

4.2.2 Algoritmi de estimare a importanței trăsăturilor

Algoritmii de estimare a importanței trăsăturilor („Feature Relevance Estimation” – FRE) [129] pleacă de la premiza că, pentru o interogare dată, în funcție de feedback-ul utilizatorului, anumite componente ale vectorului descriptor pot fi mai relevante decît altele. Inițial, s-a propus adnotarea manuală de către utilizatori a importanței fiecărei componente în parte. Acest proces este însă chiar cu mult mai anevoios decît alocarea de cuvinte cheie, presupunînd cunoștințe avansate de inteligență computațională din partea utilizatorului. De aceea, a apărut nevoia unui algoritm care să calculeze automat aceste ponderi, utilizînd feedback-ul utilizatorului.

Inițial, fiecare componentă a vectorului descriptor va avea un factor de relevanță , care apoi se va modifica în funcție de feedback-ul acordat. După aplicarea feedback-ului și antrenarea ponderilor, distanța dintre două documente va deveni egală cu o metrică euclidiană ponderată:

unde și reprezintă descriptorii celor două documente, iar sunt ponderile care sunt aplicate fiecărei trăsături în parte.

Fig. 4.2 Ilustrație a algorimulor de Relevance Feedback cu estimare a importanței trăsăturilor

Prin modificarea ponderilor asociate unui termen individual al descriptorului, înseamnă că, în spațiul descriptorilor, suprafața selectată de către interogareva fi modificată dintr-o sferă într-un elipsoid, așa cum sugerează Figura 4.2. Rui și Huang au propus în [143], ca gradul de importanță al unei trăsături să fie calculat în funcție de dispersia trăsăturilor. O trăsătură cu grad de importanță ridicat, va tinde să aibă o valoare constantă pentru fiecare document, în timp ce, pentru o trăsătură nerelevantă pentru conceptul căutat, va avea valori într-un interval extins. Calculul ponderii va fi calculată conform formulei:

unde reprezintă dispersia trăsăturii aflate pe poziția i în cadrul documentelor considerate relevante.

Un alt algoritm este prezentat în [144]. Aici, fiecare trăsătură va avea o pondere proporțională cu:

unde este numarul de documente relevante returnate atunci cînd efectuăm o interogare doar cu trăsătura i, iar T este numărul total de imagini relevante.

Salton și Buckley [131] au propus următoarea formulă de ponderare:

unde tf reprezintă frecvența apariție a trăsăturii i , reprezintă numărul de documente relevante care conțin termenul iar N este numărul de documente relevante pentru interogarea Q.

Această ultimă metodă a fost propusă în contextul căutării de documente text. Însă, în documentele vizuale / audio / video nu avem rată de apariție a cuvintelor. Pentru a putea adapta această metodă la alte tipuri de documente, se poate aproxima fiecare trăsătură cu anumite distriburii distribuții (exemplu distribuție gausiană):

unde și indică media trăsăturii respectiv varianța trăsăturii i, iar reprezintă valoarea trăsăturii documentului curent pe poziția i și .

O ultimă variantă de ponderare a fost propusă de către Robertson și Spark Jones în [1]:

unde r reprezintă numărul de documente relevante pentru interogarea curentă, care conțin elementul i, R este numărul total de documente relevante pentru interogare, n numărul de documente care conțin elementul i, N numărul total de documente din baza de date.

4.2.4 Relevance feedback cu algoritmi de clasificare

Odată cu dezvoltarea majoră a domenului de machine learning, algoritmii de clasificare și-au găsit aplicabilitatea și în algorimii de relevance feedback. Aceste metode presupun transformarea problemei de relevance feedback într-una de clasificare a două clase: o clasă alcătuită din documente relevante și una din documente nerelevante. După un proces de antrenare, toate documentele vor primi un nou rang, în funcție de parametrul de ieșire al clasificatorului. Cele ma întîlnte metode de relevance feedback utilizează tehnici ca: SVM, Nearest Neighbor , arbori de decizie și Random Forests.

Relevace feedback cu rețele „Support Vector Machines”

Rețelele SVM (Support Vector Machines) [148] reprezintă o clasă de algoritmi neuronali cu învățare supervizată, fiind în acest moment o referință în domeniul machine learning. Algoritmii SVM sunt eficienți pe seturi de date cu un număr mare de instanțe și de trăsături. Aceștia creează un hiperplan, care separă clasele astfel încît să maximizeze distanța dintre acestea. Un hiperplan este un plan care divizează spațiul în două subspații. De exemplu, în spațiul bidimensional, separarea se poate face printr-o dreaptă. De fapt, hiperplanele sunt funcții de m variabile, unde m este numărul de variabile independente după care se face clasificarea. În cazul în care problema nu este liniar separabilă, SVM mapează trăsăturile într-un spațiu de dimensiune mai mare, în care problema poate deveni liniar separabilă.

Fig. 4.3 Clasificare utilizînd rețele SVM

În acest scop se utilizează așa numitele funcții-nucleu. Acestea pot fi de mai multe tipuri:

Liniare: ;

Polinomiale: ;

Bază radială: ;

Sigmoide: .

În mod ideal, o analiză SVM ar trebui să creeze un hiperplan care separă complet caracteristicele a doi vectori în două grupe separabile. Există însă tipuri de date, care nu sunt total separabile, rezultînd un model cu o putere de generalizare mai mică (problemă definită anterior ca „overfitting”). Pentru a adauga flexibilitate algoritmului, modelele SVM au un parametru de cost C, care controlează decizia de a lua margini mai rigide și de a permite erori. Algoritmul va alege, astfel, hiperplanul care va maximiza decizia corectă și va minimiza eroarea.

Implementări ale SVM în contextul algoritmilor de felevance feedback sunt propuse în [149] [150]. În [150], după preluarea feedback-ului de la utilizator, sistemul antrenează un clasificator SVM care va creea un hiperplan între documentele relevante și nerelevante. Apoi, utilizînd clasificatorul antrenat, baza de date va fii clasificată în două clase: relevante și nerelevante. Clasificatorul va acorda fiecărui document un scor de relevanță care va fi utilizat pentru reordonarea tututor documentelor. Alegerea nucleului joacă un rol foarte important în performanța unui sistem de relevance feedback. Un nucleu liniar este util în cazul unui spațiu liniar separabil cu un număr foarte mare de dimensiuni. De asemenea, nucleul liniar reprezintă o alegere bună în cazul în care viteza sistemului este critică. În schimb, nucleele nonlineare sunt mai robuste și generează hyperplane de separație mult mai eficiente.

4.3 Concluzii

În acest capitol am discutat diverse metode de relevance feedback. Astfel, am făcut o trecere în revistă a metodelor și tehnicilor folosite în sistemele actuale: relevance feedback clasic, pseudo-relevance și relevance feedback indirect. Succesul alegerii strategiei corecte depinde foarte mult de tipul problemei care trebuie rezolvată.

În continuare, am expus diferite metode de relevance feedback propuse în literatură. Acestea se împart în patru categorii principale: algoritmi de mutare a punctului de interogare, de determinare a importanței trăsăturii, RF cu algoritmi statistici și de clasificare. Primele categorii se evidențiază prin viteză ridicată de execuție, însă performanța acestora scade odată cu creșterea dimensiunii și a complexității bazelor de date. Pe de altă parte, metodele care privesc procesul de relevance feedback ca o problemă de clasificare a două clase prezintă dificultăți de învățare datorită numărului redus de date de învățare. Mai mult, de cele mai multe ori numărul documentelor pe care se acordă feedback este mult mai mic decît spațiul descriptorilor, sau există dezechilibre în modul de acordare a feedbackului.

Algoritmii de RF reprezintă o componentă des întîlnită în cadrul sistemelor de indexare după conținut. Aceștia au rolul de a îmbunătăți performanțele de indexare ale sistemelor multimedia, prin învațarea online a preferințelor utilizatorului. Cu toate acestea, metodele de RF prezintă anumite limitări ce țin de implementare, viteză de execuție și dificultate de antrenare datorită numărului redus de date de învățare.

Descrierea conținutului de textură folosind automate celulare

5.1 Teoria automatelor celulare

Un automat celular (cunoscut și ca rețea celulară) reprezintă o funcție matematică care modelează un fenomen discret. Aceste automate prezintă o utilitate diversă, fiind propuse aplicații în domenii ca: inteligență artificială, matematică, fizică, biologie, criptografie și modelare grafică. Un automat celular presupune existența unei rețele (matrici) de celule, care conține un număr finit de stări și dimensiuni. Fiecare rețea celulară are definită un set de reguli, iar acestea sunt aplicate rețelei de la o iterație la alta. În funcție de tipul aplicației, regulile sunt procesate în mod iterativ, de cîte ori este necesar pentru finalizarea fenomenului.

Von Neumann a fost una dintre primele persoane care a folosit un astfel de model, pe care ulterior l-a integrat în „automatul său universal” [151]. Apoi, în anii ‘50, automatul celular a fost studiată în contextul sistemelor biologice. Începînd cu anii ’90, Wolfram a dezvoltat teoria automatelor celulare [152], după care a publicat o colecție impresionantă de automate celulare și diferite aplicații ale acestora.

Automatele celulare prezintă o varietate de forme. Una dintre proprietățile fundamentale ale unei rețele celulare este reprezentată de forma matricei sau, mai precis, de modul în care sunt concepute vecinătățile. Această proprietate constă în numărul de vecini ai unei celule (de obicei, numărul vecinătăților ia în calcul și celula curentă). Cea mai simplă matrice este cea unidimensională, și anume rețeaua are forma unei linii în care fiecare celulă are doi vecini. În cazul bidimensional, pot fi considerate mai multe tipuri de vecinătăți: triangulară (Brickwall), pentagonală (von Nemann), heptagonală și eneagonală (Moore). Reprezentări grafice ale vecinătăților 2D pot fi vizualizate în Figura 5.1. De asemenea, automatele celulare pot fi concepute în spații multidimensionale, cele mai des întîlnite fiind cele cu trei dimensiuni (rețele reacție-difuzie [153]), intens utilizate în modelarea reacțiilor chimice.

Fig. 5.1. Tipuri de vecinătăți ale unui automat celular: (a) vecinătate Brickwall, (b) pentagonală (von Nemann), (c) eneagonală (Moore) și heptagonală; celulele albastre reprezintă imaginea curentă iar cele albastre indică vecinătatea

O altă caracteristică importantă a automatelor celulare este reprezentată de numărul de stări, care trebuie impus la configurarea inițială a rețelei. Cea mai simplă arhitectură de automat celular clasic conține două stări: denumite generic ca 0 și 1, sau „alb” și „negru”. Totuși, de cele mai multe ori, o rețea celulară conține un număr mai mare de stări.

Ținînd cont de comportamentul lor, Wolfram [152] a împărțit rețelele celulare în patru categorii principale:

clasa 1 – conține celularele automate care evoluează rapid într-o stare stabilă și omogenă, chiar dacă starea inițială are o formă aleatoare.

clasa 2 – include celularele automate care evoluează rapid într-o stare stabilă dar oscilantă. În cadrul acestor tipuri de automate celulare, influența stărilor inițiale are o pondere scăzută în modul de evoluție al automatului

clasa 3 – conține acele automate celulare al căror comportament poate fi considerat pseudo-aleator sau chiar haotic. Forma stării inițiale influențează evoluția ulterioară a automatului celular. De asemenea, în cazul în care apar structuri stabile, acestea vor fi distruse de către „zgomotul” din vecinătate.

clasa 4 – cuprinde acele automate celulare în care apar modele complexe cu structuri bine definite, care sunt capabile de calcule universale. Exemple de automate celulare din această categorie, pot fi enumerate „Game of Life” [154] și „Rule 110” [155].

Numărul de funcții posibile pe care un automat celular le poate lua este aproape imposibil de calculat. Spre exemplu, în cazul celui mai simplu automat celular posibil, cel cu doi vecini și cu două stări, avem un număr de 256 de posibilități de funcții posibile. Dar, odată cu creșterea numărului stărilor și al vecinătăților, numărul de posibilități crește exponențial. În [152] sunt prezentate cele 256 de posibilități de funcții pe care un automat celular le poate lua și aplicațiile acestora.

5.2 Descrirerea texturilor utilizînd automate celulare

În acest capitol voi prezenta un algoritm inspirat din teoria automatelor celulare, cu aplicabilitate în descrierea și clasificarea imaginilor de textură. Rezultatele experimentale din cadrul acestui capitol au fost publicate în cadrul revistei Buletin UPB [156].

Automatul celular folosit va avea două stări (0 și 1) și va folosi o vecinătate Moore. Primul pas care trebuie efectuat în vederea aplicării teoriei rețelelor celulare în procesarea de imagini este binarizarea imaginii. În vederea binarizării, vom utiliza un număr variabil de praguri. În timpul etapei de stabilire a pragurilor, pixelii individuali vor fi marcați cu valoarea 1 dacă valoarea acestuia va fi mai ridicată decît a pragului și 0 în caz contrar. Pentru o mai bună descriere a conținutului vizual, vom folosi un număr variabil de praguri. În cadrul experimentelor au fost testate un număr variabil de praguri (de la 1 la 64). Valorile acestora vor fi alese în mod uniform pe tot intervalul grayscale: [0..255]. Spre exemplu, dacă alegem un număr de 3 praguri, acestea vor avea valorile: 64, 128 și 196. Prin aplicarea acestor praguri vom obține un set de imagini binare. Pentru fiecare imagine binară, vom aplica un set de reguli și vom extrage un set de parametri care descriu informația din cadrul imaginii binare. Metoda de extracție a parametrilor este dată de formula:

unde M și N reprezintă dimensiunile imaginii, iar F(i,j) reprezintă o funcție nucleu calculată cu ajutorul vecinătății pixelului curent. Funcția kernel este definită în felul următor:

unde este vecinătatea de dimensiune 3×3, centrată în jurul punctului curent (i,j), este valoarea pixelului de la poziția k (k=1..9), iar A(k) reprezintă ponderile care sunt aplicate fiecărui element din vecinătatea punctului curent. În Figura 5.2 este prezentată atît forma vecinătății punctului curent (i,j) cît și notațiile folosite.

Numărul de funcții posibile care pot fi utilizate are o valoare foarte mare. De exemplu, pentru o vecinătate von Newmann avem un număr de funcții posibile. Însă, testarea acestui număr ridicat de posibilități este un proces consumator de timp. Din acest motiv, am utilizat un număr redus de posibilități: și anume șase perechi de funcții. Aceste funcții sunt similare cu operatorii utilizați în detecția de contur (Prewitt, Sobel, operatorul Laplacian și operatorul cruce Robertson). Figura 5.3 prezintă funcțiile kernel utilizate în experimentul nostru.

Fig 5.3 Șase funcții kernel propuse pentru descrierea conținutului de textură

Acest proces de binarizare succesivă și de calcul a unor parametri de aspect își are motivația în încercarea de a extrage anumite caracteristici esențiale ale texturii, și anume contrastul, direcționalitatea și gradul de omogeneitate a texturii. Prin procesul de binarizare, vom extrage gama dinamică a distribuției nivelelor de gri dintr-o imagine, împreună cu distribuția de alb și negru. Cu cît numărul de praguri este mai ridicat, cu atît trăsătura de contrast a texturii va fi mai bine extrasă. Cea de-a doua trăsătură extrasă este cea de direcționalitate a texturii. Prin aplicarea operatorilor de contur, se vor extrage direcțiile fundamentale ale texturii.

Gradul de omogeneitate a texturii reprezintă o ultimă trăsătură fundamentală descrisă cu parametrii C. În [157] a fost demonstrat că o valoare a parametrului C apropiată de 1 indică o omogenitate a stărilor, în timp ce o valoare C=0,5 reprezintă un haos perfect. În celălaltă extremă C=0 indică o valoare constantă a imaginii (variații apropiate de zero).

Acest model este apropiat de modul de percepție uman. În scopul de a extrage informația referitoare la scala și rata de repetiție a texelilor, vom repeta algoritmul asupra mai multor scale ale imaginii. Astfel, vom calcula asprimea texturii la diverse rezoluții. În secțiunea experimentală, vom utiliza mai multe scale ale imaginii: 100%, 50%, 25%, 12,5% și 6,25%.

5.3 Rezultate experimentale

Pentru validarea metodei propuse, vom testa acest algoritm pe patru baze de date de textură foarte cunoscute:

Baza de date VisTex a fost concepută de către Massachusetts Institute of Technology (MIT) [158] [159]. Aceasta conține un set de 900 de imagini de textură (9 imagini pe clasă), și are în componență nu numai texturi omogenene fotografiate frontal, ci și elemente de textură naturale, cu anumite variații de luminozitate.

Baza de date UIUC [160], alcătuită dintr-un număr de 25 de clase (40 de imagini pe fiecare clasă). Toate imaginile sunt în format grayscale și au dimesiunea 640×480.

Albumul foto Brodatz [161] conține un număr de 111 imagini de textură. Fiecare imagine reprezintă o clasă distinctă. Pentru a genera un număr mai mare de imagini per clasă, s-a împărțit fiecare imagine în nouă regiuni. În acest fel au fost generate un număr de 999 imagini cu o rezoluție de 215×215 pixeli.

Baza de date KTH [162] care conține 10 clase de textură, imaginile conținînd un grad ridicat de zgomot: alterate prin iluminare, scalare și translații. Fiecare clasă conține 81 de imagini.

Exemple de imagini de textură din cadrul bazelor de date sunt prezentate în Figura 5.4.

Fig. 5.4 Exemple de texturi utilizate în experimente: prima linie – baza de date Brodatz, baza de date VisTex în a doua linie, UIUC pe linia a treia și KTH pe ultimul rînd

5.3.2 Comparație cu „State-of-the-art”

Următorul set de experimente prezintă o comparație a algoritmului propus cu alți descriptori clasici de textură, și anume: „Local Binary Patterns” (LBP) [62], „Color Coherence Vectors” (CCV) [51], momente de culoare [50], matricea de coocurență cu parametri Haralick [57], autocorelograma [59], matricea de izosegmente [60] și descriptorii MPEG-7: „Edge Histogram Descriptor” (EHD – histogrma de contururi) și „Homogeneous Texture Descriptor” (HTD – descriptorul de omogenitate a texturii).

Pentru a compara performanța descriptorilor, vom efectua două tipuri de experimente: primul experiment va fi unul de căutare (vom folosi fiecare textură din baza de date pe post de interogare utilizînd principiul „query by example”), iar al doilea experiment va fi efectuat în contextul unui scenariu de clasificare a texturilor prin utilizarea unor clasificatori.

Experiment de căutare

În vederea comparației și măsurării performanțelor de retrieval am calculat graficele precizie-reamintire și valorile MAP pentru fiecare descriptor în parte. În Figura 5.8. sunt prezentate graficele precizie-reamintire. În cadrul acestora, am comparat algoritmul propus (linie punctată roșie) cu algoritmii clasici de descriere a texturilor: LBP (linie punctată neagră), CCV (linie întreruptă galbenă), momente de culoare (linie întreruptă magenta), matricea de coocurență (linie punctată verde), autocorelograma (linie întreruptă verde), matricea de izosegmente (linie întreruptă albastră), EHD (linie întreruptă albastră) și HTD (linie întreruptă neagră).

Tab. 5.1 Comparație între cele mai bune rezultate (valori MAP)

Fig. 5.8 Graficele precizie reamintire pentru cele patru baze de date (KTH, Brodatz, UIUC și VisTex) pentru diverse seturi de descriptori

Algoritmul propus a obținut cele mai bune rezultate în două din cele patru cazuri: pentru bazele de date KTH și UIUC, în timp ce pentru bazele Brodatz și VisTex am obținut poziția a doua. Rezultate foarte bune au fost obținute și cu descriptorii: HTD, LBP, CCV și cu matricea de coocurență.

Cele mai slabe rezultate au fost obținute cu momentele de culoare, histograma de margini și matricea de izosegmente. În cele mai multe cazuri, performanța acestora este de două ori mai mică față de a algoritmului propus. Rezultate mai bune au fost obținute în cazul autocorelogramei, însă diferențele sunt majore și în aceste cazuri (MAP de la 10% la 25%).

Experiment de clasificare

În al doilea experiment, ne propunem să testăm descriptorii din perspectiva clasificării. Au fost testați o gamă largă de algoritmi de clasificare, care au obținut rezultate bune la competițiile de „machine learning”: Naive Bayes [145], Nearest Neighbor [163], SVM [148] (cu nucleu liniar și RBF), Random Trees [38], Gradient Boosted Trees [164], Extremelly Random Forest [165]. Parametrii algoritmilor au fost inițial setați în funcție de experimentele preliminare. Bazele de date au fost împărțite în două părți egale: una de antrenament și una de testare. Pentru a măsura performanța s-a utilizat parametrul de medie a preciziilor (acuratețe).

În Figura 5.9 prezentăm procentajul global de clasificare corectă pe o selecție de șapte algoritmi de clasificare pe cele patru baze de date: KTH, UIUC, Brodatz și Vistex. Rezultatele au valori promițătoare. Cele mai bune rezultate au fost obținute utilizînd trăsăturile propuse, în combinație cu clasificatorii Extremelly Random Forests, Random Trees, Naive Bayes și SVM cu RBF kernel. Cea mai bună performanță de clasificare are o valoare puțin peste 97% în timp ce cea mai scăzută are o valoare apropiată de 92%.

Cele mai bune performanțe de clasificare au fost obținute de către metoda propusă, și anume: KTH cu Nearest Neighbour (96,92%), Brodatz cu Naive Bayes (92,17%), UIUC cu Extremelly Random Forest (88.2%) și Vistex cu Extremelly Random Forest (90.22%).

Pe de altă parte, cele mai slabe rezultate se obțin cu momentele de culoare și descriptorul EHD, în timp ce clasificatorii cu performanțe mici sunt Gradient Random Trees și SVM cu nucleu liniar.

Fig. 5.9 Rezultatele clasificării pe bazele Brodatz, UIUC, KTH și Vistex utilizînd diferite metode de clasificare (Naive Bayes, Nearest Neighbor, SVM liniar, SVM cu nucleu RBF, Random Trees, Gradient Boosted Trees, Extremelly Random Forest) și diferiți descriptori (1. LBP, 2. CCV, 3. Momente de culoare, 4. Matricea de izosegmente, 5. Autocorelograma, 6. Matricea de Coocurență, 7. EHD 8. HTD, 9. algoritmul propus) pe baza de date Vistex

5.4 Concluzii

În acest capitol am prezentat o abordare neliniară pentru descrierea și clasificarea imaginilor de textură. Performanța descriptorului este validată atît în contextul unui sistem de clasificare cît și din perspectiva unui sistem de căutare a imaginilor după conținut. În acest scop, am utilizat patru baze de date de textură, pentru a compara descriptorul nostru cu algoritmii existenți. Algoritmul propus, în ciuda simplității sale, reprezintă o bună alternativă la descriptorii clasici de textură. În cele mai multe experimente, algorimul propus oferă cele mai bune rezultate în probleme de căutare și clasificare. De asemenea, algoritmul propus se impune prin simplitate și complexitate redusă de calcul.

Ca direcție viitoare de cercetare, îmi propun să îmbunătățesc performanța algoritmului și să îl adaptez altor tipuri de categorii de imagini, ca de exemplu imagini medicale sau imagini naturale. De asemenea, îmi propun să testez alte tipuri de funcții nucleu și tehnici adaptive de binarizare a imaginilor.

Descrierea conținutului folosind reprezentarea Fisher kernel

6.1 Teoria Fisher kernel

Reprezentarea Fisher kernel a fost inițial proiectată ca un model care combină beneficiile algoritmilor generativi și ai celor discriminativi. Ideea generală este de a reprezenta un semnal ca fiind gradientul funcției de densitate de probabilitate. Acesta poate fi antrenat prin utilizarea un model generativ, de cele mai multe ori acesta fiind modelul Gaussian Mixture Model (GMM). Odată calculați vectorii Fisher, aceștia se combină cu un clasificator, cum ar fi de exemplu SVM.

Fie un set de T descriptori video multimodali. X va fi reprezentat ca un vector gradient față de modelul GMM cu parametri λ:

Vectorul gradient este, prin definiție, concatenarea derivatelor parțiale față de modelul GMM antrenat. Fie și , media și deviația standard a clusterului gausian i, probabilitatea de apartenență a descriptorului față de centroidul I al GMM, iar D dimensiunea descriptorului . Definim ca fiind gradienții densității de probabilitate a setului de descriptori X de dimensiune D față de mediile și gradienții față de deviația standard a gausienei i. Matematic, aceste derivate sunt egale cu:

Vectorul gradient final Gx reprezintă concatenarea vectorilor și pentru i = [1…K]. Fisher kernel a fost introdus prima dată de către Jaakkola și Haussler în 1999 [166], denumirea fiind dată în cinstea lui Sir Ronald Fisher (un statistician, biolog evoluționist, eugenist și genetician englez). În această lucrare, a fost propus un mecanism de agregare a modelelor probabilităților generative cu modelele de clasificare discriminative, ca de exemplu modelul SVM. Apoi, în [167] Fisher kernel a fost introdus în detecția și clasificarea de proteine. În următorii ani, modelul Fisher kernel a fost utilizat în diferite domenii, de la clasificare audio, identificare de voce pînă la clasificare de imagini. În [168], a fost propus un framework care utilizează Fisher kernel în contextul clasificării de documente audio web, în contextul unor baze de date de dimensiuni ridicate (large-scale). De asemenea, ei au propus un set de justificări experimentale pentru utilizarea modelului, arătînd că Fisher kernel limitează dimensiunea spațiului descriptorului, ceea ce oferă anumite beneficii discriminatorii. Alte domenii în care modelul Fisher kernel a fost propus cu succes sunt clasificarea de baze de date de documente [169] și în probleme de recunoaștere și identificare a vocii [170].

Prin utilizarea reprezentării Fisher, se obține o soluție naturală la problema descrisă anterior deoarece modelul Fisher kernel a fost inițial conceput pentru a agrega vectori de dimensiuni fixe într-o reprezentare de lungime constantă. În [172] a fost propus un model constelație care agregă probabilitățile de apariție a cuvintelor cheie, în timp ce în [173] au fost agregați chiar descriptorii cuvintelor cheie. Apoi, în [99], au fost propuse un set de îmbunătățiri care pot crește performanța Fisher kernel (aplicare de normalizări și piramide spațiale), ca apoi, în [174] modelul să fie extins pentru baze de date de imagini large-scale. Reprezentarea gradient a vectorilor Fisher prezintă un avantaj major față de reprezentarea clasică Bag-of-Visual-Words, deoarece este mult mai rapid (utilizează dicționare de dimensiuni reduse) și permite utilizarea unor algoritmi rapizi de clasificare, ca de exemplu SVM cu nucleu liniar.

6.2 Reprezentarea Fisher kernel

În Figura 6.1. este prezentată schema de aplicare a unui model Fisher kernel. Acesta cuprinde patru părți componente: extragerea de trăsături din documente, generarea unui dicționar din trăsăturile selectate, calculul și normalizarea vectorilor Fisher și antrenarea unui algoritm de clasificare.

Fig. 6.1 Schema generală a unei reprezentări Fisher kernel

Extragere trăsături documente. Inițial, pentru fiecare document se extrage un set de descriptori. Acești descriptori vor fi caracteristici aplicației în care vom aplica metoda, și anume: pentru imagini putem extrage puncte de interes, în timp ce pentru documente video putem selecta trăsături de mișcare, audio sau puncte de interes din cadrele vizuale extrase.

Un parametru care trebuie luat în considerare în acest pas este numărul de descriptori care trebuie extrași, pentru ca apoi să poată fi agregați cu Fisher kernel. Spre exemplu, pentru documentele video, se pot calcula descriptori vizuali doar pentru un număr redus de cadre, sau putem utiliza o strategie de extragere densă de cadre. În acest caz, trebuie găsit un compromis între performanță și putere computațională utilizată.

Generare dicționar. Următorul pas este reprezentat de generarea unui dicționar relevant pentru conceptele ce vor urma să fie antrenate. În acest sens, se antrenează un model gausian „Gaussian Mixture Model” (GMM) care va genera un dicționar de concepte. Din rațiuni de optimizare, clusterii GMM pot fi inițializați cu un algoritm „k-means”. Un parametru important în antrenarea modelului GMM îl reprezintă numărul de centroizi c. Avînd în vedere că pentru fiecare cluster adăugat, dimensiunea noii reprezentări se va dubla, pentru ca sistemul să ruleze real-time, c trebuie să aibă o valoare redusă. Influența parametrului c va fi testată pentru fiecare aplicație în parte în secțiunea experimentală.

6.5.2 Optimizarea reprezentării Fisher

Pentru optimizarea parametrilor Fisher kernel am utilizat doar jumătate din categorii, pentru fiecare categorie selectînd doar o treime din grupuri. De asemeni, am utilizat mecanismul de cros-validare pe cele 8 grupuri.

În acest experiment vom prezenta influența numărului de centroizi GMM asupra performanței sistemului. Figura 6.5 prezintă variația performanței atunci cînd variem numărul de centroizi GMM cît și diferența de performanță intre performanța primilor descriptori plus a acestora atunci cînd aplicăm Fisher kernel. În primul rînd trebuie să notăm că performanța acestora crește chiar și atunci cînd utilizăm un singur centroid. Spre exemplu, pentru descriptorii de culoare, performanța crește de la 35% la 40%, pentru descriptorii HOG de la 47% la 55%, în timp ce pentru HOF creșterea de performanță este de la 54% la 56%.

De asemenea, prin variația numărului de clusteri, performanța acestora încă poate fi îmbunătățită. Toți descriptorii înregistrează un cîștig de performanță între 5% și 10%. Numărul de clustere care va fi utilizat în următorul experiment este: 60 de clustere pentru HOF și un cluster pentru HOG și pentru CN.

6.7 Concluzii capitol

În acest capitol am propus modelul Fisher kernel pentru agregarea și modelarea variației temporale în documentele video. În timp de ordinea temporală este pierdută, variația temporală este capturată la două nivele: trăsăturile similare sunt grupate împreună și rețin variația intra-cluster, în timp ce trăsăturile nesimilare sunt împărțite separat, prevenind amestecarea informației de mișcare din diferite părți componente.

De asemenea, am demonstrat că metoda propusă este foarte generală: am arătat că metoda propusă îmbunătățește o mare varietate de trăsături, de la trăsături care utilizează părți componente ale corpului uman, la trăsături vizuale pentru detecția de gen, pînă la descriptori audio clasici. Mai mult, am demonstrat că metoda obține rezultate foarte bune pe o varietate de baze de date: am obținut rezultate apropiate cu state-of-the-art pentru baza de date UCF Sport 50 utilizînd descriptori globali în locul descriptorilor mult mai complecși locali, am reușit să obținem performanțe îmbunătățite pe baza de date ADL de acțiuni uzuale prin utilizarea algoritmilor de detecție de părți componente ale corpului uman, și am obținut rezultate superioare pe baza de date MediaEval 2012 pentru competiția de detecție de genuri.

În viitor, îmi propun să combin metoda Fisher cu alte trăsături mai complexe, cum ar fi trăsăturile locale de mișcare [105]. De asemenea, îmi propun să testez metodele propuse pe baze de date mai mari: pentru detecția de gen îmi propun să utilizez baza de date Youtube, pentru detecția de acțiuni sportive să utilizez baza UCF 101, în timp ce pentru bazele de date de acțiuni cotidiene să creez baze de date mai complexe.

7.1 Algoritm propus de „Relevance Feedback” cu estimare a importanței trăsăturilor

7.1.1 Prezentare algoritm

Algoritmul de estimare a relevanței trăsăturilor [129] pleacă de la premiza că anumite valori din vectorul descriptor sunt mai importante decît altele. În cazul în care anumite obiecte au valori similare înseamnă ca acestea au un grad de relevanță mai mare în descrierea grupului de documente căutat. Pe de altă parte, dacă valorile componentelor diferă în mod substanțial, indică faptul că acele valori pot să nu fie luate în considerare. Bazîndu-se pe această analiză simplă, Rui și Huang [143] au considerat că valoarea deviației standard este invers proporțională cu gradul de relevanță al parametrului. Marele neajuns al algoritmului este că nu utilizează feedback-ul negativ al utilizatorului. În cazul în care o caracteristică a vectorului descriptor are o distribuție similară atît pentru valori negative cît și pentru cele pozitive, algoritmul nu va fi capabil să le separe. Din această cauză algoritmul trebuie să fie capabil sa aplice penalizări bazate pe feedback negativ.

O altă modificare propusă algoritmului lui Rui [143] este modificarea punctului de interogare. Plecînd de la premiza că fiecare document reprezintă o variabilă aleatoare într-un spațiu multidimensional de distribuție gausiană, prin mutarea punctului de interogare în centroidul clasei, vom maximiza probabilitatea de găsire a documentelor din cadrul clasei respective. Acest principiu de mutare a punctului de interogare fost împrumutat din algoritmul lui Rocchio, însă, spre deosebire de acesta, vom utilizeaza numai feedback pozitiv. Conform algoritmului propus, noul punct de interogare va fi calculat ca medie a feddbackului pozitiv, în timp ce ponderile de importanță a trăsăturilor vor fi calculate în modul următor:

unde reprezintă dispersia trăsăturilor obiectelor nerelevante, dispersia trăsăturilor pentru obiectele relevante, k reprezintă un parametru empiric ales, este media trăsăturilor relevante iar este gradul de corelare a trăsăturilor.

O reprezentare grafică a conceptului de mișcare a punctului de interogare și de reestimare a importanței trăsăturilor este prezentă în Figura 7.1.

Fig. 7.1 Ilustrare schematică a algoritmului modificat de estimare a relevanței caracteristicilor.

Schema logică a algoritmului este prezentată în Figura 7.2. Primul pas constă în calculul ponderilor trăsăturilor relevante și nerelevante (valorile ). Apoi, se calculează centroidul documentelor relevante și se va muta noul punct de interogare. În final, se generează o nouă interogare și se va afișa un nou set de rezultate. Utilizatorul poate selecta noile imagini relevante iar ciclul se poate repeta pînă cînd rezultatele returnate sunt satisfăcătoare.

Fig. 7.2 Schema logică a algoritmului modificat de estimare a relevanței caracteristicilor.

7.3 Rezultate experimentale

Pentru testarea metodei am utilizat două baze de date de imagini. Prima bază de date conține 2700 de imagini naturale, preluate de pe internet utilizînd căutări specifice pe motorul de căutare Google. Baza de date conține o gamă largă de categorii, ca de exemplu: anotimpuri, clădiri, ocean, deșert, copii, concerte, portrete, picturi, orașe faimoare (Londra, Paris etc), persoane, sport, animale, mîncare, conținînd un total de 100 de clase cu 27 de imagini per clasă. A doua bază de date este baza de date Vistex de texturi.

Pentru descrierea conținutului vizual am utilizat descriptorul de culoare MPEG 7 „Color Histogram Descriptor” (CHD) [47]. Alegerea este justificată de nevoia de a compara performanța și viteza algoritmilor de relevance feedback și nu a performanței trăsăturilor. Descriptorul CHD este implementat în spațiul de culoare HSV, avînd următoarea structură: 16 elemente de nuanță, 4 de saturație și 4 de luminanță.

Comparație cu State-of-the-Art

Algorimii de relevance feedback cu care vom compara performanța sunt: Rocchio [139], Estimare a importanței feedback-ului (RFE) [129] și algoritmul Robertson Spark-Jones [149].

Pentru compararea rezultatelor am utilizat graficele precizie-reamintire și precizia medie. Rezultatele sunt prezentate în Figura 7.3. Se poate observa că metoda propusă obține cea mai ridicată performanță atît pentru baza de date de imagini de textură, cît și pentru baza de date de imagini naturale, în ambele cazuri îmbunătățirea de performanță fiind de peste 3 – 7 procente.

Fig. 7.3 Graficele Precizie-Reamintire pentru o sesiune de feedback: (a) baza de date de texturi și (b) baza de date de imagini natural

În Figura 7.4 sunt prezentate performanțele algoritmilor pentru mai multe sesiuni de feedback. Se poate observa că performanța sistemului crește în mod semnificativ în toate cazurile atunci cînd aplicăm algoritmii de relevance feedback. Spre exemplu, prin aplicarea algoritmului propus în cazul bazei de date de textură, performanța crește de la 71% la 87%, în timp ce pentru baza de imagini naturale rata de recunoaștere aproape se dublează de la 37% la 60% MAP. Mai mult, algoritmul propus obține rezultate superioare față de ceilalți algoritmi. Spre exemplu, în cazul imaginilor de textură metoda propusă are o performanță mai ridicată cu peste 2 procente mai ridicată decît RFE și cu 8 procente în cazul bazei de imagini naturale.

Fig. 7.4 Variația MAP pentru mai multe iterații de feedback: (a) baza de date de texturi și (b) baza de date de imagini natural

7.2 Relevance feedback cu clusterizare ierarhică

7.2.1 Prezentare algoritm

Algoritmul de clusterizare ierarhică [190] reprezintă o metodă de analiză a datelor care își propune partiționarea datelor în clustere. După modul de realizare a clusterizării, algoritmul se clasifică în două categorii: aglomerativ („clustering bottom-up”) și diviziv („clustering top-down”). Clusterizarea ierarhică aglomerativă (HAC) caută în mod repetitiv cele mai similare perechi de clusteri, după care perechile cele mai similare se unesc în partiții mai mari. Astfel, numărul clusterilor scade în mod succesiv cu fiecare iterație. Pe de altă parte, clusterizarea divizivă grupează inițial spațiul descriptorilor într-o singură partiție, iar apoi acesta de împarte succesiv în mai multe clustere.

În continuare, vom propune un algoritm de relevance feedback care utilizează algoritmul de clusterizare ierarhică aglomerativ. Inițial, utilizatorul selectează un model pe baza căruia se efectuează o interogare în baza de date. Sistemul returnează o serie de documente, după care, utilizatorul va selecta doar documentele care sunt relevante pentru căutarea sa. Pe baza feedback-ului utilizatorului, clusterizarea ierarhică creează o ierarhie arborescentă a datelor (denumită dendogramă). Documentele vor fi grupate în două tipuri de clustere: partiții de documente ce conțin numai documente relevante și grupări de documente nerelevante. Pentru ca acest algoritm să poată funcționa, se pornește de la ideea că descriptorul este suficient de bun astfel încît printre documentele inițial prezentate de sistem să se găsească cel puțin cîteva documente relevante pentru a fi selectate de către utilizator. La fiecare feedback al utilizatorului, documentele prezentate sunt clusterizate în partiții de documente similare / nesimilare. Pe baza acestor partiții antrenate cu feedback-ul utilizatorului, sistemul va reordona restul de documente din baza de date în funcție de apartenența lor la o partiție de documente.

Fig 7.5 Arhitectura unei rețele de clusterizare ierarhică a) aglomerativă, b) divizivă

Schema algoritmului propus conține următorii pași:

sistemul returnează o listă de documente;

se inițializează algoritmul de clusterizare ierarhică cu documentele inițial afișate de către sistem;

utilizatorul marcheză documentele relevante;

se inițializează mecanismul de clusterizarea ierarhică. Partițiile de documente cele mai similare se combină în mod succesiv. Clusterizarea se termină atunci cînd numărul de clustere rămase este relevant pentru conceptul curent. Există mai multe condiții de finalizare ale clusterizării care vor fi prezentate ulterior;

se clasifică imaginile neafișate de către sistem ca fiind relevante sau nerelevante în funcție de distanța acestora către clusterele de imagini relevante / irelevante;

for do

end for

while do

for do

end for;

end while;

while do

for do

end for

if then

end if

end while

Fig. 7.6 Versiunea în pseudocod a algoritmului de Relevance Feedback cu clusterizare ierarhică

Versiunea în pseudocod a algoritmului este prezentată în Figura 7.6. Au fost utilizate următoarele notații: reprezintă numărul de imagini aflate într-o fereastră de căutare, este numărul de clustere din arborele final, sim[i][j] indică distanța dintre clusterii și (de exemplu distanța dintre centroizi), τ reprezintă numărul de minim clase din arborele final în faza de antrenare (va fi prezentat mai tîrziu), este numărul maxim de imagini în care are loc căutarea (setat la un sfert din numărul total de imagini din baza de date), numărul maxim de imagini care pot fi clasificate ca și pozitive (care este setat implicit la valoarea dimensiunii ferestrei de căutare), TP reprezintă numărul de imagini care sunt relevante, iar imagine_curentă este indexul curent al documentului analizat. Un pas important în algoritmul de clusterizare ierarhică este reprezentat de selecția metricii care calculează gradul de similaritate dintre două clustere. Cele mai utilizate măsuri sunt:

legătură simplă („single linkage”) – distanța dintre clustere este determinată de distanța dintre cele mai apropiate obiecte:

legătură completă („complete linkage”) – distanța dintre clustere este determinată de distanța dintre cele mai îndepărtate puncte:

legătură medie („average linkage”) – în acest caz distanța este calculată ca o medie a tuturor distanțelor dintre obiecte

legătura „ward” – reprezintă suma pătratelor distanțelor din interiorul unui cluster și centroidul acestora:

unde clusterul A conține m obiecte iar B conține n obiecte.

legătura între centroizi (centroid linkage) – reprezintă distanța dintre centroizi. Această distanță poate fi utilizată doar dacă se folosește distanța euclidiană:

unde

Fig. 7.7 Metode de unificare a clusterelor: a) legătură completă, b) legătură simplă, c) legătură medie și d)legătură între centroizi

Tipul metricii este foarte important deoarece influențează forma clusterelor. Spre exemplu, în cazul în care alegem ca și criteriu de similaritate distanța cea mai apropiată dintre două elemente (single linkage), forma clusterelor poate deveni neuniformă (asemenea unei banane sau gogoși). Pe de altă parte, alegerea unei legături medii va genera clusteri uniformi.

Clusterizarea se realizează pînă cînd se execută o condiție de finalizare. Există două variante de finalizare: cînd un număr fix de clustere este atins, sau un număr variabil adaptiv de clustere în funcție de un algoritm. O primă variantă de calcul a metodei adaptive a fost propus în [185] și utilizează formula următoare:

unde reprezintă distanța minimă dintre doi clusteri iar reprezintă distanța maximă dintre doi clusteri. În cazul în care d are o valoare apropiată de zero înseamnă că vom avea un set de clusteri compact (distanțele dintre clustere vor avea valori foarte apropiate), iar în cazul valoarea lui d va tinde la unu vom avea perechi de clustere neregulate.

O altă variantă de algoritm propus este criteriul „arcului” [186]. Numărul minim de clustere este determinat în punctul în care daca vom creea un nou cluster acesta nu va adăuga un plus de informație (diferența varianței inter-cluster va fi minimă). Mai precis, punctul de inflexiune este cel în care valoarea gradientului distanței inter-cluster este maximă.

7.2.2 Rezultate experimentale obținute pe baze de imagini

Descriere experiment

Experimentele au fost rulate pe cîteva baze de date clasice și anume:

baza de date Microsoft (Microsoft Object Class Recognition) baza de date Microsoft (Microsoft Object Class Recognition) [191] – care cuprinde un număr de 4300 imagini grupate în 21 de categorii;

baza de date Caltech 101 [192] – cu un număr de 9146 de imagini împărțite în 101 de categorii distincte (persoane, animale, instrumente, evenimente etc). Exemple de imagini din baza de date se găsesc în Figura 6.13.

Pentru descrierea conținutului vizual au fost utilizate trei categorii de descriptori:

descriptori MPEG-7 [47]: Color Histogram Descriptor, Color Layout Descriptor, Edge Histogram Descriptor și Color Structure Descriptors;

descriptori clasici de culoare: autocorelograma [59], vectori coerenți / necoerenți [51] și momente de culoare [50].

Bag-of-Visual-Words utilizînd SURF [78].

Comparație cu State-of-the-Art

Următorul set de experimente prezintă o comparație a algoritmului propus HCRF cu algoritmi clasici de relevance feedback. Experimentele expuse în Figura 7.12, arată că toți algoritmii realizează o reală îmbunătățire a performanțelor sistemului, avînd performanțe începînd cu 20% mai ridicate. Cele mai bune performanțe au fost realizate utilizînd baza de date Microsoft deoarece conține un număr mai mic de imagini și de categorii distincte. În cele mai multe cazuri, algoritmul HCRF tinde sa aibă cele mai bune rezultate (linia neagră din Figura 7.12).

Cea mai mare creștere de performanță este obținută utilizînd setul de descriptori MPEG 7 pe baza de date Microsoft (de la MAP egal cu 30,21% pînă la MAP egal cu 64,52%). Cea mai mică creștere de performanță este obținută pe baza de date Caltech 101 folosind Bag Of Visual Words (SURF) și anume de la MAP egal cu 10,90% pînă la 18,44%. Această performanță scăzută se datorează în primul rînd diversității bazei de date, descriptorii SURF oferind o putere de reprezentare redusă față de descriptorii clasici. Deoarece răspunsul inițial oferă o cantitate mică de imagini relevante, sistemul este în imposibilitatea de a se antrena.

Fig. 7.12 Curbele Precizie – Reamintire pentru bazele de date Caltech 101 și Microsoft utilizînd descriptorii de culoare, MPEG7 și Bag of Words (SURF)

În Figura 7.13 prezentăm variația MAP în funcție de sesiuni multiple de feedback. În cadrul acestui experiment, cele mai bune rezultate au fost obținute utilizînd RF cu clusterizare ierarhică. Performanțe mai mici, dar apropiate, se obțin utilizînd relevance feedback cu estimare a importanței trăsăturilor. După fiecare sesiune de feedback se poate observa că performanța crește cu fiecare sesiune (însă diferența de creștere de performanță este descrescătoare). Spre exemplu, după patru sesiuni de feedback, cea mai bună creștere de performanță este obținută pe Microsoft de la 30,21% la 84,71%, în timp ce pentru Caltech 101 se obține o creștere de la 10,66% la 55,78%. Prin comparație, metoda de relevance feedback cu estimare a importanței trăsăturilor realizează o creștere a performanței cu cateva procente mai scăzute (3% pînă la 6% mai scăzute)

Fig 7.13 Performanța sistemului atunci cînd variem numărul de iterații de feedback pe baza de date Caltech 101 si Microsoft (valori MAP)

Influența metricilor de similaritate asupra performanței algoritmilor de relevance feedback

Urmatoarele experimente au rolul de arăta influența metricilor de similaritate asupra performanței algoritmilor de relevance feedback. Metoda de măsurare a similitudinii dintre două documente este extrem de importantă și trebuie să corespundă judecății umane, altfel, precizia sistemului va fi scăzută.

Fig. 7.14 Performanța descriptorilor pe bazele de date Microsoft si Caltech folosind diverși descriptori în combinare cu o gamă diversă de metrici

Pentru a arăta impactul asupra performanței sistemelor bazate pe căutare pe conținut, această lucrare își propune să facă un studiu comparativ asupra a 19 metrici de calcul a similitudinii imaginilor, și anume: distanța Euclideană, Manhattan, măsuri probabilistice: Canberra și Bray-Curtis, Squared-Chored, Matusita, Bhattacharyya, Pearson, Clark, Cosinus, Lorentzian, Soergel, Czekanowski, Motika, Ruzicka, Tanimoto, Chi-Square, Jefrey și Dice. Primul experiment evidențiază influența metricilor pe diverși descriptori: set de descriptori MPEG-7 (Color Histogram Descriptor, Color Layout Descriptor, Edge Histogram Descriptor și Color Structure Descriptors), set de descriptori clasici (autocorelograma, Color Coherence Vectors și momente de culoare) și Bag of Words (cu un dicționar de 1000 de cuvinte) utilizînd: SURF, SIFT, Good Features to Track (GOOD), STAR, Accelerated Segment Test (FAST), Maximally Stable Extremal Regions (MSER) și Harris.

În primul experiment am analizat influența metricilor de similaritate asupra performanței unui sistem clasic de căutare a imaginilor după conținut. În acest sens vom utiliza metoda celor mai apropiați vecini. Figura 7.14 prezintă valorile MAP obținute pe cele două baze de date utilizînd setul de descriptori menționați anterior. Deși descriptorii prezintă performanțe medii mult diferite, se observă că utilizarea unei metrici adecvate poate juca un rol critic în rezultatele finale ale sistemului. În cazul bazei de date Microsoft, cele mai bune rezultate sunt obținute utilizînd combinația: set descriptori MPEG 7 și distanța Bhattacharyya, cu un MAP de 57%. Următoarele rezultate sunt egale cu 55% și 54%, utilizînd distanțele Canberra, respectiv Clark, pe setul de descriptori de culoare. Aceste valori reprezintă o îmbunatățire de 18 procente fața de valoarea performanței medii a descriptorului MPEG 7.

Rezultatele vor fi sensibil mai mici în cazul bazei de date Caltech 101. Principalul motiv pentru care baza Caltech 101 conține rezultate mai slabe se datorează numărului de cinci ori mai ridicat de clase care trebuie clasificat. Acuratețea cea mai mare este obținută utilizînd descriptorii Bhattacharyya și Canberra (valori MAP de 23,4% respectiv 23,2%). În acest caz vom avea îmbunătățiri de cel puțin 5% față de valoarea medie a performanței descriptorului. În ceea ce privește efortul computațional, trebuie luat în considerare că distanța Bhattacharyya este soluția cea mai costisitoare. De asemenea, se observă că anumite metrici sunt adaptate pe structura anumitor descriptori. Spre exemplu, distanțele Bhattacharyya și Canberra au perfomanțe slabe pe setul de descriptori Bag-of-Visual-Words (de observat SURF, SIFT, Harris și GOOD în Figura 7.15). Un alt caz interesant este cel al distanței euclidiene, care în ciuda popularității sale obține rezultate scăzute în marea majoritate a experimentelor.

În experimentele anterioare se observă că performanțele pe testere de căutare este relativ scăzută. Din acest motiv, încercăm să aplicăm algoritmi de relevance feedback asupra experimentelor de căutare. Vom compara metoda propusă HCRF asupra altor algoritmi clasici de Relevance Feedback: algoritmul Rocchio [139], Relevance Feature Estimation (RFE) [143], RF utilizînd Vectori Suport (SVM) [150], Arbori de decizie (Tree) [194], AdaBoost (BOOST) [193], Random Trees [193], Gradient Boosted Trees (GBT) [193] și algoritmul celor mai apropiați vecini (Nearest Neighbor – NN) [196]. Pentru fiecare descriptor și metrică vom efectua un experiment cu fiecare algoritm de relevance feedback. Din motive evidente, nu vom prezenta decît rezultatele cele mai importante în Tabelul 7.1:

Tab. 7.1 Top trei performanțe pentru bazele de date Microsoft și Caltech 101 (MAP).

În toate experimentele efectuate, algoritmii de relevance feedback îmbunătățesc performanțele de sistemelor CBIR. Spre exemplu în cazul bazei de date Microsoft, performanța este mai ridicată la MAP 80%, față de 57% cît obținem fără relevance feedback (îmbunătățire de 23 procente). Pe baza de date Caltech 101 vom avea o îmbunătățire de 9 procente de la 23% la 32%. Clusterizarea ierarhică are cele mai bune rezultate în marea parte a experimentelor. Pentru baza de date Microsoft, cea mai mare creștere de performanță este obținută cu descriptorii MPEG-7, cu 8% față de a doua poziție obținută prin utilizarea algoritmului BOOST; pe baza Caltech-101, cele mai bune performanțe se obțin pe setul de descriptori SURF, pe a doua poziție aflîndu-se tot BOOST la o diferență de cinci procente.

Fig. 7.15 Acuratețea algoritmilor de relevance feedback pentru diverși descriptori și metrici (valori MAP).

Precizii scăzute au fost obținute cu descriptorii FAST, STAR și MSER pe toți algoritmii de relevance feedback. De asemeni experimentele arată că performanța algoritmilor de relevance feedback depinde mult de alegerea metricii folosite și a descriptorului utilizat. Metricele Canberra și Bhattacharyya au cele mai bune performanțe pentru seturile de descriptori clasici ca MPEG 7 și descriptori de culoare, în timp ce Tanimoto are cea mai bună performanță pe Bag of Visual Words.

În urma efectuării experimentelor prezentate anterior, pe doua baze de date publice cu imagini naturale, cele mai bune rezultate le-am obținut în mod constant utilizînd algoritmul relevance feedback cu clusterizare ierarhică.

7.4 Concluzii

În acest capitol am discutat diverse metode propuse de relevance feedback.

Inițial, am prezentat un algoritm de relevance feedback inspirat din algoritmii de relevance feedback de schimbare a punctului de interogare și de estimare a importanței trăsăturilor. Testarea a fost efectuată pe două baze de date clasice (o bază de date de textură și una de imagini naturale), utilizînd o gamă variată de metrici și descriptori. Algoritmul propus obține rezultate superioare față de algoritmi de relevance feedback clasici, performanța sistemului fiind îmbunătățită cu peste 8% (valoare MAP).

În următoarea secțiune au fost expuse două subiecte principale: influența metricilor asupra performanței unui sistem de căutare de imagini după conținut și am propus un nou algoritm de relevance feedback inspirat de clasificarea ierarhică. Testarea a fost efectuată pe două baze de date clasice (Caltech 101 și Microsoft), utilizînd o gamă variată de metrici și descriptori. Algoritmul propus obține rezultate superioare față de algoritmi de relevance feedback clasici, performanța sistemului fiind îmbunătățită cu peste 23% (valoare MAP). De asemenea, am demonstrat că alegerea unei metrici potrivite poate fi decisivă pentru acuratețea sistemului. Distanțe ca Canberra și Bhattacharyya s-au dovedit a obține rezultate bune pentru descriptori clasici (ca de exemplu MPEG 7 sau descriptori de culoare), în timp ce metrici ca Tanimoto obțin rezultate superioare pe descriptori de tip Bag of Words. În următoarea secțiune am aplicat acest algoritm și în contextul problemei de indexare a documentelor video. Algoritmul propus a obținut rezultate îmbunătățite față de majoritatea algoritmilor RF state-of-the-art.

În finalul capitolului, am propus o nouă metodă de relevance feedback utilizînd reprezentarea Fisher kernel. Experimentul a fost efectuat în contextul aplicării tehnicilor de relevance feedback pe bazele de date multimedia, iar noi am propus o metodă care combină modelele generative cu cele descriminative, pentru problema de relevance feedback. Testată pe o bază de date mare (MediaEval 2012), și utilizînd o serie de descriptori care reprezintă state-of-the-art (vizuali, audio și text), metoda noastră FKRF îmbunătățește performanța rezultatelor, surclasînd alte metode existente ca: Rocchio, Nearest Neighbors RF, Boost RF, SVM RF, Random Forest RF și RFE.

De asemenea, am prezentat o metodă de a captura înformația temporală utilizînd Fisher Kernel, astfel încît să folosim mai mult de un vector descriptor pentru un document video. Experimentele efectuate pe trăsături vizuale au arătat că performanța este drastic îmbunătățită de la 40,80% la 45,83% pentru MPEG 7 și de la 29,59% la 32,87% pentru trăsăturile HOG. De asemeni, am arătat ca nu este necesar un număr ridicat de centroizi GMM pentru a antrena metoda, aceasta obținînd rezultate bune cu numai 5-10 centroizi. Acest lucru face ca metoda să poată fi implementabilă în timp real.

Principala direcție de dezvoltare în viitor o va reprezenta aplicarea metodei pe baze de date mai mari, pentru a crește diversitatea conceptelor antrenate. Mai mult, dorim extinderea metodei Fisher kernel temporale către alte modalități, ca de exemplu text și audio, sau a trăsăturilor mai elaborate ca cele spațio-temporale.

Capitolul 8

Particularizarea conceptelor pentru diferite probleme de aplicație

În cadrul acestui capitol voi prezenta diferiți algoritmi și soluții pentru anumite probleme de interes de clasificare multimedia. În prima parte voi înfățișa metode și studii efectuate pe două baze de date medicale. O primă bază conține imagini medicale otoscopice, iar algoritmul propus este un sistem utilizat în detecția otitei la copii. A doua bază de date conține o diversitate de tipuri de celule canceroase sangvine canine, pentru care vom efectua un studiu comparativ asupra mai multor descriptori și clasificatori state-of-the-art. O parte din experimentele prezentate au fost publicate în cadrul a trei conferințe cotate ISI: „E-Health and Bioengineering Conference” (EHB) [200] care a avut loc la Iași în noiembrie 2011, Signals, Circuits and Systems (ISSCS) desfășurată tot la Iași în iulie 2011 [201] și Communications 2010 – București [202], cît și în cadrul primului raport de cercetare: „Sisteme de Căutare a Imaginilor după Conținut” [203].

8.1 Catalogarea imaginilor ORL

Otoscopia reprezintă metoda de examinare a canalului auditiv extern și a timpanului cu ajutorul otoscopului. Deși metodele de diagnosticare și preluare de imagini medicale au evoluat, otoscopia rămîne piatra de temelie a diagnosticării afecțiunilor urechii. Pentru a putea diagnostica corect afecțiunile urechii, fiecare otolaringolog sau pediatru trebuie să aibă cunoștințe de otoscopie. Cu ajutorul acestuia medicul poate vedea direct aspectul timpanului dacă acesta este iritat și bombat din cauza presiunii lichidului infectat. Cea mai întîlnită afecțiune a urechii este otita medie. Aceasta reprezintă o infecție a urechii medii, în zona din spatele timpanului. Infecția apare atunci cînd canalul lui Eustachio, care conectează urechea medie cu nasul, se blochează cu fluid, aceasta cauzînd presiune și implicit durere. Copii între 6 și 36 de luni au o predispoziție mai mare față de infecții, însă de cele mai multe ori este dificilă o diagnosticare corectă.

Pentru o diagnosticare cît mai corectă, medicul trebuie să examineze cît mai atent membrana timpanului, însă acest lucru este problematic în cazul copiilor foarte mici, deoarece este aproape imposibilă cercetarea amănunțită a urechii. Din acest motiv se încearcă o diagnosticare automată prin utilizarea unei simple poze, prin această metodă reușind chiar să elimine un operator uman specializat. Metode de diagnosticare automată sunt utilizate de mulți ani în domenii ca dermatologie sau radiologie, însă în domeniul otoscopic există un număr restrîns de studii. Principalul scop al studiului este designul complet al unui sistem expert de achiziție a imaginilor otoscopice și diagnosticare automată a pacienților (în special copii).

8.1.1 Metoda propusă

Pentru a descrie imaginea otoscopică, au fost propuși diverși algoritmi de descriere a culorii, însă pînă în prezent rezultatele nu au fost promițătoare. O primă analiză a culorii imaginilor otoscopice a fost propusă în [208]. Însă pentru a îmbunătăți performanțele unui sistem de detecție a otitei este nevoie să fie luate în considerare informații extrase din mai multe canale, cum ar fi textura și punctele de interes. Dar pentru a combina mai multe surse de informație trebuie dezvoltate strategii de fuziune adecvate. În general, avem două strategii de fuziune: „early fusion” și „late fusion” (mai multe detalii în Capitolul 2.5). Aceste strategii se bazează pe ipoteza că o decizie agregată a mai multor clasificatori și descriptori este superioară unei decizii bazate pe un singur expert. Dacă o strategie de early fusion combină descriptorii înainte de clasificare, algoritmul de late fusion combină scorurile de relevanță a clasificatorilor după procesul de categorisire.

Pentru a combina informația fiecărei trăsături am hotărît să utilizăm o strategie de late fusion deoarece aceasta prezintă mai multe beneficii: (1) este mai puțin costisitor din punct de vedere computațional deoarece descriptorii utilizați pentru fiecare descriptor în parte sunt mai mici decît atunci cînd utilizăm un descriptor concatenat și (2) late fusion se modelează și scalează mai ușor deoarece nu este nevoie de o reantrenare a sistemului de fiecare dată cînd o trăsătură nouă este adăugată în algoritm.

Schema sistemului popus este prezentată în Figura 8.1. Primul pas este cel de evaluare și selecție a unui set de trăsături care descriu cît mai eficient informația de culoare, textură și puncte de interes. Apoi, se vor selecta clasificatorii potriviți pentru fiecare descriptor extras. În final, deciziile clasificatorilor se vor combina prin utilizarea unei strategii de late fusion.

Fig. 8.1 Schema algoritmului propus pentru clasificarea imaginilor otoscopice

8.1.2 Descrierea Experimentului

În cadrul experimentelor s-a utilizat o bază de date de imagini otoscopice preluată de către o echipa de medici pediatrii în timpul investigațiilor medicale: 111 de imagini cu cazuri normale Figura 8.2 linia 1) și 75 de imagini cu cazuri de otită (Figura 8.2 linia 2). Imaginile au rezoluția de 768 pe 576 pixeli, iar fiecare poză prezintă o componentă de fundal negru în formă circulară.

Fig. 8.2 Exemple de imagini otoscopice utilizate în experimente: prima linie conține exemple de imagini fără otită, iar linia a doua prezintă inflamații ale urechii medii

Selecția descriptorilor

Pentru descrierea conținutului vizual al imaginii au fost utilizați următorii descriptori: Color Layout Descriptor (CLD) [47], momente de culoare [50], descriptorul de textură Fourier, histograma de culoare [44], matricea de izosegmente [60], matricea de coocurență [57], Color Structure Descriptor (CSD) [47], autocorelograma [59], Color Coherence Vectors (CCV) [51] și Localy Binary Patterns (LBP) [62]. Descriptori de tipul Bag of Words [86] nu au fost raportați în cadrul experimentelor datorită rezultatelor foarte slabe obținute. Pentru procesul de clasificare am utilizat următorii clasificatori: SVM liniar [148], SVM RBF [148], Naive Bayes [145], Nearest Neighbour (NN) [163], rețele neurale [209], Random Trees (RT) [38], Gradient Boosted Trees (GBT) [38], Extremelly Random Forest (ERF) și AdaBoost [210]. Acești descriptori și clasificatori au fost deja propuși în literatură pentru diferite aplicații, însă nu au mai fost utilizați pentru clasificarea imaginilor otoscopice. Pentru a calcula performanța algoritmilor s-a utilizat măsura de precizia medie.

Fig. 8.3 Acuratețea de clasificare pentru următorul set de descriptori: 1) Color Layout Descriptor, 2) Momente de culoare, 3) Descriptorul de textură Fourier, 4) Histograma de culoare, 5) Matricea de izosegmente, 6) Matricea de coocurență, 7) Color Structure Descriptor, 8) Autocorelograma, 9) Color Coherence Vectors și 10) Localy Binary Patterns, utilizînd clasificatorii: SVM Liniar, SVM RBF, Naive Bayes, Nearest Neighbour, Neural Networks, Random Trees, Gradient Boosted Trees, Extremelly Random Forest și AdaBoost.

Experimentele (Figura 8.3) arată că performanța descriptorilor este destul de scăzută avînd valori medii ale preciziei în jur de 65%. Cele mai bune rezultate s-au obținut utilizînd clasificatorul Extremelly Random Forest împreună cu descriptorii: matricea de coocurență, descriptorul de structură de culoare, autocorelograma, CCV și LBP (performanțe de 70,96%, 74,19%, 72,04%, 73,11% respectiv 76,34%). Rezultate apropiate (precizie medie de peste 70%) s-au obținut și utilizînd rețele neurale cu back-propagation împreună cu descriptorii CCV și LBP și SVM RBF împreună cu CCV și LBP (performanțe de 74,19%, 73,11% și 73,10%). Se observă deci că cele mai bune perfomanțe se obțin atunci cînd în combinația clasificator – descriptor apare Extremelly Random Forest sau LBP.

Cele mai slabe rezultate se obțin cu descriptorii: CLD și matricea de izosegmente împreună cu clasificatorii AdaBoost, random forests, Naïve Bayes și SVM liniar.

Combinarea descriptorilor cu Late Fusion

Totuși, un rezultat de 76,34% este mult sub așteptări, așa ca vom încerca să îmbunătățim performanța sistemului prin utilizarea de tehnici de fuzionare. Metodele de fuzionare se bazează pe principiul că o decizie agregată din partea mai multor sisteme expert poate avea o performanță superioară față de cea oferită de un singur sistem. Vom testa patru tehnici de late fusion și anume fuziunea prin vot egal (CombSum), fuziunea prin vot ponderat CombMean, CombMNZ și fuziune prin rang (CombRank). Pentru procesul de vot am selectat primele șapte perechi descriptor – clasificator din punct de vedere a performanței obținute.

Rezultatele experimentelor sunt prezentate în Figura 8.4. În primul rînd se poate observa că performanțele obținute cu o strategie late fusion sunt superioare fiecărui descriptor individual.

Fig. 8.4 Precizia medie pentru metodele de fuzionare:1)performanța maximă obținută fără late fusion 2) fuzionare prin utilizarea rangului 3) fuzionare prin vot egal 4) fuzionare prin vot ponderat și 5) fuzionare CombMNZ.

Fuzionarea CombMNZ prezintă performanța cea mai ridicată, și anume 84,2%, însă rezultate bune se obțin și cu strategiile clasice CombMean (83,11%), CombSum (82,45%) și CombRank (80,95%).

În Tabelul 8.1 sunt prezentate cele mai bune rezultate obținute cu și fără algoritmi de fuziune. De asemenea, este prezentat și un alt rezultat raportat pe aceeași bază de date [208]. Se poate observa că metoda propusă obține un rezultat mai bun cu 14% mai bun decît acesta, ceea ce reprezintă o îmbunătățire considerabilă.

Tab. 8.1 Comparație cu State-of-the-Art (precizie).

8.1.3 Concluzii

În cadrul acestui experiment am abordat problema analizei și clasificării imaginilor otoscopice. Analiza și diagnosticarea automată de imagini ORL reprezintă un domeniu care nu a mai fost studiat, această secțiune propunîndu-și să instituie un punct de plecare pentru cercetări ulterioare. Astfel, am studiat atît contribuția unui set extins de trăsături de culoare, textură și puncte de interes, cît și rolul unui mecanism de fuziune în creșterea performanțelor de clasificare. Studiul a fost efectuat pe un scenariu real, o bază de date cu imagini otoscopice, adunată de către un colectiv de medici ORL de la Spitalul Universitar București. Utilizarea strategiei de late fusion a dus la o îmbunătățire cu mai mult de 8 procente față de setul clasic de descriptori propuși, în timp ce performanța obținută este cu 14% mai ridicată decît cea raportată în literatură. În viitor, îmi propun să extind baza de date medicală și să testez o gamă mai largă de descriptori medicali. De asemenea, îmi propun să dezvolt noi algoritmi vizuali care să obțină rezultate îmbunătățite.

Concluzii

Lucrarea de față reprezintă o formalizare a contribuțiilor teoretice și practice în domeniul indexării și analizei bazelor de date multimedia. Prin intermediul acesteia, am rezumat munca depusă în ultimii trei ani, în perioada de formare științifică a studiilor doctorale.

Punctul de plecare comun al tuturor metodelor și algoritmilor noi descriși pe parcursul acestei lucrări a fost corelat cu nevoia de a creea sisteme care să indexeze și să interpreteze conținutul multimedia. Utilizarea documentelor multimedia face parte din viața cotidiană a oricui. Fie ca este vorba de muzică, informații text, filme, sau imagini, un sistem de indexare a conținutului are în componență anumite elemente comune, chiar dacă structura informației este una diferită.

În cadrul acestei teze am abordat mai multe scenarii și tipuri de sisteme de indexare. Un prim tip de sistem de indexare a fost cel al bazelor de date de imagini (sisteme CBIR). Astfel, am propus metode noi și am efectuat analize pe baze de date de imagini medicale, imagini de textură sau imagini naturale. De asemeni, am încercat să reduc influența paradigmei semantice (semantic gap), prin propunerea și utilizarea unor algoritmi de relevance feedback. Sistemele de indexare a documentelor video reprezintă un alt subiect discutat în această lucrare. În această direcție, a fost propus un set de metode pentru indexarea și clasificarea bazelor de date video în diferite contexte: detecția genului, a violenței sau interpretarea conținutului prin clasificarea acțiunilor din cadrul filmelor. În acest sens, conținutul video a fost analizat din mai multe perspective și modalități, informația prelucrată fiind atît de natură vizuală, cît și audio și textuală.

9.1 Rezultate obținute

În Capitolul 1 am realizat o trecere în revistă a acestei teze. Astfel, am evidențiat componentele unui sistem de indexare a sistemelor după conținut și am evidențiat secțiunile în care am adus contribuții.

În cadrul Capitolului 2 am prezentat o sinteză a componentelor consacrate pentru un sistem de indexare multimedia: browser, retriever și indexator. Se pune accentul pe problematica actuală a sistemelor de căutare după conținut și sunt prezentate diferite domenii în care indexarea joacă un rol important. De asemenea, am prezentat principalele canale de informație pe care un sistem le poate analiza: vizual, audio și textual. Apoi, am ilustrat comparativ aspecte generale referitoare la fuzionarea acestor canale informaționale: tehnici de early și late fusion. Se prezintă metricile utilizate de către algoritmi pentru calcularea similarității sau disimilarității dintre documente. Pentru evaluarea rezultatului algoritmilor de indexare sunt prezentate și măsurile de evaluare. De asemenea, se prezintă seturile de date standard existente sau utilizate pentru algoritmii de clasificare și indexare în etapele de antrenare și respectiv de testare.

Capitolul 3 ilustrează o analiză detaliată a descriptorilor utilizați pentru diferite canale de informație. În prima parte sunt analizați descriptorii vizuali și sunt trecute în revistă trăsăturile de culoare, textură, formă și de detecție a punctelor de interes. Mai mult, un modul special este creeat pentru prezentarea standardului MPEG-7 și a descriptorilor aferenți. Apoi, cîte o secțiune separată este oferită prezentării conceptelor și trăsăturilor audio, de mișcare și text.

În cadrul Capitolului 4 am prezentat o serie de algoritmi de Relevance Feedback. Au fost descriși algoritmi de relevance feedback cu schimbare a punctului de interogare, cu estimare a importanței trăsăturilor, statistici și algoritmi RF cu algoritmi de clasificare.

În Capitolul 5 am prezentat o abordare neliniară pentru descrierea și clasificarea imaginilor de textură. Textura reprezintă o componentă de bază atît pentru algoritmii de recunoaștere de patern, cît și pentru sistemele de indexare a imaginilor si documentelor video. Metoda propusă a fost inspirată din teoria automatelor celulare. În acest scop, a fost utilizat un automat celular simplu, cu două stări (0 și 1) și vecinătate Moore. Inițial, textura este binarizată cu ajutorul unor seturi de praguri, ca apoi, asupra acestor imagini binarizate să fie aplicate un set de funcții neliniare. Performanța descriptorului a fost validată atît în contextul unui sistem de clasificare cît și din perspectiva unui sistem de căutare a imaginilor după conținut. Astfel, am utilizat patru baze de date de textură, pentru a compara descriptorul nostru cu alte trăsături existente. Algoritmul propus, în ciuda complexității sale reduse (kO(n)), poate reprezenta o bună alternativă la descriptorii clasici de textură. În toate experimentele propuse, algorimul a obținut rezultate similare sau îmbunătățite, pe toate cele 4 baze de date. De asemenea, metoda a fost validată din două perspective, atît pentru un sistem clasic de căutare (query by example), cît și din prisma unui sistem de clasificare.

În cadrul Capitolului 6 este prezentată cea de-a doua contribuție propusă. Aceasta se reflectă în aplicarea modelului Fisher kernel pentru aplicațiile de indexare multimedia, privit ca o modalitate nouă de a captura în mod adecvat informația temporală. Dacă cele mai multe sisteme de clasificare de documente video se bazează pe utilizarea unei reprezentări pentru toată secvența video, iar noțiunea temporală este pierdută din diferite motive, modelul Fisher Kernel creează o reprezentare de lungime fixă, dar care ia în calcul structura informației temporale. Acest model combină beneficiile algoritmilor generativi și discriminativi, avînd un caracter general, în funcție de problema selectată: de la recunoaștere de gen, pînă la recunoaștere de secvențe sportive și acțiuni cotidiene.

Metoda propusă a obținut rezultate cu mult îmbunătățite față de simpla acumulare a informației (de la 8% pînă la 27% performanța este mai mare). Asfel, pentru experimentul de detecție a genului, am îmbunătățit performanța (valori MAP) descriptorilor clasici de culoare Color Naming de la 0,18 la 0,33, al descriptorilor Histograms of Oriented Gradients de la 0,23 la 0,43, în timp ce performanța descriptorilor audio a crescut de la 0,34 la 0,47. În cadrul celui de-al doilea experiment efectuat, și anume cel de detecție de acțiuni sportive, performanța este mult mai ridicată. Astfel, pentru setul de descriptori Histograms of Optical Flow, acuratețea a fost îmbunătățită de la 45% la 72%, a descriptorilor HOG de la 34% la 52%, în timp ce a descriptorilor Color Naming de la 20% la 42%. De asemenea, în cadrul celui de-al treilea experiment propus, cel de detecție de acțiuni cotidiene, performanța a fost îmbunătățită de la 78% la 89%, pentru setul de descriptori HOF. Rezultatele obținute sunt de cele mai multe ori mai bune, sau cel puțin similare cu cele raportate în literatură. Astfel, pentru problema detecției de gen, performanțele obținute depășesc cu mult rezultatele raportate în cadrul competiției MediaEval 2012 Tagging Task. Pentru trăsăturile audio, am obținut o perfomanță de 0,475 MAP, cu mult mai bine decît performanța raportată la MediaEval 2012 de 0,1892 (echipa ARF). De asemenea, și descriptorii vizuali au o performanță superioară în fața celor raportați la MediaEval 2012, descriptorii propuși obținînd o performanță de 46,5% cu peste 11 procente mai ridicată față de maximul raportat. Mai mult, rezultate remarcabile sunt obținute prin combinația trăsăturilor vizuale cu cele audio. Acestea obțin o performanță de 0,55 ceea ce este chiar superioară performanței obținute de cele mai bune echipe la MediaEval 2012, care au o performanță de 0,52 MAP. Însă, rezultatul din urmă utilizează descriptori de nivel semantic de nivel înalt, cum ar fi textul extras prin metode de recunoaștere automată vorbirii sau cu ajutorul metadatelor. De asemenea, în cazul în care combinăm trăsăturile noastre cu trăsături de text, obținem 0,66 MAP, un rezultat mai bun cu 0,13 MAP față de cea mai bună echipă din competiție.

În ceea ce privește problema de detecție a acțiunilor sportive, am obținut rezultate similare celor raportate în literatură. Totuși, metoda propusă utilizează descriptori foarte simpli, cum ar fi HoG, HoF si CN, în timp ce metodele cu rezultate similare utilizează un set de descriptori care generează un efort computațional foarte ridicat. Mai mult, algoritmul Fisher kernel aplicat părților componente ale corpului a obținut cea mai mare performanță, de 97,3%, în timp ce ceilalți algoritmi au obținut o performanță cu cîteva procente mai redusă.

Așadar, putem concluziona că metoda Fisher kernel obține rezultate similare sau mai bune decît cele prezentate în literatură, însă aceasta utilizează descriptori globali care sunt mult mai rapizi și ușor de implementat.

În Capitolul 7, am propus o serie de algoritmi de relevance feedback pentru diverse probleme de indexare a bazelor multimedia. Inițial, am prezentat un algoritm de relevance feedback care combină principii inspirate din metoda clasică de RF Rocchio, cu trăsături similare celor utilizate în metodele de estimare a importanței descriptorilor. Algoritmul a fost testat pe baze de date de textură și de imagini naturale. Strategia de relevance feedback îmbunătățește performanțele sistemului în mod considerabil, un exemplu ar fi aplicarea algoritmului propus pentru setul de imagini de textură, unde performanța crește de la 71% la 87%, în timp ce pentru baza de imagini naturale rata de recunoaștere aproape se dublează de la 37% la 60% MAP. Mai mult, algoritmul propus obține rezultate superioare față de ceilalți algoritmi: spre exemplu, în cazul imaginilor de textură, performanța crește cu peste 2 procente și cu 8 procente în cazul bazei de imagini naturale.

Al doilea algoritm de relevance feedback propus utilizează o structură arborescentă capabilă să învețe rapid și eficient preferințele utilizatorului, chiar dacă utilizăm un set restrîns de exemple de învățare. Inițial, algoritmul a fost propus pentru îmbunătățirea performanței bazelor de date cu imagini naturale. În acest scop, am testat pe două baze de date publice și foarte cunoscute: Caltech 101 și Microsoft. Prin utilizarea setului de descriptori MPEG 7, metoda propusă prezintă o creștere de performanță de la 30,21% la 64,52%. Cea mai mică creștere de performanță este obținută pe baza de date Caltech 101, folosind Bag of Visual-Words (SURF): de la MAP egal cu 10,90% pînă la 18,44%. Mai mult, în cazul în care efectuăm sesiuni multiple de feedback, performanța poate fi îmbunătățită pînă la 84,71%, pentru baza Microsoft, în timp ce pentru Caltech 101 se obține o creștere pînă la 55,78%. Pentru ambele baze de date, metoda propusă obține rezultate mai bune decît cele raportate în literatură (3% pentru Caltech 101 și 6% pentru baza Microsoft).

Ultimul algoritm de relevance feedback este inspirat de modelul Fisher kernel, fiind propus în contextul indexării de bazelor de date video web. Algoritmul a fost testat pe o varietate de descriptori multimedia: vizuali, audio și textuali. Testată pe o bază de date mare (MediaEval 2012), și utilizînd o serie de descriptori care reprezintă state-of-the-art (vizuali, audio și text), metoda noastră FKRF îmbunătățește performanța rezultatelor, surclasînd alte metode existente ca: Rocchio, Nearest Neighbors RF, Boost RF, SVM RF, Random Forest RF și RFE. Mai mult, în cazul în care capturăm informația temporală utilizînd Fisher kernel, performanța este drastic îmbunătățită de la 40,80% la 45,83% pentru MPEG 7 și de la 29,59% la 32,87% pentru trăsăturile HoG. De asemeni, am arătat că nu este necesar un număr ridicat de centroizi GMM pentru a antrena metoda, aceasta obținînd rezultate bune cu numai 5-10 centroizi. Astfel, agoritmul este rapid, putînd fi implementat în sisteme în timp real.

În Capitolul 8 am prezentat diferiți algoritmi și soluții pentru anumite probleme de interes de clasificare multimedia. În prima parte a capitolului, am ilustrat metode și studii efectuate pe două baze de date medicale. Primul experiment a fost creat pe o bază de date de imagini otoscopice și își propunea detecția otitei din imagini extrase de otoscop. O primă bază conține imagini medicale otoscopice, iar algoritmul propus este un sistem utilizat în detecția otitei la copii. În cadrul acestui experiment am propus un set de descriptori și o arhitectură de fuziune clasică pentru combinarea trăsăturilor de culoare, textură și puncte de interes. Sistemul propus a obținut un rezultat mai bun cu 14% decît cele raportate în literatură, ceea ce reprezintă o îmbunătățire considerabilă.

A doua bază de date conține o diversitate de tipuri de celule canceroase sangvine canine, preluate la microscop. În cadrul acestui experiment, am abordat problema analizei și clasificării de imagini medicale. În acest sens, am studiat contribuția unui set extins de trăsături de culoare, textură și puncte de interes, dar și performanța a mai multor clasificatori. Studiul a fost efectuat pe un scenariu real, o bază de date cu imagini medicale extrase de către Facultatea de Medicină Veterinară București. Rezultatele obținute au fost încurajatoare. Spre exemplu, cel mai bun procent de clasificare, de 99,45%, a fost obținut prin combinarea descriptorilor SURF cu clasificatorul Nearest Neighbor.

În a doua parte a capitolului, am propus un set de metode și sisteme pentru indexarea conținutului multimedia. O primă aplicație propusă a fost detecția genului pentru fișierele video web. Inițial, un sistem de clasificare a genului a fost propus în cadrul competiției MediaEval 2012 Video Genre Retrieval Task. În cadrul acestei competiții, am fost membru al echipei ARF (Austrian Romanian French team). Au fost propuse 5 metode, dintre care a treia s-a clasat pe locul 2 (din 29 de sisteme propuse). Mai mult, ulterior am propus o nouă abordare multimodală a problemei, în care rezultatele obținute au fost cu mult superioare celor raportate în cadrul competiției.

În cadrul MediaEval, descriptorii textuali (metadate și ASR) au obținut cea mai ridicată performanță, și anume 52,25%. Însă, rezultatele descriptorilor textuali propuși sunt mult mai ridicate. Astfel, am obținut 58,66% cu descriptorii de metadate. Apoi, prin fuziunea descriptorilor text (ASR și metadate), performanța crește pînă la 62,81% – o diferența de performanță este de peste 10% față de prima echipă clasată și cu peste 25% față de a doua echipă clasată. În ceea ce privește descriptorii vizuali, am obținut o performanță cu trei procente mai ridicată (MAP 38,21%) decît cel mai bun sistem cu trăsături vizuale, raportat la MediaEval 2012. Setul de trăsături audio a obținut și el performanțe superioare: 44,5% MAP, în condițiile în care cel mai bun rezultat obținut în cadrul competiției a fost de numai 18,92% (se poate observa o îmbunătățire cu mai bine de 25% MAP). Prin combinarea tuturor modalităților, am obținut cea mai mare rată de clasificare de 65,82%, ceea ce reprezintă o îmbunățire a performanței cu peste 13 procente față de cea mai bună performanță de la MediaEval 2012. De asemeni, am demonstrat că performanțe foarte bune se pot obține doar cu trăsături care pot fi extrase automat. Prin utilizarea tuturor descriptorilor, mai puțin metadate, obținem o performanță foarte mare de 51,9%, similară celui mai bun rezultat din concurs.

A doua aplicație propusă este detecția secțiunilor violente în filmele de la Hollywood. O primă variantă a sistemului a fost propusă în cadrul workshop-ului MediaEval 2012, competiția „Affect Task”. În cadrul acesteia, am fost membru al echipei ARF (Austrian Romanian France Team) cu care am obținut locul 1 (din 35 de sisteme propuse). În cadrul acestei secțiuni au fost propuse un set de tehnici pentru rezolvarea problemei de detecție a violenței în filmele de la Hollywood. Cele mai multe metode au propus un set de descriptori pentru descrierea conținutului video și un clasificator pentru antrenarea sistemului. Primul autor a propus o metodă care utilizează un pas intermediar, ce constă în predicția conceptelor asociate cu violența, ca de exemplu: țipete, explozii, sunete de arme etc. Predicția conceptelor corelate cu violența a reprezentat o problemă mai ușor de implementat decît detecția directă a gradului de violență. Prin utilizarea acestei arhitecturi, s-a obținut cea mai ridicată performanță, cu mai mult 6% decît a doua echipă clasată (echipa ShanghaiHongkong), care a obținut un scor de 43,73%. În cadrul acestui algoritm am avut contribuții pentru descrierea vizuală a conținutului multimedia. Nu în ultimul rînd, metoda propusă a fost singura din competiție care a putut fi implementată atît la nivel de segment cît și la nivel de cadru.

Prezenta teză se încheie cu Capitolul 9 care este dedicat prezentării concluziilor care se desprind din aspectele teoretice și practice ale cercetărilor prezentate în această lucrare și care sintetizează rezultatele și contribuțiile personale originale, precum și perspectivele de cercetare.

9.4 Perspective de dezvoltare ulterioară

Deși această își propune să marcheze o perioadă de cercetare, munca descrisă în această teză este departe de a se fi încheiat.

O primă aplicație care poate fi îmbunătățită este cea de detecție și clasificare a imaginilor de textură. În acest sens, îmi propun să îmbunătățesc performanța algoritmului și să îl adaptez altor tipuri de categorii de imagini, ca de exemplu imagini medicale sau imagini naturale. De asemenea, îmi propun să testez alte tipuri de funcții nucleu și tehnici adaptive de binarizare a imaginilor, dar și să aplic algoritmul pe toate cele trei canale ale unei imagini color. O altă direcție pe care aș dori să o am în vedere, este utilizarea metodei ca descriptor în cadrul modelului Bag-of-Words. Algoritmul prezintă o precizie și viteză ridicată pentru detecția de texturi, ceea ce îl poate face o alternativă serioasă pentru descrierea punctelor de interes.

O altă direcție de cercetare pe care îmi propun să o extind este cea de relevance feedback. Așa cum am arătat în această lucrare, tehnicile de relevance feedback reprezintă o bună alternativă pentru reducerea problemei generate de paradigma semantică, ceea ce reprezintă de altfel principala problemă existentă a sistemelor de indexare multimedia. În viitor, îmi propun să combin metoda Fisher Relevance Feedback cu alte trăsături mai complexe, și să extind conceptul de modelare a informației temporale, pentru descriptori ca cei de: mișcare, text sau audio. Mai mult, îmi doresc să testez metoda propusă pe o bază multimedia de dimensiuni foarte mari. În acest sens îmi propun crearea unei baze de date de documente video web cu filme preluate de pe cele mai importate site-uri din domeniu: spre exemplu, Youtube sau blip.tv. De asemenea, modelul Fisher kernel pentru relevance feedback poate fi extins și pentru baze de date de imagini. Prin corespondență, ideea temporală de la nivel de video poate fi transformată în modelare spațială la nivel de imagine, iar agregarea la nivel de frame poate fi transformată în agregare la nivel de puncte de interes.

Capitolul 10

Bibliografie

[1] S. Santini: „Exploratory Image Databases Content-based Retrieval”, Academic Press, Inc. Duluth, MN, USA, ISBN:0-12-619261-8, 2001.

[2] D. H. Brown, C.M. Ballard, „Computer Vision”, Prentice-Hall, Englewood Cliffs, N.J., 1982.

[3] R. Haralick, L. Shapiro, „Computer and Robot Vision II”, Addison-Wesley, Reading, MA, 1993.

[4] M. Flickner, H. Sawhney, W. Niblack, J. Ashley, Q. Huang „Query by image and video content: the QBIC system”, IEEE Computer, vol 28(9), pp. 23-32, 1995. ISSN: 0018-9162.

[5] J. Bach, C. Fuller, A. Gupta, A. Hampapur, B. Horowitz, R. Humphrey, R. C. Jain, C.-F. Shu, „Virage image search engine: an open framework for image management”, in Proc. of Storage and Retrieval for Still Image and Video Databases, 1996. Proc. SPIE 2670, 76.

[6] J. Eakins, M. Graham, „Content-based image retrieval”, Technical Report. JTAP-039, JISC Technology Application Program, 2000.

[7] A. Gupta, R. Jain, „Visual information retrieval”, in Proc. of Communications of the ACM, vol. 40(5), pp. 70-79, 1997.

[8] J. Feder, „Towards image content-based retrieval for the World-Wide Web”, in Proc. of ACM on Advanced Imaging, vol. 11(1), pp. 26-29, 1996.

[9] R.J. Smith, F.S. Chang, „Querying by color regions using the VisualSEEk content-based visual query system”, in Proc. of Intelligent Multimedia Information Retrieval, pp. 23-41, 1997.

[10] A.W. Smeurdels, M. Worring, S. Santini, A. Gupta, R. Jain, „Content-based image retrieval at the end of the early years”, in IEEE Trans. Pattern Analysis Machine Intelligence, vol. 22(12), pp. 1349–1380, 2000.

[11] I. Mironică, „Sisteme de Căutare a Imaginilor după Conținut”, Raport de cercetare nr.1, iunie 2011.

[12] G.P. Nguyen, M. Worring, „Optimization of Interactive Visual-Similarity-Based Search”, in Proc. of ACM Transactions on Multimedia Computing, Communications and Applications, vol. 4 (1), pp. 1-23, 2008.

[13] C. Vertan, M. Ciuc, C. Fernandez-Maloigne, V. Buzuloiu, „Browsing Image Databases by 2D Image Similarity Scatter Plots”, in Proc. of System of Intelligence Symposyum Communications, București, Romania, 5-7 Dec. 2002, „Proceedings of International Conference Communications”, pp. 397–402, 2002.

[14] J. B. Tenenbaum, V.D. Silva, J.C. Langford, „A global geometric framework for nonlinear dimensionality reduction”, iScience(290) (5500), pp. 2319-2322, 2000.

[15] C. Faloutsos, K. I. D. Lin, „FastMap: A fast algorithm for indexing, datamining and visualization of traditional and multimedia datasets”, in Proc. of ACM SIGMOD, vol. 24(2), pp. 163–174, 1995.

[16] M. Steyvers, „Multidimensional Scaling”, in Macmillan Encyclopedia of Cognitive Sciences, pp. 21-27, 2002.

[17] S. Roweis, L. Saul, „Nonlinear dimensionality reduction by locally linear embedding”, in Science, vol. 290(5500), pp. 2323–2326, 2000.

[18] G. Hinton, S. Roweis, „Stochastic neighbor embedding”, in Proc. of Advances Neural Information Processing Systems, vol. 15, pp. 833–840, 2002.

[19] A. Oerlemans, S. M. Lew, „RetrievalLab – A programming tool for content based retrieval”, in Proc of ACM International Conference on Multimedia Retrieval, ICMR, Trento, 2011.

[20] O. Rooij, M. Worring, J. J. van Wijk, „MediaTable: Interactive Categorization of Multimedia Collections”, in IEEE Proc. of Computer Graphics and Applications, vol. 30(5), pp. 42-51, 2010.

[21] M. Nakazato, S. T. Huang, „3D MARS: Immersive virtual reality for content based image retrieval”, in Proc. of International Conference on Multimedia and Exposition (ICME), pp. 45-48., Tokyo, 2001.

[22] K. Schoeffmann, L. Boeszoermenyi, „Image and Video Browsing with a Cylindrical 3D Storyboard”, in Proc.of ACM International Conference on Multimedia Retrieval ICMR, Trento, 2011.

[23] E. Deza, M. M. Deza, „Dictionary of Distances”, Elsevier Science, 1st edition, ISBN-13: 978-0-444-52087-6, 2006.

[24] P. Howarth, S. Ruger, „Fractional distance measures for content-based image retrieval”, in Proc. of European Information Retreival Conferece ECIR , pp. 447-456, 2005.

[25] M. Kokare, B. Chatterji, P. Biswas, „Comparison of similarity metrics for texture image retrieval”, in Proc. of IEEE Conf. on Convergent Technologies, vol. 2, pp. 571-575, 2003.

[26] D. Zhang, G. Lu, „Evaluation of similarity measurement for image retrieval”, in Proc. of IEEE International Conference on Neural Networks Signal, pp. 928-931, Nanjing, 2003.

[27] T. Ojala, M. Pietikainen, D. Harwood, „Comparative study of texture measures with classification based on feature distributions”, in Proc. of the Pattern Recognition, vol. 29(1), pp. 51-59, 2002.

[28] J. Puzicha, T. Hofmann, J. M. Buhmann, „Non-parametric similarity measures for unsupervised texture segmentation and image retrieval”, in Proc. of the IEEE International Conference on Computer Vision and Pattern Recognition CVPR, pp. 27-272, San Juan, 1997.

[29] D. Zhang, G. Lu, „Evaluation of similarity measurement for image retrieval”, in Proc. of IEEE International Conference on Neural Networks Signal, pp. 928-931, Nanjing, 2003.

[30] Y. Rubner, C. Tomasi, L. J. Guibas, „The earth mover's distance as a metric for image retrieval”, in International Journal of Computer Vision IJCV, vol. 40(2), pp. 99-121, 2004.

[31] H. Alt, B. Behrends, J., Blomer, „Approximate matching of polygonal shapes”, in Annals of Mathematics and Artificial Intelligence, pp. 251–265, 1995.

[32] R. C. Veltkamp, „Shape matching : Similarity measures and algorithms”, Technical Report UU-CS-2001-03, Universiteit Utrecht, 2001.

[33] F. R. Hampel, E. M. Ronchetti, P. J. Rousseeuw, W. A. Stahel, „Robust Statistics: The Approach Based on Influence Functions”, John Wiley Press , New York, 1986.

[34] A. K. Jain, K. Nandakumar, A. Ross, „Score Normalization in Multimodal Biometric Systems”, in Elsevier Pattern Recognition Letters, pp 2270 – 2285, 2005.

[35] C. G. M. Snoek, M. Worring, A. W. M. Smeulders, „Early Versus Late Fusion in Semantic Video Analysis”, in ACM International Conference on Multimedia (ACM MM), pp. 399–402, Singapore, 2005.

[36] G. Ratsch, O. Takashi Onoda, K-R. Muller, „Soft margins for AdaBoost”, in Machine Learning Journal, vol. 42(3), pp. 287-320, 2001.

[37] J.R. Quinlan, „Introduction of Decision Trees”, in Machine Learning Journal, vol. 1(1), pp. 81-106, 1986.

[38] L. Breiman, „Random forests”, in Machine Learning Journal, vol. 45(1), pp. 5–32, 2001.

[39] M. Montague, J. A. Aslam, „Condorcet fusion for improved retrieval”, in Proc. of the ACM International Conference on Information and Knowledge Management (CIKM), pp. 538-548, 2002.

[40] N. Gunther, N. Beretta, „A Benchmark for Image Retrieval using Distributed Systems over the Internet”, In Proc. SPIE Conference on Internet Imaging II, pp. 127-131, San Jose, 2001.

[41] C. Leung, H. Ip, „Benchmarking for Content-Based Visual Information Search”, in Journal of Advances in Visual Information Systems, pp. 442-456, 2000.

[42] H. Muller, W. Muller, D. M. Squire, S. Marchand-Maillet, T. Pun, „Performance Evaluation in Content-Based Image Retrieval: Overview and Proposals”, in Pattern Recognition Letters, vol. 22(5), pp. 593-601, 2001.

[43] C. Vertan, M. Ciuc, „Tehnici fundamentale de Prelucrarea și Analiza Imaginilor”, Ed. Matrix Rom, Bucuresti, ISBN 978-973-755-207-5, 2007.

[44] wikipedia. http://en.wikipedia.org/wiki/Receiver_operating_characteristic.

[45] S. Schmiedeke, C. Kofler, I. Ferran, „Overview of MediaEval 2012 Genre Tagging Task”, in Working Notes Proc. of the MediaEval 2012 Workshop, pp. 4-5, Pisa.

[46] C. H. Demarty, C. Penet, G. Gravier, M. Soleymani, „The MediaEval 2012 Affect Task: Violent Scenes Detection in Hollywood Movies”, in Working Notes Proc. of the MediaEval 2012 Workshop, Pisa, 2012 .

[47] B. S. Manjunath, J.R. Ohm, V. V. Vasudevan, A. Yamada, „Color and texture descriptors”, in IEEE Transactions on Circuits and Systems for Video Technology, vol. 11 (6), pp. 703-715, 2001.

[48] J. Van de Weijer, C. Schmid, J. Verbeek, D. Larlus, „Learning color names for real-world applications”, in IEEE Trans. on Image Processing, vol. 18(7), pp. 1512-1523, 2009.

[49] M. Swain, D. Ballard, „Color Indexing”, in International Journal of Computer Vision IJCV, vol. 7(1):, pp. 11-32, 1991.

[50] M. Stricker, M. Orengo, „Similarity of color images”, in SPIE Conf. on Storage and Retrieval for Image and Video Databases, vol. 2420, pp. 381-392, 1995.

[51] G. Pass, R, Zabih, „Histogram renement for content based image retrieval”, in IEEE Workshop on Applications of Computer Vision, pp. 96-102, 1996.

[52] K. Konstantinidis, A. Gasteratos, I. Andreadis, „Image retrieval based on fuzzy color histogram processing”, in Optics Communications, vol. 248, pp. 375–386, 2005.

[53] J. Han, K.K. Ma, „Fuzzy colour histogram and its use in color image retrieval”, in IEEE Trans. Image Process., vol. 11 (8), pp. 944–952, 2002.

[54] M. Stricker, A. Dimai, „Color Indexing with Weak Spatial Constraints”, in Proc. SPIE Storage and Retrieval for Image and Video Databases, pp. 29-40, 1996.

[55] S. Lazebnik, C. Schmid, J. Ponce, „Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories”, in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), vol. 2, pp. 2169-2178, 2006.

[56] H. Tamura, S. Mori, T. Yamawaki, „Texture features corresponding to visual perception”, in IEEE Trans. Systems Man Cybernetics, vol. 8 (6), pp. 460–473, 1978.

[57] R.M. Haralick, K. Shanmugan, I. Dinstein, „Textural Features for Image Classification”, in IEEE Transactions on Systems, Man and Cybernetics, pp. 610-21, 1973.

[58] C. A. Bouman, K. Sauer, S. Saquib, „Random fields and stochastic image models”, IEEE International Conference on Image Processing, pp. 621-625, 1995.

[59] J. Huang, S. R. Kumar, M. Mitra, W. J. Zhu, R. Zabih, „Image indexing using color correlograms”, in Proc. IEEE Int. Conf. Computer Vision and Pattern Recognition, pp. 762-768, 1997.

[60] RM. M. Galloway, „Texture Analysis Using Gray Level Run Lengths”, in IEEE Proc. on Computer Graphics and Image Processing, vol. 4, pp. 172 – 179, 1975.

[61] D. Zhang, G. Lu, „Content-based image retrieval using Gabor texture features”, in Proc. of IEEE Pacific Conference on Multimedia (PCM), pp. 21-29, USA, 2001.

[62] T. Ojala, M. Pietikainen, T. Mäenpää, „Multiresolution gray-scale and rotation invariant texture classification with Local Binary Patterns”, in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 24(7), pp. 971-987, 2002.

[63] T. Ahonen, A. Hadid, M. Pietikäinen, „Face recognition with local binary patterns”, in European Conference of Computer Vision ECCV, pp. 469-481, 2004.

[64] M. Heikkilä, P. Matti, C. Schmid, „Description of interest regions with local binary patterns”, in Pattern Recognition Letters, vol. 42(3), pp. 425-436, 2009.

[65] M. K. Hu, „Visual Pattern Recognition by Moment Invariants”, in Trans. of Information Theory, vol. 8, pp. 179-187, 1962.

[66] M. R. Teague, „Image analysis via the general theory of moments”, in Journal Opt. Soc. Am, vol. 70(8), pp. 920-930, 1980.

[67] A. Khotanzad, Y.H. Hong, „Invariant Image Recognition by Zernike Moments”, in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 12, no. 5, pp. 489-497, 1990.

[68] R. Chellappa, R. Bagdazian, „Fourier Coding of Image Boundaries”, in IEEE Transactions on Pattern Analysis and Machine Intelligence PAMI, vol. 6, pp. 102-105, 1984.

[69] A. Bengtsson, J. Eklundth, „Shape representation by multiscale contour approximation”, in IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 13(1), pp. 85-93, 1991.

[70] L. J. Latecki, R. Lakamper, „Shape similarity measure based on correspondence of visual parts”, in IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 22, pp. 1185–1190, 2000.

[71] N. Triggs, B. Dalal, „Histograms of Oriented Gradients for Human Detection”, in Proc. IEEE Conf. Computer Vision and Pattern Recognition, vol. 2, pp. 886-893, 2005.

[72] G. Bosch, O. Zisserman, G. Munoz, „Image classification using ROIs and multiple kernel learning”, in IEEE Conference of Computer Vision ICCV , pp. 771-778, 2007.

[73] N. Buch, J. Orwell, S. Velastin, „3D extended histogram of oriented gradients (3DHOG) for classification of road users in urban scenes”, in ACM Conf. of British Machine Vision Conference, pp. 122-128, London, 2009.

[74] M. Lowe, D. G. Muja, „Fast approximate nearest neighbors with automatic algorithm configuration”, in Int. Conf. on Computer Vision Theory and Applications VISSAPP, pp. 331-340, 2009.

[75] D. Lowe, „Distinctive image features from scale-invariant keypoints, cascade filtering approach”, in Journal of Computer Vision, vol. 60(2), pp. 91-110, 2004.

[76] Y. Ke, R. Sukthankar, „PCA-SIFT: A more distinctive representation for local image descriptors”, in Proc. of Computer Vision and Pattern Recognition CVPR, vol. 2, pp. 506–513, 2004.

[77] K. Mikolajczyk, C. Schmid, „A performance evaluation of local descriptors”, in Pattern Analysis and Machine Intelligence Journal, IEEE Transactions, pp. 1615-1630, 2005.

[78] H. Bay, A. Ess, T. Tuytelaars, L. van Gool, „Surf: Speeded up robust features”, in Conf. of Computer Vision and Image Understanding CVIU, vol. 110(3), pp. 346-359, 2005.

[79] C. Stephens, M. J. Harris, „A combined corner and edge detector”, in Conf. of Vision, vol. 15, pp. 147–152, 1988.

[80] M. Donoser, H. Bischof, „Efficient Maximally Stable Extremal Region (MSER)”, in Conf. of Computer Vision and Pattern Recognition (CVPR), vol. 1, pp. 553-560, 2006.

[81] M. Agrawal, K. Konolige, M. R. Blas, „CenSurE: Center Surround Extremas for Realtime Feature Detection and Matching”, in European Conference on Computer Vision ECCV, vol. 53(5), pp. 102-115, 2008.

[82] E. Rosten, T. Drummond, „Machine learning for high-speed corner detection”, in European Conference on Computer Vision ECCV, pp. 430-443, 2006.

[83] J. Shi, C. Tomasi, „Good Features to Track”, in IEEE Conference on Computer Vision and Pattern Recognition CVPR, pp. 593 – 600, 1998.

[84] S. M. Smith, J. M. Brady, „SUSAN – a new approach to low level image processing”, in International Journal of Computer Vision IJCV, vol. 23 (1), pp. 45–78, 1997.

[85] K. Youngjoong, „A study of term weighting schemes using class information for text classification”, in Proc. of ACM SIGIR Conf. on Research and Development in Information Retrieval, pp. 1029-1031, 2012.

[86] G. Csurka, C. Dance, L. Fan, J. Willamowski, C. Bray, „Visual categorization with bags of keypoints”, in ECCV Workshop on Statistical Learning in Computer Vision, pp. 22-30, 2004.

[87] Y. Liu, W. L. Zhao, C. W. Ngo, C. S. Xu, H. Q. Lu, „Coherent bag-of audio words model for efficient large-scale video copy detection”, in Proc. of the ACM Int. Conference on Image and Video Retrieval, pp. 89-96, 2010. .

[88] H. Wang, A. Klaser, C. Schmid, C. L. Liu, „Action recognition by dense trajectories”, in IEEE Conference on Computer Vision and Pattern Recognition CVPR, pp. 3169-3176, 2011.

[89] S. Lazebnick, C Schmit, „Beyound Bag of features: Spatial Pyramid for recognising natural scene categories”, in IEEE Computer Vision and Pattern Recognition Computer Society Conference, vol. 2, pp. 2169-2178, 2006.

[90] A. Zisserman, J. Sivic, „Term weighting aproaces to object matching in videos”, in IEEE Computer Vision and Pattern Recognition Computer Society Conference, pp. 1470-1477, 2003.

[91] W. Zhao, W. G. Jiang, „Keyframe retrieval by keypoints: Can point to point matching help”, in Conf. of Image and Video Retrieval, pp. 72-81, Springer Berlin Heidelberg, 2006.

[92] T. Hoffman, „Probabilistic Latent Semantic Analysis”, in Proc. of Uncertainty in Artificial Intelligence, pp. 289-296, 1999.

[93] J. Sivic, B. Russell, A. Efros, A. Zisserman, W. Freeman, „Discovering objects and their location in images”, in Proc. of International Conference on Computer Vision, vol. 1, pp. 370-377, 2005.

[94] A. Blei, A. Ng, M. Jordan, „Latent Dirichlet allocation”, in Journal of Machine Learning Research, vol. 3(4), pp. 993–1022, 2003.

[95] L. Li-Jia, L. Fei-Fei, „What, where and who? classifying events by scene and object recognition”, in Int. Conf. of Computer Vision, pp. 221-228, 2007. .

[96] S. Savarese, J. Winn, A. Criminisi, „Discriminative Object Class Models of Appearance and Shape by Correlatons”, in Proc. of IEEE Computer Vision and Pattern Recognition, pp. 2033-2040, 2006.

[97] E. Sudderth, A. Torralba, W. Freeman, A. Willsky, „Learning Hierarchical Models of Scenes, Objects, and Parts” in Proc. of International Conference on Computer Vision ICCV , vol. 2, pp. 1331-1338, 2005.

[98] E. Sudderth, A. Torralba, W. Freeman, A. Willsky, „Describing Visual Scenes using Transformed Dirichlet Processes”, in Proc. of Neural Information Processing Systems, vol 18, pp. 1297-1307, 2006.

[99] F. Perronnin, J. Sánchez, T. Mensink, „Improving the Fisher kernel for large-scale image classification”, in Int. Conf. of Computer Vision ECCV, pp. 143-156, 2010.

[100] J. RR. Uijlings, A. WM. Smeulders, R. J. H. Scha, „Real-time Bag of Words, approximately”, in Proc. of the ACM International Conf. on Image and Video Retrieval, 2009.

[101] J. Ricard, D. Coeurjolly, A. Baskurt, „Generalization of Angular Radial Transform”, in Int. Conf. on Image Processing ICIP, vol. 4, pp. 2211-2214, 2004.

[102] A. P. Witkin, „Scale space filtering”, in Int. Joint Conference on Artificial Intelligence, pp. 1019–1022, 1983.

[103] F. Mokhtarian, A. Mackworth, „Scale based description and recognition of planar curves and two-dimensional shapes”, in IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 8(2), pp.112–124, 1986.

[104] B. Lucas, T. Kanade, „An iterative image registration technique with an application to stereo vision”, in Proc. of Imaging Understanding Workshop, pp. 121-130, 1981.

[105] I. Laptev, „On space-time interest points”, in Int. Journal of Computer Vision, vol. 64(2), pp. 107-123, 2005.

[106] B. Ionescu, „Analiza si Prelucrarea Secventelor Video: Indexarea Automata dupa Continut”, in Publishing House „Editura Tehnică București”, ISBN 978-973-31-2354-5, 2009.

[107] I. Laptev, M. Marszalek, C. Schmid, B. Rozenfeld, „Learning realistic human actions from movies”, in IEEE Conf. on Computer Vision and Pattern Recognition, CVPR, 2008.

[108] K. K. Reddy, M. Shah, „Recognizing 50 human action categories of web videos”, in Proc. of Machine Vision and Applications MVAP, vol. 24(118), pp. 1988-2013, 2012.

[109] I. Everts, J. van Gemert, T. Gevers, „Evaluation of color stips for human action recognition”, in Int. Conf. on Computer Vision and Pattern Recogntion CVPR, 2013.

[110] Y. Yang, D. Ramanan, „Articulated pose estimation with flexible mixtures-of-parts”, in IEEE Conference on Computer Vision and Pattern Recognition CVPR, pp. pp. 1385-1392, 2011.

[111] E. Scheirer, M.Slaney, „Construction and evaluation of a robust multifeature speech/music discriminator”, in IEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP), pp. 1331-1334, 1997.

[112] S. B. Davis, P. Mermelstein, „Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences”, in IEEE Transactions on Acoustics, Speech and Signal Processing, vol. 28(4), pp. 357–366, 1980.

[113] J. T. Foote, „Content-based retrieval of music and audio”, in Proc. of Multimedia Storage and Archiving Systems, vol. 32(29), pp 138–147, 1997.

[114] G. Tzanetakis, P. Cook, „Musical genre classification of audio signals”, in IEEE Transactions Speech and Audio Processing, vol. 10(5), pp. 293-302, 2002.

[115] B. C. J. Moore, „Interference effects and phase sensitivity in hearing”, in Philosophical Transactions, vol. 360(1794), pp. 833–58, 2002.

[116] S. S. Stevens, J. Volkmann, E. B. Newman, „A scale for the measurement of the psychological magnitude pitch”, in Journal of the Acoustical Society of America, vol. 8(3), pp. 185–190, 1997.

[117] H. Fastl, E. Zwicker, „Psychoacoustics: Facts and Models”, in Springer-Verlag Berlin Heidelberg, vol 22, 2007.

[118] B. Ionescu, J. Schlüter, I. Mironica, M. Schedl, „A Naive Mid-level Concept-based Fusion Approach to Violence Detection in Hollywood Movies”, in ACM International Conference on Multimedia Retrieval – ICMR, 2013, Dallas, USA, 2013.

[119] B. Ionescu, I. Mironica, K. Seyerlehner, P. Knees, J. Schlüter, M. Schedl, H. Cucu, A. Buzo, P. Lambert, „ARF @ MediaEval 2012: Multimodal Video Classification” in Mediaeval Benchmarking Initiative for Multimedia Evaluation workshop, Pisa, 2012 .

[120] B. Ionescu, K. Seyerlehner, I. Mironică, C. Vertan, P. Lambert, „An Audio-Visual Approach to Web Video Categorization”, in Multimedia Tools and Applications, pp. 1-26, DOI 0.1007/s11042-012-1097-x 2012, 2012.

[121] E. Pampalk, A. Flexer, G. Widmer, „Improvements of audio-based music similarity and genre classification”, in International Symposium on Music Information Retrieval ISMIR, vol. 5, 2005.

[122] M.F. Porter, „An algorithm for suffix stripping”, in Program: Electronic Library and Information Systems, vol. 14(3), pp. 130−137, 1980.

[123] G. Salton, C. Buckley, „Term-weighting approaches in automatic texture retrieval”, in Proc. of Information Processing and Management, vol 24 (5), pp. 513-523, 1988. .

[124] J. X. Yu, X. Lin, H. Lu, Y. Zhang, „A Comparative Study on Feature Weighting Text Categorization”, in APWeb Springer-Verlag Berlin Heidelberg, pp. 588–597, 2004.

[125] K. Nigam, J. Lafferty, A. McCallum, „Using maximum entropy for text classification”, in Proc. of the Workshop on Information Filtering, IJCAI, pp. 58-65, 1999.

[126] F. Sebastiani, „Machine learning in automated text categorization”, in ACM Computing Surveys (CSUR), vol. 34(1), pp. 1-47, 2002.

[127] A. McCallum, K. Nigam, „A comparison of event models for Naive Bayes text classification”, on Workshop on Learning for Text Categorization, AAAI 1998, vol. 752, pp. 41-48, 1998.

[128] I. Mironică, B. Ionescu, P. Knees, P. Lambert, „An In-Depth Evaluation of Multimodal Video Genre Categorization”, in ACM/IEEE International Workshop on Content-Based Multimedia Indexing, 2013.

[129] Y. Rui, T. Huang, S.-F. Chang, „Image retrieval: Current techniques, promising directions and open issues”, in Journal of Visual Communication and Image Representation, vol. 10(1), pp. 39-62, 1999.

[130] B. Yates, R. Neto, „Modern Information Retrieval”, New York.: ACM Press, vol. 463, 1999.

[131] R. Yan, A. G. Hauptmann, R. Jin, „Negative pseudo-relevance feedback in content-based video retrieval”, in Proc. of ACM International Conference on Multimedia, vol. 41(4), pp. 288-297, 2006.

[132] S. Yu, D. Cai, J. R. Wen, W. Y. Ma, „Improving pseudo-relevance feedback in web information retrieval using web page segmentation”, in Proc. of the Int. Conf. on World Wide Web, pp. 11-18, 2003.

[133] D.M. Nichols, „Implicit ratings and filtering”, in Proc. of the DELOS Workshop on Filtering and Collaborative Filtering, pp. 31-36, 1997.

[134] www.DirectHit.com. DirectHit

[135] D. Kelly, J. Teevan, „Implicit feedback for inferring user preference: a bibliography, in Int. Conf. on Research and Development in Information Retrieval (SIGIR), vol 37(2), pp. 18-28, 2003.

[136] M. Verleysen, D. François, „The curse of dimensionality in data mining and time series prediction”, in Computational Intelligence and Bioinspired Systems, pp. 85-125, 2005.

[137] X. S. Zhou, T. S. Huang, „Relevance feedback in image retrieval: A comprehensive review”, in Multimedia Systems, vol. 8(6), pp. 536-544, 2003.

[138] J. Han, N. King, Li Mingjing, H.-J. Zhang, „A Memory Learning Framework for Effective Image Retrieval”, in IEEE Trans. on Image Processing, vol. 14(4), pp. 511-524, 2005.

[139] J. Rocchio, „Relevance Feedback in Information Retrieval”, in The Smart Retrieval System – Experiments in Automatic Document Processing, Prentice Hall, Englewood Cliffs NJ, pp. 313-323, 1971.

[140] Y. Lu, C. Hu, X. Zhu, H. Zhang, Q. Yang, „A unified framework for semantics and feature based relevance feedback in image retrieval systems”, in Proc. of the ACM Multimedia International Conference, pp. 31-37, 2000.

[141] Y. Ishikawa, R. Subramanya, C. Faloutsos, „Mindreader: Query databases through multiple examples”, in Proc. of the Int. Conf. on Very Large Databases VLDB, 1998.

[142] D. J. Harper, C. J. Van Rijsbergen, „An evaluation of feedback in document retrieval using co-occurrence data”, in Journal of Documentation, vol. 34(3), pp. 189-216, 1978.

[143] Y. Rui, T. S. Huang, M. Ortega, S. Mehrotra, „Relevance feedback: A power tool for interactive content-based image retrieval”, in IEEE Trans. Circuits and Systems for Video Technology, vol. 8(5), pp. 644-655, 1998.

[144] C. Dorai, S. Venkatesh, „Bridging the Semantic Gap with Computational Media Aesthetics”, in ACM Multimedia, vol. 10(2), pp. 15-17, 2003.

[145] H. Zhang, „The optimality of Naive Bayes”, AAAI Press, vol 1(2), 2004. .

[146] I.J. Cox, M. Miller, T. P. Minka, T. Papathomas, P. Yianilos, „The Bayesian image retrieval system, PicHunter: theory, implementation, and psychophysical experiments”, i IEEE Trans Image Processing, vol. 9(1), pp. 20–37, 2000.

[147] R. Zhang, R.M., Zhang, „BALAS: Empirical Bayesian learning in the relevance feedback for image retrieval”, in Journal of Image and Vision Computing, vol. 24(3), pp. 211-223, 2006.

[148] V. N. Vapnik, „Statistical Learning Theory”, in New York: John Wiley & Sons, 1998.

[149] D. Tao, X. Tang, X. Li, X. Wu, „Asymmetric bagging and random subspace for support vector machines-based relevance feedback in image retrieval, in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 28(7), pp. 1088-1099, 2006.

[150] Y. Chen, X. S. Zhou, T. S. Huang, „One-class SVM for learning in image retrieval”: in Int. Conference on Image Processing, vol. 1, pp. 34-37, 2001.

[151] J. v. Neumann, „Theory of Self-Reproducing Automata”, on University of Illiniois Press, Campaign IL, 1966.

[152] S. Wolfram, „A New Kind of Science”, Wolfram Media, 2002.

[153] J. R. Weimar, „Three-dimensional Cellular Automata for Reaction-Diffusion Systems”, in Journal of Fundamental Informatics, vol. 52, pp 275-282, 2002.

[154] M. Ruth, B. Hannon, „Game of Life”, in Modeling Dynamic Biological Systems, Springer New York, pp. 333-356, 1997.

[155] N. Gilbert, K. Troitzsch, „Simulation for the social scientist”, on Open University press, 2005, ISBN 9789812381835.

[156] I. Mironică, R. Dogaru, „A novel feature-extraction algorithm for efficient classification of texture images”, în Scientific Bulletin of UPB, Seria C – Electrical Engineering, vol 75(2), pp. 101-114, ISSN 2286 – 3540, 2013.

[157] R. Dogaru, M. Glesner, „Novel tools and methods for fast identification of emergent behaviors in CNNs with relevance to biological modeling” in IEEE Proc. of Cellular Neural Networks and their Applications, pp. 339-345, 2004.

[158] http://vismod.media.mit.edu/vismod/imagery/VisionTexture. Vistex dataset.

[159] H. Shahera, S. Serikawa „Texture Databases – A Comprehensive Survey”, Pattern Recognition Letters, 2013.

[160] S. Lazebnik, C. Schmid, J. Ponce. „A Sparse Texture Representation Using Local Affine Regions”, in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 27, no. 8, pp. 1265-1278, 2005.

[161] P. Brodatz, „Textures: A Photographic Album for Artists and Designers”, in Dover, vol 6, New York, 1966.

[162] B. Caputo, M. Frits, E. Hayman, J.O. Eklundh, „The kth-tips database”, online la http://www.nada.kth.se/cvap/databases/kth-tips, 2004.

[163] K. Beyer, J. Goldstein, R. Ramakrishnan, Uri Shaft, „When Is Nearest Neighbor Meaningful?” in Database Theory ICDT Lecture Notes in Computer Science ICDT, vol. 1540, pp. 217-235, 1999.

[164] J. H. Friedman, „Stochastic gradient boosting”, in Proc of. Computational Statistics & Data Analysis, vol. 38(4), pp. 367-378, 2002.

[165] P. Geurts, D. Ernst, L. Wehenkel, „Extremely randomized trees”, in Journal of Machine Learning, vol 63(1), pp. 3–42, 2006.

[166] T. S. Jaakkola, D. Haussler, „Exploiting generative models in discriminative classifiers”, in Advances in Neural Information Processing Systems, Bradford Books, The MIT Press, Cambridge, MA, pp.487–493, 1999.

[167] T. Jaakkola, D. Haussler, „Probabilistic kernel regression models”, in Proc. of Artificial Intelligece and Statistics, vol 126, pp. 116-120, 1999.

[168] P. J. Moreno, R. Rifkin, „Using the Fisher kernel method for Web audio classification”, in IEEE International Conference on Acoustics, Speech, and Signal Processing Proceedings ICASSP, vol. 4, pp.2417–2420, 2000.

[169] A. Vinokourov, M. Girolami „Document classification employing the Fisher kernel derived from probabilistic hierarchic corpus representations”, in Proc. European Colloquium on Information Retrieval Research ECIR, pp.24–40., 2001.

[170] V. Wan, S. Renals, „Evaluation of kernel methods for speaker verification and identification”, in IEEE International Conference on Acoustics, Speech, and Signal Processing Proceedings ICASSP, vol. 1, pp.669–672, 2001.

[171] J. Zhang, M. Marszalek, S. Lazebnik, C. Schmid, „Local features and kernels for classification of texture and object categories: An in-depth study”, in Int. Journal of Computer Vision, vol. 73(2), pp. 213-238, 2005.

[172] A. Holub, M. Welling, P. Perona, „Combining generative models and Fisher kernels for object recognition”. in Int. Conference of Computer Vision ICCV, vol. 1, pp. 136-143, 2005.

[173] F. Perronnin, C. Dance, „Fisher kernels on visual vocabularies for image categorization. in Computer Vision and Pattern Recognition CVPR, pp. 71-78, 2007”.

[174] F. Perronnin, Y. Liu, J. Sánchez, H. Poirier, „Large-scale image retrieval with compressed Fisher vectors”, in Computer Vision and Pattern Recognition CVPR, pp. 3384-3391, 2010.

[175] B.Mathieu, S.Essid, T.Fillon, J.Prado, G.Richard, „YAAFE, an Easy to Use and Efficient Audio Feature Extraction Software”, in International Society for Music Information Retrieval Conference, ISMIR, 2010.

[176] P. Kelm, S. Schmiedeke, T. Sikora, „Feature-based video key frame extraction for low quality video”, in Proc. of Image Analysis for Multimedia Interactive Services WIAMIS, pp. 25-28, 2009.

[177] T. Semela, M. Tapaswi, H. Ekenel, R. Stiefelhagen, „Kit at mediaeval 2012 – content-based genre classification with visual cues”, in Mediaeval 2012 Workshop, 2012.

[178] B. Solmaz, S. M. Assari, M. Shah, „Classifying web videos using a global video descriptor”, in Journal of Machine Vision and Applications, pp. 1-13, 2012.

[179] O. Kliper-Gross, Y. Gurovich, T. Hassner, L. Wolf, „Motion interchange patterns for action recognition in unconstrained videos” in European Conference on Computer Vision ECCV, pp. 155-163, 2012.

[180] R. Messing, C. Pal, H. Kautz, „Activity recognition using the velocity histories of tracked keypoints”, in Int. Conference on Computer Vision ICCV, pp. 104-111, 2009.

[181] J. Wang, Z. Chen, Y. Wu, „Action recognition with multiscale spatio-temporal contexts”, in Computer Vision and Pattern Recognition CVPR, pp. 3185-3192, 2011.

[182] Z. Lin, Z. Jiang, L. S. Davis, „Recognizing actions by shape-motion prototype trees”, in Int. Conference of Computer Vision ICCV, pp. 444-451, 2009.

[183] R. Messing, C. Pal, H. Kautz, „Activity recognition using the velocity histories of tracked keypoints”, in IEEE Int. Conference on Computer Vision, pp. 104-111, 2009.

[184] I. Mironică, C. Vertan, „A Modified Feature Relevance Estimation Approach to Relevance Feedback in Content-Based Image Retrieval Systems”, in Signal Processing and Applied Mathematics for Electronics and Communications SPAMEC, pp. 109-113, 2011, Cluj-Napoca, Romania.

[185] I. Mironica, C. Vertan, „An adaptive hierarchical clustering approach for relevance feedback in content-based image retrieval systems”, in Int. Sym. of Signals, Circuits and Systems ISSCS, 2011.

[186] I. Mironică, B. Ionescu , C. Vertan, „Hierarchical Clustering Relevance Feedback for Content-Based Image Retrieval”, in IEEE/ACM International Workshop on Content-Based Multimedia Indexing CBMI, Annecy, 2012.

[187] I. Mironică, B. Ionescu, C. Vertan, „The Influence of the Similarity Measure to Relevance Feedback”, in European Signal Processing Conference – EUSIPCO, 2012.

[188] I. Mironică, C. Vertan, B. Ionescu, „A Relevance Feedback Approach to Video Genre Retrieval”, in International Conference on Intelligent Computer Communication and Processing ICCP, Cluj-Napoca, Romania, 2011.

[189] I. Mironică, B. Ionescu, J. Uijlings, N. Sebe, „Fisher Kernel based Relevance Feedback for Multimodal Video Retrieval”, in ACM International Conference on Multimedia Retrieval – ICMR, pp. 65-72, ISBN: 978-1-4503-2033-7, Dallas, Texas, USA, 2013 .

[190] W. J. Krzanowski. Principles of Multivariate Analysis: A User's Perspective, „Clarendon Press, Oxford, 1993.

[191] Microsoft Object Class Recognition dataset – http://research.microsoft.com/en-us/projects/objectclassrecognition/.

[192] L. Fei-Fei, R. Fergus, P. Perona, „Learning generative visual models from few training examples: an incremental Bayesian approach” in IEEE Conf. of Computer Vision and Patter Recognition CVPR, Workshop on Generative-Model Based Vision, pp. 178-188, 2004.

[193] S.H. Huang, Q.J Wu, S.H. Lu, „Improved AdaBoost-based image retrieval with relevance feedback via paired feature learning”. in ACM Multimedia Systems, vol. 12(1), pp. 14-26, 2006.

[194] S.D. MacArthur, C.E. Brodley, C.-R. Shyu, „Interactive Content-Based Image Retrieval Using Relevance Feedback”, in Computer Vision and Image Understanding, vol. 12(1), pp. 14-26, 2002.

[195] Y. Wu, A. Zhang, „Interactive pattern analysis for Relevance Feedback in multimedia information retrieval”, in ACM Journal on Multimedia Systems, vol 10(1), pp. 41-55, 2004.

[196] G. Giacinto, „A Nearest-Neighbor Approach to Relevance Feedback in Content-Based Image Retrieval”, in ACM Confenference on Image and Video Retrieval, pp. 456-463, 2007.

[197] S. Schmiedeke, C. Kofler, I. Ferran, „Overview of MediaEval 2012 Genre Tagging Task”, in Working Notes Proc. of the MediaEval 2012 Workshop, 2012.

[198] C. Rasche, „An Approach to the Parameterization of Structure for Fast Categorization”, in Int. Journal of Computer Vision, vol. 87(3), pp. 337-356, 2010.

[199] L. Lamel, J.-L. Gauvain, „Speech Processing for Audio Indexing”, in Int. Conf. on Natural Language Processing, LNCS, 5221, pp. 4-15, Springer Verlag, 2008.

[200] I. Mironică, C. Vertan, D. C. Gheorghe, „Automatic Pediatric Otitis Detection by Classification of Global Image Features”, in International Conference on e-Health and Bioengineering EHB, 2011.

[201] I. Mironică, R. Dogaru, „A comparison between various classification methods for image classification stage in CBIR”, in Int. Sym. of Signals, Circuits and Systems ISSCS, pp. 301-304, (IEEE Catalog number CFP11816-PRT, ISBN 978-1-4577-0201-3), 2011.

[202] I. Mironică, C. Vertan, „Relevance feedback approaches for MPEG-7 content-based biomedical image retrieval”, in International Conference on Communications COMM, pp. 185-188, IEEE Catalog Number: CFP1041J-ART, ISBN: 978-1-4244-6363-3, 2010.

[203] I. Mironică, „Sisteme de Relevance Feedback”, Raport de cercetare nr. 2, iunie 2012.

[204] B. Ionescu, I. Mironica, K. Seyerlehner, P. Knees, J. Schlüter, M. Schedl, H. Cucu, A. Buzo, P. Lambert, „ARF @ MediaEval 2012: Multimodal Video Classification”, i MediaEval Benchmarking Initiative for Multimedia Evaluation Workshop, Pisa, Italia, 2012.

[205] I. Mironică, B. Ionescu, C. Rasche, P. Lambert, „A Visual-Based Late-Fusion Framework for Video Genre Classification”, in IEEE International Symposium on Signals, Circuits and Systems ISSCS, Iasi, Romania, 2013.

[206] Schlüter, B. Ionescu, I. Mironica, M. Schedl, „ARF @ MediaEval 2012: An Uninformed Approach to Violence Detection in Hollywood Movies”, in MediaEval Benchmarking Initiative for Multimedia Evaluation Workshop Pisa, Italia, 4-5 octombrie, 2012.

[207] R. Vieriu, Ionut Mironica, B.-T. Goras, „Background Invariant Static Hand Gesture Recognition based on Hidden Markov Models”, in IEEE International Symposium on Signals, Circuits and Systems ISSCS, Iasi, Romania, 2013.

[208] C. Vertan, D. C. Gheorghe, B. Ionescu, „Eardrum Color Content Analysis in Video-Otoscopy Images for the Diagnosis Support of Pediatric Otitis”, in International Symposium on Signals Systems and Circuits ISSCS, pp. 129-132 , 2011.

[209] Y. Hirose, K. Yamashita, S. Hijiya, „Back-propagation algorithm which varies the number of hidden units”, in Neural Networks, vol. 4(1), pp. 61-66, 1991.

[210] G. Ratsch, T. Onoda, K. R. Muller, „Soft margins for AdaBoost”, in IEEE Trans. of Machine Jearning, vol. 42(3), pp. 287-320, 2001.

[211] D. Borth, J. Hees, M. Koch, A. Ulges, C. Schulze, „An automatic web video categorizer”, in Proc. of ACM Multimedia, pp. 1111-1112, 2009.

[212] X. Yuan, W. Lai, T. Mei, X. S. Hua, X. Qing Wu, S. Li: „Automatic video genre categorization using hierarchical SVM”, in IEEE International Conference on Image Processing ICIP, pp. 2905-2908, 2006.

[213] Y. Song, Y.-D. Zhang, X. Zhang, J. Cao, J.-T. Li, „Google challenge: Incremental-learning for web video categorization on robust semantic feature space”, in ACM Multimedia, pp. 1113-1114, 2009.

[214] J. Wu, M. Worring, „Efficient Genre-Specific Semantic Video Indexing”, in IEEE Transactions of Multimedia, vol 14 (2), pp. 291-302, 2012.

[215] L.-Q. Xu, Y. Li, „Video classification using spatial-temporal features and PCA”, in International Conference on Multimedia and Expo, ICME, pp. 485-488, 2003.

[216] J.R.R. Uijlings, A.W.M. Smeulders, R.J.H. Scha: „Real-Time Visual Concept Classification”, in IEEE Transactions on Multimedia, vol. 12(7), pp. 665-681, 2010.

[217] S. Schmiedeke, P. Kelm, T. Sikora, „TUB @ MediaEval 2012 Tagging Task: Feature Selection Methods for Bag-of-(visual)-Words Approaches”, in Working Notes Proc. of the MediaEval 2012 Workshop, 2012.

[218] T. Semela, M. Tapaswi, H. K.l Ekenel, R, Stiefelhagen, „KIT at MediaEval 2012 – Content-based Genre Classification with Visual Cues”, in Working Notes Proc. of the MediaEval 2012 Workshop, 2012.

[219] P. Xu, Y. Shi, M. Larson, „TUD at MediaEval 2012 genre tagging task: Multi-modality video categorization with one-vs-all classifiers”, in Working Notes Proc. of the MediaEval 2012 Workshop, 2012.

[220] Y. Shi, M. A. Larson, C. M. Jonker, „MediaEval 2012 Tagging Task: Prediction based on One Best List and Confusion Networks”, in Working Notes Proc. of the MediaEval 2012 Workshop, 2012.

[221] J. Almeida, T. Salles, E. R. Martins, O. Penatti, R. Torres, M. Goncalves, „UNICAMP-UFMG at MediaEval 2012: Genre Tagging Task”, in Working Notes Proc. of the MediaEval 2012 Workshop, 2012.

[222] C.-H. Demarty, C. Penet, G. Gravier, M. Soleymani, „The MediaEval 2012 Affect Task: Violent Scenes Detection in Hollywood Movies”, in Working Notes Proc. of the MediaEval 2012 Workshop, 2012.

[223] G. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, R. Salakhutdinov, „Improving Neural Networks by Preventing Co-Adaptation of Feature Detectors”, at arXiv.org, http://arxiv.org/abs/1207.0580, 2012.

[224] B. Ionescu, V. Buzuloiu, P. Lambert, D. Coquin, „Improved Cut Detection for the Segmentation of Animation Movies”, in IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, vol 2, pp. II, 2006.

[225] Y.-G. Jiang, Q. Dai, C.C. Tan, X. Xue, C.-W. Ngo, „The Shanghai-Hongkong Team at MediaEval2012: Violent Scene Detection Using Trajectory-based Features”, in Proceedings Working Notes Proc. of the MediaEval 2012 Workshop, http://ceur-ws.org/Vol-927/mediaeval2012_submission_28.pdf.

[226] C. Penet, C.-H. Demarty, M. Soleymani, G. Gravier, P. Gros, „Technicolor/INRIA/Imperial College London at the MediaEval 2012 Violent Scene Detection Task”, in Working Notes Proc. of the MediaEval 2012 Workshop, http://ceur-ws.org/Vol-927/mediaeval2012_submission_26.pdf.

[227] F. Eyben, F. Weninger, N. Lehment, G. Rigoll, B. Schuller, „Violent Scenes Detection with Large, Brute-forced Acoustic and Visual Feature Sets”, in Working Notes Proc. of the MediaEval 2012 Workshop, http://ceur-ws.org/Vol-927/mediaeval2012_submission_25.pdf.

[228] N. Derbas, F. Thollard, B. Safadi, G. Quenot, „LIG at MediaEval 2012 Affect Task: use of a Generic Method”, in Working Notes Proc. of the MediaEval 2012 Workshop, http://ceur-ws.org/Vol-927/mediaeval2012_submission_39.pdf.

[229] E. Acar, S. Albayrak, „DAI Lab at MediaEval 2012 Affect Task: The Detection of Violent Scenes using Affective Features”, in Working Notes Proc. of the MediaEval 2012 Workshop, http://ceur-ws.org/Vol-927/mediaeval2012_submission_33.pdf.

[230] V. Martin, H. Glotin, S. Paris, X. Halkias, J.-M. Prevot, „Violence Detection in Video by Large Scale Multi-Scale Local Binary Pattern Dynamics”, in Working Notes Proc. of the MediaEval 2012 Workshop, http://ceur-ws.org/Vol-927/mediaeval2012_submission_43.pdf.

[231] V. Lam, D.-D. Le, S.-P. Le, Shinichi Satoh, D.A. Duong, „NII Japan at MediaEval 2012 Violent Scenes Detection Affect Task”, in Working Notes Proc. of the MediaEval 2012 Workshop, http://ceur-ws.org/Vol-927/mediaeval2012_submission_21.pdf.

[232] R. Vieriu, Ionut Mironica, B.-T. Goras, „Background Invariant Static Hand Gesture Recognition based on Hidden Markov Models”, in IEEE ISSCS -International Symposium on Signals, Circuits and Systems, Iasi, Romania, 2013.

[233] R.Y. Wang, J. Popovic, „Real-time Hand-Tracking with a Color Glove”, in ACM Trans. On Graphics, vol. 28(3), pp.63.1-63.8, 2009. .

[234] X. Zhang, X. Chen, Y. Li, V. Lantz, K. Wang, J. Yang, „A Framework for Hand Gesture Recognition Based on Accelerometer and EMG Sensors”, in Trans. on Systems, Man and Cybernetics, vol.41(6), pp.1064-1076, 2011. .

[235] A. Erol, G. Bebis, M. Nicolescu, R.D. Boyle, X. Twombly, „Vision based hand pose estimation: A review”, in Computer Vision and Image Understanding, vol. 108, pp.52-73, 2007.

[236] R.L. Vieriu, B. Goraș, L. Goraș, „On HMM static hand gesture recognition”, in Int. Symp. on Signals, Circuits and Systems, pp.221-224, 2011.

[237] S. Oprisescu, C. Rasche, S. Bochao, „Automatic static hand gesture recognition using ToF cameras”, in Proc. of European Signal Processing Conference EUSIPCO, pp. 2748-2751, 2012.

[238] L. Yun, Z. Lifeng, Z. Shujun, „A Hand Gesture Recognition Method Based on Multi-Feature Fusion and Template Matching”, in Proc. of Engineering, vol. 29, pp 1678-1684, 2012.