Specializarea: Calculatoare și sisteme informatice pentru apărare și securitate națională AUTENTIFICAREA DATELOR MULTIMEDIA COND UCĂTOR ȘTIINȚIFIC:… [613102]

BUCUREȘTI
2017 ROMÂNIA
MINISTERUL APĂRĂRII NAȚIONALE
ACADEMIA TEHNICĂ MILITARĂ
FACULTATEA DE SISTEME ELECTRONICE ȘI INFORMATICE MILITARE
Specializarea: Calculatoare și sisteme informatice pentru apărare
și securitate națională

AUTENTIFICAREA DATELOR MULTIMEDIA

COND UCĂTOR ȘTIINȚIFIC:
Mr. lect. dr. ing. CEZAR PLEȘCA
ABSOLVENT: [anonimizat]. DRĂGOI DIANA MARIA

Conține___________file
Inventariat sub nr._____
Poziția din indicator:___
Termen de păstrare____

NECLASIFIC AT
NECLASIFICAT
1 din 64

Pagină albă

NECLASIFIC AT
NECLASIFICAT
2 din 64

Pagină albă

NECLASIFIC AT
NECLASIFICAT
3 din 64

Pagină albă

NECLASIFIC AT
NECLASIFICAT
4 din 64

Pagină albă

NECLASIFIC AT
NECLASIFICAT
5 din 64

Pagină albă

NECLASIFIC AT
NECLASIFICAT
6 din 64
Abstract

Although not a new issue, music piracy has acquired a new status in the
digital era, as recordings can be easily copi ed and distributed. Watermarking has
been proposed as a solution to this problem. It consists in embedding into the audio
signal an inaudible mark containing copyright information.
A different approach, called fingerprinting, consists in extracting a
“fingerprint” from the audio signal. In association with a database, this fingerprint
can be used to identify a recording, which is useful, for example, to monitor audio
excerpts played by broadcasters and webcasters. There are far more applications to
waterma rking and fingerprinting.
After a brief technical review, this paper describes potential appl ications of
both methodologies and then exemplifies one of these applications, an application
that aims to recognise a song based on a recorded audio sample of th e same song . It
should be able to recognize excerpts of only a few seconds long.
In order to develop this software, we will take the next aspects into
consideration :
1. An audio fingerprint is a digital summary that can be used to identify
an audio sample or quickly locate similar items in an audio database.
2. In order to identify a song, the application must precompute
fingerprints from a database of music tracks and subsequently do the
same thing with the recording. If there is a match between these two,
the recording is recognized.
3. The software should be noise resistant and tolerant to pauses during
the recording.
4. Developing the software so that the execution time is as low as
possible and the recognition rate is as high as possible.
5. Testing the application by introducing different parameters.

The final result is a music recognition software.

NECLASIFIC AT
NECLASIFICAT
7 din 64
Rezumat

Deși nu este o problemă nouă, pirateria in domeniul muzical a dobândit un
nou statut în era digitală, astfel că înregistrările pot fi ușor copiate și distrib uite.
Metoda watermarking a fost propusă ca o soluție la această problemă. Acesta
constă în încorporarea în semnalul audio o marcă fără sunet care conține informații
privind drepturile de autor.
O abordare diferită, numită amprentare, cons tă în extragerea unei „amprente ”
din semnalul audio. În asociere cu o bază de date, această amprentă poate fi
utilizată pentru a identifica o înregistrare, lucru care este util, de exemplu, pentru a
monitoriza fragmente audio redate de către radiodifuzori. Sunt mult mai m ulte
aplicații care folosesc metoda watermarking și amprentarea.
După o scurtă introducere a acestor două noțiuni, lucrarea prezintă diferite
aplicații care sunt bazate pe aceste tehnici și exemplifică una dintre acestea,
respectiv o aplicație care permite recunoaș terea unor p iese mu zicale pe baza unui
fragment audio sau a unei înregistrări .
În vederea dezvoltării acestei aplicații, se vor lua în considerare următoarele
aspecte :
1. O amprentă audio cuprinde informații despre semnalul audio și poate
fi utilizat ă pentru a identifica un fragment audio sau pentru a găsi
elemente similare într -o bază de date audio.
2. Pentru a identifica o melodie, aplicația trebuie să calculeze amprentele
digitale ale pieselor audio din baza de date, iar mai apoi să supună
înregistrar ea audio acelorași operații. Dacă există o potrivire între
aceste amprente, fragmentul audio este recunoscut.
3. Asigurarea rezistenței atât la zgomote cât și la eventualele pause
survenite în timpul înregistrării.
4. Dezvoltarea aplicației astfel încât timpul d e execuție să fie cât mai
scurt și rata de recunoaștere să fie cât mai mare.
5. Testarea aplicației prin introducerea de diferiți parametrii.

Rezultatul final este o aplicație de recunoaștere a pieselor muz icale.

NECLASIFIC AT
NECLASIFICAT
8 din 64
Cuprins

1. INTRODUCERE ………………………….. ………………………….. …………………………. 10
1.1. Importan ța temei alese ………………………….. ………………………….. …………….. 10
1.2. Scopul și obiectivu l lucrării ………………………….. ………………………….. ……… 10
1.3. Rezumatul lucrării pe capitole ………………………….. ………………………….. ….. 11
2. WATERMARKING ………………………….. ………………………….. …………………….. 12
2.1. Cum funcționează ………………………….. ………………………….. …………………… 14
2.2. Watermark -uri fragile ………………………….. ………………………….. ……………… 15
2.3. Studiu de caz ………………………….. ………………………….. ………………………….. 16
3. AUDIO FINGERPRINTING ………………………….. ………………………….. …………. 17
3.1. Cerin țe ………………………….. ………………………….. ………………………….. ………. 18
3.2. Moduri de utilizare ………………………….. ………………………….. …………………. 20
3.2.1. Identificare ………………………….. ………………………….. ……………………….. 21
3.2.2. Verificarea integrității ………………………….. ………………………….. ……….. 22
3.2.3. Suport Watermarking ………………………….. ………………………….. ………… 23
3.2.4. Găsirea și procesarea conținutului audio ………………………….. …………… 25
3.3. Scenarii de aplicații ………………………….. ………………………….. …………………. 25
3.4 Cadru general ………………………….. ………………………….. …………………………. 29
3.5 Blocul Front -End ………………………….. ………………………….. ……………………. 30
3.5.1. Preprocesarea ………………………….. ………………………….. ……………………. 31
3.5.2. Încadrarea și suprapunerea ………………………….. ………………………….. …. 32
3.5.3. Transformări liniare. Estimări spectrale ………………………….. ……………. 32
3.5.4. Extragerea caracteristicilor ………………………….. ………………………….. …. 33
3.5.5. Postprocesarea ………………………….. ………………………….. ………………….. 33
3.6 Modele de amprente digitale ………………………….. ………………………….. ……. 34
3.7 Măsurarea simila rităților și metode de căutare ………………………….. ………… 35
3.7.1. Măsurarea similarităților ………………………….. ………………………….. ……. 35

NECLASIFIC AT
NECLASIFICAT
9 din 64
3.7.2. Metode de căutare ………………………….. ………………………….. …………….. 35
4. APLICAȚII LEGATE DE DREPTURI DE AUTOR ………………………….. ……. 36
4.1. Dovada posesiei ………………………….. ………………………….. ……………………… 36
4.2. Urmărirea copiilor ilicite ………………………….. ………………………….. …………. 38
4.3. Determinarea originii cop iilor ilicite ………………………….. ……………………… 40
5. SISTEM CU WATERMARKING ȘI AUDIO FINGERPRINTING ……………. 41
6. WATERMARKING ȘI FINGERPRINTING. DIFERENȚE ȘI
SIMILARITĂȚI ………………………….. ………………………….. ………………………….. ……. 41
6.1. Modificarea semnalului audio ………………………….. ………………………….. ….. 41
6.2. Cerințele unei colecții de amprente ………………………….. ……………………….. 42
6.3. Cerințele preprocesării semnalului ………………………….. ………………………… 42
6.4. Robustețea ………………………….. ………………………….. ………………………….. …. 43
6.5. Independența dintre semnalul audio și informație ………………………….. ……. 44
7. PROIECT ………………………….. ………………………….. ………………………….. ……….. 44
7.1. Prezentarea aplica ției ………………………….. ………………………….. ………………. 44
7.2. Amprentarea audio ………………………….. ………………………….. ………………….. 45
7.3. Hash combinatorial invariabil in funcție de timp ………………………….. …….. 50
7.4. Procesul de potrivire. Căutarea și interogarea ………………………….. …………. 53
7.5. Performanța ………………………….. ………………………….. ………………………….. .. 56
7.5.1. Rezistența la zgomot ………………………….. ………………………….. …………. 56
7.5.2. Timpul de execuție ………………………….. ………………………….. ……………. 56
7.5.3. Rata de recunoa ștere ………………………….. ………………………….. ………….. 57
7.5.4. Rezultate fals positive ………………………….. ………………………….. ……….. 58
8. CONCLUZII ………………………….. ………………………….. ………………………….. …… 59
Bibliografie ………………………….. ………………………….. ………………………….. …………… 61

NECLASIFIC AT
NECLASIFICAT
10 din 64

1. INTRODUCERE

1.1. Importan ța temei alese

Industria audio se luptă împotriva pirateriei audio de o vreme îndelungată.
Cu toate acestea , evoluția digitală în domeniul echipamentelor audio a ajuns la un
nou nivel, astfel încât muzica în formatul digital poate fi copiată si distribuită cu
ușurință. Căile electronice de distribuție, precum Internetul, sunt un mediu
favorabil pentru pirateria in domeniul audio.
Tehnica Watermark a fost propusă ca o potențială soluție pentru această
problemă. Aceasta constă în încorporarea unui semn (watermark) în semnalul audio
original. Acest semn nu trebuie să degradeze sau să schimbe într -un fel calitatea
audio, dar ar trebui să fie detectabil și imposibil de șters. Orice dispozitiv ar trebui
să verifice prezența unui watermark înainte de a începe operațiuni care ar putea
duce la încălcarea drepturilor de autor.
O altă abordare pentru problema protecției dre pturilor de autor, destul de
diferită de tehnica Watermark, consta în analizarea semnalului audio și construirea
unei „amprente ” care este asociată în mod unic semnalului. Sistemele automate de
recunoaștere a muzicii pot identifica o melodie prin căutare a amprentei sale într -o
bază de date creată anterior.
Astfel de sisteme bazate pe tehnica „ fingerprinting” sunt folosite de exemplu
pentru a monotoriza transferurile de muzică (de ex. in Napster1), pentru a bloca
transferurile materialelor protejate de dr epturi de autor cât și pentru colectarea
drepturilor de autor corespunzătoare.

1.2. Scopul și obiectivul lucrării

Scopul lucrării este de a introduce două noțiuni care au multe aplicații în
comun și de a defini modul lor de funcționare.

1 Napster a fost cel mai mare serviciu de muzică online din SUA la nsat în 1999. Acesta a fost închis prin hotărâre
judecătorească în urma numeroaselor procese înaintate de “Recording Industry Association of America”.

NECLASIFIC AT
NECLASIFICAT
11 din 64
Așadar, pentru a ex emplifica acest lucru, s -a dezvoltat o aplicație care
permite recunoaș terea unor p iese mu zicale pe baza unui fragment audio sau a unei
înregistrări .
Au fost formulate următoarele obiective specifice:

1. Crearea unei baze de date cu piesele audio care se dore sc a fi
recunoscute de aplica ție, cu posibilitatea ca ulterior utilizatorul să
poată să actuali zeze această bază de date.
2. Efectuarea tuturor opetațiilor de procesare a semnalelor din baza de
date și a fragmentului înregistrat astfel ca timpul de execuție s ă fie cât
mai scurt, iar rezultatele fals pozitive cât mai puține.
3. Supunerea aplicației diferitelor teste pentru a eva lua performanța
acesteia, precum rezistența atât la zgomote cât și la pauze survenite pe
parcursul înregistrării.
4. Calcularea unei rate de success a aplicației în funcție de parametrii
introduși.

1.3. Rezumatul lucrării pe capitole

Această lucrare precintă cele mai recente progrese din domeniul
autenticicării datelor, legate de tehnica watermarking și amprentarea audio.
Capitolul 1 prezintă o introducere a temei și de asemenea obiectivele pe care
tema aleasă își propune să le îndeplinească.
Capitolul 2 presupune o scurtă prezentare a tehnicii de marcare a fișierelor cu
un watermark și modul în care funcționează.
Capitolul 3 introduce noțiunea de audio fingerprinting, moduri de utilizare a
acestei tehnici și exemple de aplicații.
Capitolul 4 prezintă exemple de aplicații legate de drepturi de autor care
implică cele două tehnici prezentate mai sus.
În capitolul 5 definește modul de funcțio nare a l unui sistem bazat pe teh nica
watermarking și audio fingerprinting.
Capitolul 6 sumarizează diferențele și similaritățile dintre tehnicile
prezentale în lucrare.

NECLASIFIC AT
NECLASIFICAT
12 din 64
Capitolul 7 conține prezentarea aplicației, modul de funcționare și
performanța acestuia în f uncție de diferiți factori.
Ultimul capitol sumarizează concluziile și idei principale despre lucrare .

2. WATERMARKING

Marcarea documentelor printate î n vederea prevenirii contrafacerii a fost o
tehnică obișnuită timp de secole. Acest tip de watermark cons tă de obicei într -un
desen translucid care devine vizibil atunci când hârtia este pusă la lumină.
Tehnica watermarking este deseori descrisă ca o subclasă a steganografiei 2.
Scopul criptografiei este de a face un mesaj neinteligibil, pe când steganografi a
încearcă să ascundă chiar si prezența unui mesaj prin încorporarea acestuia într -o
alta informație.
Primele cercetări in această tehnică de audio watermarking datează din
mijlocul anilor nouăzeci. Acestea au fost direct inspirate din cercetări le anterio are
privind marcarea imaginilor (1996).
Ideea de bază constă în adăugarea unui semnal ( watermark) în semnalul
audio original. Semnalul rezultat trebuie să fie perceput de către ascultător ca fiind
identic. Watermark -ul conține date care pot fi preluate ul terior de către un detector
și folosite în mai multe scopuri. Ac eastă procedură este ilustrată î n Fig. 2.1.

Fig. 2.1. Tehnica watermarking

2 Cuvânt grecesc – “scriere ascuns ă”. Ramură a matematicii care se ocupă cu securizarea informației prec um și cu
autentificarea și restricționarea accesului într -un system informatic.

NECLASIFIC AT
NECLASIFICAT
13 din 64
La fel ca și în criptografie, o cheie este folosită în ti mpul construirii
waterma rk-ului, iar cealaltă cheie (care poate fi atât identică cât și distinctă față de
cealaltă) este folosită pentru detectarea watermark -ului. În ciuda acestor
similitudini, tehnica watermarking diferă de criptografie.
În timp ce un fișier audio criptat este inutil fără cheia de decriptare
corespunzătoare, nici o astfel de informație nu este necesară pentru a reda un fișier
audio marcat.
Watermak -ul este întotdeauna prezent în semnalul audio, chiar și în copiile
ilegale ale acestuia, așadar protecția printr -un sistem watermarking este
permanentă . Acest lucru nu este valabil pentru un sistem criptografic, deoarece
fișierele audio trebuie decriptate pentru a deveni utilizabile, iar astfel devin
neprotejate.
Se poate clarifica utilizarea unui sistem watermarkin g printr -un exemplu.
Conținutul audio poate fi marcat cu un watermark “copy -never”. Un dispozitiv
utilizat pentru scriere CD va analiza semnalul audio de intrare și va verifica
prezența watermark -ului inainte de inregistrare.
Dacă nu se găsește nici un wa termark, se presupune ca fișierul nu conține
drepturi de autor, iar CD -ul este înregistrat. În caz contrar, dispozitivul va refuza sa
efectueze operația slicitată. Un sistem mai sofisticat ar putea avea mai multe grade
de protecție, de la “never -copy” la “ copy -freely”.
De exemplu, un fișier audio marcat cu “copy -twice” poate fi duplicat, dar
copia rezultată va avea watermark -ul setat cu “copy -once”. Dacă o a doua copie
este făcută din acest prim exemplar, va fi marcată cu “copy -never” și nu va mai
putea fi duplicată. Acest lucru ar limita numărul de duplicări.
De exemplu, dacă ai un CD original, poți face o copie pentru un prieten, dar
el nu va putea să facă același lucru cu copia primită.
Un sistem wat ermarking se numește simetric dacă aceeași cheie est e folosită
atât pentru inserție cât și pentru detectare.
Când aceste chei sunt diferite, sistemul se numește asimertic. Ca și in
sistemele publice de criptare ( ex. RSA), cheia publica derivă din cheia private, dar
cheia private nu poate fi dedusă din chei a publică.

NECLASIFIC AT
NECLASIFICAT
14 din 64
Cerințele pe care trebuie să le îndeplinească un sistem bazat pe tehnica
watermarking sunt dependente de aplicații si deseo ri contradictorii. Ca si cerințe
generale, se pot menționa urmatoarele:
• Inaudibilitatea : watermark -ul nu trebuie să degr adeze callitatea
sunetului.
• Robustețea : watermark -ul ar trebui să reziste oricărei transformări
aplicate semnalului audio .
• Capacitatea : rata de biți a watermark -ului trebuie sa fie destul de mare
pentru aplicația dorită, ceea ce poate fi în contradicție cu
inaudibilitatea și robustitatea.
• Fiabilitatea : datele conținute în watermark t rebuie extrase cu rate de
erori admisibile.
• Complexitate sc ăzută : pentru aplica țiile în timp real, algoritmii de
watermarking nu ar trebui să fie consumatori de timp.
Toate aces te cerințe trebuie să fie respectate într -o anumită masură.

2.1. Cum funcționează

Tehnica watermark poate fi privită ca un sistem de comunicare: watermark –
ul este un semnal care transportă informații utile, iar semnalul audio joacă rolul de
zgomt al canalului . În sistemele de comunicații convenționale semnalul util este de
obicei mai puternic decât zgomotul, dar acest lucru nu este valabil și în cazul
tehnicii watermark. Pentru a evita distorsiunile , semnalul watermark trebuie sa fie
mult mai slab (câteva zeci de decibeli) decât semnalul audio.
Au fost propuse mai multe abordă ri pentru watermarking, printre care se pot
menționa urmatoarele:
• Tehnica spectru lui împrăștiat : la fel ca în sistemele de comunicații cu
spectru împrăștiat, ideea constă în respândirea w atermark -ului în
frecvență pentru a -și maximiza puterea, dar păstrând în același timp
inaudibilitatea si sporind rezistența la atacuri.
• Echo -hiding : watermark -ul este un “ecou ” al semnalului original .

NECLASIFIC AT
NECLASIFICAT
15 din 64
• Fluxul de biți (bit -stream) : watermark -ul este in trodus direct în fluxul
de biți.
Au fost propuse mai mute variații ale acestor scheme de bază. De exemplu,
unele sisteme, in loc să adauge un watermark în domeniul timp, acestea opereză în
domeniul frecvență prin înlocuirea directă a coponentelor spectrale.
Alte sisteme folosesc chei diferite pentru înserarea watermark -ului și pentru
detecția acestuia. În cazul acestor scheme asimetrice trebuie utilizate metode de
detectie mai sofisticate decât simplele calcule de corelare.
O mare dificultate în sistemele cu wa termark este nevoia de sincroniz are din
timpul detecției.
În general, detectorul trebuie să cunoască momentul de început și de sfârșit
pentru fiecare simbol din watermark. În contextul aplicațiilor protejate de drepturi
de autor, sistemul trebuie să rezist e atacurilor de desincronizare, cum ar fi
adăugarea sau suprimarea unor semnale audio.
Modele psihoacustice
Psihoacustica este studiul percepției sunetului. Din diferite experimente s -a
constatat că urechea umană prezintă anumite limitări. Dacă două semna le apropiate
în frecvență sunt ascultate simultan iar unul dintre acestea este suficient de
puternic, acesta îl maschează pe celălalt.
În tehnica watermarking , modelele psihoacustice sunt adesea folosite pentru
a asigura inaudibilitatea watermark -ului. Dat orită modelelor psihoacustice,
inaudibilitatea poate ajunge la putere semnal -watermark de aproximativ 20 dB.

2.2. Watermark -uri fragile

Integritatea unei înregistrări audio poate fi controlată printr -un watermark
fragil. Dacă semnalul cu semnal de tip „marc at” este editat, watermark -ul nu mai
poate fi detectat. Prin „editat” se întelege orice modificare care ar putea corupe
semnificația unei înregistrări. De exemplu, ștergerea /adăugarea de segmente într -o
mărturie audio ar putea modifica semnificația expresi ilor.
Prin urmare, o astfel de modificare trebuie să facă watermark -ul nedetectabil.
Pe de altă parte , compresia nu ar trebui să introducă distorsiuni suficiente pentru a

NECLASIFIC AT
NECLASIFICAT
16 din 64
corupe semnif icația frazelor într -o mărturie. În acest caz, watermark -ul ar trebui s ă
fie în continuare detectabil.
De asemenea, amprenta poate fi utilizată pentru verificarea integrității.
Amprenta înregistrării originale este extrasă și stocată. Pentru a verifica
integritatea, se extrage o amprentă nouă și se compară cu cea originală. Dacă sunt
identice, înregistrarea nu a fost modificată.
Dezavantajul acestei abordări îl constituie necesitatea de a stoca amprenta
originală într -un loc sigur, ceea ce marește atât complexitatea, cât și riscul pentru
întreaga procedură.
De asemenea, pot f i utilizate watermark -uri foarte fragile pentru a verifica
dacă un semnal a fost manipulat în orice mod, chiar și fără distorsiuni perceptibile .
De exemplu, o companie de înregistrări poate marca conținutul CD -urilor
sale cu un watermark fragil. Dacă melo diile de pe acest CD sunt comprimate în
format MP3, apoi sunt decomprimate și înregistrate pe un CD nou, marcajul nu va
fi detectat în noua înregistrare, chiar dacă acesta din urmă suna exact ca cel originar
pentru ascultător.
Un CD player poate verifica prezența acestui watermark . Dacă nu se găsește
nici un watermark , înregistrarea a suferit manipulări ilicite, iar CD -ul este refuzat.

2.3. Studiu de caz

Este prezentat un studiu de caz pentru a ilustra un sistem de watermarking în
lumea reală. Scopul este de a transporta informații între două computere printr -un
canal acustic printr -un semnal sonor.
Pe primul computer, utilizatorul introduce un text care este convertit în
informații binare. Un fișier audio (ales de utilizator) este apoi citit și informațiile
binare sunt încorporate în el prin intermediul watermark -ului.
În cele din urmă, semnalul audio este redat printr -un difuzor. La partea
receptorului, al doilea calculato r înregistrează semnalul audio, împreună cu
zgomotul ambiental, prin intermediul unui microfon.
Apoi, efectuează procedura de detectare a watermark -ului pe semnalul audio
eșantionat și preia informația binară, care este transformată ulterior în text și afișată

NECLASIFIC AT
NECLASIFICAT
17 din 64
în cele din urmă pe ecranul celui de -al doilea calculator. Această configurație este
prezentată în Fig 2.2.

Figure 2.2. Transmiterea informației cu ajutorul unui watermark

Sistemul trebuie să reziste la conversia DA/AD , la distorsiuni , la zgomotul
ambiental și la desincronizarea între transmițător și rece ptor. Desigur, nu trebuie să
existe o difere nță perceptibilă între semnalul audio original și semnalul marcat .

3. AUDIO FINGERPRINTING

În tehnica watermarking cercetarea în domeniul psihoacusticii este realizată
astfel încât un mesaj arbitrar, watermark, po ate fi încorporat în înregistrarea audio
fără a altera percepția sunetului.
În audio fingerprinting, mesajul este derivat în mod automat din cele mai
importante caracteristici ale semnalului. Acest lucru face ca această tehnica să fie
mai puțin vulnerabil ă la atacuri, deoarece orice încercare de a elimina această
amprentă ar altera calitatea sunetului.
Această tehnică funcționează prin extragerea caracteristicilor acustice
relevante ale unei părți de conținut audio si stocarea acestora într -o bază de date .
Pentru identificarea unei piese audio, caracteristicile acesteia sunt calculate și
comparate cu cele din baza de date. Folosind algoritmi complecși de potrivire și
amprente acustice se poate identifica o înregistrare audio neidentificată.

NECLASIFIC AT
NECLASIFICAT
18 din 64
Amprentarea aud io este folosită in diverse domenii precum procesarea
semnalelor, recuperarea informațiilor, recunoașterea modelelor, baze de date,
inteligența artificială, recunoaștere audio.

3.1. Cerin țe

Cerințele depind în mod evident de aplicație, dar sunt utile pentru evaluarea
și compararea diferitelor tehnologii de identificare.
• Acuratețea : numărul de identificări corecte, identificări greșite (false
pozitive), și neidentificări ; problema evitării falsurilor pozitive este de
o importanță deosebită în aplicații precum un sistem de monitorizare
capabil să genereze automat liste de redări ale pieselor înregistrate
pentru organizații de aplicare a drepturilor de autor, unde, dacă o
melodie care nu a fost difuzată nu trebuie sa fie identificată ca
potrivire.
• Securitatea : vulnerabilitatea soluției la hacking sau manipulare.
Manipulările cu care ne putem confrunta sunt concepute să păcălească
algoritmul de identificare al amprentei.
• Versatilitatea : Abilitatea de a identifica un fișier audio indiferent de
formatul său. Abilit atea de a folosi aceeași bază de date pentru
aplicații diferite.
• Scalabilitatea : Performanță la bazele de date foarte mari sau la un
număr mare de identificări concurente. Acest lucru afectează
potrivirea rapidă în baza de date, acuratețea și complexitatea .
• Robustețea : Capacitatea de a identifica cu acuratețe, indiferent de
nivelul de distorsiune sau interferență de pe canalul de transmisie ;
abilitatea de a identifica fragmente din muzică.
• Fiabilitatea : Metodele de stabilire dacă o interogare este sau nu
prezentă in directorul cu melodii le pentru identificare au o mare
importanță în genererea playlist -urilor pentru organizații care se ocupa
cu aplicarea drepturilor de autor. În aceste cazuri, dacă o melodie nu a
fost difuzată, nu ar trebui să fie identificat ă ca o potrivire.

NECLASIFIC AT
NECLASIFICAT
19 din 64
• Granularitatea : Abilitatea de a identifica titlurile melodiilor din
fragmente audio de câteva secunde lungime. Se ocupă cu lipsa
sincronizării dintre amprenta extrasă și cele stocate în baza de date .
• Complexitatea : Se referă la costurile de calcul ale extragerii amprentei,
mărimea amprentei, complexitatea căutării in baza de date,
complexitatea comparării amprentelor și costul adăugarii de elemente
în baza de date.
• Fragilitatea : Unele aplicații precum sistemele de verificare a
integrității conținutului, necesită detectarea modificărilor de conținut.
Acest lucru este contrar cerinței de robustețe, în sensul că amprenta ar
trebui să fie robustă la conservarea conținutului, dar nu și la alte
distorsiuni.
Îmbunătățirea unei anumite cerințe impl ică adesea pierderea performanței în
alttele. În general, amprenta ar trebui să fie :
• O reprezentare p erceptual ă a înregistrării . Amprenta tr ebuie să
păstreze maximul de in formații acustice relevante. Această
reprezentare ar trebui să permită deosebirea din tr-un număr mare de
amprente. Acest lucru poate fi în contradicție cu alte cerințe, cum ar fi
robustețea sau complexitatea.
• Invariantă la distorsiuni . Acest lucru derivă din cerința de robustețe.
Aplicațiile d e verificare a integrității conținutului nu țin cont în mod
excesiv de această proprietate pentru conservarea conținutului la
distorsiuni, în scopul de a detecta manipulările deliberate.
• Compactă . O reprezentare de dimensiuni mici ar fi ideală pentru
complexitate, deoarece un număr mare de amprente dig itale trebuie
stocate în baza de date și mai apoi comparate. Cu toate acestea, o
reprezentare excesiv de scurtă ar putea să nu fie suficientă pentru a
deosebi înregistrările între ele , afectând astfel acuratețea, fiabilitatea și
robustețea.
• Ușor de calcula t. Din motive de complexitate, extragerea amprentei
nu ar trebui să fie extrem de consumatoare de timp.

NECLASIFIC AT
NECLASIFICAT
20 din 64
3.2. Moduri de utilizare

Din Fig.3.1 putem distinge două moduri de funcționare.
Se memorează lucrările care urmează a fi recunoscute ; la parte a de
ident ificare, segmente audio sunt căutate în sistem pentru o potrivire.
• Construirea bazei de date : Segmentele audio care urmează să fie
recunoscute sunt introduse în sistem. Sistemul procesează semnalele
audio, construind reprezentări unice pe baza caracteristi cilor lor
acustice. Această reprezentare unică este apoi stocată intr -o bază de
date.
• Identificarea audio : Segmentul audio neetichetat este procesat pentru
a extrage amprenta, iar apoi amprenta este comparată cu amprentele
din baza de date. Dac ă se găsește o potrivire, se obț ine eticheta
corespunzatoare semnalului din baza de date.

Implementările sistemelor cu audio figerpriting urmează în mod
general schema prezentată în Fig.3.1 cu diferențe în ceea ce privește
caracteristicile semnalului audio observate și algoritmii de indexare și de
potrivire.
O simplă abordare ar fi compararea directă a fișierelor. Acest lucru
constă în extragerea unui hash din fișierul binar prin metodele MD5
(Message Digest 5) sau CRC (Cyclic Redundancy Checking).
Ideea de bază a ace stei abordări este că funcția hash incorporează
caracteristicile acustice astfel încât codul hash să fie robust.

NECLASIFIC AT
NECLASIFICAT
21 din 64

Fig. 3.1. Funcționalitatea amprentei digitale

3.2.1. Identificare

Independent de abordarea specifică de extragere a semnăturii pe bază de
conțin ut, poate fi concepută o arhitectură comună pentru a descrie funcționalitatea
amprentării atunci când este utilizată pentru identificare.
După cum se observă in Fig.3.2 , în partea de sus, amprentele înregistrărilor
care urmează a fi recunoscute sunt creat e off line, iar în modul de identificare, în
partea de jos, este prezentat un semnal audio pentru a gasi o potrivire în baza de
date.

NECLASIFIC AT
NECLASIFICAT
22 din 64

Fig. 3.2. Identificare audio bazată pe conținut

Crearea bazei de date : Colec ția de înregistrări care trebuie să fie rec unoscute
este prezentată sistemului pentru extragerea amprentei. Amprentele sunt stocate
intr-o bază de date și le pot fi atașate etichete sau metadate corespunzătoare.
Identificarea : Înregistrarea este procesată pentru a fi extrasă amprenta digitală .
Apoi amprenta este comparată cu cele din baza de date. Dacă se gaseste o potrivire,
este obținută eticheta asociată înregistrării din baza de date. Opțional, poate fi
furnizată o măsură a fiabilității pentru această potrivire.

3.2.2. Verificarea integrității

Verifi carea integrității urmărește detectarea modificării datelor.
Funcționalitatea generală (a se vedea Fig. 3.3 .) este similară cu identificarea. În
primul rând se extrage o amprentă din semnalul audio original, iar mai apoi, în faza
de verificare, amprenta ex trasă din semnalul de test este comparată cu amprenta
originalului.
Ca urmare, se emite un raport care indică dacă semnalul a fost sau nu
manipulat. Opțional, sistemul poate indica tipul de manipulare si locul unde a
apărul în semnalul audio. Datele de ve rificare, care ar trebui să fie de dimensiune

NECLASIFIC AT
NECLASIFICAT
23 din 64
semnificativ mai mică decât datele semnalului audio, pot fi trimise impreună cu
datele audio originale (de exemplu ca header) sau pot fi stocate într -o bază de date.

Fig. 3.3. Verificare a integrității

O tehnică cunoscută sub numele de „self -embedded” evită necesitatea unei
baze de date sau a unui header dedicat , prin încorporarea unei semnaturi bazate pe
conținut în datele semnalului audio, utilizând watermarking -ul (a se vedea Fig.
3.4).

3.2.3. Suport Waterm arking

Amprentarea audio poate asista watermaking -ul. Amprentele pot fi folosite
pentru a obține chei din conținutul audio. Folosirea aceleiași chei pentru un număr
de semnale audio diferite poate compromite securitatea deoarece fiecare fișier
poate av ea o scurgere de informație parț ială despre cheie. Amprentarea audio /
hashing -ul pot ajuta la generarea unei chei dependente de conținut pentru fiecare
fișier audio.

NECLASIFIC AT
NECLASIFICAT
24 din 64

Fig. 1.4. Verificarea integrității: (a) integ rarea amprentei
(b) compararea amprentelor

Amprentarea audio este sugerată pentru a spori securitatea watermark -urilor
în contextul atacurilor de copiere.
Atacurile de copiere determină watermark -ul dintr -un conținut marcat și îl
translatea ză în conținut nemarcat. Agregarea watermark -ului la conținut poate fi o
metodă care să combată acest atac.
În plus, amprentarea poate fi folosită împotriva atacurilor de inserție/
ștergere care pot provoca desincronizarea detectării watermark -ului: prin utilizarea
acesteia, detectorul poate s ă resincronizeze în aceste locații.

NECLASIFIC AT
NECLASIFICAT
25 din 64
3.2.4. Găsirea ș i procesarea conținutului audio

Găsirea semnăturilor compacte din obiecte multimedia complexe este un pas
esențial în autentificarea datelor multimedia .
Prin amprentar e se pot extrage informații din semnalul audio pe diferite
nivele de abstractizare, de la descriptor i de nivel scăzut, la descriptori de nivel
superior.
Abstractizările de nivel superior pentru procesarea audio oferă posibilitatea
de a extinde modalitățil e de folosire ale amprentei digitale la navigarea bazată pe
conținut, căutarea prin similarități, procesarea bazată pe conținut și alte aplicații de
recuperare ale informației.

3.3. Scenarii de aplicații

Mai jos este prezentat un studiu de caz pentru a ilust ra într -un mod mai
detaliat o implementare a acestei tehnici de amprentare digital, și anume
identificarea melodiilor difuzate prin radio.
Dificultatea sarcinii de identificare a materialelor audio se datorează în
primul rând diferenței de calitate a melo diilor originale din CD -uri și a celor
difuzate.
Melodia este transmisă parțial, se vorbește peste anumite fragmente ale
acesteia și, de asemenea, se pot aplica diferite efecte pentru a mări impactul psiho –
acustic al ascultătorului (amplificare, bass, etc .).
În plus, în semnalul audio difuzat nu există indicatoare pentru începutul si
sfârșitul piesei audio. Cu toate acestea, sistemul trebuie să fie rapid, deoarece
trebuie sa compare semnalul cu câteva mii de melodii online.
Sistemul funcționează în următo rul mod. Un alfabet de sunete este extras
printr -un process offline dintr -o colecție de melodii de același tip cu melodia care
urmează sa fie identificată.
Aceste semnale audio sunt modelate cu modele Hidden Markov (HMM).
Fragmentul audio neetichetat și s etul de melodii sunt descompuse în unități care se
termină cu o serie de simboluri din semnalul audio neetichetat și din baza de date
cu semnalele audio ale melodiilor originale.

NECLASIFIC AT
NECLASIFICAT
26 din 64
Prin potrivirea aproximativă a șirurilor, se obțin secvențele de melodii care
seamănă cel mai bine cu fragmentul audio neetichetat .
Cele mai multe dintre aplicațiile prezentate în această secțiune sunt cazuti
particulare ale modurilor de utilizare prezentate mai sus. Acestea sunt, prin urmare,
bazate pe capacitatea amprentării au dio de a corela un fișier audio neetichetat cu
metadata corespunzătoare, indifferent de formatul audio.
Monitorizarea distribuitorilor.
Distribuitorii de conținut ar trebui să știe dacă au dreptul să distribuie
anumite informații către consumatori. Ampr entarea ajută la identificarea
conținutului audio neetichetat de la canalele radio sau TV. Aceasta poate, de
asemenea, să identifice conținut audio neidentificat recuperat de la distribuitori sau
din fabricile de CD-uri în investigații anti -piraterie .
Mon itorizarea canalului de transmisie
În multe țari, posturile radio trebuie să plătească pentru muzica pe care o
difuzează. Deținătorii de drepturi sunt dornici să monitorizeze transmisiile radio
pentru a verifica dacă drepturile de autor sunt plătite în mo d corespunzător.
Chiar și în tările în care posturile de radio pot difuza melodii în mod liber,
deținatorii de drepturi sunt interesați să monitorizeze transmisiile radio în scopuri
statistice.
Agenții de publicitate sunt de asemenea dispuși sa monitoriz eze transmisia
radio sau TV pentru a verifica daca reclamele sunt difuzate conform convenției.
Același lucru este valabil și pentru transmisiile web.
Alte utilizări includ diagrame pentru analiza statistică sau aplicarea “ legilor
culturale ” (de ex. în Fra nța, un anumit procentaj al înregistrărilor difuzate trebuie să
fie în limba franceză ).
Sistemele de monitorizare bazate pe amprentă sunt folosite în acest scop.
Sistemul “ ascultă ” radio ul și actualizează în mod continu u o listă de melodii sau
reclame difuzate de fiecare post. Trebuie să fie disponibilă o bază de date care
conține amprentele tuturor melodiilor sau reclamelor care urmează a fi identificate,
iar această bază de date tr ebuie să fie actualizată pe masu ră ce apar melodii noi.
Exemple de furnizo ri comerciali de astfel de servicii sunt: Audible Magic
(www.audiblemagic.com ), Yacast ( www.yacast.fr ).

NECLASIFIC AT
NECLASIFICAT
27 din 64
Napster (serviciu online pentru distribuirea fi șierelor audio ) și alte servicii
asemănătoare, în care utilizatorii distribuie fișiere audio, s -au dovedit a fi canale
excelente pentru pirateria audio . După o luptă în instanță cu industria de
înregistrări, Napster a fost obligat să faciliteze transferul de muzică protejată de
drepturi de autor. Prima măsură adoptată pentru a se conforma hotărârii
judecătoresti a fost elaborarea unui sistem de filtrare bazat pe analiza numelui
fișierului audio, în conformitat e cu listele de înregistrări muz icale protejate de autor
furnizate de c ompaniile de înregistrări.
Acest sistem simplu nu a rezolvat problema, deoarece utilizatorii s -au
dovedit extrem de creativi în alegerea numelor de fișiere și astfel aceștia au înșelat
sistemul de filtrare. Numărul mare de melodii cu titluri identice a fo st un factor
suplimentar în reducerea eficacității acestor filtre. Sistemele de monitorizare bazate
pe amprente constituie o soluție potrivită pentru această problemă.
Napster a adoptat o tehnologie de amprentare (www.relatable.com ) și un nou
sistem de filtrare bazat pe aceasta. În plus, conținutul audio poate fi găsit în
paginile web obișnuite.
Amprentarea audio în combinație cu un crawler web pot identifica acest
conținut și îl pot raporta proprietarilor de drept uri corespunzători.
Monitorizarea consumatorilor
În aplicațiile de monitorizare a politicii de utilizare , obiectivul este de a evita
utilizarea necorespunzătoare a semnalelor audio de către consumator. Putem
concepe un sistem în care o piesă de muzică es te identificată printr -o amprentă și
este interogată o bază de date pentru a obține informații despre drepturi. Această
informație dictează comportamentul disp ozitivelor compatibile (de ex. DVD
Playere , MP3 Playere) . Dispozitivele compatibile trebuie să fi e conectate la o rețea
pentru a accesa baza de date.
Servicii cu valoare adăugată
Informațiile despre conținut sunt definite ca informații despre un fragment
audio care este relevant pentru utilizator sau necesar pentru aplicația dorită. În
funcție de ap licație și de profilul utilizator, pot fi definite mai multe niveluri de
informații despre conținut. Iată câteva dintre aceste situații:

NECLASIFIC AT
NECLASIFICAT
28 din 64
• Informa ții despre conținut care conțin un fragment audio, precum descrieri
ritmice, melod ice, armonice .
• Metadate care descriu o lucrare muzicală, cum a fost compusă și cum a fost
înregistrată. De exemplu: compozitor, an de compoziție, interpret, dată de
înregistrare.
• Alte informații referitoare la o lucrare muzicală, cum ar fi imaginea de pe
coperta albumului , prețul albu mului, biografia artistului, informații despre
următoarele concerte etc.
Unele sisteme stochează informații despre conținut într -o bază de date
accesibilă prin Internet. Prin urmare, amprentarea poate fi utilizată pentru a
identifica o înregistrare și pent ru a prelua informațiile de conținut corespunzătoare,
indiferent de formatul fișierului sau orice altă particularitate a datelor audio.
De exemplu, MusicBrainz 3 etichetează automat colecțiile de fișiere audio.
Utilizatorul poate descărca un player compat ibil care extrage amprentele și le
trimite la un server central de unde sunt descărcate metadatele asociate
înregistrărilor.
Un exemplu este identificarea unui fragment audio de către dispozitive
mobile, de exemplu, un telefon mobil. Aceasta este una dintr e cele mai exigente
situații în ceea ce privește robustețea, deoarece semnalul audio trece prin
distorsiuni radio, conversie DA/AD, zgomot pe fundal și sunt disponibile doar
câteva secunde de sunet (de exemplu, Shazam4).

Sisteme de verificare a integrității
În unele aplicații, integritatea înregistrărilor audio trebuie să fie stabilită
înainte ca semnalul să poată fi utilizat efectiv, adică trebuie să se asigure că
înregistrarea nu a fost modificată sau că nu este distorsionată.

3 Enciclopedie online de muzică. În present, MuziBrainz conține informații despre circa 820.000 artiști, 1,2 milioane
de lansări, și 13,1 milioane de înregistrări.
4 Serviciu de identificare muzicală pentru telefon mobil și Smartphone al companiei Shazam Entertainment Limited
cu sediul la Londra. Acesta mai deține 7 sucursale.

NECLASIFIC AT
NECLASIFICAT
29 din 64
Dacă semnalul este supus compresiei, transformării DA/AD sau a altor
transformări de conservare a conținutului în canalul de transmisie, integritatea nu
poate fi verificată prin intermediul funcțiilor hash standard, deoarece schimbarea
unui singur bit este suficient ă pentru ca ieșirea funcției hash să se schimbe .
Metodele bazate pe watermarking fragil pot furniza, de asemenea, alarme
false într -un astfel de context.
Sistemele bazate pe amprentare audio, uneori combinate cu watermarking ,
sunt cercetate pentru a aborda această problemă. P rintre unele aplicații posibile,
putem numi: verificarea faptului că reclamele sunt difuzate cu lungimea și calitatea
corespunzătoare , verificarea faptului că o înregistrare suspectată de încălcarea
drepturil or de autor este, de fapt, aceeași cu înregistrarea a cărei proprietate este
cunoscută etc.

3.4 Cadru general

În ciuda diferitelor raționamente din spatele operații de identificare, metodele
au în comun anumite aspecte. Există două procese fundamentale: ext ragerea
amprentei și algoritmul de potrivire. Extragerea amprentei derivă un set de
caracteristici perceptuale pertinente ale unei înregistrări într -o formă concisă și
robustă. Cerințele privind amprentele includ:
• Deosebire dintr -un număr mare de amprente
• Invarianță la distorsiuni
• Carater compact
• Simplitate computațională
Soluțiile propuse pentru a îndeplini cerințele de mai sus implică un
compromis între diminuarea dimensiunilor și pierderea de informații.
Extragerea amprentei constă dintr -un bloc de modelare front -end și un bloc
de modelare amprentă .
Front -End-ul calculează un set de măsurăto ri din semnal .
Blocul de model are a amprentei definește reprezentarea finală a am prentei,
de exemplu: un vector , o listă de hash-uri, etc.

NECLASIFIC AT
NECLASIFICAT
30 din 64
Având o amprentă dintr-o înregistrare, algoritmul de potrivire caută într -o
bază de date cu amprente digitale pentru a găsi cea mai bună potrivire. Prin urmare,
este necesară o metodă de comparare a amprentelor digitale.
Deoarece numărul de comparații ale fișierelor este ma re într -o bază de date
voluminoasă , avem nevoie de metode care să eficientizeze căutarea .
Unele sisteme de amprentare utilizează metode simple , dar pentru un numărul
redus de elemente . Există, de asemenea, metode care precalculează structurile de
date off line și astfel reduc numărul de calcule care se fac online.
Metodele bune de căutare ar trebui să fie :
• Rapide : Calculul și căutarea amprentei într -o bază mare de date poate fi o
operație costisitoare.
• Corecte : Nu ar trebui să returneze doar obiectele core cte. (rată de rejecție
falsă scazută).
• Eficiente din punctul de vedere al memoriei
• Ușor de actualizat : opera țiile de inserare, ștergere și actualizare ar trebui
efectuate cu ușurință.
Ultimul bloc al sistemului – testarea ipotezelor – calculează o măsură a
fiabilității care indică certidudinea sistemului în privința identificării.

3.5 Blocul Front -End

Acest bloc convertește un semnal audio într -o secvență de caracteristici
relevante pe care o trimite b locului de modelare a amprentei și are următoarele
proprie tăți:
• Reducerea dimensiunii
• Parametrii perceptuali semnificativi (similari cu cei utilizați în sistemul
auditiv uman)
• Invarianță/robustețe (la distorsiuunile de pe canal, zgomot de pe fundal, etc.)
• Corelarea temporală (sistemele captează dinamica spectral ă)

NECLASIFIC AT
NECLASIFICAT
31 din 64

Figure 3. Blocul Front -End. Extragere caracteristici

3.5.1. Preprocesarea

În prima etapă, semnalul audio este convertit într -un semnal digital (dacă
este necesar) , într -un format general precum mono PCM (16 biți) cu o rată de
eșantionare fixă (cuprinsă între 5 și 44,1 kHz).

NECLASIFIC AT
NECLASIFICAT
32 din 64
3.5.2. Încadrarea și suprapunerea

O presupunere cheie în măsurarea caracteristicilor este aceea că semnalul
poate fi considerat ca fiind staționar pe o perioadă de câteva milisecunde. De aceea,
semna lul este împărțit în cadre cu o dimensiune comparabilă cu viteza de variație a
evenimentelor acustice.
Numărul de cadre calculate pe secundă se numește rată . Pentru fiecare bloc
este aplicată o funcție fere astră pentru a minimiza discontinuitățile de la î nceput și
de la sfârșit.
Trebuie aplicată o suprapunere pentru a asigura robustețea la schimbarea
ferestrei (adică atunci când datele de intrare nu sunt perfect a liniat e cu înregistrarea
care a fost utilizată pentru generarea amprentei digitale).
Există un compromis între robustețea și complexitatea computațională a
sistemului: cu cât este mai mare rata cadrelor, cu atât este mai robustă, dar cu costul
unei complexități computaționale mai mari.

3.5.3. Transformări liniare. Estimări spectrale

Ideea din spatele transformărilor liniare este proiecția setului de măsurători la
un nou set de ca racteristici.
Dacă transformarea este aleasă în mod corespunzător, redundanța este
redusă semnificativ.
Există transformări optime în sensul proprietăților de încapsulare a
informație . Aceste transformări sunt complexe din punct de vedere computational.
Cele mai multe metode utilizează, prin urmare, transformări standard din
domeniul timp în frecvență pentru a facilita comprimarea eficientă, eliminarea
zgomo tului și prelucrar ea ulterioară .
Transformatrea cea mai comună est e Transformata Fourier Discretă (TFD ).
Au fost propuse și alte transformări: Trans formata discretă a cosinusului ,
Transformata Haar sau Transformata Walsh -Hadamard.

NECLASIFIC AT
NECLASIFICAT
33 din 64

3.5.4. Extragerea caracteristicilor

La o repre zentare a frecvenței în timp, se aplică transformări suplimentare
pentru generarea vectorilor acustici finali. Așadar, găsim o mare diversitate de
algoritmi.
Obiectivul este de a crește invarianța la distorsiuni. Multe sisteme extrag
câteva caracteristici efectuând o analiză spectrului. Sunt utilizați coeficienții Mel –
cepstrali (MFCC) .
Papaodysseus , în lucrarea sa, “A New Approach to the Automatic
Recognition of Musical Recordings”, prezintă “vectorii reprezentativi ai benzilor ”,
care sunt o listă ordona tă de indici ai benzilor cu tonuri proeminente. Haitsma
prezintă în lucrarea sa, “Very Quick Audio Searching: Introducing Global Pruning
to the Time -Series Active Search” , cum folosește energia celor 33 de benzi pentru o
obține hash -ul, care este diferența dintre energiile benzilor (atât pe axa timpului cât
și pe axa frecvenței).
Sukittanon și Atlas , în “Modulation Frequency Fe atures for Audio
Fingerprinting ”, susțin că estimările spectrale și caracteristicile associate sunt
insuficiente atunci când apar d istorsiuni. Aceștia propun analiza modulației în
frecvență pentru a car acteriza comportamentul semnalului audio în funcție de timp.
În acest caz, caracteristicile corespund mediei geometrice dintre modulațiile în
frecvență a energiei a 19 benzi de filtrare .
Următoarele caracteristici s -au dovedit a fi valide pentru compararea
sunetelor: armonicitate, lătime de bandă, intensitate. Caracteristicile utilizate în
mod obișnuit sunt euristice și, ca atare, nu pot fi optime. Din acest motiv, se
folosește o transf ormată Karhunen -Loeve modificată pentru a găsi caracteristicile
optime.

3.5.5. Postprocesarea

Cele mai multe caracteristici descrise până acum sunt măsurători absolute.
Pentru a caracteriza mai bine variațiile temporale ale semnalului, se adaugă la

NECLASIFIC AT
NECLASIFICAT
34 din 64
modelul de s emnal derivate de timp de ordin mai înalt . Datorită utilizării
derivatelor, sistemul are tendința de a amplifica zgomotul, dar, în acelaș i timp,
filtrează distorsiunile .
Este folosită aplicarea unei cuantifi cări de rezoluție scăzută a
caracteristicilor.
Scopul cuantificării este de a amplifica robustețea împotriva distorsiunilor,
de a normaliza, de a ușura implementările hardware , etc. Discretizarea este folosită
pentru a mări caracterul aleatoriu pentru a minimiza astfel probabilitatea de
coliziune a ampr entei .

3.6 Modele de amprente digitale

Blocul de modelare a amprentei primește, de obicei, o secvență de vectori de
trăsături, calculată cadru cu cadru.
Exploatarea redundanțelor din intervalul de timp corespunzător , dintr -o
înregistrare și di n întreaga ba ză de date, este utilă pentru a reduce dimensiunea
amprentei . Tipul de model ales are o influență asupra măsurii similarității și de
asemenea asupra algoritmilor de indexare pentru găsirea rapidă.
O formă extrem de concisă a amprentei este obținută din adă ugarea
secvențelelor vectoriale multidimensionale ale unei întreg i melodii (sau a unui
fragment al e acesteia ) într -un singur vector.
Vectorul se calculează din mediile și variațiile celor 16 benzi de energie , care
corespun d unui fragment de 30 de secunde si se termină cu o semnătură pe 512 biți.
Semnătura împreună cu informațiile despre formatul audio original sunt trimise
unui server pentru identificare.
Amprentele pot fi, de asemenea, secvențe ale caracteristicilor. Această
reprezentare de tip amprentă se reprezintă prin secvențe vectoriale binare.

NECLASIFIC AT
NECLASIFICAT
35 din 64
3.7 Măsurarea similarităților și metode de căutare

3.7.1. Măsurarea similarităților

Măsurarea similarităților este în mare măsură legată de tipul de model ales.
Atunci când se compară secvențele vectoriale, o metri că de corelare este comună .
Sunt folosite d istanțele eucli dene, sau versiunile ușor modificate care se ocupă de
secvențe de lungimi diferite.
Până acum am prezentat un model de identificare care urmărește un tipar de
potrivire a șabloanelor : atât elemente le de referință (amprentele stocate în baza de
date) , cât și elementul de testare (amprent a extras ă dintr -un fișier audio necunoscut)
sunt reprezentate în același format și sunt comparate în concordanță cu o anumită
măsură de similitudine, de exemplu: dist anța hamming, o corelație , etc.
În unele sisteme, doar elementele de referință sunt de fapt amprente – modelate
în mod compact inre -o listă de hash-uri.
În aceste cazuri, asemănările se calculează direct comparâ nd secvența de
caracteristici extrasă din fragmentul audio necunoscut și amprentele din fișierul
audio de referință salvate în baza de date.
Vectorul de caracteristici este comparat cu diferitele liste de hash-uri. Pentru
fiecare registru de hash-uri, erorile sunt acumulate. Elementul necunoscut e ste
atribuit clasei care generează cea mai mică eroare acumulată. Secvența de
caracteristici este căutată printre amprente si este selectat cel mai probabil element
din baza de date.

3.7.2. Metode de căutare

O problemă fundamentală pentru folosirea unui sistem de amprentare este
efectuarea în mod eficient a comparării fișierului audio necunoscut cu eventualele
milioane de amprente.
O abordare a forței brute care calculează asemănările dintre amprenta
înregistrării audio necunoscute și cele stocate în baza de da te poate fi prohibitivă.
Timpul pentru găsirea celei mai bune potriviri în această abordare liniară sau
secvențială este proporțional cu Nc(d ()) + E, unde N este numărul de amprente din

NECLASIFIC AT
NECLASIFICAT
36 din 64
depozit și c (d ()) timpul necesar pentru un singur calcul de similit udine Și E pentru
un timp suplimentar CPU.

4. APLICAȚII LEGATE DE DREPTURI DE AUTOR

Punerea în apli care a drepturilor de autor este o aplicație care a ajutat la
dezvoltarea tehnicii watermarking și aceasta este, de asemenea, o aplicație majoră a
sistemelor de amprentare.
În acest capitol se va arăta modul în care aceste două metodologii pot face
față și preveni acțiunile de piraterie.
Printre aceste aplicații se regăsesc:
• Generarea unui playlist de posturi de radio și d e canale de televiziune
muzicale dintr -o sursă independentă și neutră.
• Sinteze statistice, cum ar fi caracteristicile audienței și preferințele
audienței, care pot fi utiliza te pentru programarea internă sau pentru
politica de difuzare.
• Restituire corespunzătoare pentru titularii de drepturi .

4.1. Dovada posesiei

Creatorii de conținut sunt adesea îngrijorați de posibilitate a ca munca lor să
fie “însușită” de alte persoane.
Se are în vedere următorul scenariu:
1. Artistul A înregistrează o melodie și o face disponibilă pe site -ul său;
2. Artistul B pr imește o copie și o eliberează ca pe propriul său cântec ;
3. Artistul A îl dă în judecată pe artistul B, dar nu este în măsură să
dovedească faptul că este autorul cântecului.
Această situație este mai probabil să aibă loc atunci când creatorul de
conținut nu este cun oscut pe scară largă publicului, în timp ce nimeni nu ar avea
îndoieli cu privire la proprietatea unui cântec lansat de un mare artist pop, un
artist mai puțin cunoscut ar putea avea p robleme în a demonstra că este a utorul
real al unei melodii dacă altcineva reușește să și-o însușească.

NECLASIFIC AT
NECLASIFICAT
37 din 64
Această situație poate fi re zolvată prin introducerea unei “a treia părți de
încredere” (TPI) Acest lucru se întâmplă în multe țări. Înainte de a lansa o nouă
piesă , artistul îl înregistrează cu un T PI (eventual o agenție guvernamentală) care
păstrează o copie a acestuia pe dosar. Artistul este în măsură să acț ioneze în
judecată cu succes cu oricine încearcă să -i însușească munca fără permisiune.
Se poate concepe o procedură bazată pe watermarking pentru a demonst ra
dreptul de proprietate. O cheie secretă unică, semnătura proprietarului, este
utilizată pentru a genera un watermark încorporat în semnalul audio. Semnă tura
este înregistrată cu un TPI .
Prezența watermark -ului trebuie să fie acceptată de o instanță ca dovadă a
dreptului de proprietate. Această procedură evită necesitatea transferării
conținutului audio în sine în TPI , iar noul conținut audio este protejat în mod
automat dacă este marcat cu aceeași cheie.
Amprentarea audio poate fi utilizată, de asemenea , într -o procedură pentru a
demonstra dreptul de proprietate. În loc să înregistreze întreaga melodie cu un
TPI, doar amprenta sa este înregistrată și această amprentă trebuie acceptată ca
dovadă a dreptului de proprietate de către o instanță judecătoreasc ă. Avantajul
acestei abordări în comparație cu cel tradițional este posibilitatea de a verifica cu
ușurință dacă o piesă muzicală specifică est e prezentă în baza de date a TPI (atâta
timp cât această bază de date este disponibilă publicului).
Acestea fiind spuse, t rebuie subliniate câteva puncte referitoare la aceste
abordări :
• Procedura de marcare sau de amprentare trebuie să fie recunoscută de
autorități ca valabilă în scopuri legale, ceea ce ridică probleme legate de
securitatea și fiabilitatea sistemului .
• Dacă un watermark trebuie să fie acceptat ca dovadă a proprietății, procesul
de filtrare trebui e controlat în totalitate de TPI , care atribuie și deține chei
secrete (necunoscute chiar și proprietarilor de semnal).
• Disponibilitatea diferitelor semnale ma rcate cu aceeași cheie ar putea ajuta
atacatorii să izoleze și să elimine watermark -ul prin mediere.
• Sistemul de watermarking trebuie să evite atacurile de ambiguitate, care
constau în alegerea cheilor astfel încât să se inducă fals pozitive în timpul
detectării watermark -ului pentru un semnal audio specific. Da că cheile sunt
atribuite de TPI , acest atac poate fi ușor împiedicat.

NECLASIFIC AT
NECLASIFICAT
38 din 64
• Sistemul de amprentare nu ar trebui să asocieze niciodată amprentele
identice la diferite melodii, chiar dacă cineva încearcă în mod intenționat să
forțeze această situație (în scopuri ilicite). Din nou, dacă TTP este
responsabil pentru extragerea amprentelor, acest atac poate fi ușor evitat.
• Watermarking -ul și amprentarea pot proteja conținutul audio numai
împotriva pretinderilor n efondate de proprietate asupra înregistrărilor
specifice; Nu pot proteja conținutul audio de acte ilegale, cum ar fi plagiatul.
Acest tip de protecție necesită două etape:
o (1) utilizarea watermark -ului sau a amprentelor digitale pentru a
dovedi proprietat ea unei înregistrări originale specifice
o (2) înregistrarea originală este comparată cu una suspectă prin teste .

Un sistem bazat pe watermarking pentru demonstrarea proprietății ar fi
dificil de aplicat în prezent, deoarece nici un sistem cu audio waterma rking nu
poate fi considerat suficient de robust pentru atacuri dăunătoare.
Deși un sistem simila r bazat pe amprentare audio poate părea mai fezabil,
avantajele pe care le prezintă în comparație cu sistemul tradițional (adică
înregistrarea piesei muzicale complete cu un TTP) ar putea să nu fie suficiente
pentru a justifica utilizarea acestei tehnologii.

4.2. Urm ărirea copiilor ilicite

Utilizarea neautorizată a materialelor protejate prin drepturi de autor (texte,
imagini, sunete) a fost o practică obișnuită pe World Wide Web încă de la
început. Crawlerele Web pot fi folosite pentru a căuta în mod automat pe Web
materiale cu drepturi de autor.
În ceea ce privește fișierele audio, este dificil de implementat o comparație
automată directă între materialul găsit pe paginile web și înregistrările conținute
într-o bază de date, deoarece pot exista mai multe variații ale aceleiași înregistrări
(de exemplu, formate diferite, rate diferite de eșantionare, versiuni diferite ).
Această comparație ar fi, de asemenea, inef icientă în ceea ce privește viteza,
deoarece fișierele audio tind să fie mari chiar și pentru înregistrări destul de
scurte .

NECLASIFIC AT
NECLASIFICAT
39 din 64
Watermarking -ul și amprentarea audio pot fi folosite în sistemele de urmărire
a fișierelor audio. Abordarea pe bază de watermarking constă în înregistrarea
marcajelor care trebuie protejate înainte de distribuire. Un crawler web va căuta
apoi pe Web și va verifica prezența marcajului pe fiecare fișier audio pe care îl
găsește.
Dacă se găsește o înregistrare cu watermark , sistemul not ifică deținătorului
de drepturi, care va contacta infractorul după c onfirmarea manuală. Sistemul ar
putea trimite în mod automat notificări de încălcare a a drepturilor de autor (fără
confirmare manuală), dar în acest caz probabilitatea de fals pozitive tr ebuie să fie
foarte scăzută.
O soluție intermediară este, de asemenea, posibilă: sistemul solicită
confirmarea manuală numai atunci când watermark -ul este detectat cu o fiabilitate
redusă (se detectează un watermark slab, care ar putea constitui un fals p ozitiv) .
O abordare bazată pe amprentă ar fi destul de similară, dar sistemul ar
extrage o amprentă digitală din fiecare fișier audio găsit pe Internet și ar căuta
într-o bază de date cu amprente digitale. Din nou, rata de erori fals pozitive va
dicta nece sitatea confirmării manuale a încălcării drepturilor de autor.
Avantajele comparative ale celor două metodologii sunt următoarele :
watermark -ul este mai sensibil la atacuri decât amprentarea datelor, iar
înregistrările care nu au fost marcate anterior, nu au putut fi urmărite.
Pe de altă parte, în sistemele bazate pe amprente, urmărirea noilor versiuni
necesită actualizarea bazei de date, în timp ce sistemele bazate pe filigranare nu
necesită nici o actualizare.
În comparație cu potrivirea directă dintre fișierele audio de pe Internet și
înregistrările protejate prin drepturi de autor, ambele abordări ar trebui să conducă
la o creștere semnificativă a vitezei, deoarece nu trebuie căutată multă informație
pentru potriviri (watermark -ul și amprenta corespund doar unei mici părți din
datele necesare pentru stocarea înregistrării originale).
Un sistem pe bază de watermarking ar fi probabil mai rapid decât un sistem
bazat pe amprente digitale , deoarece nu există o căutare de baze de date.

NECLASIFIC AT
NECLASIFICAT
40 din 64

4.3. Determinarea or iginii copiilor ilicite

Atunci când o copie ilicită a unei înregistrări se găsește pe un site web, este
posibil ca deținătorul drepturilor să îl poată urmări în justiție pe proprietarul site –
ului.
Dar acest lucru ar putea fi doar o patre dintr -un lanț în treg de piraterie: dacă
s-ar putea ajunge la începutul acestui lanț, se ajunge în cele din urmă la o copie
legală originală a înregistrării.
Acest original a fost cumpărat în mod legal de la un distribuitor autorizat, dar
a fost folosit într -un mod care a încălcat politica de utilizare definită de
deținătorul drepturilor.
Dacă fiecare copie legală a unei înregistrări este marcată cu informații
diferite, cum ar fi un număr de serie unic, este posibil să se determine din ce copie
legal ă a fost făcută o copie ilegală . Când muzica este distribuită on line, acest tip
de watermark este în general incl us în fluxul de biți.
În cazul în care distribuitorul păstrează identitatea clienților săi și numerele
de serie ale tuturor înregistrărilor pe care le -a cumpărat fie care client, individul de
la începutul lanțului de piraterie poate fi identificat și urmărit penal.
Acest tip de sistem de protecție este deosebit de potrivit pentru distribuția de
muzică in Internet . Când utilizatorul descarcă o înregistrare, acesta din urmă este
înregistrat în timp real și operațiunea este înregistrată în fișierele distribuitorului .
Acest tip de sistem de protecție ar descuraja atacurile neprofesionale . Cu
toate acestea, atacatorii profesioniști ar putea împiedica detectarea watermark -ului
prin medierea mai multor copii legale ale aceleiași înregistrări, numită atac de
coluziune.
Deoarece marcajul este unic în fiecare copie legală, acest atac ar avea
tendința de a recupera înregistrările inițiale fără marcaje sau cel puțin ar slăbi
marcaj ele individuale, eventual până la punctul de a le face nedetectabile.
Amprentarea nu este potrivită pentru această aplicație, deoarece toate copiile
unei înregistrări au exact aceeași amprentă digitală.

NECLASIFIC AT
NECLASIFICAT
41 din 64

5. SISTEM CU WATERMARKING ȘI AUDIO
FINGERPRINTING

Robustețea verificării integrității poate fi sporită prin combinarea celor două
tehnici: watermarking și amprentarea audio într -un sistem.
În primul rând, se extrage amprenta înregistrării originale. Această
amprentă, văzută ca o secvență de biți, este apo i utilizată ca informație care trebuie
să fie încorporată în semnal prin intermediul watermark -ului.
Aceste informații se vor duplica de câte ori este posibil în semnalul marcat
cu watermark , pentru a minimiza posibilitatea apariției erorilor în reconstru cția
amprentei originale din watermark .
Deoarece semnalul watermark este slab, înregistrarea marcată trebuie să aibă
aceeași amprentă cu cea înregistrată inițial. Astfel, integritatea unei înregistrări
poate fi verificată prin extragerea amprentei digital e și compararea ei cu cea
originală (reconstituită din watermark ).

6. WATERMARKING ȘI FINGERPRINTING. DIFERENȚE ȘI
SIMILARITĂȚI

În această secțiune sunt prezentate asemănările si diferențele majore dintre
audio watermarking și recunoașterea automată a muzi cii.

6.1. Modificarea semnalului audio

Watermark -ul audio modifică semnalul audio original p rin încorporarea unui
semn , în timp ce amprentarea nu schimbă deloc semnalul, ci îl analizează ș i
construiește o hash (amprentă ) asociată în mod unic cu acest semnal. În
watermarking , există un compromis între puterea watermark -ului și performanța
detectării .

NECLASIFIC AT
NECLASIFICAT
42 din 64
În amprentare, nu există un astfel de compromis: sistemul “ascult ă” muzica,
construieș te o descriere a acesteia și ca ută o descriere similară în baza sa de date .

6.2. Cerințele unei colecții de amprente

În viața reală, un ascultător poate identifica o melodie doar dacă a mai auzit –
o înainte, asta dacă nu are acces la mai multe informații pe langă semnalul audio.
În mod similar, sistemele de amprentare necesită cunoaș terea anterioară a
semnalelor audio pentru a le identifica, deoarece nu există nicio altă informație
decât semnalul audio în faza de identificare.
Prin urmare, trebuie construită o bază de date care să conțină informații
despre piesele muzicale . Această b ază de date conține amprentele tuturor pieselor
pe care sistemul trebuie să le identifice. În timpul detectării, se calculează amprenta
semnalului de intrare și se compară algoritmul de potrivire cu toate amprentele
digitale din baza de date.
Baza de date trebuie să fie actualizată pe măsură ce apar melodii noi. Odată
cu creșterea numărului de melodii din baza de date, atât cerințele de memorie cât și
costurile computaționale cresc. Astfel, complexitatea procesului de detectare crește
odată cu creșterea di mensiunii bazei de date.
În schimb, pentru detectarea într -un sistem cu watermarking nu este
necesară o bază de date , deoarece toate informațiile asociate unui semnal sunt
conținute în watermark .
Detectorul verifică prezența unui watermark și dacă se găs ește, extrage datele
din acesta . Prin urmare, watermarking -ul nu necesită actualizare când apar melodii
noi, iar complexitatea procesului de detectare nu se modifică atunci când noile
semnale audio sunt marcate cu watermark .

6.3. Cerințele preprocesării semna lului

Nevoia de preprocesare a semnalelor audio reprezintă un dezavantaj al
sistemelor cu watermarking .

NECLASIFIC AT
NECLASIFICAT
43 din 64
De exemplu, sistemele de distribu ție/monitorizare bazate pe watermarking ar
putea detecta încălcări ale drepturilor de autor numai dacă semnalele prot ejate prin
drepturi de autor au fost marcate cu un watermark anterior , ceea ce înseamnă că
vechiul material care nu conține watermark nu este protejat .
În plus, noul material ar trebui să fie marcat în toate formatele sale de
distribuție, deoarece chiar ș i un număr mic de copii fără watermark ar putea să
compromită securitatea sistemului.
Aceasta nu este o problemă pentru sistemele de amprentare audio, deoarece
la acestea nu este necesară o preprocesare a semnalului .

6.4. Robustețea

În detectarea watermark -ului, semnalul care conține informații utile
corespunde unei mici fracțiuni din semnalul de intrare , deoarece watermark -ul este
mult mai slab decât semnalul audio original datorită constrângerii de inaudibilitate .
În plus, zgomotul care poate fi adăugat la semnalul marcat (prin compresie
MP3 sau transmisie analogică, de exemplu) poate fi la fel de puternic sau chiar mai
puternic watermark -ul.
În caz de perturbare severă a canalului sau în cazul unui atac , watermark -ul
nu mai poate fi detectat .
În schimb , detectarea în sistemele de amprentare se bazează pe semnalul
audio în sine, care este suficient de puternic pentru a rezista la cele mai multe
perturbații ale canalelor ș i este mai puțin susceptibil la atacur i. Așadar, a stfel de
sisteme sunt în mod inere nt mai robuste.
Atâta timp cât sunetul original din baza de sună aproximativ la fel ca
melodia pe care sistemul “o ascultă” , amprentele digitale vor fi, de asemenea,
aproximativ aceleași. Acest “aproximativ” depinde de procedura de e xtragere a
amprentelor digitale.
Prin urmare, robustețea sistemului va depinde, de asemenea, de ace asta.
Majoritatea sistemelor de amprentare digitală utilizează o abordare psihoacustică
pentru a obține amprenta.
Procedâ nd astfel, sunetul de analizat și de identificat poate fi puternic
distorsionat fără a scădea performanța sistemului.

NECLASIFIC AT
NECLASIFICAT
44 din 64

6.5. Independența dintre semnalul audio și informație

Informațiile conținute în watermark pot să nu aibă nicio legătură directă cu
semnalul audio.
De exemplu, un post de radio ar putea încorpora cel e mai recente știri în
melodiile pe care le difuzează printr -un watermark. Știrile vor apărea pe un mic
ecran în timp ce melodiile sunt redate .
O amprentă digitală este corelată cu semnal ul audio din care a fost extras.
Orice schimbare a semnalului audio care este perceptibilă de un ascultător uman ar
trebui să determine o modificare a amprentei digitale. Acest fapt se află în spatele
celor mai multe diferențe între cele două abordări.
În timp ce watermark -urile pot transporta orice fel de informații, amp rentele
reprezintă întotdeauna semnalul audio.
Această independență între semnal și informație rezultă din faptul că
sistemele watermarking folosesc doar informațiile care au fost adăugate anterior,
dat fiind faptul că nu este furnizată nicio conexiune la o bază de date. Informația
poate avea legătură sau nu cu semnalul audio în care a fost încorporat ă.
Prin amprentare se pot extrage in formații din semnalul audio prin diferite
niveluri de abstractizare, în funcție de aplicație și de scenariul de utilizare . Prin
amprentare avem posibilitatea de a extinde aplicațiile la navigare bazată pe
conținut, căutare prin similitudine sau alte aplicații care implică găsire a
informațiilor musicale.

7. PROIECT

7.1. Prezentare a aplica ției

Aplicația permite recunoasterea unor piese musicale pe baza unui fragment
audio sau a unei înregistrări . Pentru aceasta, este nevoie ca în baza de date să existe
fișierele audio cu c are se dorește a se efectua comparația .

NECLASIFIC AT
NECLASIFICAT
45 din 64
În primul pas, p entru fiecare fișier audio este ca lculată o amprentă, un proces
în care se extrag cele mai importante caracteristici .
Atât fișierele audio din baza de date , cât și fișierul de test sunt supuse
aceleiași analize, așadar, după ce am înregistrat semnalul de test, o amprentă a
acestuia este generată. Amprentele d e pe fișierul de test sunt comparate cu unui set
amplu de amprente calculate din melodiile din baza de date. Posibilele potriviri
sunt evaluate ulterior pentru corectitudinea potrivirii.
Utilizatorul poate înregistra o melodie cu microfonul calculatorului un număr
de secunde la alegere, iar sistemul va procesa în tim p real fragmentul audio și va
întoarce melodia originala, în cazul în care o recunoaște.
De asemenea, aplicația poate recunoaște un fragment audio înregistrat
anterior, iar pentru a -l recunoașt e trebuie introdusă calea către acest fișier.
Aplicația este implementată in Matlab.

7.2. Amprentarea audio

Pentru a aborda problema identificării robuste în prezența zgomotului și
distorsiunilor semnificative, am experimentat o varietate de caracteristici. Am
stabilit vârfurile de spectrograme, datorită robust eții lor în prezența zgomotului.
Un punct d e frecvență în timp este o altă caractesistică , dacă are un conținut
energetic mai mare decât toți vecinii săi într -o regiune din jurul punctului .

Caracterist icile din fiecare zonă a frecvenței în funcție de timp sunt de
asemenea alese în funcție de amplitudine, cu justificarea că cele mai înalte puncte
ale amplitudinii sunt cel mai probabil să supraviețuiască distorsiunilor.

NECLASIFIC AT
NECLASIFICAT
46 din 64

Fig.7. 1. Exemplu spectrogramă

Astfel, o spectrogramă complicată, așa cum este ilustrată în Fig. 7.2, poate fi
redusă la un set de coordonate, așa cum este ilustrat în Fig. 7.3. Observăm că, în
acest moment, componenta de amplitudine a fost eliminată .
Un vâ rf în spectr ogramă este încă un vârf cu aceleași coordonate într -un
spectrogramă filtrate. N umim listele de c oordonate “hărțile constelației” , deoarece
punctel e coordonatelor seamănă adesea cu un cer plin de stele.

Fig. 7.2 . Spectrogramă

NECLASIFIC AT
NECLASIFICAT
47 din 64

Fig. 7. 3. Set redus ce coordonate ("constelație")

Modelul punctelor ar trebui să fie același pentru două segmente audio care se
potrivesc . Dacă proiectăm harta constelației unui fragment audio de câteva secunde
peste harta con stelației unei melodii din baza de date , la un moment dat un număr
semnificativ de puncte va coincide , asta atunci când cele două piese muzicale se
sincronizează .
Numărul de puncte care se potrivesc va fi semnificativ în prezența vârfurilor
false, asta din cauza zgomotului .
În plus, numărul de potriviri poate fi mare chiar dacă multe dintre punctele
corecte au fost șterse. Reprezentarea “constelației ” este astfel un mod principal de
potrivire în prezența zgomotului și/ sau a lipsei caracteristicilor. Aceast ă proce dură
reduce problema de căutare, astfel că, o mica zonă de puncte spectrogram ă trebuie
să fie rapid localizat ă într-un spațiu mare de puncte.
La acest se va crea o matrice care va conține toate caracteristicile
semnificative din semnalul audio anal izat, și anume pozițiile maximelor din
spectrogramă. Aceasta matrice se va nota cu maxes .
Matricea maxes va conține:
Pe prima coloană: linia caracteristicii
Pe a doua coloană: coloana caracteristicii

NECLASIFIC AT
NECLASIFICAT
48 din 64

Oper ații care se efectuează :

1. Se cite ște semnalul: [ y, fs ] = audioread(filename);
2. Se convertește la semnal mono: y = y( :, 1);
3. Se reeșantionează : y_rs = resample(y, 8000, fs);
4. Se extrag caracteristicile:

• Se creează fereastra Hamming de 64ms:
TWindow=64e -3;
NWindow=tWindow*8000;
Window=hamming(Nwindow);
NFFT=512;
Noverlap=NWindow/2;

• Se creează spectrograma :
[S, F, T] =spectrogram (y_rs, window, Noverlap, fs);

• Procesarea:
Se elimin ă punctele minime : S=max(S, max(S () ) / 1e6 );
Valori logaritmice : S=10*log10(abs(S));
Se calculează valoarea medie: S=S-mean (S (:) );
Filtrăm pe coloane:
B = [1 -1];
A = [1 -0.98];
S = filter (B, A, S');
S = S';

• Dilatarea spectrogramei:
Dilatarea este o opera ție morfologică care se aplică în principiu în
procesarea imaginilor și presupune înlocuirea fiecărui punct dintr -un
set cu maximul dintr punctele sale vecine.
se = strel('rectangle', structured_el_size);
SDilated = imdilate(S,se );

NECLASIFIC AT
NECLASIFICAT
49 din 64

• Se caut ă maximele :
Maximele pe care le c ăutăm sunt punctele care coincid în cele două
spectrograme.
[I, J] = find(SDilated == S);
maxes = [F (I), T(J)']; %valoa rea maximelor – timp si frecvenț a

Unde I și J sunt linia și coloana unde se găsesc maximele, iar
F(I) și T(J) reprezintă timpul și frecvența la care se
găsește maximul.

5. Se formează perechi:

Se va crea o matrice care conține perechi de caracteristici dintr -o melodie ,
perechi a căror diferență de timp să nu depășească 2s . Pentru fiecare punct se vor
salva maxim 3 perechi. Această matrice se va nota L. Lungimea maximă a lui L va
fi 3*maxes .
Se consider ă două maxime : m1= [f1, t1] și m2= [f2, t2]
O pereche validă arată astfel :

(abs (f1 – f2) < 32) & & ((t2 – t1) > 0) & ((t2 – t1) < 64) ;

Așadar, considerăm o pereche validă dacă între cele două frecvențe există o
diferență de 32 de unități, iar între cele două variabile de timp există o d iferență de
62 de unități. Aceste unități se referă la liniile și coloanele din spectrogramă, ceea
ce îmseamnă că 64 de unități temporale înseamnă aproximativ 2 secunde (o unitate
reprezintă 32ms), iar 32 de unități de frecvență înseamnă 500Hz (32*4000/256 ).
Apoi se genereaz ă matricea L :

L= [t1, f1, dif_frecv, dif_timp];

Astfel , fiecare linie din matricea L va conține:

Lrow = [ start_time, start_freq, freq_diff, time_diff ], unde

NECLASIFIC AT
NECLASIFICAT
50 din 64
freq_diff = end_freq – start_freq și

freq_time = end_time – start_time

7.3. Hash combinatorial invariabil in fu ncție de timp

Găsirea deplasării corecte a înregistrării față de semnalul audio original într-
o spectrogramă poate fi o operație destul de lentă, datorită punctelor care au o
entropie scăzută.
Hash -urile amprente lor sunt formate din punctele din “constelație” , în care
perechi de puncte de frecvență în funcție de timp sunt asociate combinatorial.
Fiecare c aracteristic ă definită anterior este comprimată într -un hash. Aceste
hash-uri sunt reproductibile, chiar și în prezența zgomot ului sau compresiei . Hash –
urile conțin, pe lângă frecvența inițială (a primului punct) , diferența de frecvență și
de timp dintre cele două puncta ( Fig. 7.4 și Fig. 7.5), iar acestea sunt introdus e în
variabile unsigned int de 20 de biți și a rată în felul următor:

Hash = [ freq : Fdiff: Tdiff ]

Fig. 7.4. Generarea hash -ului

NECLASIFIC AT
NECLASIFICAT
51 din 64

Fig. 7. 5. Conținutul hash -ului

Se folosesc 20 de biti astfel (Fig. 7.6 ):

• 8 biți pentru frecvență și
• 6 biți pentru diferența de frecven ță
• 6 biti pentru diferen ța temporală

Hash = freq*2^12 + Fdiff*2^6 + Tdiff

Fig. 7.6. Conținutul hash -ului

NECLASIFIC AT
NECLASIFICAT
52 din 64
Hash -urilor le sunt asocia te id -ul melodiei și timpul iniț ial. Pentru fiecare
melodie, se notează o matrice H asociată.
Matricea H conți ne astfel:

Hrow = [ Id_melodie, timp, hash ], unde

Hrow este o linie din matrice.

Operația de mai sus se efectuează pe fiecare melodie pentru a genera o listă
corespunzătoare de hash -uri și timpii de offset asocia ți acestora.
În figura următoare ( Fig. 7.7) este un fragment din reprezentarea
spectrogramei unei melodii in Matlab. Se observă perechiile care se formează din
caracteristicile semnalului audio.
Formând perechi în loc de a căuta potriviri între punctelor individuale din
spectrogramă , obținem o accelerare în procesul de căutare.

Fig. 7.7. Fragment audio

NECLASIFIC AT
NECLASIFICAT
53 din 64
7.4. Procesul de potr ivire. C ăutarea și interogarea

Pentru a efectua o căutare, pasul de amprentare prezentat mai sus este
efectuat pe un semnal audio înregistrat pentru a genera un set de ha shuri. Fiecare
hash din înregistrare este folosit pentru a căuta potriviri în baza de date existentă.
Se va crea o matrice R care va conține o linie pentru fiecare potrivire și va
avea următoarea structură:

Rrow = [ id_melodie, Tdiff, hash_potrivire ], unde
• Id_melodie este indexul melodiei pentru care a apărut potrivirea
• Tdiff este diferența de timp
• Hash_potrivire este hash -ul care corespunde potrivirii,
Rrow fiind o linie din matricea R.

Dacă cele două fișiere se potrivesc, atunci caracteristicile ca re indică această
potrivire ar trebui să apară la diferențe de timp relative similare.
O secvență de hash -uri a unui fișier ar trebui să apară și în fișierul similar cu
aceeași secvență a diferenței de timp.
Problema de a decide dacă a apă rut sau nu o pot rivire se reduce la detectarea
unui grup semnificativ de puncte care formeaz ă o diagonală, lucru care este
reprezentat în figura următoare :

Fig. 7.8 . Potrivirea caracteristicilor. Cu diagonal ă

NECLASIFIC AT
NECLASIFICAT
54 din 64

Fig. 2.9. Potrivirea caracteris ticilor. Fără diagonal ă

Pe axa x avem reprezentarea melodiei salvată în baza de date, iar pe axa y
avem reprezentarea fragmentului înregistrat. Diagonala reprezentată în figură
apare doar dacă hash -urile din cele două semnale audio apar exact în aceeași
ordine.
Verificarea acestei diagonale este necesară deoarece pot apărea două hash –
uri identice, dar într -o altă ordine.
Datorită acestor constrângeri , această tehnică folosită rezolvă problema într –
un timp de aproximativ T(n) = n*log(n), unde n este număru l de puncte de pe
spectrogramă .
Timpii caracteristicilor de potrivire ai semnalelor audio satisfac următoarea
relație:

tk’=tk+offset ,

unde tk’ coordonata timpului pentru caracteristica melodiei din baza de date, iar tk
reprezint ă coordonata timpului pe ntru caracteristica din înregistrarea care
urmează a fi identificată.
Pentru fiecare pereche de coordonate ( tk, tk’) calculăm :

δtk=tk’ -tk.

NECLASIFIC AT
NECLASIFICAT
55 din 64
Apoi calculăm o histogramă a acestor valori δtk și căutăm vârfurile . Acest
lucru se poate face prin sortarea setului de valori δtk și căutarea unui grup de
valori.
Aceste grafice de obicei nu conțin multe valori, datorită metodei
combinatoriale de generare a hash -urilor. Numim scorul potrivirii numărul de
potriviri din vârful histogramei.
In următoarele figuri ( Fig. 7.10 și Fig. 7.11) sunt prezentate două exemple de
histograme.

Fig. 7.10. Histogramă pentru semnale care nu se potrivesc

Fig. 7.11. Histogramă pentru semnale care se potrivesc

Fig. 7.10 ilustrează un grafic al timpului melodiei d in baza de date și al
timpul ui înregistrării pentru o piesă care nu se potrivește cu înregistrarea . Există
câteva asocieri, dar nu apare o corespondență liniară .

NECLASIFIC AT
NECLASIFICAT
56 din 64
Prezența unui cluster de puncte indică o potrivire, după cum se observă în
Fig. 7.11 , unde av em un număr semnificativ de perechi de coordonate de timp,
care se aliniază pe o diagonală.
Fig 7.10 și Fig. 7.11 reprezintă histogramele corespunzătoare figurilor Fig.
7.8 și Fig. 7.9.
Acest proces este repetat pentru toate melodiile din baza de date, pâ na la
momentul în care este găsită o potrivire semnificativă.
Procesele de căutare și potrivire nu țin cont de formatul hash -urilor. Hash –
urile trebuie doar să aibă proprietatea de avea o entropie suficient de mare si de a
putea fi reproduse.

7.5. Performanța

7.5.1. Rezistența la zgomot

Algoritmul funcționează bine, chiar dacă apare zgomot pe fundal . Poate să
identifice corect muzica în prezența vocii, întreruperilor semnalului audio sau chiar
în prezența altei melodii .
Într-un fragment audio de 15 secunde care are zgomot pe fundal, se poate
găsi o potrivire semnificativă chiar dacă doar 1 -2% din hash -urile generate
supraviețuiesc distorsiunii semnalului.
O proprietate a tehnicii cu reprezentare a histogramelor este că
discontinuitățile sunt irelevante, acest lucru face ca sistemul sa fie imun la
eventualele întreruperi ale semnalului audio.

7.5.2. Timpul de execuție

Aplicația poate recunoaște melodii în prezența altor zgomote de pe fundal
într-o periadă de timp foarte scurtă, 2 00 ms. La o înregistrare cu o calitate foart e
bună a sunetului, tim pul de execuție scade pâna la 50 ms.

NECLASIFIC AT
NECLASIFICAT
57 din 64
7.5.3. Rata de recunoa ștere

Aplicația a fost supusă unor teste de recunoaștere pe baza unor înregistrări,
în funcție de numărul de decibeli. Înregistrătrile au fost de mai multe feluri :
• Cu zgomot pe fu ndal
• Cu o melodie redat ă pe fundal
• Cu întreruperi
• Cu adăugare de voce
• Înregistrări clare
• Înregistrări scurte/lungi

În Fig. 7.12 și Fig.7.13 Sunt reprezentate rezultatele obținute în urma acestor
teste.
Numărul de biți pentru reprezentarea hash -ului sau re prezentarea acestuia nu
influenț ează rata de recunoaștere. Aceș ti factor i au doar rolul de a oferi aplicației o
entropie destul de mare astfel ca în baza de date să se găsească toate elementele
diferite. Așadar, pentru lucrul cu o bază de date voluminoasă este nevoie de o
reprezentare a hash -ului pe mai mult de 20 de biți.

Fig. 7. 32. Rata de recunoaștere pentru o înregistrare de 2s

NECLASIFIC AT
NECLASIFICAT
58 din 64

Fig. 7.13 . Rata de recunoaștere pentru o înregistrare de 5s

7.5.4. Rezultate f als positive

Algoritmul a fost conceput special pentru a recunoaște fișierelor audio care
sunt deja stocate în baza de date.
Algoritmul este foarte sensibil la versiune a piesei care a fost analizată,
așadar, n u este de așteptat să se găsească o melodie care este înregistrată în direct ,
decât dacă avem această variantă a melodiei stocată în baza de date .
Datorită faptului că un artist are mai multe variante ale aceleiași melodii,
algoritmul poate alege varianta corectă, chiar dacă acest lucru este practic
imperceptibil pentru urechea umană, dar, ocazional , sistemul are soluții eronate.
Acest lucru se poate îmtampla și în cazul ,melodiilor electronice de exemplu,
deoarece negativul acestora este aproape similar.

NECLASIFIC AT
NECLASIFICAT
59 din 64
8. CONCLUZII

Am prezentat două metodologii care au multe aplicații în comun. În
watermark -ul audio încorporăm informațiile într -un semnal audio. Deși a fost inițial
destinată protecției drepturilor de autor, tehnica watermarking este utilă pentru mai
multe scopuri . Amprentarea audio nu adaugă nici o informație în plus semnalului,
ci utilizează caracteristicile acustice semnificative pentru a extrage o amprentă
unică din acesta. Această amprentă poate fi utilizată pent ru a identifica semnalul
audio.
În timp ce informațiile obținute dintr -o bază de date prin intermediul une i
amprente sunt întotdeauna legate de o anumită piesă muzicală, informațiile
încorporate în semnal prin intermediul unui watermark pot fi de orice fel.
Watermark -ul poate fi folosit chiar și ca înlocuitor în criptografie pentru
comunicații sigure.
Waterma rking -ul are, prin urmare, o gamă mai largă de aplicații decât
amprentarea audio .
Pe de altă parte, amprentarea este în mod inerent mai robustă decât marcarea
cu un watermark : în timp prin extragere a amprentelor se utilizează puterea totală a
semnalului audio, prin detecția watermark -ului se folosește doar o fracțiune din
puterea semnalului marcat (watermark -ul este de câteva ori mai slab decât semnalul
audio original din cauza constrângerii de inaudibilitate ). Asta înseamnă că
amprentarea va rezista la distorsiunile mai mult decât watermarking -ul, ceea ce este
o caracteristică deosebit de importantă în aplicațiile legate de verificarea drepturilor
de autor. Când se aplică ambele tehnici, robustețea poate fi o caracteristică
importantă, iar aceasta este în favoarea amprentării .
O altă problemă este că informațiile nu trebuie integrate în semnalul audio
pentru a fi identificate. Acest lucru permite identificarea semnalului audio deja
emis fără watermark în multe formate diferite, prezentând un fragment audi o
sistem ului. Această abordare reprezintă o soluție flexibilă pentru aplicațiil e legate
de verificarea drepturilor de autor.
Au fost propuse strategii eficiente , pentru selectarea unor parametri buni ai
algoritmului și pentru îmbunătățirea performanței gen erale a sistemului. Un acce nt
deosebit se pune pe aplicațiile de monitorizare a distribuirii fișierelor, care sunt din
ce în ce mai cerute pe piață.

NECLASIFIC AT
NECLASIFICAT
60 din 64
O lecție importantă a fost învățată din cercetările recente privind tehnica
audio watermarking : protecția a bsolută împotriva pirateriei nu este altceva decât o
iluzie. Mai devreme sau mai târziu, atacatorii vor găsi metode de a crea bre șe în
noile scheme de protecție. Scopul este de a face pirateria o activitate mai complexă.
Nici sistemele de protecție bazate pe amprentare nu oferă invulnerabilitate absolută.
Ambele tehnologii prezentate au potențialul de a oferi soluții la probleme
precum verificarea drepturilor de autor, monitorizarea distribuției fișierelor, etc.
Întrucât punctele lor forte sunt adesea com plementare, utilizarea lor
combinată ar putea conduce la soluții interesante .

Bibliografie

[1] A. Kimura, K. K. (May, 2001). Very Quick Audio Searching: Introducing Global
Pruning to the Time -Series Active Search.
[2] Avery Li -Chun Wang, J. O. (2000). WIPO publication.
[3] Blum, T. L. (1999). Method and Article of Manufacture for Content -Based Analysis,
Storage, Retrieval and Segmentation of Audio Information.
[4] Boney, L. (1996). Digital watermarks for audio signals.
[5] C.Papaodysseu s, G. D. (2001). A New Approach to the Automatic Recognition of
Musical Recordings vol.49 pag. 23 -35.
[6] Carlo Bellettini, G. M. (May, 2010). A Framework for Robust Audio Fingerprinting .
Ferrara, Italy .
[7] Digital Video Fingerprinting . (fără an). Pre luat de pe
https://en.wikipedia.org/wiki/Digital_video_fingerprinting
[8] Digital Watermarking . (fără an). Preluat de pe
https://en.wikipedia.org/wiki/Digital_watermarking
[9] Dittmann, J. (2001). Content -fragile watermarking for image authentication.
[10] Erling Wold, T. B. (1996). “Content -Based Classification, Search, and Retrieval of
Audio.
[11] Furon, T. M. (2000). Audio public key watermarking technique.
[12] Gómez, E. C. (2002). Mixed Watermarking -Fingerprinting Approach for Integrity
Verificatio n of Audio Recordings.
[13] Ismirli, O. (2000). Using a Spectral Flatness Based Feature for Audio Segmentation
and Retrieval.
[14] Jaap Haitsma, A. K. (2002). A Highly Robust Audio Fingerprinting System.
[15] Leandro de C.T. Gomes, P. C. (fără an). Audi o Watermarking and Fingerprinting:
For Which Applications? .

[16] M. Miller, M. R. (Dec. 2002). Audio Fingerprinting: Nearest Neighbor Search in
High Dimensional Binary Spaces. US Virgin Islands, USA.
[17] Mihçak, M. K. (2001). A Perceptual Audio Hashing Algorithm: A Tool For Robust
Audio Identification and Information Hiding.
[18] Milano, D. (fără an). https://www.digimarc.com/docs/default -source/technology –
resources/white -papers/rhozet_wp_fingerprinting_watermarking.pdf.
[19] Mohamed Hefeeda, K. M. (fă ră an). Authentication Schemes for Multimedia
Streams: Quantitative Analysis and Comparison.
[20] Neubauer, C. &. (2000). Audio watermarking .
[21] Packman, N. &. (2000). Transport of Content -based Information in Digital Audio
Data.
[22] Pedro Cano, E. B. (2005). A Review of Audio Fingerprinting.
[23] Rabiner, L. R. (1998). A Tutorial on Hidden Markov Models and Selected
Applications in Speech Recognition.
[24] S. Sukittanon, L. A. (May 2002). Modulation Frequency Features for Audio
Fingerprinting.
[25] Wang, A. L. -C. (fără an). An Industrial -Strength Audio Search Algorithm .
[26] Yan, C. (2001). MACS: Music Audio Characteristic Sequence Indexing For
Similarity Retrieval.

Similar Posts