„Tehnici Moderne de Programare” Tema „Identificarea vorbitorului ” Student Alin-Nicolae HORȚ Anul I, Tehnologii Multimedia 2 Cuprins 1. Introducere… [600467]
Universitatea „Politehnica din Timișoara”
Master „Tehnologii Multimedia”
PROIECT
la disciplina
„Tehnici Moderne de Programare”
Tema
„Identificarea vorbitorului ”
Student: [anonimizat]-Nicolae HORȚ
Anul I, Tehnologii Multimedia
2
Cuprins
1. Introducere ………………………………………………………………………………………… 3
1.1 Motivația și obiectivul lucrării ………………………………………………………………………….. 3
1.2 Biometria ………………………………………………………………………………………………………… 3
1.2.1 Definiție …………………………………………………………………………………………………….. 3
1.2.2 Clasific are ………………………………………………………………………………………………….. 3
1.3 Artă și aplicații ale recunoașterii vorbitorului …………………………………………………… 4
2. Recunoașterea vorbitorului …………………………………………………………………. 5
2.1 Principii …………………………………………………………………………………………………………… 5
2.1.1 Verificare a vorbitorului ……………………………………………………………………………….. 5
2.1.2 Identificarea vorbitorului ……………………………………………………………………………… 6
2.1.3 Dependența și independența de text ……………………………………………………………….. 6
2.1.4 Fazele identificării vorbitorului …………………………………………………………………….. 6
2.2 Extragerea caracteristicilor vorbitorului ………………………………………………………….. 7
2.2.1 Preprocesarea semnalului vocal …………………………………………………………………….. 7
2.2.2 Parametrii MFCC ………………………………………………………………………………………… 8
2.2.3 Parametrii de voce LPC ……………………………………………………………………………….. 9
2.2.4 Parametrii de voce PLP ………………………………………………………………………………… 9
2.3 Modele și algoritmi ………………………………………………………………………………………… 10
2.3.1 Modelul Markov Ascuns (HMM – Hidden Markov Model) …………………………….. 10
2.3.2 Modelul bazat pe mixturi Gaussiene (GMM – Gaussian Mixture Model) …………. 10
2.3.3 Modelul universal de Mixturi (UBM – Universal Background Model ) …………….. 11
2.4 Baze de date …………………………………………………………………………………………………… 12
2.4.1 Baza de date TIMIT (Texas Instruments Massachusetts Institute of Technology) 12
2.4.2 Baza de date ANDOSL (Australian National Database of Spoken Language) …… 12
2.4.3 Baza de date ELSDSR (English Language Speech Database for Speaker
Recognition) ……………………………………………………………………………………………………… 12
2.5 Evaluarea sistemelor de recunoaștere a vorbitorului ……………………………………….. 13
Bibliografie ………………………………………………………………………………………….. 14
3
1. Introducere
1.1 Motivația și obiectiv ul lucrării
Vorbirea este cel mai natural mod de comunicare, iar scopul fundamental este acela de a
transmite informații. Comunicarea între oameni se face foarte rapid prin vorbire și s -a dorit o
astfel de comunicare rapidă și între om și calculator, de aceea s -au dezvoltat mai multe
sisteme de interacțiune om -mașină bazate pe voce, precum sisteme de recunoaștere automată
de vorbire sau sisteme pentru sinteza vorbirii.
Procesarea vorbirii este un domeniu care a evoluat mult odată cu creșterea
performanțelor sistemelor de calcul. Cu ajutorul tehnologiei care s -a dezvoltat în ultimii ani
putem extrage foarte multe informații dintr -un semnal audio vocal , chiar de durată scurtă, de
cateva milisecunde. Prin analiza unui semnal vocal putem răspunde la intrebări precum: cine
a fost, ce a spus ș.a.m.d.
Obiectivul lucrării constă în găsirea unei metode de recunoaștere de vorbitor care să
funcționeze pe o bază de date care conține cât mai mulți vorbitori, să poată fi aplicată
independent de vorbitor, să fie robustă la zgomot și în același timp să ofere un răspuns cât
mai corect într -un timp cât mai scurt.
1.2 Biometria
1.2.1 Definiție
Biometria este știința și tehnologia măsurării și analizării datelor biologice. În informație
și tehnologie, biometria se referă la tehnica ce permite identificarea persoanelor pe baza unei
caracteristici fizice unice, cum ar fi : amprentele, ochii, fața etc. Dispozitivel e biometrice
verifică identitatea unei persoane comparând un parametru al unei anumite caracteristici fizice salvate într -o bază de date cu un parametru curent [1].
1.2.2 Clasificare
Figura 1.1 – Ramurile Biometriei
Biometria psihologică se bazează pe f ormele corpului uman. Dintre acestea, d etectarea
feței, irisului și a ADN -ului se pot clasifica aici.
4
Biometria comportamentală este relativă la comportamentul individual al oamenilor. De
exemplu, recunoașterea vorbitorului, identificarea vorbitorului se încadrează în această
ramură a biometriei, iar sistemele de detectare a acestora utilizează informații referitoare la
cum vorbitorul pronunță diferite cuvinte [2].
1.3 Artă și a plicații ale recunoașterii vorbitorului
Primele încercări de recunoaștere de vorbitor au fost în anii 196 0-1970 în cadrul
laboratoarelor Bell, unde Pruzansky [3] a fost primul care a inițiat studiul bancurilor de filter
și corelarea a două spectrograme digitale pentru a măsura similaritatea.
Începând cu anii 1980 s -au dezvoltat sisteme de recunoaștere dependente de text bazate
pe modele Markov ascunse (HMM) ca o alternativă la abordarea folosind potrivirea de
modele (temp late-matching). Ulterior s -au dezvoltat sisteme independente de text bazate pe
cuantizare vectorială unde o serie de vectori de caracteristici în timp scurt ale unui vorbitori
sunt comprimați într -un set reprezentativ de puncte și stocate într -o așa numită tabelă de
cuantizare. De asemenea s- a testat și modelul Markov ascuns ergotic(toate tranzițiile între
stări sunt posibile) fiecare rostire fiind caracterizată de un model cu 5 stări în spațiul acustic al caracteristicilor iar Rose et al. au propus utiliza rea modelului cu o singură stare cunoscut
astăzi sub numele de model cu mixturi Gaussiene (GMM) [3].
Cea mai grea problemă în verificarea vorbitorului este normalizarea variației similarității
intra-vorbitor, de asemenea apar și diferențe între condițiile de înregistrare, transmisie și
zgomot, utilizatorii nu pot rosti în același fel de la o autentificare la alta , astfel s -au investigat
metode bazate pe rata de probabilitate (likelihood ratio ) și metode bazate pe adaptarea a
posteriori . Pentru a reduce costul computațional al termenului de normalizare s -a propus
„metoda cohortelor ” sau „modelul universal ” [4].
Recunoașterea vorbitorului are o aplicabilitate foarte mare în speci al datorită faptului că
această metoda este neintruzivă, uni versal acceptată, cu o acuratețe acceptabilă, iar
eșantioanele de vorbire sunt ușor de prelevat, fie prin telefon, fie cu ajutorul unui microfon.
Sistemele de recunoaștere de vorbitor au început să fie din ce în ce mai mult în aplicații
de operațiuni banca re prin telefon. În Mai 2013 s -a anunțat că se poate face recunoașterea
vorbitorului prin intermediul telefonului în mai puțin de 30 de secunde de conversație
normală, sistem implementat de Nuance, clienții fiind foarte încântați de funcționalitate, 93%
oferind nota 9 din 10 pentru viteză, ușurintă de folosire și securitate. De asemenea, în cazu l
modelelor mai noi de telefoane se poate face deblocarea telefonului prin recunoașterea
proprietarului .
Recunoașterea vorbitorului poate fi utilizată în orice domeniu unde este necesară
limitarea accesului, de exemplu în instituții guvernamentale, militare sau chiar și în companii.
O altă aplicabilitate a recunoașterii de vorbitor este diarizarea unui flux audio, adică
împărțirea și anotarea automată a unei convorbir i pe segmente corespunzătoare fiecărui
vorbitor, acest proces fiind de mare utilitate în aplicații de indexare audio / video, putând
foarte ușor fi combinată și cu un sistem de recunoaștere de vorbire pentru a creea transcrieri a
înregistrărilor.
Indexarea audio este o altă categorie de aplicație a recunoașterii vorbirii. Indexarea audio
presupune indexarea materialelor audio înregistrate, iar odată creat, textul transcris este stocat într-o bază de date si poate fi accesat într -un mod similar celui căutari i în paginile web bazate
pe text [5].
5
2. Recunoașterea vorbitorului
2.1 Principii
În ultima vreme, a fost acordată din ce în ce mai multă atenție sistemelor de recunoaștere
a vorbitorului , datorită ariei vaste a aplica bilității acestora. Recunoașterea vorbitorului, care
implică două aplicații: verificarea vorbitorului și identificarea vorbitorului , este procesul
automat de recunoaștere a individului care vorbește, bazat pe informația individuală ce se
regăsește în forma de undă a vocii /semnalului audio.
Figura 2.1 – Ramuri ale recunoașterii vorbitorului [6]
2.1.1 Verificarea vorbitorului
Verificarea vorbitorului este o subramură a recunoașterii vorbitorului, iar sistemele care
o implementează verifică daca cel care vorbește este persoana care pretinde a fi . Această
subramură este recunoscută și prin termenii: „verificare de voce”, „autentificare vocală”, „autentificarea vorbitorului”. Se efectuează o comparație unu -la-unu (1:1), denumită și
decizie binară, între caracteristicile u nei voci de intrare și cele ale vocii înregistrate în baza de
date [11] , acestea fiind ilustrate în figura următoare:
Figura 2.2 – Structura de bază a unui sistem de verificare a vorbitorului [6]
6
Una dintre provocările majore în cadrul acestor sisteme este încercarea de a găsi un prag
de încredere care poate fi folosit pentru luarea deciziilor. Astfel, un prag mare face dificilă
acceptarea vorbitorului în sistem și poate duce la refuz pentru persoanele reale. Pe de altă
parte, un prag scăzut facilitează v erificarea vorbitorului, dar cu riscul de a accepta impostori.
Verificarea vorbitorului este adesea utilizată în sistemele de acces cu un nivel de securizare
ridicat [7].
2.1.2 Identificarea vorbitorului
Identificarea vorbitorului este folosită pentru a decide daca un vorbitor necunoscut este o
persoană specifică sau aparține la un grup dat de persoane. Aceasta se realizează prin compararea vocii vorbitorului cu mai multe voci dintr -o bază de date (relația de comparare
este unu-la-mai-mulți – 1:N). Baza d e date conține modelele tuturor vorbitorilor cunoscuți, iar
vorbitorul necunoscut este identificat în baza de date ca fiind cea mai bună potrivire între
vocea sa și un anumit model din baza de date [13] .
Figura 2.3 – Strucutra de bază a unui sistem de identificarea a vorbitorului [6]
2.1.3 Dependența și independența de text
Așa cum F igura 2.1 ilustrează, identificarea și verificarea vorbitorului pot fi împărțite în
sisteme dependente sau independente de text. Sistemele dependente de text iau decizii doar
pentru exemple de texte specifice (texte cunoscute de către sistem) . Sistemele independente
de text sunt mult mai flexibile și pot lua decizii cu privire la exemple independente de text
(orice texte, necunoscute de către sistem) [6][12].
2.1.4 Fazele identificării vorbitorului
Pentru aproape orice sistem de recunoaștere, antrenarea (învățarea) reprezintă p rimul
pas. Acest pas este recunoscut sub denumirea de „fază de înrolare ”. Faza de înrolare este
aceea prin care se obțin modelele vorbitorilor (voice prints) pentru a fi stocate în baza de date
și care ar putea fi folosite ulterior în faza următoare, și anume: „ faza de identificare” .
7
Figura 2.4 – Fazele identificării vorbitorului [10]
Ambele faze implică un pas comun, și anume acela de extragere a caracteristicilor, prin
intermediul căruia se culeg caracteristicile din secvența fomrei de undă audio pentru fiecare
vorbitor în parte. Scopul acestui pas este acela de a reduce cantitatea de date ce trebuiesc
testate în timp ce sunt reținute informații despre vorbitor. În final, în faza de înrolare, aceste
caracteristici sunt modelate și stocate în baza de date.
În timpul fazei de înrolare, sunt colectate secvențe de forme de undă de la vorbitor , fiind
folosite pentru antrenarea modelului propriu. Colec ția tuturor modelelor antrenate poartă
denumirea de „bază de date a vorbitorului”.
În cea de a doua fază, faza de identificare, vocea de test de la un vorbitor necunoscut este
comparată cu cele din baza de date. În funcție de rezultatele obținute în urma c omparărilor, se
ia decizia finală despre identitatea vorbitorului [9][10].
2.2 Extragerea caracteristicilor vorbitorului
Procesul comun a tuturor formelor de sisteme de recunoaștere de vorbitor și vorbire este
extragerea vectorilor de caracteristici din segmente uniform distribuite în timp ale semnalului vocal eșantionat.
Parametrii de voce utilizați atât în domeniul recunoașterii limbajului vorbit, cât și în
domeniul recunoașterii de vorbitor pot fi: coeficienții de predicție liniară LPC (Linear
Predictive Coefficients) , coeficienții cepstrali din scara Mel MFCC (Mel Frequency Cepstral
Coefficients) , coeficienții perceptuali de predicție liniară PLP (Perceptual Linear Prediction)
etc. Acești parametri de voce se vor folosi atât în etapa de antrenare, pe baza cărora se creează modelele acustice, cât și în etapa de recunoaștere. Parametrii de voce vor fi calculați la fiecare fereastră de timp și vor forma vectorul de obsevații [13][ 14].
2.2.1 Preprocesarea semnalului vocal
Înainte de a extrage caracteristicile, semnalul vocal trebuie să sufere următoarele
procesări:
8
a) Accentuare: un filtru trece sus este folosit pentru a accentua frecvențele înalte și a
compensa faptul că sistemul fona tor uman tinde să atenueze aceste frecvențe.
b) Segmentare : semnalul vocal este nestaționar în timp lung însă cvasi -staționar în timp
scurt, de ordinul 10- 30 ms de aceea semnalul vocal este împărțit în segmente de
durată fixă numite cadre. Dimensiunea tipică a unui cadru este 20 ms ele generându –
se din 10 în 10 ms astfel încât să aibă loc o suprapunere de 15 ms de la o fereastră la alta.
c) Atenuare : fiecare fereastră este mutiplicată cu o funcție fereastră, de obicei fereastra
Hamming, pentru a atenua efectul ca uzat de seg mentarea cu ferestre finite [15][19] .
Figura 2.5 – Preprocesarea semnalului vocal [15]
2.2.2 Parametrii MFCC
Caracteristicile bazate pe spectru sunt coeficienții cepstrali în scară Mel (MFCC) și
succesul lor se datorează faptului că utilizează un banc de filtre, cu o scară perceptuală
similară cu sistemul auditiv uman, pentru a procesa transformata Fourier. De asemenea, acești coeficienți prezintă o robustețe la zgomot și flexibilitate datorită procesării cepstrale.
Pentru a determina coeficienții cepstrali se va aplica mai întâi transformata Fourier
semnalului vocal, iar spectrul rezultat urmând să fie netezit printr -un banc de filtre
triunghiulare. Acestea calculează spectrul mediu în jurul frecvenței centrale a fiecărei benzi, iar fiecare filtru va ocupa o bandă mai largă în funcție de ordinea din filtru, aș a cum este
prezentat și în F igura 2.6 :
Figura 2.6 – Banc de filtre și formula unui filtru triunghiular [16]
Numărul de filtre dintr -un banc este configurabil în sistemele de recunoaștere, variind
între 24 – 40 de filtre.
Se calculează energia logaritmică la ieșirea fiecărui filtru, iar apoi se vor calcula
coeficienții cep strali prin tranformata cosinus discretă ( DCT – Discrete Cosinus Transform ).
Transformata cosinus discretă are capacitatea de a concentra informația spectrală într -un
număr mai mic de parametrii și de a decolera aceste valori [7][16] .
9
2.2.3 Parametrii de voce LPC
Etapele pentru calculul coeficienț iilor LPC sunt prezentate în figura următoare:
Figura 2.7 – Etapele calculului coeficienților LPC [17]
Etapa de preaccentuare se folosește pentru egalizarea tăriei sonore. În etapa de
segmentare în blocuri , semn alul preamplificat este împărțit în cadre de N eșantioane, iar
cadrele adiacente vor fi separate de M eșantioane. Dacă M ≤ N, atunci cadrele alăturate se vor
suprapune, iar estimații spectrali LPC rezultați vor fi corelați din cadru în cadru daca M << N. În cazul acesta estimații spectrali vor varia foarte puțin. În cazul în care M>N nu va apărea
suprapunearea între cadre, dar o parte din semnal va fi pierdut și corelația între estimații spectrali LPC din cadre alăturate va conține o componentă de zgomot care crește odată cu M. Urătorul pas constă în ferestruirea fiecărui cadru . Ferestruirea va minimiza discontinuitățile
semnalului la începutul și sfârșitul fiecărui cadru.
Există două metode mai cunoscute de a determina coeficienții LPC: metoda covarianței
și metoda corelației . După aplicare uneia dintre metode de soluționare a unui sistem se va
face analiza LPC , ultima etpă fiind de conversie a coeficiențiilor LPC [17] [18].
2.2.4 Parametrii de voce PLP
Etapele calculului coeficiențiilor PLP sunt prezentate în Fig ura 2.8. Semnalul vocal este
inițial supus unei analize spectrale, folosind segmente vocale de 20 ms lungime și o fereastră
de tip Hamming.
Figura 2.8 – Etapele calculului coeficienților PLP [17]
10
În tehnica PLP proprietățiile semnalului auditiv sunt simulate prin diferite apoximări.
Spectrul semnalului rezultat va fi apoximat cu un model numit „ numai poli ” autoregresiv
[17][18] .
2.3 Modele și algoritmi
2.3.1 Modelul Markov Ascuns (HMM – Hidden Mark ovModel)
Un HMM (Hidden Markov Model) este un instrument ce reprezintă distribuția de
probabilitate a unei secvențe de observații. Acesta este un automat cu stări finite, având un set
de stări conectate cu arce ce reprezintă tranziții. Secvența de stări este ascunsă, nu îi este direct disponibilă observatorului. Fiecare stare are atașată o funcți e de densitate de
probabilitate .
Figura 2.9 – Reprezentare detaliată a unui HMM [20]
Un HMM este caracterizat de un set de stări Q =
q1, q2, …, q N, un set de probabilități ce
reprezintă probabilitățile de tranziție între stări și un set de observații probabilistice B = b i(xt)
= p(x t|qi) care exprimă probabiliatea ca observația xt să fie generată de starea i.
În general, se cunosc numai parametrii mode lului și semnalul de la intrare (observațiile),
secvența de stări fiind ascunsă (necunoscută). Astfel probabilitatea ca un model dat să
genereze observațiile trebuie calculată prin însumarea tuturor secvențelor de stări posibile.
Algoritmul HMM este re prezentat de următorul pseudocod:
FOR fiecare vorbitor
FOR fiecare versiune de înregistrare
Extrage secvența de simboluri obținută cu modelele acustic fonetice
(o secvență pentru fiecare model)
Generează secvența de stări conform segmentării fonetice
Memorează (adaugă) ambele secvențe la datele modelului
END FOR
END FOR
După ce se execută întregul algoritm se obțin tipuri de modele acusticfonetice pe baza
cărora se pot antrena modelele Markov [21] .
2.3.2 Modelul bazat pe mixturi Gaussiene (GMM – Gaussian Mixture Model)
Un GMM (Gaussian Mixture Model) este o sum ă ponderat ă de Gaussiene. GMM- urile
sunt folosite pentru modelarea probabilit ății de distribu ție a caracteristicilor (features) î ntr-un
sistem biometric, cum ar fi caracteristicile spectrale î ntr-un sistem de recunoa ștere de vorbire.
În cazul sistemelor de recunoaștere de vorbitor clasificarea pe bază de GMM- uri are
rezultate foarte bune. O cauză bună a rezultatelor bune este datora tă algoritmului expectation –
11
maximization (EM). Caracteristica cheie a acestui algoritm este că poate garanta convergența
setului de parametri optimi în doar câteva iterații.
Cu toate acestea putem observa și câteva dezavantaje ale folosirii GMM- urilor. Un
dezavantaj important este acela că pentru crearea unui model puternic este nevoie de o un set
mare de antrenare. Acestă problemă poate fi însă rezolvată folosind matricea diagonală de covarianță, în favoarea celei normale. O a doua problemă ar fi ca datele necunoscute de
sistem, deci care nu au fost folosite la crearea modelelor, dar care apar în setul de testare vor
produce un scor mic pentru acele date, iar performanța generală a sistemului se va degrada.
De exemplu, pentru un anumit vorbitor anumite cara cteristici ale vocii sale nu se regăsesc în
setul de antrenare, deci nu se vor găsi nici în modelul său, dar când aceste caracteristici vor aparea în setul de test vor obține un scor mic. Soluția ar putea suna simplu, setul de antrenare
să fie cât mai mare și mai variat, dar în practică, în sistemele de recunoaștere de vorbitor,
problema este un pic mai greu de combătut [22] .
2.3.3 Modelul universal de Mixturi (UBM – Universal Background Model )
În verificarea vorbitorului , identitatea se verifică prin compararea unei rostiri cu modelul
stocat , dar și cu modelul impostorului. Modelul impostorului este un model cu mixturi
Gaussiene care modelează toți vorbitorii în afară de vorbitorul dorit și poartă denumirea de
model universal (UBM); deși acest model ar treb ui să conțină mixturile tuturor vorbitorilor
mai puțin ale celui dorit în practică se stochează toate mixturile chiar și ale vorbitorului dorit
având astfel avantajul de a putea fi folosit pentru orice verificare. Un astfel de model, datorită numărului foa rte mare de vorbitori, în mod uzual este format dintr -un număr mai mare de
distribuții Gaussiene, de ordin 256 sau mai mult, el reprezentând distribuția independentă de vorbitor a întregii populații.
Deși un model universal poate fi folosit pe un set deschis de vorbitori pentru a detecta
vorbitorii necunoscuți într -un set închis de vorbitori nu este neapărat nevoie utilizarea unui
model universal, modelele fiecărui vorbitor fiind suficiente pentru identificare, cu toate
acestea un model universal este mai b ine antrenat decât orice model cu mixturi Gaussiene
deoarece modelează toate caracteristicile ale tuturor vorbitorilor și nu suferă de probleme
precum insuficiente date de antrenare. În plus datorită procesului de maximizare a
probabilităților cu puține in formații se poate adapta un model al unui vorbitor pornind de la
modelul universal folosind adaptarea Maximum A -Posteriori; astfel este mai ușor să
contruiești un model general și apoi prin MAP să extragi modelul unui vorbitor specific [14],
precum în figura următoare:
Figura 2.10 – Algoritm antrenare și testare folosind modelul universal [23]
12
2.4 Baze de date
Importanța bazei de date de vorbire într -un sistem de recunoa ștere a vorbitorului este
evidențiată în f igurile 2.2 – 2.4. Se poate observa că această bază de date este utilizată în
partea de dezvoltare a unui sistem de recunoaștere, mai precis la antrenarea modelului
acustic. Baza de date de vorbire este utilizată și în procesul de evaluare a unui sistem de
recunoaștere de vorbire .
2.4.1 Baza de date TIMIT (Texas Instruments Massachusetts Institute of Technology)
Baza de date este împ ărțită în două părți: setul de antrena re și cel de testare și conține în
totalitate rostirile a 630 de vorbitori, 70 % de sex masculin și 30% de sex feminin, de la 10
regiuni diferite prin dialect din America, grupa ți pe bază de dialect în 8 clase. Fiecare
vorbitor roste ște 10 propozi ții și are aproximativ 30 de secunde interval de vorbire .
Discursurile au fost înregistrate cu un microfon de înaltă calitate într -o cabină de probă de
sunet la o frecvență de eșantionare de 16kHz fără interval între sesiunile de înregistrări.
2.4.2 Baza de date ANDOSL (Australian National Database of Spoken Lan guage)
ANDOSL este o bază de date dezvoltată în comun de către Universitatea din Sydney,
Universitatea Macquarie și National Acoustic Laboratories, constând din diverse grupuri
fonologice din Australia. Scopul ANDOSL a fost de a reprezenta cât mai multe gr upuri
importante posibile de vorbitori.
Baza de date ANDOSL este formată 129 de vorbitori, dintre care 67 sunt de sex feminin,
iar restul de 62 sunt de sex masculin, acoperind 3 tipuri de engleză australiană: largă, generală și cultivată. Fiecre vorbitor a evoluat 4 sarcini de vorbire, constând în: 200 de
exemple fonetic bogate, un set de cifre rostite și două sarcini de vorbire spontană.
ANDOSL a fost înregistrată în condiții extrem de „curate”, la o rată de 20 kHz, cu o
rezoluție de 16biți.
2.4.3 Baza de date ELSDSR ( English Language Speech Database for Speaker
Recognition )
Bază de date de vorbire în limba engleză, ELSDSR a fost concepută pentru a oferi date
de vorbire pentru dezvoltarea și evaluarea sistemelor automate de recunoaștere de vorbitori. Creearea acestei baze de date a fost un efort comun al studenților și masteranzilor de la Departamentul de Informatică și modelare matematică din cadrul Universității Tehnice din Danemarca (DTU).
Limba de vorbire este engleza și au fost înregistrați 20 de danez i, un islandez și un
canadian. ELSDSR a fost proiectată și înregistrată în clădirea 321 și a fost distribuită ca primă versiune preliminară în anul 2004.
Intenția de a crea această bază de date este de a obține mesajele vocale bogate de la un
mic grup de vorbitori cu reședința în Danemarca. Cele mai multe înregistrări provin de la
non-vorbitori nativi de limba engleză. Această bază de date a fost evaluată într -un proiect
general pentru identificarea vorbitorilor în condiții de independență de text și cu se t închis.
13
2.5 Evaluarea sistemelor de recunoaștere a vorbitorului
În sistemele de recunoaștere de vorbitor două măsurători mai populare sunt folosie
pentru evaluarea performanțelor: rata de falsă acceptare (FAR – False Acceptance Rate) și
rata de falsă rejecție (FRR – False Rejection Rate) .
Rata de falsă acceptare reprezintă probabilitatea ca sistemul să accepte eronat accesul
unui vorbitor neautorizat, deci a unui impostor. Rata de falsă acceptare pentru un vorbitor
este dată de formula:
FAR [%] =#acceptări eronate ale unui vorbitor neautorizat
#încercări de autentificare ale vorbitorului neautorizat × 100
FRR[%] =#rejecții eronate ale vorbitorului autorizat
#încercări de autentificare ale vorbitorului × 100
În cazul sistemelor de recunoaștere de vorbit or, vocea unui vorbitor este comparată atât
cu modelul vorbitorului pretins, cât și cu modelul general pentru vorbire, modelul tuturor vorbitorilor din sistem. Scorurile obținute vor fi comparate cu un prag, dacă scorul obținut este peste un anumit prag at unci vorbitorul este acceptat, în caz contrar acesta va fi respins.
Dacă variem acest prag de decizie, FAR și FRR vor varia în direcții opuse. De exemplu, dacă creștem pragul, FAR se va micșora fiind mai puține acceptări eronate datorită pragului mai ridicat, dar FRR va crește, iar în cazul în care scădem pragul FRR se va micșora, iar FAR va
crește, sistemul accepând mai mulți impostori. Punctul tipic de alegere al pragului este atunci când FAR = FRR, și mai este numit și condiția de rată de eroare egală (E RR – Equal Error
Rate). În f igura de mai jos sunt reprezentate FAR și FRR în funcție de pregul de decizie ales.
Figura 2.11 – Variația FAR și FRR în funcție de pragul de decizie ales [17]
14
Bibliografie
[ 1 ] Anil K. Jain, Patrick Flynn, Arun A. Ross, „ Handbook of Biometrics ”, Springer, 2008
[ 2 ] Lisa Myers, „An Exploration of Voice Biometrics ”, 2004
[ 3 ] S. Pruzansky, „ Pattern -matching procedure for automatic talker recognition ”, 1963
[ 4 ] R. A. Cole and colleagues, „Survey of the State of the Art in Human Language
Technology”, National Science Foundation European Commission, 1996.
[ 5 ] Dakshina Ranjan Kisku, Phalguni Gupta, Jamuna Kanta Sing, „Advances in Biometrics
for Secure Human Authentication and Recognition ”, CRC Press, 2013
[ 6 ] Beigi, Homayoon, „ Fundamentals of Speaker Recognition ”, Springer, 2011
[ 7 ] J. Rosca, A. Kofmehl, „ Cepstrum -like ICA Representations for Text Independent
Speaker Recognition”, IC A, 2003.
[ 8 ] D.A. Reynolds, R.C. Rose, „ Robust text -independent speaker identification using
Gaussian Mixture speaker models ”, 1995.
[ 9 ] L. P. Cordella, P. Foggia, C. Sansone, M. Vento, „ A Real -Time Text -Independent
Sp eaker Identification System ”, Proceedings of the ICIAP, 2003.
[ 10 ] J.P. Campbell, „ Speaker Recognition: A Tutorial ”, Proc. of the IEEE, 1997
[ 11 ] J. M.Naik, „ Speaker Verification: A Tutorial ”, IEEE Communications Magazine,
1990 [ 12 ] D. A. Reynolds, „ An overview of automatic speaker recognition technology ”,
ICASSP, 2002.
[ 13 ] B. S. Atal, „ Automatic recognition of speakers from their voices”, Proc. IEEE, Vol.
64, 1976. [ 14 ] Roberto Togneri, Danie l Pullella, „ An Overview of Speaker Identification: Accuracy
and Robustness Issues”
[ 15 ] Călin Necula, „ Caller ID folosind vocea, aplicație pentru Call Center ”,
http://speed.pub.ro/speed3/wp- content/uploads/2015/04/Proiect -Dizertatie -Necula –
Calin.pdf
[ 16 ] H. Ezzaidi, J. Rouat, D. O’Shaughnessy, „ Towards Combining Pitch and MFCC
for Speaker Identification Systems”, Proceedings of Euros peech 2001, Sep 2001.
15
[ 17 ] SpeeD – Speech & Dialogue Research Laboratory, „ Research and Development
Project in Spoken Language Technology ”, http://speed.pub.ro/speed3/wp-
content/uploads/2014/02/Indrumar -de-proiect -PCDTV- v11.pdf
[ 18 ] S. Furui, „ Cepstral analysis technique for automatic speaker verification ”, IEEE
Trans. Acoustics, Speech, Signal Processing, 1981
[ 19 ] James H. McClellan, Ro nald W. Schafer, Mark A. Yoder, „ Signal Processing First ”,
2003
[ 20 ]
T. Matsui and S. Furui, „ Comparison of text -independent speaker recognition methods
using VQ -distortion and discrete/continuous HMMs ”, Proc. ICSLP, 1992
[ 21 ] Hsu, A.S., Chater, N., „ The logical problem of langage acquisition ”, 2010
[ 22 ] C.W.J, „ Speaker Identification using Gaussian Mixture Model ”, Speech Processing
Laboratory at National TaiWan Univeristy, May. 2000.
[ 23 ] Najim Dehak , Stephen Shum, „ Low-dimensional speech representation based on
Factor Analysis and its application ”, Spoken Language System Group MIT
Copyright Notice
© Licențiada.org respectă drepturile de proprietate intelectuală și așteaptă ca toți utilizatorii să facă același lucru. Dacă consideri că un conținut de pe site încalcă drepturile tale de autor, te rugăm să trimiți o notificare DMCA.
Acest articol: „Tehnici Moderne de Programare” Tema „Identificarea vorbitorului ” Student Alin-Nicolae HORȚ Anul I, Tehnologii Multimedia 2 Cuprins 1. Introducere… [600467] (ID: 600467)
Dacă considerați că acest conținut vă încalcă drepturile de autor, vă rugăm să depuneți o cerere pe pagina noastră Copyright Takedown.
