Determinarea Directiei de Venire a Undei Sonore
Universitatea “Politehnică” din București
Facultatea de Electronică, Telecomunicații și Tehnologia Informației
Determinarea direcției de venire a undei sonore
Proiect de diplomă
prezentat ca cerință parțială pentru obținerea titlului de
Inginer în domeniul Inginerie electronică și telecomunicații
programul de studii de licență Tehnologii și sisteme de comunicații
Conducători științifici Absolvent
Prof. Dr. Ing. Cristian Negrescu Vanghele Ramona-Georgiana
As. Drd. Ing. Victor Popa
Figură 1.1 Propagarea undelor în spațiu 6
Figură 1.2 Funcția de sensibilitate 7
Figură 1.3 Simularea auzului uman 7
Figură 1.4 Diagrama directivității în azimut 8
Figură 1.5 Diagrama directivității în elevație 9
Figură 2.1 Ferestrele inițiale 14
Figură 2.2 O singură fereastra Hann 14
Figură 2.3 Suprapunerea a două ferestre 15
Figură 2.4 Suprapunerea a 3 ferestre 15
Figură 2.5 Suprapunerea a 4 ferestre 16
Figură 2.6 Schema Bloc prelucrarea semnalelor audoi cu STFT 17
INTRODUCERE
În ultimii ani, problema de localizare a unei surse de sunet a primit un interes tot mai mare din partea comunității științifice, datorită faptului că acest tip de aplicație este indispensabil în multe domenii (militar, criminalistic, sănătate, teleconferințe, inovație tehnologică). În multe aplicații de procesare audio se pot obține beneficii substanțiale din cunoașterea poziției sursei care emite semnalul sonor. De exemplu putem să ne referim la utilitatea de a cunoaște poziția unei nave care a lansat un proiectil folosindu-ne doar de zgomotul produs de eliberarea acestuia sau un alt exemplu posibilitatea ca o mașină autonomă să execute manevrele necesare pentru eliberarea benzii de circulație automat, atunci când se apropie o salvare, idee care conduce din nou la utilitatea determinării direcției de venire a undei sonore. Din acest motiv, multe eforturi au fost dedicate investigării acestui domeniu de cercetare și de-a lungul timpului au fost propuse mai multe abordări alternative pentru rezolvarea acestei probleme. Este ușor de intuit că un prim pas în localizarea unei surse de sunet este acela de determinare a direcției de venire a undei sonore. În mod evident, algoritmi pentru localizarea sursei de sunet se bazează pe o estimare a diferenței de timp de sosire (TDOA), pentru undele sonore care ajung la microfoane diferite, parametru din care se pot obține informații cu privire la poziția spațială a unei surse emițătoare.
În această lucrare ne vom ocupa în special de aflarea acestui parametru prin simulări experimentale a două metode de estimare TDOA efectuate cu ajutorul mediului de dezvoltare MATLAB, și anume intercorelația generalizată în fază (GCC-PHAT) și descompunerea adaptivă a valorii proprii (AED). Ne propunem să parcurgem în primul rând teoriile GCC-PHAT și AED și proprietățile acestora. Experimentele sunt efectuate pe fișiere de tip wav. Pentru implementarea și exemplificarea celor două metode s-a folosit o pereche de două microfoane.
Lucrarea de față cuprinde însă expunerea mai multor idei care ne vor ajuta să ne apropiem mai mult de conceptul de TDOA. Așadar primul capitol se ocupă de formularea problemei , introducerea în teoria TDOA, funcționarea șirurilor de microfoane modelelor și tipurilor de surse, semnale și medii de aplicare; capitolul următor pune în evidență un instrument foarte folosit în procesarea de semnal audio și anume transformata Fourier pe termen scurt (STFT); cel de al treilea capitol cuprinde pe larg metoda GCC împreună cu un exemplu de implementare și rezultatele obținute cu ajutorul acesteia, iar ultimul capitol se referă la metoda AED de asemenea însoțită de un exemplu de implementare. În finalul lucrării, sunt enumerate câteva concluzii cu privire la utilitatea celor două metode și avantajele folosirii lor.
Instrumente și concepte utile în explorarea domeniului TDOA
Atunci când se dorește să se afle poziția unei surse de sunet, se pune problema determinării direcției din care vine unda sonoră produsă de aceasta la un moment dat. În acest sens, este util să ne gândim că doi observatori plasați în câmpul sonor la distanțe diferite față de sursa emițătoare, vor sesiza la momente de timp diferite prezența sunetului. Așadar utilizarea unor sonde în locul celor doi observatori ne va ajuta să determinăm care este diferența între cele două momente de timp și care dintre cele două microfoane se află mai aproape de sursă.
Modele de surse sonore
Sursele de sunet se pot clasifica după mai multe criterii:
După alura câmpului sonor sursele sonore pot fi:
Punctuale
Rectilinii
Planare
După componență sursele sonore pot fi:
Singulare
Multiple
În lucrarea de față pentru exemplificare s-a considerat că sursă este punctiformă și singulară.
Modele de semnal folosite în estimarea diferenței de timp
1.2.1. Modelul ideal
Atunci când avem la dispoziție două microfoane, situate la distanțe diferite față de sursa S care emite un semnal sonor , unda de semnal care ajunge la microfonul mai îndepărtat va fi întârziată cu un timp t față de unda sonoră de la celălalt microfon. Putem să considerăm că semnalul ajuns la unul dintre microfoane poate fi modelat prin expresia unde reprezintă atenuarea datorată propagării, este timpul în care unda ajunge de la sursa sonoră necunoscută la microfonul i, iar reprezintă zgomotul aditiv de la microfonul i (proces staționar gaussian de medie 0; , și sunt necorelate) diferența de timp dintre cele două semnale (semnalul ajuns la microfonul 1 și semnalul ajuns la microfonul 2) va fi egală cu . Trecând în domeniul frecvență, se obține relația: . Știind ca transformata Fourier a funcției de intercorelație este: , putem observa că transformata Fourier inversă a acesteia prezintă un vârf în domeniul timp corespunzător diferenței de timp t.
1.2.2. Modelul real
Fața de cazul ideal în situațiile reale este nevoie să luam în considerare și reverberațiile din mediul acustic pentru a reprezenta mai complet semnalele recepționate de microfoane, semnale care pot fi exprimate prin relația: , unde reprezintă produsul de convoluție dintre semnalul provenit de la sursa sonoră și funcția pondere a "sistemului" prin care se propagă acest semnal de la sursa S până la microfonul i; zgomotele și pot fi corelate
Microfoanele
Microfoanele pot fi folosite în mod individual sau grupate în diverse configurații. Pentru a determina direcția de venire a unei unde sonore este necesar să se folosească mai multe microfoane, astfel că folosirea unui singur microfon nu este de ajutor în acest caz.
Viteza cu care o unda sonoră se propagă prin aer la temperatura normală este de 344 m/s
Pentru planul de undă, soluția ecuației de undă ia forma:
[ ]
unde indică direcția de propagare, iar este vectorul de poziție relativ la sursa sonoră
Definim apertura ca fiind regiunea din spațiu specifică unui dispozitiv de emisie sau recepție, prin care se transmit sau se primesc undele care se propagă. În cazul acesta, vorbim despre apertura microfonului/șirului de microfoane. Corespunzătoare aperturii este funcția de sensibilitate, notată cu w(f,r), care se comportă ca o funcție de poziție atunci când apertura microfonului primește semnal de la o sursă .
Această idee este ilustrată pe pagina următoare.
Semnalul recepționat la punctul de pe apertură va avea expresia:
În aceste condiții se determină răspunsul aperturii sau directivitatea ca fiind:
expresie care ne indică direcția din care sosește unda sonoră
Cea mai simplă configurație în care se pot grupa niște microfoane pe care le avem la dispoziție este reprezentată de șirul liniar de microfoane.
Un șir de microfoane este un dispozitiv realizat prin alăturarea mai multor microfoane și care are aplicații în determinarea direcției de venire a undei sonore și localizarea surselor sonore. Șirul de microfoane reprezintă o apertură discretă de recepție. Demonstrația și relațiile de trecere de la directivitatea aperturii continue la cea discretă, pentru un șir de microfoane liniar sunt detaliate în .
Rezumându-ne la un șir format numai din două microfoane, putem să scriem relația directivității după cum urmează:
unde și corespund primului microfon, iar și corespund celui de al doilea microfon.
Când avem de a face cu o aplicație de tip teleconferință perechea de microfoane se află în general fixată pe o suprafață plană; la fel și în cazul simulării auzului uman folosind două microfoane pe un manechin static, suprafața pe care se află acestea este plană și nu se modifică.
Atunci putem să particularizăm și să spunem că cele două microfoane și se vor afla mereu pe un plan orizontal, funcția de mai sus ajungând la forma:
unde reprezintă spațierea dintre microfoane, iar ia valori cuprinse între și .
Șirurile liniare necesită o distanțare inter-element de , pentru a evita ca în diagrama directivității să apară copii ale lobului principal, unde este cea mai mică lungime de undă de interes (corespunzătoare celei mai înalte frecvențe). De asemenea, modelul de directivitate este simetric față de axa șirului.
Exemplu: considerăm că avem două microfoane care recepționează un semnal cu frecvența de 1kHz și sunt situate la distanța d=0,17m, valoare care respectă condiția precizată mai sus. Considerând că (similară unui filtru aplicat la microfonul n) , diagrama directivității în azimut și elevație în acest caz este prezentată în figurile următoare:
De asemenea, se poate observa cum variază această caracteristică în funcție de numărul de microfoane, Nmic, distanță dintre acestea, d, și variația în funcție de frecvența f prin rularea programului directivitate_N_mic.m din arhiva alăturată acestui fișier. Implementarea a fost realizată cu ajutorul formulei (1.6) generalizate. Codul programului este listat în Anexa1.
Cu ajutorul funcției de sensibilitate, , se pot proiecta filtre care să modifice diagrama directivității astfel încât să se asigure că direcția de recepție este cea cu directivitate maximă. Acest lucru, înseamnă că șirurile de microfoane pot fi folosite ca beamformer-e (formatoare de fascicul).
Tehnica beamforming sau filtrarea spațială se referă la prelucrarea a semnalului preluat de șiruri de senzori pentru care transmisia sau recepție se fac în funcție de direcție. Acest lucru se realizează prin combinarea unor elemente într-o matrice/rețea, astfel încât semnalele venite în anumite unghiuri să se compună, în timp ce altele, incidente sub alte unghiuri pe rețeaua de senzori, să se anuleze. Tehnica beamforming poate fi utilizată atât la capetele de transmisie și recepție cât și pentru a realiza selectivitatea spațială. Ameliorarea în comparație cu transmisia sau recepția omnidirecțională este cunoscută sub numele de directivitate a elementului.
Pentru un șir liniar, funcția de sensibilitate corespunzătoare unui filtru TD (time-delay) este:
unde reprezintă numărul microfonului din șir, iar indică unghiul la care se află sursa acustică față de dispozitivul receptor. Înlocuind expresia de mai sus în funcția directivității rezultă:
Această expresie reprezintă o legătură între direcția lobului principal al dispozitivului receptor și direcția sursei și dispozitivul corespunzător este numit sum-delay beamformer.
Transformata Fourier pe Termen Scurt în Timp Discret (STFT) și Inversa ei
În general, semnalele audio nu sunt staționare, însă, datorită faptului că au caracteristici care sunt lent variante în timp (relativ la perioada de eșantionare) ele poate fi considerate staționare doar pe intervale scurte de timp.
Din acest motiv, în prelucrarea semnalelor audio este de dorit să împărțim semnalul de intrare în intervale de timp mai scurte în care să sa păstreze condiția de staționaritate. Transformata Fourier pe Termen Scurt s-a dovedit a fi o modalitate potrivită în realizarea acestui deziderat.
2.1.Transformata Fourier Scurtă în Timp
Notată cu STFT, de la varianta sa englezească Short-Time Fourier Transform, aceasta reprezintă transformata Fourier a blocurilor dintr-un semnal obținute cu ajutorul unei ferestre de un tip ales. Suprapunerea acestor blocuri se poate face sub diferite procente. În continuare am ales o suprapunere egală cu un procent ales pentru a putea respecta condiția de refacere perfectă a semnalului inițial prelucrat cu fereastra considerată notată cu. Se presupune că fereastra este nenulă pentru n având valori cuprinse între 0 și N-1, N reprezentând lungimea ferestrei.
Un bloc de lungime m dintr-un semnal se obține din înmulțirea semnalului cu fereastra aleasă și se notează cu :
Transformata Fourier pe Termen Scurt se obține prin calculul Transformatei Fourier Directe în Timp (DTFT) pentru fiecare bloc s(m,n):
STFT în timp discret pentru un semnal este notată cu.
2.2. Inversa STFT
Inversa STFT începe cu inversa DTFT sau pentru reconstrucția :
Acum din semnalele se dorește reconstruirea lui prin înmulțirea fiecărui cu fereastra corespunzătoare shiftată (se va folosi aceeași fereastră) și adunarea sa la rezultat. Înmulțind un bloc de lungime n cu fereastra shiftată se obține:
La următorul pas, pentru STFT inversă se adună aceste blocuri suprapuse pentru a se obține semnalul final notat y(n):
Numim această expresie STFT inversă, doar dacă, altfel, dacă fereastra nu se alege corect, atunci reconstruirea semnalului original nu va mai fi posibilă, obținut fiind diferit de .Reconstruirea perfectă a semnalului inițial se poate face doar dacă se respectă condiția de reconstruire perfectă discutată în paragraful următor sau dacă din suprapunerea ferestrelor cu procentul p rezultă o valoare constantă, la care se împarte semnalul obținut după aplicarea ISTFT.
2.3. Condiția de reconstruire perfectă
Alegerea ferestrei se va face astfel încât să asigure că STFT inversă este într-adevăr o funcție inversă.
Definim astfel, funcția fereastră pătratică și putem scrie că:
Așadar, se deduce că pentru o reconstruire perfectă este necesar să se îndeplinească următoarea condiție:
Un aspect important de remarcat în folosirea ferestrelor este că pentru reconstruirea semnalului original, primul eșantion și ultimul sunt excepții pentru că începutul și sfârșitul semnalului nu se pot inversa folosind aceeași funcție, însă dacă semnalul este suficient de lung aceste câteva eșantioane pot să nu conteze.
Termenul: este periodic cu perioada , prin urmare este suficient să verificăm condiția doar pentru puncte sau pentru orice gamă de eșantioane din . Mai mult, peste acest interval doar doi termeni sunt mai evidenți și, deci condiția se simplifică ajungând la forma:
În concluzie, reconstruirea perfectă se face pentru:
Se pot proiecta diferite ferestre care să satisfacă relația de mai sus. Cea mai simplă fereastră care satisface această relație este fereastra dreptunghiulară, însă datorită faptului că se termină brusc la capete și prin urmare cauzează discontinuități la limitele blocurilor, atunci când se folosește STFT, nu o putem considera a fi o fereastră tocmai potrivită.
2.4. Implementarea STFT cu fereastra Hann
Pentru implementare s-a ales folosirea unei ferestre Hann cu o suprapunere de 75% între blocurile consecutive. Pentru această alegere a trebuit mai întâi să se verifice condiția de reconstrucție perfectă.
Știm că o fereastră Hann are expresia:
, iar
Am ales o lungime a ferestrei de de eșantioane pentru a simplifica calculul și pentru ca procentul de suprapunere să fie mai evident și ușor de urmărit.
În continuare vom demonstra că din suprapunerea ferestrelor rezultă o valoare constantă:
Mai departe urmează să se adauge fereastra , eliminându-se în același timp fereastra (procentul de suprapunere fiind de 75%, rezultă că blocurile selectate se vor suprapune 4 câte 4). Se observă că rezultatul va fi aceeași. Prin inducție rezultă că oricâte ferestre am alege să suprapunem cu procentul stabilit, în final va rezulta o valoare constantă pe aproape tot domeniul de timp pe care se întinde rezultatul acestei operații. Excepție vor fi mici porțiuni de timp aflate la capete care se pot ignora atunci cand semnalul prelucrat este destul de lung și implică utilizarea unui număr mare de ferestre. Așadar, fereastra Hann respectă condiția de refacere perfectă și la refacerea semnalului se va tine cont de constanta 2 și se va împărți rezultatul la aceasta înainte de afișare.
Am verificat aceste rezultate în mediul Matlab definind patru ferestre de tip Hann pe care le-am suprapus cu procentul de p=75%; bineînțeles suprapunerea poate fi facută pe un număr oricare de ferestre și se poate realiza prin mici modificări efectuate în program. Am obținut rezultatele din figurile afișate mai jos. Din grafice rezultă că după suprapunerea unui număr mai mare sau egal cu 3 ferestre se menține o valoare constanta a amplitudinii egală cu 2 la fel ca în demonstrație.
Figură 2.1 Ferestrele inițiale
Figură 2.2 O singură fereastra Hann
Figură 2.3 Suprapunerea a două ferestre
Figură 2.4 Suprapunerea a 3 ferestre
Figură 2.5 Suprapunerea a 4 ferestre
Dacă de eșantioane, atunci durata unei ferestre este .
Dacă de eșantioane, atunci durata unei ferestre va fi (valoare folosită uzual pentru ferestre în prelucrarea semnalelor).
Având în vedere aceste aspecte, am construit programul stftcufunctiisicanale.m cu scopul de a simula folosirea STFT în procesarea semnalelor audio.
Pentru o mai bună înțelegere a programului menționat mai sus am elaborat o schemă bloc redată în figura de mi jos.
Figură 2.6 Schema Bloc prelucrarea semnalelor audoi cu STFT
Datele de intrare sunt: semnalele audio de pe cele două canele (), lungimea în eșantioane a ferestrei folosite și procentul de suprapunere al blocurilor prelucrate cu fereastra aleasă, notat cu. Dacă se dorește se poate modifica tipul ferestrei folosite prin schimbarea în program a numelui funcției apelate atunci când se construiește fereastra .
Funcțiile disponibile sunt , și , însă cele două din urmă nu îndeplinesc condiția de refacere perfectă, astfel că o vom utiliza numai pe prima dintre ele .
Parametrul necesar funcției de construire a ferestrei este așa cum se observă și de pe schemă.
După stabilirea și construirea ferestrei, se apelează funcția , care are ca parametrii de intrare semnalul de intrare de pe canalul dorit (), lungimea ferestrei , fereastra și procentul de suprapunere, .
Funcția calculează în numărul de ferestre care poate fi cuprins în semnalul de intrare, sau numărul de blocuri din semnalul de intrare care vor fi prelucrate cu fereastra și funcția FFT. Tot în această funcție se construiește și matricea , parametrul de ieșire.
Selecția blocurilor și construirea elementelor matricei sunt explicate în desenul următor:
3.Intercorelația generalizată GCC (Generalized Cross-Correlation)
www.mathworks.com/help/phased/ref/phased.gccestimator-class.html
Se folosește pentru a estima diferența de timp între două semnale provenite de la doi senzori diferiți. Un model de semnal emis de o sursă și recepționat de doi senzori este reprezentat prin relațiile:
unde și fiind semnalele provenite de la cei doi senzori, semnalul emis de sursă, și zgomotele ce afectează semnalul emis, iar D diferența de timp la sosire (TDOA – time difference of arrival) dintre cele două semnale de la senzori sau întârzierea celui de al doilea semnal față de primul.
Diferența de timp se poate estima dacă se găsește întârzierea dintre semnale care maximizează intercorelația dintre respectivele semnale.
Din TDOA se poate estima unghiul de incidență la sosire al planului de undă față de linia care conectează cei doi senzori (broadside angle).
3.1. Metoda GCC
Pentru localizarea unei surse sonore este util să determinăm diferența de timp dintre semnalele primite la microfoanele dintr-un șir sau o structura aleasă (cazul cel mai simplu îl constituie modelul cu două microfoane). Una dintre metodele care se bazează pe această idee este metoda intercorelației generalizate. Intercorelația generalizată este cea mai populară metodă folosită pentru estimarea diferenței de timp, însă se pare că funcționarea acesteia este limitată de nivelul de reverberații din mediul acustic, astfel că, înainte de aplicarea acestei metode este necesar să verifice dacă mediul este reverberant. Deși această metodă a fost concepută pentru modelul ideal, este des folosită chiar și în medii reverberante.
GCC estimează diferența de timp ca fiind egală cu valoarea t care maximizează funcția de intercorelație generalizată:
unde H(f) este funcția de transfer, iar transformata generalizată. Atunci diferența de timp estimată TDE (Time Delay Estimation) poate fi exprimată ca fiind argumentul maxim al funcției .
Compararea diferitelor tehnici de localizare a sursei de sunet, propuse în literatura de specialitate pe parcursul ultimului deceniu, reprezintă un subiect relevant pentru a stabili avantajele și dezavantajele unei abordări date, în implementarea în timp real. În mod tradițional, algoritmii pentru localizarea sursei de sunet se bazează pe o estimare a diferenței de timp de sosire (TDOA) la microfoanele dintr-o pereche prin intermediul GCC-PHAT.
Atunci când mai multe perechi de microfoane sunt disponibile poziția sursei poate fi estimată ca fiind un punct în spațiu care se potrivește cel mai bine cu setul de măsurători TDOA prin aplicarea câmpului global de coerența (GCF), de asemenea, cunoscut sub numele de SRP-PHAT, sau câmpul de coerența orientat global (OGCF).
O primă analiză interesantă compară performanța GCF și OGCF cu o metodă de căutare LS suboptimală. Într-o a doua etapă, descompunerea adaptivă a valorii proprii este implementată ca o alternativă la GCC-PHAT în estimarea TDOA. Experimentele comparative sunt efectuate pe semnale standard sau modificate în laborator, stocate în fișiere .wav.
termeni index: localizarea sursei, șir de microfoane, descompunerea adaptivă a valorii proprii, intercorelația generalizată.
3.2. GENERAREA SEMNALELOR
Având în vedere semnalele achiziționate de o pereche de microfoane, o măsură de coerență poate fi definită ca o funcție care indică gradul de asemănare între cele două semnale rearanjate conform unui interval de timp dat. Măsurile de coerentă pot fi, prin urmare, utilizate pentru a estima intervalul de timp dintre două semnale. De exemplu, intercorelația este cea mai simplă măsura de coerență. Abordarea cea mai comună adoptată în comunitatea de localizare a sursei de sunet pentru a calcula o măsură de coerentă este utilizarea GCC-PHAT [3]. Să luăm două semnale digitale și obținute de la o pereche de microfoane, GCC-PHAT este definită după cum urmează:
unde d este un decalaj de timp, cu , în timp ce și sunt transformate DFT ale și respectiv. Distanța dintre microfoane determină timpul de întârziere maxim valid dintre semnalele de la cele două microfoane . S-a demonstrat că, în condiții ideale, GCC-PHAT prezintă un vârf proeminent în corespondență cu TDOA reală. Pe de altă parte, reverberația introduce vârfuri parazite care pot conduce la estimări greșite ale TDOA [4].
O modalitate alternativă de a obține o măsură de coerență este oferită de AED [5, 6], care este capabilă să ofere o estimare aproximativă a răspunsurilor la impuls care descriu propagarea undelor de la o singură sursă acustică spre o pereche de două microfoane. În ipoteza că vârful principal al fiecărui răspuns la impuls identifică calea directă între sursă și microfon, TDOA poate fi estimată ca diferența de timp dintre cele două vârfuri principale.
Notând cu și cele două răspunsuri de impuls, în condiții ideale, adică fără zgomot, cele două respectă următoarea ecuație:
unde este semnalul emis de sursă. Dacă luăm în considerare vectorii și , se poate demonstra că corespunde vectorului propriu asociat valorii proprii nule a matricei de covarianță : (3)
În condiții de zgomot, ecuația 3 nu mai funcționează, și, prin urmare, cele două răspunsuri la impuls, pot fi în continuare calculate ca vectorul propriu care corespunde celei mai mici valori proprii. Vectorul propriu estimat se obține printr-un algoritm adaptiv, de exemplu LMS adaptiv pe domeniul frecvență așa cum este precizat în [7]. În cazul în care L este lungimea răspunsurilor la impuls, pentru a estima, u este în general inițializat în așa fel încât, cât timp memento-ul este egal cu 0. În acest mod este forțat să fie o sortare a impulsului delta, în timp ce poziția vârfului din se adaptează în funcție de TDOA reală (un vârf va crește în atunci când TDOA este 0). Atunci când se adoptă inițializarea de mai sus, măsura de coerență poate deriva ca:
Deși comparațiile între GCC-PHAT și AED au fost deja efectuate în literatura de specialitate [8], acestea sunt limitate la capacitățile de estimare TDOA și a colectării de date simulate. În special, este de remarcat faptul că, în [5, 8] AED s-au dovedit a fi superioară în ceea ce privește funcționarea GCC-PHAT în condiții reverberante și zgomotoase. În cazul nostru, în schimb, ne concentrăm asupra rezultatelor finale de localizare, datelor reale și comparația CCG-PHAT și AED în combinație cu hărțile acustice, care sunt introduse în secțiunea următoare.
3.3. HĂRȚI ACUSTICE
Atunci când mai multe perechi de microfoane sunt disponibile, ca de exemplu în cazul unei rețele de microfoane distribuite sau o matrice de microfoane liniara, poziția sursei poate fi estimată ca punct în spațiu care se potrivește cel mai bine unui set de măsurători TDOA. O soluție foarte eficientă este oferită de hărțile acustice care sunt funcții, definite într-o versiune în eșantion a spațiului de soluții potențiale, reprezentând plauzibilitatea că o sursă sa fie prezentă într-un un anumit punct.
Odată ce o reprezentare a distribuției activității acustice într-o incintă este disponibilă sub forma unei hărți acustice, poziția sursei poate fi derivată ca punctul care maximizează o astfel de hartă.
Câmpul de coerență global (GCF) [9], de asemenea, cunoscut sub numele de SRP-PHAT, este un instrument foarte eficient și puternic folosit în calcularea hărților acustice. Dacă presupunem că M perechi de microfoane sunt disponibile și putem calcula o măsură de coerența Ci (·) la fiecare pereche de microfoane i pentru fiecare interval de timp valid fizic, GCF este definită după cum urmează:
unde reprezintă intervalul de timp teoretic la perechea de microfoane i când sursa este în poziția p (decalajul poate fi aproximat prin cea mai apropiată întârziere număr întreg). GCF s-a dovedit a fi foarte eficientă într-un scenariu de rețea de microfoane distribuite [10].
Ulterior, câmpul de coerență orientat global (OGCF) [11], s-a dovedit a fi în măsură să furnizeze estimări mai precise și fiabile ale poziției sursei [12]. OGCF estimează, de asemenea, orientarea sursei printr-o pondere corespunzătoare unei unice. Această informație este apoi exploatată pentru a îmbunătăți precizia de estimare a poziției. Din păcate, într-un scenariu de matrice compact, ca cea luată în considerare în această lucrare, capacitățile de localizare ale OGCF nu pot fi exploatate în întregime din cauza lipsei de acoperire unghiulară furnizate de configurarea senzorului. O a treia metodă interesantă de calcul a hărții acustice implementează un mod de căutare prin metoda celor mai mici pătrate suboptimală (LS). În acest caz, funcția de plauzibilitate se calculează după cum urmează [13]:
unde este timpul de întârziere, care maximizează măsura de coerență și corespunde estimării TDOA. Minus din ecuația 6 este introdus pentru a se încadra în definiția harții acustice, care necesită scoruri ridicate pentru puncte cu plauzibilitate ridicată. Această metodă este denumită suboptimală deoarece minimizează criteriul LS pe o versiune eșantionată a coordonatelor spațiului sursă. Din punct de vedere teoretic LS este mai slabă decât GCF și OGCF, deoarece păstrează doar informația cu privire la vârful maxim a fiecărei perechi de microfoane, în timp ce GCF și OGCF utilizează toate informațiile din . Oferă o soluție mai ușoară dintr-un punct de calcul și memorie de vedere în unele aplicații, se poate dovedi a fi suficient de precisă. În special, o astfel de soluție este foarte potrivită pentru o configurație compactă matrice în cazul în care utilizatorii ar trebui să fie frontali. Pe de altă parte, se așteaptă ca LS să funcționeze mai rău decât GCF și OGCF într-un scenariu de rețea de microfoane distribuite, cu microfoane amplasate pe pereții unei încăperi. În cele din urmă, LS poate funcționa într-un domeniu continuu de timp, deoarece estimările TDOA pot fi rafinate, de exemplu prin interpolare parabolică nu este nevoie de rotunjire . Într-o abordare GCF sau OGCF, în schimb, interpolarea întregului este foarte computațională, exigentă și nu este rezonabilă în aplicații în timp real.
AED
Sunt prezentați doi algoritmi adaptivi pentru estimarea robustă a timpului de întârziere (TDE) în medii acustice cu o cantitate mare de zgomot de fond și de reverberație. Recent, un algoritm adaptiv de descompunere a valorii proprii (EVD eigenvalue decomposition) a fost dezvoltat pentru TDE în medii acustice extrem de reverberante. În această lucrare, vom extinde algoritmul EVD adaptiv la mediile acustice zgomotoase și reverberante, prin derivarea unui algoritm adaptiv de gradient stohastic pentru descompunerea valorii proprii generalizate (GEVD) sau prin albirea semnalelor zgomotoase de la microfon. Am efectuat simulări utilizând o sursă de zgomot difuz și pentru câteva SNR-uri, arătând că întârzierile de timp pot fi estimate cu mai multă precizie folosind algoritmul GEVD adaptiv decât folosind algoritmul EVD adaptiv. În plus, am analizat sensibilitatea algoritmului GEVD adaptiv în ceea ce privește precizia estimării matricei de corelație a zgomotului, care arată că performanțele sale pot fi destul de sensibile, în special pentru situațiile cu SNR joase.
Cuvinte cheie și expresii: estimarea timpului de întârziere, localizare sursei acustice, descompunere generalizată de valori proprii, gradient stocastic.
În multe aplicații de comunicații de vorbire, cum ar fi teleconferințele, sisteme controlate vocal hand-free și aparate auditive, este de dorit să se localizeze difuzorul dominant. Prin utilizarea unui șir de microfoane, este posibil să se determine poziția acestui difuzor astfel încât șirul de microfoane să poată fi dirijat electronic folosind un fascicul fix (sau de adaptare), în scopul de a asigura achiziția discursului în mod selectiv în spațiu [1, 2]. În cazul sistemelor multimedia de teleconferințe, poziția difuzorului poate fi folosit nu numai pentru șirul de microfoane beamforming, dar, de asemenea și pentru camera video automată de direcție [3, 4].
S-a demonstrat că este posibil să se calculeze poziția unui difuzor cu ajutorul întârzierilor de timp dintre diferitele semnale de la microfoane, de exemplu, folosind funcția de probabilitate maximă sau metoda celor mai mici pătrate [5, 6]. Cu toate acestea, estimarea precisă a diferențelor de timp dintre semnalele provenind de la microfoane diferite nu este o sarcină ușoară din cauza reverberația camerei, zgomotului de fond acustic, precum și caracterul nestaționar al semnalului vocal. În general, reverberația unei camere este considerată a fi principala problemă pentru estimarea diferenței de timp (TDE) [7], iar zgomotul de fond acustic poate să scadă considerabil performanțele algoritmilor TDE. Întrucât situațiile extrem de zgomotoase nu sunt foarte frecvente în aplicațiile tipice de teleconferințe, ele apar frecvent, de exemplu, în aplicații de ajutor pentru auz.
Cei mai mulți algoritmi TDE se bazează pe intercorelația generalizată (GCC) sau faza a spectrului putere (CSP) dintre semnalele microfoanelor [8, 9]. Însă, deoarece în cele mai multe dintre aceste metode se consideră un model de cameră ideală fără reverberație, adică, doar o cale directă între sursa de semnal și microfoane, algoritmii GCC nu funcționează bine în medii reverberante. Pentru a face ca TDE să fie mai robustă în camere cu reverberație, a fost propusă o prefiltrarea folosind transformata Fourier inversă [10] și s-au dezvoltat tehnici care folosesc un model de cameră mai realist care are reverberație [11, 12]. În [12], un algoritm adaptiv de descompunere a valorii proprii (EVD) a fost dezvoltat pentru estimarea (parțială) a două răspunsuri la impuls acustice, folosind un algoritm de gradient stohastic care estimează iterativ cea mai mică valoare proprie corespunzătoare vectorului propriu. Din răspunsurile la impuls acustice estimate, întârzierea de timp poate fi calculată ca diferența de timp dintre vârful principal (calea directă) din cele două răspunsuri de impuls sau ca vârful funcției de corelare între cele două răspunsuri la impuls. Din moment ce doar diferența de timp dintre vârful principal (calea directă) a răspunsurilor la impuls este necesară, rezultă că nu este necesar să se estimeze complet răspunsurile la impuls acustice.
Algoritmul EVD adaptiv pentru TDE funcționează mult mai bine în medii extrem de reverberante decât metodele bazate pe GCC. Cu toate acestea, algoritmul EVD adaptiv este-
strict vorbind, valabil numai în cazul în care, fie nu este prezent nici un zgomot, fie în cazul în care este prezent zgomot spațio-temporal alb. În această lucrare, vom extinde algoritmul EVD adaptiv pentru TDE în cazul zgomotului spațio-temporal colorat prin utilizarea unui algoritm generalizat adaptiv de descompunere a valorii proprii (GEVD), sau prin pre albirea semnalelor zgomotoase de la microfon. Considerăm doar cazul unei perechi de 2 microfoane.
Se arată că în cazul în care lungimea răspunsurilor la impuls este cunoscută sau poate fi supraestimată, răspunsurile la impuls pot fi identificate complet din EVD matricei de vorbire de corelare (cazul fără zgomot și cazul cu zgomot spațio-temporal alb) sau din GEVD discursului și matricele de corelare de zgomot (caz de zgomot colorat). Aceste proceduri de estimare a răspunsului la impuls de lot formează baza pentru obținerea algoritmilor de gradient stocastice care estimează iterativ (generalizate) care corespunde vectorului propriu al celei mai mici valori proprii (generalizate). Acești algoritmi EVD și GEVD adaptivi sunt discutați în secțiunea 3. [12], s-a demonstrat că algoritmul EVD adaptiv poate fi utilizat pentru TDE, remarcabil, chiar și atunci când subestimarea lungimea răspunsurilor la impuls acustic. Vom arăta că acest rezultat este valabil și pentru cazul de zgomot spațio-temporal colorat când se utilizează algoritmul adaptiv GEVD (și algoritmul de pre-albire adaptiv) pentru TDE. În secțiunea 4, se arată că toate considerate lot și algoritmi TDE adaptive poate fi extins cu ușurință în cazul în care mai mult de două microfoane. Secțiunea a 5 descrie rezultatele de simulare pentru diferite condiții de reverberație (ideale și realiste), diferite, SNR-uri ale surselor de zgomot (localizat și sursa de zgomot difuză). Pentru toate condițiile, se arată că timpul întârzierile pot fi estimate cu mai multă precizie folosind algoritmul GEVD adaptiv și algoritmul de pre albire adaptiv decât folosind algoritmul EVD adaptiv. Deoarece algoritmul de GEVD adaptiv necesită o estimare a matricei de corelare a zgomotului, analizăm, de asemenea, sensibilitatea sa în ceea ce privește precizia acestei estimări matricei de corelare a zgomotului, care arată că performanța algoritmului GEVD adaptiv poate fi destul de sensibilă la abateri, în special pentru scenarii cu SNR joase.
Localizarea surselor acustice și tehnica beamforming : teorie și practică
Noi considerăm aspectele teoretice și practice ale localizării surselor acustice folosind un șir de microfoane. O probabilitate maximă (ML maximum likelihood) de localizare directă se obține atunci când sursa de sunet este aproape de microfoane, în timp ce în cazul de câmp îndepărtat, demonstrăm localizarea prin rezultatele de la mai multe tablouri separate pe scară largă. În cazul unor surse multiple, o procedură de proiecție alternativă este aplicată pentru a determina estimarea ML a DOA din datele observate. Estimatorul ML este dovedit a fi eficace în localizarea surselor de sunet de diferite tipuri, de exemplu, vehicul, muzică, și chiar zgomot alb. Din analiza teoretică Cram'er-Rao, constatăm că o mai bună estimare a locației sursei poate fi obținută pentru semnale de înaltă frecvență decât semnalele de joasă frecvență. În plus, eroarea de estimare de gamă largă rezultată atunci când semnalul sursă este necunoscut, dar un astfel de parametru necunoscut nu are un impact mult asupra unghiului de estimare . Mai mult datele acustice măsurate experimental a fost utilizate pentru a verifica algoritmii propuși.
Cuvinte cheie și expresii: localizare sursă, estimare ML, Cram'er-Rao legat, beamforming.
Acustic de localizare sursă a fost un domeniu activ de cercetare formany ani. Aplicațiile includ rețea fără supraveghere senzor de sol (UGS) pentru supravegherea militară, de recunoaștere, sau în jurul perimetrului unei instalații de detectare a intruziunilor [1] variații ale algoritmilor folosind deschidere, multe matrice un microfon pentru localizarea sursei în domeniu apropiat precum și direcția-ofarrival (DOA) estimarea în domeniu în prezent au fost propuse [2]. Multe dintre aceste tehnici presupun un pas relativ timp delayestimation, care este urmată de o mai mici pătrate (LS) se potrivesc la DOA sursă, sau în cazul în câmp apropiat, o potrivire LS la locația sursă [3, 4, 5, 6 , 7].
În lucrarea noastră anterioară [8], am derivat solutia "optima" parametrice probabilitate maximă (ML) pentru localizarea surselor acustice în domeniu apropiat și au furnizat simulări pe calculator pentru a demonstra superioritatea în performanță față de alte metode. Lucrarea este o extensie [8], în care atât de extrema și aproape câmpul de cazuri sunt considerate, iar analiza teoretică este asigurată de Cram'er-Rao legat (CRB), care este util atât pentru compararea performanțelor și în scopul înțelegerii de bază. In plus, mai multe experimente au fost efectuate pentru a verifica utilitatea algoritmului propus. Aceste experimente includ atât scenarii de interior și în aer liber, cu o jumătate de duzină de microfoane pentru a localiza una sau două surse acustice (sunet generat de calculator difuzor (e)).
Un avantaj major că abordarea propusă are ML este că se evită estimarea intermediară temporizate relativă. Acest lucru este posibil prin transformarea datelor de bandă largă în domeniul de frecvență, unde spectrul semnalului poate fi reprezentat de modelul de bandă îngustă pentru fiecare recipient de frecvență. Acest lucru permite o optimizare directă pentru locația (e) sursă în ipoteza de zgomot Gaussian în loc de optimizare în două etape, care presupune estimarea relativă timedelay. Dificultatea de a obține întârzieri relative de timp, în cazul mai multor surse este bine cunoscută, și prin evitarea acestui pas, abordarea propusă poate apoi să estimeze mai multe locații sursă. Cu toate acestea, în practică, atunci când aplicăm transformata Fourier discretă (DFT), mai multe artefacte 360 EURASIP Journal Signal Processing Aplicată poate rezulta din cauza lungimii finite a cadrului de date (a se vedea secțiunea 2.1.1). Ca urmare, nu există o soluție exactă ML pentru datele de lungime finită. In schimb, am ignora aceste efecte finite si pentru a obtine solutia pe care ne referim ca solutia aproximat ML (LMA). Rețineți că o soluție similară a fost derivată, în mod independent, în [9], pentru cazul departe în câmp.
În practică, numărul de surse pot fi determinate independent sau împreună cu algoritmul de localizare, dar am presupus că este cunoscut pentru scopul acestei lucrări. Pentru cazul în sursă unică, am arătat că formularea CSB este echivalentă cu maximizarea suma ponderată a funcțiilor de corelare încrucișată între datele de la senzorii timeshifted în [8]. Optimizarea folosind toate senzorul pairsmitigates problema ambiguitate care de multe ori apare în estimarea relativă timp de întârziere între doi senzori pe scara larga separate pentru cele două etape LS metode. În cazul unor surse multiple, aplicăm o procedură eficientă de proiecție alternativ (AP), care evită căutarea multidimensionale prin estimarea secvențială localizarea unei surse în timp ce de stabilire estimările altor locații sursă de repetare anterioară.
În această lucrare, vom demonstra rezultatele de localizare folosind metoda CSB la datele măsurate, atât în câmp apropiat și a cazurilor de extremă pe teren, și pentru diferite tipuri de surse de sunet, de exemplu, vehicul, muzică, și chiar zgomot alb.
Abordarea CSB este demonstrat de a depasi algoritmii de tip LS în cazul unui singur sursă, și prin aplicarea AP, algoritmul propus este capabil să localizeze două surse de sunet din datele observate. Lucrarea este organizată după cum urmează. În secțiunea 2, performanțele teoretice de estimare DOA și localizarea sursei cu analiza CRB sunt date. Apoi, obținem soluția CSB pentru estimarea DOA și localizarea sursei în secțiunea 3. În secțiunea 4, exemple de simulare și rezultatele experimentale sunt date pentru a demonstra utilitatea metodei propuse. În cele din urmă, vom da concluziile noastre.
Copyright Notice
© Licențiada.org respectă drepturile de proprietate intelectuală și așteaptă ca toți utilizatorii să facă același lucru. Dacă consideri că un conținut de pe site încalcă drepturile tale de autor, te rugăm să trimiți o notificare DMCA.
Acest articol: Determinarea Directiei de Venire a Undei Sonore (ID: 113795)
Dacă considerați că acest conținut vă încalcă drepturile de autor, vă rugăm să depuneți o cerere pe pagina noastră Copyright Takedown.
