Prof. Dr. Ing. Cristian NEGRESCU [622684]
1 Universitatea „Politehnica” din București Facultatea de Electronică, Telecomunicații și Tehnologia Informației Controlul localizării la redarea prin căști Lucrare de disertație prezentată ca cerință parțială pentru obținerea titlului de Master în domeniul Telecomunicații programul de studii de masterat Tehnologii multimedia pentru producția de conținut în domeniul audiovizualului și comunicațiilor 2019 Conducători științifici
Prof. Dr. Ing. Cristian NEGRESCU
Dr. Ing. Grigore BU RLOIU Absolvent: [anonimizat]. Mihai -Tudor POPESCU
2
3 Declarație de onestitate academică Prin prezenta declar că lucrarea cu titlul “ Controlul localizării la redarea prin căști”, prezentată în cadrul Facultății de Electronică, Telecomunicații și Tehnologia Informației a Universității “Politehnica” din București ca cerință parțială pentru obținerea titlului de Master în domeniul Telecomunicații, programul de studii Tehnologii multimedia pentru producția de conținut în domeniul audiovizualului și comunicațiilor este scrisă de mine și nu a mai fost prezentată niciodată la o facultate sau instituție de învățămînt superior din țară sau străinătate. Declar că toate sursele utilizate, inclusiv cele de pe Internet, sunt indicate în lucrare, ca referințe bibliografice. Fragmentele de text din alte surse, reproduse exact, chiar și în traducere proprie din altă limbă, sunt scrise între ghilimele și fac referință la sursă. Reformularea în cuvinte proprii a textelor scrise de către alți autori face referință la sursă. Înțeleg că plagiatul constituie infracțiune și se sancționează conform legilor în vigoare. Declar că toate rezultatele simulărilor, experimentelor și măsurătorilor pe care le prezint ca fiind făcute de mine, precum și metodele prin care au fost obținute, sunt reale și provin din respectivele simulări, experimente și măsurători. Înțeleg că falsificarea datelor și rezultatelor constituie fraudă și se sancționează conform regulamentelor în vigoare. București, 31.08.2019 Absolvent: [anonimizat]-Tudor POPESCU _________________________
4 Copyright © 2019 , Mihai-Tudor Popescu Toate drepturile rezervate Autorul acordă UPB dreptul de a reproduce și de a distribui public copii pe hârtie sau electronice ale acestei lucrări, în formă integrală sau parțială.
5 Cuprins Introducere ……………………………………………………………………………………………………………………………. 11 1. Localizarea spațial-auditivă …………………………………………………………………………………………………. 13 1.1. Introducere……………………………………………………………………………………………………………….. 13 1.2. Nivelul …………………………………………………………………………………………………………………….. 14 1.3. Raportul dintre energia semnalului direct și energia semnalului reverberant (DRR) ……………… 15 1.4. Indicatorii spectrali ………………………………………………………………………………………………………. 16 1.5. Indicatorii binaurali …………………………………………………………………………………………………… 18 1.5.1. Conul de confuzie ………………………………………………………………………………………………….. 21 1.6. Indicatorii dinamici …………………………………………………………………………………………………… 21 1.7. Familiarizarea cu stimulul audio …………………………………………………………………………………. 22 1.8. Efectul informației vizuale asupra percepției distanței sonore …………………………………………. 23 1.9. Concluzii …………………………………………………………………………………………………………………. 23 2. Funcțiile de transfer ale capului – HRTF ……………………………………………………………………………….. 25 2.1. Introducere…………………………………………………………………………………………………………………… 25 2.1 Măsurarea funcțiilor de transfer ale capului ………………………………………………………………………. 25 2.2. Standardul SOFA …………………………………………………………………………………………………………. 29 2.2.1 Specificații generale ……………………………………………………………………………………………………. 30 2.2.2. Informațiile de metadată ……………………………………………………………………………………………… 33 2.3. Importanța HRTF-urilor în redarea binaurală …………………………………………………………………… 35 2.4. Concluzii …………………………………………………………………………………………………………………….. 37 3. Înregistrarea și redarea binaurală ………………………………………………………………………………………….. 39 3.1. Introducere…………………………………………………………………………………………………………………… 39 3.2. Scurt istoric/Manechine …………………………………………………………………………………………………. 39 3.3. Egalizarea căștilor ………………………………………………………………………………………………………… 41 3.4. Compensarea răspunsului în frecvență al boxei / Egalizarea emitorului ………………………………. 43 3.5. Localizarea “în afara capului” pentru sursele audio redate prin căști …………………………………… 44 3.6. Experimentele cercetătorilor Sakamoto, Gotoh, Yoichi …………………………………………………….. 45 3.7. Experimentul cercetătorilor De Sena, Kaplanis, Naylor, van Waterschoot …………………………… 48 3.8. Concluzii …………………………………………………………………………………………………………………….. 50 4. Ambisonics și microfoanele de tip Soundfield ……………………………………………………………………….. 51 4.1. Introducere……………………………………………………………………………………………………………….. 51 4.2. Codarea formatului Ambisonics. …………………………………………………………………………………. 52
6 4.3. Înregistrarea First-Order Ambisonics ………………………………………………………………………………. 52 4.4. Decodarea Ambisonics ………………………………………………………………………………………………….. 54 4.5. Transmiterea și manipularea Ambisonics …………………………………………………………………….. 56 4.6. Higher-Order Ambisonics ………………………………………………………………………………………….. 58 4.7. Concluzii …………………………………………………………………………………………………………………….. 59 Capitolul 5. Localizarea sonoră. Experimente și Rezultate ………………………………………………………….. 61 5.1. Introducere…………………………………………………………………………………………………………………… 61 5.2. Înregistrarea și post-producția sunetelor ………………………………………………………………………….. 61 5.2.1. Configurarea echipamentelor pentru înregistrare ……………………………………………………………. 61 5.2.2. Înregistrarea semnalelor audio …………………………………………………………………………………….. 62 5.2.3. Post-producția înregistrărilor captate ……………………………………………………………………………. 64 5.3. Aplicația dezvoltată pentru experiment ……………………………………………………………………………. 65 5.4. Sesiunea de experiment …………………………………………………………………………………………………. 67 5.5. Rezultatele experimentului …………………………………………………………………………………………….. 70 5.5.1. Analiza cantitativă ……………………………………………………………………………………………………… 70 5.5.2. Analiza calitativă ……………………………………………………………………………………………………….. 80 5.5.3. Analiza finală ……………………………………………………………………………………………………………. 81 6. Concluzii …………………………………………………………………………………………………………………………… 85 Bibliografie …………………………………………………………………………………………………………………………… 89 Anexe …………………………………………………………………………………………………………………………………… 95 Anexa 1……………………………………………………………………………………………………………………………… 95 Anexa 2……………………………………………………………………………………………………………………………. 105 Anexa 3……………………………………………………………………………………………………………………………. 106 Anexa 4……………………………………………………………………………………………………………………………. 107 Anexa 5……………………………………………………………………………………………………………………………. 108 Anexa 6……………………………………………………………………………………………………………………………. 109 Anexa 7……………………………………………………………………………………………………………………………. 110 Anexa 8……………………………………………………………………………………………………………………………. 111 Anexa 9……………………………………………………………………………………………………………………………. 112 Anexa 10………………………………………………………………………………………………………………………….. 113 Anexa 11………………………………………………………………………………………………………………………….. 114 Anexa 12………………………………………………………………………………………………………………………….. 115
7 Lista figurilor Figura 1.1. Funcția de transfer pentru urechea stângă pentru 0,5m și 3m la unghiurile 0˚, 90˚ și 180˚. 18 Figura 2.2. Difențele interaurale care apar în situația unui cap perfect sferic cauzate de o sursă distantă. Astfel se produce o diferența interaurală de timp datorită faptului că semnalul are nevoie de mai mult timp pentru a ajunge la urechea stângă. În același timp se produce și o diferență interaurală de nivel datorată capului care blochează o parte din energia care trebuia să ajungă la urechea stângă. ………….. 19 Figura 2.3. Conul de confuzie. …………………………………………………………………………………………………. 21 Figura 2.1. (adaptare) Sistemul de coordonate spațiale și terminologia folosită în literatura HRTF. … 27 Figura 2.2. Filtrarea semnalului x(t) de către două funcții de transfer separate, hL(t) și hR(t). …………. 29 Figura 2.3. Model clasic de date netCDF…………………………………………………………………………………… 31 Tabelul 2.1. Tipuri de date folosite în SOFA. …………………………………………………………………………….. 32 Tabelul 2.2. Metadatele generale folosite în SOFA și stocate ca atribute globale in fișierul netCDF. .. 32 Tabelul 2.4. Metadatele pentru receptor considerate în standardul SOFA. Similar se aplică și pentru emitor, prin înlocuirea literea lui R cu E. …………………………………………………………………………………… 33 Tabelul 2.3. Metadatele pentru ascultător considerate în standardul SOFA. Similar exista și pentru sursă. …………………………………………………………………………………………………………………………………………….. 33 Figura 2.4. (adaptare) Rata erorilor în etapa localizării unei singure surse cu HRTF nepersonalizat, respectiv personalizat. …………………………………………………………………………………………………………….. 36 Figura 2.5. (adaptare) Direcționalitatea erorilor de înălțime pentru HRTF nepersonalizat, respectiv personalizat. O valoare de +1.0. rezultă într-o sursă localizată cu un nivel mai sus decât a fost redată. 36 Figura 3.1. Manechinul Kemar ………………………………………………………………………………………………… 39 Figura 3.2. Capul binaural Neumann KU100. ……………………………………………………………………………. 40 Figura 3.3. Manechine binaurale „Type 4100” dezvoltate de Brüel & Kjær. …………………………………. 40 Figura 3.4. Capul binaural HMS II. ………………………………………………………………………………………….. 41 Figura 3.5. Manechinul FABIAN cu gât servomotorizat expus. …………………………………………………… 41 Figura 3.6. (adaptare) Transmisiunea electro-acustică într-un sistem de simulare binaurală: măsurătoarea BRIR realizată cu un manechin (stânga) și redarea prin intermediul căștilor, egalizată cu un filtru de compensare Hc, (dreapta). ………………………………………………………………………………………………………. 43 Figura 3.7 Schema clasică pentru generarea senzației de localizare în afara capului. ………………………. 44 Figura 3.8 (adaptare) Diagrama primului experiment. ………………………………………………………………… 47 Figura 3.9 (adaptare) Diagrama experimentului doi. …………………………………………………………………… 48 Figura 3.10. Platforma rotativă cu volan și tabletă atașate, folosită în experiment. …………………………. 49 Figura 4.2. Microfonul soundfield compus din trei microfoane individuale, conceput de Dr. Jonathan Halliday, Nimbus Records. ……………………………………………………………………………………………………… 53 Figura 4.3. Exemple de microfoane Soundfield First-Order Ambisonics fără grilă de protecție. …….. 53 Figura 4.4. Caracteristică polară sub-cardioidă. …………………………………………………………………………. 54 Figura 4.5. Caracteristică polară cardioidă. ……………………………………………………………………………….. 54 Figura 4.6. Ilustrație B-Format. ……………………………………………………………………………………………….. 55
8 Figura 4.7. Microfonul Soundfield alături de pre-amplificatorul-matrice care realizează conversia din Formatul A în Formatul B. ………………………………………………………………………………………………………. 56 Figura 4.8. Microfonul em32 Eigenmike. ………………………………………………………………………………….. 58 Figura 5.1. Interfața SPS422B (sus) și interfața M-Audio ProFire2626 (jos). ………………………………… 62 Figura 5.2. Vedere din spate a interfeței SPS422B. …………………………………………………………………….. 63 Figura 5.3. Capul binaural la 1m distanță față de difuzorul Yamaha HS 7. ……………………………………. 63 Figura 5.4. Perechea de microfoane Schoeps poziționată în configurație ORTF. ……………………………. 64 Figura 5.5. Imagine din studioul de înregistrare cu microfonul Soundfield la 1m distanță de boxa Yamaha HS7………………………………………………………………………………………………………………………………………. 64 Figura 5.6. Captură de ecran a unui fișier CSV în urma unei sesiuni de experiment. ………………………. 66 Figura 5.7. Captură de ecran a programului chestionar folosit de participanții la experiment. ………….. 67 Figura 5.8. Subiect feminin în timpul sesiunii de experiment. ……………………………………………………… 68 Figura 5.9. Subiect masculin în timpul sesiunii de experiment. ……………………………………………………. 69 Figura 5.10. Procentul de acuratețe în planul orizontal pentru fiecare sunet în funcție de microfonul cu care a fost captat. ……………………………………………………………………………………………………………………. 71 Figura 5.11. Procentul de acuratețe în planul orizontal pentru fiecare microfon. …………………………….. 71 Figura 5.12. Procentul de acuratețe a distanței pentru fiecare sunet în funcție de microfonul cu care a fost captat. …………………………………………………………………………………………………………………………………… 72 Figura 5.13. Procentul de acuratețe a distanței pentru fiecare microfon. ………………………………………… 72 Figura 5.14. Procentul de acuratețe în planul vertical pentru fiecare sunet în funcție de microfonul cu care a fost captat. ………………………………………………………………………………………………………………………….. 73 Figura 5.15. Procentul de acuratețe în planul orizontal pentru fiecare microfon. …………………………….. 73 Figura 5.16. Procentul de confuzii frontale față-spate pentru fiecare sunet în funcție de microfonul cu care a fost captat. ……………………………………………………………………………………………………………………. 74 Figura 5.17. Procentul de confuzii frontale față-spate pentru fiecare microfon. ……………………………… 74 Figura 5.18. Procentul de confuzii stânga-dreapta pentru fiecare sunet în funcție de microfonul cu care a fost captat. …………………………………………………………………………………………………………………………….. 75 Figura 5.19. Procentul de confuzii stânga-dreapta pentru fiecare microfon. …………………………………… 75 Figura 5.20. Procentul de erori mici pentru fiecare sunet în funcție de microfonul cu care a fost captat. …………………………………………………………………………………………………………………………………………….. 76 Figura 5.21. Procentul de erori mici pentru fiecare microfon. ………………………………………………………. 76 Figura 5.22. Procentul de erori mari pentru fiecare sunet în funcție de microfonul cu care a fost captat. …………………………………………………………………………………………………………………………………………….. 77 Figura 5.23. Procentul de erori mari pentru fiecare microfon. ……………………………………………………… 77 Figura 5.24. Procentul de acuratețe difuză pentru fiecare sunet în funcție de microfonul cu care a fost captat. …………………………………………………………………………………………………………………………………… 78 Figura 5.25. Procentul de acuratețe difuză pentru fiecare microfon. ……………………………………………… 79 Figura 5.26. Procentul sunete localizate perfect în funcție de microfonul cu care au fost captate. …….. 79 Figura 5.27. Procentul de localizări perfecte obținut pentru fiecare microfon. ……………………………….. 80
9 Lista acronimelor AES – Audio Engineering Society AR – Acoustic Ratio BRIR – Binaural Room Impulse Response DRIR – Directional Room Impulse Response – Răspuns direcțional la impuls al camerei FIR – Finite Impulse Response – Filtru cu Răspuns Finit la Impuls HpTF – Headphone Transfer Function HRIR – Head Related Impulse Response – Transformatele Impulsurilor la Răspuns ale Capului HRTF – Head Related Transfer Function – Funcțiile de Transfer ale Capului IID – Interaural Intensity Difference – Diferența Interaurală de Intensitate ILD – Interaural Level Difference – Diferența Interaurală de Nivel IPD – Interaural Phase Difference – Diferența Interaurală de Fază IR – Impulse Response – Răspuns la Impuls ITD – Interaural Time Difference – Diferența Interaurală de Timp MAA – Minimum Audible Angle – Unghiul Minim de Percepție Auditivă OHL – Out-of-head Localization ORTF – Office de Radiodiffusion Télévision Française SDN – Scattering Delay Network SOFA – Spatially Oriented Format for Acoustics TDL – Tape Delay Line TOA – Time Of Arrival – Timpul de sosire
10
11 Introducere Lucrarea de față cu titlul „Controlul localizării la redarea prin căști” a fost scrisă de autorul Mihai-Tudor Popescu, absolvent al programului de Masterat, „Tehnologii multimedia pentru producția de conținut în domeniul audiovizualului și comunicațiilor” (PCON) din cadrul Facultății de Electronică, Telecomunicații și Tehnologia Informației, sub coordonarea și îndrumarea Prof. Dr. Ing. Cristian Negrescu și Dr. Ing. Grigore Burloiu. Lucrarea tratează diferite sisteme de captare tridimensională a sunetelor și compară gradul de realism resimțit de un eșantion de persoane în momentul redării în formatul binaural. Deși este captat pe două canale audio, sunetul binaural nu trebuie confundat cu cel stereo. Formatul stereo permite localizarea frontală într-un plan de 180° și nu ține cont de factorii naturali precum distanța dintre urechi, mărimea capului, „umbra capului” sau forma pavilionului urechii. Formatul binaural face referire la modul în care este captat un sunet sau o scenă audio, ținând cont de indicatorii pe care îi folosește urechea umană pentru localizarea audio, oferind o senzație realistă în momentul redării. Astfel, pe langă localizarea în planul orizontal, acest format permite identificarea sunetelor din fața sau din spatele ascultătorului, cât și a celor din planul vertical, aflate deasupra sau sub ascultător. Înregistrarea scenei audio în format binaural se poate realiza cu mai multe tipuri de sisteme, fiecare cu avantajale și dezavantajele sale, lucrarea propunându-și să ofere o imagine mai clară asupra problemelor care pot apărea în momentul folosiri acestor sisteme. De asemenea, un subiect care va fi tratat în această lucrare este reprezentat de funcțiile de transfer ale capului, care mai oferă posibilitatea simulării virtuale a sunetelor prin operația de convoluție cu un set de amprente ale urechii (unice pentru fiecare ascultător) pentru a crea senzația de realism. Bineînteles, un aspect important este dat de sistemul de redare a sunetului captat binaural și deși există posibilitatea folosirii unui sistem de boxe, pentru ca efectul de realism să poată avea loc este necesar un număr mare de difuzoare, plasate la diferite distanțe în jurul ascultătorului, ceea ce nu prezintă un sistem fiabil și ușor de implementat. În momentul înregistrării sunetului binaural sunt captați și indicatorii de localizare pe care creierul îi folosește pentru a localiza sunetele în spațiu, acesta fiind motivul pentru care este importantă folosirea unei perechi de căști (de preferință supra-aurală) în momentul audiției – care pot transmite informația audio individual pentru fiecare ureche. Lucrarea de față este structurată pe cinci capitole în care sunt prezentate bazele tehnologiei binaurale și de sunet 3D cât și diferitele progrese tehnologice. Pentru o mai bună întelegere a fenomenelor care sunt resimțite de ascultător în momentul ascultării unui material binaural, primul capitol prezintă indicatorii folosiți de sistemul auditiv uman pentru localizarea sunetelor. În capitolul doi sunt prezentate funcțiile de transfer ale capului care permit sintetizarea unei scene audio într-un mediul virtual care în final îi poate oferi ascultătorului aceeași percepția pe care ar produce-o sursa într-un mediu real. În capitolul trei este descris procedeul de înregistrare binaurală și sunt prezentate o serie de sisteme folosite în industria audio pentru captarea scenei audio.
12 Capitolul patru prezintă o metodă pentru mixarea și manipularea sunetului înregistrat tridimensional cu un microfon modificat, prin folosirea unui set de capsule unite într-o configurație specială. Capitolul cinci este alocat unei lucrări experimentale care își propune să scoată în evidență avantajele și dezavantajele folosirii diferitelor sisteme de captare tridimensională. Pentru aceasta a fost condusă o sesiune de înregistrări din cadrul centrului de cercetare CINETIc în care au fost înregistrate sunete cu anvelope spectrale diferite. Apoi, un grup de persoane au identificat localizarea percepută prin rezolvarea unui chestionar digital creat de autor pentru această lucrare. În final, pe baza rezultatelor obținute de la respondenți au fost trase concluzii cu privire la particularitățile fiecărui sistem de înregistrare folosit.
13 1. Localizarea spațial-auditivă 1.1. Introducere Studiul procesării indicatorilor pentru distanța auditivă nu este unul nou, având originea la începutul anilor 1960. Principalii factori care influențează percepția auditivă sunt: localizarea orizontală (azimut – unghiul dintre sursa sonoră și planul median), localizarea verticală (elevația – unghiul dintre sursa sonoră și planul care străbate cele două urechi), distanța estimată și spațialitatea (percepția sunetului ce înconjoară corpul ascultătorului). Domeniul a înregistrat progrese semnificative datorită tehnologiei binaurale ce permite simularea diferitelor spații acustice prin folosirea unei perechi de căști. Termenul binaural, semnifică ascultarea la căști a unei surse stereo, în timp ce termenul monaural indică percepția unui semnal identic în ambele urechi. Tehnologia binaurală permite realizarea simulării sonore reale ce ține cont de distanță, de spațiu și de localizarea ascultătorului. Totodată, aceasta, în stiuația simulării unei scene virtuale, permite modificarea indicilor de localizare creând senzații auditive dinamice care pot fi folosite în diferite situații. Abilitatea de a distinge distanța sunetelor este importantă pentru a-i crea individului o reprezentare a spațiului în care se află. În cazul în care sistemul vizual este degradat sau inexistent, datorită factorilor de mediu sau fiziologici, sistemul auditiv devine principala cale prin care individul va putea aproxima distanțele din jurul său. Față de lumină, în general, sunetul poate trece de obstacolele pe care le întâlnește, oferind indicatori de localizare importanți pentru evaluarea distanței față de obiectele care se află în câmpul vizual și nu numai. De asemnea, atunci când vederea nu este prezentă, auzul are un rol important în ghidarea mișcării prin sistemul nervos central, pentru care o reprezentare corectă între distanța dintre organism și obiect este esențială. Cu toate acestea, estimări ale distanței bazate doar pe auz sunt în general mai slabe decât cele pentru localizarea orizontală [1]. În medie, distanța percepută de la sursa sonoră la planul personal tinde să fie supraestimată, în timp ce distanța către o sursă situată în afara planului personal, tinde să fie subestimată, de persoanele fără deficiențe de vedere și de auz [1]. Distanța estimată de persoane pare să fie considerabil mai puțin precisă în cazul celei audio decât aceeași distanță vizuală. Acest fenomen se găsește în literatura de specialitate sub numele de „blur” sau „localizare blurată”1. Cunoscut și sub numele Unghiul Minim de Percepție Auditivă (MAA)2, acesta reprezintă cea mai mică schimbare detectabilă a poziției unghiulare [2]. Pentru semnale sinusoidale redate în planul orizontal, rezoluția spațială este mai mare pentru sunetele ce sosesc direct în fața ascultătorului (din planul median), respectiv 1° MAA și se deteriorează atunci cand stimulul sonor este mutat în lateral (de ex: MAA este în jur de 7° pentru sunete transmise la 75° în lateral) [3]. 1 Din lb. engleză: localization blur. 2 Din lb. engleză: Minimum Audible Angle – MAA
14 Pentru a nu induce în eroare ascultătorul și pentru ca acesta să poată lua o decizie sigură asupra localizării sunetului, eroarea medie trebuie să fie de aproximativ 5° pentru sunetele de bandă largă redate în plan median și de maxim 20° pentru sunetele din lateral [3]. Există multipli indicatori acustici ce sunt responsabili cu detecția distanței dintre ascultător și sursa sonoră. Numărul indicatorilor disponibili, cât și fiabilitatea acestora, poate varia substanțial în funcție de stimul, de proprietățile mediului și de direcția sursei sonore [1]. Cercetărorii au identificat două tipuri de indicatori ce arată distanța [1]: a. Indicatorii absoluți ce permit aprecierea distanței pe baza prezentării unice a sunetelor pentru un grup de ascultători; b. Indicatorii relativi ce permit discriminarea sunetelor la distanțe diferite. Pentru o bună înțelegere a importanței indicatorilor în procesul de localizare, în continuare va fi prezentat, în detaliu, fiecare indicator folosit de sistemul auditiv uman pentru a procesa și pentru a localiza sunetul în spațiu. 1.2. Nivelul Nivelul este un indicator de distanță relativ ce este prezent în majoritatea mediilor, fiind eficient în multe cazuri. Odată cu descreșterea tăriei sunetului care ajunge la urechile ascultătorului (sau la receptor), în general distanța percepută, scade. În camera anecoidă, relația dintre nivel, distanță, sursa sonoră și receptor este caracterizată de legea pătratului invers. Astfel, nivelul scade cu aproximativ 6 dB pentru fiecare dublare a distanței sursei [1]. De asemenea, rata schimbării depinde și de directivitatea sursei sonore, dacă aceasta radiază uniform, în toate direcțiile sau dacă produce sunete directive, precum o rază. În situația în care nivelul este indicatorul principal, distanța percepută pentru o singură sursă sonoră, crește în general cu o rată mai mică decât distanța fizică atunci când distanța până la sursă este mai mare de 1m. Conform lui Miller, cea mai mică schimbare de nivel detectabilă pentru zgomotul de bandă largă este de aproximativ 0,4 dB, în timp ce pentru sinusoide nivelul detectabil este de 1-2 dB – în funcție de frecvență și de nivelul sunetului [4]. De aici se poate trage concluzia că pragul pentru discriminarea distanței variază între 5% și 25% din distanța de referință, în funcție de tipul sunetului [1]. În lucrările lor, Altmann et al. și Zahorik et al., au afirmat că în situația unei surse sonore cu o anumită putere, localizată la diferite distanțe, ascultătorii tind să estimeze puterea acesteia ca având o tărie constantă. Acest fenomen a fost numit „constanta tăriei”, fiind întâlnită doar atunci când, pe lângă indicatorii de nivel, mai sunt disponibili și alți indicatori. Zahorik et al., au sugerat că puterea sonoră a sursei este estimată din energia reverberantă, ce rămâne aproape constantă în spațiile închise [5]. Această teorie a fost susținută și de Altmann et al. care au descoperit că energia reverberantă este constantă în spațiile cu T60 3 = 1,03s. Acest lucru nu se aplică 3 T60 – timpul necesar pentru ca nivelul semnalului să scadă cu 60 dB.
15 pentru camerele cu T60 mic (de exemplu, 0,14s) unde percepția distanței este similară pentru timpi diferiți de reverberație [6]. 1.3. Raportul dintre energia semnalului direct și energia semnalului reverberant (DRR)4 Reverberația este considerată una dintre cele mai importante proprietăți ale unui spațiu percepute de ascultător. În spațiile închise este numită reverberație interacțiunea dintre sursa sonoră, pereții și obiectele din încăpere, care produce un câmp sonor distinct de sunetul original redat de sursă. Atunci când este vorba despre localizarea semnalului audio trebuie să se țină cont de faptul că reverberația degradează localizarea orizontală (azimut). Însă, prezența acesteia în identificarea distanței joacă un rol important. DRR este un indicator important pentru reprezentarea distanței sonore de la sursă [1]. DRR scade pe măsură ce distanța față de ascultător crește și este asociat cu creșterea distanței percepute. Energia directă a sunetului are o traiectorie liniară de la sursă la receptor, iar pentru o sursă omni-direcțională, nivelul scade cu 6dB pentru fiecare dublare a distanței față de sursă. Valoarea energiei reverberante este determinată de dimensiunea camerei, de forma perețiilor și de coeficienții de absorție ai pereților, tavanului și podelei, cât și de obiectele aflate în cameră. Energia reverberantă este reflectată de diferitele suprafețe (pereți sau obiecte) și poate fi aproximată ca un câmp sonor difuz cu o energie constantă, indiferent de localizarea sursei, cu condiția ca, camera să nu fie foarte mică. Conform lui Zahorik, nivelul reverberației variază puțin cu schimbarea distanței. De exemplu, într-o sală mică, nivelul sunetului reverberant a fost redus cu doar 1dB pentru fiecare dublare a distanței sursei sonore [7]. A fost demonstrat că DRR oferă informații de distanță absolută și este util în special în spațiile închise. Spațiile exterioare pot produce și ele reverberații însă nu este cunoscut dacă această caracteristică influențează indicatorii de distanță ai oamenilor [1] . Deși indicatorii de nivel și DRR pot oferi informații pentru discriminarea distanței în spații cu reverberație mare, în izolație indicatorii de nivel oferă informații mai precise decât DRR în același mediu. În general, percepția distanței are o acuratețe mare atunci când ambii indicatori sunt disponibili [1]. Trebuie notat faptul că nivelul de reverberație poate afecta interpretarea distanței. Mershon et al. au declarat că estimările distanței realizate într-o cameră cu un timp de reverberație crescut, au fost mai mari decât cele obținute într-o cameră cu un timp scurt de reverberație [8]. Experimentele susținute de Altmann et al., folosind căști sau difuzoare, au concluzionat faptul că prin creșterea reverberației, percepția distanței sursei față de sursa sonoră a crescut, însă nu foarte semnificativ [5]. De asemenea, pentru sunetele care rulează în continuu este puțin probabil ca ascultătorii să poată separa sunetul direct de cel reverberant pentru a calcula DRR. În schimb vor utiliza o caracteristică variabilă a semnalului, precum schimbările în spectru sau în timp [9]. 4 Din lb. engleză Direct-to-reverberant energy ratio – DRR
16 Diferențele abia sesizabile pentru DRR s-au înregistrat în cazul impusurilor de zgomot de bandă largă, 2-3 dB la 0 dB DRR și +10dB DRR, respectiv, 6-8 dB la -10 dB DRR și 20 dB DRR. Prin reducerea benzii zgomotului, au fost reduși atât variația spectrală, cât și indicatorii spectrali ai anvelopei semnalului, fără a afecta indicatorii temporali. Diferențele abia sesizabile au crescut cu 1,5 dB pentru DRR = 0 dB, sugerând faptul că indicatorii spectrali erau necesari pentru sensibilitatea crescută față de DRR. De asemenea, experimentul sugerează faptul că indicatorii temporali pot fi folosiți în situația în care indicatorii spectrali lipsesc sau sunt degradați [1]. Lessard et al. au demonstrat faptul că variabilele acustice incluzând variația spectrală, anvelopa spectrală și creșterile/descreșterile temporare de timp, ajung la valori asimptotice pentru valori pozitive și negative, mari ale DRR. Astfel, sensibilitatea la schimbare față de DRR ar trebui să scadă pentru valori foarte mici și foarte mari ale acestui raport [9]. 1.4. Indicatorii spectrali Indicatorii spectrali oferă sistemului auditiv informația necesară pentru a realiza dezambiguizarea față-spate. Astfel, în situația surselor sonore aflate la o distanță mare, frecvențele înalte devin mai atenuate față de frecvențele joase, alterând forma spectrală a sunetului. Sunetele cu un conținut scăzut al frecvențelor înalte față de cele joase sunt percepute ca fiind departe de ascultător [1]. Forma spectrală poate fi folosită pentru a percepe distanța față de sursa sonoră aflată la mai mult de 15m față de ascultător și deasemenea, față de sunetele din spațiul apropiat corpului – mai exact, în așa numitul „spațiu peripersonal”. Butler et at., au realizat o serie de experimente, în care au înregistrat zgomote de bandă largă pe care le-au izolat cu un filtru trece jos (low-pass) pentru 2 kHz, 1kHz și 500 Hz. Ei a repetat experimentul și prin filtrare trece sus (high-pass) pentru frecvențele 6kHz, 4kHz, 2kHz. Zgomotele au fost captate în canalul urechii fiecărui participant, în cameră anecoidă sau reverberantă și au fost redate prin căști. Rezultatul a fost următorul: zgomotele filtrate trece-jos au fost percepute constant ca fiind mai îndepărtate față de zgomotele filtrate trece-sus. Rezultatele au fost confirmate atât pentru camera anecoidă, cât și pentru camera reverberantă. Zgomotele de bandă largă au fost identificate ca aflându-se în centrul distanțelor percepute [10]. Little et al. au venit cu câteva modificări pentru experimentul realizat de Butler et al., prin care filtrau trece-jos zgomotul de bandă largă la frecvențele 5kHz, 6 kHz și 6,7kHz. Ei au susținut că stimulii aceștia sunt mai apropiați de sunetele pe care le percep oamenii în mod normal la distanță. Și de această dată, scăderea componentelor situate la frecvențe înalte a fost asociată cu o creștere a distanței, însă doar în cursul mai multor încercări. Acest lucru sugerează faptul că spectrul sonor este un indicator relativ pentru distanță [11]. Conținutul spectral este de asemenea important în perceperea distanței față de sunetele apropiate de receptor. Acest lucru se datorează modului în care difracția sunetului în jurul capului variază cu frecvența și distanța. Un alt studiu, realizat de Kopčo et al., a implicat percepția distanței pentru zgomote scurte redate între 0,15m și 1,7m cu frecvența centrală situată între 300 și 5700Hz. Spectrul de frecvență a fost ales
17 între 200 și 5400Hz. Sunetele au fost redate într-un spațiu cu reverberație, iar nivelul semnalului direct a fost redus pentru ca participanții la experiment să prioritizeze percepția semnalului reverberant [12]. Acuratețea percepției distanței a scăzut atât pentru sunetele frontale cât și pentru cele laterale, pe măsură ce frecvențele joase au fost eliminate. În cazul sunetelor frontale percepția a avut acuratețe mare atunci când sunetele au conținut energie în jurul frecvenței 300Hz. Acuratețea scăzută s-a înregistrat doar pentru sunetele cu energie concentrată în jurul valorii de 5,7kHz. Trebuie notat faptul că indicatorii spectrali nu oferă informații pentru distanță în cazul sunetelor localizate între 1-15m față de ascultător. În acest caz, sunetul nu a călătorit îndeajuns pentru a pierde un grad detectabil de energie la frecvențele înalte. De asemenea, frecvențele joase rezultate în urma difracției în jurul capului sunt prea mici pentru a fi detectate [1]. Un alt studiu realizat de Gordon et al. a scos la iveală faptul că spectrul semnalului poate fi afectat în situația în care sursa sonoră este în mișcare. Și acești autori confirmă că stimulii cu o energie scăzută la frecvențele înalte au fost localizați la o distanță mai mare [13]. Este cunoscut faptul că peste 1m, intensitatea sunetului măsurat la nivelul urechii, este invers proporțională cu distanța pătrată față de sursă. Acest indicator este util în cazul în care există o asociere cu sursa sonoră. Spre exemplu: ascultătorul se poate așteapta la un anumit nivel din partea emitorului (de ex: vocea umană), ori ca sursa să fie redată la o distanță de referință cunoscută, înainte de a fi redată la alte distanțe. Caracterul deviațiilor spectrale se schimbă cu unghiul sursei, fiind prezentate în Fig.1.1 pentru 90°și 180°. Aceste deviații spectrale implică faptul că mișcările capului pot avea un rol în determinarea sursei sonore [14]. Un alt indicator pentru sursele la o distanță sub de 1m este creșterea diferenței interaurale de nivel. În ceea ce privește vocea umană, mai multe studii au arătat faptul că localizarea acesteia într-o cameră anecoidă, este subapreciată. Acest lucru se datorează faptului că sursele sonore sunt în permanență percepute mai aproape de ascultător în spațiile tratate acustic decât în cele reverberante [15]. De asemenea, Bronkhorst et al. notează o îmbunătățire a distanței percepute odată cu intensificarea densității reflexiilor acustice.
18 1.5. Indicatorii binaurali Indicatorii binaurali sunt cei care definesc direcția unghiulară a sursei sonore în plan orizontal și oferă informații cu privire la distanța față de planul median, cât și pe ce parte a ascultătorului este poziționată sursa de sunet. Cu alte cuvinte, indicatorii binaurali sunt asociați localizării direcționale a sunetului. Prima analiză cuprinzătoare a fenomenelor fizice din spatele percepției binaurale a fost realizată de Lord Rayleigh și la bază, rămâne validă și în prezent. Așa cum a precizat Rayleigh, doi indicatori fizici domină percepția localizării unei surse sonore, asa cum este ilustrat în Fig. 1.2. Cu excepția situației în care un sunet este localizat direct în fața sau în spatele capului, acesta va ajunge puțin mai repede și va avea o intensitate mai mare în urechea care este îndreptată spre stimulul sonor [3]. Atunci când sunetele vin din partea laterală a ascultătorului sau când acesta își întoarce capul, semnalul care ajunge la urechea opusă semnalului, este atenuat și întarziat.
Figura 1.1. Funcția de transfer pentru urechea stângă pentru 0,5m și 3m la unghiurile 0˚, 90˚ și 180˚. Sursa: [14]
19 Fenomenele acestea sunt tratate în literatura de specialitate sub numele Diferența Interaurală de Nivel (ILD)5 (sau IID6 – Diferența Interaurală de Intensitate ) și Diferența Interaurală de Timp (ITD)7. Altfel spus, aceste diferențe sunt cauzate de diferența în distanță pe care sunetul trebuie să o parcurgă pentru a ajunge la ambele urechi și pot fi întâlnite în literatură sub numele de ITD și ILD [2]. În cazul tonurilor continue pure și a altor semnale periodice, în locul ITD este folosit termenul de Diferență Interaurală de Fază (IPD)8, deoarece acest tip de sunete nu au o referință clară în timp [2]. Conform Teoriei Duplex a lui Lord Rayleigh, sunetele de joasă frecvență sunt localizate prin ITD în timp ce sunetele de frecvență înaltă sunt localizate prin ILD [16]. Indicatorii ITD domină spectrul de frecvență sub 1500 Hz, iar peste această frecvență sunt întâlniți indicatorii ILD [17]. Frecvența sub care indicatorii ITD sunt dominanți (vc) poate fi estimată din diametrul mediu al capului (d) și din viteza sunetului (c), prin următoarea formulă: 𝑣𝑐=𝑐𝑑≈1,5𝑘𝐻𝑧, (1.1.) unde 𝑐=340𝑚𝑠 și 𝑑=25 𝑐𝑚. Cu toate acestea, există o zonă de tranziție ambiguă între 1500 și 1800 Hz, unde indicatorii ILD și ITD sunt observați simultan – oferind o precizie de localizare slabă. În acest spectru, diferențele de timp percepute de cele două urechi pentru indicatorii ITD peste 1500 Hz sunt ambigue, iar diferențele de nivel (ILD) peste 1800 Hz sunt slab perceptibile [16]. 5 Din lb. engleză Interaural Level Difference – ILD 6 Din lb. engleză Interaural Intensity Difference – IID 7 Din lb. engleză Interaural Time Difference – ITD 8 Din lb. engleză Interaural Phase Difference – IPD
Figura 2.2. Difențele interaurale care apar în situația unui cap perfect sferic cauzate de o sursă distantă. Astfel se produce o diferența interaurală de timp datorită faptului că semnalul are nevoie de mai mult timp pentru a ajunge la urechea stângă. În același timp se produce și o diferență interaurală de nivel datorată capului care blochează o parte din energia care trebuia să ajungă la urechea stângă. Sursa: [3]
20 Urcând în spectrul de frecvență, peste 3-4kHz sunt prezenți indicatorii din interiorul pavilionului urechii care sunt esențiali pentru crearea impresiei sonore de externalizare, cunoscută și sub denumirea de „înafara capului”9. Aceștia conduc la o percepție spațială și de adâncime a sunetului emis și de asemenea, ajută și pentru localizarea în planul orizontal, în special pentru frecvențele peste 5kHz [18]. În cazul localizării pe axa verticală, aceasta este într-o oarecare măsură, mai puțin precisă decât axa orizontală. Frecvențele care oferă o bună discriminare a sunetului în situația față-spate și sus-jos sunt cele între 4-16 kHz și între 6-12 kHz [18]. Pentru localizarea mediană există două vârfuri între 7-9 kHz și 10-12 kHz și de asemenea, o zonă spectrală îngustă, între 4-8 kHz, care sunt eficiente în momentul redării virtuale 3D. Localizarea verticală este determinată de interacțiunea sunetului cu pavilionul urechii, care produce un indicator monaural cu un spectru particular îngust, între 5kHz și 10 kHz, pentru un sunet deplasat, față de ascultător, de la 0° în fața ascultătorului, la 90° de grade, deasupra capului ascultătorului [18]. Deși variațiile ITD sunt aproximativ independente de distanță, ILD se modifică substanțial precum o funcție de distanță în spațiul acustic apropiat. ILD oferă indicatori pentru distanțe de aproximativ 1m, dincolo de care devine aproximativ independent de distanța sursei. La frecvențe joase ILD poate fi foarte mare, dar foarte mic pentru sursele aflate la depărtare de receptor [1]. Percepția distanței în cazul sunetelor laterale a avut o acuratețe mai mare decât pentru sunetele în planul median, în concordanță cu măsurătorile HRTF10, indicând că ILD a variat cu distanța [1]. În procesul de interpretare a locației și a direcției unui stimul sonor creierul va îndrepta automat capul către sursa sonoră, verificând modul în care indicatorii de timp și cei de nivel, vor varia între cele două urechi. Cu toate acestea, Simpson et.al., au descoperit că mișcările capului nu au dus la îmbunătățirea percepției distanței pentru impulsuri redate între 0,3 și 2,6 metri [19]. Iar conform cercetărilor efectuate de Cochran et al., orientarea capului nu are efecte în percepția distanței pentru sunetele care conțin limbaj uman, redate la mai mult de 1m [20]. Informația binaurală este folositoare în externalizarea sunetelor ascultate în căști și reducerea acesteia duce la efectul de „sunet în cap”. Percepția unui sunet ca fiind localizat în afara sau în interiorul capului este similară dar distinctă, față de distanța efectivă la care se află un sunet față de ascultător. Un sunet care este externalizat este deobicei perceput la o anumită distanță, dar precizia cu care distanța poate fi identificată poate varia în funcție de indicatorii disponibili [1]. De asemenea, Chan et al., notează faptul că, comparativ cu situațiile reale, în cazul înregistrărilor binaurale ascultătorii tind să subestimeze distanța sursei sonore [21] Bineînteles, pentru o experiență cât mai convingătoare și cât mai aproapiată de modul real de percepție ale urechii, este preferată o cât mai bună externalizare a sunetului. Acest subiect este tratat mai pe larg în subcapitolul 3.5. 9 Din lb. engleză out of the head. 10 Din lb. engleză Head Related Transfer Function – HRTF
21 1.5.1. Conul de confuzie Indicatorii ITD și ILD răspund doar de percepția sunetelor în planul median și nu specifică o poziție spațială unică. Deși aceștia sunt indicatorii primari de localizare ai sunetelor, singuri nu reușesc să poziționeze o sursă în spațiu. Presupunând un cap perfect sferic, pentru fiecare poziție a sursei sonore există un con de unghiuri posibile pentru care ILD și ITD iau aceeași valoare. Acesta poartă numele în literatura de specialitate drept „conul de confuzie” (Fig. 2.3.). Conform Teoriei Duplex, sunetele care își au originea în interiorul conului nu pot fi distinse [22]. Conul este simetric pe axa interaurală având vârful în mijlocul capului. În această situație, pentru a putea localiza fiecare sunet, sistemul auditiv se folosește de indicatori adiționali precum filtrarea dată de pavilionul urechii, mișcarea capului, indicatorii de reverberație (DRR) sau indicatorii vizuali. Cercetătorii consideră că, pricipalul indicator care ajută la depășirea aceștei confuzii, este dat de filtrarea pe care o realizează urechea externă, având capacitatea de a „prinde” sunetul și de a-i modifica componetele spectrale încât, în funcție de originea sursei sonore, anumite intervale de frecvență sunt amplificate în timp ce altele sunt atenuate [22], [23]. 1.6. Indicatorii dinamici Indicatorii dinamici pot fi catalogați drept un flux de informație acustică rezultat din mișcarea surselor sonore și/sau a ascultătorului. Aceștia pot oferi informații sonore legate de distanță, în două forme: cea de „tau acustic” și cea de „mișcare parallax absolută”. „Tau acustic” se referă la rata schimbării nivelului sonor în momentul în care ascultătorul este în mișcare. Estimarea lui tau acustic poate fi asociată cu estimarea distanței, deoarece acestea sunt proporționale atunci când viteza este constantă. Rata schimbării nivelului a fost propusă ca fiind principalul indicator folosit pentru a specifica tau acustic. Cu toate acestea, rata schimbării indicatorilor spectrali sau binaurali poate oferi de asemenea informații utile [1].
Figura 2.3. Conul de confuzie. Sursa: [22]
22 „Mișcarea parallax absolută” reprezintă schimbarea direcției unghiulare a sursei sonore cauzată de mișcarea sursei față de poziția ascultătorului [1]. Într-o serie de experimente realizate de Speigle et al. și de Ashmead et al., a rezultat faptul că indicatorii dinamici ajută percepția auditivă pentru distanțe mai mari de 2m [24], [25]. Totuși, conform unui studiu din 2012 susținut de Teramoto et al., a reieșit faptul că pentru spațiul acustic aproapiat, mișcarea este în defavoarea percepției corecte a distanței. Astfel că, pentru impulsurile tonale redate la distanța de 1,5m, mișcarea ascultătorului a produs erori mai mari de percepție, decât în situația în care a stat nemișcat [26]. Speigle et al., mai notează faptul că, combinația între distanța și direcția mișcării pot conduce la acustic tau și mișcarea parallax absolută. [24] Studiile și experimentele realizate de Ghazanfar et al. au concluzionat că sistemul nervos și sistemul perceptual au evoluat în direcția tratării cu prioritate a obiectelor care se apropie de ascultător. În majoritatea testelor, mișcarea a fost percepută folosind tonuri crescătoare sau descrescătoare. Însă, a fost scos în evidență faptul că mișcarea nu a fost la fel de convingătoare precum în cazul utilizării metodei de convoluție a semnalelor cu HRTF-uri radate în căști sau prin folosirea unui set de boxe pentru a simula mișcarea sunetului în câmp liber [27]. Mai multe investigații trebuie realizate pentru a stabili care sunt abilitățile de percepție ale distanței în situația în care sursa sonoră cât și ascultătorul sunt în mișcare. De asemenea, în prezent, nu este foarte clar cât de folositori sunt indicatorii dinamici pentru estimarea distanței, deoarece studiile efectuate până acum s-au bazat pe stimuli sonori situați la distanțe absolute [1]. 1.7. Familiarizarea cu stimulul audio Experiențele anterioare cu o anumită sursă sonoră, la diferite distanțe, pot crește gradul de acuratețe a identificării distanței. Acest lucru se datorează faptului că sistemul nervos poate compara conținutul spectral și nivelul sonor la nivelul urechii cu un estimat creat intern pentru sursa sonoră. De exemplu, sirena unei mașini de pompieri aflată la străzi distanță de ascultător (deci percepută de ureche ca având un nivel mic), va fi procesată de către creier ca fiind la depărtare, deoarece este cunoscut faptul că, sirenele funcționează la un nivel sonor ridicat [1]. Coleman, a descris că acuratețea participanților la un experiment s-a îmbunătățit de-a lungul încercărilor repetate de a identifica distanța pentru impulsurile cu zgomot de bandă largă prezentate în câmp liber la distanțe cuprinse între 2,7 și 8,2 metri [28]. Mershon et al., au observat că estimarea distanței pentru impulsurile cu zgomot de bandă largă au avut o acuratețe mai mare dupa cinci încercări într-o cameră reverberantă la distanțe cuprinse între 0,75 și 6 metri [29]. Cu alte cuvinte, odată ce persoana s-a familiarizat cu stimulul sonor, estimarea distanței a putut fi realizată mai ușor și mai precis.
23 1.8. Efectul informației vizuale asupra percepției distanței sonore În procesul de localizare al stimulilor sonori, receptorii vizuali au un rol important în a confirma creierului că informația pe care acesta a procesat-o cu ajutorul indicatorilor de spațialitate ai celor două urechi, este în concordanță cu poziția din spațiu a stimulului real. Un exemplu foarte bun este acela în care o persoană aflată într-o intersecție va încerca să găsească cu privirea mașina de salvare care se apropie cu sirena pornită. Presupunând că vehiculul se apropie din spatele ascultătorului, acesta nu va putea indica cu exactitate banda sau de pe ce intrare în intersecție vine mașina. Astfel că va întoarce capul pentru a obține confirmarea sursei sonore prin informația vizuală dar si pentru a crea o hartă mintală a spațiului care să justifice stimulul sonor. Un alt exemplu faimos este cel al efectului ventriloc, în care un artist controlează o marionetă (păpușă de mână) creând iluzia că aceasta poate vorbi. Hládek et al., au prezentat stimulul audiovizual compus din zgomote scurte de bandă largă care erau congruente sau incongruente cu o serie de leduri plasate la distanțe cuprinse între 44,5 și 349 cm față de participantul la experiment, într-o cameră întunecată și reverberantă. Atunci când stimulii vizuali au fost pozitionați cu 30% mai aproape sau mai departe de stimulii sonori, efectul de ventriloc a avut loc iar participanții au precizat o deplasare a stimulilor sonori în direcția stimulului vizual. De asemenea, a fost înregistrat un efect de ventriloc mai slab, pentru teste care au folosit stimuli audio-singulari intercalați cu stimuli audio-vizuali [30]. În situația localizării în planul orizontal (azimut), efectul de ventriloc a fost descris cu termenul localizare blurată, ce este mai prezent pentru stimulii auditivi, decât pentru cei vizuali [30]. De asemenea, mai multe experimente au confirmat efecte similare pentru interpretări ale distanței fiind descrise sub numele de efecte de proximitate [1]. Într-o serie de experimentele susținute de Bujacz et al., voluntarii nevăzători au localizat sunetele spațializate cu o eroare mai mare (12,5°), față de voluntarii fără probleme de vedere (în medie 8°). Motivul pentru această discordanță este acela că persoanele fără probleme de vedere au dezvoltat, de-a lungul vieții, abilitatea de localizare prin prezența permanentă a unui feedback vizual. Aceeași cercetători mai notează că pe durata întregii serii de experimente, persoanele nevăzătoare au făcut mai multe erori decât persoanele care și-au pierdut vederea ulterior în viață [31]. 1.9. Concluzii În acest capitol a putut fi observat nivelul de importanță pe care îl au indicatorii de localizare. Nivelul, raportul dintre energia semnalului direct și energia semnalului reverberant, indicatorii spectrali, indicatorii binaurali (ITD și ILD), indicatorii dinamici, gradul de familiarizare cu stimulul redat cât și prezența informației vizuale, constituie informații importante pe care creierul le prelucrează în fiecare secundă. De toate acestea depinde în diferite proporții crearea unei senzații realiste în momentul virtualizării semnalului audio. Desigur, unii indicatori sunt mai importanți decât alții (de ex: indicatori binaurali care definesc direcția unghiulară în planul orizontal), însă cu cât se va ține cont, în semnalul final, de un număr cât mai mare dintre aceștia, localizarea va fi mai ușoară și va avea un grad de realism
24 ridicat pentru utilizator. De asemenea, în cadrul experimentului acestei lucrări, prezentat în Capitolul 5, au fost verificate o parte din informațiile prezentate în Capitolul 1, subiecții folosind cu precădere pentru localizarea sunetelor indicatorii binaurali, indicatorii spectrali, indicatorul DRR, cât și gradul de familiarizare cu stimulul redat. În încercarea de a simula modul în care cele două urechi interacționează, dar și influența pe care o are urechea externă asupra sunetelor, au fost dezvoltate o serie de ecuații, numite funcțiile de transfer ale capului (HRTF) care prin procesul de convoluție cu semnalul sonor, promit rezultate convingătoare în momentul redării unui semnal monofonic prin căști. Acest subiect este studiat pe larg în Capitolul 2.
25 2. Funcțiile de transfer ale capului – HRTF 2.1. Introducere În capitolul precedent au fost prezentați pe larg indicatorii pe care urechea umană îi folosește pentru a percepe localizarea unui emitor sonor în spațiu. Recent, datorită dezvoltării puterii computaționale și a tehnicilor de măsurare acustică, a fost posibilă analiza, calcularea și sinteza acestor indicatori care influențează auzul. Funcțiile de transfer ale capului (HRTF)11 reprezintă răspunsuri care determină modul în care urechea percepe stimulii sonori care sosesc dintr-un anumit punct din spațiu. Acestea descriu direcția undelor sonore între sursă și ureche (trecând prin canalul auditiv, la timpan). Funcțiile HRTF sunt defapt, transformatele Fourier ale impulsurilor la răspuns ale capului (HRIR)12. Cunoașterea HRTF-urilor ascultătorului permite sintetizarea unei scene dintr-un mediu virtual auditiv care să ofere persoanei aceeași percepție pe care ar produce-o sursa într-un mediu real [32]. Pe langă filtrarea sunetului pe direcția sursei cu HRTF-uri, este posibilă îmbunătățirea gradului de realism perceput, prin introducerea reverberațiilor, reflexiilor și a indicatorilor de mișcare [33]. HRTF-urile sunt o „amprentă a urechii” și sunt puternic individualizate, depinzând de caracteristicile anatomice, de asimetria capului și de amplasarea urechilor ascultătorului. Diferențele specifice în anatomia urechii, a capului și a corpului nu permit utilizarea acelorași HRTF-uri pentru toți ascultătorii [34], [32]. De asemenea, datorită pavilionului urechii, care diferă de la persoană la persoană, între frecvențele 5-10kHz, localizarea față-spate poate apărea denaturată, fiind înregistrat un număr mare de erori de spațialitate auditivă. 2.1 Măsurarea funcțiilor de transfer ale capului Obținerea funcțiilor de transfer ale capului unei persoane sau a unui menechin se bazează pe introducerea parțială a unei perechi de microfoane de mici dimensiuni, în cele două canale auditive și redarea unui stimul (de obicei sinusoidal) printr-o boxă. Este necesară cunoașterea avelopei spectrale a semnalului, iar boxa trebuie să fie plasată la distanța, direcția (azimut) și înălțimea (elevație), specifice față de capul subiectului [22]. Prin cercetări empirice HRTF-urile au fost specificate ca filtre FIR de fază-minimă și includ informația conținută de indicatorii binaurari ITD și ILD [22]. Astfel timpii de întârziere (ITD) sunt codați în spectrul de fază al filtrului, iar informația de nivel (ILD) va conține puterea totală a filtrului. Proprietatea de fază minimă permite specificarea fazei funcției de transfer din răspunsul de magnitudine13. De asemenea, presupunerea unei faze minime permite separarea informației ITD din specificațiile filtrului FIR a HRTF-ului. Deoarece filtrele de fază minimă au proprietatea de „energie – 11 Din lb. engleză Head Related Transfer Function – HRTF. 12 Din lb. engleză Head Related Impulse Response – HRIR. 13 Răspunsul de magnitudine și răspunsul fazei unui sistem de fază minimă formează o pereche de transformate Hilbert.
26 intarziere” minimă, majoritatea energiei HRTF este prezentă la începutul răspunsului la impuls, astfel că între cele două urechi nu apare o întarziere. O singură funcție de transfer a capului este definită ca fiind specifică urechii stângi sau drepte, a unei persoane, și reprezintă răspunsul în frecvență pentru câmpul îndepărtat, măsurată de la un anumit punct în câmpul liber, la un anumit punct din canalul urechii [22]. Se obișnuiește ca măsurătoarea să fie făcută la o distanță fixă, pentru ambele urechi, fie pe indivizi, fie pe manechine. Aceasta este realizată pentru diferite distanțe de azimut și de elevație, ce sunt măsurate în grade sau radiani (Fig. 2.1.). Există mai multe modalități pentru a măsura seturile HRTF [35], [36], [37]: • subiectul este fix și o serie de difuzoare, așezate pe un arc de cerc se mișcă în plan vertical • subiectul este asezat pe o platformă rotativă, mișcată circulatar în incremente graduale și difuzoarele (așezate pe un arc de cerc) sunt fixe • existența unei singure boxe fixe, subiectul având posibilitatea să își miște capul și să se rotească în jurul axei sale. În situația în care măsurătoarea se realizează într-o cameră anecoidă, subiectul este așezat pe o platformă circulară. Pentru a obțiune răspunsuri adecvate, subiecții umani își vor rezema capul pe un braț metalic ce îi va ajuta să rămână în aceeași poziție pe tot parcusul măsurătorii. Langă platformă, pe un arc cu deschiderea de 180°, se află o serie de boxe prin care sunt redate serii de semnale sinusoidale. Odată ce a fost redată prima serie de semnale, platforma se va roti cu un increment de 5° iar procesul va fi realuat până în momentul completării unei rotații de 360° [35]. Una dintre primele măsurători HRTF puse la dispoziția publicului larg a fost aceea a unui manechin (cap binaural) într-o cameră anecoidă. Capul avea plasate în urechi două microfoane ce captau sunetul redat de o boxă. Obținerea diferitelor unghiuri în planul vertical s-a realizat prin mișcarea boxei, iar pentru planul orizontal a fost rotit capul.
27 Înregistrările au fost stocate sub forma de răspunsuri la impuls (IR)14, cu lungimea de 512 eșantioane, la frecvența de eșantionare de 44,1 kHz [38]. Primele măsurători HRTF, realizate pe subiecți umani și puse la dispoziția publicului larg, au fost stocate în baza de date CIPIC [39]. Măsurătorile au fost efectuate pentru 1.250 de direcții spațiale la distanța de 1m în jurul ascultătorului. Pe site-ul ucdavis.edu15 sunt puse la dispoziție HRTF-urile a 43 de persoane sub forma răspunsuri la impuls cu lungimea de 200 de eșantioane la frecvența de eșantionare de 44,1 kHz [38]. Trebuie precizat faptul că deși pentru măsurarea funcțiilor HRTF în formatul binaural sunt folosite doar două microfoane care captează semnalele ce sosesc în cele două urechi, există situații în care sunt necesare microfoane multiple. Câteva dintre aceste situații sunt enunțate mai jos: – în cazul aparatelor auditive unde sunt folosite trei microfoane pentru fiecare ureche [40]; – în cazul măsurătorii HRTF reciproce, unde o serie de microfoane sunt conectate multicanal și poziționate în jurul receptorului [41]; 14 Din lb. engleză Impulse Responses – IR 15 http://interface.cipic.ucdavis.edu/data
Figura 2.1. (adaptare) Sistemul de coordonate spațiale și terminologia folosită în literatura HRTF. Sursa: [22]
28 – în cazul măsurătorilor pentru răspunsurile direcționale la impuls ale camerei (DRIR) [42]; – în cazul măsurătorilor acustice într-o sală de concerte [43]. Pentru a nu influența rezultatele obținute, în timpul postprocesării, funcțiile de transfer ale microfoanelor și ale boxei/boxelor trebuie să fie eliminate din HRTF-urile obținute. Astfel, echipamentele utilizate pot fi măsurate cu sisteme de măsură calibrate prin care va fi obținut inversul funcțiilor de transfer ce va fi folosit pentru a egaliza HRTF-urile brute [22]. De asemenea, caracteristicile spectrale ale HRTF-urilor brute, care sunt similare pentru toate locațiile, sunt presupuse că nu conțin indicatori psihofizici importanți și pot fi eliminate din măsurătorile brute. Aceste caracteristici conțin funcțiile de transfer difuze, care pot fi calculate prin medierea HRTF-urilor egalizate din toate locațiile spațiale. HRTF-urile sunt transformate Fourier complexe ale răspunsului la impuls a capului (HRIR) și sunt definite pentru fiecare ureche. Ambele conțin informații de fază și de magnitudine, fiind dependente de locul în spațiu în care se află sursa sonoră față de ascultător. Sub formă matematică acestea pot fi descrise notând răspunsul la impuls în domeniul timp cu ℎ𝐿(𝑡) pentru urechea stângă, respectiv cu ℎ𝑅(𝑡) pentru urechea dreaptă. În domeniul de frecvență vor fi notate cu 𝐻𝐿(𝜔), respectiv 𝐻𝑅(𝜔) [17]. În domeniul timp presiunea la nivelul urechilor va putea fi scrisă ca o convoluție a semnalului sonor și a răspunsului la impuls al capului (HRIR) pentru fiecare ureche: 𝑥𝐿,𝑅=ℎ𝐿,𝑅(𝑡)∗𝑥(𝑡)=∫ℎ𝐿,𝑅(𝑡−𝜏)𝑥(𝜏)𝑑𝜏+∞−∞ (2.1.) În domeniul frecvență, convoluția este transformată sub forma următoare: 𝑋𝐿,𝑅(𝜔)=𝐹(ℎ𝐿,𝑅(𝑡)∗𝑥(𝑡))=𝐻𝐿,𝑅(𝜔)𝑋(𝜔) (2.2.) unde 𝑋(𝜔) este spectrul semnalului 𝑥(𝑡). În Figura 2.2, este prezentată propagarea semnalului 𝑥(𝑡) de la sursă la urechile ascultătorului alături de notațiile pentru răspunsurile la impuls în domeniul timp (ℎ𝐿(𝑡), ℎ𝑅(𝑡)) și cele pentru presiunea sursei sonore la nivelul celor două urechi (𝑥𝐿(𝑡),𝑥𝑅(𝑡)).
29 2.2. Standardul SOFA Standardul SOFA (Spatially Oriented Format for Acoustics) este un format care își propune să asigure un bun schimb de date între dezvoltatorii de aplicații care folosesc funcțiile de transfer ale capului și cercetătorii din domeniul sistemelor audio 3D. Această convenție a fost dezvoltată de către Asociația Inginerilor Audio (AES)16 în anul 2015 și are ca scop reprezentarea datelor cu caracter spațial într-o formă generală. În acest mod este posibilă stocarea, pe langă funcțiile HRTF, a datelor complexe, precum răspunsurile direcționale la impuls ale camerei (DRIR)17 transmise de un arc de boxe și captate cu un arc de microfoane [38]. Până în prezent, HRTF-urile au fost stocate sub diferte formate ce prezentau avantaje și dezavantaje. Un bun exemplu îl constituie baza de date CIPIC18 care oferă pentru fiecare măsurătoare un fișier text sau Matlab (The MathWorks, Inc.), care conține indexul fiecărei măsurători corespunzător direcției în care a fost măsurat. Similare cu CIPIC, pachetul open source openDAFF care stochează conținutul audio direcțional, folosește un sistem de valori definite pentru descrierea metadatelor. Bazele de date LISTEN19 (dezvoltată de Ircam în parteneriat cu AKG) și ARI20 (dezvoltată de Academia Austriacă de Științe) folosesc o matrice HRTF și alte matrici adiționale ce stochează direcția, deci coordonatele fiecărui răspuns la impuls. În aceste formate, semnalele captate pentru fiecare individ sunt stocate într-un fișier separat [38]. Se poate observa cu ușurință faptul că, nevoia stocării unui fișier adițional pentru fiecare măsurătoare, va genera în final multe fișiere. 16 Din lb. engleză Audio Engineering Society – AES. 17 Din lb. engleză Directional Room Impulse Responses – DRIR. 18 Detalii la adresa: https://www.ece.ucdavis.edu/cipic/spatial-sound/hrtf-data/ . 19 Detalii la adresa: http://recherche.ircam.fr/equipes/salles/listen/ . 20 Detalii la adresa: https://www.kfs.oeaw.ac.at/index.php?view=article&id=608&lang=en .
Figura 2.2. Filtrarea semnalului x(t) de către două funcții de transfer separate, hL(t) și hR(t). Sursa: [17]
30 Baza de date MARL-NYU21 (dezolvotată de Music and Performing Arts Professions, New York) stochează toate datele într-un singur fișier, dezvoltat în Matlab ce permite o mai bună interconectivitate între diferiți utilizatori. Formatul SDIF – Sound Description Interchange Format (dezvoltat în centrele de cercetare IRCAM și CNMAT) creat pentru stocarea datelor audio, a fost adaptat pentru a stoca funcțiile de transfer ale capului, combinând reprezentarea binară și cea text într-un singur fișier [38]. Un alt exemplu îl constituie o serie de răspunsuri la impuls realizate în sala de concerte „Promenadikeskus” din Pori, Finlanda. În cazul acesta, impulsurile au fost stocate în fișiere compresate „.wav”, ce necesită un fișier text pentru a putea interpreta datele audio [44]. Se poate observa cu usurință din această scurtă prezentare a diferitelor formate de stocare a funcțiilor HRTF, folosite în mai multe institute specializate în lucrul cu informația audio, nevoia standardizării unui format pentru o mai bună comunicare între dezvoltatori și utilizatori. Astfel că au fost concluzionate o serie de cerințe pentru standard [38]: – descrierea unui sistem de măsură care să nu fie dependent de un model geometric definit sau de o distanță constantă; – toate informațiile referitoare la măsurătoare trebuie să poată fi incluse în fișier; – posibilitatea descrierii, într-un singur fișier, a diferitelor variabile precum numărul de receptori, distanțe, etc.; – disponibilitate ca fișier binar și compresie a datelor pentru eficiență în momentul stocării și al transferului; – descrierea unor convenții predefinite pentru realizarea măsurătorilor des întâlnite. Standardul SOFA își propune să îndeplinească aceste cerințe. Informația este stocată într-un container numeric și este structurată în funcție de măsurătoare – aceasta fiind o observație discretă realizată într-un moment specific și sub anumite condiții. Măsurătoarea constă în date precum: răspusul la impuls și metadata. Toate măsurătorile sunt stocate într-o singură structură, ce poate fi de tipul unei matrici de IR-uri. 2.2.1 Specificații generale SOFA folosește două obiecte numite generic Sursă și Ascultător care sunt definite în sistemul de coordonate al camerei. În cazul câmpului liber sistemul acesta este arbitrar. Emitorii și receptorii au sistemul lor de coordonate denumit sisemul local de coordonate. Acesta este definit în funcție de sistemul de coordonate al sursei și de cel al ascultătorului. 21 Detalii la adresa: https://steinhardt.nyu.edu/marl/research/head_related_impulse_responses_repository .
31 Doi vectori descriu orientarea de bază a sursei sau a ascultătorului. Astfel că, vectorul „view” definește direcția în care sursa/ascultătorul este orientat, iar vectorul „up” descrie unghiurile de azimut și de elevație pentru sursă/ascultător. Poziția și orientarea sunt descrise separat pentru ascultător, sursă și pentru toți emitorii și receptorii. Tipul standard de coordonate pentru vectorii de poziție, view și up este cel Cartezian (x y z), iar pentru sistemul sferic de coordonate, formatul este azimut, elevație, distanță. Pentru măsurarea HRTF-urilor, în general, vor fi considerate doar unghiurile descrise de azimut și de elevație; distanța fiind definită ca o constantă ce nu se va modifica în timpul măsurătorii. Standardul SOFA serializează informația într-un flux binar și o stochează într-un singur fișier. Serializarea este realizată de către un container numeric care definește formatul reprezentării binare [38]. Fișierele SOFA au extensia „ .sofa”. În încercarea de a evita dezvoltarea unui container numeric propriu, standardul SOFA se bazează pe interfața netCDF-4 (dezvoltat de Unidata) 22 ce permite crearea, accesul și trimiterea de date cu caracter științific 23. netCDF-4 este folosită la scară largă în domeniile de climatologie, meteorologie, oceanografie și în sistemele geografice. Aceasta este folosită în multe industrii și domenii din întreaga lume, permițând gestionarea fișierelor de dimensiuni mari, acces parțial în fișiere și compresia datelor, fiind bazată pe sistemul de librării software HDF5 (dezvoltat de HDF5 Group) 24. netCDF-4 este disponibilă în formatul open-access și este pre-compilată pentru limbajele de programare C++, Octave și JAVA. De asemenea, această interfață este inclusă în Matlab. Standardul SOFA folosește modelul de date netCDF (descris în Fig. 2.3.) pentru a defini dimensiuni și pentru a stoca variabile și atribute [38]. 22 Din lb. engleză Network Common Data Form. 23 Detalii la adresa: https://www.unidata.ucar.edu/software/netcdf/ . 24 Detalii la adresa: http://www.hdfgroup.org/HDF5 .
Figura 2.3. Model clasic de date netCDF. Sursa: [38]
32 Datele constau în matrici multidimensionale și prezintă avantajul că pot fi stocate în domeniul sub care se desfășoară măsurătorile. Această flexibilitate permite stocarea datelor de tip filtru cu răspuns finit la impuls (FIR – Finite Impulse Response) sau de tip filtru cu răspuns infinit la impuls Biquad (IIRBiquad – Infinite Impulse Response Biquad), cu sau fără întârzieri de bandă largă stocate separat [38]. Întârzieri de bandă largă (broadband delay) notate în netCDF-4 drept, timpul de sosire (TOA)25 pot fi stocate într-o matrice sau ca parametri într-un model TOA continuu-direcțional [38]. Datorită faptului că interfața netCDF are dimensiuni prestabilite ce trebuie definite înainte de crearea variabilei, standardul SOFA conține o serie de dimensiuni predefinite, prezentate mai jos.
25 Din lb. engleză Time of Arrival – TOA.
Tabelul 2.1. Tipuri de date folosite în SOFA. Sursa: [38]
Tabelul 2.2. Metadatele generale folosite în SOFA și stocate ca atribute globale in fișierul netCDF. Sursa: [38]
33
Datele și metadatele sunt descrise folosind aceste dimensiuni predefinite: • M – numărul de măsurători • R – numărul de receptori • N – numărul de eșantioane ce descriu o singură măsurătoare. • E – numărul de emitori; • C – datele coordonatelor; 2.2.2. Informațiile de metadată Metadatele constau în variabile și atributele lor. Regăsim, metadatele generale, metadatele ascultătorului și metadatele receptorilor (microfoanelor) prezentate în tabele 2.1. – 2.4. Metadatele generale conțin cele mai importante proprietăți ale măsurătorii și sunt valide pentru sistemul de măsură global. Pot exista metadate sub forma unei matrici numerice, a unei variabile sau a unui string (șir). Pot fi cazuri în care atributele vor sta pe lângă o variabilă. Metadatele specifice pe obiect decriu obiectele, ascultătorul, receptorii, sursa și emitorii (Tabelul 2.3 și Tabelul 2.4.).
Tabelul 2.3. Metadatele pentru ascultător considerate în standardul SOFA. Similar exista și pentru sursă. Sursa: [38]
Tabelul 2.4. Metadatele pentru receptor considerate în standardul SOFA. Similar se aplică și pentru emitor, prin înlocuirea literea lui R cu E. Sursa: [38]
34 Convențiile propuse de standardul SOFA descriu scheme de măsurători particulare ale HRTF/DRIR. Una dintre cele mai folosite convenții este cea care constă în măsurarea funcțiilor de transfer ale capului într-o cameră anecoidă pentru o singură persoană. Măsurătorile sunt realizate la o distanță constantă în câmp liber (cameră anecoidă) cu o singură sursă emitentă de tipul unei boxe omnidirecționale. Sunt folosiți doi receptori; unghiurile de azimut și elevație sunt variate, iar înclinarea capului nu este luată în considerare în cazul acestei măsurători. Măsurătorile sunt reprezentate ca filtre FIR, constând într-un singur set de HRTF-uri pe fișier pentru o persoană. Sunt definite următoarele specificații: • General attributes: Simple-FreeFieldHRTF, Datatype: FIR, RoomType: free field. • Data: numărul receptorilor este doi, astfel dimensiunea pentru Data.FIR: [M 2 N]. Este permisă o singură frecvență de eșantionare (sampling rate); • Source: locul în care este situat emitorul (care este staționar). Prin urmare, sunt definite SourcePosition: (0 0 0), SourceUp: (0 0 1), SourceView: (1 0 0), SourceRotation, and EmitterPosition: (0 0 0). • Listener: distanța (în metri) a ascultătorului față de sursă, îndreptat către aceasta; Prin urmare, sunt definite ListenerPosition: (X 0 0), ListenerView: (0 0 0), ListenerUp: (X 0 1). • Receivers: doi receptori (un microfon pentru fiecare ureche) situați pe un cap cu diametrul H (metri). Este definit în ReceiverPosition: (0 -H 0; 0 +H 0). • Unghiul cu planul orizontal și cu cel vertical sunt descrise de ListenerRotation: [M 3] (grade). Specificațiile standardului SOFA sunt înscrise în Common Data Form Language (CDL). Fișierele CDL permit interpretarea convenției indiferent de platformă și pot fi compilate pe un fișier binar netCDF folosind funcția ncgen din pachetul netCDF: ncgen -b -o mySOFAfile.sofa -k3 mySOFAconvention.cdl (2.3) În prezent standardul SOFA a reușit să descrie datele rezultate din diferite sisteme de măsurători HRTF/DRIR și este în continuare în faza de dezvoltare. O arhivă cu codul sursă pentru MATLAB și Octave este disponibilă pe platforma SoundForge26. 26 https://sourceforge.net/projects/sofacoustics/files/
35 2.3. Importanța HRTF-urilor în redarea binaurală HRTF-urile sunt des folosite prin convoluție cu sunetul monofonic pentru a-l filtra după forma capului și a trunchiul uman. Este cunoscut faptul că aceste funcții oferă indicatori spațiali importanți pentru sistemul auditiv. Sunetul filtrat cu HRTF-uri și redat prin căști permite ascultătorului să perceapă sunetele redate într-un mod realist, spațializat. Însă, HRTF-urile depind de geometria pavilionului urechii, mărimea și forma capului și de trunchiul fiecărei persoane. Altfel spus, HRTF-urile variază pentru fiecare persoană. Este cunoscut faptul că folosirea unui set de funcții nepersonalizate poate duce la erori de localizare, probleme de localizare verticală și o spațializare neconvingătoare [45]. Cu toate acestea majoritatea motoarelor de jocuri și sisteme VR folosesc seturi de funcții HRTF generice pentru toți utilizatorii. Kim et al., confirmă faptul că funcțiile de transfer ale capului sunt cruciale pentru localizarea corectă a sursei sonore [46]. Iar Junius et al., confirmă fenomenul localizării folosind perechi de căști, efectul fiind acela al unui sunet spațializat, dar care este resimțit în interiorul capului, nicidecum în afara acestuia [47]. Fenomenul este tratat în literatura de specialitate sub numele de „lateralizare”. Studiile realizate de Hartmann et al., au arătat că externalizarea sunetului ascultat în căști este posibilă folosind HRTF-uri individuale, ceea ce duce la senzația unui sunet spațializat, în jurul ascultătorului [48]. De asemenea, rezultate foarte bune au fost obținute cu HRTF-uri individuale care au fost generate artificial și măsurate pe un manechin sau au fost luate de la o altă persoană. Datorită acestor HRTF-uri, sunetele convolute sunt localizare ca sunete reale [49]. Studiile efectuate de Bujacz et al., prezintă o serie de date interesante față de precizia localizării cu seturi de funcții personalizate și nepersonalizate. Aceștia au ajuns la concluzia că HRTF-urile personalizate oferă o mai bună acuratețe a localizării în comparație cu seturile nepersonalizate. Cu toate acestea, erorile de localizare, în special cele constând în identificarea verticală a sursei, pot fi întâlnite în continuare cu o frecvență ridicată. Bujacz et al., notează ca principal avantaj al folosirii unui set personalizat de HRTF-uri, scăderea semnificativă a numărului de confuzii sus-jos [31]. De asemenea, a fost înregistrat un număr redus de erori de frecvență, ce se poate datora unei mai bune externalizări sau datorită faptului că sunetele au fost percepute mai natural prin HRTF-urile personalizate [31]. În figurile 2.4., respectiv 2.5., extrase din rezultatele experimentelor efectuate de aceștia, sunt expuse răspunsurile participanților alături de marcajele standard de deviație. Poate fi observat faptul că seturile de HRTF-uri oferă un avantaj clar în localizarea sunetului și a eliminării erorilor/confuziilor mari; cu toate acestea erorile mici sunt încă frecvente. Rezultatul cercetărilor realizate de Bujacz et al., a arătat că utilizarea HRTF-urilor personalizate îmbunătățește într-adevăr externalizarea și localizarea surselor virtuale, însă nu într-un grad atât de ridicat comparativ cu situația folosirii HRTF-urilor nepersonalizate.
36
Figura 2.4. (adaptare) Rata erorilor în etapa localizării unei singure surse cu HRTF nepersonalizat, respectiv personalizat. Sursa : [31]
Figura 2.5. (adaptare) Direcționalitatea erorilor de înălțime pentru HRTF nepersonalizat, respectiv personalizat. O valoare de +1.0. rezultă într-o sursă localizată cu un nivel mai sus decât a fost redată. Sursa: [31]
37 2.4. Concluzii Funcțiile de transfer ale capului prezentate în acest capitol reprezintă o soluție bună pentru creșterea acurateții localizării și a gradului de realism. Într-un scenariu ideal, HRTF-urile ar putea fi obținute cu ușurință de la ascultător și ar putea fi incluse rapid în lanțul de transmisie audio. Cu toate acestea, tehnica din prezent nu a dezvoltat o modalitate rapidă și convenabilă prin care să obțină aceste amprente ale fiecărui ascultător, astfel că, în situația unei aplicații VR transmisă pe internet sau în situația unui joc video, HRTF-urile generice/universale reprezintă o alternativă convenabilă. Bazele de date precum cea de la M.I.T folosesc manechine și capuri binaurale, modelate după o medie umană fiind o alternativă convenabilă. În plus, conform studiilor prezentate în subcapitolul 2.3., folosirea unui set de HRTF-uri nepersonalizat nu degradează într-un grad atât de ridicat localizarea (însă introduce erori în localizare verticală și o spațializare neconvingătoare). O soluție la această problemă poate ar putea fi includerea unor seturi predefinite de funcții în programul de redare sau în jocul video. Deoarece funcțiile se potrivesc diferit pentru fiecare individ, poate fi implementă opțiunea de a comuta între seturile predefinite sau chiar încărcarea unui set extern în programul de redare. Odată cu răspândirea standardului SOFA (subcapitolul 2.2.) această soluție propusă, ar trebui luată în calcul.
38
39 3. Înregistrarea și redarea binaurală 3.1. Introducere Termenul de înregistrare binaurală este de obicei asociat cu captarea unei scene audio într-un mod care, în momentul redării, să ofere o experiență cât mai apropiată de realitate pentru ascultător. De regulă, acest tip de înregistrare se realizează cu o serie de microfoane speciale montate în canalul urechii unui manechin sau chiar în canalul urechii unei persoane. Manechinul este construit special pentru a imita structura anatomică umană, astfel că, capul, bustul și pavilionul urechii sunt modelate după subiecți umani. Înregistrarea binaurală prezintă avantajul captării întregii scene audio formată din emitor, reflexiile spațiului și informația HRTF. De asemenea, sunetele din scena audio, care au loc în jurul urechilor vor fi captate din perspectiva privitorului, fiind important să se țină cont de direcția de orientare a capului pe toată durata înregistrării. Schimbarea poziției capului artificial va duce automat la modificarea scenei sonore pentru ascultător. În momentul redării, înregistrarea binaurală captată în canalul urechilor, este transmisă către ascultător într-o transmisiune 1 la 1 folosind o pereche de căști. Într-o situație reală mișcările ascultătorului vor determina schimbarea scenei sonore și totodată a perspectivei față de emitor. Practic, ascultătorul se poate mișca în scenă. În cazul redării binaurale, ascultătorul va auzi scena sonoră din poziția și orientarea pe care a avut-o capul artificial în momentul înregistrării. Se poate înțelege că mișcările ascultătorului nu vor putea influența scena sonoră înregistrată. 3.2. Scurt istoric/Manechine Odată cu dezvoltarea tehnologiei și cu creșterea interesului pentru înregistrarea binaurală au fost dezvoltate un număr de manechine și de capuri artificiale. Unele dintre acestea sunt disponibile în magazinele de specialitate iar altele sunt existente doar în institutele de cercetare. În continuare, vor fi prezentate, pe scurt, câteva dintre cele mai cunoscute. Knowles Electronics Inc. – KEMAR Compania este de origine americană și a fost fondată în anul 1946 de către Hugh Knowles. KEMAR este unul dintre cele mai cunoscute manechine, folosit cu precădere în institutele de cercetare (Fig. 3.1.). Urechile sale sunt construite conform standardelor IEC 711 și ANSI S3.25, fiind conform cu cerințele geometrice și acustice (de captare) ale standardului ITU-T P.58 [50].
Figura 3.1. Manechinul Kemar Sursa: [78]
40 Georg Neumann GmbH – KU100 Compania de origine germană, Neumann, a produs primul cap de înregistrare binaural la începutul anilor ’70, denumit KU80, fiind urmat de KU81. În prezent, capul KU100 (Fig. 3.2.) este folosit cu precădere în industria cinematografică, pentru înregistrarea concertelor simfonice, în transmisiuni live și în post-producție. Neumann precizează, pe site-ul oficial, utilitatea capului și în aplicații industriale sau automobilistice pentru examinarea și documentarea nivelului de zgomot. KU100 are un set fix de pavilioane auriculare și vine preinstalat cu un set de microfoane și preamplificatoare. Brüel & Kjær A/S – 4100 Compania daneză, Brüel & Kjær, fondată în 1942 de către Per Vilhelm Brüel și Viggo Kjær, specializată în măsurători acustice și de vibrație, a dezvoltat o serie de pavilioane artificiale, urechi artificiale și manechine, printre care pot fi notate „Type 4128-C”, „Type 4128-D”, „Type 4100”. „Type 4128-C” și „Type 4128-D” – sunt două manechine similare dotate cu două urechi artificiale și o gură care oferă o reproducere realistică a proprietăților acustice ale capului și ale bustului unui adult mediu. Aceste manechine au fost create pentru a fi folosite în teste electroacustice in-situ (pentru testarea caștilor de comunicații și de consum, dispozitivelor pentru audio conferință, microfoanelor, aparatelor auditive și de protecție auditivă). „Type 4100” – are aceeași formă gemetrică cu „Type 4128-C” și „Type 4128-D” însă microfoanele intraauriculare și preamplificatoarele sunt diferite. „Type 4100” (Fig. 3.3.) un manechin construit pentru înregistrarea nivelului de zgomot și pentru a testa calitatea sonoră din interiorul vehiculelor. De asemenea, este folosit pentru optimizarea din punct de vedere sonor a electrocasnicelor, a sculelor electrice de putere, echipamentelor maritime și a mașinilor grele. Acest manechin este conform cu standardele IEC 959 (excluzând geometria) și cu cerințele geometrice și acustice ale standardului ITU-T P.58 [50].
Figura 3.2. Capul binaural Neumann KU100. Sursa: [79]
Figura 3.3. Manechine binaurale „Type 4100” dezvoltate de Brüel & Kjær. Sursa: [80]
41 Head Acoustics GmbH – HMS II – este un cap artificial dezvoltat de compania germană „HEAD acoustics GmbH” și face parte din sistemul de măsura HMS II, cunoscut de către inginerii din domeniul audio. HMS II (Fig. 3.4.) are capul și pavilioanele urechilor stilizate matematic, fiind conforme cu standardul IEC 711 și ANSI S3,25. Din punct de vedere acustic, dar nu și geometric, este conform cu standardul IEC 959 [50]. FABIAN – este un manechin artificial dezvoltat de Universitatea Tehnică din Berlin (Technische Universität Berlin), format din cap și torso (Fig. 3.5.). Conceput ca sistem modular, capul este atașat de trup printr-un gât servomotorizat. Datorită faptului că majoritatea HRTF-urilor măsurate pe oameni produc rezultate mai convingătoare decât cele măsurate pe manechine, în construcția lui FABIAN a fost folosit un mulaj din gips după un cap uman și un mulaj din silicon pentru urechi. Cele două urechi ale manechinului pot fi înlocuite și ambele sunt dotate cu un microfon condensator DPA 4060 cu diafragma de 5,6mm [51]. Manechiul FABIAN are avantajul că poate fi controlat prin intermediul unei aplicații dezvoltate în Matlab®, ce comandă rotirea și înclinarea capului, dar și rotirea bustului (ca întreg), în situația în care manechinul este instalat pe o masă rotativă motorizată. 3.3. Egalizarea căștilor Redarea binaurală descrie procedeul folosirii unei perechi de căști pentru audiție în momentul ascultării unui semnal captat prin intermediul unui manechin sau sintetizat virtual. Aplicațiile non-binaurale beneficiază de căștile care un răspuns în frecvență dat de fabricant. Acest lucru oferă un caracter unic fiecărui model dar si o experiență mulțumitoare pentru ascultător. Spre exemplu, pentru o audiție muzicală, poate fi de preferat ca frecvențele joase și cele înalte să fie amplificate de perechea de căști oferind o experiență intensificată a materialului muzical. Însă, în cazul aplicațiilor binaurale este preferată o reprezentare a scenei sonore cât mai apropiată de modul real de percepție a urechii umane, iar folosirea unui răspuns liniar al căștilor asigură o bună transparență între sunetul redat și cel perceput, factor ce trebuie luat în considerare. Studiile de specialitate sugerează că răspunsurile liniare în frecvență sunt importante pentru externalizarea sunetului în situația folosirii unui set de HRTF-uri nepersonalizate [52]. Astfel, egalizarea
Figura 3.4. Capul binaural HMS II. Sursa: [81]
Figura 3.5. Manechinul FABIAN cu gât servomotorizat expus. Sursa: [51]
42 căștilor poate îmbunătăți considerabil distanța (spațialitatea) percepută din materialul binaural redat, în timp ce egalizarea incorectă poate duce, în anumite cazuri, la degradarea localizării audio [52]. Un criteriu important în oferirea unei redări binaurale credibile, similar cu o experiență sonoră reală, constă în modul în care sunetul interacționează cu diferitele sisteme de îregistrare și de reproducere a câmpului sonor. Astfel, într-o simulare binaurală, pot fi resimțite distorsiuni spectrale datorate unei inegalități a funcțiilor de transfer ale microfoanelor intraauriculare și ale căștilor purtare de ascultător. [53]. Pentru a putea compensa căștile din înregistrarea binaurală trebuie ținut cont de funcția de transfer a transductorului și de funcția de transfer a acestuia față de canalul urechii persoanei – ce formează împreună așa numita „funcție de transfer a căștii” (HpTF)27 [53]. Conform studiilor realizate de Møller et al., diferențele de răspuns în frecvență ale modelelor de căști pot fi la fel de mari precum diferențele între HRTF-uri [54]. De asemenea, au fost înregistrate diferențe de răspuns la frecvențele joase, în funcție de tipul căștilor folosite – extrauriculare, supra-aurale, închise, deschise, etc. [53]. Examinând variația funcțiilor de transfer ale căștilor, mai multe studii au ajuns la concluzia că, pe lângă variația HRTF-urilor individuale, mai există o variație datorată plasării repetate a căștilor pe capul subiectului. Kulkarni et al., notează că în cazul căștilor supra-aurale, au fost înregistrare diferențe de ±4dB sub 10kHz și ±10dB peste 10kHz [55]. Tot ei notează ca egalizarea căștilor în urma unei singure măsurători poate fi percepută mai rău decât în situația în care nu ar fi fost egalizate inițial [55]. Iar, McAnally et al., au observat că diferențele majore au fost raportate sub 500 Hz și peste 10 kHz [56]. Astfel, filtrele inverse ar trebui să fie derivate dintr-o medie a măsurătorilor multiple realizate în timpul repoziționării căștilor pe capul subiectului [53]. Egalizarea prin simpla inversiune a răspunsului măsurat la frecvențe înalte duce la vârfuri mari de amplitudine în filtrul invers ce nu corespund cu văile din spectrul măsurat inițial. De asemenea, studii de psihoacustică au arătat faptul că vârfurile mari din spectru pot fi mult mai prezente decât văile pe care ar trebui să le egalizeze [52]. Din acest motiv, algoritmii noi de egalizare folosesc o formă de discriminare pentru a reduce amplitudinea la frecvențe înalte [53]. Boren et al., confirmă că algoritmii de egalizare din prezent folosesc o varietate de metode de discriminare pentru a determina un filtru robust care să realizeze o reproducere transparentă a sunetului. La bază, algoritmii includ un mod de compresie în funcție de frecvență, o abordare statistică de inversare a 95% din frecvențe pentru un set de HpTF și o varietate de metode de regularizare a frecvențelor [52]. 27 Din lb. engleză Headphone Transfer Function – HpTF.
43 3.4. Compensarea răspunsului în frecvență al boxei / Egalizarea emitorului Lanțul de transmisie al informației binaurale implică folosirea unui difuzor pe post de emitor. Este de dorit ca răspunsul în frecvență al acestuia să fie cât mai liniar în momentul redării și pentru aceasta a fost sugerată ajustarea directivității sursei sonore prin simularea acesteia [53]. Astfel, folosind tehnica răspunsului binaural la impuls al camerei (BRIR), se va emite un stimul sonor ce va fi captat de capul artificial dotat cu microfoane intraauriculare. Apoi, în etapa redării, sunetul va fi egalizat cu un filtru digital Hc calculat pe baza funcției BRIR obținută. Dacă răspunsurile la frecvență al microfoanelor din manechin și ale căștilor sunt măsurate simultan, acestea pot fi egalizate cu un singur filtru [53] . Pentru a liniariza o funcție de transfer H(k), un filtru Hc(k) trebuie să fie calculat pentru a satisface egalitatea: 𝐻𝑒𝑞(𝑘)=𝐻(𝑘)∙𝐻𝑐(𝑘)=1 (3.1) În domeniul timp această egalitate corespunde unei convoluții cu răspunsul la impuls a filtrului Hc ce duce la un răspuns al sistemului egal cu un impuls dirac (dirac pulse): ℎ𝑒𝑞(𝑛)=ℎ(𝑛)∗ℎ𝑐(𝑛)= 𝛿(𝑛) (3.2) Inversa răspunsului în frecvență măsurată (ec. 3.3) este limitată în situația unui sistem electro-acustic (ce are fază mixtă). 𝐻𝑐(𝑘)=1𝐻(𝑘) (3.3)
Figura 3.6. (adaptare) Transmisiunea electro-acustică într-un sistem de simulare binaurală: măsurătoarea BRIR realizată cu un manechin (stânga) și redarea prin intermediul căștilor, egalizată cu un filtru de compensare Hc, (dreapta). Sursa: [53]
44 Acest lucru poate fi evitat prin împărțirea funcției de transfer într-o componentă de fază minimă și o componentă trece bandă, în care este egalizată doar componenta de fază minimă [53]. Rezultă o compensare exactă a amplitudinii dar nu și a răspunsului fazei. Cu toate acestea, în cele mai multe dintre cazuri, această metodă este insuficientă (datorită erorilor rămase în componenta trece bandă) și se recomandă întârzierea funcției de compensare prin jumătate din lungimea răspunsul la impuls a filtrului. 3.5. Localizarea “în afara capului” pentru sursele audio redate prin căști Termenul de „localizare în afara capului” (OHL)28 se referă la crearea senzației de externalizare sau spațializare a sunetului în cazul redării prin căști. Acest lucru este importat deoarece este cunoscut faptul că pentru sursele convenționale mono sau stereo redate prin căști, sunetul este localizat în interiorul capului. Dispariția externalizării se datorează modului în care sunt concepute căștile, care practic, elimină posibilitatea creării unei diferențe interaurale de timp și de nivel, filtrarea naturală a pavilionului urechii dar și răspunsul camerei. În încercarea de a oferi înapoi indicatorii de care urechea se folosește în mod natural pentru a percepe spațialitatea, au fost implementate sisteme de procesare bazate pe întârzieri ale semnalului original – TDL29, reflexii timpurii ale camerei (lb. en. early room reflections) și reverberații întârziate. Pentru a genera reflexii ale camerei sunt determinate unghiurile reflectante (numite în acest caz, oglinzi) pentru spațiul respectiv. Pentru ca direcția fiecărui sunet să fie interpretată corect de ureche, fiecare TDL trebuie să fie filtrat de un set de HRTF-uri și procesat din nou de un nou sistem de întârziere [57]. Choi et al., precizează că o asemenea schemă de externalizare a sunetului generează un volum foarte mare de operații ce nu este practic pentru dispozitivele mobile. Pentru acestea ei sugerează axarea pe reflexiile laterale timpurii (early lateral reflections) care dau un maxim de impresie spațială. Din punct de vedere psihoacustic, reflexiile timpurii nu sunt percepute ca ecouri, ci mai degrabă ca o senzație cognitivă a dimensiunii spațiului [57]. Schema clasică pentru un sistem OHL este prezentată în Fig. 3.7. fiind formată dintr-un TDL aflat pe fiecare canal, filtrat de o pereche de HRTF-uri. Schema a fost propusă original de Per Ruback și simula 7 direcții specifice: 0°, 30°, 60°, 90°, 120°, 150° și 180°. În acest experiment au fost selectate oglinzile de ordin prim și de ordin secund din planul orizontal, adică unghiurile de 70°, 290°, 55° și 315° 28 Din lb. engleză out-of-head localization – OHL. 29 Din lb. engleză tape delay line – TDL.
Figura 3.7 Schema clasică pentru generarea senzației de localizare în afara capului. Sursa: [57]
45 [58]. Timpul de întârziere este calculat prin diferența dintre distanța până la sursa oglinzii și distanța față de sursa sonoră, împărțite la viteza sunetului. Ruback a testat sistemul pe 10 subiecți și a concluzionat că adăugarea de reflexii îmbunătățește considerabil percepția spațială cât și senzația de localizare în afara capului. Cu toate acestea fiecare reflexie trebuie să fie filtrată prin perechia de HRTF-uri corespunzătoare direcției din care a provenit aceasta. Pentru a crea efectul OHL utilizând o pereche de căști, se va mixa sunetul indirect cu sunetul direct și vor trebui alese întârzieri pentru TDL între 10 și 80 ms [57]. 3.6. Experimentele cercetătorilor Sakamoto, Gotoh, Yoichi Experimentele realizate de Sakamoto et al., în 1976 cu privire la posibilitatea externalizării audiției binaurale au servit drept bază pentru multitudinea de cercetări științifice îndreptate către studiul tehnologiei binaurale realizate până în prezent. Prin realizarea unor teste cu înregistrări captate cu un cap binaural, Sakamoto et al., au descoperit că externalizarea sunetului se produce atunci când raportul dintre sunetul reflectat și sunetul direct, depășește o anumită valoare. Factorii care cauzează efectul de „localizare în interiorul capului” au fost prezentați în mai multe articole științifice [59]. Printre aceștia se numără: • lipsa mișcării capului relativ la sunet; • lipsa vibrațiilor craniene; • distorsiunea lanțului de transmisie (inclusiv perechile de căști); • funcții de transfer ale capului incorecte etc. Unul dintre principali factorii care determină modul în care este perceput sunetul este reprezentat de reflexiile camerei. În cazul unui sistem de boxe, sunetul redat va fi reflectat de diversele obiecte aflate în cameră (pereți, tavan, podea, mobilă, etc.). Astfel, materialul audio pe care ascultătorul îl va recepționa va fi format din unda directă și suma reflexiilor spațiului în care se află. În situația redării sunetului prin căști, reflexiile sunt inexistente, iar urechea nu va mai recepționa existența unui spațiu exterior, rezultând efectul de „sunet în cap”. Sakamoto et al., au realizat următoarele trei presupuneri, care ulterior au fost confirmate de o serie de experimente: a). factorul care determină dacă sunetul este localizat în cap sau în afara capului este existența subiectivă a distanței între ascultător și imaginea sonoră. În situația în care distanța subiectivă este zero, sunetul este localizat în cap, în timp ce în situția opusă, ascultatorul va percepe existența unei distanțe; b). un alt factor important este raportul de energie acustică (AR) între sunetul direct și cel indirect, resimțit de ascultător; c). în cazul sunetelor redate prin căști, distanța subiectivă față de sunet ar trebui crescută pentru a crea efectul de „localizare în afara capului”.
46 Raportul acustic (AR)30 este definit astfel: 𝐴𝑅= 𝑑𝑒𝑛𝑠𝑖𝑡𝑎𝑡𝑒𝑎 𝑑𝑒 𝑒𝑛𝑒𝑟𝑔𝑖𝑒 𝑎𝑐𝑢𝑠𝑡𝑖𝑐ă 𝑎 𝑠𝑢𝑛𝑒𝑡𝑢𝑙𝑢𝑖 𝑟𝑒𝑓𝑙𝑒𝑐𝑡𝑎𝑡 𝐸𝑠𝑑𝑒𝑛𝑠𝑖𝑡𝑎𝑡𝑒𝑎 𝑑𝑒 𝑒𝑛𝑒𝑟𝑔𝑖𝑒 𝑎𝑐𝑢𝑠𝑡𝑖𝑐ă 𝑎 𝑠𝑢𝑛𝑒𝑡𝑢𝑙𝑢𝑖 𝑑𝑖𝑟𝑒𝑐𝑡 𝐸𝑑=16𝑟2𝜃𝑅 (3.1.) unde r este distanța de la sursa sonoră la punctul de observație; θ este indexul de directivitate al sursei sonore; R este constanta camerei fiind egală cu Sa̅l (1−a̅); a̅ este coeficientul mediu de absorție; S este suprafața totală a camerei; Cercetătorii au realizat trei experimente. Primul s-a bazat pe înregistrarea simultană, cu un microfon binaural, a sunetului direct și a celui indirect într-o cameră cu câmp difuz. Al doilea experiment, a constat în mixarea sunetului direct, înregistrat într-o camera anecoidă, cu același sunet, înregistrat sincron, într-o cameră cu câmp difuz. În ultimul experiment, semnalul direct a fost mixat cu un semnal indirect, creat din cel original, printr-o unitate electronică de întârziere. În primul caz, sistemul de captare a fost plasat la o distantă fixă față de un difuzor, fiind realizate înregistrări pentru patru valori diferite ale lui AR. Sunetul a fost emis printr-un sistem de boxe, ce puteau reda sunetul atât unidirecțional, cât și direcțional, în acest mod, fiind obținute valori diferite pentru AR – prin varierea raportului dintre tensiunile aplicate difuzoarelor (Figura 3.8). În etapa redării, în aceeși cameră în care se afla ascultătorul a fost plasat un difuzor (unidirecțional sau omnidirecțional), la aceeși distanță cu cel din camera de înregistrare, prin care se transmitea același sunet care era emis și în căștile ascultătorului. Au fost folosite căști deschise (din en. open-back), astfel încât ascultătorului să poată auzi și sunetul direct al difuzorului. Experimentul a arătat faptul că este posibilă controlarea imaginii sonore, prin variația raportului acustic în locul de ascultare, fiind unul dintre cei mai importanți factori care determină localizarea în afara capului [59]. În al doilea experiment, sunetul a fost redat simultan prin două boxe identice situate în două camere diferite: una într-o cameră anecoidă și cealaltă într-o cameră cu câmp difuz. Capul binaraul a fost plasat la aceeși distanță față de boxe în ambele camere, sunetul fiind captat pe un magnetofon cu 4 canale. În momentul redării, semnalele emise în camera cu câmp difuz au fost procesate printr-un delay electronic (𝜏) și au fost adunate peste semnalele din camera anecoidă, prin variația tensiunii. Cercetătorii au putut varia și timpul de reverberație (RT), utilizând două materiale în camera cu câmp difuz (Figura 3.9). 30 Din lb. engleză acoustic ratio – AR.
47 La fel ca și în cazul primului experiment, zece subiecți, au răspuns dacă localizarea este în afara capului.
Acestora le-au fost prezentați 40 de stimuli cu timpul de întârziere și cel de reverberație variați după cum urmează: RT = 250ms, 𝜏 = 20ms; RT = 250ms, 𝜏 = 5ms; RT = 100ms, 𝜏 = 20ms; RT = 100ms, 𝜏 = 5ms. Rezultatele experimentului sunt similare primului experiment. Cei trei cercetători au precizat faptul că, conform observațiilor realizate, în situația ascultării sursei de test fără prezența în căști a sunetului indirect, sunetul parea a fi situat în interiorul capului. Pe măsură ce factorul de sunet indirect a fost crescut, imaginea sonoră s-a deplasat către frunte și, în final, s-a situat „în afara capului” – fiind percepută puțin deasupra orizontului în planul median [59].
Figura 3.8 (adaptare) Diagrama primului experiment. Sursa: [59]
48
Fiind bazat pe cele anterioare lui, experimentul trei, a constat în redarea unui sunet indirect, creat din cel original (direct) printr-un sistem de întârzieri electronice cu valori cuprinse între 5 și 20ms. Semnalul indirect a fost adunat peste cel direct, fiind variată relația de timp între cele două urechi. În acest mod au fost obținute 5 valori diferite pentru AR. Zece subiecți au răspuns pentru 40 de stimuli dacă localizarea este în afara capului; rezultatele indicând că aceasta este posibilă și pentru sursele monofonice, nu doar pentru cele binaurale [59]. 3.7. Experimentul cercetătorilor De Sena, Kaplanis, Naylor, van Waterschoot Un alt experiment, de această dată recent, realizat de De Sena et al., în 2016, a încercat să investigheze gradul de acuratețe al localizării pentru 893 de subiecți în condiții apropiate de cele reale [60]. Comparativ cu experimentele „formale”, realizate în camere anecoide, cercetătorii au încercat să se limiteze la condițiile uzuale întâlnite în aplicațiile binaurale de consum larg. Participanții la experiment au fost expuși la două situații: cea de localizare într-o cameră anecoidă și cea de localizare într-o cameră cu reverberație. Ei au fost rugați să stea pe o platformă rotativă și să nu își miște poziția în timp ce priveau ecranul unui iPad. Tableta a fost programată în prealabil să
Figura 3.9 (adaptare) Diagrama experimentului doi. Sursa: [59]
49 înregistreze, folosind accelerometrul incorporat, mișcările platformei, ghidată de fiecare participant prin intermediul unui volan; în acest mod fiind imitată mișcarea unui cap uman. În funcție de mișcările înregistrate de accelerometrul tabletei, filtrele HRTF actualizau dinamic poziția curentă a capului virtual (tabletei). Au fost redați doi stimuli, unul percusiv și unul constând într-o voce feminină. Funcțiile de transfer au provenit din două baze de HRTF-uri: una de la manechinul KEMAR, măsuratat de către M.I.T.31 și cealaltă din baza de date CIPIC32, provenind de la un subiect uman. Funcțiile au fost egalizate astfel încât energia răspunsului în direcția frontală să fie identic. Pentru a simula acustica unei camere reverberante a fost folosită o rețea de întârziere – SDN33 care poate simula acustica unui spațiu luând în considerare aspecte fizice precum, dimensiunea acestuia, gradul de absorbtivitate al pereților, etc. Față de alte sisteme de modelare acustică a unei camere, SDN are capabilitatea de a rula în timp real și de a reproduce caracteristici fizice și perceptuale importante. Rețeaua poate rula componenta pentru sunetul frontal și reflexiile de ordin prim (din lb. en. – first order reflections), ambele atât în același timp, aceeași amplitudine și același HRTF, în timp ce realizează aproximări progresive ale reflexiilor de ordin înalt. Convoluția cu setul de HRTF-uri a fost realizată cu filtre cu impuls finit la răspuns (FIR) ce rulau în timp real pe tabletă. Atunci când tableta era mișcată, coeficienții FIR erau actualizați. Analizând datele acestui experiment s-a putut observa faptul că mai mult de jumătate din subiecți au localizat sursa sonoră cu o eroare mai mică de 7,5 grade și ca 12% din ei au experimentat inversări față-spate. De asemenea, a mai fost dezvăluită o mică părtinire pentru sunetul ce conținea vocea feminită față de sunetul percusiv [60]. În plus, a mai fost descoperită o mică tendință a participanților de a percepe către dreapta, vocea feminită comparativ cu sunetul percusiv. Mai trebuie notat faptul că, HRTF-ul manechinului KEMAR a generat erori mai mari comparativ cu HRTF-ul subiectului 58 din baza de date CIPIC [60]. 31 Baza de date a M.I.T. conține funcțiile HRTF, măsurate folosind manechinul KEMAR și reprezintă un sistem de referință, fiind utilizată în multe publicații. 32 Baza de date CIPIC conține funcții HRTF de mare rezoluție, măsurate la intrarea în canalul urechii pentru 43 de subiecți. Alături de semnalele pentru cele două urechi, baza de date conține măsurători pentru un număr larg de caracteristici antropometrice (lățimea capului, înălțimea urechii, etc). 33 Din lb. engleză Scattering delay network – SDN.
Figura 3.10. Platforma rotativă cu volan și tabletă atașate, folosită în experiment. Sursa: [60]
50 3.8. Concluzii În acest capitol au putut fi observate avantajele pe care manechinele și capurile binaurale le oferă în momentul redării sunetului binaural. Spre deosebire de nevoia introducerii indicatorilor de localizare în semnalul audio prin procedeul de convoluție, precum se întamplă în situația folosirii unei perechi de HRTF-uri, sistemul de captare binaurală prezentat oferă rezultate convingătoare. Datorită modelării capului și a urechilor după persoane reale, în momentul redării urechea primește o bună parte din indicatorii pe care îi folosește în mod normal pentru a realiza localizarea corectă a sunetului. Cu toate acestea, există posibilitatea incompatibilității HRTF-urilor manechinului cu cele ale ascultătorului. Experimentele realizate de cercetători străini prezentate în acest capitol, prezintă o privire de ansamblu asupra tehnologiei binaurale și a reprezentării sunetelor în afara capului. Studiile realizate de Sakamoto et al., în 1976 [59] stau la baza cercetărilor științifice îndreptate către studiul tehnologiei binaurale realizate până în prezent și demonstrează faptul că un sunet mono sau stereo poate fi modificat pentru a fi perceput în afara capului prin utilizarea unei rețele SDN. De asemenea, într-un studiu recent, De Sena el al., [60] au arătat importanța folosirii unui set personalizat de HRTF-uri alături de posibilitatea mișcării capului, fiind obținuți în acest fel indicatorii dinamici de care sistemul auditiv se poate folosi pentru a găsi mai ușor locația sunetului. Deși aceste informații nu au servit direct în realizarea acestui experiment, oferă o mai bună întelegere asupra modului de funcționare a sistemul auditiv uman, fiind necesare în aplicații de virtualizare a câmpului sonor și pot folosi drept subiecte de cercetare viitoare. De asemenea, liniarizarea răspunsului în frecvență a căștilor trebuie luat în considerare, iar pentru o bună externalizare, experimentele prezentate arată că trebuie luată în considerare convoluția cu un sistem ce poate simula acustica spațiului ce se dorește a fi transmis.
51 4. Ambisonics și microfoanele de tip Soundfield 4.1. Introducere Ambisonics este o metodă pentru înregistrarea, mixarea, redarea și simularea sunetului tridimensional (audio 360o), luând în calcul proprietățile sale direcționale [61]. Bazele tehnologiei Ambisonics au fost puse în 1970 de către inginerul Michael Gerzon de la Universitatea din Oxford. Deși a captat atenția cercetătorilor și a fost dezvoltată în anii ce au urmat, tehnologia nu a avut succes în rândul publicului. Gerzon a introdus sistemul „First-Order Ambisonic” în formatul numit „B-format”, care codează informația direcțională a unui microfon cu patru capsule în patru canale W, X, Y și Z. În anii ‘90 a fost dezvoltată o teorie mai complexă ce implică un număr nelimitat de capsule de captare, numită „Higher-Order Amisonics”. Cu toate acestea, până la dezvoltarea tehnologiei de realitate virtuală și a camerelor care filmează 360o, tehnologia nu a avut un succes comercial. În prezent, există un număr în creștere de aplicații cu o interfață prietenoasă pentru utilizatori, Ambisonics devenind platforma preferată pentru creatorii de realitate virtuală. Ambisonics nu trebuie confundată cu tehnologiile tradiționale de surround și trebuie notat faptul că există diferențe majore între cele două. Într-adevăr, tehnologia surround oferă o experiență deosebită, punându-l pe ascultător în același cadru în care este realizată filmarea, însă similar cu formatul stereo (două difuzoare), aceasta este dependentă de numărul final al receptorilor pentru reprezentarea scenei audio cu un număr bine definit de boxe; în cazul de față pot fi șase boxe (5.1 surround), opt boxe (7.1 surround), s.a.m.d. Spre deosebire de cele enumerate mai sus, tehnologia Ambisonics nu trimite semnalul audio către un număr predefinit și poate fi decodată printr-un număr nelimitat de receptoare. Altfel spus, nu depinde de o distribuție fixă de difuzoare. Sistemele surround pot oferi o bună reprezentare audio pentru un câmp sonor static, însă în situația în care planul este rotit, sunetul tinde să „sară” dintr-o boxă în alta. Sistemul Ambisonics poate oferi o trecere lină și continuă chiar dacă planul este schimbat, o experiență apropiată de modul real în care funcționează sistemul auditiv uman. De asemenea, în cazul sistemelor surround sunetul este concentrat în partea frontală (mid), iar informația din lateral (side) este mai puțin scoasă în evidență, în timp ce ambisonics redă sunetul în mod egal într-o sferă tridimensională și are capacitatea de a prezenta imaginea sonoră și cu indicatori de elevație. O înregistrare ambisonics poate fi redată și prin căști cu scopul de a pune ascultătorul în mijlocul scenei audio – fiind obținută o experiență aproape de realitate. De asemena, aceasta va complementa foarte bine un flux video 360° fiind utilizată cu precădere în aplicațiile VR și în cele pentru jocurile video. Redarea înregistrării ambisonics prin căști se realizează cu ajutorul tehnologiei binaurale (vezi Cap. 2) care procesează semnalul audio și direcția în care trebuie poziționat. De asemenea, în acest proces sunt adăugați și indicatorii de spațialitate ce oferă informațiile de care urechea are nevoie pentru a plasa sursa în spațiul virtual.
52 4.2. Codarea formatului Ambisonics. Multiplele planuri pot fi codate cu semnalele mono si care au coordonatele de spațialitate 𝜑𝑖 pentru azimut, 𝜃𝑖 pentru elevație. Aceste ecuații prezintă modul în care planul sonor captat poate fi sintetizat prin multiplicarea fiecărui semnal cu valoarea unei funcții tridimensională în direcția sa (𝛷𝑖 ,𝜃𝑖) [62]. Informația omnidirecțională 𝑊(𝑡)=∑𝑠𝑖(t) √(2)𝑖=1 (4.1.) Informația de pe axa orizontală (axa X) 𝑋(𝑡)=∑𝑠𝑖(t) 𝑐𝑜𝑠𝛷𝑖𝑐𝑜𝑠𝜃𝑖𝑖=1 (4.2.) Informația de pe axa verticală (axa Y) 𝑌(𝑡)=∑𝑠𝑖(t) 𝑠𝑖𝑛𝛷𝑖𝑐𝑜𝑠𝜃𝑖𝑖=1 (4.3.) Informația de elevație (axa Z) 𝑍(𝑡)=∑𝑠𝑖(t) 𝑠𝑖𝑛𝛷𝑖𝑖=1 (4.4.) 4.3. Înregistrarea First-Order Ambisonics În subcapitolul 4.1. a fost prezentat modul în care un semnal monofonic poate fi plasat artificial în orice direcție unghiulară. De asemenea, este posibilă înregistrarea întregului plan audio prin folosirea unui microfon de tip soundfield denumit și ambisonics. Primul microfon soundfield (Fig. 4.2.) a fost conceput de Dr. Jonathan Halliday de la casa de discuri Nimbus Records (Monmouth, Anglia) pentru a înregistra descompunerea armonicelor spectrale de ordin I ale unui câmp sonor și anume „Formatul B”. Conceptul original era compus din trei microfoane identice, unul cu caracteristică omnidirecțională (orientat în față) și două cu caracteristică bidirecțională (orientate în stânga, respectiv dreapta). În acest mod Dr. Halliday a reușit să înregistreze separat componentele W, X și Y. Michael A. Gearzon a dezvoltat conceptul Nimbus Records prin realizarea unui microfon Ambisonics îmbunătățit care stă la baza majorității microfoanelor de ordin I dezvoltate în prezent (Fig. 4.3.). Gearzon a înventat cunoscuta poziționare a microfoanelor în tetraedru, folosind patru capsule cu
53 caracteristică sub-cardioidă (Fig. 4.4.) sau cardioidă (Fig. 4.5.), egalizate pentru a forma un răspuns uniform în câmp difuz. În configurația de bază Ambisonics, cunoscută sub numele First-Order Ambisonics, este întâlnit microfonul Soundfield, compus din patru capsule de microfon așezate în tetraedru și egalizate pentru a forma un răspuns uniform în câmp difuz. În funcție de producător, fiecare capsulă poate avea fie o caracteristică de directivitate sub-cardioidă, fie cardioidă, iar prin adunarea sau scăderea fiecărui semnal captat este posibilă emularea oricărei caracteristici polare de directivitate. Forma de tetraedru a fost aleasă din motive practice, fiind dificilă poziționarea a 4 microfoane în originea sistemului de coordonate spațiale, XYZ. Capsulele sunt orientate la 70,5°, în acest fel fiind eliminate problemele de fază întâlnite în înregistrarea cu microfoane multiple [63]. Capsula de microfon
Soundfield pate ntată
[64] Tetra Mic
[65] Sennheiser Ambeo [66] Rode NT -SF1
[67] Figura 4.3. Exemple de microfoane Soundfield First-Order Ambisonics fără grilă de protecție.
Figura 4.2. Microfonul soundfield compus din trei microfoane individuale, conceput de Dr. Jonathan Halliday, Nimbus Records. Sursa: [83]
54 Acestea pot avea, după caz, o caracteristică direcțională de tip subcardioid sau cardioid prin care pot crea orice caracteristică necesară (omnidirecțională, subcardioidă, cardioidă, hipercardioidă sau bidirecțională). Scena sonoră captată de Soundfield va fi înregistrată pe patru canale independete, unul pentru fiecare capsulă. Această înregistrare brută (raw), poartă denumirea Ambisonics A-format (FLU, FRD, BLD, BRU)34. 4.4. Decodarea Ambisonics Formatul Ambisonics poate fi decodat pentru diferite tipuri de sisteme audio, incluzând un număr nelimitat de boxe ori o simplă pereche de căști. Decodarea și redarea pentru boxe nu reprezintă subiectul acestei lucrări, astfel că înformațiile prezentate în continuare vor fi axate pe decodarea și redarea pentru căști. Redarea înregistrărilor Ambisonics pentru căști este utilă în aplicațiile de realitate virtuală, pentru filmele realizate cu camere 360°, în jocuri sau în alte medii imersive. Pentru redare este utilizat formatul Ambisonics B-format, care reprezintă informația direcțională 3D constând în trei caracteristici bidirecționale numite X, Y, Z și o caracteristică omnidirecțională W. În acest mod, sfera sonoră 3D este redată în totalitate (Fig. 4.6), fiecare canal oferind o anumită informație, dupa cum urmează: W – caracteristică omnidirecțională, ce captează sunetul în mod (aproape) egal, în jurul axei sale X – caracteristică bidirecțională care captează informația din planul de adâncime – depth (din față în spate); 34 FLU, FRD, BLD, BRU sunt semnalele formatului A.
Figura 4.4. Caracteristică polară sub-cardioidă. Sursa: [84]
Figura 4.5. Caracteristică polară cardioidă. Sursa: [84]
55 Y – caracteristică bidirecțională care captează informația din planul orizontal – azimut (de la stânga la dreapta); Z – caracteristică bidirecțională verticală – zenith (de sus în jos). Prin folosirea unui sistem liniar de ecuații, înregistrările brute, captate în formatul A pot fi convertite în formatul B. O soluție simplă este prezentată în formulele (4.5 – 4.8) dar trebuie ținut cont de necesitatea aplicării unor ecuații de filtrare pentru a corecta răspunsul la frecvențe înalte al capsulelor (care nu este identic). 𝑊=𝐹𝐿𝑈+𝐹𝑅𝐷+𝐵𝐿𝐷+𝐵𝑅𝑈 (4.5.) 𝑋=𝐹𝐿𝑈+𝐹𝑅𝐷−𝐵𝐿𝐷−𝐵𝑅𝑈 (4.6.) 𝑌=𝐹𝐿𝑈−𝐹𝑅𝐷+𝐵𝐿𝐷−𝐵𝑅𝑈 (4.7.) 𝑍=𝐹𝐿𝑈−𝐹𝑅𝐷−𝐵𝐿𝐷+𝐵𝑅𝑈 (4.8.) Exemplu de sistem de ecuații pentru microfonul TetraMic. [68] Pentru realizarea conversiei A-B, unele microfoane Soundfield, precum cel folosit în experimentul acestei lucrări, folosesc o matrice hardware care procesează semnalul în timp real și îl exportă direct în formatul B Ambisonics. În cazul de față, matricea este inclusă în preamplificatorul microfonului care este livrat cu acesta (Fig 4.7). În cazul altor microfoane soundfield este necesară o conversie externă, cu ajutorul unui plugin dedicat, rulat într-un program de editare audio (de ex: Pro Tools, Cubase, etc).
Figura 4.6. Ilustrație B-Format. Adaptată după [63]
56 De asemenea, microfoanele Soundfield pot fi utile și pentru aplicații de înregistrare stereo clasică. Prin ajustarea componentelor B-format, acestea poate fi folosite ca microfoane direcționale monofonice, ca pereche stereo XY sau ca sistem de captură pentru 5.1. Configurația first-order Ambisonics oferă o reprezentare echilibrată a scenei sonore cu o direcționalitate în planul 2D acceptabilă, însă cu o acuratețe slabă în planul 3D. Impresia spațială poate fi creată prin convoluția semnalului captat de microfon cu un răspuns la impuls al capului – HRIR (ideal al persoanei care urmează să asculte materialul final) sau prin convoluția cu un răspuns binaural la impuls al camerei – BRIR. De asemenea, o îmbunătățire a localizării se poate realiza prin interpolări complexe ale HRIR și BRIR cu ajutorul unui dispozitiv de înregistrare a mișcărilor capului (head-tracker), inclus în sistemul de redare [69]. 4.5. Transmiterea și manipularea Ambisonics Ambisonics B-Format reprezintă standardul folosit în studio pentru manipularea înregistrărilor captate cu microfoanele Soundfield. Pentru utilizarea fișierelor captate în afara unui mediu dedicat de redare, a fost creat formatul UHJ (Universal HJ), numit și Ambisonics C-format, reprezentând un alt mod de a coda informația Ambisonics pentru a fi compatibilă cu decodoarele stereo clasice. Sistemul UHJ codează întreaga sferă sonoră în două, trei sau patru canale audio [61]. Cele două canale L și R (stânga și dreapta) sunt folosite așa cum a fost intenționat sistemul stereo; al treilea canal, T, este folosit pentru a transmite informația spațială pentru sunetele în planul orizontal; iar al patrulea canal, Q, va transmite informația spațială pentru sunetele în planul verical [61].
Figura 4.7. Microfonul Soundfield alături de pre-amplificatorul-matrice care realizează conversia din Formatul A în Formatul B. Sursa: [77]
57 Astfel, din cele patru canale LRTQ folosite de UHJ, doar LR sunt obligatării, T și Q fiind opționale. Prin combinarea celor patru informația poate fi transmisă următoarelor decodoare, după cumurmează: • un decodor mono va însuma canalele L-R și le va reda ca semnal mono; • un decodor stereo va reda canalele L-R ca semnal stereo; • un decodor special compatibil UHJ va decoda L-R după o matrice Ambisonics într-un semnal stereo în spațiul orizontal; • un decodor special compatibil UHJ va putea decoda canalele LRT folosind sistemul Ambisonics în spațiul orizontal (echivalentul W,X, Y); • un decodor special compatibil UHJ, va putea decoda toate cele patru canale LRTQ, vor putea fi decodate folosind sistemul Ambisonics în spațiul 3D (echivalentul W, X, Y, Z); Formatul Ambisonics B permite rotirea cu ușurință a planului sonor folosind o matrice R după cum este descris mai jos. 𝑊′=𝑊 (4.9.) (𝑋′𝑌′𝑍′)=𝑅(𝑋𝑌𝑍) (4.10.) Orice matrice de rotire poate fi descompusă în roll, pitch și yaw. Astfel, o rotație în jurul axei Z de unghi 𝜃 (yaw) poate fi exprimată după cum urmează: 𝑊′=𝑊 (4.11.) 𝑋′=𝑋 𝑐𝑜𝑠𝜃−𝑌 𝑠𝑖𝑛𝜃 (4.12.) 𝑌′=𝑌 𝑠𝑖𝑛𝜃+𝑌𝑐𝑜𝑠𝜃 (4.13.) 𝑍′=𝑍 (4.14.) În lucrarea sa, „Introduction to Ambisonics”, Daniel Arteaga [68], notează o serie de modificări ce pot fi aplicate asupra unei înregistrări Ambisonics după cum urmează: • transformarea liniară ce nu depinde de proprietățile spațiale, în care putem întâlni filtrarea și egalizarea. Acestea pot fi aplicate similar cu situația în care există un singur canal audio, cu condiția ca, în acest caz, să fie aplicate egal pentru toate canalele existente; • efecte de deformare spațială sau de direcționalitate; • transformări neliniare, precum controlul dinamicii semnalului (ce sunt încă în stadiul de cercetare).
58 4.6. Higher-Order Ambisonics În anii ’90 a fost prezentată ideea ca tehnologia Ambisonics să fie extinsă la ordine mai mari prin care se poate obține o mai bună reprezentare a locului în care câmpul sonor este captat (sweet spot), oferind o localizare mai bună pentru ascultător. Acest lucru a însemnat o creștere deopotrivă a numărului de canale (5 noi canale pentru second-order, 7 noi canale pentru third-order, etc.) [70], dar și a numărului de boxe necesare pentru redarea semnalului. Spre deosebire de First-Order Ambisonics, unde este posibilă obținerea celor patru componente din capsule poziționate în același punct în spațiu, în cazul ordinelor mai mari, semnalele sunt obținute cu capsule distribuite spațial, într-o sferă. Capsulele microfoanelor au de obicei caracteristică omnidirecțională. O procesare digitală a semnalului (bazată pe egalizări agresive) este necesară pentru a oferi impresia unei sfere de sunet pentru ascultător, ceea ce duce la introducerea zgomotului și a distorsiunilor audio în semnalul captat. Microfonul „em32 Eigenmike”, produs de mh acoustics, este un exemplu de dispozitiv de captare Higher Order Ambisonics, disponibil publicului larg. Acesta folosește 32 de capsule de înaltă calitate, cu electret, plasate uniform într-o sferă rigidă cu diametrul de 8,4 cm și este clasat ca microfon de ordin 4 Ambisonics (4th order Ambisonics). Procesarea semnalului constă în două etape: prima dată ieșirile fiecărei capsule sunt combinate folosind o procesare de semnal avansată pentru a crea semnale HOA (numite local de producător Eigenbeams) ce captează întregul spațiu audio. În următoarea etapă, semnalele HOA sunt combinate pentru a reda orice direcție specificată de utilizator. Altfel spus, înregistrarea audio poate fi focalizată (beamformed35) asupra unei anumite direcții în câmpul acustic prin folosirea unei aplicații sau a unui plugin dezvoltate de mh acoustics. Tehnologia Higher Order Ambisonics nu face scopul acestei lucrări, iar pentru mai multe informații pot fi cercetate articolele de specialitate [71], [72], [73]. 35 Din lb. englează: Numită și filtrare spațială, este o procedură direcțională folosită în transmiterea sau recepționarea semnalelor prin care energia este concentrată într-un singur punct în spațiu.
Figura 4.8. Microfonul em32 Eigenmike. Sursa: [82]
59 4.7. Concluzii Sistemul Ambisonics și respectiv microfoanele Soundfield sunt o soluție accesibilă publicului larg pentru codarea, înregistrarea și manipularea unei scene sonore complete, 360°. Formatul nu are legătură cu sistemele tradiționale stereo sau cu sistemele 5.1., încât se bazează pe principii fizice ale câmpului acustic. Față de tehnologiile prezentate în capitolele 2 și 3, sunetul captat cu Ambisonics are avantajul că poate fi transmis pe un număr nelimitat de boxe, oferind o trece liniară și continuă în momentul schimbării planului. Desigur, sunetul înregistrat în acest mod poate fi decodat în format binaural, cu o pereche de căști. Cu toate acestea, deține caracteristici de direcționalitate destul de slabe, în special pentru sistemele de ordin prim (First-Order-Ambisonics) redate în format tridimensional. Pentru ordine mai mari (2, 3, 4) localizarea este mult îmbunătățită. De aceea, în aplicațiile de realitate virtuală sau video 3D este preferat, unde este posibil, folosirea unui microfon cu mai mult de 4 capsule (Higher-Order). În cadrul experimentului propus pentru această lucrare a fost testată calitatea localizării pe care sistemul Ambisonics o oferă în comparație cu restul sistemelor prezentate în capitolele 2 și 3.
60
61 Capitolul 5. Localizarea sonoră. Experimente și Rezultate 5.1. Introducere Acest capitol prezintă un studiu comparativ între diferite sisteme de captare, urmărind identificarea gradului de localizare resimțit de ascultători pentru sunete cu anvelope spectrale diferite, redate în formatul binaural. Scopul studiului este de a compara trei sisteme diferite de captare a unei scene largi de sunet și urmărirea nivelului de directivitare, spațialitate și realism resimțite de un grup de oameni. Vor fi studiate gradul de confuzie față-spate, cunoscute că pot apărea în astfel de sisteme, gradul de adâncime simțit de ascultător, cât și influența diferiților stimuli asupra percepției finale a localizării. Sistemele de captare folosite în acest experiment au constat în: un cap binaural, un microfon Soundfield și o pereche de microfoane stereo Schoeps. Studiul acesta a fost împărțit în mai multe etape, după cum urmează: 1. înregistrarea sunetelor într-o cameră tratată acustic; 2. post-producția înregistrărilor; 3. crearea unei aplicații în Java pentru facilitarea procesului de chestionare; 4. sesiunea de chestionare; 5. interpretarea răspunsurilor; 5.2. Înregistrarea și post-producția sunetelor 5.2.1. Configurarea echipamentelor pentru înregistrare Procesul de captare s-a desfășurat în incinta studioului de sunet din cadrul CINETIc, care dispune de un spațiu liniar de 4,5 m, fiind un criteriu definitoriu în alegerea locației. Au fost propuse 7 mostre de sunet: un ton pur la frecvența de 1kHz, un zgomot alb, un zgomot roz, o voce feminină, o voce masculină, o mostră de chitară electrică și un set de tobe. Vocile umane au provenit de la doi actori, intrumentele muzicale au provenit din librării de sunete de înaltă calitate și au fost produse în forma finală prin intermediul programului Ableton Live, iar restul semnalelor au fost generate în Adobe Audition. Acestea au fost exportate în formatul .wav, Mono, 48kHz și egalizate la -14LUFS cu un nivel de vârf de -3dB. Datorită numărului mare de înregistrări ce urma să fie făcut și pentru a nu exista diferențe de tonalitate sau de interpretare, sunetele propuse au fost pre-înregistrate și redate printr-un monitor audio, cunoscut pentru răspunsul în frecvență aproape liniar, Yamaha HS 7 (Fig. 5.5). Boxa a fost așezată pe un stativ din lemn cu înățimea de 1m și distanțată de perete cu aproximativ 30 de cm. Pentru a reduce acumularea frecvențelor joase, aceasta nu a fost poziționată în colțul camerei, fiind ales un perete fără obiecte în apropiere ce ar fi putut permite crearea reflexiilor acustice și care în final, ar fi fost captate de microfon.
62 Sunetele au fost înregistrate cu următoarele sisteme de captare: • cap binaural dezvoltat de Facultatea de Electronică, UPB; • microfon Soundfield SPS422B; • pereche de microfoane stereo Schoeps CMC 5 cu capsule cardioide MK4. Nivelul sunetului redat la ieșirea din difuzor, la distanța de 1m față de microfon, a fost setat la aproximativ 65-70dB-A (puțin peste nivelul unei conversații uzuale) și nu a fost modificat pe toată durata sesiunii de înregistrări. Fiecare sistem de înregistrare a fost captat stereo prin interfața audio M-Audio ProFire2626 (Fig. 5.1.), iar pentru a nu exista discrepanțe între raportul de nivel al microfoanelor folosite și cel captat de interfață, fiecare canal a fost egalizat în prealabil pentru a avea o valoare identică de intrare. Egalizarea a fost realizată prin trimiterea unui semnal sinusoidal de 1kHz de la ieșirea interfeței pe fiecare canal cu un cablu TRS-XLR, fiind urmărit setarea unui nivel similar pentru fiecare intrare de microfon. 5.2.2. Înregistrarea semnalelor audio Capul binaural (Fig. 5.3.), dotat cu două microfoane intra-auriculare a fost alimentat de o baterie de 9V și a fost conectat la interfața audio prin două cabluri XLR-TRS. Microfoane Schoeps au fost plasate în configurație, ORTF36 (Fig.5.4.) și au fost conectate la interfață prin două cabluri XLR-XLR. 36 ORTF – Tehnică de configurație stereo realistă, creată în anii 1960 de Office de Radiodiffusion Télévision Française – Radio France, care presupune așezarea unei perechi de microfoane la distanța de 17cm între cele două capsule pentru a forma unghiul de 110°.
Figura 5.1. Interfața SPS422B (sus) și interfața M-Audio ProFire2626 (jos).
63 Microfonul Soundfield (Fig. 5.5.) a fost conectat printr-un cablu cu 12 pini la matricea SPS422B (Fig. 5.1.) ce are posibilitatea transmiterii semnalului, prin conversie Format A – la – Format B, folosind patru ieșiri multicanal WXYZ și în sistem stereo, prin conversie Format B – la – Stereo Out. Astfel, cele 6 ieșiri ale matricii SPS422B (Fig. 5.2.) au fost captate prin cabluri XLR-XLR în interfața ProFire2626 (Fig. 5.1.) și înregistrate multicanal în Adobe Audition. Modul de funcționare al microfonului a fost setat din interfața SPS422B, folosind un nivel de intrare (Gain) de -10dB, o caracteristică de directivitate (Pattern) – cardioid și lățimea imaginii stereo (Width) – 5. În Fig. 5.5., alături de microfonul Soundfield situat la distanța de 1m față de boxa Yamaha HS7 plasată pe stativ, mai pot fi observate în stânga jos, interfața SPS422B, interfața M-Audio ProFire2626, cât și laptopul pe care rula Adobe Audition.
Înregistrările au urmărit captarea sunetelor propuse de-a lungul unui cerc trigonometric la distanțele de 1, 2 și 4 metri față de boxă. Acestea au fost realizate în incremente de 30°, prin rotirea microfonului de la stânga spre dreapta, pornind de la distanța de 1m și 0°, unghi în care capsula microfonului a fost îndreptată către difuzor. Din motive de eficiență, sunetele au fost grupate și redate succesiv pentru fiecare unghi, iar apoi microfonul a fost rotit cu 30°, până la realizarea unui cerc complet (360°), moment în care microfonul a fost deplasat la 2m (respectiv la 4m) și procesul a fost reluat.
Figura 5.2. Vedere din spate a interfeței SPS422B.
Figura 5.3. Capul binaural la 1m distanță față de difuzorul Yamaha HS 7.
64 5.2.3. Post-producția înregistrărilor captate După finalizarea sesiunilor de înregistrare, sunetele au fost separate în fișiere individuale și denumite după forma următoare: „nume microfon_tip sunet_distanță_grade”. În cazul microfonului Soundfield, câteva înregistrări multicanal B-Format (W X Y Z) au fost procesate prin plugin-ul matrice, dezvoltat de companie, rezultând o bună similaritate între acestea și
Figura 5.4. Perechea de microfoane Schoeps poziționată în configurație ORTF.
Figura 5.5. Imagine din studioul de înregistrare cu microfonul Soundfield la 1m distanță de boxa Yamaha HS7.
65 semnalele captate prin ieșirea stereo. Astfel, din motive de eficiență, au fost alese înregistrările stereo, convertite de matricea SPS422B. Fișierele au fost exportate cu frecvența de eșantionare37 48kHz , Stereo, în formatul .wav. 5.3. Aplicația dezvoltată pentru experiment Din dorința de a ușura efortul participanților de a asculta și de a nota localizarea fiecărui semnal, a fost concepută o aplicație digitală folosind limbajul de programare Java [74] în mediul open-source Processing [75]. Aplicația a constat într-o interfață grafică pentru utilizator cu dimensiunea 700 px x 500 px pe care a fost afișat cercul trigonometric gradat în incremente de 30° pornind de la 0°, iar tipul de microfon folosit pentru sunetele audiate a fost reprezentat în partea dreaptă-sus a ferestrei (Fig. 5.7.). În centrul cercului a fost schițată poziția ascultătorului față de scena audio redată. Butoanele, Play și Next, din partea stânga-sus a ecranului, au oferit controlul asupra conținului audiat; prin apăsarea Play fiecare sunet a putut fi ascultat în întregime de câte ori a fost nevoie și prin apăsarea Next a fost făcută trecerea la sunetul următor. Un fișaj text a oferit feedback vizual utilizatorului pentru a-l informa de trecerea la un nou stimul dar și de restul dintre acestea rămase de audiat. Participanții la experiment au mai avut opțiunea de a bifa pe ecran, distanța (Apropiat, Departe, Foarte Departe) și localizarea în planul vertical (Sus, Centru, Jos), pe care le-au sesizat pentru fiecare sunet. Indicarea direcției s-a realizat prin simpla apăsare pe cercul colorat, corespunzător unității gradate. Răspunsurile au fost înregistrate într-un fișier CSV (Fig. 5.6.), Anexa 3. Au fost create trei aplicații identice (una pentru fiecare sistem de captare folosit) fiind schimbate doar fișierele audio. Codurile sursă sunt disponibile integral pe platforma github38, iar în Anexa 1 a fost prezentat codul integral pentru chestionarul cu înregistrări captate prin intermediul Capului binaural. 37 Din lb. en. Sample rate. 38 https://github.com/mikepopescu/Experiment-localizare
66
Figura 5.6. Captură de ecran a unui fișier CSV în urma unei sesiuni de experiment.
67 5.4. Sesiunea de experiment Pentru sesiunea de experiment au fost aleși 4 bărbați și 4 femei (care locuiesc în București, România) cu vârste cuprinse între 24 și 38 de ani și care nu sufereau de probleme auditive. Pentru ca subiecții la experiment să poată da răspunsuri cât mai corecte s-a încercat diminuarea influenței mediului exterior și a sistemului de redare. Astfel, experimentele s-au desfăsurat în cadrul celor două studiouri Radio România 3Net „Florian Pittiș” din cadrul Societății Române de Radiodifuziune, încăperi tratate acustic pentru a întruni standardele radiofonice. Lanțul de transmisie pentru acest experiment a constat dintr-un laptop care a rulat programul chestionar, o interfață audio Focusrite 2i4 2nd gen. și o pereche de căști Sennheiser HD 25 Aluminium Edition (Fig.5.8.).
Figura 5.7. Captură de ecran a programului chestionar folosit de participanții la experiment.
68 Căștile folosite pentru audiție, au fost egalizate39 prin programul Sonarworks Reference 4 [76], folosind un răspuns în frecvență captat de companie pentru această pereche de căști. Fiecare subiect a fost expus la o sesiune completă care a constat în audiția a 216 de stimuli sonori prin intermediul perechii de căști și indicarea localizării percepute a acestora. Din dorința de a analiza răspunsul participanților față de o varietate de stimuli sonori diferiți ca anvelopă spectrală, însă fără a-i obosi pe aceștia, au fost selectate 4 sunete de test din totalul de 7 înregistrate: semnalul sinusoidal de 1kHz, vocea de femeie, sunetul de chitară și sunetul de tobe. Pentru a reduce numărul de ascultări necesare au fost selectate 6 unghiuri „critice” de pe cercul trigonometric care au putut oferi o image clară asupra percepției fiecărui participant. Astfel, au fost redate sunetele înregistrate la distanța de 1m, 2m și 4m, în următoarele unghiuri: 0°, 60°, 90°, 180°, 240° și 330°. Din dorința de a elimina gradul de confuzie, participanților la experiment nu le-au fost comunicate distanțele exacte, aceștia având opțiunea de a cataloga sunetele ca fiind aproape, departe sau foarte departe și de asemenea, nu le-au fost prezentate unghiurile alese pentru experiment. Deși toate sunetele au fost înregistrate în același plan vertical cu emitorul (centru), subiecții au avut opțiunea de a indica dacă au perceput sunetul fie în planul vertical superior (sus), inferior (jos) sau central (centru). Stimulii sonori au fost încărcați într-o ordine aleatorie, rezultând 72 de sunete pentru fiecare sistem de captare folosit (cap binaural, microfoane stereo în configurație ORTF și microfon Soundfield). Datorită numărului ridicat de stimuli sonori experimentul a fost împărțit în 3 sesiuni, una pentru fiecare 39 Nivelul corecției aplicate a fost setat prin intermediul butonului Dry/Wet la valoarea 58.
Figura 5.8. Subiect feminin în timpul sesiunii de experiment.
69 sistem de captare, participanții primind un avertisment pe ecran, după audiția primelor 36 de sunete, prin care erau atenționați să facă o pauză de câteva minute. La începutul experimentului, fiecărui participant i-a fost prezentat pe scurt motivul testului și i-a fost făcut un instructaj de folosire a programului, urmat de cinci minute de test, în care persoana s-a familiarizat cu sunetele și interfața grafică a chestionarului digital. La finalul unei sesiuni, subiecții au fost rugați să descrie verbal gradul de realism pe care l-au simțit, locul în care au sesizat cele mai multe sunete și care dintre cele 4 au fost mai ușor de indicat. O sesiune completă de experiment a durat între o oră și două ore, în funcție de participant. O particularitate a experimentului a constat în redarea a 3 sunete40 la finalul fiecărei sesiuni și notarea răspunsurilor fiecărui participant. Primul sunet a constat într-un shaker înregistrat central, la 1m de sistemul de captare, care descria o mișcare circulară în jurul microfonului. Al doilea și al treilea sunet au constat într-un shaker, mișcat punctiform, înregistrat la 1m în planul vertical superior, respectiv inferior, la un unghi de 180° față de microfon. În cazul primului sunet, s-a încercat descoperirea gradului de realism și a nivelului de corectitudine a percepției pentru un stimul aflat în mișcare, în jurul ascultătorului. Pentru sunetele redate în planul vertical s-a dorit cercetarea gradului de localizare pentru stimulii poziționați în planul superior și inferior ascultătorului. Răspunsurile date de subiecți se regăsesc centralizate în funcție de sunet și de sistemul de captare în Anexele 4-12 ale acestei lucrări. 40 Sunetele au fost înregistrate cu fiecare sistem de captare folosit în experiment.
Figura 5.9. Subiect masculin în timpul sesiunii de experiment.
70 5.5. Rezultatele experimentului Scopul acestui studiu este de investiga gradul de acuratețe resimțit de ascultători în momentul redării înregistrărilor captate în jurul unui sistem de coordonate carteziene în cele trei dimensiuni: azimut (X), elevație (Y) și adâncime (Z). Studiul prezintă o analiză comparativă a impresiei spațiale oferite subiecților de test de către cele trei sisteme de captare: capul binaural, microfoanele stereo în sistem ORTF și microfonul Soundfield. În continuare vor fi prezentate rezultatele obținute pentru fiecare dintre cele trei sisteme de microfoane folosite. 5.5.1. Analiza cantitativă Analiza cantitativă s-a realizat prin urmărirea rezultatelor obținute în planul orizontal (X), în planul vertical (Y) și în planul de adâncime (Z). Au fost catalogate drept „localizare perfectă” sunetele care au fost identificate corect pe toate cele trei planuri. Pentru o bună interpretare a localizării în planul orizontal, trebuie cunoscute criteriile de clasificare care au fost alese pentru cazurile care nu au localizat corect sunetele înregistrate. Astfel, acuratețea în acest plan a fost împărțiță în: • acuratețe azimut – procentul de sunete identificate corect; • acuratețe difuză – procentul format din suma între „acuratețe azimut” și „erori mici”; • confuzii frontale față-spate – procentul de sunete identificate în unghiul opus cu 180° de cel în care a fost înregistrat original sunetul; • confuzii stânga-dreapta – procentul de sunete identificate în partea laterală în cadranul opus de cel în care a fost înregistrat original sunetul; • erori mici – procentul de sunete care au fost localizate cu o abatare de ±30°; • erori mari (numite și erori grave) – procentul de sunete care au fost localizate cu erori mari de precizie (>60°); „Acuratețea difuză” a fost creată pentru o privire mai practică asupra acurateții din planul orizontal, au fost adunate rezultatele obținute în „acuratețe azimut” cu cele obținute în „Erori mici”, rezultatul acestora oferind un răspuns mai general asupra gradului de localizare în planul orizontal pentru cele trei microfoane. Astfel, în cazul aplicațiilor care nu prezintă nevoia unui grad ridicat de acuratețe, această categorie oferă o privire mai permisivă asupra localizării în planul orizontal. Rezultatele pentru sunetele redate în planul orizontal (Fig. 5.10.) au evidențiat următoarele: Sinusul de 1kHz a fost localizat corect în proporție de 17,4% prin intermediul Capului binaural, 22,9% prin intermediul microfoanelor ORTF și 32,6% prin intermediul microfonului Soundfield. Vocea feminină a fost indicată corect în acest plan în proporție de 33,3% prin intermediul Capului, respectiv 32,6% prin ORTF, în timp ce Soundfield-ul a înregistrat 30,6%. Sunetul de chitară a fost îndentificat corect în proporție similară pentru Cap și Soundfield, 27,1% respectiv 29,2%, în timp ce prin ORTF acuratețea în acest plan a fost de 34,7%.
71 Setul de tobe a fost localizat similar pentru toate cele trei sisteme de captare, 25% pentru Cap și ORTF și 26,4% pentru Soundfield. În total, acuratețea din planul orizontal a fost mai scăzută pentru Cap, 25,7%, în timp ce ORTF-ul și Soundfield-ul au înregistrat 28,8% respectiv 29,7% (Fig. 5.11.). Rezultatele pentru sunetele localizate corect în funcție de distanța la care au fost înregistrate sunt următoarele (Fig. 5.12): În cazul sinusului de 1kHz, ceea mai mare acuratețe a fost înregistrată în cazul microfoanelor ORTF, 50%, în timp ce Capul a obținut 45,1% și microfonul Soundfield 35,4%. Vocea de femeie a fost localizată cu acuratețe similară pentru Cap, 51,4% și ORTF, 52,8% în timp ce Soundfield-ul a înregistrat 43,1%.
Figura 5.10. Procentul de acuratețe în planul orizontal pentru fiecare sunet în funcție de microfonul cu care a fost captat.
Figura 5.11. Procentul de acuratețe în planul orizontal pentru fiecare microfon.
72 Chitara a fost identificată corect în acest plan în proporție de 45,1% atât pentru Cap cât și pentru ORTF, iar în cazul Soundfield a fost înregistrat un procent de 47,9%. Setul de tobe, captat prin intermediul Capului, a înregistrat cea mai mare acuratețe dintre toate sunetele, 62,5%, în timp ce înregistrarile realizate cu ORTF au fost localizate corect în proporție de 54,9%, iar pentru Soundfield, 50%. În total, acuratețea adâncimii percepute corect a fost similară pentru Cap, 51% și ORTF 50,7% în timp ce pentru Soundfield a fost mai scăzută 44,1% (Fig. 5.13). Rezultatele pentru sunetele localizate corect în planul vertical sunt următoarele (Fig. 5.14.): Sinusul de 1kHz a fost localizat corect cu un procent identic pentru Cap și ORTF, 79,9%, iar pentru Soundfield, 75,5%. Vocea de femeie a fost localizată corect în acest plan în procent de 62,5% pentru Cap, 70,8% pentru ORTF și 70,1% pentru Soundfield.
Figura 5.12. Procentul de acuratețe a distanței pentru fiecare sunet în funcție de microfonul cu care a fost captat.
Figura 5.13. Procentul de acuratețe a distanței pentru fiecare microfon.
73 Chitara a fost identificată mai puțin corect prin intermediul Capului, 54,9%, în timp ce prin ORTF și Soundfield au fost înregistrate procente de 75%, respectiv 73,6%. Setul de tobe a fost localizat corect în acest plan, prin intermediul Capului în proporție de 59,5%, ORTF, 61,8% și Soundfield 56,3%. În total acuratețea percepută în planul vertical (Elevație) a fost mai scăzută pentru Cap, 59,5%, în timp ce sistemul ORTF a înregistrat 71,9%, iar microfonul Soundfield 68,8% (Fig. 5.15.). Rezultatele pentru sunetele care au înregistrat confuzii frontale față-spate (Fig. 5.16.): Sinusul de 1kHz a generat un procent de 9% confuzii în cazul înregistrărilor realizate cu Capul binaural, 8,3% în situația microfoanelor ORTF și 5,6% pentru Soundfield. Vocea de femeie a generat un precent de 6,3% atât pentru Cap cât și pentru Soundfield, în timp ce sistemul ORTF a înregistrat cea mai mică confuzie frontală față-spate (2,1%) pentru acest stimul sonor.
Figura 5.14. Procentul de acuratețe în planul vertical pentru fiecare sunet în funcție de microfonul cu care a fost captat.
Figura 5.15. Procentul de acuratețe în planul orizontal pentru fiecare microfon.
74 Sunetul de chitară a creat cel mai mare procentaj de confuzii pentru această categorie de rezultate, cu un procent pentru Cap de 11,8%, pentru ORTF 4,9% și pentru Soundfield 6,3%. Sunetul de tobe a generat un procent de confuzii frontale față-spate de 6,9% pentru Cap și de 7,6% atât pentru configurația ORTF cât și pentru Soundfield. În total confuziile frontale față-spate au fost mai ridicate pentru Cap, 8,5%, în timp ce ORTF-ul și Soundfield-ul au generat un procentaj de 5,7%, respectiv 6,4%. (Fig. 5.15). Rezultatele pentru sunetele care au înregistrat confuzii stânga-dreapta (Fig. 5.18.): Sinusul de 1kHz, captat de Capul binaural, a generat cel mai scăzut grad de confuzii stânga-dreapta 3,5%, ORTF au înregistrat 9,7% și microfonul Soundfield 6,9%. Vocea femină a generat atât pentru Cap cât și pentru Soundfield un procent de 12,5% confuzii, în timp ce microfoanele ORTF au generat cel mai ridicat grad de confuzii stânga-dreapta, 13,2%.
Figura 5.16. Procentul de confuzii frontale față-spate pentru fiecare sunet în funcție de microfonul cu care a fost captat.
Figura 5.17. Procentul de confuzii frontale față-spate pentru fiecare microfon.
75 Chitara a creat confuzii stânga-dreapta pentru Cap în procent de 8,3%, pentru ORTF, 12,5% și pentru Soundfield 7,6%. Tobele au creat un procent similar de confuzii stânga-dreapta pentru Cap și pentru ORTF, de 11,8% respectiv 12,5%, iar pentru Soundfield de 7,6%. În total confuziile stânga-dreapta au fost înregistrate într-un procent similar la cele trei microfoane; 9,0% pentru Cap, 10,2% pentru ORTF și 9,2% pentru Soundfield (Fig. 5.19). Rezultatele pentru sunetele care au înregistrat variații de ±30° în planul orizontal față de poziția originală în care au fost înregistrate, au fost numite în această lucrare „erori mici” (Fig. 5.20.): Tonul de 1kHz captat prin Cap a înregistrat un procent de 25,7% în timp ce ORTF și Soundfield au avut un procent mai mare de erori mici, 32,6% și 31,9%.
Figura 5.18. Procentul de confuzii stânga-dreapta pentru fiecare sunet în funcție de microfonul cu care a fost captat.
Figura 5.19. Procentul de confuzii stânga-dreapta pentru fiecare microfon.
76 Vocea de femeie a generat un număr similar de erori mici pentru cele trei microfoane: 32,6% pentru Cap și 31,9% pentru ORTF și Soundfield. Sunetul de chitară a fost localizat cu cel mai mic număr de erori mici pentru Capul binaural, 24,3%, în timp ce ORTF și Soundfield au înregistrat procente de 34% și 32,6%. În cazul sunetului de tobe, capul a înregistrat un procent de 29,2% și Soundfield 31,9%, iar pentru sistemul ORTF a fost înregistrat cel mai mare procent de erori mici, 33,5%. În total erorile mici au fost întâlnite cel des în cazul setului de microfoane ORTF, în timp ce Capul binaural a generat un procent de 29,2% și Soundfield, 31,9% erori de ±30° (Fig. 5.21).
Figura 5.20. Procentul de erori mici pentru fiecare sunet în funcție de microfonul cu care a fost captat.
Figura 5.21. Procentul de erori mici pentru fiecare microfon.
77 Rezultatele pentru sunetele care au înregistrat variații mari în planul orizontal față de poziția originală în care au fost înregistrate, au fost numite în această lucrare „erori mari” (Fig. 5.22.): Sinusul de 1kHz captat cu Capul binaural a înregistrat cel mai mare procent de erori mari, 44,4%, în timp ce ORTF a înregistrat 26,4% și Soundfield 22,9% erori mari. Vocea de femeie generat cel mai mic procent în această categorie, în situația Capului binaural, 15,3%, iar pentru ORTF și Soundfield au fost înregistrate procente de 20,1% și 18,8%. Sunetul de chitară captat prin Cap a generat un procent de 28,5%, în timp ce ORTF, 20,8% și Soundfield, 22,2%. Sunetul de tobe a generat pentru Cap un procent de 22,2%, pentru ORTF, 19,4% iar pentru Soundfield, 27,1%. În total, erorile mari de localizare au fost mai des întâlnite în cazul Capului binaural, 27,6%, în timp ce sistemul ORTF și Soundfield au înregistrat 21,7% și 22,7% (Fig. 5.23.).
Figura 5.22. Procentul de erori mari pentru fiecare sunet în funcție de microfonul cu care a fost captat.
Figura 5.23. Procentul de erori mari pentru fiecare microfon.
78 Informațiile obținute din însumarea datelor cuprinse în „acuratețe azimut” (Fig. 5.10) și cele cuprinse în „Erori mici” (Fig. 5.20) au generat o privire mai permisivă asupra acurateții localizării în planul orizontal, denumită „Acuratețe difuză” (Fig. 5.24.). Tonul de 1Khz a fost perceput cu cea mai mică acuratețe dintre toate sunetele prin intermediul Capului binaural care a înregistrat un procent de 43,1% acuratețe difuză, în timp ce sistemul ORTF a înregistrat 55,6% și Soundfield 64,6%. Vocea de femeie a generat o acuratețe difuză într-un grad similar pentru cele trei microfoane, 66% în situația Capului, 64,6% în cazul ORTF și 62,5% pentru Soundfield. Chitara a fost percepută cu o acuratețe difuză în proporție de 51,4% pentru Cap, 61,8% pentru Soundfield și 68,8% pentru ORTF – cea mai ridicată acuratețe dintre cele patru sunetele. Setul de tobe a generat o acuratețe difuză într-un procent similar pentru cele trei microfoane, 59% pentru Cap, 60,4% în cazul ORTF și 57,6% pentru Soundfield. În total, acuratețea difuză a fost mai scăzută pentru Capul binaural, 54,9% și într-un procent similar pentru ORTF și Soundfield, 62,3%, respectiv 61,6% (Fig. 5.25). Rapoartele observate pentru Acuratețe Azimut sunt puțin schimbate în situația în care sunt luate în considerare erorile de ±30°, sistemul ORTF devansând celelalte două sisteme de captare, fiind urmat de microfonul Soundfield.
Figura 5.24. Procentul de acuratețe difuză pentru fiecare sunet în funcție de microfonul cu care a fost captat.
79 Suntele care au fost localizate exact în poziția în care au fost înregistrate original au fost tratate în graficele „Localizare perfectă” (Fig. 26.). Sinusul de 1kHz a fost localizat perfect în cazul Capului, 7,6%, ORTF, 9,7% și Soundfield, 6,9%. Vocea de femeie a fost localizată cel mai bine dintre cele patru sunete în cazul sistemului ORTF, 13,9%, în timp ce Capul a înregistrat o localizare perfectă în 13,2% din cazuri, iar microfonul Soundfield în 7,6% din cazuri. Chitara a fost localizată cel mai slab de Capul binaural cu un procent de 5,6%, în timp ce ORTF a obținut 13,2% și Soundfield 9,7%. Setul de tobe captat de Cap a fost localizat perfect în proporție de 6,9%, în timp ce sistemele ORTF și Soundfield au oferit o localizare perfectă în proporție de 7,6% și respectiv 8,3%. În total, Capul binaural și microfonul Soundfield au oferit o localizare similară, 8,0% și 8,2%, iar setul de microfoane în configurație ORTF a generat un procent de 10,9% localizări perfecte (Fig. 27).
Figura 5.25. Procentul de acuratețe difuză pentru fiecare microfon.
Figura 5.26. Procentul sunete localizate perfect în funcție de microfonul cu care au fost captate.
80 5.5.2. Analiza calitativă Așa cum a fost specificat și în subcapitolul 5.4., la finalul fiecărei sesiuni, toți participanții la experiment au fost chestionați verbal cu privire la gradul de realism pe care l-au simțit și care au fost sunetele cel mai ușor localizabile. Dintre sunetele cele mai greu localizabile, toți cei 8 participanți au afirmat că semnalul sinusoidal de 1kHz a fost cel mai greu localizabil, majoritatea percepându-l în mai multe direcții în același timp și cu un grad de externalizare scăzut (în afara capului), însă au putut să-l identifice ușor în extremitățile laterale, stânga 270° și dreapta 90°. Cu toate acestea, o persoană a susținut că i-a fost cel mai ușor să-l localizaze în înregistrările realizate de microfonul Soundfield și o alta a afirmat că a putut localiza acest sunet cu ușurință în înregistrările realizate cu Capul binaural. Sunetul de chitară a fost clasat de majoritatea participanților ca fiind următorul sunet greu de localizat după tonul sinusoidal. Două persoane din cele 8, au afirmat că au putut localiza mult mai ușor chitara, într-un procent similar cu vocea de femeie. Alte două persoane au afirmat că au putut localiza mai ușor acest sunet în înregistrările realizate cu microfonul Soundfield. Vocea de femeie a fost clasată de majoritatea participanților ca fiind al doilea sunet ușor de localizat după cel de chitară. Cu toate acestea, două persoane din cele 8 au afirmat că au identificat cel mai bine vocea (pentru toate cele trei microfoane), iar o persoană a susținut că a putut localiza mai ușor sunetul feminin înregistrat cu Soundfield. Sunetul de tobe a fost favorit în rândul celor 8 participanți la experiment, 6 dintre aceștia afirmând că l-au putut localiza cel mai ușor. Însă, două persoane au susținut că au localizat greu sunetul de tobe înregistrat cu microfonul Soundfield. Un alt participant la experiment a afirmat că i s-a părut mai greu de localizat acest sunet în înregistrările realizate cu configurația ORTF. În ceea ce privește gradul de externalizare resimțit, Capul binaural a oferit cea mai convingătoare senzație de sunet „în cameră” pentru 7 dintre participanți. În cazul ORTF, senzația de sunet „în cameră”
Figura 5.27. Procentul de localizări perfecte obținut pentru fiecare microfon.
81 a fost identificată de 6 persoane, în timp ce pentru sunetele înregistrate cu microfonul Soundfield, doar 3 participanți le-au catalogat „în afara capului”. De asemenea, o persoană a susținut că a simțit mai bine externalizarea în cazul sunetelor captate cu ORTF decât cu Capul binaural. Un set de date ce merită menționat a fost obținut în urma redării celor trei sunete de shaker, unul în planul orizontal și două în planul vertical. Astfel că, pentru shaker-ului mișcat circular, în planul orizontal, în sensul acelor de ceas, cinci dintre participanți au identificat corect traseul parcurs de sunet. Trei dintre cei opt, au localizat sunetul doat în jumătatea din spate a capului și o persoană a indicat un traseul circular însă, realizând o confuzie față-spate. Pentru acest sunet, toți participanții la experiment au afirmat că au sesizat externalizarea pentru cele trei microfoane. În cazul celor două sunete de shaker redate în planul vertical, toți participanții le-au localizat în spate cu preponderență central. O singură persoană a afirmat că a simțit primul shaker (înregistrat în planul vertical superior) în partea din spate superioară și patru persoane au susținut că au simțit al doilea shaker în partea din spate, inferioară. 5.5.3. Analiza finală În urma analizării datelor prezentate în subcapitolele 5.5.1 și 5.5.2 reies o serie de concluzii cu privire la nivelul de acuratețe pe care îl pot avea ascultătorii în funcție de sistemul de captare folosit și de diferitele caracteristici spectrale ale stimulilor sonori. Datele obținute în urma chestionării celor 8 subiecți au fost împărțite în trei categorii principale de localizare: acuratețea în planul orizontal (azimut), acuratețea în planul vertical (elevație) și acuratețea de adâncime (distanța). În ceea ce privește acuratețea în planul vertical (Fig.5.12), așa cum a fost precizat în subcapitolul 5.4., sunetele au fost înregistrate la același nivel cu emitorul (centru) iar participanții au putut să indice sunetele pe care le-au perceput în partea superioară sau inferioară față de poziția de ascultare. Deși toți au afirmat că cel mai greu sunet de localizat (în planul orizontal) a fost tonul de 1kHz, acesta a obținut cel mai mare procent de acuratețe verticală pentru toate microfoanele. Acest lucru sugerează ideea că sunetele artificiale precum cele generate cu un sintetizator sunt mai puțin predispuse să inducă erori de localizare verticală. Vocea de femeie, unul dintre sunetele preferate de participanți, și sunetul de chitară au fost localizate cu o acuratețe mai slabă prin intermediul Capului binaural comparativ cu microfoanele ORTF și microfonul Soundfield. Majoritatea celor chestionați au afirmat că au simțit sunetele în planul superior al capului. Acest lucru se poate datora funcției HRTF a urechilor manechinului, realizate dintr-un mulaj după urechile unei femei. Conform Bujacz et al., folosirea unui set de HRTF-uri personalizat va duce la scăderea semnificativă a confuziilor sus-jos [31]. Cele mai mari confuzii în planul vertical au fost date de sunetul de tobe, un sunet percusiv, diferit ca avelopă spectrală de ceilalți trei stimuli sonori. Capul binaural a generat cele mai mari erori de localizare verticală, urmat de microfonul Soundfield și de sistemul ORTF.
82 Localizarea în planul vertical a generat multe erori pentru Capul binaural și a putut fi observată lipsa unui set de HRTF-uri personalizate. În practică, în situația în care se dorește captarea poziției verticale a unui sunet, poate fi luată în considerare folosirea unui sistem de microfoane stereo sau un Soundfield care vor reuși să ofere o imagine mai bună asupra planului vertical față de un set nepersonalizat de HRTF-uri. Localizarea distanței (planul adânc) a avut, în medie, un procent de acuratețe în jurul valorii de 50%. Conform graficelor prezentate în Fig. 5.10, sunetele înregistrate de Cap și de ORTF au fost mai bine localizate în acest plan. În cazul Capului binaural acest lucru se poate datora formei similare cu cea a unui cap uman, ceea ce facilitează formarea indicatorilor necesari de localizare în semnalul captat și astfel, obținerea unui sunet familiar pentru urechea ascultătorului. Conform Bujacz et al., folosirea HRTF-urilor personalizate duce într-adevăr la externalizarea mai bună a surselor de sunet, însă nu într-un grad atât de ridicat comparativ cu situația folosirii HRTF-urilor nepersonalizate [31]. Cu toate acestea, în rezultatele prezentate în Fig. 5.10, poate fi observat un răspuns la fel de bun pentru setul ORTF și în unele cazuri, mai bun (sinus și chitară) decât cel obținut de Capul binaural. Acest lucru se poate datora incompatibilității HRTF-urilor manechin-ascultător, incluzând forma și dimensiunea capului și a pavilionului urechii. În ceea ce privește sunetul percusiv, înregistrările realizate prin intermediul Capului au reușit să ofere o acuratețe corectă în proporție de peste 60% din cazuri, confirmând motivul pentru care majoritatea subiecților au preferat acest tip de sunet – care a putut fi localizat în spațiu mai ușor. Mai poate fi observat un grad de acuratețe mai mare în cazul sunetului de chitară captat cu microfonul Soundfield în detrimentul Capului și al microfoanelor ORTF. Per total, pentru obținerea senzației de sunet în cameră, în afara capului, se poate afirma faptul că folosirea unui Cap binaural cu un HRTF nepersonalizat sau a unui set de microfoane stereo în format ORTF poate oferi rezultate satisfăcătoare în detrimentul Soundfield-ului. În plus, dacă sunetul ce urmează să fie înregistrat este un sunet artificial sau este o voce umană, există posibilitatea obținerii unor rezultate mai convingătoare prin folosirea sistemului ORTF, în detrimentul unei perechi de HRTF-uri nepersonalizate. Localizarea în planul orizontal a fost împărțită în mai multe categorii, dataliate în subcapitolul 5.5.1., pentru o bună întelegere a capacității de captare a sunetului 3D de către microfoanele folosite în experiment. În ceea ce privește semnalul sinusoidal, acesta a fost identificat cu precizie scăzută în acest plan atât prin intermediul Capului (17,4%) cât și prin ORTF (22,9%). În cazul Capului binaural, aproape jumătate din tonurile pure au generat erori mari, fiind localizate total greșit (44,4%) și de asemenea, au fost printre sunetele care au generat cele mai multe confuzii frontale față-spate (9%). Chiar și în situația acceptării erorilor mici, acuratețea difuză este scăzută pentru acest sunet (43,1%), fiind înregistrate precizii mai mari în cazul microfoanelor ORTF (55,6%) și Soundfield (64,6%). Similar cu Capul binaural, microfoanele în format ORTF au înregistrat cele mai multe erori mari (26,4%) pentru acest tip de sunet și de asemenea, au produs confuzii frontale față-spate (8,3%). În plus, aceste microfoane, au creat un număr mai mare de confuzii stânga-dreapta (9,7%) decât Capul binaural
83 și microfonul Soundfield. Cu toate acestea, acuratețea difuză a avut o valoare mai ridicată (55,6%) decât cea obținută de capul binaural. Deși înregistrările captate de microfonul Soundfield au fost catalogate de majoritatea participanților la experient, ca fiind lipsite de spațialitate, pentru tonul de 1kHz acest microfon a înregistrat cel mai mic număr de erori mari (22,9%) și cel mai mic număr de confuzii frontale față-spate (5,6%). De asemenea, a înregistrat cea mai mare acuratețe pentru sinus (32,6%), comparativ cu restul sunetelor la care a fost expus. Luând în calcul și erorile mici, a fost obținut un procent de acuratețe difuză de 64,6%, cel mai ridicat dintre cele trei microfoane pentru acest sunet. Setul de tobe este un alt sunet care a fost identificat cu greutate, deși a fost catalogat de majoritatea participanților la experiment, ca fiind printre cele mai ușoare sunete de localizat. Astfel, toate cele trei microfoane au reușit să ofere o acuratețe similară în planul orizontal, Cap și ORTF – 25% și Soundfield – 26,4%. Micile diferențe apar în gradul de erori înregistrate. Poate fi observat un număr mai mare de erori grave pentru Soundfield (27,1%), urmat de Cap (22,2%) și de ORTF (19,4%). Confuziile frontale față-spate sunt similare pentru cele trei microfoane, în jurul valorii de 7%, fiind înregistrată o mică diferență în favoarea Soundfield. Iar în cazul confuziilor stânga-dreapta, Capul (11,8%) și sistemul ORTF (12,5%) au obținut valori apropiate comparativ cu Soundfield (7,6%). Luând în calcul și erorile mici este obținută o acuratețe difuză similară pentru cele trei microfoane; Capul (59%) – un procent de acuratețe mai bun față de Soundfield (57,6%), iar sistemul ORTF (60,4%) fiind clasat peste cele două. Chitara, un sunet care a fost notat de majoritatea participanților ca fiind mai greu localizabil, a înregistrat o acuratețe în planul orizontal peste sunetul percusiv. Astfel, Capul a obținut un procent de 27,1%, Soundfield 29,2% și ORTF 34,7%, cea mai ridicată valoare pentru acest plan. În ceea ce privește procentul de erori înregistrate, Capul a generat cel mai mare număr (28,5%), iar ORTF (20,8%) și Soundfield (22,2%), valori apropiate. De asemenea, Capul a generat cel mai mare număr de confuzii frontale față-spate (11,8%) și un număr apropiat (8,3%) de confuzii stânga-dreapta cu Soundfield (9,7%). Setul stereo de microfoane în sistem ORTF au înregistrat erori mici pentru sunetul de chitară (Erori mari – 20,8%; Confuzii laterale – 4,9%; Confuzii frontale – 5,6%). Luând în considerare și erorile mici, a fost obținută cea mai ridicată acuratețe orizontală difuză, sistemul ORTF obținând un procent ridicat (68,8%), urmat de Soundfield (61,8%) și de Cap (51,4%). Vocea de femeie clasată de majoritatea subiecților de test ca fiind printre cele mai ușoare sunete de localizat a obținut un procent de acuratețe orizontală similar pentru cele trei microfoane folosite în experiment. Cea mai precisă localizare în acest plan a fost realizată cu Capul binaural (33,3%), urmat de sistemul ORTF (32,6%) și de Soundfield (30,6%). În cazul acestui sunet au fost înregistrate procente scăzute de erori grave, cele mai puține în cazul Capului (15,3%) urmat de Soundfield (18,8%) și ORTF (20,1%). De asemenea, toate cele trei microfoane au dat un număr mic de confuzii frontale față-spate, cele mai puține în cazul ORTF (2,1%) în timp ce Capul și Soundfield au înregistrat 6,3%. Problemele au apărut în lateral, multe persoane realizând confuzii față-
84 spate, dar într-un procent similar pentru cele trei microfoane: Cap și Soundfield – 12,5%, iar ORTF 13,2% (cea ma ridicată valoare din această categorie). Luând în considerare și erorile mici, a fost obținut un procent ridicat de acuratețe difuză pentru vocea de femeie, înregistrările captate cu Capul binaural fiind localizate cel mai bine în acest plan (66,6%), urmate de cele realizate cu ORTF (64,6%) și de cele realizate cu Soundfield (62,5%). Pentru o bună înțelegere a datelor prezentate cât și impactul acestora în situațiile reale de înregistrare, rezultatele expuse în Capitolul 5 vor fi concluzionate pentru fiecare sistem de captare din cadrul experimentului acestei lucrării în Capitolul 6. De asemenea, vor fi extrase recomandări practice și vor fi sugerate câteva direcții de dezvoltare ulterioară.
85 6. Concluzii În lucrarea de față au fost tratate o gamă de sisteme de captare tridimensională a sunetelor și a fost comparat nivelul de realism resimțit de un eșantion de persoane în momentul redării în formatul binaural. Pentru o bună identificare a aspectelor ce țin de modul de funcționare al sistemului auditiv uman, au fost cercetați indicatorii de localizare folosiți de urechea umană: nivelul sonor, raportul dintre energia semnalului direct și energia semnalului reverberant, indicatorii spectrali, indicatorii binaurali, indicatorii dinamici, familiarizarea cu stimulul audio și rolul informației vizuale. Toți aceștia contribuie în diferite proporții la identificarea corectă a scenei audio în mijlocul căreia se află ascultătorul. Utilizarea unui cap binaural realizat în cadrul Facultății de Electronică, UPB, dotat cu o pereche de urechi create dintr-un mulaj după urechile unei femei, a necesitat înțelegerea Funcțiilor de transfer ale Capului (HRTF) subiect tratat în Capitolul 2 al acestei lucrări și de asemenea, a fost necesară cercetarea sistemelor de captare binaurală existente în prezent în diferitele institute și companii din întreaga lume (Capitolul 3). În Capitolul 4 a fost studiat modul de funcționare al microfoanelor cu multiple capsule, modul în care este codată informația captată și decodată pentru a oferi controlul și o bună redare a scenei sonore. De asemenea, pentru o bună înțelegere a fenomenelor acustice care pot apărea în înregistrările de sunet 3D au fost prezentate câteva experimentele realizate de cercetători internaționali, care oferă o privire mai largă asupra limitărilor funcționale ale sistemelor de captare. Scopul acestei cercetări, de a identifica factorii care contribuie la controlul localizării la redarea prin căști, prezintă un potențial mare de informații care trebuie luate în considerare în momentul alegerii unui sistem de captare a sunetului 3D – de care depinde în bună măsură gradul de realism pe care îl poate simți ascultătorul. De asemenea, trebuie luate în considerare anumite particularități ale diferitelor anvelope spectrale sonore. Astfel, în urma experimentului realizat în cadrul acestei lucrări, pe un eșantion de 8 participanți, prezentat în Capitolul 5, reies o serie de rezultate care confirmă teorii din literatura de specialitate. Microfonul Soundfield, construit în configurație First-OrderAmbisonics (4 capsule așezate în tetraedru) este folosit pentru a acompania filmele realizate în 360°, fiind cunoscut pentru faptul că poate orienta scena audio după momentul înregistrării în orice direcție dorită de ascultător prin intermediul unei matrici de conversie Format A – Format B. Deși au fost persoane care au declarat că au sesizat senzația de sunet în cameră, un dezavantaj important al sistemului este acela că nu are capacitatea de a capta într-un mod realist adâncimea sonoră a spațiului în care este plasat. Acest lucru a putut fi observat și în cadrul acestui experiment, unde a înregistrat cea mai slabă acuratețe în adâncime pentru majoritatea sunetelor, excepția fiind sunetul de chitară. În ceea ce privește planul vertical, nu au existat foarte multe erori, cele mai multe fiind înregistrate în situația sunetului percusiv. Însă vocea feminină și chitara au fost localizate corect în proporție bună, similară cu microfonul ORTF. Deși acest sistem nu are capacitatea de a surprinde bine adâncimea sonoră, înregistrările din planul orizontal pentru sunete digitale cât și pentru cele percusive pot fi identificate corect de ascultători într-un grad mai ridicat decât pentru Capul binaural și ORTF. Confuziile frontale față-spate au existat în jurul valorii de 5% pentru toate cele patru sunete captate de sistemul Soundfield, în timp ce confuziile
86 stânga-dreapta au fost mai dese pentru vocea umană și pentru sunetul de chitară. Cu toate acestea, erorile mici, au existat într-un grad similar pentru cele patru sunete. Nu trebuie neglijate nici erorile mari care au fost mai dese în cazul sunetului percusiv și al celui de chitară. Însă, pentru aplicațiile care acceptă o localizare laterală difuză acest microfon poate oferi o bună reprezentare în planul orizontal pentru sunetele tonale, generate digital, cât și pentru vocea umană sau instrumente cu corzi. Deși reprezintă o alternativă convenabilă pentru captarea scenei audio 3D, trebuie avută în vedere convoluția semnalului captat cu un răspuns la impuls al capului (HRIR) sau cu un răspuns binaural la impuls al camerei (BRIR) prin care poate fi îmbunătățită adâncimea scenei audio. Capul binaural, un sistem ce poate reda într-un mod fidel și realist scena audio, prezintă marele avantaj de a imita forma capului și a urechilor unei persoane reale, fapt ce duce la obținerea unui set mare de indicatori cu care sistemul auditiv este obișnuit să realizeze localizarea sunetelor. Cu toate acestea, există posibilitatea incompatibilității HRTF-urilor manechinului cu cele ale ascultătorilor, ceea ce poate duce la confuzii și erori mari de localizare – similare cu cele pe care le-au simțit participanții experimentului acestei lucrări. Poate fi observat gradul scăzut al acurateții în planul vertical, gradul ridicat de confuzii frontale față-spate și numărul mare de erori grave înregistrat de acest sistem. Similar cu experimentul realizat de Sakamoto et al., imaginea sonoră a fost percepută „în afara capului” puțin deasupra orizontului în planul median [59], majoritatea subiecților susținând că sunetele au fost înregistrate din planul superior. Cu toate acestea, Capul binaural prezintă avantajul unui grad ridicat de acuratețe orizontală pentru vocea umană cât și pentru cele percusive și oferă o acuratețe ridicată în adâncime, majoritatea subiecților prezenți la experiment susținând că au sesizat foarte clar sunetul în afara capului, în cameră prin înregistrările realizate cu acest sistem. De asemenea, nivelul erorilor mici și numărul confuziilor stânga-dreapta este scăzut pentru sunetul tonal cât și pentru cel de chitară. Astfel, acest sistem oferă o precizie mai mare pentru localizarea orizontală, ascultătorii fiind ușor imersați în scena audio datorită unei bune externalizări. Însă, există posibilitatea întâlnirii erorilor de compatibilitate în cazul folosirii HRTF-urilor nepersonalizate, ceea ce va duce la erori mari, confuzii și la senzația de sunet în cap. Din rezultatele obținute în urma experimentului poate fi observat faptul că sistemul de microfoane Schoeps, în configurație ORTF, reprezintă o bună alternativă la sistemele de captare a sunetului 3D. Acestea au obținut valori constante în comparație cu sistemele tradiționale fiind ideale pentru sunete familiare, existente în mod natural, precum vocea umană sau sunetul de chitara. Cele două microfoane așezate în configurație ORTF au obținut rezultate similare cu Capul binaural și în unele cazuri peste acesta, reușind să ofere o imagine corectă pentru subiecții prezenți în cadrul experimentului. Sistemul a oferit un răspuns similar pentru majoritatea sunetelor atât în planul orizontal, cât și în cel vertical sau de adâncime. De asemena, gradul de confuzii față-spate a fost foarte scăzut pentru sunetul de chitară și vocea femină. Un punct slab al acestei configurații este dat de acuratețea mai scăzută în lateral, unde a fost înregistrat un număr mai mare de confuzii constante pentru sunetele redate, excepție fiind sunetul de chitară. În plus a existat un procent de erori mici crescut, însă similar cu celelalte două sisteme folosite
87 în experiment. Deși localizarea perfectă a înregistrat un procent scăzut, sistemul ORTF a surclasat sistemele clasice de captare a sunetului 3D. Astfel, pentru aplicațiile care acceptă o localizare laterală difuză, acest sistem reprezintă o alternativă bună pentru sistemele clasice de înregistrare 3D. În ceea ce privește sunetele folosite în experiment, un indicator important constă în experiențele anterioare cu o sursa sonoră, la diferite distanțe care poate crește gradul de acuratețe a identificării distanței. Acest lucru se datorează faptului că sistemul nervos poate compara conținutul spectral și nivelul sonor la nivelul urechii cu un estimat creat intern pentru sursa sonoră [29]. Un alt aspect interesant obținut din experiment scoate în evidență importanța prezenței indicatorilor dinamici în fluxul de informație acustică. Astfel, în cazul sunetului de shaker mișcat în sensul acelor de ceasornic, în jurul receptorului, la distanța de 1m, toți participanții au simțit senzația de externalizare pentru cele trei sisteme de captare. Această informație poate fi obținută fie în urma mișcării sursei sonore, fie a ascultătorului. De asemenea, pentru o reprezentare fidelă a sunetului înregistrat în calul urechii, trebuie avută în vedere liniarizarea răspunsului în frecvență a căștilor folosite de ascultător, iar pentru o bună externalizare, trebuie luată în considerare convoluția cu un sistem ce poate simula acustica spațiului ce se dorește a fi transmis. Direcțiile viitoare de cercetare urmăresc posibilitatea integrării unui dispozitiv de urmărire a mișcărilor capului (din lb. en. head tracker) pentru a fi utilizat într-un sistem binaural cu un flux audio captat pe două canale, fie cu un Cap binaural sau cu un set de microfoane în configurație Stereo. De asemenea, o pistă de cercetare poate fi integrarea unei înregistrări 3D în cadrul unui joc video sau de realitate virtuală (VR) în care utilizatorul va avea posibilitatea reorientării scenei audio prin utilizarea dispozitivelor periferice de intrare.
88
89 Bibliografie [1] A. J. Kolarik, B. C. J. Moore, P. Zahorik, S. Cirstea and S. Pardhan, "Auditory distance perception
in humans: a review of cues, development, neuronal bases, and effects of sensory loss," 20
November 2015. [Online]. Available: https://l ink.springer.com/article/10.3758/s13414 -015-1015 –
1. [2] S. L. T. Letowski, "Localization Error: Accuracy and Precision of Auditory Localization," in
Advances in Sound Localization , P. Strumillo, Ed., Intech, 2011, pp. 55 -78. [3] R. M. Stern, G. J. Brow n and D. Wang, "Binaural Sound Localization," in Computational Auditory
Scene Analysis: Principles, Algorithms, and Applications , Wiley -IEEE Press, 2006. [4] G. A. Miller, "Sensitivity to Changes in the Intensity of White N oise and Its Relation to Maski ng
and Loudness," The Journal of the Acoustical Society of America, vol. 19, pp. 609 -619, 1947. [5] C. F. Altmann, K. Ono, A. Callan, M. Matsuhashi, T. Mima and H. Fukuyama, "Environmental
reverberation affects processing o f sound intensity in right tem poral cortex," European Journal of
Neuroscience, vol. 38, pp. 3210 -3220, 2013. [6] P. Zahorik and F. L. Wightman, "Loudness constancy with varying sound source distance," Nature
Neuroscience, vol. 4, pp. 78 -83, 2001. [7] P. Zahorik, "Assessing audito ry distance perception using virtual acoustics," The Journal of the
Acoustical Society of America, vol. 111, pp. 1832 -1846, 2002. [8] H. Mershon D, W. Ballenger, A.D.Little, P. McMurtry and J. Buchanan, "Effects of room
reflectance and background noise on perceived auditory distance," Perception, vol. 18, pp. 403 –
416, 1989. [9] N. Les sard, M. Pare, F. Lepore and M. Lassonde, "On the minimum audible difference in direct –
to-reverberant energy ratio," The Journal of the Acoust ical Society of America, vol. 124, pp. 450 –
461, 2008. [10] R. A. Butler, E. T. Levy and W. D. Neff, "Apparent d istance of sounds recorded in echoic and
anechoic chambers," Journal of Experimental Psychology: Human Perception and Performance,
vol. 6, pp. 745-750, 1980. [11] A. L ittle, D. Mershon and P. Cox, "Spectral content as a cue to perceived auditory distanc e,"
Perception, vol. 21, pp. 405 -416, 1992. [12] N. Kopčo and B. Shinn -Cunningham, "Effect of stimulus spectrum on distance perception for
nearby sources," Journal of the Audio Engineering Society, 2011. [13] M. S. Gordon, F. A. Russo and E. MacDonald, "Spectral information for detection of acoustic time
to arrival," Attention, Perception,Psychophysics, vol. 75, p. 738 –750, 2013. [14] G. Kearney, X. Liu, A. Manns and M. Gorzel, "Auditory Distance Perception with Static and
Dynamic Binaural Rendering," Audio Engineering Society, 2015. [15] A. W. Bronkhorst and T. Houtgast, "Auditory distance percep – tion in rooms," Nature, vol. 397, p.
517–520, 1999.
90 [16] Y. Soeta and S. Nakagawa, "Neurophysiological Cor relate of Binaural Auditory Filter Bandwidth
and Localization Performance Studied by Auditory Evoked Fields," in Advances in Sound
Localization , P. Strumiłło, Ed., InTech, 2011, pp. 3 87-406. [17] T. Potisk, "S eminar Head -Related Transfer Function," 2015. [18] F.-O. B ĂLAN, Contribu ții la percep ția spa țială a sunetelor 3D și la navigarea persoanelor cu
deficien țe de vedere, prin antrenarea bazat ă pe feedback multimodal, 2015. [19] W. Simpson and L. D . Stanton, "Head Movement Does Not Facilitate Perception of the Distance
of a Source of Sound," The American Journal of Psychology, pp. 151 -159, 1973. [20] P. Cochran, J. Throop and W. E. Simpson, “Estimation of Distance of a Source of Sound,” The
Ameri can Journal of Psychology, pp. 198 -206, 1968. [21] J. S. Chan, D. Lisiecka, C. Ennis, C. O'Sullivan and F. N. Newell, "Comparing audiovisual distance
percep tion in various real and virtual environments," in 32nd European Conf erence on Visual
Perception , Regensburg, Germany, 2009. [22] C. I. Cheng and G. H. Wakefield, "Introduction to Head -Related Transfer Functions (HRTFs):
Representations of HRTFs in Time , Frequency, and Space," Audio Engineering Society, vol. 49,
no. 4, p p. 231 -249, April 2001. [23] T. Collins, "Binaural Ambisonic Decoding with Enhanced Lateral Localization," Audio
Engineering Society, pp. 1 -10, 2013. [24] J. M. Speigle and J. M. Lo omis, "Auditory distance perception by translating observers," in IEEE
Symposium on Research Fron tiers in Virtual Reality , San Jose, CA, 1993. [25] D. H. Ashmead, D. L. Davis and A. Northington, "Contribution of listeners' approaching motion to
auditory distance perception," Journal of Experimental Psychology: Human Perc eption and
Performance, vol. 21, p. 239 –256, 1995. [26] W. Teramoto, S. Sakamot o, F. Furune, J. Gyoba and Y. Suzuki, "Compression of auditory space
during forward self -motion," Plos One, vol. 7, 2012. [27] A. A. Ghazanfar, J. G. Neuhoff and N. K. Log othetis, "Auditory looming p erception in rhesus
monkeys," Proceedings of the National Academy of Sciences of the United States of America, vol.
99, p. 15755 –15757, 2002. [28] P. D. Coleman, "Failure to localiz e the source distance of an unfamiliar sound ," The Journal of the
Acoust ical Society of America, vol. 34, p. 345 –346, 1962. [29] D. H. Mershon, W. L. Ballenger, L. A. D. P. L. McMurtry and J. L. Buchanan, "Effects of room
reflectance and background nois e on perceived auditory distance," Perceptio n, vol. 18 , p. 403 –
416, 198 9. [30] L. L. D. C. C. K. N. &. S. A. Hládek, "Ventriloquism effect and aftereffect in the distance
dimension," Proceedings of Meetings on Acoustics, vol. 19, no. 050042, 2013. [31] M. Bujacz, M. Pec, P. Skulimowski, P. St rumillo and A. Materka, "Son ification of 3D Scenes in
an Electronic Travel Aid for the Blind," in Advances in Sound Localization , InTech, 2011, pp. 251 –
268.
91 [32] M. Dellepiane, N. Pietroni, N. Tsingos, M. Assel ot and R. Scopigno, "Reconstructing Head Mod els
from Photographs for Ind ividualized 3D -audio Processing," Comput. Graph. Forum, vol. 27, no.
7, pp. 1719 -1727, 2008. [33] D. Zotkin, J. Hwang, R. Duraiswami and L. Davis, "HRTF Personalization Using Anthro pomentric
Measurements," in Proc. IEEE Works hop on Applications of Signa l Processing to Audio and
Acoustics (WASPAA’03) , 2003. [34] A. Meshram, R. Mehra, H. Yang, E. Dunn, J. Frahm and D. Manocha, "P -HRTF: Efficient
Personalized HRTF Computation for High -Fidelity Spatial Sound," in International Symposium on
Mixed and Augme nted Reality (ISMAR) , Munich, Germany, 2014. [35] R. Sridhar , J. G. Tylka and E. Choueiri, "A Database of Head -Related Transfer Functions and
Morphological Measurements," Audio Engineering Society, 2017. [36] K. Watanabe, Y. Iwaya, Y. Suzuki, S. Taka ne and S. Sato, “Dataset of head -related transfer
functions mea sured with a circular loudspeaker array,” Acoustical Science and Technology, vol.
35, no. 3, pp. 159 -165, 2014. [37] Earfish, "DIY measurement of your personal HR TF at home using an iPhone," 22 Ianuarie 2018.
[Online]. Available: https://www.youtube.com/watch?v=ZkyBkk9Ie6E. [38] P. Majdak, Y. Iwaya, T. Carpentier, R. Nicol and M. Parmentier, "Spatially Oriented Format for
Acoustics: A Data Exchange Format Represe nting Head -Related Transfer Functions," Audio
Engineering Society, 2013. [39] V. R. Algazi, R. O. Duda, D. M. Thompson and C. Avendano, "The CIPIC HRTF database," IEEE
Workshop on Applications of Signal Processing to Audio and Acoustics, pp. 99 -102, 200 1. [40] H. Kayser, S. D. Ewert, J. Anemüller, T. Rohdenburg, V. H ohmann and B. Kollmeier, "Database
of multichannel in -ear and behind -the-ear head -related and binaural room impulse responses,"
EURASIP Journal on Advances in Signal Processing, p. 10, 200 9. [41] D. N. Zotkina, R. Duraiswamib, E. Grassic and N. A. Gumerovd, "Fast head -related transfer
function measurement via reciprocity," The Journal of the Acoustical Society of America, vol. 120,
pp. 2202 -2215, 2006. [42] D. Khaykin and B. Rafaely, "Acoustic a nalysis by spheri cal microphone array processing of room
impulse," The Journal of the Acoustical Society of America, vol. 132, pp. 261 -270, 2012. [43] J. Pätynen, S. Tervo and T. Lokki, "Analysis of concert hall acoustics via visualizations o f time –
frequency and spatiot emporal responses," The Journal of the Acoustical Society of America, vol.
133, pp. 842 -857, 2013. [44] T. P. a. T. L. J. Merimaa, "Concert Hall Impulse Responses – Pori, Finland," 2005. [45] A. Meshram, R. Mehra, H. Yang, E. Dunn, J. -M. Franm and D. Manocha, "P -HRTF: Efficient
Personalized HRTF Computation for High -Fidelity Spatial Sound," in 2014 IEEE International
Symposium on Mixed and Augmented Reality (ISMAR) , 2014. [46] H. Kim, Y. Suzuki, S. Takane and T. Sone, "Co ntrol of au ditory distance b ased on the auditory
parallax model," Applied Acoustics 62, pp. 245 -270, 2001.
92 [47] D. Junius, H. Riedel and B. Kollmeier, "The influence of externalization and spatial cues on the
generation of auditory brainstem responses a nd middle l atency responses, " Hearing Research 225,
pp. 91 -104, 2007. [48] W. Hartmann and A. Wittenberg, "On the externalization of sound images," Journal of the
Acoustical Society of America, vol. 99, no. 6, pp. 3678 -3688, 1996. [49] D. Kistler and F. Wightman, "A model of he ad-related transfer functions based on principal
components analysis and minimum -phase reconstruction," The Journal of the Acoustical Society of
America, vol. 91, pp. 1637 -1647, 1996. [50] P. Minnaar, S. K. Oles en, F. Christe nsen and H. Møller, "Localiz ation with Binaural Recordings
from Artificial and Human Heads," Journal of the Audio Engineering Society, vol. 49, May 2001. [51] A. Lindau and S. Weinzierl, "FABIAN – An instrument for software -based measureme nt of
binaural room," 2006. [52] B. Bore n, M. Geronazzo, F. Brinkmann and E. Choueiri, "Coloration Metrics for Headphone
Equalization," in Int. Conf. on Auditory Display 2015 , Graz, Austria, 2015. [53] Z. Schärer and A. Lindau, "Evaluation of Equaliza tion Methods f or Binaural Signals," Audio
Engineering Society, 2009. [54] H. Møller, D. Hammershøi, C. B. Jensen and M. F. Sørensen, "Transfer Characteristics of
Headphones Measured on Human Ears," Journal of Audio Engineering Society, vol. 43, no. 4, p p.
203-217, 19 95. [55] A. Kulkarni and H. S. Colburn, "Variability in the characterization of the headphone transfer –
function," The Journal of the Acoustical Society of America, vol. 107, pp. 1071 -1074, 2000. [56] K. I. McAnally and R. L. Martin, "Variability in t he headphone -to-ear-canal tr ansfer function," The
Journal of the Acoustical Society of America, vol. 50, pp. 263 -266, 2002. [57] T. Choi, Y. -c. Park and D. -h. Youn, "Efficient Out of Head Localization Sy stem for Mobile
Applications," Journal of the Audi o Engineering Society, 2006. [58] P. Rubak, "Headphone Signal Processing System for Out -of-Head Localization," in 90th Audio
Engineering Society Convention , 1995. [59] N. Sakamoto, T. Gotoh and Y. Kim ura, "On "Out -of-Head Localization" in Headphone L istening,"
Audio Engineering Society, vol. JAES Volume 24 Issue 9, pp. 710 -716, November 1976. [60] E. De Sena, N. Kaplanis, P. Naylor and T. van Waterschoot, "Large -scale auralised sound
localisation ex periment," in AES 60th International Conference , Leuven, Belgium, 2016. [61] M. A. Gerzon, "Ambisonics in Multichannel Broadcasting and Video," Journal of Audio
Engineering Society, vol. 33, pp. 859 -871, 1985. [62] F. Hollerweger, “An Introduction to Higher Order Ambisonic,” 2008. [63] S. SPS422B, "SOUNDFIELD SPS422B Studio Microphone System. User Guide version 2.0,"
2002. [Online]. Available: http://cdn.soundfield.com/assets/downloads/manual/SPS422B –
manual.pdf. [Accessed 31 May 2019] .
93 [64] "Ten Minute Master – SoundField Microphones," 2014. [Onl ine]. [65] "Core Sound Te tra Mic," 2017. [Online]. Available: http://speedvr.co.uk/core -sound -tetra-mic/. [66] "Sennheiser Ambeo VR Mic," 2017. [Online]. Available: https://en –
us.sennhei ser.com/microphone -3d-audio -ambeo -vr-mic. [67] "Rode," 2018. [O nline]. Available: https://w ww.rode.com/microphones/ntsf1. [68] D. Arteaga, "Introduction to Ambisonics," 2018. [69] A. Lindau, H. -J. Maempel and S. Weinzierl, “Minimum BRIR grid resolution for dynamic binaural
synthesis,” in Acoustics '08 Paris , 2008. [70] F. Hollerweger, "An Introduction to Higher Order Ambisonic," 2008. [71] D. Jerome, M. Sebastien and R. Nicol, “Further Investigations of High -Order Ambisonics and
Wavefield Synthesis for Holophonic Sound Imaging,” Audio Engineering Society, 2003 . [72] J. G. Tylka and E. Choueiri, “Comparison of Techniques for Binaural Navigation of Higher -Order
Ambisonic Soundf ields,” Audio Engineering Society, 2015. [73] S. Bertet, J. Daniel and S. Moreau, “3D Sound Field Recording with Higher Order Ambiso nics –
Objective Measurement s and Validation of Spherical Microphone,” Audio Engineering Society,
2006. [74] Accesat în august, 2019. [Online]. Available: Disponibil la adresa: https://www.java.com/en/. [75] Accesat în august 2019. [Online]. Available : Disponibil la https://proc essing.org. [76] "Sonarworks," Accesat în August, 2019. [Online]. Available: https://www.sonarworks.com. [77] "SoundField SPS422B," 2002. [Online]. Available:
http://www.economik.com/soundfield/sps422b/. [78] "Campbell Ass ociates," [Online]. Availabl e: https://www.camp bell-
associates.co.uk/category/kemar -manikins. [79] "Neumann Ku -100," 2006. [Online]. Available: https://en -de.neumann.com/ku -100. [80] "TYPE 4100," 2012. [Online]. Available: https://www.bksv.com/en/produ cts/transducers/ear –
simulato rs/head -and-torso/h ats-type-4100. [81] "HMS II.3 Artificial Head Measurement System Supports Super -Wideband Testing," 2017.
[Online]. Available: https://www.audioxpress.com/news/hms -ii-3-artificial -head -measurement –
system -supp orts-super -wideband -testing. [82] Margo, "The Future of Microphones – Part 1," 12 October 2018. [Online]. Available: http://md –
mics.com/the -future -of-microphones -part-1/. [83] "Ambisonics," sfârșitul anilor '70. [Online]. Available: https://en.wikipedi a.org/wiki/Ambisonics. [84] "Wikimedia Commons," 2007. [Online]. Available:
https://commons.wikimedia.org/wiki/File:Polar_pattern_subcardioid.png.
94
95 Anexe Anexa 1 Codul sursă al aplicației chestionar pentru sunetele înregistrate cu capul binaural. // Global variables import processing.sound.*; import static javax.swing.JOptionPane.*; import ddf.minim.*; import controlP5.*; ControlP5 controlP5; ControlP5 distP5; //float radius = 50.0; int i = 0; boolean runonce=false; Table table; SoundFile file; Minim minim; AudioMetaData meta; AudioPlayer[] track = new AudioPlayer[75]; RadioButton r, d; String radiovalue; String depthval; String id; String sex; String varsta; int tracksleft; final StringList ids = new StringList( new String[] {} ); // Setup the Processing Canvas void setup() { size( 800, 700 ); strokeWeight( 3 ); frameRate( 15 ); ///////////////////// SoundFiles /////////////////////// minim = new Minim(this); //this loads mysong.wav from the data folder track[0] = minim.loadFile("data/Cap/Cap_Sine_1m_0.wav"); track[1] = minim.loadFile("data/Cap/Cap_Fem_2m_330.wav"); track[2] = minim.loadFile("data/Cap/Cap_Drums_4m_60.wav"); track[3] = minim.loadFile("data/Cap/Cap_Sine_2m_240.wav"); track[4] = minim.loadFile("data/Cap/Cap_Drums_1m_0.wav"); track[5] = minim.loadFile("data/Cap/Cap_Fem_4m_60.wav"); track[6] = minim.loadFile("data/Cap/Cap_Guitar_1m_240.wav"); track[7] = minim.loadFile("data/Cap/Cap_Fem_1m_0.wav"); track[8] = minim.loadFile("data/Cap/Cap_Drums_2m_240.wav"); track[9] = minim.loadFile("data/Cap/Cap_Fem_4m_90.wav");
96 track[10] = minim.loadFile("data/Cap/Cap_Guitar_2m_240.wav"); track[11] = minim.loadFile("data/Cap/Cap_Sine_2m_90.wav"); track[12] = minim.loadFile("data/Cap/Cap_Drums_4m_240.wav"); track[13] = minim.loadFile("data/Cap/Cap_Sine_4m_0.wav"); track[14] = minim.loadFile("data/Cap/Cap_Drums_1m_240.wav"); track[15] = minim.loadFile("data/Cap/Cap_Sine_2m_330.wav"); track[16] = minim.loadFile("data/Cap/Cap_Guitar_1m_90.wav"); track[17] = minim.loadFile("data/Cap/Cap_Fem_1m_240.wav"); track[18] = minim.loadFile("data/Cap/Cap_Drums_4m_0.wav"); track[19] = minim.loadFile("data/Cap/Cap_Fem_1m_90.wav"); track[20] = minim.loadFile("data/Cap/Cap_Sine_4m_240.wav"); track[21] = minim.loadFile("data/Cap/Cap_Drums_4m_330.wav"); track[22] = minim.loadFile("data/Cap/Cap_Fem_2m_180.wav"); track[23] = minim.loadFile("data/Cap/Cap_Drums_2m_330.wav"); track[24] = minim.loadFile("data/Cap/Cap_Guitar_1m_180.wav"); track[25] = minim.loadFile("data/Cap/Cap_Sine_2m_0.wav"); track[26] = minim.loadFile("data/Cap/Cap_Fem_4m_0.wav"); track[27] = minim.loadFile("data/Cap/Cap_Guitar_4m_90.wav"); track[28] = minim.loadFile("data/Cap/Cap_Drums_1m_330.wav"); track[29] = minim.loadFile("data/Cap/Cap_Sine_4m_60.wav"); track[30] = minim.loadFile("data/Cap/Cap_Drums_2m_0.wav"); track[31] = minim.loadFile("data/Cap/Cap_Guitar_2m_330.wav"); track[32] = minim.loadFile("data/Cap/Cap_Drums_1m_180.wav"); track[33] = minim.loadFile("data/Cap/Cap_Sine_4m_180.wav"); track[34] = minim.loadFile("data/Cap/Cap_Guitar_2m_90.wav"); track[35] = minim.loadFile("data/Cap/Cap_Fem_4m_330.wav"); track[36] = minim.loadFile("data/Cap/Cap_Guitar_1m_60.wav"); track[37] = minim.loadFile("data/Cap/Cap_Sine_1m_90.wav"); track[38] = minim.loadFile("data/Cap/Cap_Guitar_4m_240.wav"); track[39] = minim.loadFile("data/Cap/Cap_Drums_4m_90.wav");
97 track[40] = minim.loadFile("data/Cap/Cap_Fem_2m_240.wav"); track[41] = minim.loadFile("data/Cap/Cap_Sine_1m_180.wav"); track[42] = minim.loadFile("data/Cap/Cap_Guitar_4m_0.wav"); track[43] = minim.loadFile("data/Cap/Cap_Fem_2m_60.wav"); track[44] = minim.loadFile("data/Cap/Cap_Drums_2m_180.wav"); track[45] = minim.loadFile("data/Cap/Cap_Fem_1m_330.wav"); track[46] = minim.loadFile("data/Cap/Cap_Guitar_1m_330.wav"); track[47] = minim.loadFile("data/Cap/Cap_Sine_2m_60.wav"); track[48] = minim.loadFile("data/Cap/Cap_Fem_2m_90.wav"); track[49] = minim.loadFile("data/Cap/Cap_Guitar_2m_60.wav"); track[50] = minim.loadFile("data/Cap/Cap_Fem_1m_180.wav"); track[51] = minim.loadFile("data/Cap/Cap_Guitar_4m_60.wav"); track[52] = minim.loadFile("data/Cap/Cap_Fem_4m_180.wav"); track[53] = minim.loadFile("data/Cap/Cap_Guitar_2m_0.wav"); track[54] = minim.loadFile("data/Cap/Cap_Sine_1m_60.wav"); track[55] = minim.loadFile("data/Cap/Cap_Drums_1m_90.wav"); track[56] = minim.loadFile("data/Cap/Cap_Guitar_4m_330.wav"); track[57] = minim.loadFile("data/Cap/Cap_Sine_4m_90.wav"); track[58] = minim.loadFile("data/Cap/Cap_Guitar_4m_180.wav"); track[59] = minim.loadFile("data/Cap/Cap_Drums_1m_60.wav"); track[60] = minim.loadFile("data/Cap/Cap_Sine_4m_330.wav"); track[61] = minim.loadFile("data/Cap/Cap_Drums_2m_60.wav"); track[62] = minim.loadFile("data/Cap/Cap_Guitar_1m_0.wav"); track[63] = minim.loadFile("data/Cap/Cap_Sine_1m_330.wav"); track[64] = minim.loadFile("data/Cap/Cap_Drums_4m_180.wav"); track[65] = minim.loadFile("data/Cap/Cap_Fem_1m_60.wav"); track[66] = minim.loadFile("data/Cap/Cap_Drums_2m_90.wav"); track[67] = minim.loadFile("data/Cap/Cap_Sine_2m_180.wav"); track[68] = minim.loadFile("data/Cap/Cap_Fem_4m_240.wav"); track[69] = minim.loadFile("data/Cap/Cap_Guitar_2m_180.wav");
98 track[70] = minim.loadFile("data/Cap/Cap_Sine_1m_240.wav"); track[71] = minim.loadFile("data/Cap/Cap_Fem_2m_0.wav"); track[72] = minim.loadFile("data/Cap/Cap_Fem_2m_0.wav"); //for exist loop only meta = track[i].getMetaData(); ////////////////////// CSV FILE CODE ///////////////////// table = new Table(); table.addColumn("id"); table.addColumn("Nume"); table.addColumn("Sex"); table.addColumn("Varsta"); table.addColumn("Plan Orizontal"); table.addColumn("Plan Vertical"); table.addColumn("Adancime"); table.addColumn("Audio File"); ///////////////////////// ID BOX ///////////////////////// println(ids); id = showInputDialog("Introdu numele tau"); if (id == null) exit(); else if ("".equals(id)) showMessageDialog(null, "Nu ai introdus numele!", "Alert", ERROR_MESSAGE); else { showMessageDialog(null, "Numele \"" + id + "\" a fost adaugat cu succes!", "Info", INFORMATION_MESSAGE); ids.append(id); } sex = showInputDialog("M / F?"); varsta = showInputDialog("Varsta?"); table.setString(0, "Nume", id); table.setString(0, "Sex", sex); table.setString(0, "Varsta", varsta); saveTable(table, "data/"+id+"_chestionar_cap.csv"); //println("saved "+id+"_new.csv"); //confirmation //////////////// RADIO BOX ELEVATIE /////////////////// controlP5 = new ControlP5(this); // CheckBox = multiple choice // RadioButton = single choice // Radio has been deprecated, should not be used anymore r = controlP5.addRadioButton("radio",715, 280); r.setId(12); r.setItemHeight(20); r.setItemWidth(20); r.setItemsPerRow(1); r.setSpacingColumn(5); r.setSpacingRow(15); r.setColorForeground(color(51, 153, 51)); r.setColorBackground(color(255, 153, 0));
99 r.addItem("SUS", 1); r.addItem("CENTRU", 2); r.addItem("JOS", 3); r.setColorActive(color(51, 153, 51)); r.setColorLabel(color(0, 0, 0));//text color //r.activate(1); //Default MIDLE //////////////// RADIO BOX Distanta /////////////////// distP5 = new ControlP5(this); // CheckBox = multiple choice // RadioButton = single choice // Radio has been deprecated, should not be used anymore d = distP5.addRadioButton("radio",35, 280); d.setId(13); d.setItemHeight(20); d.setItemWidth(20); d.setItemsPerRow(1); d.setSpacingColumn(5); d.setSpacingRow(15); d.setColorForeground(color(51, 153, 51)); d.setColorBackground(color(255, 153, 0)); d.addItem("APROPIAT", 1); d.addItem("DEPARTE", 2); d.addItem("FOARTE DEPARTE", 3); d.setColorActive(color(51, 153, 51)); d.setColorLabel(color(0, 0, 0));//text color //d.activate(0); //Default Apropiat } ///////////////////// Main DRAW loop ///////////////////// void draw() { // Fill canvas grey background( 200 ); // Loads Image PImage img; img = loadImage("circle-degrees_cap.jpg"); imageMode(CORNER); image(img, 0,0); // DISPLAY TEXT fill(0, 102, 153); // Text color tracksleft = 72-i; text("Tracks Left: " + tracksleft+"/72", 47, 170); //afiseaza cate track mai sunt ramase //text("File Name: " + meta.fileName(), 35, 170); //afiseaza numele fisierelor // Set fill-color to orange fill( 255, 153, 51 ); // Draw circle ellipse( 400, 160, 30, 30 ); //0 ellipse( 529, 194, 30, 30 ); //30
100 ellipse( 626, 289, 30, 30 ); //60 ellipse( 660, 415, 30, 30 ); //90 ellipse( 629, 540, 30, 30 ); //120 ellipse( 531, 634, 30, 30 ); //150 ellipse( 399, 669, 30, 30 ); //180 ellipse( 270, 635, 30, 30 ); //210 ellipse( 172, 540, 30, 30 ); //240 ellipse( 138, 415, 30, 30 ); //270 ellipse( 177, 287, 30, 30 ); //300 ellipse( 266, 194, 30, 30 ); //330 //text("x: "+mouseX+" y: "+mouseY, 10, 15); //see x,y coordinates of cursor on screen } //// Radio Box Print void controlEvent(ControlEvent theEvent) { if(theEvent.isFrom(r)) { if(theEvent.getValue() == 1.0){ radiovalue = "SUS"; println("\nRadioValue ", radiovalue); } if(theEvent.getValue() == 2.0){ radiovalue = "CENTRU"; println("\nRadioValue ", radiovalue); } if(theEvent.getValue() == 3.0){ radiovalue = "JOS"; println("\nRadioValue ", radiovalue); } } if(theEvent.isFrom(d)) { if(theEvent.getValue() == 1.0){ depthval = "APROAPE"; println("\nDepthValue ", depthval); } if(theEvent.getValue() == 2.0){ depthval = "DEPARTE"; println("\nDepthValue ", depthval); } if(theEvent.getValue() == 3.0){ depthval = "FOARTE DEPARTE";
101 println("\nDepthValue ", depthval); } } //// } // Mouse click event void mousePressed() { if (mouseX > 55 && mouseX < 92 && mouseY > 110 && mouseY < 146) { track[i].play(); track[i].rewind(); print("PLAY"); } if (mouseX > 109 && mouseX < 147 && mouseY > 108 && mouseY < 146 && track[i].position() == track[i].length() ) { i = i+1; print("NEXT"); meta = track[i].getMetaData(); TableRow newRow = table.addRow(); // newRow.setString("Audio File", meta.fileName()); //audiofile newRow.setString("Plan Vertical", radiovalue); //elevatie newRow.setString("Adancime", depthval); //adancime newRow.setString("Nume", "Last Comand"); } ////////// Break Alert Box ////////////// if (i == 36 && runonce == false) { runonce = true; println ("Run Once"); showMessageDialog (null, "Ia o pauza!", "Alert", ERROR_MESSAGE); println ("Break Time"); } ////////// Exit Loop Alert Box ////////////// if (i == 72) { showMessageDialog (null, "Final!", "Alert", ERROR_MESSAGE); println ("final stop"); track[i].close(); exit(); } if (mouseX > 383 && mouseX < 417 && mouseY > 143 && mouseY < 176) { stroke(51, 153, 51); print("0°"); TableRow newRow = table.addRow(); newRow.setInt("id", table.getRowCount() -1);
102 newRow.setString("Plan Orizontal", "0 grade"); newRow.setString("Audio File", meta.fileName()); //audiofile newRow.setString("Plan Vertical", radiovalue); //elevatie newRow.setString("Adancime", depthval); //adancime } if (mouseX > 513 && mouseX < 546 && mouseY > 177 && mouseY < 211) { stroke(51, 153, 51); print("30°"); TableRow newRow = table.addRow(); newRow.setInt("id", table.getRowCount() -1); newRow.setString("Plan Orizontal", "30 grade"); newRow.setString("Audio File", meta.fileName()); //audiofile newRow.setString("Plan Vertical", radiovalue); //elevatie newRow.setString("Adancime", depthval); //adancime } if (mouseX > 609 && mouseX < 644 && mouseY > 271 && mouseY < 309) { stroke(51, 153, 51); print("60°"); TableRow newRow = table.addRow(); newRow.setInt("id", table.getRowCount() -1); newRow.setString("Plan Orizontal", "60 grade"); newRow.setString("Audio File", meta.fileName()); //audiofile newRow.setString("Plan Vertical", radiovalue); //elevatie newRow.setString("Adancime", depthval); //adancime } if (mouseX > 644 && mouseX < 677 && mouseY > 398 && mouseY < 432) { stroke(51, 153, 51); print("90°"); TableRow newRow = table.addRow(); newRow.setInt("id", table.getRowCount() -1); newRow.setString("Plan Orizontal", "90 grade"); newRow.setString("Audio File", meta.fileName()); //audiofile newRow.setString("Plan Vertical", radiovalue); //elevatie newRow.setString("Adancime", depthval); //adancime } if (mouseX > 614 && mouseX < 646 && mouseY > 523 && mouseY < 557) { stroke(51, 153, 51); print("120°"); TableRow newRow = table.addRow(); newRow.setInt("id", table.getRowCount() -1); newRow.setString("Plan Orizontal", "120 grade"); newRow.setString("Audio File", meta.fileName()); //audiofile newRow.setString("Plan Vertical", radiovalue); //elevatie newRow.setString("Adancime", depthval); //adancime
103 } if (mouseX > 514 && mouseX < 548 && mouseY > 617 && mouseY < 650) { stroke(51, 153, 51); print("150°"); TableRow newRow = table.addRow(); newRow.setInt("id", table.getRowCount() -1); newRow.setString("Plan Orizontal", "150 grade"); newRow.setString("Audio File", meta.fileName()); //audiofile newRow.setString("Plan Vertical", radiovalue); //elevatie newRow.setString("Adancime", depthval); //adancime } if (mouseX > 383 && mouseX < 416 && mouseY > 653 && mouseY < 685) { stroke(51, 153, 51); print("180°"); TableRow newRow = table.addRow(); newRow.setInt("id", table.getRowCount() -1); newRow.setString("Plan Orizontal", "180 grade"); newRow.setString("Audio File", meta.fileName()); //audiofile newRow.setString("Plan Vertical", radiovalue); //elevatie newRow.setString("Adancime", depthval); //adancime } if (mouseX > 254 && mouseX < 287 && mouseY > 619 && mouseY < 651) { stroke(51, 153, 51); print("210°"); TableRow newRow = table.addRow(); newRow.setInt("id", table.getRowCount() -1); newRow.setString("Plan Orizontal", "210 grade"); newRow.setString("Audio File", meta.fileName()); //audiofile newRow.setString("Plan Vertical", radiovalue); //elevatie newRow.setString("Adancime", depthval); //adancime } if (mouseX > 155 && mouseX < 189 && mouseY > 523 && mouseY < 557) { stroke(51, 153, 51); print("240°"); TableRow newRow = table.addRow(); newRow.setInt("id", table.getRowCount() -1); newRow.setString("Plan Orizontal", "240 grade"); newRow.setString("Audio File", meta.fileName()); //audiofile newRow.setString("Plan Vertical", radiovalue); //elevatie newRow.setString("Adancime", depthval); //adancime } if (mouseX > 121 && mouseX < 154 && mouseY > 398 && mouseY < 431) { stroke(51, 153, 51); print("270°");
104 TableRow newRow = table.addRow(); newRow.setInt("id", table.getRowCount() -1); newRow.setString("Plan Orizontal", "270 grade"); newRow.setString("Audio File", meta.fileName()); //audiofile newRow.setString("Plan Vertical", radiovalue); //elevatie newRow.setString("Adancime", depthval); //adancime } if (mouseX > 161 && mouseX < 193 && mouseY > 270 && mouseY < 303) { stroke(51, 153, 51); print("300°"); TableRow newRow = table.addRow(); newRow.setInt("id", table.getRowCount() -1); newRow.setString("Plan Orizontal", "300 grade"); newRow.setString("Audio File", meta.fileName()); //audiofile newRow.setString("Plan Vertical", radiovalue); //elevatie newRow.setString("Adancime", depthval); //adancime } if (mouseX > 250 && mouseX < 282 && mouseY > 177 && mouseY < 211) { stroke(51, 153, 51); print("330°"); TableRow newRow = table.addRow(); newRow.setInt("id", table.getRowCount() -1); newRow.setString("Plan Orizontal", "330 grade"); newRow.setString("Audio File", meta.fileName()); //audiofile newRow.setString("Plan Vertical", radiovalue); //elevatie newRow.setString("Adancime", depthval); //adancime } saveTable(table, "data/"+id+"_chestionar_cap.csv"); } void mouseReleased () { stroke(0); }
105 Anexa 2 Captură de ecran a programului Adobe Audition CC cu o parte dintre sunetele înregistrate la CINETIc. Fișierele audio sunt grupate pe perechi, reprezentând informația audio înregistrată de receptorii Stâng (L) și Drept (R).
106 Anexa 3 Captură de ecran a fișierului .CSV exportat de aplicația quiz realizată în Processing.
107 Anexa 4 Tabelul cu răspunsurile date de participanții la experiment pentru Azimut.
Tabelul cu procentele de acuratețe în planul orizontal în cazul fiecărui microfon pentru cele patru sunete.
CAPORTFSOUNDFIELDSin17.4%22.9%32.6%Fem33.3%32.6%30.6%Guitar27.1%34.7%29.2%Drums25.0%25.0%26.4%TOTAL25.7%28.8%29.7%Acuratețe Azimut (X)
Valorile mari indică performanțe mai bune.
108 Anexa 5 Tabelul cu răspunsurile date de participanții la experiment pentru Adâncime.
Tabelul cu procentele de acuratețe a adâncimii în cazul fiecărui microfon pentru cele patru sunete.
Valorile mari indică performanțe mai bune.
109 Anexa 6 Tabelul cu răspunsurile date de participanții la experiment pentru Elevație.
Tabelul cu procentele de acuratețe a elevației în cazul fiecărui microfon pentru cele patru sunete.
Valorile mari indică performanțe mai bune.
110 Anexa 7 Tabelul cu procentul confuziilor față-spate obținut de fiecare participant pentru fiecare sunet redat în funcție de cele trei microfoane.
Tabelul cu procentele de confuzii față-spate în azimut în cazul fiecărui microfon pentru cele patru sunete.
Valorile mici indică performanțe mai bune.
111 Anexa 8 Tabelul cu procentul confuziilor stânga-dreapta obținut de fiecare participant pentru fiecare sunet redat în funcție de cele trei microfoane.
Tabelul cu procentele de confuzii stânga-dreapta în azimut în cazul fiecărui microfon pentru cele patru sunete.
Valorile mici indică performanțe mai bune.
112 Anexa 9 Tabelul cu procentul erorilor mici, cu o abatare de ±30° față de unghiul initial, în azimut, de redare obținut de fiecare participant pentru fiecare sunet redat în funcție de cele trei microfoane.
Tabelul procentul erorilor mici, cu o abatare de ±30° în azimut în cazul fiecărui microfon pentru cele patru sunete.
Valorile mici indică performanțe mai bune.
113 Anexa 10 Tabelul cu procentul erorilor mari, cu o abatare de >60° față de unghiul initial, în azimut, de redare obținut de fiecare participant pentru fiecare sunet redat în funcție de cele trei microfoane.
Tabelul procentul erorilor mari, cu o abatare de >60° în azimut în cazul fiecărui microfon pentru cele patru sunete.
Valorile mici indică performanțe mai bune.
114 Anexa 11 Tabelul cu procentul obținut din adunarea rezultatelor din tabelul acuratețe azimut cu cele din tabelul erorilor mici de fiecare participant pentru fiecare sunet redat în funcție de cele trei microfoane.
Tabelul cu procentul obținut din adunarea rezultatelor din tabelul acuratețe azimut în cazul fiecărui microfon pentru cele patru sunete.
Valorile mari indică performanțe mai bune.
115 Anexa 12 Tabelul cu procentul de localizare perfectă, identic pentru cele trei planuri, înregistrat de subiecții experimentului pentru fiecare sunet redat în funcție de cele trei microfoane.
Tabelul cu procentul de localizare perfectă, identic pentru cele trei planuri în cazul fiecărui microfon pentru cele patru sunete.
Valorile mari indică performanțe mai bune.
Copyright Notice
© Licențiada.org respectă drepturile de proprietate intelectuală și așteaptă ca toți utilizatorii să facă același lucru. Dacă consideri că un conținut de pe site încalcă drepturile tale de autor, te rugăm să trimiți o notificare DMCA.
Acest articol: Prof. Dr. Ing. Cristian NEGRESCU [622684] (ID: 622684)
Dacă considerați că acest conținut vă încalcă drepturile de autor, vă rugăm să depuneți o cerere pe pagina noastră Copyright Takedown.
