Cercetări Privind Modalităti DE Echilibrare Si Optimizare A Transferului Informational

Dr.fiz.ing. Valentin Eugen GHIȘA

TEZĂ DE DOCTORAT

Conducător științific:

Prof. Dr. ing. Sorin Aurel Moraru

BRAȘOV, 2016

Investește în oameni!

FONDUL SOCIAL EUROPEAN

Programul Operațional Sectorial Dezvoltarea Resurselor Umane 2007 – 2013

Axa prioritară 1 „Educație și formare profesională în sprijinul creșterii economice și dezvoltării societății bazate pe cunoaștere”

Domeniul major de intervenție 1.5. „Programe doctorale și post-doctorale în sprijinul cercetării”

Titlul proiectului: Burse doctorale si postdoctorale pentru cercetare de excelenta

Numărul de identificare al contractului: POSDRU/159/1.5/S/134378

Beneficiar: Universitatea Transilvania din Brașov

Dr.fiz.ing.Valentin Eugen GHIȘA

TEZĂ DE DOCTORAT

Titlu: CERCETĂRI PRIVIND MODALITĂȚI DE ECHILIBRARE ȘI OPTIMIZARE A TRANSFERULUI INFORMAȚIONAL

Title: RESEARCH ON THE WAYS OF BALANCING AND
IMPROVING THE INFORMATIONAL TRANSFER

Domeniul de doctorat: Calculatoare și Tehnologia Informației

Comisia de analiză a tezei

Data susținerii: 25.03.2016

Mențiuni

Această teză de doctorat reprezintă rezultatul cercetărilor efectuate în perioada 2012 – 2015 în domeniul Calculatoare și Tehnologia Informației în cadrul Universității Transilvania din Brașov. În perioada menționată am beneficiat de o bursă doctorală prin proiectul: „Burse doctorale și postdoctorale pentru cercetare de excelență” POSDRU/159/1.5/S/134378

Cuprins

Introducere 8

Cap. 1. stadiul actual al cercetărilor în domeniul analizei vorbirii 12

1.1. analiza vorbirii 12

1.2. Segmentarea fonetică a vorbirii – phonetic segmentation of speech – pss 14

1.3. recunoașterea tiparelor vocale – accent speaker recognition – asdr 19

1.4. tehnici utilizate în evaluarea rostirii 20

1.5. algoritmi și metode actuale de sinteză vocală 24

1.6. metode actuale de analiză și sinteză prozodică 27

1.7. metode și tehnici noi de sentiment analysis – opinion mining 32

1.8. concluzii 36

Cap. 2. tehnici de analiză în speech recognition și data mining 39

2.1. speech recognition și modelarea limbajului natural 39

2.2. direcții principale de cercetare în domeniul procesării limbajului natural 40

2.3. realizări recente în domeniul sistemelor de conversie voce-text 43

2.4. particularități ale unui sistem automat de speech analysis 44

2.5. limite structurale ale implementării sistemelor de speech recognition 45

2.6. utilizarea rna în procesarea semnalelor și limbajului prin algoritmi de învățare 46

2.7. concepte și tehnici utilizate în data mining 48

2.8. modele data mining cu aplicabilitate în baze de date tranzacționale 50

2.9. combinarea algoritmilor genetici cu metoda fp-growth în pattern recognition și text mining 51

2.10. aplicabilitatea metodelor de învățare bayesiană în optimizarea transferului informațional 53

2.11. concluzii 55

Cap. 3. transmisia informației în mediul radiofonic 57

3.1. particularități ale comunicării de tip radiofonic 57

3.2. caracteristici acustice și fonologice ale semnalului vocal 58

3.3. elemente de transmisie și prelucrare radiofonică a semnalului vocal 62

3.3.1 aspecte teoretice privind sistemele acustice 62

3.3.2 Semnalul de radiofrecvență 63

3.3.3 Prelucrarea semnalelor în telecomunicații 64

3.3.4 transmisia radiofonică 67

3.3.5 caracteristicile utile și percepția semnalului sonor 70

Cap. 4. optimizarea transferului informațional 74

4.1. elemente de teoria informației 74

4.1.1 informația și mesajul 74

4.1.2 Entropia unei variabile aleatoare discrete 76

4.1.3 Conceptul de utilitate a informației 77

4.1.4 Entropia ponderată Guiașu 78

4.1.5 Corelația informațională 79

4.2 Metode și algoritmi de optimizare informațională 83

4.2.1 Utilizarea metodelor operaționale la problemele de optimizare 83

4.2.2 Programarea matematică 85

4.2.3 Caracterizarea optimului în metodele de Programare Convexă 86

4.2.4 Criterii de optimalitate în programarea stochastică 88

4.2.5 Metode de optimizare prin estimare 89

4.2.6 Optimizarea proceselor în prezența restricțiilor 95

4.2.7 metode de căutare numerică a optimului 96

4.2.8 Metoda de evaluare a optimului prin interpolare 100

4.2.9 Metoda Rosenbrock 101

4.2.10 metode de gradient 102

4.2.11 direcții teoretice de cercetare 104

4.2.12 Algoritm hibrid pentru optimizare cu restricții 106

4.3 optimizarea expresivității comunicării prin control prozodic dinamic 108

4.3.1 pregătirea corpusului 110

4.3.2 etichetarea și analiza 111

4.3.3 modelul modificării liniare – lmm 112

4.3.4 metoda de conversie prozodică 114

4.3.5 optimizare prozodică prin control dinamic a modelului de pitch 116

4.3.6 optimizarea nivelului de emisie informațională 120

4.3.7 echilibru și câștig în strategiile de transfer informațional 122

4.3.8 concluzii 129

Cap. 5. Metode de analiză statistică a informației 132

5.1. analiza statistică 132

5.2. Etape și procedee specifice metodei statistice 133

5.3. Indicatori statistici 134

5.4. Metode de studiu a legăturilor statistice 135

5.4.1 analiza de varianță (anova) 135

5.4.2 metoda regresiei 136

5.4.3 metoda corelației 139

5.4.4 indicatori sintetici ai corelației 140

5.5. analiza corelațională și regresională a rostirii radiofonice 141

5.5.1 descrierea aplicației spss 141

5.5.2 Calcularea indicatorilor statistici descriptivi 143

5.5.3 Teste parametrice 144

5.5.4 regresia liniară 149

5.6. niveluri ale intercorelării unor parametri vocali implicați în comunicarea informațiilor 150

5.7. analiza predictivă a unor parametri vocali prin metoda regresiei liniare multiple 156

5.8. optimizarea modelării proceselor informaționale prin studiul corelației parametrilor vocali 164

5.9. optimizarea comunicării vocale prin studiul entropiei și energiei informaționale 170

Cap. 6. CONCLUZII finale, contribuții originale, direcții viitoare de

cercetare și diseminarea rezultatelor 183

BIBLIOGRAFIE 192

LISTĂ REFERINȚE FIGURI 201

REZUMAT / ABSTRACT 202

CURRICULUM VITA E RO – EN 203

Lista cu figuri

Fig. 1 Schema unui sistem de analiză a vorbirii

Fig. 2 Vizualizarea undei sonore prin aplicația PRAAT

Fig. 3 Model hibrid gaussian GMM

Fig. 4 Schema bloc a unui sintetizator vocal

Fig. 5 Interfața pentru operarea/vizualizarea parametrilor vocali la sintetizatorul Klatt

Fig. 6 Forma undei sonore

Fig. 7 Alinierea prin metoda Dynamic Time Warping

Fig. 8 Integrarea metodei NSM într-un sistem TTS

Fig. 9 (a) Cadru de semnal vocal brut, (b) valori spectru AMDF, (c) valori spectru MAMDF

Fig. 10 Fereastra de lucru a aplicației PRAAT

Fig. 11 Reprezentarea prin nuanțare spectrală a gamei de expresie emoțională

Fig. 12 Model tipic de Analiză a Sentimentelor/Emoțiilor

Fig. 13 Schema logică a sistemului de analiză și conversie a expresiei emoționale

Fig. 14 Analiza LTAS a fonemului

Fig. 15 Arhitectura unui sistem de speech recognition

Fig. 16 Model neuronal de tip McCulloch & Pitts

Fig. 17 Operator crossover cu un singur punct de combinare

Fig. 18 Organul fonator uman: (a) schemă echivalentă; (b) reprezentare anatomică

Fig. 19 Clasificarea vocalelor conform aperturii, zonei de articulare și rotunjimii

Fig. 20 Schema unui amplificator de microfon

Fig. 21 Eșantionarea semnalului s(t)

Fig. 22 Operatia de cuantizare

Fig. 23 Obținerea semnalului PCM

Fig. 24 Lanț de transmisie în radiodifuziune

Fig. 25 Reprezentarea formanților din spectrul unui semnal vocal

Fig. 26 (a) Domeniul de percepție auditivă, (b) Reprezentarea sistemului auditiv uman

Fig. 27 Schema algoritmului UNIPLEX

Fig. 28 Caracteristicile de performanță ale unor algoritmi de căutare directă a optimului

Fig. 29 Diagrama unui sistem de tip Text-To-Speech

Fig. 30 Modelul pitch-ului țintă

Fig. 31 Ridicarea unei drepte de regresie

Fig. 32 a) și b) Graficul corelației a două variabile aleatoare; c) Graficul reparției bivariate

Fig. 33 Reprezentarea testului z

Fig. 34 Testul t – eșantioane independente

Fig. 35 Testul t – eșantioane dependente

Fig. 36 Reprezentarea corelațiilor în SPSS

Fig. 37 Afișarea regresiei liniare în SPSS

Fig. 38 Afișarea dreptei de regresie în SPSS

Fig. 39 Histogramele repartiției variabilelor studiate

Fig. 40 Graficele corelațiilor

Fig. 41 Graficele 2D și 3D de regresie

Fig. 42 Graficele 2D și 3D de regresie_2

Fig. 43 Modelul liniar de predicție

Fig. 44.1-8 Graficele corelațiilor între parametri vocali

Fig. 45.1-9 Curba de regresie pentru parametri de proces

Lista tabele

Tabelul 1 Clasificarea consoanelor limbii române

Tabelul 2 Benzile de radiofrecvență

Tabelul 3 Intervale de variație a primilor trei formanți pentru unele vocale din limba română

Tabelul 4 Nivele ale intensității sonore pentru surse de referință

Tabelul 5 Valorile medii ale fluctuației frecvenței fundamentale F0 pentru nivel emoțional puternic

Tabelul 6 Scara de transformare a parametrilor prozodici de la nivelul emoțional neutru la cel puternic

Tabelul 7 Valorile medii și abaterile standard ale parametrilor de pitch simplificat

Tabelul 8 Codificări ale variabilelor studiate

Tabelul 9 Statistici descriptive

Tabelul 10 Matricea de corelație

Tabelul 11 Matricea de corelație

Tabelul 12 Descriptive Statistics

Tabelul 13 Model Summary

Tabelul 14 Analiza dispersională ANOVA

Tabelul 15 Descriptive Statistics

Tabelul 40 ANOVA

Tabelul 16 Model Summary

Tabelul 17 ANOVA

Tabelul 18 valori ale variabilelor independente IS și NEV

Tabelul 19 Variabile de bază

Tabelul 20 Parametri vocali derivați

Tabelul 21 Statistici descriptive

Tabelul 22 Matricea de corelație

Tabelul 23 Variabile de bază pentru înregistrarile audio

Tabelul 24 Parametri derivați si entropiile ponderate

Tabelul 25 Rezultatele entropiei ponderate

Tabelul 26 Corelația Pearson (NCE, NEE)

Tabelul 27 Corelația Pearson (NCE, VL)

Tabelul 26 Corelația Pearson (NCE, SF)

Tabelul 27 Corelația Pearson (NCE, VL)

Tabelul 28 Corelația Pearson

Tabelul 29 Model Summary

Tabelul 30 ANOVA

Tabelul 31 Coefficients

Tabelul 32 Residuals Statistics

Tabelul 33 Nivele de corelație dintre entropia ponderată și parametrii de proces

Tabelul 34 Model Summary

Tabelul 35 ANOVA

Tabelul 36 Coefficients

Tabelul 37 Corelatia Pearson (TH, VT)

Tabelul 38 Corelatia Pearson

Tabelul 39 Model Summary

Tabelul 41 Coefficients

Tabelul 42 Model summary

Introducere

Limbajul este parte integrantă a ființei umane, ea reprezintă chiar baza vieții sociale. Viața în comunitatea socială presupune în mod inerent comunicarea interumană, iar limbajul este o creație care ne ajută să realizăm, corect și eficient, acest lucru. Practic, oamenii nu acționează prin intermediul limbajului asupra obiectelor ci, în mod aproape exclusiv, asupra celorlalți oameni. De asemenea, în comunicarea prin intermediul limbajului sunt prezente și stările afective care influențează actul transmiterii verbale a informației, manifestându-se sub formă paraverbală și nonverbală. Tot limbajul ne permite să împărtășim experiențe dintre cele mai diverse și să comunicăm idei abstracte, să înțelegem și să ne facem înțeleși. Limbajul este totuși prea lent pentru a fi în stare să exprime toate informațiile despre o anumită experiență, astfel încât trebuie să selectăm informație pentru a comunica, chiar dacă aceasta înseamnă să omitem multe aspecte. Limbajul generalizează aplicând norme provenite de la experiențe izolate unui cadru al realității mult mai larg și complex. Dificultatea studiului unui limbaj rezidă în dinamica sa, în faptul că acesta suferă modificări rapide în timp și spațiu. Limbajul natural este guvernat în funcționalitatea lui de anumite convenții și norme structurale care însoțesc exprimarea unui mesaj în procesul comunicării. Astfel, acestea se referă la regulile gramatical-lexicale care sunt relativ stabile în timp, normele fonetice, morfologice și etimologice, responsabile de construcția cuvintelor și cele privitoare la constructele specifice actului vorbirii folosite ca exprimări mecanice, stereotipice. Flexibilitatea nivelului semantic acordă o anumită toleranță față de gradul de respectare a acestor convenții și norme.

Totodată limbajul deformează experiența, conferă o greutate sporită unor elemente și minimalizează pe altele. Limbajul este în esență un sistem complex de reprezentare. Totuși, limbajul nu este un sistem de reprezentare primar, adică nu reprezintă o experiență primară, nemijlocită, ca alte experiențe senzoriale. Limbajul este transmis prin sunete.

La rândul ei limba a luat ființă doar din momentul în care structurile sonore emise din instinct au început să genereze și să organizeze o anumită dimensiune psihică. La nivelul conștiinței, limba este concepută ca o reflectare a structurii sonore a mesajului receptat, structură convertită într-un semnificant aflat în corespondență cu un semnificat, acest binom existențial constituind semnificația [1]. Limba conține în sine o identitate duală datorată autoorganizării în plan semantic și al expresiei. Limba guvernează parțial resursele gândirii pe care le convertește în conținut semantic. Totodată transformă, prin setul de reguli pe care îl impune, structura sonoră în expresie. Astfel, conștiința lingvistică a participantului la actul de comunicare verbală, simte fluxul sonor ca pe un complex de combinații fonice, cu valoare minimală. Sunetele generate în procesul vorbirii apar ca niște cuante sonore absolut necesare în procesul de formare a unităților lingvistice – morfeme, silabe, cuvinte, propoziții, structuri frazeologice – astfel ,,fonetica se găsește într-o foarte strânsă legătură cu toate celelalte compartimente lingvistice” [2]. Această strânsă legătură se realizează doar prin intermediul unităților fonetice segmentale (fonemele) și suprasegmentale (accentul, intonația). Acestea din urmă ,,sunt capabile să diferențieze cuvinte și forme gramaticale, adică să servească scopului comunicării între oameni”, afirma marele lingvist rus L.V. Ščerba. Astfel legătura dintre fonetică și lexicologie se stabilește prin aceea că unitățile fonetice – fonemele, accentul – au capacitatea de a schimba sensul unui cuvânt, cu alte cuvinte îndeplinesc în limbă o funcție semantică distinctivă. În concepția lui Ferdinad de Saussure semnul lingvistic se definește prin două laturi – imaginea acustică și sensul – ambele având un clar caracter psihic. ,,Asociaționismul lui Locke concepe independent idea (semnificația) dar cu particularități relaționale: uzul cuvintelor se raportează la o conexiune între idei și sunete articulate”[1].

Pe mesaj se bazează totalitatea comunicărilor, în primul rând interumane. Mesajul asigură direcția și coerența actului de comunicare. Mesajul trebuie să-și atingă ținta. Structură de bază a discursurilor, el este menit să fie reluat în mod regulat de către fiecare emițător de comunicare. Formularea mesajului trebuie să se efectueze cu deosebită atenție, căci acesta formează conținutul vorbirii direcționate oricare i-ar fi locul de emitere și publicul căruia i se adresează. Caracteristicile intrinseci ale unui bun mesaj trebuie să fie coerența, inteligibilitatea, adaptabilitatea și originalitatea. Ca să poată aspira la eficiență, mesajul trebuie să se singularizeze pentru a fi remarcat, memorat și atribuit. Totodată, un mesaj cu impact va fi cel care va fi structurat echilibrat din punct de vedere parametric, mesajele asimetrice, din perspectivă lingvistică dar și fonetică, riscând să nu își atingă nici pe departe scopul. Un mesaj care nu intră în rezonanță cu o identitate riscă să fie respins [3].

Interesul tot mai mare de care se bucură studiul limbii vorbite este justificat prin volumul impresionant de aplicații. O serie de aplicații interesante vizează o mai bună adaptare a discursului la situația de comunicare ori studiul aspectelor etnopragmatice și predarea comparată a limbilor străine. Mai mult, foarte importante sunt cele care au în vedere astăzi recunoașterea vocală și perfecționarea interacțiunii om – mașină, plecând de la interacțiunea verbală interumană. Sinteza și recunoașterea vocală – atât de necesare pentru saltul de la interfața grafică a comunicării dintre om și inteligența artificială la o interacțiune fondată pe comandă vocală, dar și alte aplicații extralingvistice, depind într-o măsură covârșitoare de corpusuri de limbă vorbită și de procesarea acestora computerizată. Pentru a reuși în acest demers este necesar pentru fiecare limbă, nu doar de existența unui corpus de limbă vorbită și de transcrierea sa ci și de descrierea și clasificarea parametrilor acustici și vocali specifici sunetelor respectivei limbi.

Procesarea semnalelor vocale se distinge în ultimii ani ca o direcție de cercetare importantă datorită implicațiilor pe care le are asupra domeniilor medical, fonologic, tehnologiei vorbirii, telecomunicațiilor ori lingvistic. Modelarea din punct de vedere lingvistic și fonologic a semnalelor vocale vizează analizarea principalelor elemente care au impact asupra prozodiei și elaborarea de modele prozodice. În domeniul medical aplicațiile bazate pe procesarea semnalului vocal vizează evidențierea diferențelor dintre vocile unui organism supus unei patologii și cele normale, posibilitatea de recuperare a pacienților cu afecțiuni neurologice sau analiza vocilor profesionale (actori, jurnaliști, soliști e.t.c). De asemenea domeniul tehnologiei vorbirii utilizează rezultatele cercetărilor din domeniile procesării limbajului natural, al modelării prozodice și emoționale precum și al procesării de semnale.

Printre aplicațiile importante rezultate se pot menționa cele referitoare la recunoașterea și sinteza vocală și înglobarea acestora în sistemele de dialog om-mașină (de comandă vocală). Valorile trăsăturilor utilizate în analiza semnalului vocal în domeniul timp pot fi direct determinate din unda vocală sau derivat din aceasta, respectiv energia semnalului, frecvența fundamentală, frecvența trecerilor prin zero, valorile componentelor armonice și aleatorii din semnalul vocal. În afara acestora, în practică, se mai utilizează caracterizarea semnalului vocal prin coeficienții de predicție liniară care rezultă printr-o modelare liniară a acestuia. În domeniul frecvență semnalul vocal se analizează prin frecvența fundamentală, energia în benzile de frecvență, modelări locale la nivelul unităților segmentale care compun unda vocală precum și benzile de frecvență ale componentelor de zgomot. Modelarea aspectelor prozodice vizează identificarea unor pattern-uri și a unor reguli care să descrie evoluția în timp a elementelor prozodice extrase din semnalul vocal.

Teza este structurată astfel încât să atingă două obiective principale:

O.1. Primul dintre obiectivele principale al tezei se referă, în primul rând, la analizarea și generarea unui model de optimizare teoretică a expresivității comunicării prin control prozodic dinamic. Modelul de optimizare propus se încadrează în clasa modelelor nederivative, a celor folosite în situația existenței unui număr relativ mic de variabile. Algoritmul hibrid pentru optimizare cu restricții este elaborat mai întâi ca model teoretic de optimizare bazat pe condițiile de optimalitate Karush-Tucker-Kuhn căruia i s-a cuplat un algoritm de tip Newton amortizat. Ulterior se urmărește aplicarea pentru cazul concret al modelului de pitch-țintă a rostirii radiofonice a unei metode de control optimal de tip dinamic.

O.2. A doua direcție principală de cercetare vizează aplicarea unor metode de analiză statistică regresională pentru determinarea modului și gradului în care corelează o serie de parametri vocali prezenți în câmpul comunicării unidirecționale de tip radiofonic. Acești parametri acustici și vocali, atât fundamentali cât și derivați, sunt tratați din punct de vedere al identificării și cuantificării gradului de interdependență dintre aceștia, în contextul în care, inclusiv din punct de vedere prozodic și compozițional, mesajul de tip radiofonic este condiționat de un mediu de comunicare liber dar totodată, concurențial.

Teza este structurată pe un număr de șase capitole:

Capitolul 1 – Evidențiază o serie de rezultate și implementări actuale care au legătură directă cu tema de cercetare doctorală. Sunt trecute în revistă și analizate pe scurt o serie de aspecte din cadrul Analizei vorbirii, respectiv Recunoașterea vorbirii și Sinteza vorbirii. Sunt atinse subiecte referitoare la diverse soluții ale tehnicilor de segmentare a vorbirii, enumerarea descriptivă a câtorva corpusuri de limbă utilizate în speech recognition. De asemenea se analizează o serie de tehnici utilizate în evaluarea rostirii generative și discriminative independente de text dar și unele metode recente de analiză și sinteză prozodică. Tot în acest capitol sunt analizate unele aplicații de analiză și conversie a expresiei emoționale, în zona Sentiment Analysis și Expressive Speech Synthesis.

Capitolul 2 – În această secțiune sunt tratate diverse tehnici care s-au impus în domeniile Speech Recognition și Data Mining. Se urmărește evidențierea legăturilor stabilite între domeniile mai sus amintite și Modelarea limbajului natural. Sunt trecute în revistă principalele direcții actuale de cercetare în domeniul Procesării limbajului natural, stadiul actual al cercetărilor în domeniul sistemelor de conversie TTS (text-to-speech) și VTT (voice-to-text). De asemenea sunt descrise o serie de concepte și tehnici utilizate în Data Mining cu aplicabilitate în baze de date tranzacționale. Totodată, se urmărește modul de aplicare a Metodelor de învățare bayesiană în optimizarea transferului informațional.

Capitolul 3 – Se ocupă cu descrierea metodelor teoretice și a echipamentelor cu ajutorul cărora are loc transmisia informației în mediul radiofonic. Aici sunt abordate probleme privind transmisia și prelucrarea radiofonică a semnalului vocal, descrierea principalelor caracteristici acustice și fonologice ale semnalului vocal, prelucrarea semnalelor sonore în radiocomunicații. Este de asemenea descris lanțul de transmisie radiofonic, modul în care se realizează achiziția unui spectru de frecvențe dar și particularități ce țin de percepția și caracteristicile sonore în procesul comunicării verbale.

Capitolul 4 – În cadrul acestei secțiuni este urmărită elaborarea unei metode de optimizare de tip determinist care să rezolve problemele de control optimal asociate sistemelor evolutive dinamice, așa cum se prezintă procesul vorbirii libere. Se parcurg unele elemente de teoria informației din punct de vedere a utilității informației, entropiei ponderate și corelației informaționale. Se prezintă apoi o serie de metode și algoritmi de optimizare informațională aparținând programării matematice convexe dar și stochastice, metode de optimizare prin estimare dar și metode performante de căutare numerică și prin interpolare a optimului. Sunt abordați diferiți algoritmi de optimizare în prezența restricțiilor de tip egalitate și inegalitate. Se realizează un studiu de caz bazat pe aplicarea metodei de control dinamic a parametrilor vocali ai unui model prozodic, bazat pe analiza combinată a frecvenței fundamentale și extremizarea funcționalei neliniare care descrie întregul proces de transfer informațional.

Capitolul 5 – În cadrul acestui capitol sunt parcurse o serie de tehnici și procedee de analiză statistică a informației. Sunt analizate metodele de studiu a formării legăturilor de tip statistic, respectiv Analiza varianței ANOVA, Metoda regresiei liniare multiple, Metoda corelației și sunt subliniați indicatorii sintetici ai corelației. Toate aceste metode sunt apoi aplicate asupra transferului de informație unidirecțională prin rostire radiofonică, fiind obținute o serie de rezultate privind asocierile și interdependențele dintre o serie de parametri vocali, inerenți actului de comunicare radiofonică. Se urmărește pregătirea parametrică a unui modul de procesare vocală prin modul de explicitare a acestor condiționalități reciproce.

Capitolul 6 – Evidențiază concluziile finale, rezultatele obținute pe parcursul cercetărilor și contribuțiile originale dar și câteva direcții de cercetare viitoare în domeniul sau conexe temei tezei, precum și diseminarea realizărilor efective.

Cap.1 Stadiul actual al cercetărilor în domeniul Analizei

Vorbirii

Analiza vorbirii (Speech Analysis)

Limbajul reprezintă una dintre caracteristicile fundamentale ale comportamentului uman. Din perspectivă științifică, limbajul se studiază în cadrul unor discipline diverse: Lingvistica, Psiholingvistica, Filozofia comunicării ori Lingvistica matematică. Referitor la cea din urmă, scopul acesteia este de a analiza și dezvolta o Teorie computațională a limbajului, utilizând termeni și concepte aparținînd domeniului informaticii respectiv algoritmi, structuri de date, rețele neuronale e.t.c. Modelul computațional este unul prin excelență sincretic, care reunește și integrează cunoștințe din toate celelalte domenii dedicate studierii limbii și limbajului și astfel se înscrie în domeniul amplu denumit astăzi cognitive science. Aceste modele computaționale pot conduce la identificarea unor idei foarte utile relativ la comportamentul lingvistic în viitor, cu o foarte bună aplicație spre exemplu în domeniul psihologiei comunicării. Un model bazat pe limbajul natural trebuie să ia în considerare însăși structura internă a limbajului, să proceseze asocierile de cuvinte, unitățile sintactice, să sesizeze modul în care acestea se combină pentru a forma propoziții corecte, să surprindă cum contribuie cuvintele sau expresiile mai complexe la semantica propoziției/frazei și care este interacțiunea dinamică între particularitățile textului scris și caracteristicile fonetice derivate. Ca motivație practică sau tehnologică de cercetare se distinge clar direcția axată pe viziunea că, datorită atributelor sale, utilizarea limbajului natural va determina un salt științific revoluționar asupra operării cu instrumentele tehnologiei informației. În acest mod sistemele informatice vor fi sensibil mai inteligente și mai adaptabile decât sunt la momentul de față. În cadrul acestui domeniu aplicațiile la care se lucrează în prezent se împart în două mari clase:

aplicații bazate pe procesarea textului;

aplicații bazate pe procesarea vorbirii/dialogului

Aplicațiile axate pe procesarea textului se concentrează pe prelucrarea textelor scrise (articole, e-mailuri, mesaje din zona social media, cărți, rapoarte și referate e.t.c.). Practic toate acestea sunt probleme de redactare, înțelegere și citire. Studiile în această zonă de manifestare a limbajului natural au condus la câteva rezultate specifice:

Identificarea și extragerea unor documente reunite sub aceeași temă, dintr-o bază de date formată din texte (data mining). Spre exemplu aflarea unor cărți care tratează o anumită temă, dintr-o bibliotecă;

Traducerea unor materiale scrise dintr-o limbă în alta;

Realizarea unor rezumate ale unor texte grupate într-un flux informațional dintr-o anumită instituție (rapoarte într-o companie multinațională);

Identificarea și selectarea de informație utilă din materiale apărute în timp într-un anumit domeniu și constituirea unei baze de date tranzacțională.

Nu orice model de acest tip utilizează instrumente de înțelegere a limbajului natural. Există aici o serie de algoritmi care utilizează pentru căutare un set predefinit de cuvinte cheie asociate domeniului. Alți algoritmi sunt concepuți să funcționeze în două etape: crează inițial o reprezentare a înțelesului fiecărei fraze într-un limbaj iar ulterior determină o frază în alt limbaj, cu înțeles similar. O astfel de analiză semantică conduce la un rezultat destul de corect. Un domeniu foarte interesant pentru procesarea textului este cel al înțelegerii descrierii. În acest caz, sistemul prelucrează o descriere după care trebuie să răspundă la o serie de întrebări referitor la aceasta.

Aplicațiile axate pe procesarea vorbirii utilizează comunicarea om-mașină. Sunt prezente în instrumente de interogare a bazelor de date, telefonie mobilă și mobile banking, implementări în domeniul e-learning, algoritmi de navigație ori în soluții de securitate informatică. Sistemele bazate pe dialog om-mașină reclamă atât utilizarea de cunoștințe în scopul urmăririi nivelului de înțelegere cât și posibilitatea de a pune la dispoziția utilizatorilor unele instrumente de interacționare verbală pentru clarificarea unor concepte vehiculate. Un aspect foarte important este cel al disjungerii între problemele de speech recognition și cele legate de înțelegere a limbajului. Un sistem de speech recognition este în general utilizat strict pentru identificarea cuvintelor rostite cu o anumită acuratețe, într-o anumită limbă, nu și în scopul decriptării semantice a mesajului transmis. Un model hibrid format din cele două sisteme poartă denumirea de Sistem de înțelegere a limbajului vorbit.

Analiza și procesarea vorbirii reprezintă o direcție de cercetare de maxim interes, cel puțin în ultimele două decenii, domeniu care a cunoscut o evoluție semnificativă datorată atât creșterii performanțelor tehnologiei informației cât și apariției unor aplicații importante, destinate special acestui domeniu. Un mare număr dintre aceste aplicații sunt destinate serviciilor interactive și implementărilor în zona politicilor care vizează îmbunătățirea vieții persoanelor cu deficiențe de auz, văz sau vorbire. Utilizarea programelor destinate studiului vocii umane evidențiază noi dimensiuni la nivelul de cunoaștere și analiză a sunetului. În cadrul Analizei Vorbirii se disting două mari direcții de cercetare:

Recunoașterea vorbirii (speech recognition) se referă atât la identificarea vorbitorului (speaker recognition) dar și a conținutului mesajului transmis prin intermediul aparatului fonator uman. Aceste procesări sunt realizate prin intermediul unui modul software, special denumit Speech Recognition Engine (SRE).

Sinteza vorbirii (speech synthesis) reprezintă inversarea procesului de recunoaștere a vorbirii/vorbitorului și constă în reconstruirea vocală a mesajului transmis prin aplicații specifice. Procedeul este strâns legat de conversia conținutului unui text în limbaj vorbit și conține un modul destinat analizei lingvistice a textului, descompus la nivel de unități lexicale, care sunt apoi transformate în vorbire continuă. Procesarea în acest sens se realizează prin intermediul sistemelor text-to-speech (TTS), care primesc la intrare un text și generează la ieșire pronunțarea acestuia. În afara generării automate de noi cuvinte și expresii, un astfel de sistem poate concatena cuvinte separate pentru a obține noi fragmente corecte sintactic și semnatic sau chiar noi propoziții complete, în condițiile în care se lucrează cu vocabulare restrânse ca volum. Este, spre exemplu, cazul vocii din sistemele de navigație prin satelit (GPS).

Un sistem de sinteză a vorbirii este format din două mari componente, figura 1:

un modul de procesare a limbajului natural (NLP), utilizat în scopul obținerii unei transcrieri însoțită de adnotări fonetice și de extragere a elementelor prozodice;

un modul de procesare digitală a semnalului, care este destinat sintezei vorbirii.

Fig.1 Schema unui sistem de analiză a vorbirii

1.2. Segmentarea fonetică a vorbirii (Phonetic Segmentation of Speech – PSS)

Segmentarea fonetică a actului vorbirii este o tehnică de localizare a zonelor – limită dintre foneme, silabe, cuvinte e.t.c., reprezentând o etapă esențială atât în recunoașterea vorbirii/vorbitorului cât și în constituirea unei baze de date pentru utilizarea în procedeul de sinteză concatenativă. Multe dintre metodele de segmentare automată a vorbirii utilizează limitele dintre foneme care la rândul lor sunt evidențiate cu ajutorul unui ASR (Sistem automat de recunoaștere a vorbirii) aplicând ulterior o tehnică de postprocesare a rezultatelor. Uneori, în cazul unei abordări directe a procesului comunicării verbale, este utilizată cu succes tehnica BSS (Blind Speech Segmentation) în care, segmentele inițiale sunt procesate prin intermediul unui algoritm de clustering care realizează analiza prin identificarea unor caracteristici ale semnalului vocal. Este larg acceptată opinia conform căreia unitatea de referință a producerii și implicit a perceperii rostirii este fonemul. Pentru multe dintre aplicațiile care utilizează algoritmi de învățare automată prin procesarea datelor este esențial să se localizeze exact fonemele și limitele spectrale ale acestora. Acest aspect nu este unul simplu chiar și în cazul segmentării manuale, unde limitele fonetice se află localizate în 93% din cazuri, sub 20 ms. Un proces de segmentare de înaltă precizie nu este atât de important pentru aplicațiile de comandă vocală, spre exemplu, cât pentru cele care se bazează pe algoritmi stochastici de instruire, cum ar fi cei de recunoaștere sau sinteză a vorbirii bazați pe Modele Markov Ascunse (Hidden Markov Models – HMM) [4]. Sau cum sunt cei utilizați în sincronizarea mișcării buzelor cu actul rostirii, unde chiar și o abatere de câteva milisecunde ar putea duce la impas. În acest sens cea mai utilizată metodă este alinierea forțată prin aplicarea unor modele de antrenare variaționale de tip Markov. Un dezavantaj al acestei categorii de metode este necesitatea de a insera un modul de transcriere fonetică a datelor de vorbire. Pentru cazurile în care șirul fonematic este necunoscut, de bază pentru estimarea limitelor fonemelor sunt variațiile caracteristicilor spectrale și temporale ori reprezentarea regulilor conforme normelor vorbirii. Mai multe studii recente se axează pe utilizarea caracteristicilor unor metode de tip Rețele neuronale de adâncime (Deep Belief Networks – DBN) care prezintă straturi succesive de variabile latente ce conțin conexiuni între straturi dar nu și între variabile, pentru a estima probabilități de tip posteriori asociate fonemelor și apoi atribuind limite intervalelor în care se manifestă incertitudini în procesul de identificare – clasificare [5]. În actualitate se află încercări de a testa și elabora proceduri de segmentare aplicate la nivel de fonem din corpul textului redat prin vorbire, bazate pe o reprezentare perceptivă –Analiza spectrală a tiparelor prin excitație temporală (STEP) și tehnici dimensionale de reducere a spectrelor, de exemplu bazate pe încorporarea vecinătăților aflate într-o distribuție stochastică de tip t-Student (t-SNE). Această metodă caută limitele fonetice în apropierea celor deja produse printr-o segmentare utilizând Modele Markov Ascunse (HMM). În urma aplicării acestei tehnici sunt perceptibile clare schimbări în spectrul semnalului audio care apar în aceste tranziții fonetice, datorate capacității metodei de analiză spectrală de tip t-SNE de a captura atât structura locală cât și globală a datelor. Metoda este una universală și deci poate fi aplicată pentru orice limbă. Rezultatele arată că prin aplicarea acestei abordări simple este îmbunătățită precizia segmentării fonemelor surde cu 4% pentru margini de sub 5 ms și cu 5% pentru cele de până la 10 ms. Totuși, pentru fonemele sonore, se constată o ușoară scădere a preciziei. Discontinuitățile spectrale sunt în majoritatea cazurilor un bun indicator al limitelor unui fonem chiar și atunci când aceste tranziții sunt netede, cum ar fi cazul diftongilor. Metoda STEP este recunoscută pentru capacitatea de a obține informații din regiuni ale domeniului timp-frecvență unde vorbirea nu este mascată de zgomot și este mai puțin distorsionată. Caracteristica specifică denumită Măsură Glimpse (GP) relevă faptul că, într-un mediu zgomotos, oamenii își concentrează atenția auditivă pe „particularitățile” rostirii care nu sunt mascate de zgomot. Măsura Glimpse denotă o corelație bună cu indicatorul subiectiv Inteligibilitate, atât pentru vorbirea naturală cât și pentru cea sintetizată, în prezența mai multor tipuri de zgomot. În figura 2 este prezentată vizualizara prin aplicația PRAAT a undei sonore, spectrogramei și adnotarea rostirii unei propoziții

Fig.2 Vizualizare prin aplicația PRAAT a undei sonore, spectrogramei și adnotarea rostirii unei propoziții

Pentru detecția acestor „particularități” se compară reprezentările spectrale STEP ale vorbirii și zgomotului. Pentru a reprezenta un semnal conform metodei STEP trebuie, ca primă etapă, să se descompună unda sonoră în eșantioane cu frecvențe diferite utilizând un filtru Gammatone ale cărui frecvențe centrale sunt liniar distanțate pe scala ERB (Equivalent Rectangular Bandwidth). Pentru fiecare canal este extrasă anvelopa temporală prin netezire cu ajutorul unui filtru trece-jos și apoi prin mediere, de-a lungul unor intervale de timp închise. La rândul său, ca algoritm de reducere dimensională, metoda t-SNE este capabilă să captureze ambele structuri de date, atât cele locale cât și globale, acest lucru permițând vizualizarea punctelor generate de date similare în corespondențe locale sau a grupărilor (clusterelor) emergente, din perspectivă globală. Metoda t-SNE realizează conversia de perechi ale distanțelor euclidiene pe spațiul N-dimensional, pe distribuții de probabilitate comune. Pentru un vector N-dimensional de date X = {x1,x2,…,xn} distribuția comună de probabilitate este:

unde2 este norma N-dimensională, σ este dispersia repartiției Gauss. Maparea minimă obținută prin tehnica t-SNE este un vector Y={y1,y2,…,yn} care utilizează o repartiție t-Student cu un singur grad de libertate pentru a modela similaritatea a două puncte:

unde 2 este norma minimă. Maparea obținută minimizează divergența Kullback-Leibler corespunzător cu distribuția maximală, utilizând o metodă de gradient descendent. Fiecare rostire este procesată individual începând cu extragerea caracteristicilor STEP. Aceste caracteristici sunt apoi scalate prin scăderea mediei și raportarea la unitatea de varianță. Aceasta asigură obținerea unei distribuții uniforme a parametrilor rostirii, înlăturând pe cât posibil caracteristicile vorbitorului. Ulterior metoda t-SNE de reducere dimensională este aplicată peste caracteristicile STEP. Pentru că t-SNE este o metodă stochastică, rezultatele din serii succesive pot varia ușor. Pentru minimizarea acestor variații se rulează algoritmul t-SNE de cel puțin 5 ori. Cele mai bune rezultate se obțin prin utilizarea unui algoritm de cuantificare vectorială de tip Lloyd. Acest algoritm, denumit și K-mean clustering (gruparea după K-medii), originar din domeniul procesării semnalului sonor, este intens folosit în analiza de clustering în Data Mining și se bazează pe partiționarea a N-observații în K-clustere în care fiecare observație aparține clusterului cu media cea mai apropiată, servind astfel ca un prototip pentru acel cluster. Acest lucru duce la partiționarea spațiului datelor în așa-numitele celule Voronoi. Algoritmul se aplică la subseturile de cadre situate în vecinătatea limitelor alinierii inițiale forțate, care pleacă de la precedentele limite ale zonei procesate prin tandemul t-SNE și STEP până la următoarele segmente de aliniere forțată. Cel mai bun rezultat este considerat a fi cel în care este obținut maximul distanței dintre cadrele consecutive asociate unor clustere separate. Astfel distanța maximă dintre cadrele consecutive, în vecinătatea ferestrei de aliniere forțată, este desemnată ca fiind noua limită fonemică [6].

În corespondență cu alte studii realizate prin segmentarea nivelelor fonematice se preferă deseori utilizarea corpusului acustico-fonetic de vorbire continuă TIMIT. Acesta cuprinde în medie 5-6 ore de înregistrări reprezentative, aparținând unui număr de câteva sute de vorbitori eșantionați pe categorii sociale, vârstă, dialect e.t.c. Corpusul TIMIT este alcătuit din înregistrări realizate cu microfonul, provenite de la 630 vorbitori de opt dialecte majore de engleză americană, fiecare înregistrare conținând câte zece propoziții citite. Acest corpus include ortografie aliniată în timp, transcripție la nivel de fonem și cuvânt și câte un fișier .wav pe 16 biți cu frecvența de eșantionare de 16 kHz, pentru fiecare pronunție. A fost dezvoltat de către Massachusetts Institute of Technology (MIT), SRI International (SRI) și Texas Instruments, Inc.[7].

Alte corpusuri intens utilizate în studiile de automatic speech recognition, text mining ori pattern recognition sunt:

Corpusul „Articulation Index Corpus”. Acesta a fost dezvoltat în scopul evaluării gradului de percepție corectă a silabelor de către vorbitori în medii de comunicare afectate de prezența zgomotului. Alte aplicații sunt identificarea, modelarea și procesarea lingvistică și modelarea prozodică. Corpusul conține înregistrări în limba engleză realizate la microfon și eșantionate cu 16 kHz în format pcm.[8]

Corpusul „CSLU: Kids’ Speech Version 1.1” dezvoltat de LDC. Acesta este practic o colecție de înregistrări în limba engleză realizate conform vorbirii și citirii live provenind de la 1100 copii de până în 10 ani. Fiecare subiect a citit aproximativ 60 de cuvinte dintr-o listă de 319 cuvinte, propoziții sau litere. Fiecare pronunție de rostire live conține la început o recitare a alfabetului și un monolog de un minut pentru referențiere. Corpusul conține 1017 fișiere de câte 8-10 minute pentru fiecare vorbitor, digitizate pe 16 biți cu o frecvență de eșantionare de 16 kHz utilizând carduri audio Soundblaster 16 PnP. [9]

Corpusul „Emotional Prosody Speech and Transcripts” este un corpus care conține înregistrări audio în limba engleză realizate prin microfon și transcripții corespunzătoare colectate pe o perioadă de opt luni între anii 2000-2001 pe două canale și cu o rată de eșantionare de 22 kHz. Înregistrările aparțin unor actori profesioniști care au rostit o serie de enunțuri neutre din punct de vedere semantic, acoperind 14 categorii emoționale. [10]

NTIMIT este un alt corpus de limbă engleză cu aplicații în speech recognition, complementar corpusului TIMIT. Acesta a fost dezvoltat de către Grupul NYNEX Science and Technology Speech Communication Group. Acesta a fost realizat pentru a furniza înregistrări telefonice asociate corpusului TIMIT. Corpusul NTIMIT a fost creat prin transmiterea a 6300 înregistrări originale printr-un telefon pe diverse canale prin rețeaua telefonică NYNEX, după care au fost redigitalizate.[11]

„2006 NIST Spoken Term Detection Development Set” (NIST Multimodal Information Group, 2011b) și „2006 NIST Spoken Term Detection Evaluation Set” (NIST Multimodal Information Group, 2011a). Acestea sunt două corpusuri dezvoltate în scopul detecției de termeni (expresii) în limba vorbită. Corpusurile conțin o colecție de înregistrări ale unor emisiuni radio de știri, conferințe și conversații telefonice. Fișierele provenite de la înregistrările emisiunilor de știri sunt pe un singur canal, codate pcm, cu frecvența de eșantionare de 16 kHz. Cele provenite de la conversațiile telefonice sunt pe două canale, eșantionate pe 8 kHz. [12]

Corpusurile de semnal vocal conțin de regulă sute de înregistrări și instrumente de recunoaștere vocală (de ex. Aliniator fonetic și Sistem de recunoaștere a fonemelor) pentru diferite limbi, bazate pe motoare de recunoaștere vocală. De regulă metoda utilizată de specialiști în realizarea corpusului constă într-o analiză lingvistică pentru determinarea alfabetului, crearea corpusului de text și în final alcătuirea corpusului cu înregistrări audio. Pentru că de multe ori sistemele de recunoaștere vocală care utilizează un model Markov ascuns (HMM) modelează cu o acuratețe mai mare trifonemele în comparație cu fonemele, cuvintele sau silabele, studiile se axează pe prelucrarea acestor trifoneme.

Crearea unui corpus audio din trifoneme constă în determinarea celor mai frecvente ocurențe dintr-un corpus de text suficient de mare pentru a modela limba în mod satisfăcător. Pe baza acestor ocurențe se realizează un set de propoziții care stau la baza dezvoltării corpusului audio. Sistemele de aliniere fonetică și de recunoaștere de fonem dezvoltate utilizează toolkit-uri care conțin seturi cu intrumente de recunoaștere a vorbirii continue. Aceste toolkit-uri lucrează cu modele acustice Markov ascunse (AHMM – Acoustic Hidden Markov Models) care sunt structurate pe arbori de decizie la nivel de stare. Aceștia la rândul lor conțin operatori asociați densității de probabilitate gamma pentru a modela duratele acestor stări.

Pentru limba română există un corpus numit RSS. Acesta a fost utilizat la crearea unui sistem de sinteză vocală de înaltă definiție bazat pe HMM-uri, utilizând o rată de eșantionare înaltă. Corpusul a fost realizat prin stocarea unui set de înregistrări într-o cameră fără reflexie, utilizând trei tipuri de microfoane: un microfon cu diafragmă mare, altul cu diafragmă mică și bandă largă de frecvențe și un set de căști cu microfon. Toate înregistrările au fost realizate cu o frecvență de eșantionare de 96 kHz pe 24 biți și reeșantionate pe 48 kHz prin metoda supraeșantionării. Corpusul RSS este alcătuit din două seturi de propoziții, unul de antrenare și unul de testare. În general un corpus trebuie să fie omogen din punct de vedere al limbii de aplicație și trebuie să fie proiectat corect din punct de vedere sintactic și lexical. Calitatea corpusului are o influență hotărâtoare asupra acurateței de realizare a corpusului audio și preciziei de identificare a limbii ori a dialectului vorbirii. Durata totală de înregistrare pentru setul de antrenare în corpusul RSS este de 3,5 ore și conține un număr de 3500 propoziții. Intervalul de înregistrare pentru setul de testare este de 1/2 oră și conține 200, respectiv 100 de propoziții, extrase aleator din diverse publicații, 200 dintre acestea fiind propoziții nepredictibile din punct de vedere a semanticii textului [13]. La rândul său modelul acustic Markov ascuns (AHMM) este larg utilizat atât în sinteza vorbirii cât și în recunoașterea vorbirii și este cotat ca având o destul de mare acuratețe în generarea unor rezultate valide. În comparație cu metoda segmentării manuale, modelarea prin AHMM oferă o exactitate, la un prag de sub 20 ms, undeva între 80-90%, depinzând de caracteristicile metodei de antrenare utilizată. Cele mai bune rezultate obținute utilizând modelul AHMM pentru segmentarea fonetică pe corpusul TIMIT pot ajunge la un nivel de acuratețe a alinierii de 96,7% la pragul de 20 ms. În privința metodei STEP aceasta dă rezultate ceva mai bune dacă este cuplată cu metoda MFCC (Mel-frequency cepstral coefficients) adică metoda coeficienților Mel cepstrali. Dacă se operează cu o metodă de fuziune MFCC-STEP atunci se observă unele îmbunătățiri ale rezultatelor pentru pragurile de 5 și 10 ms [14].

1.3. Recunoașterea tiparelor vocale – Recunoașterea accentului/dialectului (Accent/Dialect Speaker Recognition– ASDR)

Un aspect important care trebuie luat în considerare în recunoașterea tiparelor vorbirii într-o anumită limbă/dialect este faptul că semnalul vocal conține informație paraverbală în afara conținutului strict lingvistic, respectiv dezvăluie genul, vârsta și starea emoțională a vorbitorului. Variabilitatea accentului este în mod deosebit considerată a sta la baza existenței sau a lipsei performanțelor sistemelor ASR – Automatic Speech Recognition. Prin recunoașterea accentului vorbitorului înainte de recunoașterea vorbirii se pot adapta parametrii sistemului ASR conform acelui accent și astfel se pot îmbunătăți performanțele sistemului [15]. Succese deosebite în acest sens au fost obținute cu ajutorul tehnicilor de adaptare MAP – Maximum A Posterior și respectiv Maximum Likelihood Logistic Regression (MLLR). În plus, recunoașterea automată a accentului vorbitorului poate fi de asemenea utilă în personalizarea sintezei vorbirii într-un sistem de tip text-to-speech (TTS). De asemenea pot fi identificate utilizări în adaptarea sistemelor de traducere interlingvistică de tip speech-to-speech (S2ST) inclusiv în traducerea dintr-o limbă într-un dialect al celeilalte limbi. De asemenea există unele limbi (Arabă, Engleză, Spaniolă și Chineză) care conțin foarte multe dialecte care diferă semnificativ unul de altul și pot fi chiar reciproc neinteligibile. Este interesant faptul că lexiconul acestor familii de limbi (dialecte) nu se suprapune decât parțial pe vocabularul fiecăreia dintre ele, spre diferență de inventarele fonematice [16]. Există în acest domeniu de cercetare două mari clase de metode: cele bazate pe abordări fonetice și cele bazate strict pe abordări acustice. Cele care sunt orientate pe abordări fonetice, cum este modelul PLRM –Penalized Logistic Regression Machine, utilizează diferențele din fiecare secvență sonoră pentru fiecare accent particular pe când cele bazate pe abordări acustice utilizează diferențe în pronunția sau producerea acestor sunete pentru construirea modelelor dependente de accent. Cele mai multe și performante aplicații ale abordărilor acustice sunt cele bazate pe Gaussian Mixture Models (GMM) [17], modele hibride gaussiene, cu ajutorul cărora se pot construi modele independente de accent numite Universal Background Model – UBM, modele cu acoperire universală, care ulterior utilizează tehnica de adaptare de tip MAP pentru adaptarea fiecărui parametru al UBM pentru fiecare accent țintă.

Sistemul este consacrat în literatura de specialitate ca sistemul GMM-UBM. Abordarea prin acest sistem este extinsă prin introducerea așa-numiților supervectori GMM care sunt niște vectori multidimensionali reprezentând pronunțarea tuturor fonemelor din setul de date de antrenare. Supervectorii sunt generați prin concatenarea MAP adaptată mediilor UBM pentru fiecare probă din setul de antrenare sau de test, rezultând astfel vectori formați din zeci de mii de intrări pentru fiecare vorbitor. Acest lucru poate fi considerat ca ca o proiecție a caracteristicilor acustice într-un spațiu n-dimensional unde accentele devin ușor separabile.

Apoi se poate utiliza pentru clasificarea accentului în domeniul de valori al supervectorului tehnica SVM (Support Vector Machine). Cuplând cele două metode putem vorbi despre tehnica GMM-SVM. Această tehnică hibridă este îmbunătățită prin încorporarea tehnicii JFA (Joint Factor Analysis), tehnică bazată pe conceptul de minimizare a variațiilor dintre sesiunile de înregistrare, variații care cuprind vorbitori diferiți, diferite canale de comunicație, diferite zgomote de fond, diferite microfoane utilizate e.t.c.

Fig.3 Model hibrid gaussian GMM

Sunt utilizați de asemenea și I-vectori care sunt vectori de dimensiuni mult inferioare supervectorilor generați în procesul vorbirii de către un anumit subiect vorbitor (de exemplu cu 100-400 de dimensiuni). Produsul scalar dar și transformata cosinus dintre I-vectori sunt deseori utilizate pentru recunoașterea accentului. Un clasificator de tip I-vector este bazat pe o configurație determinată de mărimea UBM, de numărul dimensiunilor factorilor din subspațiul variabilelor și de asemenea de metodele de compensare (atenuare) a variabilității accentelor [18]. Relativ recent a fost dovedit faptul că utilizarea Rețelelor Neuronale de Adâncime – DNN, cu multiple straturi ascunse, a reprezentat un succes și în domeniile de recunoaștere a vorbirii, recunoaștere a limbii/dialectului ori identificarea vorbitorului. În sistemul GMM-SVM fiecare rostire este utilizată pentru a estima parametrii GMM prin adaptarea MAP a modelului UBM. Valorile medii ale vectorilor adaptați pentru GMM sunt apoi stivuite împreună pentru a constitui un supervector. Prin urmare, fiecare rostire este mapată din cadrul domeniului vectorului alcătuit din caracteristicile cepstrale în cel n-dimensional al supervectorului. Obiectivul acestui proces este să se construiască un hiperplan de separație în spațiul n-dimensional al caracteristicilor și să se normalizeze în lungime rostirile. Supervectorii sunt utilizați pentru a construi un model SVM pentru fiecare accent, luând un anumit accent ca o clasă-țintă iar pe celelalte încadrându-le într-o clasă-fundal [19].

1.4. Tehnici utilizate în evaluarea rostirii generative și discriminative independente de text

În acest domeniu de cercetare, verificarea vorbitorului și a vorbirii este conjugată cu sisteme de autentificare (cum ar fi de exemplu cel bazat pe textul cu intrări parolate), dacă se urmărește creșterea securității sistemului. Un sistem de evaluare robust este corpusul MDSVC – Mobile Device Speaker Verification Corpus, destinat verificării toleranței vorbitorului în condițiile unui vocabular limitat și a unui conținut limitat de date pentru corpusul de antrenare. Acestui corpus i se poate aplica o nouă metodă de îmbunătățire în condiții de zgomot, fără a utiliza nicio informație preliminară referitoare la parametrii de zgomot. Este vorba de metoda de Compensare Universală. Datele în număr limitat înseamnă de cele mai multe ori un vocabular limitat, ceea ce face ca abordarea bazată pe dependența de text să fie preferabilă pentru verificarea vorbitorului și a vorbirii decât abordarea independentă de text, deși acuratețea celei dintâi scade puternic în medii cu zgomot proporțional cu erorile generate în urma procedeului de aliniere fonetică temporală, dacă se consideră existența unui transcript, altfel fiind necesar un modul complex de recunoaștere vocală. Chiar dacă corpusul MDSVC conține un număr limitat de date de antrenare și un vocabular limitat, scopul principal în utilizarea unor secvențe standard de fraze de acces este de a elabora un corpus fonetic echilibrat și diversificat care să creeze posibilitatea abordărilor independente de text. Reducerea variațiilor textuale în cazul frazelor de acces în MDSVC implică o variabilitate fonetică limitată, care poate constitui un avantaj în abordările independente de text la elaborarea unor modele performante de reprezentare, chiar și în condițiile în care există la dispoziție o cantitate redusă de date de antrenare a corpusului vorbirii, pentru fiecare vorbitor [20].

Tehnica GMM-UBM (Gaussian Mixture Model – Universal Background Model) bazată pe sisteme de verificare a vorbirii/vorbitorului, estimează raportul probabilistic dintre ipoteza nulă (H0) în care un segment al vorbirii fixat X este rostit de către un anumit vorbitor identificat S și ipoteza alternativă (H1) în care segmentul vorbirii provine de la un substitut. Raportul probabilistic este comparat cu un prag decizional θ în vederea acceptării ori respingerii identității pretinse a vorbitorului S. Ipoteza nulă (H0) este reprezentată de către modelul GMM, λS corespunde pretinsului vorbitor S iar ipoteza alternativă (H1) este reprezentată de către modelul GMM, substitut care este notat ca λUBM . Abordarea GMM se bazează pe o densitate de repartiție mixtă Gaussiană în sensul modelării vectorilor formați din cadrele de vorbire extrase. Considerând un vector cadru xt corespunzător cadrului de vorbire de ordin t din rostirea X, funcția densitate de probabilitate a vorbitorului S este dată ca fiind:

unde M este numărul de gaussiene, wm este ponderea componentei mixte de ordinul m, iar este o gaussiană multivariată cu vectorul medie μm și matricea de covarianță σm .

Considerând o secvență formată din T vectori cadru rezultați din parametrizarea rostirii X și considerând că vectorii caracteristici sunt reciproc independenți, decizia privind acceptarea ori respingerea presupusei identități a vorbitorului S este dată prin compararea raportului probabilistic logaritmic față de pragul θ:

unde normalizarea (1/T) este prevăzută pentru a scoate în evidență ecartul față de pragul θ care este independent față de durata rostirii [21]. În condițiile unui conținut redus de date de antrenare, în scopul obținerii unui înalt status de performanță, modelele de tip GMM ale vorbitorilor analizați sunt adaptate prin utilizarea unei variante a algoritmului MAP (Maximul Repartiției Aposteriori) generat de UBM (Universal Background Model), care este un model robust independent de text. Modelul UBM este inițial antrenat cu ajutorul unui număr mare de date de antrenare constând în probe de rostire provenite de la mai mulți vorbitori, utilizând un algoritm de tip EM (Expectation Maximization). Începând cu modelul UBM, modelele corespuzătoare vorbitorilor analizați sunt adaptate iterativ doar prin modificarea mediilor parametrilor modelului GMM , , , , conform ecuației:

unde vectorul mediu corespunzător componentei mixte de ordinul m a modelului anterior, este noul vector mediu estimat corespunzător componentei mixte de ordinul m dat de rostirea X iar este coeficientul de dependență de date, destinat controlului asupra gradului de adaptare. Acesta este dat prin:

unde este suma probabilităților posteriori care generează fiecare cadru a unei anumite rostiri X cu componenta de ordin m a modelului anterior. Parametrul r este o constantă denumită factor de relevanță care arată nivelul până la care datele de antrenare corespunzătoare unei componente mixte este necesar să fie urmărite pentru adaptarea parametrilor precedenți [22].

Mașina cu Suport Vectorial (SVM) este un clasificator discriminativ bazat pe determinarea unui hiperplan de separație conceput să maximizeze distanța dintre clase în spațiul n-dimensional al caracteristicilor. În scopul clasificării datelor neliniare distincte utilizând metoda programării liniare este introdusă o funcție neliniară Φ care mapează datele de intrare (considerate ca vectori de dimensiune fixată) pe spațiul n-dimensional. Hiperplanul de separație optim corespunde maximului distanței ortogonale dintre cel mai apropiat set de antrenare (cu exemple) și hiperplanul însuși. Distanța poartă numele de margine. Poate fi demonstrat faptul că hiperplanul optimal poate fi exprimat ca o combinație liniară de exemple de antrenare mapate pe spațiul caracteristicilor. Considerând un SVM de ordinul doi, decizia este dată de semnul funcției:

unde x este un exemplu de test, w este normala la hiperplan, corespunde claselor țintă cu valori în {-1,1}, reprezintă multiplicatorii lui Lagrange asociați maximizării marginii, b este o constantă iar L este numărul exemplelor de antrenare. Exemplele de antrenare pentru care , se numesc vectori suport. Ținând cont că o funcție de decizie depinde de conținutul datelor în condiții punctuale, este posibil să se eficientieze calculul unei funcții nucleu de forma K(x,y) = Φ(x) ·Φ(y) fără a se evalua explicit funcția Φ astfel ușurându-se calculul corespunzător unei clasificări liniare (separației liniare în spații disjuncte). Nucleul funcției trebuie să satisfacă condițiile Mercer pentru a ne asigura de faptul că problema de optimizare este una convexă [19].

Maparea de tip Fisher (FSM). Funcția nucleu Fisher urmărește utilizarea proprietăților modelelor generative într-o abordare diferențială prin evaluarea diferențelor din interiorul proceselor generative dintre perechi de exemple. Se poate defini o funcție pentru maparea secvențelor de lungime variabilă pentru a fixa lungimea vectorilor caracteristici utilizând gradienții log-probabilistici în concordanță cu structura parametrilor modelului generativ λ:

unde X reprezintă rostirea. Dacă prima derivată de tip Fisher a funcției probabilistice este denumită funcție scor de tip Fisher, vectorii caracteristici rezultați sunt denumiți scoruri Fisher. Un Nucleu Fisher se definește astfel:

unde și reprezintă două rostiri de intrare utilizate în vederea comparării iar I este cunoscută ca matrice informațională Fisher care este de fapt matricea de covarianță a scorurilor Fisher:

În mod obișnuit, matricea informațională Fisher este o matrice de mari dimensiuni astfel încât calculul matricei sale inverse este extrem de complicat. Considerând o funcție nucleu de tip Fisher definită pe modele generative de tip GMM, pot exista trei abordări cu referire la matricea informațională Fisher în prezența unui număr mic de teste:

ignorarea matricei informaționale Fisher;

aproximarea matricei informaționale Fisher cu o matrice diagonală a cărei elemente să fi fost calculate prin utilizarea Integrării de tip Monte Carlo;

aproximarea analitică a matricei informaționale Fisher considerând repartițiile între vectorii-cadru și componentele mixte. [23]

Metoda GSLK ( Modele Generative bazate pe Funcții nucleu liniare) este similară abordării cu ajutorul funcțiilor nucleu tip Fisher, dar în loc să evalueze diferențele apărute în cadrul proceselor generative între perechi de exemple de antrenare, această metodă încearcă să surprindă efectiv diferențe la nivelul perechilor de procese generative. Astfel, este elaborat un model GMM pentru fiecare rostire cu ajutorul unei adaptări de tip MAP (Maximul Repartiției Posteriori) iar diferența dintre distribuțiile corespunzătoare unei perechi de modele GMM este aproximată utilizând divergența KL (Kullback-Leibler).

1.5. Algoritmi și metode actuale de sinteză vocală

Sinteza vocală se referă la producerea sunetelor artificiale cu ajutorul sistemelor create de om. Elaborarea sistemelor de sinteză a vorbirii, în special cele de conversie text-voce, a avut o importanță remarcabilă în concentrarea rezultatelor cercetărilor din domenii diferite: procesarea limbajului natural, semantică web, lingvistică computațională, analiza semnalului audio/vocal, analiză prozodică e.t.c.

Sistemele de sinteză vocală (speech synthesizer) sunt parte integrantă a sistemelor de conversie text-voce. Rolul acestora este acela de a transforma informația fonetică (seria de foneme) și informația prozodică, în semnal vocal. Fiecărui fonem, relativ la contextul fonetic în care apare, i se asociază o descriere parametrică. Acestea sunt primitivele de sinteză sau unitățile acustice, formatul de reprezentare al acestora depinzând de tipul de sintetizator [24].

Există două tipuri de astfel de sisteme: sintetizatoare bazate pe reguli rules-based synthesizer și respectiv sintetizatoare concatenative. Sintetizatoarele bazate pe reguli au implementate în modulul de generare a semnalelor un set de legi de variație ale semnalelor de control a sintezei. Sintetizatoarele concatenative au la bază înlănțuirea unor primitive de sinteză obținute prin codarea parametrică a unor segmente acustice provenite din rostiri naturale. Variantele unor astfel de sintetizatoare dezvoltate în ultimii ani – ex. InfoVox și Loquendo – utilizează pentru introducerea elementelor prozodice algoritmi de selecție a unităților acustice – unit selection.

Sintetizatoarele vocale sunt concepute pentru a converti informația fonetică, formată din secvențe fonemice, precum și din content prozodic, în semnal vocal. Sunt compuse în general din două blocuri principale: modulul de comandă-generare a sintetizatorului și modulul propriu-zis de sinteză, prezentat în figura 4.

Fig.4 Schema bloc a unui sintetizator vocal

Sintetizatoarele bazate pe procesarea formanților fac parte din prima categorie. O familie de astfel de sintetizatoare, cu versiuni actuale, este modelul Klatt. O direcție actuală de cercetare este axată pe realizarea unui sistem integrat de analiză vocală, prin realizarea unei interfețe grafice pentru operarea și vizualizarea parametrilor vocali/acustici procesați. Astfel se pot modifica valorile parametrilor analizați la intrarea în sintetizator în scopul observării efectului acestora asupra semnalului sintetizat, pentru îmbunătățirea observațiilor asupra parametrilor, a caracteristicilor rostirii în limba română e.t.c. [25]. În figura 5 este prezentată interfața pentru operarea/vizualizarea parametrilor vocali la sintetizatorul Klatt.

Fig.5 Interfața pentru operarea/vizualizarea parametrilor vocali la sintetizatorul Klatt

O noutate în această direcție de cercetare este introducerea unor tranziții neliniare în generarea formanților F2 și F3. S-a constatat că modelarea neliniară impusă zonelor de tranziție aplicată sintetizatorului Klatt conduce la o variație a formanților F2 și F3 între două foneme consecutive, foarte apropiată ca evoluție de variația sesizată la semnalele naturale. Spre exemplu, pentru cazul practic al coarticulării fonemelor /m/ și /i/, unde în mod curent între foneme se manifestă o variație a frecvenței de aproximativ 1000 Hz, se observă o modificare suferită de zonele tranzitorii, mai apropiată de evoluția naturală, explicabilă prin mișcarea articulatorilor. În noua abordare a coarticulării, pentru un fonem aflat în intervalul de stabilitate se pot observa diferite valori pentru formanți, în funcție de contextul fonetic. De asemenea, formanții prezintă variații continue în preajma pragului de stabilitate. Forma undei sonore (sus), funcțiile de dominanță (jos-linie subțire) și tranzițiile formanților F2 și F3 (jos-linie groasă) în sinteza rostirii unui cuvânt este prezentată în figura 6.

Fig.6 Forma undei sonore (sus), funcțiile de dominanță (jos-linie subțire) și tranzițiile

formanților F2 și F3 (jos-linie groasă) în sinteza rostirii unui cuvânt

Dynamic Time Warping (DTW) este un algoritm utilizat în identificarea unei suprapuneri temporale optime a două secvențe vocale între care se poate stabili o funcție de similaritate. Deși DTW este unul dintre algoritmii clasici de sintetizare vocală utilizați în speech recognition algoritmul rămîne în actualitate dovedindu-și utilitatea în recunoașterea patternului pe care se fitează un anumit cuvânt rostit. Proprietatea de monotonie a rezultatelor alinierii secvențelor vocale face ca DTW să aparțină algoritmilor de programare dinamică. Principiul funcțional al unui DTW este inițiat prin generarea unei matrice care are ca dimensiuni lungimile celor două secvențe care vor fi comparate. În fiecare celulă a matricei se înscrie valoarea numerică dată de distanța dintre elementele corespondente ale celor două secvențe. Spre exemplu, dacă avem o secvență X de k-elemente și alta Y cu l-elemente, dimensiunea matricei M va fi de ordin k×l elemente (k linii și l coloane) iar fiecare celulă cu 0 ≤ i ≤ k și 0 ≤ j ≤ l are valoarea d() și este distanța dintre cele două elemente. Optimul alinierii este atins prin identificarea drumului maxim respectiv minim în matricea M, între pozițiile (1,1) și (X,Y) punând condiția ca fiecare dintre perechile (iz, jz) și (iz+1,jz+1) să respecte proprietatea de monotonie în timp: iz+1 ≥ iz, jz+1 ≥ jz. Dubletul(iz, jz) semnifică asemănarea dintre elementele . Pentru a se putea stabili funcția-distanță un text trebuie convertit într-o secvență de simboluri, grupând astfel intervalele de valori conform ratei de treceri prin zero și a energiei. Funcția de similaritate, scrisă uneori sub forma unei distanțe euclidiene, se aplică între secvența de simboluri și parametrii grupărilor obținute la pasul precedent de procesare. Alinierea prin Dynamic Time Warping, figura 7, este ulterior validată manual iar segmentele obținute îmbogățesc inventarul unităților acustice [26].

Fig.7 Alinierea prin metoda Dynamic Time Warping

eSpeak (ES) este un soft open-source utilizat la sinteza vocală pentru Linux, Windows și alte plaforme și utilizează o metodă de sintetizare formantică. Aplicația eSpeak pune la dispoziție două metode de sinteză, una fiind bazată pe sintetizatorul Klatt. Poate produce la ieșire un semnal procesat pe format de tip WAV. Lucrează cu un număr mare de limbi diferite [27].

MBROLA (Multiband Resynthesis Overlap and Add), este un alt algoritm de sinteză a vorbirii, bazat pe concatenarea difonemelor, care lucrează în domeniul timp și care are avantajul de a netezi discontinuitățile spectrale. Conține o listă de foneme ca intrare, împreună cu un set de informații prozodice și produce la ieșire eșantioane vocale pe 16 biți [28].

IVONA este un soft specializat de tip TTS care asigură o foarte bună sintetizare a vocii, care permite rularea pe aplicații mobile și sisteme bazate pe agenți voce. Există o interfață și pentru limba română, aplicația asigură procesarea formatelor audio de tip OGG, MP3 cu o rată de sampling de 22 kHz și suportă alfabete fonetice de tip IPA, X-SAMPA ori TeleAtlas și Navteq [29]. Asigură în timp real corecții și ajustări la pronunția specificată și beneficiază de o implementare Speech Cloud utilizând un standard HTTP/1.1 printr-un mecanism denumit Chunked Transfer Encoding.

1.6. Metode actuale de analiză și sinteză prozodică

În general, studiile asupra prozodiei se focusează pe evoluția curbelor de intensitate și frecvență fundamentală dar și asupra caracteristicilor temporale – ritm, marcarea prin pauze, durata silabelor. Cu diferențe sensibile de la model la model, silabele pot fi acute, grave, infragrave sau supra-acute. În afara transcrierii prozodice, fiecare extras, o prosogramă – reprezentare vizuală a secvențelor sonore, permite evidențierea intensității sonore și a frecvenței vorbirii. Procesarea aspectelor prozodice ale comunicării verbale urmărește în esență identificarea unor tipare și a unor reguli care descriu evoluția în timp a elementelor care au acest tip de caracteristici, extrase dintr-un semnal vocal. Spre exemplu, în studiul modificării caracteristicilor vorbirii și a sintetizării vorbirii sunt intens utilizați algoritmi de scalare în funcție de timp ori în funcție de înălțimea sunetului. Scopul modificării vorbirii prin scalare în funcție de timp este refacerea vitezei de vorbire fără modificarea conținutului original al vorbirii. Considerând modelul vorbirii de tip sursă-filtru, acest lucru înseamnă că evoluția în timp a semnalului de excitare și a filtrării prin tractul vocal au nevoie să fie scalate în funcție de timp. Modificarea în funcție de timp poate fi realizată uniform, modificând viteza pentru anumiți factori/caracteristici, sau neuniform conform prozodiei ori caracteristicilor sonore, pentru diferite părți ale vorbirii. O funcție de scalare în funcție de timp, denumită funcție time-warping, atribuie serii de timp în semnalul original pentru a intra în corespondență cu seriile de timp din noul semnal. Scalarea neuniformă în funcție de timp poate crește inteligibilitatea semnalului vocal supus analizei. Aceeași tehnică își găsește aplicarea și în sintetizarea concatenativă a vorbirii, unde proprietățile segmentelor vocale supuse concatenării sunt modificate conform restricțiilor lingvistice.

Metodele de scalare în funcție de timp și de înălțimea sunetului se divid în două categorii: metode parametrice, în care semnalul vocal este reprezentat printr-un set de parametri și metode non-parametrice, în care modificările sunt efectuate pe segmente ale semnalului vocal în domeniile timp sau frecvență.

Conceptul OLA de sintetizare vocală prin scalare în funcție de timp a fost pentru prima dată introdus în anii '80. Acesta operează prin concatenarea de segmente ferestruite extrase din semnalul original la momente date prin aplicarea funcției time-warping. Repetarea de două sau mai multe ori a aceluiași segment în procesul de sintetizare este echivalentă cu timpul de acoperire, iar concatenarea unor segmente disjuncte corespunde unei compresii a timpului. Când segmentele sunt concatenate, structura periodică a semnalului rămâne neschimbată, corespunzător păstrării înălțimii sonore localizate a semnalului vocal. Există diverse metode de tip OLA care utilizează diferite strategii care rezolvă acestă problemă.

În cadrul metodei SOLA (Metoda Adăugirilor și Suprapunerilor Sincronizate) poziționarea segmentelor în semnalul sintetizat este aleasă pentru a genera o corelație maximă cu segmentele sintetizate anterior [30]. Metoda WSOLA (Metoda Adăugirilor și Suprapunerilor pentru Semnale Similare) este bazată pe același principiu, dar variind punctul de extracție a semnalului original, astfel încât periodicitatea este păstrată. În domeniul timp operează Metoda de Adăugare și Suprapunere a Pitch-urilor Sincrone (TD-PSOLA, Time Domain – PSOLA). Aici, lungimea segmentelor este proporțională cu perioada pitch-urilor locale. Segmentele ferestruite au ca lungime un multiplu de perioadă a pitch-urilor locale. Astfel, când sunt suprapuse segmente sintetizate, este conservată periodicitatea. În cadrul metodei semnalul sursă este segmentat în porțiuni care au ca durată dublul perioadei frecvenței fundamentale F0 concomitent cu marcarea centrului segmentelor. Pentru metoda PSOLA vorbirea este necesar a fi etichetată cu ajutorul unor markeri de pitch care să evidențieze pozițiile oscilațiilor pitchului în fiecare perioadă a acestuia. Pentru intervalele de pauză din actul rostirii markerii de pitch sunt plasați uniform la egală distanță. Pentru determinarea acestor markeri este necesar un algoritm fiabil dar și caracterizat de o înaltă precizie în estimarea acestor markeri. Pentru TD-PSOLA acestă procedură este realizată direct pe semnalul vocal, fără al mai separa în semnal rezidual și coeficienți de filtrare [31].

În speech synthesis există actualmente o serie de metode pentru procesarea prozodică: PSOLA, MBROLA, LPC e.t.c. Metoda MBROLA (Multiband Resynthesis Overlap and Add) lucrează în domeniul timp și prezintă avantajul de a netezi discontinuitățile din spectrul analizat. MBROLA nu este decât în principiu o soluție completă pentru TTS, fiind necesară cuplarea cu un analizor de text pentru preprocesarea acestuia și a scoate în evidență caracteristicile fonemice și prozodice ale conținutului informațional [32].

O altă metodă de prelucrare a semnalului vocal din punct de vedere prozodic este NSM (Non Linear Springing Method), figura 8. Această metodă operează în domeniul timp, se bazează pe predicția prozodică (matrice prozodică) și pe un semnal prelucrat și generează ca rezultat un semnal de vorbire sintetizat care conține deja prozodia vizată. Prin analogie cu metoda PSOLA, pentru a conserva lungimea sunetului, unele perioade trebuie repetate sau omise. În acest mod există un control asupra frecvenței și duratei sunetului.

Fig.8 Integrarea metodei NSM într-un sistem TTS

Algoritmul NSM conține descriptori de perioadă fundamentală (markeri de pitch), matricea prozodică și procedeul de reeșantionare cu frecvență variabilă. Ca inițializare, programul calculează numărul de perioade pentru fiecare undă sonoră:

unde reprezintă curba de intonație predicționată, pe care operează predictorul prozodic, ti și tf reprezintă momentul inițial respectiv final de evoluție a sunetului selectat. Semnalul de ieșire este determinat cunoscând durata sunetului, frecvența de eșantionare și numărul de eșantioane. Urmează operația de concatenare a difonemelor necesare și calculul perioadelor pe semnal. Manipularea numărului de perioade principale este realizată în concordanță cu markerii de pitch. Obținând semnalul concatenat sL dintr-un număr de L-eșantioane, va fi apoi necesară reeșantionarea în N eșantioane pentru sN. Semnalul vocal sN va avea lungimea de undă și curba de intonație determinate de descriptorul prozodic. Pentru fitarea curbei de intonație la cea predicționată trebuie să se realizeze reeșantionarea conform curbei de comandă:

unde reprezintă curba de intonație a sL. Funcția c corelează ambele curbe de intonație din (1.12) și va calcula o a treia care este denumită curbă de reeșantionare. Un avantaj al acestei metode este continuitatea dintre perioadele fundamentale, fără apariția unui punct unghiular. De asemenea determinarea curbei de intonație se poate face cu o mare acuratețe. Ca dezavantaje ale metodei NSM se pot enumera necesitatea unui volum mare de date de intrare, markeri de perioadă fundamentală și descriptori prozodici și mai ales, deformarea perioadelor fundamentale, fapt ce conduce la distorsionarea semnalului vocal [33].

Un alt tip de algoritm este AMDF (Funcția de măsurare a diferențelor medii). Această funcție prezintă minime distanțate la multipli întregi de perioadă fundamentală T0 a semnalului vocal [34]. Forma matematică a acestei funcții este:

unde Si este un eșantion al semnalului, Si-t este eșantionul defazat iar intervalul 0…tmax este cel mai lung defazaj. L reprezintă lungimea unui eșantion. AMDF este utilizată în general în studiul unor secvențe vocale scurte datorită caracterului nestaționar al undei sonore generate în procesul vorbirii. Pentru a evita acest inconvenient și pentru îmbunătățirea AMDF s-a creat o variantă denumită CAMDF, definită:

unde x(j) este un eșantion din semnalul vocal iar este o operație de împărțire modulo. F(k) este o funcție simetrică, cu centrul de simetrie în k=n/2 și periodică: F(k)=F(n-k). Spre diferență de AMDF, toate eșantioanele extrase din semnalul vocal sunt utilizate doar o singură dată în argumentul funcției CAMDF pentru calculul diferențelor valorice pe fiecare interval. Toate elementele sumate în (1.14) pentru diferite indexări k, sunt reciproc identice. Ambele metode, AMDF și CAMDF, sunt bazate pe următorul concept: la semnalele periodice, eșantioanele extrase din forma originală și eșantioanele semnalului defazat, prezintă aceleași valori pentru segmentele corespondente. Valorile funcției vor fi zero pentru întregii de perioadă fundamentală sau pentru multiplii perioadelor pitch-urilor. Analizând algoritmii AMDF găsim că valorile funcțiilor diferență sunt determinate direct între unele dintre eșantioane. Pentru a îmbunătății algoritmii AMDF s-a realizat o nouă metodă: MAMDF (Funcție modificată de măsurare a diferențelor medii) care este capabilă să îmbunătățească precizia și toleranța în estimarea pitch-urilor. MAMDF este definită astfel:

unde x(i) indică secvența din eșantionul de semnal, n este lungimea ferestrei dreptunghiulare iar reprezintă operația de împărțire modulo. Numărul eșantioanelor care pot fi analizate prin această metodă este fix, aspect care ajută la evitarea trendului descendent de apariție a valorilor minime. Frecvența erorilor în estimarea pitch-urilor utilizând algoritmul AMDF crește foarte mult când amplitudinea sau frecvența se schimbă rapid în semnalul vocal, în timp ce metoda MAMDF permite evitarea acestui fenomen nedorit [35]. În figura 9 este prezentat Cadrul de semnal vocal brut cu valori spectru AMDF și cu valori spectru MAMDF.

Fig. 9 (a) Cadru de semnal vocal brut, (b) valori spectru AMDF, (c) valori spectru MAMDF

PRAAT este o aplicație realizată de cercetătorii de la Toronto University, figura 10. Este un freeware destinat analizei și reconstrucției acustice a semnalelor vocale. Oferă un spectru larg de procedee standard și neconvenționale, incluzând analiza spectrografică, sintetizare articulatorie a vorbirii și rețele neuronale. Printre opțiunile puse la dispoziție de această aplicație se numără editarea sunetului, ilustrarea grafică a sunetului pe axa timp-frecvență, modificarea, sintetizarea, conversia, filtrarea, precum și generarea de sunet. Pe lângă acestea conține module de analiză a înălțimii sunetului, analiză a duratei și intensității sonore ori procesarea de semnale și elaborarea de sonograme.

Fig.10 Fereastra de lucru a aplicației PRAAT. (Sus) Semnalul vocal înregistrat. (Jos) Spectrograma.

Utilitarul PRAAT calculează și stochează automat fișiere text care conțin atât frecvența fundamentală F0 cât și a formanților F1-F4. Aceste frecvențe formantice sunt calculate pentru sunete vocale și pentru fiecare vorbitor. Frecvența fundamentală F0 este nedefinit procesată doar în cazul inexistenței sunetului vocalic ori în spațiul dintre rostiri. De asemenea cu ajutorul aplicației PRAAT se pot determina sau cel puțin estima stările emoționale ale vorbitorului sau se poate urmări variabilitatea unor stări emoționale pentru un grup de vorbitori. Analiza, în acest caz, privește evidențierea unei stări emoționale la nivelul vocalelor și ale formanților acestor vocale. Tot prin intermediul aplicației PRAAT se poate determina coeficientul de asimetrie în pronunție a unui vorbitor relativ la media generală a aceleiași stări și aceleiași vocale pentru un anumit formant. De asemenea, se mai poate calcula coeficientul de variabilitate pentru toate vocalele. Astfel se poate detecta variabilitatea în funcție de starea emoțională și de specificul modului de rostire a fiecărui vorbitor [36].

Metoda SRH (Summation of Residual Harmonics) folosește procedura de extragere a pitch-urilor care exploatează proprietăți spectrale ale semnalului rezidual de excitație. Deși aplicația prezintă performanțe deosebite în înregistrările semnalelor vocale în condiții fără zgomot, aceasta se poate utiliza și în medii perturbate [37].

Algoritmul Yin este un estimator de pitch performant. Se înscrie în familia așa-numitelor PDA (Pitch Detection Algoritm). Algoritmul Yin este bazat pe metoda autocorelației, realizând unele ajustări pentru a reduce posibilele erori. Din aceeași clasă de algoritmi face parte și MPM (McLeod Pitch Method) metodă care identifică pitch-ul fundamental. La rândul său MPM rulează în timp real cu o viteză de eșantionare de 44.1 kHz. Operează fără utilizarea unui filtru trece-jos astfel încât poate lucra cu sunete care prezintă armonici foarte înalte. De asemenea, funcționează bine fără cuplarea cu un modul de post-procesare pentru corecția pitchurilor, element obligatoriu pentru multe detectoare de pitch [38],[39].

1.7. Metode și tehnici noi de Sentiment analysis/Opinion Mining

Comunicarea interumană este însoțită, iar uneori se bazează exclusiv, de componenta afectiv-emoțională. Detecția emoțiilor se poate face prin analiza expresiilor faciale, ansamblului gestual, caracteristicilor fiziologice dar mai ales a procesului vorbirii. Pentru recunoașterea naturii emoțiilor și a nivelului emoțional din actul comunicării verbale nu este foarte important ce se comunică ci mai ales cum se realizează comunicarea. Amplitudinea, intensitatea, intonația, ritmul sunt caracteristici intrinseci ale vocii din care se poate realiza extragerea emoției. Spre exemplu, o slabă intensitate vocală poate să denote o motivare scăzută, semn al existenței sentimentelor de tristețe sau dezgust. Pe de altă parte, o intensitate crescută poate semnifica existența nervozității ori a fricii. Sistemele automate actuale pot utiliza aproximativ 17 caracteristici vocale, acuratețea situându-se în jurul nivelului de 80%.

Analiza sentimentelor/emoțiilor Sentiment/Emotion Analysis (SA) sau Opinion Mining (OM) reprezintă o tehnică computațională prin care informația este extrasă din opinii, aprecieri sau emoții umane cu privire la alte persoane, evenimente și însușiri ori caracteristici ale acestora. Toate acestea sunt realizate prin intermediul unor entități. Aceste entități pot fi la rândul lor persoane, evenimente ori diverse teme. Prin urmare, ținta SA este să localizeze opiniile, să identifice sentimentele exprimate în cadrul acestora și apoi să clasifice polaritatea acestora. Analiza sentimentelor/emoțiilor cuprinde alte trei subdomenii de aplicație. Detecția Emoțiilor (ED) urmărește să extragă și să analizeze emoțiile, aceste emoții putând fi implicite sau explicite în cadrul propozițiilor. Transferul de cunoștințe TL (Transfer learning) se concentrează pe analizarea datelor dintr-un domeniu și apoi folosirea rezultatelor în alt domeniu. Construirea Resurselor BR (Building Resources) vizează crearea unui fond lexical, respectiv a unui corpus, în care exprimările opiniilor sunt adnotate conform polarității pe care le induc, mergând până la elaborarea unor dicționare specializate. Clasificarea sentimentelor SC (Sentiment Classification) reprezintă o cale de analizare a subiectivității informațiilor reieșite dintr-un text sau din actul comunicării verbale. Clasificarea sentimentelor este un domeniu nou de Procesare a Limbajului Natural (NLP) [40]. Există diferite abordări privind clasificarea din acest punct de vedere a unui document incluzând aici metodele de învățare automată (machine learning). Acestea includ clasificatori Naïve Bayes, clasificatori prin Entropie Maximă ori Mașini cu Suport Vectorial (SVM). Figura 11 redă reprezentarea prin nuanțare spectrală a gamei de expresie emoțională în Sentiment Classification

Fig.11 Reprezentarea prin nuanțare spectrală a gamei de expresie emoțională în Sentiment Classification

Analizele de subiectivitate se concentrează pe divizarea unităților lingvistice în două categorii: obiective și subiective, în timp ce analiza sentimentelor se focusează pe divizarea unităților lingvistice în trei categorii: negative, pozitive și neutre. Odată cu trecerea timpului și creșterea nevoii de înțelegere și extragere de date, s-a observat o creștere a interesului atât spre clasificarea sentimentelor cât și spre orientare semantică. În acest context se poate vorbi despre un Model de Analiză a Sentimentelor/Emoțiilor (Sentiment/Emotion Analysis Model), figura 12. Acesta începe cu o etapă de pregătire a datelor necesară pentru înlăturarea din baza de date a prelucrărilor textului/semnalului vocal de alte analize subsecvente. Aceasta include înlăturarea conținutului non-textual și tagurile de marcare (de la paginile HTML) și de asemenea înlăturarea informațiilor referitoare la comentarii care nu sunt necesare. Etapa de analiză generală cuprinde procesarea caracteristicilor lingvistice generale, astfel că pot fi identificate informații interesante cum ar fi opinii ori alte proprietăți ale produsului comunicațional. Două sarcini curente în etapa analizei generale sunt etichetarea POS și etichetarea negațiilor [41].

Fig.12 Model tipic de Analiză a Sentimentelor/Emoțiilor

Abordările actuale ale conceptului analizei sentimentelor se bazează în principal pe existența unor baze de cunoștințe de ordin afectiv cum sunt ANEW, SenticNet, ISEAR, SentiWordNet și WordNet-Affect. Un dicționar de tip multi-level sentiment este construit printr-o metodă în doi pași care combină o regresie iterativă cu o normalizare aleatoare in-link. Pentru evaluarea dicționarelor multi-level se utilizează acuratețea polarizării, distanța Kendall ori coeficientul maxim de medie în locul erorii medii. Alte studii explorează ansamblul aplicațiilor care operează pe baze de date și care sunt fundamentate pe metode statistice. Există și abordări hibride care combină analiza lexicală cu tehnici de învățare automată (nesupervizată) pentru a înlătura ambiguitatea și a integra contextual termenii de Sentiment Clasification. Cele mai recente studii din sfera analizei multilevel a sentimentelor includ direcții cum sunt: adaptarea în domeniu, sumarizarea opiniilor sau analiza multimodală a sentimentelor.

Abordările de tip machine learning implică tehnici de clasificare a textului. Aceste abordări tratează problema clasificării sentimentelor ca o problemă de clasificare a textului pe baza temelor din conținut. Acestea sunt combinate cu alți algoritmi cum sunt Naive Bayes, cei bazați pe Principiul Entropiei Maxime și SVM.

În ultimii ani au fost explorate noi metode stochastice pentru modelarea și transformarea pe intervale scurte de timp atât a parametrilor spectrali cât și a celor prozodici. În privința aplicării tehnicii de conversie spectrală GMM (Gaussian Mixture Model) s-a apreciat că aceasta singură nu este suficientă pentru descrierea stării emoționale. Util în acest caz este modelul hibrid de conversie a pitch-urilor GMM-CART, unde cel din urmă este un model bazat pe arborele de clasificare și regresie. Important în aceeași direcție de analiză este și modelul unificat de conversie care utilizează o presetare temporală, Bi-HMM (Hidden Markov Model). Acesta este folosit pentru a converti spectrele și arborii de decizie în scopul transformării segmentelor formantice ale silabelor în funcție de context și pentru fiecare tip de emoție. Sistemul de analiză și transformare a expresiei emoționale cuprinde trei module principale. Etapa de conversie spectrală generează ca ieșire un semnal care conține sursa prozodică și spectrul convertit. A doua etapă este modificarea duratei fonemelor utilizând arborii relativi CART. În fine, în cadrul celui de-al treilea modul, duratele convertite sunt utilizate în generarea conturului de pitch pentru întreaga rostire utilizând o secvență de silabe din HMM. Modificările formantului F0 și a duratelor de timp sunt organizate utilizând algoritmul TD-PSOLA (PRAAT), descris mai sus. Figura 13 prezintă schema logică a sistemului de analiză și conversie a expresiei emoționale.

Fig.13 Schema logică a sistemului de analiză și conversie a expresiei emoționale

Gradele emoționale sunt elemente foarte importante urmărite în sintetizarea expresivității vorbirii (expressive speech synthesis), indiferent dacă studiile utilizează clasificări în funcție de termeni ca ,,pozitiv”, ,,negativ” și ,,neutru” sau ,,puternic”, ,,mediu” și ,,slab”. Acestea în condițiile în care se urmărește încadrarea rostirii în categorii emoționale tipice cum ar fi: teama, tristețea, supărarea ori bucuria. Există studii recente care testează combinări ale unor metode descrise anterior (GMM și CART) cu un alt model consacrat: LMM (Linear Modification Model) care operează modificări direct asupra contururilor formantice ale propozițiilor rostite și respectiv asupra duratelor silabelor din distribuțiile semnalelor acustice generate în procesul de vorbire emoțională. Acestea sunt liniile de sus și de la baza formantului F0, duratele de timp și intensitățile semnalului vocal [42]. O serie de studii demonstrează că vorbirea emoțională este strâns legată de nivelul de stress și de pregătirea lingvistică. Spre deosebire de metoda LMM, modelele GMM și CART încearcă să cartografieze distribuțiile prozodice între vorbirile de tip neutru și emoțional. În timp ce GMM doar utilizează caracteristicile mesajului transmis prin vorbire, modelul CART integrează caracteristicile lingvistice în procesul de mapare [43]. Pentru toate cele trei metode a fost concepută o tehnică denumită DPE (Deviation of Perceived Expressiveness) care asigură evaluarea expresivității datelor de ieșire ale rostirii. Rezultatele obținute au evidențiat că metoda LMM oferă cele mai slabe rezultate dintre cele trei invocate anterior. Metoda GMM este mai potrivită pentru seturi de antrenare mai mici în timp ce metoda CART dă output-uri mai bune pentru vorbirea emoțională, dacă este antrenată printr-un corpus adaptat unui context mai larg și bine echilibrat [44]. Tipare emoționale specifice pot fi puse în evidență cu ajutorul analizei spectrului mediat achiziționat pe un termen lung, LTAS (Long-term Average Spectra) [45]. În figura 14 este reprezentat spectrul LTAS pentru diftongul /ae/ rostit în patru moduri diferite.

Fig.14 Analiza LTAS a fonemului /ae/ în cadrul corpusului de antrenare în diferite tipuri emoționale de rostire

În majoritatea aplicațiilor de analiză a sentimentelor/emoțiilor este necesar să se studieze opinii diverse, provenite de la mai mulți subiecți angrenați în actul de comunicare, opinii care atestă fiecare un nivel diferit de subiectivitate.

În acest domeniu, una dintre cele mai interesante și de actualitate metode de transformare a caracteristicilor mesajului în sensul biunivocității dependențelor dintre caracteristicile cuvintelor rostite și cele ale textului este metoda LSI (Latent Semantic Indexing). Metoda LSI transformă spațiul textului într-un nou sistem de axe care este o combinație liniară între caracteristicile originale ale cuvintelor. Tehnica PCA (Analiza Componentelor Principale) este cea mai potrivită pentru atingerea acestui obiectiv. Prin aplicarea tehnicii PCA se determină un sistem de axe realizat astfel încât să rețină cel mai ridicat nivel de informație generat de variația valorilor atributelor expresiilor utilizate în comunicare. Principalul dezavantaj al metodei LSI este faptul că este o tehnică nesupervizată care nu poate percepe distribuțiile de bază generate. Din familia metodelor FS, de selecție a caracteristicilor, mai fac parte modelele HMM și LDA (Latent Dirichlet Allocation).

Totuși cea mai sofisticată abordare în domeniu utilizează o distanță WordNet bazată pe o metodă care permite determinarea orientării sentimentelor/emoțiilor prin intensitatea emoțională scalată prin fixarea unui anumit adjectiv și calculul unei expresii de raportare [46]. Distanța d(t1,t2) dintre termenii t1 și t2 este lungimea celui mai scurt drum care leagă doi termeni în corpusul WordNet. Orientarea unui termen-adjectiv t este determinată ca fiind distanța relativă de la acesta (i.e. adjectivul) și doi termeni de referință (seeds) bun și rău, i.e. SO(t) = (d(t,rău) – d(t,bun))/d(rău,bun). Termenul t este pozitiv dacă SO(t) > 0 și negativ în caz contrar. Valoarea absolută a lui SO(t) dă tăria sentimentului.

1.8. Concluzii

Un model bazat pe limbajul natural trebuie să ia în considerare însăși structura internă a limbajului, să proceseze asocierile de cuvinte, unitățile sintactice, să sesizeze modul în care acestea se combină pentru a forma propoziții corecte, cum contribuie cuvintele sau expresiile mai complexe la semantica propoziției/frazei și care este interacțiunea dinamică între particularitățile textului scris și caracteristicile fonetice derivate.

Aplicațiile axate pe procesarea textului se concentrează pe prelucrarea textelor scrise (articole, e-mail, mesaje din zona social media, cărți, rapoarte și referate e.t.c.). Practic toate acestea sunt probleme de redactare, înțelegere și citire.

Aplicațiile axate pe procesarea vorbirii utilizează comunicarea om-mașină. Sunt prezente în instrumente de interogare a bazelor de date, telefonie mobilă și mobile banking, implementări în domeniul e-learning, algoritmi de navigație ori în soluții de securitate informatică. Sistemele bazate pe dialog om-mașină reclamă atât utilizarea de cunoștințe în scopul urmăririi nivelului de înțelegere cât și posibilitatea de a pune la dispoziția utilizatorilor unele instrumente de interacționare verbală pentru clarificarea unor concepte vehiculate.

În cadrul Analizei și procesării vorbirii, Recunoașterea vorbirii (speech recognition) se referă atât la identificarea vorbitorului (speaker recognition) cât și a conținutului mesajului transmis prin intermediul aparatului fonator uman.

La rândul ei Sinteza vorbirii (speech synthesis) reprezintă inversarea procesului de recunoaștere a vorbirii/vorbitorului și constă în reconstruirea vocală a mesajului transmis prin aplicații specifice.

Segmentarea fonetică a actului vorbirii este o tehnică de localizare a zonelor limită dintre foneme, silabe, cuvinte e.t.c., reprezentând o etapă esențială atât în recunoașterea vorbirii sau vorbitorului cât și în constituirea unei baze de date pentru utilizarea în procedeul de sinteză concatenativă. Multe dintre metodele de segmentare automată a vorbirii utilizează limitele dintre foneme care la rândul lor sunt evidențiate cu ajutorul unui ASR (Sistem automat de recunoaștere a vorbirii) aplicând ulterior o tehnică de postprocesare a rezultatelor.

Mai multe studii recente se axează pe utilizarea caracteristicilor unor metode de tip Rețele neuronale de adâncime (Deep Belief Networks – DBN) care conțin straturi succesive de variabile latente ce conțin conexiuni între straturi dar nu și între variabile, pentru a estima probabilități de tip posteriori asociate fonemelor și apoi atribuind limite intervalelor în se care manifestă incertitudini în procesul de identificare – clasificare

În actualitate se află încercări de a testa și elabora proceduri de segmentare aplicate la nivel de fonem din corpul textului redat prin vorbire, bazate pe o reprezentare perceptivă –Analiza spectrală a tiparelor prin excitație temporală (STEP) și tehnici dimensionale de reducere a spectrelor. În corespondență cu alte studii realizate prin segmentarea nivelelor fonematice se preferă deseori utilizarea corpusului acustico-fonetic de vorbire continuă TIMIT.

Un aspect important care trebuie luat în considerare în recunoașterea tiparelor vorbirii într-o anumită limbă/dialect este faptul că semnalul vocal conține informație paraverbală în afara conținutului strict lingvistic, respectiv dezvăluie genul, vârsta și starea emoțională a vorbitorului. Variabilitatea accentului este în mod deosebit considerată a sta la baza existenței/lipsei performanțelor sistemelor ASR – Automatic Speech Recognition. Succese deosebite în acest sens au fost obținute cu ajutorul tehnicilor de adaptare MAP – Maximum A Posterior și respectiv Maximum Likelihood Logistic Regression (MLLR). Relativ recent, a fost dovedit faptul că utilizarea Rețelelor Neuronale de Adâncime – DNN, cu multiple straturi ascunse, a reprezentat un succes și în domeniile de recunoaștere a vorbirii, recunoaștere a limbii/dialectului ori identificarea vorbitorului.

În domeniul de cercetare a rostirii generative și independente de context, verificarea vorbitorului și a vorbirii este conjugată cu sisteme de autentificare (cum ar fi de exemplu cel bazat pe textul cu intrări parolate), dacă se urmărește creșterea securității sistemului. Rezultate foarte bune sunt obținute în prezent prin utilizarea tehnicii GMM-UBM (Gaussian Mixture Model – Universal Background Model), amapării de tip Fisher (FSM), a metodei GSLK ( Modele Generative bazate pe Funcții nucleu liniare) ori a adaptării de tip MAP (Maximul Repartiției Posteriori).

Sistemele de sinteză vocală (speech synthesizer) sunt parte integrantă a sistemelor de conversie text-voce. Rolul acestora este acela de a transforma informația fonetică (seria de foneme) și informația prozodică, în semnal vocal. Dynamic Time Warping (DTW) este un algoritm utilizat în identificarea unei suprapuneri temporale optime a două secvențe vocale între care se poate stabili o funcție de similaritate. Alte metode recente sunt: eSpeak (ES), MBROLA (Multiband Resynthesis Overlap and Add), IVONA este un soft specializat de tip TTS.

Studiile asupra prozodiei se focusează pe evoluția curbelor de intensitate și frecvență fundamentală dar și asupra caracteristicilor temporale – ritm, marcarea prin pauze, durata silabelor. Procesarea aspectelor prozodice ale comunicării verbale urmărește în esență identificarea unor tipare și a unor reguli care descriu evoluția în timp a elementelor care au acest tip de caracteristici, extrase dintr-un semnal vocal. Conceptul OLA de sintetizare vocală prin scalare în funcție de timp operează prin concatenarea de segmente ferestruite extrase din semnalul original la momente date prin aplicarea funcției time-warping. Metoda SOLA (Metoda Adăugirilor și Suprapunerilor Sincronizate) poziționarea segmentelor în semnalul sintetizat este aleasă pentru a genera o corelație maximă cu segmentele sintetizate anterior. Metoda WSOLA (Metoda Adăugirilor și Suprapunerilorpentru Semnale Similare) este bazată pe același principiu, dar variind punctul de extracție a semnalului original, astfel încât periodicitatea este păstrată. Metoda NSM (Non Linear Springing Method) operează în domeniul timp, se bazează pe predicția prozodică (matrice prozodică) și pe un semnal prelucrat și generează ca rezultat un semnal de vorbire sintetizat care conține deja prozodia vizată. Metoda SRH (Summation of Residual Harmonics) folosește procedura de extragere a pitch-urilor care exploatează proprietăți spectrale ale semnalului rezidual de excitație.

O direcție actuală de cercetare vizează integrarea detecției și procesării emoțiilor în sistemele de recunoaștere a vorbirii în scopul de a îmbunătăți performanțele și abilitățile de interelaționare ale sistemelor artificiale inteligente, a interacțiunii om-mașină dar a celei interumene. Totodată, prin crearea unui analizor emoțional, transferul conținutului efectiv al comunicării poate fi echilibrat și optimizat. Analiza sentimentelor/emoțiilor Sentiment/Emotion Analysis (SA) sau Opinion Mining (OM) este o tehnică computațională prin care informația este extrasă din opinii, aprecieri sau emoții umane cu privire la alte persoane, evenimente și însușiri ori caracteristici ale acestora. Detecția Emoțiilor (ED) urmărește să extragă și să analizeze emoțiile, aceste emoții putând fi implicite sau explicite în cadrul propozițiilor. Clasificarea sentimentelor SC (Sentiment Classification) reprezintă o cale de analizare a subiectivității informațiilor reieșite dintr-un text sau din actul comunicării verbale. Abordările actuale ale conceptului analizei sentimentelor se bazează în principal pe existența unor baze de cunoștințe de ordin afectiv cum sunt ANEW, SenticNet, ISEAR, SentiWordNet și WordNet-Affect. În ultimii ani au fost explorate de asemenea noi metode stochastice pentru modelarea și transformarea pe intervale scurte de timp atât a parametrilor spectrali cât și a celor prozodici.

Cap.2 Tehnici de analiză în Speech recognition și Data
Mining

2.1. Speech recognition și Modelarea limbajului natural

Speech Recognition adică Recunoașterea Vorbirii, cunoscută și ca Recunoaștere Automată a Vorbirii – ASR sau chiar Recunoaștere Computerizată a Vorbirii – CSR, reprezintă un proces de conversie a semnalului vocal într-o secvență de cuvinte, prin intermediul unui algoritm specific implementat sub forma unui soft specializat. Vorbirea fiind cea mai naturală și complexă formă de comunicare interumană, prelucrarea vorbirii a devenit în timp unul dintre cele mai importante și interesante domenii de procesare a semnalelor acustice.

În domeniul speech recognition, se disting două mari direcții de abordare: Statistical speech recognition, prin care se dorește modelarea unităților lingvistice utilizând modelele Markov- ascunse iar cealaltă direcție utilizează rezultate din domeniul rețelelor neuronale RNA și este o abordare conecționistă. Rețelele neuronale sunt utilizate cu succes în ultimii ani pentru recunoașterea formelor (analiză facială, robotică). Acestea pot clasifica simbolurile de la intrare separându-le prin suprafețe de decizie neliniare complexe. Modelarea lingvistică îmbunătățește semnificativ performanțele sistemului, restricționând unele combinații de unități lingvistice care sunt fără sens. Restricționarea indusă semnifică o reducere a spațiului de căutare a soluțiilor [47].

Recunoașterea (recognizing) unei structuri de limbaj se referă la procesul prin care se decide dacă un șir (strig, cuvânt, frază) se află în limbajul generat de o anumită gramatică sau este recunoscut de un automat dat. Parsingul reprezintă procesul de asociere a unei anumite structuri unei propoziții. În acest context se înscriu următoarele:

Algoritmul de parsing Cocke-Younger-Kasami

Algoritmul de parsing Earley

În ultimii ani se manifestă tendința de a considera limbajul ca fiind un sistem sinergic, cu putere auto-organizatoare. Acesta pe toată perioada existenței sale păstrează o stare de corelație echilibrată între elementele sale astfel încât să asigure un suport consistent, suficient și eficient pentru nevoile de comunicare într-o structură socială dezvoltată. Acest echilibru se manifestă prin intermediul legii lui Menzerath, care leagă mărimea (lungimea) construcțiilor lingvistice de mărimea componentelor care alcătuiesc această construcție. Legea se fundamentează pe relația dintre numărul de silabe dintr-un cuvânt și lungimea acestor silabe. Silabele joacă un rol foarte important în recunoașterea vorbirii. Fiecare limbă posedă propriul mod de a grupa sunetele în silabe, aspect utilizat în unele aplicații din criptografie. Atât în lingvistică cât și în genetică o problemă majoră o constituie măsurarea similarității dintre morfeme, respectivi codoni. În domeniu, sunt propuse câteva tipuri de măsuri: metrică Manhattan, distanță Hamming, distanță de editare Levenshtein, divergența, coeficientul de corelație Spearman, distanța Hausdorff e.t.c.[48].

În cadrul metodelor de clasificare automată a obiectelor-text foarte interesante sunt aplicațiile referitoare la: organizarea și recuperarea informațiilor, dezambiguizarea cuvintelor, analiza și sinteza de voce, aplicații din bioinformatică, analiza imaginilor e.t.c. Un interes deosebit îl reprezintă metodele multicriteriale de decizie. În general, un sistem ASR este compus din două subsisteme mari: blocul de decodare a vorbirii, conectat cu un subsistem care conține o bază de date structurată (corpusul și dicționarul fonetic), care permite modelarea acustică și de limbaj. În fig.15 este prezentată schema unui sistem de speech recognition [48a],[48b].

Fig.15 Arhitectura unui sistem de speech recognition

2.2. Direcții principale de cercetare în domeniul procesării limbajului natural.

În cadrul acestui domeniu un loc important îl ocupă modelele lingvistice pentru sistemele de recunoaștere a vorbirii continue. Modelele din categoria sistemelor de speech recognition cu dicționar mare, trebuie estimate cu ajutorul unor texte de antrenare de mari dimensiuni, chiar cuprinzând sute de milioane de cuvinte. S-a constatat că modelele rezultate sunt proporționale cu dimensiunea textului de antrenare. Pentru o utilizare eficientă a acestora este necesară reducerea, micșorarea sau compresia modelelor cunoscute în literatura de specialitate sub denumirea n-gram pruning. Există o serie de moduri de reducere a modelelor:

Reducerea probabilistică

Reducerea prin eliminare

Reducerea bazată pe scor

Reducerea prin diferențe ponderate

Reducerea bazată pe entropie relativă (Stolcke)

Reducerea bazată pe perplexitate

Reducerea bazată pe distribuție

Reducerea bazată pe clase de cuvinte

Toate aceste metode au rolul de a elimina în primul rând informațiile redundante.

Reducerea prin eliminare este cea mai simplă și utilizată metodă de reducere a modelelor lingvistice. Se realizează alegând un prag critic iar toate secvențele trigram situate sub prag sunt eliminate. Astfel modelul este redus considerabil pentru că sunt foarte multe secvențe de trei cuvinte care apar de un număr de ori egal cu valoarea pragului.

Reducerea probabilistică este o metodă naturală de reducere a modelelor lingvistice. Deoarece perplexitatea este indicatorul cel mai eficient care caracterizează calitatea unui model lingvistic, reducerea probabilistică este axată pe acesta. Pentru realizarea reducerii probabilistice se alege o valoare de prag pentru modificarea perplexității, iar fiecare secvență n-gram care schimbă perplexitatea după eliminare, mai puțin decât pragul impus, se elimină din model. Schimbarea perplexității poate fi dată și ca diferență dintre valorile ratei entropiei, înainte și după eliminarea secvenței de cuvinte. În acest sens se utilizează o funcție de pierdere. Pe baza acesteia se elimină sau nu o anumită secvență n-gram, respectiv, dacă pierderea cade sub un anumit prag, secvența se elimină, altfel rămâne în model.

Reducerea bazată pe scor se bazează pe evaluarea tuturor secvențelor n-gram. Scorul unui cuvânt este dat de poziția cuvântului din lista ordonată a probabilităților tuturor secvențelor n-gram. Acest mod de reducere constă în ideea de a elimina din model toate secvențele de cuvânt care după eliminarea lor schimbă scorul mai puțin decât un prag impus.

Reducerea bazată pe entropia relativă, se referă la faptul că modelele lingvistice n-gram reprezintă în sine distribuții de probabilitate. Prin reducere se dorește minimizarea modelului, fără diminuarea performanțelor sau cu o diminuare nesemnificativă a acestuia. Un criteriu al performanței este distanța dintre modelul original și modelul redus. Cu cât această distanță este mai mică, cu atât sunt mai nesemnificative efectele reducerii modelului. Distanța dintre două repartiții probabilistice poate fi determinată prin entropia relativă sau distanța Kullback-Leibler. Problema care se pune este selectarea secvențelor pentru eliminare astfel încât entropia relativă să fie minimă [49]. Metoda reducerii bazate pe perplexitate este dedusă din metoda entropiei relative. Pentru selectarea pragului de reducere se iau în considerare perplexitatea modelului original și al celui redus. Algoritmul prevede trei pași:

Alegerea unui prag;

Calculul modificării perplexității relative modelului pentru fiecare secvență n-gram;

Eliminarea secvențelor pentru care modificarea perplexității relative este sub prag;

Recalcularea estimărilor provenite din modelul de revenire.

În privința metodei reducerii bazate pe distribuție, aceasta încearcă să estimeze probabilitatea de apariție a unei secvențe n-gram într-un document nou și să efectueze eliminările pe baza acestui criteriu. Dacă această probabilitate se află sub prag, secvența se elimină din model. Estimarea probabilităților ca o anumită secvență să apară într-un document nou se poate face împărțind textul de antrenare în mai multe părți și luând fiecare parte ca un document distinct. Pentru modelarea distribuției claselor de evenimente de dimensiune fixă se utilizează modelul repartiției Poisson [50].

În cazul modelelor lingvistice n-gram bazate pe clase de cuvinte se pot forma clase de echivalență pe baza istoriei cuvintelor. Cuvintele care au aceeași istorie vor face parte din aceleași clase. Două istorii sunt echivalente dacă se termină în aceleași cuvinte. Astfel, se pot estima cuvintele și pentru un istoric nou, prin echivalarea istoricului cu un altul existent în setul de antrenare.

Modelele lingvistice adaptive încearcă să ridice performanțele prin utilizarea dependențelor din text pe termene mai lungi. Din acest considerent aceste modele mai sunt cunoscute și ca modele dinamice.

Modelele lingvistice cu memorie, numite în literatura de profil modele cache, înglobează informații din istoricul pe termen lung a apariției secvențelor de cuvinte dintr-un document. Inserarea informației se realizează cu ajutorul metodei interpolării liniare sau a altor metode lingvistice. La fel ca modelele cu memorie, modelele bazate pe perechi de cuvinte înglobează informații din istoria textului, însă iau în considerare doar cele mai rare cuvinte, adică cele care au probabilitatea de apariție sub un anumit prag. Pentru a extrage informațiile din istorie se utilizează perechi de cuvinte legate, trigger pairs (perechi trăgaci-țintă). Aceste perechi se află utilizând informația mutuală medie evaluată pe un set mare de texte de antrenare [51].

Pentru că vorbirea poate fi considerată ca fiind un proces stochastic, orice unitate lingvistică – fonem, propoziție sau cuvânt – poate fi asimilată unei variabile aleatoare cu o repartiție probabilistică oarecare. Acest tip de modele sunt denumite și modele n-gram, pentru că ele încearcă să estimeze probabilitatea de apariție a următorului cuvânt pe baza secvenței celor n-1 cuvinte anterioare. Demersul realizării unui model lingvistic statistic se referă la condițiile în care avem la dispoziție un vocabular și o colecție de texte de antrenare cât mai mare. Trebuie să se găsească din colecția de texte de antrenare un set de probabilități corespunzător fiecărui cuvânt din vocabular astfel încât să satisfacă condițiile unei distribuții de probabilitate. În mod uzual se operează cu modele unigram, bigram și trigram. Recent s-au efectuat și încercări cu modele 4-gram dar acestea presupun o colecție de teste de antrenare foarte mare.

Modelele n-gram au câteva particularități și caracteristici:

Modelul unigram – aici se folosește presupunerea că toate cuvintele sunt independente și nu se ia în considerare istoria la estimarea probabilităților.

Modelul bigram – are la bază lanțurile Markov. În cadrul acestui model se consideră că orice cuvânt depinde doar de cuvântul precedent. Istoria cuvântului are lungimea unu.

Modelul trigram – pentru evaluarea probabilității unui cuvânt se iau în considerare două cuvinte precedente. Ca și la modelul bigram, pentru evaluarea probabilităților condiționate se utilizează metoda Maximum Likelihood Estimation – MLE.

Netezirea probabilităților pentru modele lingvistice se bazează pe câteva metode și algoritmi.

Metoda MLE: Este cea mai simplă dintre metodele de estimare a probabilităților. Constă în calculul frecvenței de apariție relativă pentru fiecare cuvânt. Metoda dă valori corecte ale probabilităților cu condiția ca textul pe care se realizează estimarea să fie de lungime infinită.

Ideea algoritmilor de netezire este de a micșora valorile de probabilități mari și de a realoca suma de probabilități scăzută pentru probabilitățile nule sau foarte mici.

Netezirea prin adunare: Are la bază ideea de a mări cu o anumită valoare toate valorile de apariție a cuvintelor. Astfel, cuvintele neîntâlnite în setul de antrenare vor avea numărul de apariție mărit cu această valoare și probabilitatea de apariție nenulă. Formula de calcul este dată de legea Lidstone.

Estimatorul Good-Turing: Provine din biologie și poate fi adaptat ușor în domeniul recunoașterii vorbirii, cuvintele luând locul speciilor. Estimatorul Good-Turing furnizează o valoare sumată totală de probabilitate a evenimentelor observate, subunitară. Numărul de cuvinte noi va fi diferența dintre mărimea vocabularului și numărul de cuvinte diferite întâlnite în setul de antrenare.

Netezirea prin revenire (back off): Frecvența relativă este un estimator consistent al probabilităților dacă numărul de apariții pentru o secvență n-gram este suficient de mare. Există un nivel de referință, pragul Katz, k = 6.

Netezirea Kneser-Ney: Mai este denumită și netezire absolută. Metoda se bazează pe ideea de a contoriza contextele diferite în care apare un cuvânt. Cu cât un cuvânt apare în mai multe contexte diferite, cu atât crește probabilitatea apariției acestuia în contexte noi, neîntâlnite încă [52].

2.3 Realizări importante în domeniul sistemelor de conversie voce-text

Până recent, cercetările din domeniul recunoașterii și sintezei vocale au urmărit elaborarea unor metode și algoritmi pentru realizarea unor sisteme de recunoaștere vocală bazate pe rețele neuronale și lanțuri Markov ascunse (HMM). Totodată, în această perioadă au atras atenția cercetătorilor teoriile fonetice și fonologice cu implicații interesante în modelarea aspectelor prozodice ale semnalului vocal, în mod special a intonației. În ultimii ani au început să apară concepte conform cărora modelele prozodice realizează o reprezentare fonologică a vorbirii pe relațiile dintre funcțiile și formele prozodiei. În privința funcțiilor prozodiei unii cercetători studiază funcțiile lexicale, respectiv accentele și contrastele lexicale care apar între cuvinte, funcțiile intonației interogative și funcțiile paralingvistice, adică segmente de discurs, transmiterea de stări emoționale ale prozodiei. S-a pus în evidență o legătură directă între funcțiile comunicative ale prozodiei și formele intonaționale pe baza unei analize a contextului semantic și pragmatic a transmiterii mesajului de la vorbitor către ascultător [52]. La nivelul semnalului vocal, descrierile prozodice și cele emoționale sunt modelate cu ajutorul unor sisteme neliniare, pe baza unor parametrii extrași din unda vocală, respectiv conturul frecvenței fundamentale, perioada și energia segmentelor sonore, durata segmentelor nesonore și pauzelor, timbrul vocii e.t.c. Pentru a putea fi folosite în aplicații aceste descrieri sunt introduse în modele intonaționale, modele de timp, modele de energie și respectiv, modele pentru pauze și segmente nesonore. Modelele relevă legătura între variația în timp a acestor parametri și structura informațională a textului asociat semnalului vocal. Grupul acestor modele formează împreună modelul prozodic.

Modelele prozodice au avut o contribuție semnificativă la creșterea performanțelor sistemelor de recunoaștere vocală și a sistemelor de conversie voce-text. În cadrul sistemelor de recunoaștere vocală, modelele prozodice sunt folosite în principal pentru predicția evenimentelor prozodice (accente sintactice și semantice) asociate unui text. Implementarea prozodiei în procesarea vocală a permis obținerea de semnal vocal sintetizat cu conținut semantic [53].

Prin includerea elementelor prozodice în sinteza vocală, aplicațiile de conversie voce-text dezvoltate în ultimii ani sunt capabile să analizeze și să transmită mesaje cu conținut semantic dar și emoțional. Aceste sisteme sunt compuse în general din următoarele module:

modulul de procesare a textului – Natural Language Processing – realizează fonetizarea textului de intrare; completează textul de intrare cu detalii despre structura morfologică, sintactică și semantică a cuvintelor;

modulul prozodic – efectuează partiționarea textului în fraze și generează descrieri parametrice pentru elementele prozodice utilizate în aplicație; este vorba despre intonație, intensitatea sonoră, durata fonemelor și a pauzelor;

modulul fonetic – generează semnalele pentru comanda procesorului vocal pe baza informațiilor fonetice și prozodice recepționate de la modulele anterioare;

procesorul vocal – realizează generarea unui semnal procesat pe baza semnalelor generate de modulul fonetic.

Proiectarea și construirea modulelor unui sistem de conversie voce-text presupune parcurgerea unei serii de etape de procesare și analiză pe corpusuri paralele voce-text. Etapele urmăresc două direcții importante: analiza și adnotarea corpusurilor de voce la nivel fonologic, fonetic, prozodic și emoțional respectiv analiza și adnotarea corpusurilor de text la nivel sintactic, semantic și morfologic [54].

Introducerea elementelor de prozodie în sistemul de conversie voce-text au cunoscut două etape de dezvoltare:

prima abordare s-a concretizat pe partiționarea din punct de vedere intonațional a unui fragment dintr-o operă literară clasică, în grupuri de cuvinte care prezentau pattern-uri intonaționale. Împărțirea frazelor în grupuri de cuvinte și nivelul tonurilor erau stabilite în raport de anumite clase textuale și semne de punctuație folosind n-grame;

a doua abordare se referă la realizarea unei legături între analiza semantică și partiționarea intonațională a rostirilor unor texte folosind teoriile fonologice (în special teoria autosegmental-metrică) și respectiv analiza morfologică, semantică și sintactică a acestor texte.

2.4 Particularități ale unui sistem automat de speech analysis

Înțelegerea automată a vorbirii extinde scopul SR (speech recognition) încercând să producă informații de natură semantică privind semnificația propoziției/frazei generate de sistemul de SR. Recunoașterea automată a vorbirii prezintă un spectru larg de aplicabilitate. Un domeniu foarte important în prezent este cel al interfețelor hands-free și eyes-free. Alte domenii importante în care SR se aplică cu succes sunt sistemele de dialog pentru call-centere și sistemele de traducere speech-to-speech. Fiecare dintre aceste aplicații este de obicei mult mai restrictivă decât problema generală care impune transcrierea automată a vorbirii naturale continue, provenind de la un vorbitor necunoscut, în orice mediu. Un factor foarte important de care depinde dificultatea procesului de transcriere este sarcina de recunoaștere. Aceasta include specificitatea limbii, numărul de cuvinte ce pot fi pronunțate într-o fereastră a discursului și incertitudinea lingvistică a sarcinii de recunoaștere.

Pentru un număr mare de limbi de circulație nu există suficiente resurse acustice (baze de date de vorbire) și lingvistice (corpusuri de text). Alte limbi relevă o morfologie foarte complexă. Printre limbile cu morfologie complexă, se numără limba franceză sau română, cu vocabulare de dimensiuni mai mari decât limbile cu o morfologie mai simplă, cum ar fi limba engleză. Limbile germană și turcă sunt două dintre așa-numitele limbi aglutinative. În cadrul acestora se pot genera cuvinte noi prin concatenarea altor cuvinte sau morfeme. Astfel dimensiunea vocabularului de cuvinte pentru o limbă aglutinativă este mult mai mare, acest lucru complicând tehnica de recunoaștere automată a vorbirii. Cu toate acestea, dimensiunea mare a vocabularului nu înseamnă neapărat că sarcina de recunoaștere va fi mai dificilă. Incertitudinea lingvistică (perplexitatea) a potențialelor fragmente de comunicare verbală ce trebuie recunoscute constituie de asemenea un factor important. Rata de cuvinte eronate (word error rate) este cel mai utilizat criteriu de performanță utilizat în evaluarea sistemelor de SR [55].

Un alt factor important care influențează dificultatea procesului de SR este stilul vorbirii. Stilul vorbirii se referă la cât de fluent, natural sau conversațional este fragmentul de vorbire care trebuie recunoscut. Este clar că recunoașterea de cuvinte izolate, unde cuvintele sunt separate prin pauze de liniște, este mult mai simplă decât recunoașterea vorbirii continue, unde cuvintele sunt pronunțate legat și vorbirea trebuie segmentată înainte de recunoaștere. Dificultatea și, în consecință, acuratețea procesului de SR sunt influențate și de mediul acustic în care este înregistrată vorbirea și de canalul de transmisie. În afara studiourilor de înregistrare există, de obicei, mai multe surse acustice, inclusiv alți vorbitori, zgomot de fond, etc. În cele mai multe cazuri separarea semnalele acustice este o problemă foarte dificilă. Tehnica de înregistrare are, de asemenea, un impact semnificativ asupra acurateții recunoașterii vorbirii.

Nu în cele din urmă, caracteristicile vorbitorilor au un impact semnificativ asupra preciziei unui sistem de recunoaștere a vorbirii. Variabilitatea acestor caracteristici include accentul vorbitorului, limba sau dialectul folosit (elemente prozodice), faptul că vorbitorul este nativ sau nu, rapiditatea pronunției, vârsta vorbitorului și, desigur, diferențele anatomice și fiziologice care influențează producerea vorbirii [56].

2.5 Limite structurale ale implementării sistemelor de speech recognition

Configurația structurală optimă pentru sistemele de recunoaștere a vorbirii, în condițiile existenței unui număr foarte mare de parametri de proces și a complexității acestor sisteme, reprezintă un obiectiv dificil de atins. În cadrul analizei căilor de optimizare în acest caz trebuie luate în considerare o serie de variabile dintre care cele mai evidente sunt dimensiunea bazei de date, structura limbii vorbite ori tipul algoritmului de recunoaștere. O altă problemă o reprezintă identificarea strategiilor de achiziție a bazei date și de antrenare a modelelor acustice. Acest lucru se realizează prin variația diverșilor parametri ai modelului acustic. O altă componentă importantă se referă la studiul incertitudinii modelelor acustice și a confuziei între foneme. Un sistem speech recognition se bazează atât pe informația acustică obținută din datele de antrenare cât și de informații de natură lingvistică. De obicei procesele sunt organizate în module astfel încât să se poată dezvolta separat și executa secvențial. Am observat că recunoașterea modelelor acustice este cea mai dificilă problemă de rezolvat cu toate că și celelalte module sunt importante în procesul de optimizare. Modulul destinat prelucrării semnalului are ca funcție principală extragerea parametrilor acustici relevanți pentru procesul de recunoaștere a vorbirii. Acest modul are și funcții de detecție a activității vocale, filtrare a semnalului, reducere a zgomotului etc. Modulul acustic utilizează parametrii acustici ai semnalului vocal pentru a decide care este unitatea lingvistică pronunțată de către vorbitor. Unitățile de limbă care pot fi identificate sunt fonemele, difonemele, trifonemele, alofonele, silabele, etc, toate acestea fiind caracterizate din punct de vedere statistic de către modelul acustic. Modulul lexical, utilizând modele fonetice, impune restricții în sensul procesului de selecție a unităților lingvistice, cunoscut fiind faptul că nu toate succesiunile de foneme sunt posibile. Modulul sintactic introduce limitări suplimentare orientându-se la selecția de la nivelul asocierilor de cuvinte. Aceste restricții sunt practic regulile gramaticale sau informații statistice despre succesiuni de cuvinte, care reduc astfel sensibil numărul combinațiilor posibile ale cuvintelor presupuse de semantica textelor vorbite. Parametrii utilizați în speech recognition trebuie să dețină câteva particularități esențiale. În cazul în care parametrii sunt folosiți pentru compresie, important este ca semnalul reconstruit să fie cât mai aproape de semnalul original. La recunoașterea vorbirii, același fonem pronunțat de persoane diferite sau de aceeași persoană în situații diferite poate fi reprezentat printr-un set de parametri care variază în fiecare caz. Pentru că recunoașterea vorbirii reprezintă practic un proces de decizie, sunt utilizați cu precădere parametri ai căror valori ocupă un volum cât mai mic în spațiul multidimensional pentru un fonem dat iar aceste volumuri, pentru foneme diferite, trebuie să fie disjuncte [57]. Problemele principale care apar la implementarea acestor sisteme sunt legate în principal de distorsiuni ale semnalului sub formă de pierderi de pachete și de zgomotul de fond. O altă mare problemă o constituie studiul incertitudinii modelelor acustice și a confuziei între foneme, fapt ce conduce la scăderea ratei de recunoaștere a structurilor lingvistice. Un sistem de recunoaștere cu set de antrenare contruit pe o voce de calitate bună (fără zgomot) poate deveni ineficientă dacă există neconcordanțe între vocea din laborator cu cea obținută în condiții reale. Putem vorbi despre capabilitatea de a obține performanțe bune sub condiții de zgomot maxim, respectiv de sisteme tolerante la factorii perturbatori.

2.6. Utilizarea RNA în procesarea semnalelor și limbajului prin algoritmi de învățare

În prezent rețelele neuronale sunt utilizate într-o gamă foarte diversificată de aplicații. Prin analogie cu rețelele biologice, funcția RNA este determinată de legăturile (sinapse) dintre elemente. Ponderile legăturilor dintre elemente sunt cele care reflectă memorarea informației învățate de către rețea. RNA este instruită prin ajustarea acestor ponderi, conform unui algoritm special. Caracteristici importante:

Reprezentarea distribuită a informației – face ca efectul unei anumite intrări asupra ieșirii să depindă de toate ponderile din rețea

Capacitatea de generalizare – importantă în cazul unor situații care nu sunt prezăzute în datele din setul de instruire. Există o dependență între acestă caracteristică și numărul de ponderi adică dimensiunea rețelei. Se constată că creșterea numărului de ponderi conduce la o bună memorare dar scad totodată performanțele asupra datelor de testare. Stabilirea numărului optim de neuroni din stratul ascuns se poate face prin selectarea valorii de la care începe să descrească performanța RNA pe setul de testare.

Toleranța la zgomot – chiar dacă datele sunt afectate de zgomot, RNA pot fi instruite în condițiile diminuării performanței.

Rezistența la deteriorarea parțială – RNA poate funcționa și în cazul deteriorării parțiale a ei datorită reprezentării distribuite a informației.

Viteză de calcul – foarte bună deși consumă mult timp pentru instruire.

De asemenea RNA au avantajul că sunt structuri autonome oferind astfel pentru sistemele complexe o estimare exactă a dinamicii, fără informații privind modelul sistemului.

Un alt mare avantaj este că RNA pot elabora concluzii sau pot lua decizii chiar dacă au la dispoziție informații parțiale, complexe sau în prezența zgomotului.

Fig.16 Model neuronal de tip McCulloch & Pitts

O RNA poate fi antrenată să realizeze o anumită funcție prin ajustarea valorilor ponderilor dintre unități. Spre exemplu, în fig.16 se exemplifică modul în care într-o rețea neuronală de tip McCulloch & Pitts intrărilor Xi li se atașază o anumită pondere wi. De obicei RNA sunt antrenate astfel încât un anumit semnal la intrare să implice o anumită ieșire-țintă. Neuronul se activează (dă un semnal la ieșire) doar dacă semnalul de intrare depășește un anumit prag. La RNA acest efect este simulat aplicând sumei ponderate a intrărilor o funcție de transfer (de activare), pentru a obține semnal la ieșire. În privința arhitecturii RNA, doi sau mai mulți neuroni se pot combina într-un strat; astfel o RNA poate conține unul sau mai multe straturi de acest fel. Rețelele multistrat sunt foarte eficiente. Cele cu ,,transmitere înainte” au de obicei unul sau mai multe straturi ascunse cu neuroni sigmoidali, urmate de un strat cu neuroni liniari. Mai multe straturi de neuroni, cu funcții de transfer neliniare, permit rețelei să învețe relații liniare și neliniare între vectorii de intrare și de ieșire [58]. Există o serie de algoritmi pentru antrenare, rapizi, de înaltă performanță. Prima categorie utilizează tehnici euristice elaborate pe baza analizei performanței algoritmului standard de gradient descendent. Este vorba de propagarea inversă cu rată de instruire variabilă (traingda) și propagarea inversă flexibilă (trainrp). A doua categorie de algoritmi rapizi utilizează tehnici standard de optimizare numerică: gradientul conjugat (traincgf, trainscg, traincgb), quasi-Newton (trainbfg, trainnoss) și Levenberg-Marquardt (trainlm).

Foarte interesante sunt și așa numitele Rețele Neuronale cu funcții de bază radiale RBF (Radial Basis Functions), care au un singur strat ascuns în care funcțiile de activare sunt funcții de tip Gauss. Funcția de activare a neuronului din stratul de ieșire este funcția identică. Intrările sunt conectate direct la neuronii din stratul ascuns. Rețelele RBF sunt echivalente funcțional cu un sistem de inferență fuzzy. În acest caz se aleg funcții de apartenență de tip Gauss de aceeași deviație standard ca a rețelelor RBF și un număr de neuroni egal cu numărul de reguli de inferență.

Una dintre cele mai importante direcții de implementare a RNA este cea în domeniul translatării unui text scris în limbaj vorbit. De exemplu proiectul denumit Nettalk are la bază o rețea neuronală directă cu două straturi, instruită pe baza unei legi de învățare supervizată. Rețeaua neuronală Nettalk cuprinde un strat de intrare cu șapte neuroni, valorile admisibile de intrare fiind caracterele alfabetului englez și semnele de punctuație. Stratul ascuns este constituit din 80 de neuroni, iar stratul de ieșire din 26 de neuroni, fiecare corespunzând unei foneme. Rețeaua neuronală a fost antrenată cu ajutorul unui dicționar de 1024 cuvinte. După aproximativ 50 de ședințe de antrenament s-a obținut o precizie a pronunției de 95%. S-a constatat faptul că RNA a reușit să extragă din datele de antrenare o serie de trăsături esențiale ale procesului de vorbire. Astfel, neuronii din stratul ascuns răspund diferențiat, prin valori de activare mai mari sau mai mici, la vocale sau consoane. Se observă că în structura internă și în modul de stocare a datelor în rețea, se reflectă exact structura fonologică a limbii. Provocând deteriorări premeditate asupra rețelei neuronale Nettalk s-a produs o degradare continuă și lentă a performanțelor sale, dar nu catastrofală, deteriorarea putând fi imediat recuperată printr-o nouă fază de re-antrenare. Prin procesarea limbajului natural se realizează de fapt studiul modului de construcție a regulilor unui limbaj. Unii cercetători au studiat acest proces cu ajutorul unei rețele neuronale capabile să învețe timpul trecut al limbii engleze. Antrenând rețeaua neuronală, aceasta a progresat din faza unui începător care face greșeli de tipul elementar până la o fază de expert în care era capabilă de a determina timpul trecut pentru verbe neregulate. Abilitatea rețelei neuronale de a generaliza pe baza unor date incomplete și de a se auto-organiza au permis ca RNA să genereze răspunsuri corecte când i s-a prezentat un verb nou. Un alt domeniu important de utilizare a rețelelor neuronale îl reprezintă domeniul interpretării vizuale și al clasificării simbolurilor. Rețeaua neuronală poate fi antrenată să recunoască diferite scrisuri de mână, ea fiind capabilă să realizeze acastă sarcină cu o mare acuratețe. La ora actuală există un mare număr de sisteme de recunoaștere optică a caracterelor, numite OCR (Optical Character Recognition). Cuplând un OCR cu un RNA se obține o flexibilitate net superioară. După învățare, RNA este capabilă să recunoască o mare diversitate de scrieri și să facă presupuneri aproximativ exacte relativ la caracterele confuze. Există o gamă foarte diversificată de aplicabilitate a sistemelor de calcul neuronal și în domenii conexe cum ar fi Pattern Recognition. În cadrul acestui domeniu sistemele de calcul bazate pe RNA prezintă performanțe superioare sistemelor expert sau sistemelor clasice de calcul. Un exemplu concret îl reprezintă aplicarea RNA de tipul BP (BackPropagation) în identificarea și clasificarea țintelor radar. Este vorba despre o RNA cu două straturi; stratul de intrare conține un număr de 60 de neuroni iar stratul ascuns 12 neuroni. În general o rețeaua neuronală învață pe baza unui proces iterativ de ajustare a tăriilor sinaptice și eventual al nivelului de activare. Dacă procesul de învățare decurge normal atunci RNA acumulează la fiecare iterație tot mai multe informații. Un algoritm de învățare reprezintă un set de reguli predefinite care rezolvă problema "învățării". Un alt factor important al procesului de învățare este modul de raportare a unei rețele neuronale la paradigma de învățare [59].

2.7 Concepte și tehnici utilizate în Data Mining

Conceptele de Data Mining sunt integrate într-un domeniu mult mai amplu, acela al descoperirii de cunoștințe din bazele de date (KDD-Knowledge Discovery in Databases System). Algoritmii și procesele Data Mining vizează manipularea datelor din bazele de date, descoperirea de cunoștințe prin construirea unor modele predicționale din date structurate sau ne-structurate. O direcție importantă este cea care urmărește dezvoltarea și implementarea sistemelor de descoperire a regulilor de asociere. În acest sens Data Mining utilizează o serie de algoritmi de statistică, logică fuzzy, algoritmi genetici, rețele neuronale, învățare automată e.t.c. Data Mining adaptează tipul de învățare automată, orientată pe învățarea unor seturi de instrucțiuni generate artificial, la învățarea din baze de date reale. Modelul procesului Data Mining conține un set de filtre (faze de filtrare), specificate de utilizator sau de sistemul de descoperire, întreaga operație fiind coordonată de un controler central. Astfel, în faza inițială se efectuează o filtrare a datelor de interes pentru decoperirea cunoștințelor. În faza a doua se aplică un sistem de filtrare a tiparelor bazat pe selecții de modele sau tipuri de reguli. Efectul este de a reduce spațiul de reguli la anumite tipuri, respectiv reguli de asociere care au un anumit termen ca și componentă. Problema principală în Data Mining este de a obține un set consistent de reguli de asociere, respectiv seturi atribut-valoare, din seturi relevante din bazele de date, care să reflecte un anumit tip de comportament. Tipurile de baze de date pretabile la analiza Data Mining sunt: baze de date deductive, spațiale, text, multimedia, orientate pe obiect e.t.c. [60]

În Data Minig există o serie de tehnici performante de extragere a datelor:

Clasificarea bazată pe arbori de decizie: Metoda alege un subset din exemplele antrenate pentru a forma un arbore de decizie. Dacă acesta nu oferă un răspuns corect pentru toate obiectele, se adaugă o selecție a excepțiilor la arbore și procesul continuă până când setul corect de decizie este găsit.

Inducția arborelui de decizie: Este bazată pe faza de construcție a arborelui, prin divizare – splitting, urmată de faza de tăiere. Faza de construcție este un proces iterativ care implică divizarea progresivă a datelor în subseturi. La fiecare divizare sunt analizate variabilele și este aleasă cea mai bună divizare. Algoritmul de inducție al arborelui de decizie este alcătuit din algoritmul de bază (Greedy) și din condițiile de oprire a partiționării.

Extragerea regulilor din arborele de decizie: Arborii de decizie pot fi folosiți atât pentru modele predictive cât și descriptive. O serie de implementări oferă opțiunea de exportare a regulilor pentru a fi utilizate extern sau înglobate în alte aplicații.

Algoritmi de decizie: Dintre cei mai cunoscuți și utilizați se pot aminti – CART (Classification and Regression Trees), CHAID (Chisquared Automatic Interaction Detection), ID3/C4.5 și C5.0, SLIQ și SPRINT. Dintre caracteristicile acestor aplicații se pot distinge gruparea variabilelor pentru utilizarea regresiei, unele suportă doar divizarea binară, criterii bazate pe statistica Gini, chi-pătrat, rată de câștig și entropie. Generarea regulii se face prin metode de generare asociate arborilor, care elimină redundanța.

Algoritmul k-nearest neighbors: Este o tehnică predictivă pentru clasificarea modelelor. Este bazat pe conceptul de distanță necesitând astfel o metrică. Alegerea unei metrici potrivite este complicată deoarece diferite metrici utilizate pe același set de antrenare pot conduce la rezultate complet diferite.

Algoritmi de grupare (clustering): Aici grupurile nu sunt predefinite ca în algoritmii de clasificare. Moduri de definire:

Seturi similare. Elementele din clustere diferite nu sunt asemănătoare.

Distanța punctelor intragrup este inferioară celei dintre un punct interior clusterului și altul din exteriorul său. Pentru partiționare se utilizează tehnica ,,divide et impera”. Tehnica de grupare identifică grupuri dens populate în seturi mari sau multidimensionale de date.

Algoritmi bazați pe similaritate: Sunt utili atunci când mulțimea datelor este formată din grupuri liniare. O metrică poate induce o măsură de similaritate. Pentru cazurile în care valorile caracteristicilor de clasificat sunt finite, se pot utiliza ca metrici de similaritate distanțele Hamming și Lee.

Algoritmi cu rețele neuronale: Mai sunt denumite și SONN (Self-Organizing Neural Networks). Un tip special de arhitectură neuronală este SOM (Self Organizing Map), care oferă o mapare din spațiul multidimensional de intrare într-o latice de celule regulate redusă. O rețea SOM des utilizată este rețeaua Kohonen, cu aplicații în procesele de extragere de date comerciale pentru a realiza gruparea [61].

2.8 Modele Data Mining cu aplicabilitate în baze de date tranzacționale

Datorită importanței și aplicabilității pe care o au în diverse domenii, descoperirea regulilor de asociere din baze de date complexe și de dimensiuni mari a fost și este în continuare una din tehnicile Data Mining cel mai mult studiate.

Descoperirea de reguli de asociere se referă la identificarea unor asocieri interesante sau relații de legătură (corelații) în seturi mari de date, de exemplu: identificarea unor seturi de valori ale atributelor (predicate sau itemi) care apar frecvent împreună și ulterior, elaborarea unor reguli care să caracterizeze aceste relații. Descoperirea acestor reguli poate identifica tipare (patterns) sau comportamente care sunt apoi utilizate în diferite scopuri. În timp cercetările au dus la diferite moduri de formulare a acestor tehnici:

Extragerea de reguli de asociere booleene unidimensionale din baze de date tranzacționale

Extragerea de reguli de asociere multi-level din baze de date tranzacționale

Extragerea de reguli de asociere multidimensionale din baze de date tranzacționale și depozite de date (warehouse)

Extragerea de asocieri bazate pe constrângeri.

Extragerea regulilor de asociere a fost inițial implementată în marketing. Mai târziu ea a fost aplicată în multe alte domenii cum ar fi: afaceri, inginerie, medicină sau finanțe. Mai mult decât atât, unul din scopurile principale ale extragerii de reguli de asociere a fost acela de a fi adaptat altor probleme de tip Data Mining, cum ar fi modelarea datelor, prezicerea viitoarelor ieșiri din sistem sau pentru suport decizional managerial. Scopul unei reguli de asociere este de a identifica toate regulile cu un suport minim și o confidență minimă. Aceste valori sunt date ca și intrări ale problemei, fiind stabilite de utilizatori sau de specialiștii în domeniu. Selecția unei reguli de asociere se bazează pe cele două măsuri: confidența care măsoară puterea unei reguli și suportul care măsoară frecvența cu care aceasta apare în baza de date. Acest proces se realizează de obicei în două etape:

Identificarea tuturor tiparelor frecvente. Prin modul de definire, fiecare din aceste tipare va apare cu o frecvență cel puțin egală cu o valoare predefinită denumită suport minim.

Elaborarea unor reguli puternice din aceste tipare frecvente. De asemenea, prin definire, aceste reguli trebuie să satisfacă suportul minim și confidența minimă.

Datele utilizate de algoritmii de asociere sunt formate din entități și atribute și se pot transpune într-unul din cele două formate, vertical sau orizontal. Formatul orizontal presupune existența unei matrice conținând linii pentru fiecare entitate și de asemenea coloane pentru fiecare atribut. Formatul vertical presupune utilizarea mai multor linii pentru memorarea unei entități, utilizând o linie pentru fiecare atribut. Liniile care corespund unei singure entități au un număr de identificare comun. Acest tip de reprezentare este normalizat în sens relațional și permite ca o entitate să aibă o variabilitate mai mare, referitor la numărul de atribute. Unele aplicații de Data Mining suportă operația de conversie din format orizontal în format vertical. Algoritmii de asociere pot opera doar cu date de tip enumerare (categorical data) [62].

Câteva domenii importante în care găsim aplicații ale extragerii regulilor de asociere sunt:

descoperirea regulilor de asociere în sisteme GIS (Geographic Information System),

descoperirea regulilor de asociere în date temporale,

descoperirea regulilor de asociere în baze de date multimedia și în baze de date text,

descoperirea regulilor de asociere în baze de date multi-nivel și multidimensionale.

2.9 Combinarea algoritmilor genetici cu metoda FP-Growth în pattern recognition și text mining

Algoritmii genetici reprezintă o transpunere în informatică a principiilor care guvernează structurile biologice. Acești algoritmi AG codifică soluțiile unor probleme într-o structură de date de tip cromozom și aplică acestor structuri operatori de recombinare în scopul conservării informației utile. Cromozomul este de fapt un vector sau un șir de gene. Obiectivul unui algoritm genetic este de a obține cromozomi din ce în ce mai performanți până când se atinge o valoare optimă a raportului dintre evaluarea asociată unui șir și media evaluărilor tuturor șirurilor populației. O a doua alternativă evolutivă este imposibilitatea algoritmului de a mai aduce îmbunătățiri.

Căutarea prin AG prezintă diferențe fața de algoritmii de căutare obișnuiți, generali (hill-climbing, simulated annealing). Căutarea prin algoritmi genetici se face pe soluții codificate, plecînd de la o populație inițială și nu direct de la informația primară, iar operatorii acționează cu o anumită probabilitate, nefolosindu-se reguli deterministe. AG folosiți pentru căutarea unui anumit punct sau a unui optim, de fapt caută la un moment dat o mulțime de puncte, nu un singur punct din spațiul de căutare. Figura. 17 prezintă un operator crossover cu un singur punct de combinare.

Fig.17 Operator crossover cu un singur punct de combinare

Utilizarea algoritmilor genetici este recomandată pentru determinarea soluțiilor unor probleme neliniare, atunci când este practic imposibilă modelarea matematică sau euristică în respectivul domeniu. Câteva posibilități de aplicare a algoritmilor genetici în domeniile data mining și speech recognition se referă la:

Reglarea caracteristicilor funcționale ale unui sistem expert fuzzy pentru controlul proceselor;

Ajustarea parametrilor în sistemele expert bazate pe inferență fuzzy;

Creșterea performanțelor unui sistem expert prin încorporarea raționamentului bazat pe cazuri.

Datorită structurii lor, sistemele inteligente bazate pe algoritmi genetici (ISGA) se pretează excelent la problemele de căutare și localizare a structurilor și relațiilor specifice în cadrul bazelor de date vaste de cunoștințe (data mining). Aceste sisteme, datorită marii lor capacități de a învăța structuri și relații complexe din seturi de informații și cunoștințe incomplete, prezintă o bună adaptabilitate la schimbările care apar în mediile în care lucrează și pot fi folosite ca instrumente pentru descoperirea de noi cunoștințe. Algoritmii genetici efectuează o codificare a soluțiilor posibile ale problemei analizate în vectori de simboluri semnificative (de obicei de tip boolean) care reprezintă genomul (genotipul). Dacă funcția obiectiv nu este o funcție pseudo-booleană, fiecare vector va fi decodificat într-un set de variabile de decizie corespunzătoare (fenotipul) înainte de a fi evaluat fitness-ul indivizilor populației. Algoritmii genetici utilizați pentru modelarea proceselor adaptive recurg la șiruri binare, la operatori de crossover și mutație. Algoritmii genetici atribuie probabilități de împerechere și reproducere a indivizilor în corespondență cu valorile relative ale fitness-ului (funcției obiectiv) sau prin referințe la pozițiile relative rezultate din clasificarea după rang. Instrumentele principale utilizate în AG sunt: generarea aleatorie de soluții, împerecherea soluțiilor, mutația aplicată soluțiilor și evaluarea soluțiilor bazată pe valoarea fitness-ului. La rândul lor tehnicile Data Mining utilizează metode din domenii cum ar fi: baze de date, statistică, învățare automată, recunoașterea formelor și vizualizare. Tehnicile statistice sunt utilizate pentru explorarea datelor, preprocesarea datelor și postprocesarea datelor, construirea unui model statistic, testarea modelului și verificarea rezultatelor. Învățarea automată oferă algoritmi utili în extragerea datelor cum sunt inducția arborilor decizionali, rețele neuronale (RNA) și algoritmi genetici [63].

Metoda numită FP-Growth (Frequent Pattern Growth) extrage tipare frecvente fără a genera candidați. Metoda adoptă tehnica „divide et impera” pentru proiectarea și partiționarea bazei de date pe baza tiparelor frecvente descoperite și crește aceste tipare la dimensiunea bazei de date proiectată. Metoda FP-Growth este folosită pentru baze de date de dimensiuni mari și utilizează structura de date compactă, de tip arbore (FP-Tree), pentru a reprezenta datele în memoria calculatorului. Operația principală de extragere a tiparelor frecvente din baza de date se reduce astfel la parcurgerea acestui arbore și extragerea tiparelor frecvente din această structură compactă. Cu toate acestea, nu este sigur faptul că procesul va fi foarte eficient, deoarece ne putem confrunta cu problema combinatorică a generării candidaților dacă folosim această structură pentru generarea și verificarea tuturor tiparelor candidat.

2.10 Aplicabilitatea metodelor de învățare bayesiană în optimizarea transferului informațional

Sistemele elaborate pentru învățarea automată au în vedere îmbunătățirea performanței în raport cu o sarcină, pe baza experienței sintetizată apriori. Modelul general de realizare a unui de sistem de învățare, supervizată sau nesupervizată, trebuie să integreze patru componente de bază:

modulul de învățare – este cel proiectat să îmbunătățească performanțele pe baza unui set de cunoștințe elementare despre ceea ce învață și un feedback despre cum evoluează sistemul;

modulul de performanță – responsabil cu selectarea unei acțiuni la un moment dat;

modulul critic – conceput pentru a transmite sistemului feedback-ul despre gradul de reușită în sarcinile pe care le are de rezolvat și care are un prag predefinit de performanță;

modulul generator de probleme – responsabil pentru selecția și inițierea acțiunilor care vor duce la noi experiențe informative.

Unul dintre punctele importante în arhitectura unui sistem autoinstruibil este reprezentat de modulul destinat generării de feedback. Aceasta informație despre evoluția sistemului în rezolvarea sarcinilor identifică clasele de tipuri de învățare.

Învățarea supervizată – reprezintă un mod de învățare inductiv care pornește de la un set de exemple de instanțe ale problemei și crează o funcție de evaluare (șablon) care să permită clasificarea (rezolvarea) unor instanțe noi. Învățarea este supervizată în sensul că setul de exemple este dat împreună cu clasificarea acestora. Aceste instanțe structurate se numesc instanțe de antrenament.

Învățarea nesupervizată – elimină complet necesitatea unui modul cuprinzând instanțe de antrenament. Scopul învățării nesupervizate nu este definit apriori ca un concept țintă, algoritmul fiind lăsat singur să identifice concepte posibile. Învățarea nesupervizată presupune existența unor instanțe neclasificate, un set de reguli euristice pentru crearea de noi instanțe și evaluarea unor concepte deduse și eventual un model general al spațiului de cunoștințe în care se găsesc aceste instanțe. Un algoritm de învățare nesupervizată construiește concepte pentru a clasifica instanțele, le evaluează și le dezvoltă pe cele considerate importante de regulile euristice.

Învățarea prin întărire – se realizează fără ca algoritmul de învățare să compare direct șablonul obținut cu rezultatele corecte pentru exemplele de antrenament. În schimb este implementată o modalitate de corecție a sistemului în funcție de apropierea de rezultatul corect. Acest tip de feedback este singura modalitate a sistemului de învățare de a se regla pentru îmbunătățirea rezultatelor sale. Învățarea prin încurajare este utilă în situațiile în care nu se dispune de un set de antrenament și nu se pot identifica cu precizie instanțe valide sau eronate, fie din cauza complexității informației fie din cauza lipsei de informații certe.

Un aspect deosebit atât în privința învățării supervizate cât și a celei nesupervizate este cel reprezentat de preprocesarea datelor. Aceasta se realizează prin normalizare statistică, scalarea datelor numerice, analiza componentelor principale (ACP) sau selectarea anumitor proprietăți. Modelul Bayesian de învățare este relevant pentru studiul sistemelor automate de învățare din cel puțin două motive. Primul dintre acestea este că algoritmii de tip bayesian care calculează direct probabilitățile unor ipoteze, cum ar fi algoritmul de clasificare Naïve Bayes, sunt printre cele mai practice abordări pentru anumite tipuri de probleme de învățare [64]. Al doilea motiv pentru care metodele bayesiene sunt importante este că ele oferă o perspectivă utilă pentru înțelegerea mai ușoară a multor algoritmi de învățare care nu utilizează în mod explicit calculul probabilistic.

Una dintre cele mai vechi metode de clasificare este dată de Clasificatorul Naive Bayes (CNB). În multe domenii performanțele CNB au fost comparabile cu cele ale rețelelor neuronale (RNA) sau ale învățării prin arbori de decizie. CNB se bazează pe ipoteza că valorile atributelor sunt condiționate independent de valorile țintă. Utilizând CNB relațiile dintre variabilele dependente și predicții sunt estimate în mod izolat, fără a lua în calcul covarianța dintre predicții. Această metodă extrem de practică a învățării bayesiene se aplică pentru taskurile de învățare în cazurile în care fiecare instanță este descrisă printr-o conjuncție de valori și fiecare funcție țintă poate lua orice valoare dintr-un anumit set finit de valori.

Rețelele Bayesiene, cunoscute și sub numele de rețele de încredere, sunt modele grafice probabilistice cu o bună aplicabilitate în optimizarea informațională. Aici, fiecare nod al grafului reprezintă o variabilă aleatoare, în timp ce arcele exprimă dependențele probabilistice dintre nodurile conectate. Aceste dependențe condiționate sunt deseori calculate folosind metode de calcul statistic. Astfel, rețelele bayesiene combină principii din teoria grafurilor, teoria probabilităților și statistică matematică. O rețea Bayesiană descrie o repartiție probabilistică ce reglementează un set de variabile prin specificarea unui set de ipoteze independente condiționate și a unui set de probabilități condiționate. Spre diferență de CNB, care presupune că toate variabilele sunt independent condiționate, având în vedere valoarea variabilei țintă, rețelele Bayesiene permit specificarea ipotezelor condiționate independente care se aplică la subseturi de variabile [65].

2.11 Concluzii

Procesul de înregistrare, recunoaștere și procesare a vocii implicate în comunicarea de tip on-line se bazează pe existența unei baze de date care să conțină un număr semnificativ de unități acustice. Analiza acestor caracteristici vocale depinde într-o mare măsură de tehnica denumită speech segmentation și de constituire a unui corpus specializat pe comunicarea unidirecțională de tip radiofonic, cuprinzând și adnotările specifice. Segmentarea se bazează pe analiza caracteristicilor acustice și a modului de articulare a diferitelor tipuri de sunete din limba română. Faptul că aceste unități vor fi utilizate pentru un sistem de optimizare a discursului de tip radiofonic impune o serie de standarde în ceea ce privește calitatea lor. În acest sens sunt esențiale o serie de etape de preprocesare a textului (dacă acesta există ca suport fizic) și de calibrare a parametrilor acustici și vocali. Este vorba concret despre aplicarea unor metode de normalizare și dezambiguizare a textului redactat, transcrierea unei alternative fonetice, echilibrarea compozițional-lexicală a textului, detectarea accentului, și stabilirea locului unde se vor plasa pauzele de vorbire e.t.c. De asemenea trebuie realizată o adaptare prozodică optimă pentru a garanta transmiterea corectă a mesajului vizat.

Până recent, cercetările din domeniul recunoașterii și sintezei vocale au urmărit elaborarea unor metode și algoritmi pentru realizarea unor sisteme de recunoaștere vocală bazate pe rețele neuronale și lanțuri Markov ascunse (HMM). Totodată, în această perioadă au atras atenția cercetătorilor teoriile fonetice și fonologice cu implicații interesante în modelarea aspectelor prozodice ale semnalului vocal, în mod special intonația. S-a pus în evidență o legătură directă între funcțiile comunicative ale prozodiei și formele intonaționale pe baza unei analize a contextului semantic și pragmatic a transmiterii mesajului de la vorbitor către ascultător. La nivelul semnalului vocal, descrierile prozodice și cele emoționale sunt modelate cu ajutorul unor sisteme neliniare, pe baza unor parametrii extrași din unda vocală, respectiv conturul frecvenței fundamentale, perioada și energia segmentelor sonore, durata segmentelor nesonore și pauzelor, timbrul vocii e.t.c. Modelele relevă legătura între variația în timp a acestor parametri și structura informațională a textului asociat semnalului vocal. Proiectarea și construirea modulelor unui sistem de conversie voce-text presupune parcurgerea unei serii de etape de procesare și analiză pe corpusuri paralele voce-text. Etapele urmăresc două direcții importante: analiza și adnotarea corpusurilor de voce la nivel fonologic, fonetic, prozodic și emoțional respectiv analiza și adnotarea corpusurilor de text la nivel sintactic, semantic și morfologic. Rata de cuvinte eronate (word error rate) este cel mai utilizat criteriu de performanță utilizat în evaluarea sistemelor de SR. Un alt factor important care influențează dificultatea procesului de SR este stilul vorbirii.

Algoritmii și procesele Data Mining vizează manipularea datelor din bazele de date, descoperirea de cunoștințe prin construirea unor modele predicționale din date structurate sau ne-structurate. Problema principală în Data Mining este de a obține un set consistent de reguli de asociere, respectiv seturi atribut-valoare, din seturi relevante din bazele de date, care să reflecte un anumit tip de comportament. Descoperirea de reguli de asociere se referă la identificarea unor asocieri interesante sau relații de legătură (corelații) în seturi mari de date, de exemplu, identificarea unor seturi de valori ale atributelor (predicate sau itemi) care apar frecvent împreună, și ulterior, elaborarea unor reguli care să caracterizeze aceste relații. Interesant ca aplicabilitate în elaborarea unui analizor fonetic în timp real este tandemul format din metoda denumită FP-Growth și algoritmi genetici, datorită performanțelor pe care acestea le prezintă în generarea aleatorie de soluții simultan cu extragerea de tipare, învățarea de tip nesupervizat și evaluarea și estimarea de alternative optime pentru corecția parametrilor implicați în procesul comunicării vocale.

Cap.3 Transmisia informației în mediul radiofonic

Particularități ale comunicării de tip radiofonic

Multitudinea canalelor de difuzare și receptare a informației a căpătat de-a lungul timpului noi dimensiuni. Trecerea de la presa scrisă la cea radiofonică și ulterior la televiziune, presă online și distribuirea informației în social media, a lărgit gradul de interes pentru accesarea informației, dar concomitent cu aceasta s-au mărit și cantitatea, calitatea și viteza de transmisie a acesteia. Limbajul verbal reprezintă principala formă de comunicare interumană. Optimizarea acestui tip de transfer informațional, indiferent de caracterul său unidirecțional sau biunivoc, trebuie să se conformeze rigurozității unui domeniu care se ocupă exclusiv, sistematic și științific fundamentat, de toate aspectele reale ale comunicării ,,on-air". Este vorba despre comunicarea radiofonică. Vocea umană are tonalități mai joase sau mai înalte. În radio sunt preferate, din motive radiogenice, voci cu tonalități de frecvență medie, considerate a fi mai inteligibile. ,,Vocea de piept" care se formează în torace, la nivelul sternului, prezintă tonalități plăcute și de aceea este preferată în radiofonie. Spre diferență, ,,vocea de gât" prezintă tonalități mai înalte și poate afecta în mod neplăcut auzul. În radiofonie vocea se testează prin imprimare, deoarece s-a constatat că ea suferă o anumită transformare atunci când este prelucrată prin lanțul de procesare electronică. O voce radiofonică este pusă în valoare prin ton, exprimare, inflexiuni și mod de adresare. Dacă în comunicarea scrisă există posibilitatea atragerii atenției asupra unei idei prin subliniere sau modificarea caracterelor din text, în radio nu se poate face acest lucru decât prin voce; astfel aceasta nu trebuie să fie monotonă sau să prezinte doar un singur registru. De asemenea este imperios necesar să existe o pronunție clară și o dicție bună. Un comunicator radio trebuie să stăpânească bine știința respirației când transmite un mesaj prin intermediul microfonului. De multe ori o pauză incorect plasată în transmiterea mesajului verbal poate da o anumită semnificație, uneori nedorită, textului.

Radioul este cotat ca fiind cel mai rapid canal de comunicare în masă, datorită vitezei în prelucrare și a timpului scurt consumat de la obținerea informației până la emisie. În altă ordine de idei, ascultătorul trebuie să simtă că lui i se transmite un anumit conținut. În primul rând, mesajul transmis și receptat, trebuie să fie corect, coerent și dinamic din punct de vedere gramatical dar și stilistic. În al doilea rând, nu există un mod preferabil de a citi sau prezenta un text, universal valabil. La modul ideal, pe lângă fluență și dicție, este necesară nuanțarea și accentuarea ideilor, adică o exprimare a sensurilor nu doar a cuvintelor. Pentru aceasta, condiția necesară este ca cel care rostește un text să parcurgă preliminar și să înțeleagă semnificația compozițională a textului mesajului. Este evident că o comunicare unidirecțională optimă trebuie să respecte spiritul textului, fără să-l denatureze prin intonații tendențioase. Dincolo de parametrii prozodici ai comunicării, un parametru important în procesul rostirii de tip radiofonic este ritmul redării și viteza cu care este comunicat un text. O lectură prea rapidă face textul greu de urmărit iar una prea lentă plictisește. Un ritm susținut dă tensiune și sporește interesul, dar întins pe o durată prea lungă poate deveni obositor [66]. Viteza aleasă trebuie să fie adecvată conținutului și genului mesajului transmis, deoarece nepotrivirile dau senzația de artificial și neprofesional. Pauzele în procesul rostirii marchează ritmul acesteia și subliniază ideile mai importante, lăsând totodată timp ascultătorului/interlocutorului pentru a înțelege și a concepe un răspuns, interior sau explicit. De asemenea accentuarea cuvintelor cheie dar și transmiterea componentei emoționale nu trebuie să depășească anumite limite.

3.2 Caracteristici bioacustice și fonologice ale semnalului vocal

În sistemul disciplinelor lingvistice și ale comunicării, fonologia reprezintă un domeniu științific special datorită faptului că obiectul său de studiu îl reprezintă rezultatul vorbirii, semnalul rostit, element comunicațional care înglobează și exprimă concret atât latura fizică și fiziologică precum și cea socio-psihică a limbii.

Unda sonoră reprezintă o serie de compresii și de extensii alternative ale mediului de propagare. Caracteristicile fundamentale ale semnalului vocal perceput sunt: tăria sonoră, înălțimea tonală, timbrul sonor și durata.

Tăria sonoră este dată de valoarea multiplicată de zece ori a raportului dintre intensitatea sonoră (I) a semnalului care provocă senzația auditivă și intensitatea sonoră minimă (Imin) a unui semnal sonor, cu aceeași frecvență, care poate fi perceput de o ureche normală.

Tăria sunetului într-un anumit punct din spațiu este determinată de cantitatea de energie pe care o transportă unda sonoră în unitatea de timp prin unitatea de suprafață așezată în acel punct, perpendicular pe direcția de propagare.

Înălțimea tonală a semnalului vocal depinde direct de frecvența fundamentală (F0-pitch) a semnalului sonor și este exprimată prin tonuri și semitonuri dar și prin octavele cărora le aparțin. Această caracteristică sonoră este una relativă, înălțimea tonală crescând odată cu creșterea frecvenței semnalului în funcție de înălțimea unui ton de reper. La nivel de percepție tăria sonoră și înălțimea tonală se influențează reciproc.

Timbrul sonor este o mărime direct dependentă de existența și structura armonicelor unui semnal acustic complex. Între sunetele de aceeași intensitate și înălțime, emise de instrumente diferite există o deosebire calitativă pe care o numim timbrul sonor. Două semnale vocale care prezintă aceeași frecvență fundamentală dar armonici diferite sunt percepute ca sunete având aceeași înălțime tonală dar timbru diferit. Aceasta este modalitatea principală prin care se face deosebirea între diferitele voci.

Durata semnalului vocal se referă la intervalul de timp cât acesta este perceput și reprezintă efectiv proprietatea sunetului de a fi mai lung sau mai scurt în timp. Este calculat din primul moment al percepției și până la dispariția ultimei cuante sonore receptate de sistemul auditiv.

Analiza structurii unui sunet permite obținerea unui spectru caracteristic fiecărei surse (amprenta sonoră). Această proprietate permite recunoașterea persoanelor după voce. În general, un semnal vocal este considerat a fi muzical atunci când în sursa fonatorie se formează unde staționare, sunetele emise fiind periodice. Semnalul sonor muzical prezintă o serie de particularități precum:

O înălțime tonală constantă, riguros determinată și identificabilă; modificarea acesteia trebuie să se substituie strict voinței sursei emitente;

O intensitate sonoră/tărie sonoră care să poată fi modulată oricând după dorință de către sursa emitentă, în funcție de limitările contextuale;

Un timbru sonor distinct, personal și bine definit;

O durată care să reprezinte corect și complet conținutul mesajului sau tronsonului informațional supus redării, suficientă cerințelor comunicării și exigențelor auditoriului. [67]

Mecanismul fonației este format dintr-o serie de organe aparținând sistemului muscular și osos al corpului. Dintre acestea mai importante sunt: plămânii, diafragma, traheea, laringele, faringele bucal, faringele nazal, fosele nazale, cavitatea bucală, dinții, limba, buzele, palatul și oasele feței. Din punct de vedere fiziologic, actul vorbirii debutează prin generarea unui flux de aer provenind din plămâni sau diafragmă, care trece apoi prin laringe unde este modulat prin intermediul corzilor vocale. Acest pas se numește fonație și determină înălțimea și tonul vocii. Aparatul fonator uman nu este un sistem special destinat producerii vorbirii ci este realizat prin adaptarea la această funcție a unor organe aparținând în principal aparatelor respirator și masticator [68]. În privința fonației, structura aparatului fonator uman este formată din trei componente principale:

Cavitatea toracică – structură anatomică ce conține plămânii, în ipostaza de rezervor de aer sub presiune;

Corzile vocale – formațiuni musculare supuse unei tensiuni de tip mecanic și care vibrează în timpul fonației. Corzile vocale emit sunetul primar, caracterizat printr-o mare bogăție de armonici;

Cavități aeriene superioare rezonante – cavitatea bucală, nazală și laringele. Acestea joacă un rol foarte important în calitate de rezonatori, intră în rezonanță doar cu o parte a armonicelor sunetului primar generat de corzile vocale, urmând să le amplifice doar pe acestea și realizând astfel sunetul final (secundar).

În laringe există patru corzi vocale (două superioare și două inferioare), între care se află o deschizătură (glota interligamentoasă). În momentul pronunției unui sunet, corzile vocale vibrează generând frecvența fundamentalăa vocii. Acțiunea corzilor vocale este impulsionată și pilotată de către sistemul nervos central. Faringele orientează direcția fluxului de aer spre cavitatea bucală, spre cavitatea nazală sau spre amândouă simultan, aerul fiind astfel filtrat de gură, nas și gât – proces numit articulare (fig.18).

Fig.18 Organul fonator uman: (a) schemă echivalentă; (b) reprezentare anatomică

Ca un efect a acestei arhitecturi fiziologice se evidențiază anumite particularități ale spectrului vorbirii în domeniul frecvență. Inițial oscilația glotei creează frecvența fundamentală F0 și totodată o serie de armonici cuantificate sub formă de multipli ai frecvenței F0. Cea mai mică unitate sonoră a limbii este fonemul. Acesta are rolul de a diferenția cuvintele între ele dar și în ceea ce privește formele gramaticale în care același cuvânt este folosit. În special fonemele vocale prezintă în cadrul spectrului sonor regiuni caracteristice de energie înaltă. Aceste regiuni de energie ridicată sunt de fapt formanții, identificarea și analiza acestora conducând atât la identificarea fonemelor cât și a vorbitorilor. Fonemele se coarticulează ceea ce face ca porțiunile lor inițiale și finale să se transforme în sunete de tranziție spre fonemul anterior sau posterior. În general sunetele vocale se clasifică în consoane, sonante, vocale și semivocale [70].

Consoanele sunt elemente fonemice produse prin obturarea diferită a fluxului de aer expirat, de-a lungul canalului fonator. Consoanele se clasifică după modul de articulare, după zona de articulare și după sonoritate. După modul de articulare se clasifică în ocluzive, fricative, africate, sonante, vibrante și nazale. După zona de articulare se clasifică în bilabiale, labiodentale, alveolare, palatale, velare și glotale. După sonoritate, sunt sonore și nesonore. Conform Alfabetului Fonetic Internațional [71] avem următoarea clasificare, pentru limba română, prezentată în tabelul 1.

Sonantele reprezintă o subclasă a consoanelor, localizate între vocale și consoanele propriu zise. Conform modului de articulare, sonantele se împart în ocluzive (/m/, /n/) și constrictive (/l/, /r/). Conform zonei de articulare sunt bilabiale (/m/) și dentale (/n/, /l/, /r/). O altă clasificare, după modul de articulare, le împarte în nazale (/m/, /n/) și lichide (/l/, /r/).

Vocalele sunt oscilații sonore cu o durată mai mare de 0.02 secunde. Sunt foneme generate prin trecerea liberă a fluxului de aer prin tractul vocal, fără obstacole pe parcurs. Vocalele se disting prin timbru – reprezentat prin armonici și înălțime tonală – reprezentată de frecvența fundamentală. Vocalele sunt realizate doar prin vibrația corzilor vocale și prezintă articulație deschisă. Clasificarea conform Alfabetului Fonetic Internațional [71] este elaborată după trei criterii:

gradul de deschidere (apertura): închise, medii (semideschise) și deschise

zona de articulare: anterioare, centrale (neutre) și posterioare (postpalatale)

rotunjime: rotunjite (labializate) și nerotunjite (nelabializate). (fig.19)

Tabel 1 Clasificarea consoanelor limbii române

Semivocalele sunt foneme nesilabice din cadrul unui diftong. Acestea sunt asemănătoare consoanelor în ceea ce privește geometria organelor articulatorii dar și cu vocalele în privința tensiunii musculare. Semivocalele nu pot forma singure o silabă și reprezintă variante ale vocalelor /i/, /o/, /u/ și /e/.

Fig.19 Clasificarea vocalelor conform aperturii, zonei de articulare și rotunjimii

3.3 Elemente de transmisie și prelucrare radiofonică a semnalului vocal

3.3.1 Aspecte teoretice privind sistemele acustice

Un semnal de frecvență audio este caracterizat de o variație periodică a presiunii atmosferice. Domeniul acceptat pentru frecvențele audio este cel de la 20 Hz până la 20 KHz. Orice sunet este asociat cu un spectru de frecvențe audio. De asemenea, un sunet se manifestă prin variații de presiune care se transmit (se propagă) atât prin fluide cât și prin solide. Prin urmare, un sunet este însoțit de o transmisie la distanță a unei energii mecanice, iar mediul de transmisie poate fi gaz, lichid sau solid. Viteza de deplasare a sunetului depinde de mediul de propagare:

aproximativ 343 m/s dacă mediul este aerul din atmosferă (200C);

aproximativ 1482 m/s dacă mediul este apa (200C);

aproximativ 5960 m/s dacă mediul este un corp din oțel (200C).

Un sunet special, cu spectrul format dintr-o singură frecvență audio, va fi caracterizat de următoarele mărimi: frecvență (f), perioadă (T), lungime de undă (λ), amplitudine vârf-vârf (Av-v), valoare eficace (Aef). Aceste caracteristici sunt în general proprietăți ale undelor. Transformarea unui sunet în semnal electric se realizează cu ajutorul microfonului. Microfonul transformă variațiile de presiune în variații de amplitudine ale tensiunii semnalului electric. Microfonul este utilizat în multe aplicații: convorbiri telefonice, înregistrări audio, producții cinematografice, proteze auditive, radiodifuziune, televiziune [72].

Fabricarea microfoanelor se face plecând de la următoarele principii de funcționare:

generarea electromagnetică a semnalului electric într-o bobină (microfonul dinamic);

generarea semnalului electric prin modificarea unei capacități (microfonul cu condensator);

generarea semnalului electric prin presiune mecanică asupra unui cristal special (microfonul piezoelectric).

Fiecare din cele trei principii presupune existența unei membrane mobile, care este deplasată de semnalul sonor prin intermediul variațiilor de presiune:

microfon dinamic – membrana mobilă este solidară cu o bobină de dimensiuni mici, care se va mișca într-un câmp magnetic permanent, dând naștere unui curent variabil;

microfon cu condensator – membrana mobilă constituie una dintre cele două armături ale unui condensator care are capacitate variabilă;

microfon piezoelectric – membrana mobilă determină o presiune mecanică pe un cristal special (piezoelectric), care în funcție de presiune genează o tensiune electrică variabilă [73].

Deoarece semnalul electric obținut cu un microfon este de valoare mică, se impune utilizarea unui amplificator de tensiune. În figura 20 este reprezentat schematic amplificatorul de microfon.

Fig.20 Schema unui amplificator de microfon

Semnalul de radiofrecvență

Semnalul de radiofrecvență este un semnal electric alternativ care aplicat unei antene determină apariția și propagarea undelor radio. Propagarea undelor radio în spațiul atmosferic se realizează aproximativ cu viteza de 300.000 Km/s. Semnalul de radiofrecvență fiind un semnal alternativ de perioadă T va fi caracterizat și de o lungime de undă proprie (). Lungimea de undă este definită ca fiind dată de distanța parcursă de semnalul de radiofrecvență pe durata unei perioade T. Este cunoscut faptul că frecvența f și perioada T a unui semnal sinusoidal variază invers proporțional. Spectrul semnalelor de radiofrecvență este împărțit în benzi după frecvență și lungimea de undă, în conformitate cu tabelul 2.

Pentru o transmisie eficientă de radiodifuziune (L, FM, S, M) este necesar ca antena (în special cea de emisie, dar și cea de recepție) să aibă dimensiunea în funcție de lungimea de undă a semnalului de radiofrecvență. În cazul undelor radio cu lungimea de undă foarte mare (undele lungi și medii) acest aspect devine un inconvenient de utilizare. Propagarea undelor de radiodifuziune de la antena de emisie spre antenele de recepție se poate face în trei moduri:

propagarea în linie dreaptă (FM);

propagarea cu ajutorul reflexiei în ionosferă (M, S):

propagarea la nivelul solului prin unde de suprafață (L).

TABEL 2 – Benzile de radiofrecvență

Microundele se propagă în linie dreaptă, fiind nevoie de vizibilitate directă între antena de emisie și antena de recepție. În domeniul microundelor sunt utilizate antene parabolice, al căror diametru este proporțional cu lungimea de undă [72],[74].

Prelucrarea semnalelor în telecomunicații

Semnalele electrice cu care se lucrează în radio și telecomunicații se împart în două mari categorii: semnale analogice și semnale digitale (numerice).

Semnalul analogic este un semnal continuu, atât pe axa timpului cât și pe axa amplitudinilor. Un exemplu tipic de astfel de semnal este tensiunea de ieșire a unui microfon, care este continuu variabilă în funcție de tăria semnalului sonor.

Semnalul numeric este discontinuu atât în timp cât și în amplitudine. Prin urmare, un semnal analogic poate fi transformat în semnal numeric prin procedee de ,,întrerupere” a continuității în timp și simultan a continuității în amplitudine. Este necesar ca aceste discontinuități să nu determine pierderi semnificative din ceea ce reprezintă informația înmagazinată în forma continuă a semnalului analogic [75].

În telecomunicații semnalele analogice și cele numerice au avut multă vreme o existență distinctă și independentă. Transmisiunile telefonice, radio și de televiziune funcționau exclusiv cu semnale analogice iar în telegrafie și în transmisiunile de date se foloseau exclusiv semnale numerice. Semnalul digital, caracteristic inițial telegrafiei și transmisiunilor de date, are avantajul simplității, este mult mai rezistent la zgomot în comparație cu cel analogic, iar echipamentul de transmisie utilizat este fiabil și nepretențios din punctul de vedere al reglajelor necesare. La început, aparatura digitală a avut un grad de complexitate ridicat, însă, odată cu apariția circuitelor digitale integrate, proiectarea acestei aparaturi nu a mai ridicat probleme deosebite. Avantajele transmisiunilor numerice au determinat elaborarea unor procedee tehnice pentru transmisia digitală a informațiilor de tip analogic. Modulația impulsurilor în cod (PCM –Pulse Code Modulation), a fost primul procedeu adoptat în cele mai multe dintre aplicații. Ulterior, o serie de alte procedee au fost implementate cu scopul de a se obține un debit binar cât mai scăzut pentru un anumit semnal analogic (modulația Delta, modulația Delta adaptivă, modulația PCM diferențială, tehnici de predicție, etc.). În domeniul transmisiilor digitale video, unde cantitatea de informație este foarte mare, s-au implementat tehnici speciale de codare și compresie, dezvoltate prin seria standardelor MPEG (Moving Pictures Experts Group). Identificarea soluțiilor pentru transmisia numerică a semnalelor analogice, a făcut posibilă oferta serviciilor integrate ISDN (Integrated Services Digital Network), prin intermediul rețelei mondiale de telecomunicații.

Eșantionarea este procedeul prin care un semnal continuu în timp este înlocuit cu o serie ordonată de impulsuri situate la intervale egale de timp, ale căror amplitudini sunt determinate de valoarea semnalului continuu în momentele respective. În figura 21 este reprezentat procedeul de eșantionare aplicat semnalului s(t).

Impulsurile sunt denumite în continuare eșantioane: E0, E1, E2, etc. Durata unui eșantion este notată cu ti. Intervalul dintre două eșantioane succesive notat cu TE reprezintă perioada de eșantionare. Frecvența de eșantionare egală cu inversul perioadei de eșantionare (fE=1/TE), specifică în același timp numărul de eșantioane transmise într-o secundă.

Teorema eșantionării precizează că un semnal continuu în timp, cu spectrul limitat la o frecvență maximă fMax, este complet definit de eșantioanele sale, dacă se alege frevența de eșantionare astfel ca să respecte relația: fE 2fMax. Prin urmare, rezultă că dacă sunt transmise în fiecare secundă un număr n cel puțin egal cu dublul lui fMax de eșantioane egal distanțate, acestea vor fi suficiente pentru recompunerea semnalului analogic la recepție. Aplicarea raționamentelor anterioare la semnalul vocal, determină următoarele rezultate acceptate prin norme internaționale:

deoarece spectrul vocal are fMax=3,4 kHz, s-a ales frecvența de eșantionare pentru semnalul telefonic : fE = 8 kHz 2fMax;

perioada de eșantionare este : TE=125s;

în cazul transmisiei semnalului vocal prin PCM, se transmit în fiecare secundă un număr n=8000 eșantioane egal distanțate.

Prin eșantionare se realizează doar o transformare analog/discretă, impulsurile semnalului discret putând să aibă orice valoare, în concordanță cu amplitudinile semnalului analogic [76].

Prin cuantizare, din numărul infinit al valorilor posibile pentru amplitudinile impulsurilor, vor fi atribuite numai anumite valori bine stabilite. În acest sens, domeniul amplitudinilor posibile este divizat într-un număr finit de intervale de cuantizare. Toate amplitudinile care aparțin unui anumit interval vor primi aceeași valoare numerică, specifică acelui interval. În figura 22 este reprezentată în mod sugestiv operația de cuantizare pentru cazul unui semnal în reprezentarea tensiune-timp.

Fig.22 Operatia de cuantizare

Este evident că operația de cuantizare determină la recepție erori la refacerea semnalului. Zgomotul de cuantizare este micșorat prin mărirea numărului intervalelor, ceea ce implică o complexitate mai ridicată a echipamentelor de telecomunicații. În cazul semnalului vocal utilizat în telefonie, cuantizarea acestuia se realizează cu un număr de 256 intervale, rezultând 256 valori posibile (128 nivele pozitive și alte 128 nivele negative).

După operațiile de eșantionare și cuantizare se obține o transformare analogic/numeric de tip zecimal, impulsurile semnalului discret putând să aibă o mulțime de valori. La recepție, determinarea acestor valori cu precizie ar fi destul de dificilă, deoarece cu cât numărul valorilor transmise este mai mare prin micșorarea diferențelor dintre ele crește posibilitatea unei interpretări eronate.

Codificarea este operația care ușurează interpretarea necesară la recepție. Fiecare dintre cele 256 valori posibile vor fi codificate binar, un eșantion putând să fie reprezentat pe 8 biți. Bitul cel mai din stânga va specifica semnul, iar următorii 7 biți vor desemna amplitudinea eșantionului care va fi cuprinsă între 0 și 127. După operațiile de eșantionare, cuantizare și codificare se obține o transformare analogic/numeric binară, cu alte cuvinte semnalul analogic este transformat în semnal digital. Transmisia binară simplifică interpretarea la recepție, numărul nivelelor de decizie reducându-se de la 256 la două valori. În figura 23 este reprezentat într-un mod simplificat, procedeul de obținere a semnalului PCM [77].

La momentul “0” se transmite valoarea binară a eșantionului E0, apoi la momentul “1” se transmite valoarea binară a eșantionului E1 ș.a.m.d. În canalul de comunicație se formează un flux de valori de tip binar. În cazul semnalului telefonic PCM, semnalul digital transmis va avea un debit pe secundă: 8000 eșantioane8 biți = 64Kb/s.

Valorile binare ale semnalului digital sunt transmise pe canalul de comunicație fie în banda de bază (neprelucrat), fie printr-o codificare liniară, fie prin modulare digitală [77].

Transmisia radiofonică

Informația transmisă printr-un canal de radiodifuziune de la un post de emisie oarecare la un radioascultător se constituie într-un ,,lanț de transmisiune”, reprezentat simplificat în fig. 24.

Componentele lanțului de transmisiune în radiofonie sunt:

Partea de emisie (oscilatorul de radiofrecvență, amplificatorul de audiofrecvență, modulatorul și antena de emisie AE)

Partea de recepție (antena de recepție AR, circuitul selectiv, demodulatorul, amplificatorul de audiofrecvență și difuzorul)

Legătura dintre emisie și recepție, care se realizează printr-un canal radio

Rolul blocurilor din figură:

Oscilatorul de radiofrecvență (RF) stabilește frecvența pilot (frecvența purtătoare) a stației de emisie.

Amplificatorul de audiofrecvență (AF) mărește semnalul audio (semnal modulator) la un nivel necesar.

Modulatorul realizează modificarea semnalului purtător de radiofrecvență (modificarea amplitudinii, sau a frecvenței), după o comandă venită de la semnalul audio.

Antena de emisie (AE) transmite on-air semnalul de radiofrecvență modulat

Canalul radio corespunde unei benzi de frecvență alocată în cazul unei anumite zone de recepție exclusiv postului de emisie recepționat. Banda necesară unei transmisii pe unde medii se încadrează în intervalul ±9 kHz, respectiv în cazul unei transmisii pe unde ultrascurte este între ±300 kHz, de o parte și alta a frecvenței stației de emisie.

Antena de recepție (AR) captează semnalul de radiofrecvență emis și ajuns la recepție prin intermediul diverselor canale radio.

Circuitul selectiv selectează semnalul emis de postul urmărit a fi ascultat.

Demodulatorul extrage informația audio din semnalul de radiofrecvență modulat.

Amplificatorul audio (AF) mărește amplitudinea semnalului de audiofrecvență și excită cu acest semnal un difuzor.

Caracteristicile tehnice de performanță în blocul de emisie sunt următoarele:

O stabilitate foarte ridicată a frecvenței purtătoare (frecvența pilot);

O precizie foarte bună a transformării prin modulație;

O putere relativ mare a semnalului de radiofrecvență modulat și emis pe canalul radio.

În cazul radioreceptoarelor cu sinteză de frecvență oscilatorul local beneficiază de avantajele tehnologiei digitale, acordul nemaifiind realizat prin rotirea unui dublu condensator ci prin comenzi digitale „înainte” sau „înapoi”. Funcțiile cele mai importante asigurate de o schemă cu sinteză de frecvență sunt următoarele:

asigurarea unei stabilități a oscilatorului local comparabilă cu cea a generatorului cu cristal de cuarț;

căutarea automată a canalelor radio care pot fi recepționate;

acordarea fină în mod manual sau automat pe fiecare post recepționat;

stabilirea unui prag limită pentru semnalul recepționat sub care nu este luată în considerare recepția, neasigurându-se o calitate acceptabilă [78].

Acordul la recepție se realizează cu ajutorul unor circuite selective de radiofrecvență. Un rol important îl are schimbătorul de frecvență, care asigură la ieșirea sa un semnal cu frecvența constantă, denumită frecvență intermediară:

unde:

fi este frecvența intermediară;

fo este frecvența oscilatorului local;

fr este frecvența semnalului recepționat.

Schimbătorul de frecvență generează de fapt atât semnalul diferență fo– fr, cât și un semnal sumă: fo + fr. La ieșire semnalul sumă este suprimat prin filtrare. Parte a schimbătorului de frecvență este oscilatorul local care asigură la ieșirea sa o frecvență variabilă fo obținută prin operarea asupra capacității unui condensator variabil. Această operație corespunde selecției postului de emisie dorit (acordarea radioreceptorului). Deoarece condensatorul variabil al oscilatorului local este cuplat în tandem cu un alt condensator variabil care asigură selectivitatea circuitelor de intrare, rezultă o dependență între fo și fr și prin urmare, operația de selectare a unei stații de radio este mult mai simplă și mai sigură.

Amplificatorul de frecvență intermediară este un amplificator deosebit de performant prin selectivitate și prin valoarea amplificării. În majoritatea radioreceptoarelor superheterodină, banda amplificatorului AFI are frecvența centrală, fie 455 KHz în cazul recepției AM, fie 10,7 MHz în cazul recepției FM. Prin amplificatorul de frecvență intermediară s-a rezolvat în mare parte problema sensibilității receptoarelor. Trebuie avut în vedere că frecvența oscilatorului local se modifică atunci când se face acordul radioreceptorului, în corelație strânsă cu frecvența semnalului recepționat. Acest proces este posibil prin existența unui condensatorului variabil dublu.

Filtrele sunt circuite prin care pot trece doar semnalele cu frecvențe impuse, în timp ce semnalele având frecvențe diferite sunt suprimate. Caracteristica principală a filtrelor este selectivitatea. Filtrele active sunt realizate cu tranzistoare sau amplificatoare operaționale și circuite pasive RC, RL sau RLC. Dispozitivele active asigură câștigul necesar în tensiune iar componentele pasive asigură selectivitatea în frecvență. In general, filtrele se grupează după modul în care tensiunea de ieșire variază în funcție de frecvența tensiunii de la intrare[79].

Tipurile principale de filtre active sunt :

Filtre active trece-jos;

Filtre active trece-sus;

Filtre active trece-bandă;

Filtre active oprește-bandă.

Banda de trecere a unui filtru trece-jos elementar este cuprinsă între 0 Hz și frecventa de tăiere ft, la care tensiunea de ieșire este 70,7% din valoarea maximă a tensiunii în banda de trecere.

Filtrul trece-sus este un filtru ce atenuează semnificativ sau suprimă toate frecvențele mai mici ca ft, lăsând să treacă toate frecvențele ce depășesc această frecvență. Frecvența de tăiere este frecvența la care tensiunea de ieșire este 70,7% din tensiunea maximă din banda de trecere.

Un filtru trece-bandă lasă să treacă toate semnalele cuprinse între două frecvențe, una inferioară și cealaltă superioară, suprimând practic toate celelalte frecvențe din afara benzii respective.

O altă categorie de filtre active cuprinde filtrele oprește-bandă acestea suprimând frecvențele cuprinse într-o anumită bandă și lăsându-le să treacă pe toate celelalte din afara benzii respective.

Răspunsul filtrelor la semnale de intrare cu diverse frecvențe poate fi măsurat. Cu ajutorul unei astfel de măsurări se poate reprezenta caracteristica în frecvență a filtrului [80].

Caracteristicile utile și percepția semnalului sonor

Înălțimea sunetului unui semnal vocal este determinată de frecvența de vibrație a coardelor vocale, denumită frecvență fundamentală (F0–pitch). Inversul său desemnează perioada fundamentală (T0). Pentru vocea umană frecvența fundamentală poate varia între următoarele limite:

80 – 200 Hz pentru o voce masculină;

150 – 450 Hz pentru o voce feminină;

200 – 600 Hz pentru o voce de copil.

Spectrul unui semnal vocal este o compoziție de armonice prin suprapunerea cărora se obține semnalul respectiv. Structura armonică a spectrului mai poartă denumirea de structură de pitch. Anvelopa spectrului semnalului vocal prezintă o serie de maxime denumite formanți. Aceștia corespund frecvențelor proprii ale tractului vocal (fig.25). La rândul său, sunetul nesonor poate fi asociat cu un zgomot alb filtrat de către tractul vocal. Tabelul 3 prezintă intervale de variație a primilor trei formanți pentru unele vocale din limba română.

Vibrațiile corpurilor materiale se propagă prin aer (și în general prin orice alt gaz) și ajungând la ureche produc senzația auditivă pe care o denumim sunet. Trebuie să menționat însă că nu toate oscilațiile recepționate de ureche sunt percepute auditiv. Obiectul acusticii îl constituie studiul producerii și propagării sunetelor, incluzând aici nu numai vibrațiile auditive, ci și pe cele care nu produc senzație auditivă, cum ar fi infra și ultrasunetele. Sunetele pot fi caracterizate prin trei calități principale: înălțimea, intenstitatea și timbrul.

Tabelul 3 Intervale de variație a primilor trei formanți pentru unele vocale din limba română

Perceperea sunetelor de către om se realizează prin intermediul sistemului auditiv. Presiunea acustică pa din conductul auditiv se exercită asupra timpanului cu o forță Fa dată de produsul dintre presiunea acustică pa și suprafața St a timpanului. Această forță se multiplică de 1,3 ori la nivelul ferestrei ovale astfel încât, la final, presiunea acustică în urechea internă va fi de 20 de ori mai mare decât în conductul auditiv. Prin urmare, sistemul de captare, amplificare și transmitere a vibrațiilor aerului asigură o bună funcționalitate a sistemului auditiv, atât pentru semnalele slabe, aflate la pragul de audibilitate, cât și pentru semnale sonore de 1012 ori mai intense, aflate chiar dincolo de pragul dureros [81].

Fig.25 Reprezentarea formanților din spectrul unui semnal vocal

Vibrațiile auditive sunt transmise prin intermediul diferitelor părți ale urechii, făcând să vibreze așa numitele fibre ale lui Corty. Sub acțiunea unui sunet de înălțime (frecvență dată), vibrează anumite fibre care stimulează terminațiile corespunzătoare ale nervului auditiv, care la rândul său transmite informația la creier. Nervii auditivi transformă energia vibrațiilor produse în ureche de undele sonore, în mici impulsuri nervoase (biocurenți) care produc în creier o senzație auditivă (care depinde de vârsta și de starea receptorului auditiv). Frecvența sunetelor audibile este cuprinsă între aproximativ 16 Hz și 20000 Hz. Aceste limite variază însă de la o persoană la alta și în general cu vârsta. Vibrațiile de frecvență mai mică decât 16 Hz se numesc infrasunete, iar cele peste 20000 Hz se numesc ultrasunete. Se constată, de asemenea, că și intensitatea sunetelor este cuprinsă între anumite limite și anume, aproximativ între 4·10-12 W/m2 și 2·102 W/m2. Intensitatea minimă a sunetului care determină senzația minimă se numește prag de audibilitate. Dacă intensitatea sunetului crește foarte mult, în ureche apare o senzație de presiune și apoi de durere. Intensitatea maximă de la care apare această senzație se numește prag tactil sau pragul senzației de durere (fig.26). Limitele de intensitate depind de frecvența sunetului. Astfel, se constată că pentru frecvențe cuprinse între circa 1000 Hz și 3000 Hz urechea este cea mai sensibilă la pragul de audibilitate cel mai de jos, atingând valori de ordinul 10-12 W/m2. Pentru frecvențe mai joase sau mai înalte, urechea este mai puțin sensibilă, pragul de audibilitate fiind mai ridicat [82].

Fig.26 (a) Domeniul de percepție auditivă (b) Reprezentarea sistemului auditiv uman

Intensitatea senzației auditive (intensitatea subiectivă a sunetului) nu este proporțională cu intensitatea sunetului fizic definită mai sus. În general pentru un sunet de o frecvență dată, senzația auditivă crește rapid cu creșterea intensității și apoi, când ne apropiem de pragul senzației de durere, intensitatea trebuie să crească foarte mult pentru ca urechea sa perceapă o diferență, deci intensitatea subiectivă a sunetului nu poate fi măsurată cantitativ exact. O coordonată de bază pentru percepția sunetelor este durata lor. Pentru ca o oscilație sinusoidală (un ton pur) să poată fi percepută auditiv este necesar ca durata sa minimă să fie de 60 ms. Astfel, pentru ca un om obișnuit să perceapă bine înălțimea unui sunet, trebuie ca urechea sa să primească unde sonore cel puțin timp de aproximativ o sutime de secundă, adică cel puțin 5 vibrații pentru un sunet de 500 Hz, 10 vibrații pentru 1000 Hz etc. Totuși, după mult exercițiu, această limită coboară sensibil ajungând, de exemplu, la 2 vibrații pentru a percepe destul de corect înălțimea unui sunet între 40 Hz și 3000 Hz [83]. Tabelul 4 prezintă nivele ale intensității sonore pentru diferite surse de referință.

Tabelul 4 Nivele ale intensității sonore pentru surse de referință

Din punct de vedere al senzației auditive pe care o produc sunetele, acestea pot fi împărțite în trei clase: sunete muzicale (simple sau compuse), zgomote și pocnete. Se arată experimental că sunetele muzicale sunt produse de mișcări periodice, zgomotele de mișcări neregulate, iar pocnetul este rezultatul lovirii urechii de o variație bruscă și scurtă a presiunii aerului. Relația dintre două sunete produse succesiv sau simultan este caracterizată prin raportul dintre frecvențele celor două sunete (ν2/ν1) numit interval iar dacă raportul este format din anumite numere întregi, avem un interval muzical.

Două sau mai multe sunete produse simultan, separate prin intervale muzicale, formează un acord. În vederea realizării unui sistem integrat de înregistrare și analizare a parametrilor de voce, sistemul trebuie să identifice caracteristicile fizice ale subiectului-sursă în timp real. Acest lucru se poate face prin dezvoltarea unui soft care să permită stocarea și accesul la o bază de date structurată, conținând valorile de referință-optime ale mărimilor fizice studiate, prelucrarea datelor achiziționate prin sistemele de recepție în timp real și care să prezinte o interfață simplă dar eficientă pentru operator [84].

Dar dincolo de binomul fonetic vorbire-audiție, actul comunicării directe, unidirecționale de tip radiofonic, pune în evidență unele particularități ale categoriilor de acte verbale. Astfel, rostirea reprezintă și o dimensiune afectivă și atitudinală a comunicării. Vorbitorii exprimă un spectru cât se

poate de diversificat de atitudini sau stări psiho-emoționale ce țin de la simpatie, apreciere, aprobare dar și antipatie ori indignare. De asemenea exprimarea verbală reflectă și un grad al implicării subiective, nuanțate a locutorului în speech. De asemenea, actele vorbirii expresive angrenează o serie de mișcări de răspuns ori cel puțin creează premisele unor conținuturi reactive, din partea auditoriului. În fine, actele de comunicare verbală expresivă se corelează cu strategiile pragmatice și implicarea unor scheme cognitive de ordin superior.

Cap.4 Optimizarea transferului informațional

Elemente de Teoria Informației

4.1.1 Informația și mesajul

Noțiunea de informație reprezintă o categorie de maximă generalitate, conținând diverse sensuri în strânsă dependență de perspectivele din care este considerată. În general, informația presupune o interacțiune, reală sau teoretică, de tip comunicațional ce survine între o sursă emitentă și un destinatar receptor. Spre exemplu, o viziune dinamică a informației dintr-o perspectivă a ciberneticii, relevă caracteristicile interacționiste ale informației evidențiate în câmpul comunicării. Astfel, fiecare proces informațional cuprinde în sfera sa:

Sursa de informare, care emite anumite tipuri de semnale, conținând anumite cunoștințe;

Codificarea comunicării, respectiv comunicarea conținutului prin intermediul unor semne convenționale, pentru a fi transmise prin canalul de comunicare. Această etapă este absolut necesară pentru că previne distorsionarea informației datorită perturbațiilor din canalul de comunicație;

Decodificarea pachetului informațional;

Ansamblul operațiilor specifice prelucrării pachetului informațional;

Transmiterea/redarea conținutului comunicării la receptor.

Foarte interesant este modelul comunicațional – mediatic propus de H.D. Lasswell (1948) care răspunde foarte bine fenomenului difuzării în masă a informației, model centrat pe o serie de cinci întrebări esențiale:

Who? (Cine?)

To whom? (Cui?)

Say what? (Ce spune?)

Under what circumstances? (În ce împrejurări?)

With what effects? (Cu ce efecte?)

Schema procesului comunicării a lui Lasswell poate fi astfel redată [85]:

La rândul său, Sistemul Informațional este definit ca ,,Ansamblul datelor, informațiilor, circuitelor și fluxurilor informaționale, procedurilor și mijloacelor de tratare a informațiilor menite să contribuie la fundamentarea, stabilirea și realizarea unui sistem categorial de obiective”.

Tot informația poate fi privită și ca resursă pentru procesele de luare a deciziilor. Totodată informația poate fi privită și din punct de vedere intrisec, al semnificației mesajelor vehiculate, al importanței deținute de anumite comunicări dar și din punct de vedere al rezultatului ori efectului pragmatic al procesării acesteia. Astfel, a apărut cu necesitate ideea unei abordări reducționiste care să unifice diferitele concepte și modele informaționale, în principal Teoria matematică a informației [86] și Teoria semantică a informației [87], într-o așa-numită Unified Theory of Information – UTI. Ideea centrală a acestei Teorii de fuziune este că orice tip de informație este reductibil, în ultimă instanță, la un „concept-sursă”. Aici, diferitele definiții date informației, în strânsă legătură cu problema comunicării, conduc spre un nou concept al informației care să înglobeze multiplele aspecte ale proceselor informaționale, să includă înțelesurile clasice ale termenului de „informație” și să transforme vechea teorie a informației într-una nouă, universală, care să ofere un model ierarhic al informației. Revenind la Teoria matematică a informației, aceasta pune semnul identității între informație și comunicare, sub formă de ,,codificare, transmisie, stocare și prelucrare de date” [88]. Mai mult, datorită conceptului de predictibilitate a semnalelor sau simbolurilor prin care se transmite un mesaj dar și datorită asimilării informației cu o mărime matematică care exprimă incertitudinea înlăturată prin realizarea unui eveniment comunicațional (semnal, simbol, mesaj etc.), dintr-un set de evenimente comunicaționale posibile, similitudinile dintre informației și probabilitate au generat suportul matematic al Teoriei Informației.

În acest context, deși noțiunea de informație are o mare generalitate și cu toate că nu i s-a putut da încă o definiție unitară, fiind considerată un concept primar ca și noțiunea de mulțime numerică, s-a pus, în mod natural, problema măsurării ei. Dacă informația, în cazul unui sistem oarecare tehnic, social, informațional, biologic sau de altă natură, poate fi considerată ca un mesaj despre evenimente care au avut, au sau vor avea loc atât în interiorul cât și în exteriorul acestui sistem, atunci, luând în considerare două mesaje despre un același eveniment, apar în mod firesc trei intrebări:

Care dintre cele două mesaje are o amploare mai mare?

Care dintre cele două mesaje este mai important și deci mai util?

Cât de complet este un anumit mesaj?

Și într-un caz cât și în celălalt comparația dintre cele două mesaje impune existența unei măsuri a informației obținută în urma realizării unui eveniment, informație care înlătură nedeterminarea pe care o aveam înainte de efectuarea experimentului ce implică realizarea sau nerealizarea evenimentului amintit [89]. Între informație și nedeterminare există o legătură strânsă, informația dovedindu-se a fi informație în adevăratul sens al cuvântului atunci și numai atunci cand ea înlătură o anumită nedeterminare. Cu cât nedeterminarea de la începutul experimentului este mai mare, cu atât este mai consistentă informația ce se obține după efectuarea experimentului. Se poate spune că informația înlocuiește o nedeterminare și dacă aceasta din urmă poate fi măsurată atunci și informația poate fi măsurată. Cantitativ cele două concepte pot fi identificate și deci măsurate în același mod, dar trebuie privite separat în ceea ce privește sensul de variație și semnificația fiecăruia.

Dacă informația pe care o aduce realizarea unui eveniment A poate fi măsurată, se pune întrebarea: Care este informația care se obține în urma efectuării unui experiment ce poate avea n-rezultate, deci care poate conduce la n-evenimente elementare și care fiecare în parte nu furnizează aceeași cantitate de informație? Răspunsul, utilizând cantitatea de informație individuală corespunzătoare fiecărui eveniment elementar, a fost dat de Shannon prin introducerea conceptului de entropie informațională [90].

Entropia unei variabile aleatoare discrete

Cantitatea de informație transferată prin intermediul unui mesaj reprezintă o măsură a incertitudinii din câmpul cognitiv al destinatarului, existentă imediat înainte de primirea mesajului și care este eliminată ca rezultat al primirii mesajului. Cantitatea de informație transferată de un mesaj va fi relativ scăzută dacă pentru destinatar evenimentul semnalat de mesaj era aproape sigur și crescută dacă specifică un eveniment total neașteptat. Oricare mesaj recepționat care oferă rezultate cunoscute nu înlătură nici o incertitudine și prin urmare nu aduce nici o informație. Deci, doar eliminarea unei incertitudini poate aduce informații. Măsura informației este aditivă, în sensul că privind unificat o succesiune de două mesaje, cantitatea de informație conținută de mesajul compus este suma cantităților de informație purtate de cele două mesaje, separat. Totodată, cantitatea de informație transferată de un mesaj fixează o limită inferioară teoretică a numărului de simboluri de cod necesare codificării mesajului.

Considerând o sursă care emite un șir de mesaje m1, m2,…,mrM, cantitatea de informație adusă de mesajul mr este:

Cu alte cuvinte, cantitatea de informație adusă de un mesaj mr în contextul m1, m2, … , mr-1 este logaritmul cu semnul minus al probabilității ca al r-lea mesaj să fie mr, condiționată de faptul că mesajele precedente au fost m1, m2, … , mr-1. Pentru cazul unei surse ergodice, adică sursa pentru care probabilitatea ca un anumit mesaj să aibă o anumită valoare este independentă de context și de poziția mesajului în șirul de mesaje, se poate nota cu pm probabilitatea ca un anumit mesaj din șirul de mesaje să aibă valoarea m. Atunci cantitatea de informație adusă de un mesaj m va fi info(m) = – log2p(m). Concret, fie; xi , pi = P(X = xi), 0 i; 1, o variabilă aleatoare discretă. Dacă realizarea evenimentului {X=xi} furnizează o cantitate de informație I({X=xi}), atunci în mod natural, efectuarea experimentului ale cărui rezultate sunt evenimentele {X=xi}, 1≤ i ≤n deci a experimentului descris de variabila aleatoare X, ar putea furniza o cantitate medie de informație H(X) care să satisfacă inegalitatea:

Este denumită Entropie Shannon a variabilei discrete X mărimea:

unde, H(X) este cantitatea medie de informație obținută prin efectuarea experimentului cu n-rezultate posibile, descris de varibila aleatoare X. Dacă notăm cu X mulțimea tuturor variabilelor discrete definite pe Ω, atunci putem considera un operator: I: X →{I(X) | I(xi) = I({X=xi}), 1≤ i ≤ n} pe care îl numim operatorul cantitate de informație. Putem deci scrie că H(X) este valoarea medie a variabilei aleatoare discrete I(X), adică: H(X) = M[I(X)]. Relația definește o măsură a cantității medii de informație furnizată de un experiment cu n – rezultate posibile. S-au propus și unități de măsură corespunzătoare. Astfel, considerând drept cel mai simplu experiment pe acela cu două rezultate egal probabile, cantitatea de informație corespunzătoare este luată ca unitate de măsură a cantității de informație. Avem deci: 1 u.i. = H2 = log 2. Shannon, considerând logaritmul în bază 2, a propus ca această unitate să se numească bit (binary digit) care se referă la sistemul binar cu care orice număr poate fi scris în baza 2. S-au mai propus denumirile: ,,hartley” – în cazul logaritmilor zecimali; ,,hut” – în cazul logaritmilor naturali [90],[91].

Conceptul de utilitate a informației

În cadrul Teoriei informației, ca dealtfel în multe alte domenii ale științei și nu numai ale ei, pentru rezolvarea unei probleme se pune următoarea întrebare: „două rezultate ale unui experiment aleator, având șanse egale sau diferite de realizare, furnizează cantități de informație la fel de importante sau la fel de semnificative?”. Evident că întrebarea poate fi pusă în cazul general al unui experiment cu mai multe rezultate posibile, egal probabile sau nu. O astfel de problemă a condus în mod firesc la studierea posibilității de măsurare a utilității informației furnizate de un anumit experiment aleator.

Primii care au axiomatizat conceptul de utilitate, considerat ca o cuantificare a preferințelor, au fost americanii John von Neumann și Oskar Morgenstern. Axiomatica lor a stârnit vii controverse și a condus la formularea altor axiomatici precum cea dată de Lucce și Raiffa și altele, ale căror rezultat final s-a concretizat de fapt în studierea riguros matematică a funcției utilitate sau a utilității corespunzătoare unui anumit experiment aleator. În linii mari, utilitatea a fost concepută ca o măsură a preferinței față de un rezultat sau altul al unui experiment oarecare [92].

Considerăm un câmp de probabilitate finit care poate descrie un experiment aleator cu un număr finit de rezultate. Pe definim o relație de preferință, notând adică „ este preferat lui ” sau „ nu este preferat lui ”. Dacă și , atunci scriem , ,,și sunt egal preferabile, sau egal nepreferabile”. Dacă și , atunci spunem că și constituie o alternativă notată: . Noțiunea poate fi extinsă la cazul a n-rezultate incompatibile două câte două, scriind o astfel de alternativă:

Entropia ponderată a lui S. Guiașu

Pornind de la măsura cantității de informație introdusă de Shannon și ținând cont de conceptul de utilitate axiomatizat de von Neumann și Morgenstern, Lucce și Raiffa și alții, Silviu Guiașu a introdus și extins conceptul de entropie ponderată, putându-se astfel diferenția între ele calitativ, două informații egale sau nu cantitativ. Este vorba de a atașa fiecărei informații individuale o anumită pondere în totalul informației furnizate de un experiment oarecare, pondere care poate însemna importanța informației individuale sau utilitatea ei sau a evenimentului corespunzător. Dacă utilitatea în sens Neumann – Morgenstern poate fi și negativă, în cazul teoriei lui S. Guiașu aceasta este întotdeauna pozitivă și direct proporțională cu importanța sau semnificația cantității de informație corespunzătoare unui eveniment sau unui experiment [93].

Fiind dat un experiment aleator finit, urmând repartiția 0, , precum șivaloriledirect proporționale cu importanța evenimentului de probabilitate se numește entropie ponderată expresia:

– probabilitatea de obținere a cantității de informație

– importanța (utilitatea) unei unități din informația (- log )

Dacă pentru ponderile unităților de informație vor avea forma,

atunci entropiile ponderate vor avea următoarele forme:

unde: este energia informațională Onicescu generalizată de ordin ; este – entropia Behara-Nath, iar este – entropia Rényi, pentru o repartiție completă. Entropia ponderată va fi maximă unde este soluția ecuației:

caz în care:

Fiind dată o variabilă aleatoare X care ia un număr finit de valori nenegative ; , cu , , atunci numim entropie ponderată a lui X expresia:

Toate proprietățile entropiei ponderate pot fi formulate în terminologia de utilitate, observând totodată că noțiunea de entropie ponderată este mai generală decât cea de utilitate a informației și chiar decât entropia Shannon. În sens larg, entropia ponderată poate fi considerată ca o măsură a calității informației furnizate de un anumit experiment, înțelegând prin calitate a informației importanța, semnificația sau utilitatea acesteia [90]. Din punct de vedere sistemic, ponderilear putea fi interpretate și drept resurse alocate obținerii informației , ceea ce ar însemna că entropia ponderată ar avea semnificația de efort total mediu de alocare a resurselor, pentru obținerea tuturor informațiilor . Analog, se poate spune și că reprezintă câștigul realizat prin utilizarea într-un anume domeniu a informației [94].

4.1.5 Corelația informațională

4.1.5.1 Corelația Galton-Pearson. Coeficientul de corelație simplă

În acest caz este vorba despre corelația liniară dintre două componente ale unui vector aleator. Fie X = (X1, X2) un vector aleator discret (continuu) cu densitatea de repartiție:

Momentul de ordinul (r1, r2) al vectorului aleator (X1, X2) este valoarea medie a variabilelor aleatoare X1r1, X2r2, dată de relația:

sau:

Dacă r1 = r2 = 1 obținem valoarea medie a variabilelor produs X1,X2 iar dacă r1=1 și r2= 0 sau r1=0 și r2=1, valoarea medie a lui X1sau a lui X2.

Numim moment centrat de ordin (r1, r2) al vectorului (X1, X2), valoarea medie a variabilei: (X1-M10)r1· (X2-M01)r2 adică:

sau,

Obs. Dacă r1=2, r2=0 sau r1=0, r2=2 se obțin m20= σ12 sau m02 = σ22

Covarianța variabilelor X1 și X2 are expresia:

și coeficient de corelație Galton-Pearson al acestora care are expresia:

Pentru coeficientul de corelație ρ(X1, X2), următoarele afirmații sunt adevărate:

1. este definit pentru orice vector aleator (X1, X2) neconstant cu probabilitatea egală cu unitatea

2. ρ(X1, X2) = ρ(X2, X1) pentru (X1, X2)

3. dacă X1 și X2 sunt independente, atunci ρ(X1, X2) = 0 nu și reciproc

4. -1≤ ρ(X1, X2) ≤1, (X1, X2)

5. dacă ρ2(X1, X2) =1, atunci X2 = a1X1+b1 sau X1 = a2X2+b2

6. dacă X1 = a2X2+b2sau X1 = a2X2+b2, atunci ρ2(X1, X2) =1

7. dacă Y1= a1X1+b1și Y2= a2X2+b2; a1,a2 > 0, atunci ρ(Y1, Y2)= ρ(X1, X2)

Fie acum X = (X1, …, Xn) un vector aleator n-dimensional discret sau continuu și să notăm cu Mi = M(Xi) și σ12 = D2(Xi), valoarea medie și respectiv dispersia componentei Xi, 1≤i≤n, iar cu:

σ ij = cov(Xi, Xj), covarianța perechii (Xi, Xj). Evident,

Matricea se numește matrice covariantă sau matrice de covarianță corespunzătoare lui X, iar matricea R(X)= (ρij) se numește matrice de corelație a lui X [95].

Pentru matricea sunt adevărate afirmațiile:

este definită pentru orice vector aleator

este simetrică , adică σ ij= σ ji, 1≤i,j≤n

σ ij2 ≤σ i2 · σ j2 pentru 1≤ i,j ≤ n

dacă det= || = 0, atunci între componentele lui X, ) cel puțin o relație liniară.

dacă X are componentele independente două câte două, atunci: σ ij=0 pentru i≠jși || = . Ca o consecință a aceste propoziții, avem:

Pentru matricea R(X), următoarele afirmații sunt adevărate:

este definită pentru X pentru care σi>0;1≤i ≤n

este simetrică, adică: ρij= ρji

–U ≤ R(X) ≤ U, U-matricea cu toate elementele egale cu unu, cu egalitate dacă

pentru 1≤i,j ≤n, Xj = aiXi+bi

dacă |R(X)| = 0, atunci între componentele lui X avem cel puțin o relație liniară

dacă X are componentele independente 2 câte 2, atunci:

R(X) = E, E = In, matricea unitate de ordin n

4.1.5.2 Coeficientul de corelație informațională a lui C.B.Bell

Pentru X1 și X2 două v.a. și H(X1), H(X2) și H(X1,X2) entropiile Shannon corespunzătoare.

Se numesc coeficienți de corelație informaționali ai v.a. X1 și X2, rapoartele:

Pentru B1(X1,X2) și B2(X1,X2)sunt îndeplinite următoarele proprietăți:

1. sunt definiți pentru vector aleator (X1,X2) cu componente neconstante

2. Bi(X1,X2) = Bi(X1,X2), i =

3. 0 ≤ B2(X1,X2) ≤ B1(X1,X2) ≤ 1

4. Bi(X1,X2) = 0 dacă și numai dacă X1 și X2 sunt independente

5. Bi(X1,X2) = 1 dacă și numai dacă cealaltă componentă este complet dependentă de componenta care dă numitorul lui Bi(X1,X2)

6. sunt invarianți în raport cu transformare reală biunivocă a variabilelor X1 și X2, φ = (φ1 ,φ2) adică Bi[φ1(X1), φ2(X2)] = Bi(X1,X2) [96]

4.1.5.3 Energia și corelația informațională Onicescu

Dacă X este o variabilă aleatoare discretă ale cărei valori reprezintă stările unui sistem oarecare, având repartiția: pk ≥ 0, .

Se numește energie informațională în sens Onicescu corespunzătoare repartiției variabilei

aleatoare discrete X, expresia:

Energia informațională apare ca o valoare globală atașată unei repartiții probabilistice, de aceeași natură ca și entropia Shannon.Energia informațională satisface:

1. este definită pentru variabilă aleatoare discretă;

2.

3. este uniform repartizată;

4. = 1 dacă avem o concentrare absolută informațională, adică pk = 1, pj = 0, j≠k, 1≤ j ≤ n

5. energia informațională scade când nedeterminarea sau uniformitatea crește;

6. dacă var. X’= (x1’, …, xm’) provine din X, m ≤ n, atunci ≤

7. este invariantă față de transformare biunivocă a lui X;

8. dacă X1 și X2 sunt 2 v.a. discrete independente atunci )·, iar

dacă X1 , X2 sunt dependente atunci: , 1≤ j≠k ≤2 [97]

Este denumităcorelație informațională a v.a. X1 și X2 sau a repartițiilor pk≥ 0 și qk≥ 0

, în cazul Onicescu, mărimea: și coeficient de corelație informațională al acestora, raportul:

Variabilele aleatoare X1 și X2 pot fi două variabile aleatoare arbitrare în ceea ce privește conținutul lor sau pot reprezenta o aceeași caracteristică aleatoare dar pentru două populații statistice diferite.

Se numește energie informațională Onicescu de parametru α>0, sau generalizată, expresia:

Avem întotdeauna:

10 <Eα(X) ≤ n1-α , dacă 0< α ≤ 1, cu ”=” dacă X este repartizat uniform

n1-α ≤ Eα(X) ≤ 1, dacă α >1, cu ”=” dacă avem o concentrare informațională absolută

Se numește energie informațională Onicescu generalizată corespunzătoare repartițiilor pk≥0, qk≥0, ale variabilelor X1 și X2 expresia,

și coeficientul de corelație informațională generalizată a acestora, raportul [98]:

4.2 Metode și algoritmi de optimizare informațională

4.2.1 Utilizarea metodelor operaționale la problemele de optimizare

În cadrul studiilor presupuse de tema tezei s-a urmărit reactualizarea unor metode și tehnici de optimizare a celor mai bune soluții inteligente care să poată fi implementate în scopul obținerii unor aplicații noi în domeniul analizei informaționale. Metodele de găsire a soluțiilor tehnice optime la astfel de probleme constau mai întâi în stabilirea, pe baza unei cunoașteri riguroase a sistemului, a ceea ce reprezintă, în cadrul unui proces informațional, așa numitele funcții obiectiv și restricții. Funcția obiectiv este exprimarea matematică a influenței cantitative a celor mai semnificativi parametrii asupra caracteristicii de calitate a sistemului. Restricțiile sunt funcțiile ce delimitează domeniul de variație admis pentru funcția obiectiv și parametrii sistemului. Pentru găsirea soluțiilor tehnic optime, adică a condițiilor corespunzătoare maximului sau minimului funcției obiectiv, aceasta din urmă trebuie cercetată cu ajutorul unor metode de optimizare analitică sau numerică, metode descrise în numeroase lucrări de specialitate.

O alternativă pentru determinarea cerințelor de performanță ale unui proces informațional o constituie metoda utilizată pentru a construi o reprezentare a sistemului și a modului său de funcționare, adică un model pe care se efectuează cercetările. Modelele Cercetării Operaționale iau forma unei ecuații care, deși din punct de vedere matematic pot fi foarte complicate, au o structură foarte simplă:

unde: U- reprezintă utilitatea sau valoarea criteriului ce caracterizează funcționarea sistemului;

– variabile controlabile;

– variabile necontrolabile, dar care acționează asupra lui U;

f – relația dintre U, și .

În plus, de multe ori sunt necesare una sau mai multe ecuații sau inecuații care exprimă faptul că variabilele controlabile pot varia numai între anumite limite. Funcția criteriu împreună cu restricțiile constituie modelul sistemului și în același timp problema pe care dorim să o rezolvăm. Prin urmare, acesta este atât un model al sistemului, cât și un model de decizie. O dată modelul constituit, el poate fi utilizat pentru a găsi exact sau aproximativ valorile optime ale variabilelor controlabile – adică acele valori care asigură cea mai bună performanță a sistemului, pentru anumite valori specificate ale variabilelor necontrolabile. În acest fel, se obține o soluție a problemei cu ajutorul modelului. Procedeul folosit depinde de natura modelului. Soluția se poate obține fie prin efectuarea unui experiment asupra modelului, adică prin simulare, fie cu ajutorul analizei matematice. În unele cazuri analiza matematică a modelului se poate efectua fără să cunoaștem valorile variabilelor, adică într-o formă abstractă sau simbolică, dar în alte cazuri trebuie să cunoaștem valorile numerice ale variabilelor. Pentru anumite tipuri de funcții f (de exemplu: când f este exprimat prin funcții algebrice elementare) și pentru un număr mic de restricții, matematica furnizează instrumente eficiente care permit găsirea valorilor optime [99]. În ultimii ani s-au dezvoltat metode noi, care permit rezolvarea problemelor în care restricțiile sunt atât de numeroase încât metodele clasice devin prohibitive din punct de vedere calculatoriu. Pe de altă parte, funcția f s-ar putea să fie dată printr-o serie de reguli (algoritm) care permit calcularea utilității U pentru valori date ale variabilelor controlabile și necontrolabile, dar nu ne permit să găsim în mod direct valorile optime ale variabilelor controlabile. În acest caz, se poate găsi o regulă cu ajutorul căreia se determină succesiv un șir de valori ale variabilelor controlabile care să conveargă către valoarea optimă. Sistemul poate fi astfel structurat încât variabilele să nu fie cunoscute exact înainte de alegerea lui. Astfel, privind valoarea s-ar putea să fim constrânși să o luăm, cunoscând doar funcția de repartiție (probabilistică) a lui. În astfel de cazuri, dacă f este destul de simplă vom putea lucra cu valoarea medie a factorilor necontrolabili, adaptând decizia cea mai bună ,,în medie”. Totuși, datorită complexității procesului de mediere apare necesitatea efectuării unor simulări asupra modelului în care valorile variabilelor necontrolabile se aleg cu o frecvență corespunzătoare funcțiilor lor de repartiție. În acest mod se poate calcula valoarea lui U și în ultimă instanță, în acest mod putem găsi funcția lui de repartiție. De obicei, această simulare se poate produce în întregime pe calculator. Indiferent de metoda folosită, întotdeauna se caută o soluție optimă.

O soluție optimă este o soluție care minimizează sau maximizează, după caz, valoarea funcției criteriu din model, cu restricțiile care apar în acel model. Deoarece soluția optimă a modelului poate îmbunătăți funcționarea sistemului numai dacă modelul constituie o bună aproximație a realității, soluția propusă va trebui testată și evaluată. Dacă soluția considerată urmează să fie aplicată nu numai o singură dată, atunci este foarte posibil, având în vedere natura sistemelor studiate în Cercetarea Informațională, ca valorile variabilelor necontrolabile și chiar structura sistemului să se modifice de la o decizie la alta. De aceea este necesar să descoperim schimbările semnificative în sistem și în mediul exterior și să ajustăm soluția în mod corespunzător. Altfel spus, soluțiile preconizate a fi aplicate în situații repetabile sau după intervale mari de timp vor trebui actualizate și corectate [100]. În concluzie, într-un studiu de Cercetare Informațională deosebim cinci stadii:

– formularea problemei,

– construcția modelului,

– obținerea soluției optime,

– testarea modelului și evaluarea soluției,

– implementarea și actualizarea soluției.

De remarcat este faptul că fiecare etapă continuă până la finalizarea studiului și se află într-o strânsă interacțiune cu celelalte etape.

Programarea Matematică

Un domeniu bine fundamentat, integrat aparatului matematic al Cercetărilor Informaționale este consacrat studiului teoretic și elaborării metodelor de rezolvare a problemelor programării matematice. Unitatea domeniului rezidă în caracteristicile generale comune ale modelelor matematice pe care se operează și nu în natura fenomenelor concrete care constituie sursa generatoare a problemelor abordate. Aspectul formal al unei probleme de Programare Matematică este cel al unei probleme de extremum, cerându-se determinarea valorilor variabilelor reale , care optimizează (maximizează sau minimizează) o funcție f (funcția obiectiv) pe un domeniu χ al spațiului vectorial definit într-o manieră constructivă prin relații funcționale (restricții) impuse variabilelor de decizie.

În general, într-o problemă de Programare Matematică variabilele de decizie constituie un vector n-dimensional X, care poate evolua într-un domeniu . este definit prin restricții de tipul:

( fiind funcții cunoscute), sau prin alte condiții speciale (de ex.: ), pe baza cărora se poate decide, dacă un vector aparține sau nu lui . Orice set de valori al variabilelor de decizie care satisface restricțiile care îl definesc pe se numește soluție posibilă a problemei. Nu este exclus ca, datorită unor pretenții excesive, sau din contră, incomplet formulate, problema concretă de la care se pleacă să conducă la un model matematic în care este mulțimea vidă sau o regiune nemărginită a lui . În primul caz, o asemenea problemă este evident incompatibilă, neavând soluții posibile. În cel de-al doilea caz, este posibil ca funcția obiectiv să poată fi făcută oricât de mare pe (în problema de maxim) sau oricât de mică (în problema de minim), adică optimul problemei este infinit. În cazul în care și maximul (minimul) funcției obiectiv pe este finit, spunem că problema de Programare Matematică admite optim finit și numim soluție optimă orice soluție posibilă care realizează maximul (minimul) dorit [101].

Formularea generală a unei probleme de Programare Matematică este:

rezervând notația max. (min.) pentru cazurile când se poate afirma, ca urmare a unor ipoteze suplimentare concludente, că problema admite optim finit. În general, în Programarea Matematică putem lua în considerare numai enunțul:

deoarece, cazul complementar poate fi cu ușurință adus la primul datorită egalității

Un criteriu principal pentru clasificarea problemelor de Programare Matematică îl constituie ansamblul proprietăților analitice ale funcției obiectiv f și ale funcțiilor g din restricțiile ce definesc mulțimea soluțiilor posibile.

Caracterizarea optimului în metodele de Programare Convexă

Fiind dată problema de programare:

fiind formele liniare: . Notând cu:

matricea ale cărei linii sunt , iar cu b – vectorul coloană de componente (), poate fi scrisă și:

Asociem problemei (C) funcția lui Lagrange (lagrangeanul):

componentele ale vectorului se numesc multiplicatori ai lui Lagrange. În scriere vectorială:

Dacă și satisfac condiția:

atunci este soluție optimă a problemei de Programare Matematică (C). Această afirmație se poate demonstra astfel:

Fie și satisfăcând (L). Atunci:

Din a II-a inegalitate avem:

sau:

Dar u oarecare și alegem pentru fiecare , succesiv:

atunci vom avea:

Din (iii) și (iv) , pentru fiecare sau ceea ce demonstrează faptul că este o soluție posibilă a problemei (C). Ținând seama de egalitatea demonstrată, prima inegalitate a lui (i) devine:

și de aici, pentru ,

În concluzie, este soluția optimă a problemei (C). Prin definiție, perechea() verificând (L) se numește punct-șa a funcției Lagrange, L.

Rezultatul stabilește că o condiție suficientă pentru ca sa fie soluție optimă a problemei de programare (C) este existența unui m-tuplu de multiplicatori ai lui Lagrange, astfel încât să constituie un punct-șa al funcției L [102].

Criterii de optimalitate în programarea stochastică

Prin problemă de decizie în programarea stochastică se înțelege un model de optimizare consistent, din a cărui analiză anterioară consemnării valorilor parametrilor de stare aleatori să rezulte o decizie pe baza căreia să poată fi condus fenomenul modelat. Un asemenea model nu este numai o simplă descriere abstractă a unei realități concrete, ci reflectă și o anumită atitudine a factorului de decizie față de această realitate.

O primă etapă a procesului de modelare constă în definirea adecvată a mulțimii deciziilor admisibile din care decidentul trebuie să o selecteze pe cea optimă. Exceptând situația trivială a restricțiilor deterministe, prezența elementului aleator creează o nesiguranță în privința acțiunilor pe care se poate conta. Fie o problemă de programare stochastică. Mulțimea:

se numește mulțimea soluțiilor permanent realizabile ale problemei de programare stochastică.

este o mulțime convexă a problemei și se observă că:

Deci: este intersecția unei familii de mulțimi convexe, deci este convexă. Fie o problemă de programare liniară stochastică, în forma canonică (cu restricții inegalități), având matricea A constantă (, unde:

Dacă , atunci:

O a doua componentă fundamentală a modelului unei probleme de decizie este criteriul de optimalitate. În problemele de programare stochastică un asemenea criteriu exprimă cerința de maximizare/minimizare a unei funcții deterministe, care într-un fel sau altul, subordonat viziunii decidentului asupra problemei concrete, este echivalentul funcției obiectiv aleatoare [103]. Avem patru criterii de optimalitate, utilizate curent în modelarea problemelor stochastice: dacă este mulțimea soluțiilor realizabile clasificăm problemele de decizie în următoarele categorii:

Modelul M:

În acest caz criteriul de optimalitate cere maximizarea (minimizarea) valorii medii a funcției obiectiv pe mulțimea soluțiilor realizabile. Evident, se impun condiții care să asigure existența valorii medii a lui f, pentru orice decizie x.

În cazul liniar este suficient să presupunem că toate variabilele aleatoareau valori medii finite Atunci, în ipoteza independenței variabilelor de stare de variabilele de decizie, se poate scrie:

Modelul V: , unde este o valoare posibilă a lui c, iar ,

este dat. Interpretarea este: factorul de decizie dorește minimizarea abaterii față de un reper fixat. Aici, este o valoare pe care funcția obiectiv o poate atinge printr-o decizie adecvată. În anumite cazuri se înlocuiește funcția obiectiv din enunț cu:

adică cu dispersia funcției obiectiv.

Modelul P: , dat.

Reprezintă o modalitate rațională de a intrepreta optimalitatea în condiții de incertitudine; se caută decizia admisibilă care să asigure, cu o probabilitate cât mai mare, că valoarea funcției obiectiv depășește un nivel prestabilit. Dacă se are în vedere minimizarea funcției obiectiv, atunci modelul se poate formula: .

Modelul K: , unde ,

fiind o constantă din (0,1). Se observă că, pentru un valorile funcției obiectiv depășesc valoarea k, cu o probabilitate =1-. În felul acesta prin maximizarea lui k se asigură o cât mai mare limită inferioară pentru valorile funcției obiectiv. Oricare dintre modelele propuse asigură consistența logică a problemei de decizie [104].

Metode de optimizare prin estimare

Metoda verosimilității maxime

Funcția de frecvență (cazul discret) sau densitatea de repartiție (cazul continuu) a selecției este:

În relația anterioară, ca funcție de parametri, se numește funcție de verosimilitate.

Metoda verosimilității maxime constă în a lua ca estimații ale parametrilor, acele valori care maximizează funcția de verosimilitate. Estimațiile de maximă verosimilitate sunt obținute ca soluții ale sistemului de ecuații:

ecuații care poartă numele de ecuații de verosimilitate. În cazul estimării unui singur parametru sistemul se reduce la:

Ecuația de mai sus are o soluție , care pentru valori mari ale lui n, este repartizată normal, de valoare medie θ și de dispersie 1/n·i(θ).

Obs. În cazul în care ecuația nu poate fi explicitată în raport cu θ, se folosește o soluție aproximativă . Se evaluează:

A II-a aproximație este:

Se continuă procedeul până se obține o soluție satisfăcătoare. Ecuațiile de mai sus au soluțiile astfel încât repartiția comună a soluțiilor pentru valori mari ale lui n, este normală de vector valoare medie și matricea de covarianțe (n·irs)-1 unde:

Matricea () poartă numele de matrice de informații, iar matricea () este denumită matrice de informații pe unitatea de observații.

Obs. În cazul în care ecuațiile de mai sus nu pot fi explicitate în raport cu se folosește o metodă iterativă:

Se pornește cu o soluție aproximativă

Se evaluează () și matricea () în punctul .

O a doua aproximație este:

unde suma se ia în punctul (). Se repetă procedeul până se obține o soluție satisfăcătoare.

Spre exemplu, ne propunem să estimăm proporția de indivizi, dintr-o populație, care posedă o anumită caracteristică. Vom considera o selecție de n-indivizi din această populație și observăm numărul de indivizi care au caracteristica respectivă. Asociem fiecărui individ o variabilă aleatoare X care poate lua valoarea 1 sau 0 după cum individul posedă sau nu caracteristica sub cercetare. Funcția de frecvență a variabilei aleatoare X este:

Pentru o selecție de n-indivizi, observațiile asupra lui X vor fi și deci:

Urmează că:

și

Ecuația are soluția

Observații:

Deoarece , urmează căeste o estimație nedeplasată pentru θ, proporția indivizilor care posedă caracteristica respectivă.

Deoareceavem:

ecuația (raportul): se scrie:

ceea ce arată că este o estimație eficientă a parametrului θ [105].

Metoda minimului lui χ2

Se presupune că o populație statistică este împărțită în c-categorii și că probabilitatea ca un individ să aparțină categoriei “i” este . Dacă în urma unei selecții de volum “n” s-au observat ni indivizi în categoria “i” atunci metoda minimului lui χ2 pentru estimarea parametrilor constă în a lua ca estimație a vectorului valoarea care minimizează valoarea statisticii:

Această metodă dă asimptotic aceleași estimații ca și metoda verosimilității maxime pentru funcția de verosimilitate:

Estimațiile de minim χ2 pentru parametrii sunt date de soluțiile ecuațiilor:

Metoda momentelor

Metoda momentelor (Pearson), este cea mai veche și totodată cea mai simplă metodă pentru estimarea parametrilor. Această metodă constă în următoarele: Se calculează primele k-momente de selecție:

și se egalează cu momentele teoretice care, în general, sunt funcții de parametrii :

Estimațiile parametrilor prin metoda momentelor se obțin rezolvând ecuațiile:

dacă acestea sunt independente funcțional și

Estimațiile obținute prin metoda momentelor sunt consistente și asimptotic repartiția lor comună este normală.

Exemplu: Fie o selecție de volum “n” dintr-o populație statistică de medie μ = p și dispersie . Primele două momente ale populației sunt:

Estimațiile parametrilor p și se obțin ca soluții ale sistemului:

Găsim

Obs. Înainte de efectuarea selecției, estimațiile pentru p și sunt:

Exemplu:

Fie o selecție de volum “n” asupra variabilei aleatoare X repartizată uniform pe intervalul (a,b).Avem:

și ecuațiile care trebuie rezolvate pentru a determina estimațiile pentru a și b sunt:

Găsim:

unde este valoarea observată a dispersiei de selecție [105],[106].

Obs. Înainte de efectuarea experienței estimațiile a și b sunt:

Metoda celor mai mici pătrate

Această metodă se aplică pentru estimarea parametrilor ce intervin liniar în mediile variabilelor aleatoare necorelate, cu aceeași dispersie și constă în a lua ca estimații ale acestora acele valori care fac minimă suma pătratelor abaterilor variabilelor aleatoare de la valorile medii respective [107].

Dacă avem , n-variabile necorelate una cu cealaltă, cu aceeași dispersie necunoscută și mediile date de:

Metoda constă în a face minimă suma pătratelor abaterilor:

în raport cu . Avem:

sau punând:

Putem scrie:

Ecuația ; conduce la următorul sistem: , în , numit sistemul ecuațiilor normale. Există cel puțin o soluție a sistemului de ecuații. Fie , una din aceste soluții:

Spunem că funcția liniară parametrică, unde sunt

coeficienți cunoscuți, este estimabilă dacă există o estimație nedeplasată pentru θ. Dacă θ este estimabilă, estimația sa nedeplasată de minimă dispersie este dată de:

Deoarece fiecare este o funcție liniară de , urmează că:

Valoarea minimă a lui S este dată de:

Dacă numai “r” din cele “m” ecuații din sistemul ecuațiilor normale sunt liniar independente, atunci relația anterioară are grade de libertate. Astfel, “r” este rangul matricii (). O estimație nedeplasată pentru este dată de eroare medie pătratică:

Optimizarea proceselor în prezența restricțiilor

O problemă de optimizare cu restricții de tip egalitate se poate rezolva fie prin metoda substituției directe, fie prinmetoda multiplicatorilor lui Lagrange. Metoda substituției directe constă din explicitarea a p ≤ l variabile (dacă aceasta este posibil) și substituirea lor în funcția obiectiv; problema se rezolvă în continuare ca o problemă fără restricții. În multe cazuri practice explicitarea de variabile în cadrul restricțiilor de tip egalitate nu este posibilă. În cazul căutării extremului unei funcții F(X) de n variabile cu m restricții de tip egalitate(m < n), cu ajutorul multiplicatorului Lagrange, se demonstrează că punctul , extremul funcției obiectiv, se obține prin optimizarea funcției fără restricții:

funcția L(X,Λ) fiind denumită funcția Lagrange, iar scalarii , multiplicatorii Lagrange. Deci cele două metode transformă problema de optimizat cu restricții într-o problemă de optimizat fără restricții sub formă vectorială:

sau

care reprezintă un sistem de n+m ecuații cu tot atâtea necunoscute. Rezolvarea problemei fără restricții constă în obținerea sistemului de ecuații normale prin anularea derivatelor funcției obiectiv, sistem de ecuații care, pentru metoda multiplicatorului Lagrange, se scrie:

Necunoscutele acestui sistem sunt cele n valori ale soluției optime x* și cei m multiplicatori ai lui Lagrange Λ=λ1, λ2, … , λm. Cele m ecuații ale sistemului indică faptul că în punctul de extrem a funcției L(X,Λ) toate restricțiile sunt verificate rezultând că această valoare este soluție admisibilă pentru problema de optimizare. Pentru sistemele neliniare soluțiile se pot obține relativ simplu prin aplicarea unor metode de analiză numerică, de exemplu metode de gradient. Acest lucru datorită faptului că prin metoda multiplicatorilor lui Lagrange optimizarea presupune rezolvarea unui sistem de ecuații în care numărul de variabile al problemei de optimizare este mai mic decât numărul de necunoscute. Cel mai accesibil mod de rezolvare a sistemului de ecuații astfel obținut este cel numeric [108]. Deci, specific metodelor analitice de evaluare a extremului unei funcții, cu sau fără restricții, este sistemul de ecuații normale prin rezolvarea căruia se obțin soluțiile.

Metode de căutare numerică a optimului

În domeniul aplicării metodelor numerice la optimizarea unui proces analitic informațional, se disting două situații limită:

Funcția de optimizat este cunoscută în formă matematică exactă.

În vederea evaluării optimului, acesta se tratează ca un sistem black-box. Se dau valori bine determinate variabilelor de optimizat și se calculează răspunsurile corespunzătoare (valorile funcției de optimizat). Examinând valorile variabilelor și răspunsurile corespunzătoare, cercetarea funcției se dirijează în direcția optimului.

Funcția de optimizat nu este cunoscută.

În acest caz se operează asupra sistemului de optimizat. Procesul de optimizat este tratat ca un sistem black-box. Se modifică riguros controlat variabilele de optimizat și se evaluează răspunsurile corespunzătoare (valorile funcției de optimizat). Examinând valorile date variabilelor de optimizat și răspunsurile corespunzătoare, cercetarea se dirijează în direcția optimului. Realizarea efectivă a acestui mod de lucru se face fie cu sistemul de calcul off-line, fie on-line.

Căutarea optimului se face în toate cazurile după un algoritm, adică pe baza unui set de instrucțiuni riguroase. Planul de căutare poate fi de tip simultan sau secvențial. Un plan de căutare a optimului este de tip simultan dacă se stabilesc de la început toate valorile pe care trebuie să le ia variabilele de optimizat. În cazul planului de căutare a optimului de tip secvențial, valorile succesive date variabilelor se programează pe baza răspunsurilor anterioare. Altfel spus valorile date variabilelor de optimizat în experimentul n +1 sunt stabilite pe baza rezultatelor celor n experimente anterioare [109]. Metodele de căutare numerică a optimului se clasifică în două categorii:

Metode de căutare directă a optimului, care utilizează pentru dirijarea cercetării numai evaluări ale funcției obiectiv în puncte din domeniul admisibil al variabilelor de optimizat;

Metode de gradient, care utilizează pentru dirijarea cercetării evaluării, atât acele valori ale funcției obiectiv cât și ale gradientului în puncte din domeniul admisibil pentru variabilele de optimizat.

Considerând problema optimizării unei funcții F(X) de N variabile, cu sau fără restricții, metodele de optimizare parcurg următoarele trei etape:

Alegerea unui punct de start , punct admisibil în cazul unei probleme cu restricții;

Deplasarea prin puncte , k=1,2,…, până când optimul este atins. De la un punct de bază la un punct de bază nou se trece prin deplasarea după o direcție , punctul, fiind optimul după acea direcție. În cazul metodelor directe, direcțiile de deplasare sunt prevăzute în algoritm, pe când în cazul metodelor cu gradient sunt evaluate în fiecare punct ;

Verificarea criteriului de convergență, etapă care decide oprirea sau continuarea procesului de căutare a optimului [110].

Algoritmul UNIPLEX este un caz particular al metodei simplex, metodă cu multe utilizări în rezolvarea problemelor de optimizare informațională. Algoritmul UNIPLEX poate fi utilizat la evaluarea extremului unei funcții monovariabile sau la evaluarea extremului după o direcție a unei funcții multivariabile. Pentru cazul particular al unei funcții monovariabile, simplexul este un segment de dreaptă ; prin s-a notat extremitatea simplexului cu răspunsul mai nefavorabil.

Algoritmul conține punctual următoarele etape:

Se stabilește un simplex inițial, adică segmentul.

Se execută operația de expansiune în care se generează un nou punct, și în funcție de valoarea răspunsului, în acest punct se execută următoarele operații:

Dacă răspunsul este mai bun decât în se execută operația de expansiune deci se generează punctul unde este coeficientul de expansiune , de obicei .

b) Dacă răspunsul în este mai bun decât în , se reține ca simplex nou segmentul . Dacă răspunsulnu este mai bun decât , încercarea de expansiune a dat greș și segmentul este luat ca simplex nou.

c) Dacă răspunsul în nu este mai bun decât în , se execută operația de contracție în una din variantele următoare:

Dacă răspunsul în este mai bun decât în execută contracția de tip I, adică se generează vârful:

unde este coeficientul de contracție (0 < V < 1) de obicei ; în iterația următoare se utilizează simplexul .

Dacă răspunsul în este mai nefavorabil decât în se execută contracția de tip II, adică se generează vârful: iterația următoare începând cu .

3) Se verifică criteriul de convergență, de exemplu dimensiunea simplexului să fie mai mică decât o valoare critică acceptată. În cazul când algoritmul se utilizează la optimizări experimentale, trebuie avut în vedere că răspunsul experimentului include întotdeauna o anumită eroare întâmplătoare [111]. Pentru a asigura migrarea corectă a simplexului în direcția optimului, în condițiile unor erori experimentale întâmplătoare, trebuie introdusă o etapă (regulă) suplimentară și anume:

Dacă un vârf este menținut nemodificat în mai mult de două simplexuri consecutive, acest vârf se reevaluează și se utilizează răspunsul medie a celor două măsurări experimentale în acest vârf.

Algoritmul Hooke-Jeeves urmărește să evite dezavantajele metodei de cercetare după direcții paralele cu axele de coordonate. Metoda utilizează mai întâi o cercetare locală, paralelă cu axele de coordonate, în puncte aflate la o anumită distanță de punctul de bază, după care se încearcă o deplasare mare după o direcție evaluată în cercetarea anterioară. Dacă această deplasare este un succes și explorarea locală în acest punct extins arată că direcția este bună, se efectuează o nouă deplasare și mai mare. Deci procesul de cercetare începe prudent, cu etape de deplasare scurte, lungimea deplasărilor crescând numai după repetarea succesului. Dacă funcția obiectiv nu se îmbunătățește de-a lungul unei direcții, trebuie să se utilizeze în continuare etape scurte. Pentru testarea acestui algoritm se consideră problema minimizării funcției propusă de Box:

Aici însumarea se face asupra valorilor discrete pentru x, din domeniul [0,1-1], ce corespund la un pas egal cu 0,1. Minimul acestei funcții este = 0, pentru și . Această funcție corespunde problemei estimării a doi parametri.

În figura 27 este redată schema logică a algoritmului UNIPLEX.

Fig.27 Schema logica a algoritmului UNIPLEX

Metoda Fibonacci se utilizează la evaluarea extremului unei funcții monovariabile unimodale cu sau fără restricții sau ca metodă de evaluare a extremului după o direcție, în cadrul unui algoritm de evaluare a extremului unei funcții de mai multe variabile.

Etapele algoritmului:

Se dă ca restricție sau se evaluează printr-o cercetare prealabilă cu pas constant sau accelerat domeniul în care urmează să fie căutat minimul funcției F(x), se fixează precizia relativă () de evaluare a optimului, egală cu raportul dintre domeniul de incertitudine final și domeniul de incertitudine inițial , adică:

unde este numărul lui Fibonacci:

Relațiile de mai sus permit deci să se evalueze numărul de iterații N necesare atingerii unei precizii dorite.

Se fixează primele 2 puncte:

unde . În raport cu valorile funcției în și pot apărea următoarele situații:

Dacă F() < F(), minimul se găsește în domeniul și drept urmare se elimină intervalul ;

Dacă F() > F(), minimul se găsește în domeniul și drept urmare se elimină intervalul

Dacă F() = F(), minimul se găsește în intervalul adică se elimină cele 2 segmente și

3) Dacă se realizează una din condițiile a) sau b) se păstrează unul din punctele de la etapa anterioară adică punctul sau la aceeași distanță de capăt ca și punctul păstrat și se reia etapa 2). Dacă se realizează condiția c) algoritmul se reia din etapa 1).

4) Căutarea se oprește când s-a efectuat numărul de iterații N necesare atingerii preciziei [112].

4.2.8 Metoda de evaluare a optimului prin interpolare

Acești algoritmi cuplați cu un algoritm de căutare cu pas constant sau accelerat pot fi utilizați la evaluarea extremului unei funcții monovariabile sau ca etapă de evaluare a extremului după o direcție, în cadrul unui algoritm de evaluare a extremului unei funcții multivariabile. Metodele de interpolare constau în aproximarea funcției printr-un polinom de interpolare pătratică sau cubică. Un algoritm de căutare a minimului unei funcții monovariabile, care cuplează căutarea cupas constant sau accelerat cu interpolarea pătratică, cuprinde următoarele etape:

1) Se cercetează funcția în acord cu algoritmul de căutare cu pas constant sau accelerat, într-o succesiune de puncte pentru care rezultă: F() > F()>…> F() și F() < F(), fiind primul punct în care funcția crește.

2) Se rețin punctele , și , notate cu , și , cu ajutorul cărora se aproximează funcția printr-un polinom pătratic al cărui minim:

aproximează minimul funcției de cercetat.

3)Se înlocuiește cel mai nefavorabil punct dintre , și cu și se repetă etapa 2).

După a doua interpolare, și în continuare, se verifică dacă interpolarea este reușită, adică dacă funcția în noul punct de interpolare este mai favorabilă decât în punctul din interpolarea anterioară. Se declară, de asemenea, interpolare nereușită cazul când numitorul expresiei de mai sus devine nul.

Dacă interpolarea este reușită, se înlocuiește cel mai nefavorabil punct dintre , și cu și se trece la etapa următoare 3).

Dacă interpolarea nu este reușită, se acceptă drept punct de start punctul din interpolarea anterioară reușită, se reduce pasul și căutarea se reia de la etapa 1).

4) Se verifică criteriul de convergență, cum ar fi de exemplu: diferența dintre valorile funcției în două puncte de interpolare reușită consecutive să fie mai mică decât o valoare critică. Dacă convergența nu este satisfăcută, se reia algoritmul de la etapa 2) [113].

Metoda Rosenbrock – a rotirii coordonatelor

Algoritmul Rosenbrock utilizează accelerarea atât în direcție cât și distanță, explorarea funcției având loc după un set de direcții ortogonale care se modifică de la o iterație la alta a cercetării. Din punctul de stare se face deplasarea cu pasul în direcția paralelă cu prima axă de coordonate, în punctul. Deoarece F() > F(), deplasarea efectuată este un insucces și în consecință revenim în punctul. Ca urmare a insuccesului, pasul pentru această direcție în iterația următoare devine – , unde 0< β < 1, (Rosenbrock recomandă β = 0,5). Cercetarea se continuă din punctul, după direcția paralelă cu a doua axă de coordonate, efectuând deplasarea cu pasul în punctul unde F() < F(). Ca urmare a succesului, se înlocuiește pasul pentru această direcție prin α unde α >1, (Rosenbrock recomandă α = 3). Revenind asupra primei direcții , cu pasul -, din punctul , se deplasează în punctul, deoarece F() < F(). În consecință, pasul următor pentru această direcție se mărește. Revenim asupra direcției și testăm punctul care constituie un insucces deoarece F() > F(); pe această direcție rezultă, până la acest stadiu al cercetării, un succes urmat de un insucces. Revenim în punctul = și testăm punctul după direcția , punct care constituie un insucces și în consecință se incheie o iterație, cel mai bun punct obținut fiind . Se începe o nouă iterație în care direcțiile de cercetat sunt și . După mai multe iterații k, direcția tinde să ia cea mai avantajoasă orientare în raport cu extremul funcției, iar este orientat perpendicular pe ea. În acest mod, prin evaluarea de noi direcții la sfârșitul fiecărei iterații, se continua cercetarea până la satisfacerea criteriului de convergență. Considerând problema minimizării unei funcții obiectiv F(X) de n variabile independente algoritmul Rosenbrock parcurge deci următoarele etape:

1) Se alege un punct de start și un set inițial de direcții , ,…,, de regulă paralele cu axele de coordonate precum și un set de pași R(j), j =1,2,…,n câte unul pentru fiecare direcție.

2) Se cercetează funcția după fiecare direcție. Considerând că ne aflăm la început în punctul de start , unde s-a acceptat un set de direcții paralele cu axele de coordonate, ne deplasăm mai întâi în punctul = + .

a) Dacă F() < F(), deplasarea este un succes, pasul pe această direcție devenind α. Din punctul de succes se efectuează deplasarea în direcția următoare.

b) Dacă F() ≥ F(), adică este un insucces după această direcție, pasul pe această direcție devine -. În continuare se trece la cercetarea direcției următoare din punctul . Această cercetare se continuă succesiv pentru toate direcțiile. Etapa aceasta se reia pentru fiecare direcție până când pe fiecare direcție rezultă un succes urmat de un insucces sau pasul pe direcția respectivă a devenit mai mic decât o valoare critică prealabilă. O iterație se încheie odată cu satisfacerea uneia din aceste condiții pentru toate direcțiile. În cadrul unei iterații, direcțiile ce au satisfăcut aceste condiții nu mai sunt cercetate.

3) Se evaluează un nou set de direcții pe baza mărimilor:  ; j =1,2,….n, unde este suma algebrică a tuturor pașilor efectuați cu succes pe o direcție, iar k numărul iterației. Setul nou de direcții de cercetat este:

unde :

După evaluarea setului de noi direcții se reia etapa 2). La sfârșitul etapei 2) se verifică de fiecare dată convergența și se decide continuarea sau oprirea experimentului. Testarea algoritmului Rosenbrock și a programului respectiv se realizează cu ajutorul funcției test:

Testele au arătat că algoritmul Rosenbrock se caracterizează printr-o eficiență ridicată, fiind capabil de a găsi rapid extremul unei funcții complicate [114].

Algoritmul Powel este înrudit cu algoritmii Hooke–Jeeves și Rosenbrock prezentați anterior. Acest algoritm este o metodă accelerată în direcție și se bazează pe cercetarea după direcții conjugate. Algoritmul Powel prezintă eficiență ridicată din punctul de vedere al preciziei determinării extremului. Referiri cu privire la performanțele acestui algoritm se găsesc în lucrările lui Zangwill și Box în care sunt comparate performanțele algoritmului lui Powell cu cele ale altor algoritmi.

Metode de gradient.

Metode de gradient de ordin 1. Metodele de gradient de ordinul 1 sunt conforme cu o aproximare liniară a funcției obiectiv dezvoltată în serie Taylor. Considerând o funcție obiectiv multivariabilă F[X(I)] de N variabile, gradientul în punctul X(I) = Xk(I) este vectorul derivatelor de ordin 1 în acest punct, adică:

Vectorul unitate (pe direcțiile normate ale gradientului) corespunzător punctului X(I)= Xk(I) se scrie:

semnul plus fiind utilizat pentru maximizarea, iar semnul minus pentru minimizare. Principiul metodei gradientului de ordin 1 este schițat grafic în figură. Din vârful de start X0(I) se cercetează direcția gradientului în acest vârf, adică direcția D[X0(I)], când se identifică extremul X1(I) după această direcție. În continuare, în direcția gradientului D[X1(I)], din vârful X1(I) se identifică extremul X2(I). Cercetând noua direcție D[X2(I)], din vârful X2(I) se identifică extremul X3(I). Acest mod de cercetare continuă până la atingerea optimului cu gradul de precizie dorit. Referitor la o problemă de extrem în general, algoritmul cuprinde următoarele etape:

1) Se alege un vârf de start X0(I);

2) Se evaluează gradientul de ordinul 1, F[X0(I)], și direcțiile normate corespunzătoare D[X0(I)], în acest vârf;

3) Se evaluază extremul după prima direcție ce trece prin X0(I). Notăm acest extrem prin X1(I), extrem utilizat drept vârf de start în iterația următoare. Generalizând extremul Xk+1(I), după o direcție D[Xk(I)] ce trece printr-un vârf Xk(I), este utilizat ca vârf de start în iterația următoare;

4) După fiecare iterație se verifică criteriul de convergență, de exemplu:

Dacă criteriul este satisfăcut cercetarea se oprește și se acceptă drept extrem al funcției cercetate extremul ultimei direcții. Dacă criteriul nu este satisfăcut, se recurge la o nouă iterație, aceasta continuând până la satisfacerea criteriului de convergență.

Metode de gradient de ordin 2. Așa cum s-a arătat, metodele de gradient de ordinul 1 iau în

considerare o aproximare liniară a funcției obiectiv prin dezvoltarea acestuia în serie Taylor. Metodele de gradient de ordinul 2 iau în considerare o aproximare pătratică a funcției obiectiv și extremul se caută, în acest caz, de-a lungul direcțiilor normate de forma:

unde H[Xk(I)] este matricea hessiană a funcției F[X(1)] calculată în punctul X(I) = Xk(I). Prin utilizarea unei aproximări pătratice, metoda este superioară din punctul de vedere a convergenței, dar aplicarea metodei la o problemă de extrem este posibilă numai dacă hessianul este definitiv pozitiv la fiecare iterație. Necesitatea cunoașterii derivatelor de ordinul 2 și inversarea hessianului fac ca acestă metodă să fie puțin aplicată. Pentru înlăturarea acestor dezavantaje au fost elaborate metode de aproximarea a hessianului funcției F[X(1)].[115]

În privința vitezei de calcul și a performanței generale a acestor algoritmi s-au efectuat studii numerice constând în rezolvarea simultană a unei baterii de 100 de probleme de minimizare, respectiv minimizarea a 50 de funcții test cu două seturi de vectori, cu 5 și respectiv 10 variabile. Testele au evidențiat că metoda Powell, a interpolării pătratice, este cea mai lentă, iar cei mai performanți algoritmi se bazează pe metoda Rosenbrock și Hooke-Jeeves (fig.28).

Fig.28 Caracteristicile de performanță ale unor algoritmi de căutare directă a optimului

Direcții teoretice de cercetare

Deoarece la elaborarea unei decizii trebuie combinate mijloacele de acțiune alese în funție de eficacitatea lor, este imperios necesar să se cunoască bine raporturile dintre factorii care determină luarea unei decizii în procesul transferului de informație. Cele mai multe aplicații ale cercetării informaționale au câteva trăsături caracteristice. Concret, o propunere de abordare a unei probleme particulare va trebui să aibă următoarele calități înainte de a fi considerată o abordare de cercetare informațională:

1. Concentrarea asupra elaborării deciziei. Rezultatul principal al analizei trebuie să aibă o implicare directă și clară în acțiunea operativă.

2. O evaluare bazată pe criteriile eficacității. O comparație a diferitelor soluții posibile trebuie să se bazeze pe valori măsurabile care să reflecte fără echivoc bunul mers al sistemului în viitor.

3. Încrederea într-un model matematic formal. Procedurile de manevrare a datelor trebuie să fie atât de explicite încât să poată fi descrise altui operator care, la rândul lui utilizând modelul respectiv, ar trebui să obțină aceleași rezultate folosind aceleași date.

4. Utilizarea unor algoritmi viabili. Această caracteristică nu este în esență un scop ci mai degrabă o cerință impusă fie de modelul matematic și de volumul de date care sunt procesate, fie de amploarea calculelor necesare implementării sistemului de conducere, operare și urmărire.

Totuși, de regulă, un sistem complex de transfer informațional nerepetitiv, nu poate fi supus, în ansamblu său experimentării. În plus, de multe ori sunt necesare una sau mai multe ecuații sau inecuații care exprimă faptul că variabilele controlabile pot varia numai între anumite limite. Funcția criteriu împreună cu restricțiile constituie modelul sistemului și în același timp problema pe care dorim să o rezolvăm. Prin urmare, acesta este atât un model al sistemului, cât și un model de decizie. O dată modelul constituit, el poate fi utilizat pentru a găsi exact sau aproximativ valorile optime ale variabilelor controlabile – adică acele valori care asigură cea mai bună performanță a sistemului, pentru anumite valori specificate ale variabilelor necontrolabile. În acest fel, se obține o soluție a problemei cu ajutorul modelului.

O soluție optimă este o soluție care minimizează sau maximizează, după caz, valoarea funcției criteriu din model, cu restricțiile care apar în acel model. Deoarece soluția optimă a modelului poate îmbunătăți funcționarea sistemului numai dacă modelul constituie o bună aproximație a realității, soluția propusă va trebui testată și evaluată.

În perspectiva algoritmizării procesului de transfer și interacțiune informațională un prim aspect foarte important îl constituie stabilitatea numerică a algoritmilor, conform cadrului impus de Algebra liniară computațională. Alte concepte de care trebuie ținut cont cu această ocazie se referă la Teoria perturbațiilor și numere de condiționare și factorizarea matriceală. Un alt capitol important este și cel legat de elemente de clasele de algoritmi și aplicațiile multivoce închise.

Alte aspecte importante în cadrul optimizării algoritmilor de optimizare au în centrul atenției:

Convergența globală a algoritmilor, cu aplicabilitate practică

Convergența asimptotică; viteza de convergență a algoritmilor

Convergență liniară și superliniară.

Metode descendente pentru optimizare fără restricții. Algoritmi de căutare liniară cu backtracking

Metode generatoare de direcții (quasi-Newton): BFGS, DFP și SR1.

Metode pentru probleme de mari dimensiuni: metode BFGS cu memorie limitată

Analiză convergenței metodei Newton pentru funcții autoconcordante

Algoritmul barieră primal-dual; algoritmul barieră predictor-corector

Algoritmi de optimizare cu restricții liniare mixte/neliniare

Analiza convergenței metodei barieră/barieră logaritmică.

Un algoritm numeric stabil permite:

Pentru orice intrare de date, soluția calculată aproximează bine soluția exactă;

Pentru orice intrare de date, soluția calculată este egală cu soluția exactă pentru niște date de intrare ușor perturbate.

Convergența globală este o proprietate care exprimă siguranța funcționării unui algoritm și reprezintă exigența minimă cerută unei metode de rezolvare a unei probleme. În cadrul unui algoritm concret, funcția de descendență este considerată ori funcția de minimizat, sau în absența acesteia o anumită funcție de merit care înglobează anumite pretenții de convergență. Funcția de merit poate include norma unor condiții de admisibilitate sau optimalitate; distanțe între anumite obiecte care măsoară convergența algoritmului e.t.c. Continuitatea acestei funcții este cerința minimală care trebuie impusă pentru asigurarea convergenței [116].

Dacă se compară mai mulți algoritmi și dacă presupunem că timpul de calcul pe iterație este aproximativ același, atunci cel mai performant este acela care necesită cel mai mic număr de iterații. Convergența asimptotică conduce la atribuirea fiecărui algoritm a unui indice de eficiență de fapt, viteza de convergență. Pe lângă acestea trebuie luate în considerare o serie de alte aspecte care contribuie la o corectă proiectare și definire a unui algoritm de optimizare. Se pot specifica câteva dintre cele mai importante, care constituie o preocupare constantă a cercetătorilor din domeniul optimizărilor și care au o importanță deosebită în implementarea unui algoritm de programare:

Calculul direcției de deplasare și a lungimii pasului

Utilizarea tehnicilor de scalare și precondiționare

Strategii de reducere rapidă a funcției obiectiv

Alegerea eficientă a estimațiilor multiplicatorilor lui Lagrange

Influența degenerării asupra procesului de rezolvare a problemei

Incorporarea metodelor de actualizare quasi-Newton

Criterii de oprire a iterațiilor (criterii de satisfacere a convergenței algoritmului)

Proiectarea de metode de reducere a funcțiilor de merit

Alegerea inițială a parametrilor care fixează condițiile de optimizare

Alegerea punctelor inițiale (avansate).

Algoritm hibrid pentru optimizare cu restricții

Modelul de optimizare propus se încadrează în clasa modelelor nederivative, a celor folosite în situația existenței unui număr relativ mic de variabile. Aceste metode sunt bazate pe construcția unui șir de puncte de-a lungul căruia valorile funcției de minimizat se reduc. Acestea sunt caracterizate de faptul că algoritmul corespunzător de determinare a minimului se bazează doar pe valorile funcției obiectiv, fără a se încerca o procedură de estimare în vreun sens și a se utiliza informațiile asupra derivatei acestei funcții pentru a determina o direcție de descendență. La fiecare iterație fiind fixat un punct curent xc și un punct de testare xt algoritmul trebuie să decidă acceptarea acestui punct (x+=xt) sau respingerea sa (x+=xc). În acest cadru, metodele care sunt fundamentate teoretic pe condițiile de optimalitate Karush-Kuhn-Tucker, sunt considerate metode de tip primal-duale, ele având aplicație atât în spațiul variabilelor primale cât și a celor duale. Aceste metode folosesc condițiile de optimalitate Karush-Tucker-Kuhn. Astfel, pentru o problemă cu restricții egalități (așa cum va fi cazul secțiunii dedicate optimizării prozodice):

cu restricțiile:

unde funcțiile f și ri definite pe Rn cu valori reale, sunt cel puțin de două ori diferențiabile, o metodă de acest tip constă în rezolvarea sistemului de n+m ecuații formate din condițiile de optimalitate KTK:

În ceea ce privește necunoscutele x ϵ Rn și θ ϵ Rm, sistemul anterior se rezolvă prin evaluarea matricei Hessian a funcției Lagrange, o procedură destul de greoaie. De aceea se poate continua cu o metodă de tip Newton.

În cazul restricțiilor de tip inegalitate pentru aceeași funcție (cu aceleași proprietăți):

cu restricțiile:

condițiile KTK care trebuie rezolvate sunt:

Rezolvarea acestui sistem neliniar se poate face prin introducerea variabilelor ecart și ulterior aplicarea unei metode de tip Newton. Pentru oricare din cele două situații cuplăm modelul cu un algoritm de tip Newton amortizat. În cadrul acestui algoritm, la fiecare iterație, se calculează pasul și decrementul Newton, ceea ce implică determinarea inversei matricei Hessian a funcției obiectiv (de minimizat). Algoritmul Newton amortizat este:

Pasul 1: Se alege un punct inițial x0 ϵ Dom f și toleranța ε ≥ 0. Se pune k = 0.

Pasul 2: Se calculează pasul Newton:

Pasul 3: Se calculează decrementul Newton:

Pasul 4: Dacă d2/2 ≤ ε, atunci STOP;

Altfel se continuă cu pasul 5

Pasul 5: Se execută o căutare lineară cu backtracking pentru a se găsi lungimea tk a pasului de deplasare de-a lungul pasului Newton.

Pasul 6: Se actualizează aproximația punctului de optim:

se pune k = k+1 și se execută pasul 2.

4.3 Optimizarea expresivității comunicării prin control prozodic dinamic

Un model matematic de optimizare a unui proces informațional în prezența restricțiilor, se bazează pe o serie de condiții de optimalitate pe care un punct din spațiul soluțiilor admisibile trebuie să le satisfacă pentru a se califica drept soluție optimă. În esență avem de-a face cu o problemă de Programare Matematică, care constă în determinarea valorilor componentelor vectorului variabilelor x ϵ Rn care realizează minimul unei funcții obiectiv f(x) în condițiile în care acestea trebuie să satisfacă o mulțime de restricții (egalități, inegalități sau margini simple). După modul în care sunt rezolvate condițiile pe care un punct x* trebuie să le satisfacă pentru a se califica drept soluție a problemei, se obțin diferiți algoritmi de optimizare. Pentru elaborarea unui model de optimizare există o serie de algoritmi cu un grad mare de complexitate, bazați pe tehnici de calcul de înaltă performanță, care țin seama de geometria domeniului de admisibilitate, de prezența neliniarităților și chiar a funcțiilor neconvexe atât pentru funcția obiectiv cât și în restricții sau de lipsa fezabilității ori nemărginirea problemei e.t.c. Se cunosc cel puțin trei moduri de abordare pentru obținerea condițiilor de optimalitate. Primul se bazează pe teoremele de separație și sprijin ale mulțimilor convexe (teoreme de tip Hausdorff), al doilea pe funcțiile de penalizare și al treilea pe teoria clasică a multiplicatorilor lui Lagrange. Aceste condiții de optimalitate, în ipoteza de diferențiabilitate, sunt cunoscute sub denumirea de condițiile Karush-Kuhn-Tucker și pe lângă valoarea lor intrinsecă de a caracteriza soluțiile optime ale unei probleme de programare convexă definesc fundamentele teoretice pentru dezvoltarea și analiza algoritmilor de programare matematică [117]. Evident, condițiile de optimalitate includ restricțiile problemei iar pe lângă acestea, în cadrul lor se vor regăsi și așa numitele condiții de complementaritate (transversalitate) care asigură optimalitatea propriu-zisă.

În cele ce vor urma vom asimila vorbirea liberă discursului radiofonic. În sinteza unui discurs expresiv, nivelul emoțional reprezintă un element foarte important. Spre diferență de alte analize clasice care s-au concentrat pe discretizarea stărilor emoționale, prezentul studiu se concentrează pe identificarea unei metode de optimizare a discursului din punct de vedere emoțional, indiferent de nivelul de clasificare a intensității acestuia: puternic, slab sau mediu. Studiul se ocupă pentru început de aplicarea unor metode relativ actuale pentru analiza prozodică a vorbirii. Este vorba despre modelele LMM (Linear Modification Model), GMM (Modelul Mixtului Gaussian) și CART (Clasificare prin Arborele Regresional), descrise în primul capitol al tezei. Tehnica LMM poate realiza o modificare directă a contururilor frecvenței F0 și duratei silabice dată de distribuția acustică a discursului emoțional (F0-nivel de vârf, F0-nivel de bază, durată, intensitate). La o analiză mai amănunțită se arată că discursul emoțional este de asemenea legat de nivelul de stress și de informația din punct de vedere lingvistic. Spre deosebire de LMM, metodele GMM și CART încearcă să mapeze distribuția prozodiei subtile dintre discursul neutru și cel aflat sub imperiul emoției. Metoda CART este un algoritm de predicție și analiză care selectează succesiv fiecare predictor la elaborarea arborelui astfel încât entropia datelor să scadă progresiv. În timp ce GMM folosește doar caracteristici de semnal, modelul CART integrează și caracteristicile lingvistice în procesul de mapare. În toate metodele de conversie este creată o deviere a măsurii expresivității percepute (DPE) pentru a evalua expresivitatea discursului urmărit. Studiile arată că, dintre toate cele trei metode, LMM oferă cele mai slabe rezultate. Metoda GMM este mai pretabilă pentru seturi reduse de antrenare, în timp ce metoda CART conferă o mai bună receptare a unui discurs într-un context emoțional mai complex, dacă sunt prevăzute corpusuri de antrenare mai mari și cât mai adecvate contextual. În cercetarea privind Sinteza Vorbirii Expresive (Expressive Speech Synthesis), acolo unde emoția reprezintă un element important, se studiază o serie de caracteristici prozodice, precum variabilele de pitch (F0, domeniu de valori, contur și jitter) și viteza de rostire. Există de asemenea și alte implementări interesante în Sinteza Vorbirii Emoționale (Emotional Speech Synthesis). Spre exemplu, unii cercetători [118] au adăugat parametri de control emoțional la metodele de bază pentru analiza sunetului, cu rezultate remarcabile. Alți cercetători [119], prin intermediul unui editor de parametri acustici și vizuali, au reușit determinări privind vorbirea emoțională, prin operare manuală directă. Recent, s-au obținut rezultate bune prin folosirea unor corpusuri de mari dimensiuni. Un sistem interesant [120] în sinteza vorbirii expresive a fost realizat cu ajutorul unei baze de texte adunate pe o perioadă de 5 ani și care a dus la rezultate impresionante. Alți cercetători [121] au generat un motor TTS de interpretare expresivă a textelor care a putut fi programat, printr-un limbaj de adnotare a discursului de sinteză, să folosească o varietate de stiluri expresive reieșite din 10 ore de interpretare a unor propoziții ,,neutre". Mai mult chiar, au rezultat și reguli de traducere a unor elemente expresive concrete din corpusul ToBI. În fine, unii cercetători au folosit cuvinte-cheie de tip emoțional pentru a se genera un sistem emoțional de tip TTS (fig.29).

Fig.29 Diagrama unui sistem de tip Text-To-Speech

S-a constatat că, în general, starea emoțională din zona rostirii este determinată în mare parte de factori ce țin de textul pus la dispoziție pentru redare. Se poate vorbi despre faptul că starea emoțională poate fi considerată ca fiind generată de un vector emoțional. Vectorul poate fi o emoție suprapusă peste o altă emoție dusă la extrem. În abordarea vectorială, expresia poate fi o reflexie a intensității unor zone particulare. Pornind de la această idee, spre deosebire de metodele tradiționale, se pot eticheta corpusurilor de texte în funcție de patru categorii: puternic, normal, slab și neplăcut corespondente următoarelor stări: fericire, tristețe, teamă și furie. Așa numitul discurs neutru este folosit ca sursă de referință și nu este adnotat conform categoriilor de mai sus. Prin această modalitate, se pot testa metode de conversie prozodică care urmăresc să transforme parametrii prozodici – F0, durată ori intensitate a unei anumite rostiri pentru obținerea unui discurs de tip emoțional. În acest context se pot utiliza combinat metodele LMM, GMM și CART. Metoda LMM operează modificări directe asupra conturilor frecvenței fundamentale F0 (vârf, bază și zona mediană), a duratelor silabice și intensităților rezultatelor analizei distribuției acustice. Din prelucrarea seturilor de antrenare a corpusurilor reies un număr de 12 patternuri (patru tipuri de emoții având fiecare câte trei grade de intensitate: puternic, normal, slab). În vederea evaluării expresivității discursului emoțional se introduce ulterior o metodă de calculare a corelării cu percepția. La o analiză mai amănunțită se arată că expresia emoției nu doar că influențează caracteristicile generale prozodice, dar afectează accentuarea propozițiilor și caracteristicile prozodice mai subtile. Pentru că metoda LMM nu dă outputuri foarte bune, se impune o aplicare în paralel a metodelor GMM și CART. Metoda GMM realizează maparea distribuției caracteristicilor prozodice de la o stare neutră la emoții variate, în timp ce modelul CART stabilește legături între caracteristicile lingvistice și conversia prozodică. Spre deosebire de metoda LMM, metodele GMM și CART nu pot folosi direct contururile frecvenței F0, astfel că trebuie introdus un model focusat pe pitch. Acesta se bazează pe ideea că valorile F0 observate nu sunt unități lingvistice per se. Chiar ele se constituie în realizări de suprafață a unităților lingvistice funcționale precum tonul și accentele de pitch. În model, variațiile contururilor F0 rezultă nu numai din sublinierea unităților de pitch dar și din constrângerile articulărilor care determină modul cum aceste unități sunt implementate. O analiză a rezultatelor finale arată că metoda directă LMM oferă cele mai slabe rezultate dintre toate cele trei metode. Metoda GMM este pretabilă pe corpusuri de antrenare scurte, în timp ce CART se dovedește mai potrivită pentru corpusuri mai lungi [122]. În general analizele mai profunde ale emoțiilor și stresului în procesul vorbirii arată că emoțiile sunt strâns legate de distribuția prozodică. Pentru a crea un model de analiză trebuie urmate o serie de etape:

Pregătirea corpusului

Spre exemplu unii cercetători propun un corpus bazat pe date stocate timp de mai mulți ani cu texte preluate din diverse publicații, realizat cu ajutorul unui algoritm tip Greedy. Pentru aceasta sunt urmăriți următorii factori:

Identitatea silabelor curente;

Identitatea tonului curent;

Identitatea inițialelor în tonul următor;

Identitatea tonului anterior;

Identitatea inițialelor în următoarea silabă;

Identitatea tonului următor;

Numărul de silabe din cuvântul anterior;

Numărul de silabe din cuvântul următor;

Numărul de silabe deja rostite din frază;

Numărul de silabe ce urmează a fi rostite din frază;

Numărul de silabe precedente din actul vorbirii;

Numărul de silabe care urmează în actul vorbirii.

Factorul 1) are N valori care corespund celor N tipuri de silabe din limba română. Factorii 2), 4) și 6) au fiecare câte cinci valori corespunzătoare celor patru tonuri complete și celui de-al cincilea, neutru (0). Factorul 3) conține 20 de valori (tipuri inițiale) iar factorul 5) conține 41 valori (tipuri finale). Factorii 7)- 10) au câte trei valori fiecare, 0, 1, 2 unde 0 reprezintă faptul că segmentul se întinde spre limită, 1 înseamnă lipsa unei silabe iar 2 înseamnă două sau mai multe silabe. Factorii 11) – 12) au câte 2 silabe, 0 și 1, unde 0 reprezintă faptul că segmentul se intinde spre limită, iar 1 înseamnă lipsa uneia sau a mai multor silabe. În timpul fazei de selecție, frazarea este codată doar în baza punctuației. După ce textul a fost selectat și baza de date stocată, frazarea se înregistrează în corespondență cu pauzele. Fiecare rostire în baza de date conține cel puțin două fraze. După ce corpusul este elaborat, fiecare propoziție este înregistrată în cinci stări emoționale: neutralitate, fericire, tristețe, teamă și furie de un actor profesionist, într-un studio radio profesional, la un microfon cu membrană largă. În paralel un semnal laringografic este înregistrat pentru obținerea unei informații corecte referitoare la sunete. Înregistrarea este asistată de către minim două persoane. Una acompaniază vorbitorul pentru a-i da indicații cu privire la modul în care să efectueze rostirea. Vorbitorului i se cere să se raporteze la propriile experiențe de viață, pentru a simula o serie de emoții veritabile. Cealaltă persoană martor realizează decizia finală. Înregistrările nu se opresc până când nu se ating rezultate satisfăcătoare. După înregistrare, toate discursurile sunt adnotate prin segmentare și din punct de vedere prozodic, cu pauze de index și informații despre nivelul de stres. Valorile F0 sunt de asemenea procesate și verificate manual.

Etichetarea și analiza

În debutul acestei faze se prezintă rostirile într-o ordine aleatoare unui grup de 15 subiecți, absolvenți de studii superioare, voluntari în experiment. Fiecare înregistrare este redată de două ori la un interval de 3 secunde. Subiecților li se solicită notarea emoției pe patru nivele, puternic (nivel 3), mediu (nivel 2), slab (nivel 1), neplăcut (nivel 0). Diferiți ascultători percep diferit unele aspecte emoționale din discurs și astfel este dificil de realizat un consens. Rezultatul interesant al acestei etichetări este nivelul emoțional atins de subiecți. Se procedează la o rotunjire a mediei rezultatelor astfel încât să se realizeze apropieri de nivelele propuse: puternic (nivel 3), mediu (nivel 2), slab (nivel 1), neplăcut (nivel 0). Din cele 1000 de propoziții din corpusul menționat, 700 sunt folosite pentru analiză sau antrenare iar celelalte 300 pentru testare. În continuare se construiește un tabel care conține valorile medii și abaterile standard a parametrilor prozodici din textele de antrenare pentru diferite nivele emoționale. În cadrul tabelului sunt indicate deviațiile standard SΔ , mediile la mijlocul frecvenței fundamentale (F0med), la vârful acesteia (F0vf) și la bază (F0bz) precum și durata silabelor (Dsb) și intensitatea (I). Rezultatele indică faptul că sentimentele de bucurie și furie au dus la obținerea unui F0 ridicat iar tristețea spre un F0 scăzut. Suprapunerea F0 median și F0 la vârf raportat pentru emoții diferite este mai mic decât F0 de la bază [123].

Este o sarcină dificilă să transformi discursul neutru într-un discurs emoțional deoarece cel de-al doilea implică aspecte variate precum intonația, pauzele, viteza rostirii și intensitatea sonoră. Începând cu foarte mici deviații standard ale mediilor duratei și intensității silabelor, se pot găsi distribuții clare ale vitezei de rostire și intensității în funcție de diferite tipuri de emoții. Pentru acești parametri se poate folosi metoda modificării raportului liniar. Metoda este utilă pentru conversia conturului lui F0 în condiții de prezență a emoțiilor. Este de asemenea de subliniat că fluctuația frecvenței F0 reprezintă un parametru important pentru abordarea vorbirii emoționale. În cazul fluctuației F0 în măsurătorile acustice este potrivită o curbă pătratică cu o fereastră mobilă ce acoperă cinci valori succesive ale lui F0. Fluctuația F0 se poate calcula ca o medie a variației periodice a pitchului în valoarea reziduală a F0. Tabelul următor arată rezultatele obținute în cazul unor emoții puternice. Din aceste rezultate, se poate vedea că fericirea prezintă cea mai mare fluctuație a F0 în timp ce tristețea conține minimul fluctuației distribuției F0. În timpul sintezei vorbirii, fluctuația F0 este realizată de o variație aleatorie în lungimea perioadelor de pitch cu o amplitudine proporțională cu valoarea parametrică. Această variație aleatorie este controlată de un filtru de zgomot alb de tip trece-jos unipolar [124]. Tabelul 5 prezintă valorile medii ale fluctuației frecvenței fundamentale F0 pentru nivelul emoțional puternic.

Tabelul5 Valorile medii ale fluctuației frecvenței fundamentale F0 pentru nivel emoțional puternic

Modelul Modificării Liniare – LMM

Dintre toate metodele de conversie prozodică, LMM pare a fi cea mai intuitivă. Se pot selecta patternurile de modificare a prozodiei direct din distribuția caracteristicilor prozodice de deasupra emoțiilor.

Aici x indică parametrii prozodici de intrare: F0 la vârf, F0 la bază, F0 median, durata silabelor și intensitatea. Mărimea y indică valorile de ieșire a același mărimi sub acțiunea tipurilor emoționale. Mărimea α exprimă scara de transformare a parametrilor prozodici paraleli dintre nivelul neutru și cel emoțional așa cum este calculat din setul de antrenare a corpusului. Mărimea n denotă starea emoțională, adică teama, tristețea, furia și fericirea, iar i indexează nivelul emoțional puternic, mediu și slab. Tabelul următor arată scara de transformare în simularea unor emoții puternice. Astfel ,,+" se traduce prin ,,crescut cu" iar ,,-" înseamnă ,,scăzut cu" luând ca referință parametrii în starea neutră. Un grup de scări de transformare formează un model de simulare a emoțiilor. Există în total 12 pattern-uri (4 emoții a câte trei grade de intensitate: puternic, mediu, slab). Tabelul 6 prezintă scara de transformare a parametrilor prozodici de la nivelul emoțional neutru la cel puternic.

Tabelul 6 Scara de transformare a parametrilor prozodici de la nivelul emoțional neutru la cel puternic

Pentru a evalua metoda conversiei, se folosesc propoziții de ordinul câtorva sute din setul de testare al corpusului. Toate pattern-urile de transformare se aplică pentru a transforma vorbirea neutră în vorbire emoțională printr-un sintetizator care folosește programul STRAIGHT [125] ca modul de procesare acustică. În mod obișnuit, este folosit un test ABX pentru evaluarea performanței metodelor de conversie a vocii [126]. Într-un astfel de test, ascultătorului i se solicită să hotărască care din probele A sau B este mai apropiată de vorbirea X. Pentru evaluarea expresivității în discursul emoțional, un test ABX nu este ușor de folosit deoarece starea emoțională nu poate fi definită ușor, în special când intervin în discuție și cele trei niveluri: puternic, mediu, slab. Potrivirea forțată de unu-la-unu nu este este aplicabilă în orice condiții.

Pentru a evalua rezultatele simulării emoționale, se poate folosi o metodă denumită Deviere a Percepției Expresivității (DPE). Experimentul DPE implică același grup de 15 subiecți ce au luat parte la procesul de etichetare a emoțiilor. Acestora li se cere să noteze un număr de câteva mii de rostiri sintetizate (câteva sute de propoziții – test cu câte 4 emoții gradate pe 3 niveluri) folosindu-se aceeași metodă descrisă anterior. Rata de eroare a unei emoții simulate este măsurată de:

unde n denotă starea emoțională, adică frică, tristețe, furie sau fericire, i indexează nivelul de emoție atins, adică puternic, mediu sau slab. Mărimea đn,i este nivelul mediu de etichetare a emoției sintetizate, đ'n,i este nivelul mediu de etichetare pentru vorbirea originală. Din aplicarea metodei DPE reiese că emoțiile puternice pot fi greu sintetizate cu metoda LMM, cu excepția fericirii. Multe emoții sintetizate sunt percepute ca fiind mai puțin expresive decât cele naturale. Multe dintre acestea au fost chiar percepute ca neutre, precum frică moderată, fericire moderată, deși parametrii prozodici au fost modificați substanțial. Aceasta probabil indică faptul că simpla modificare a parametrilor prozodici printr-un grup de scări de transformări constante nu este adecvată în reflectarea efectelor emoțiilor. În acest mod, multe caracteristici detaliate ale prozodiei din rostire pot fi pierdute [127].

O serie de studii au demonstrat că există o puternică legătură între emoții și accent. Accentul reprezintă cel mai proeminent element găsit într-o rostire, respectiv ,,concentrarea semantică", cea care reprezintă factorul central care denotă atitudinea vorbitorului. Într-un corpus, cele mai multe intonații ale rostirii neutre au o tendință de descreștere de la început înspre final. Propoziția se accentuează în mod normal la începutul ei. Pentru a înțelege mai bine localizările variate ale accentului în funcție de emoții, se poate realiza un experiment adițional de percepție cu ajutorul unui corpus specializat. Un număr de trei subiecți pot fi solicitați să adnoteze accentul așa cum îl percep pe o silabă sau pe un cuvânt, după ce ascultă o serie de rostiri într-o ordine aleatorie. Rezultatele sunt cuantificate după verificarea cuvintelor accentuate. Rezultatul este apoi analizat prin verificarea cuvintelor accentuate. Se acordă 3 puncte pentru o silabă sau un cuvânt dacă acesta este perceput de trei subiecți ca principal accent al întregii propoziții. Două puncte au fost date atunci când doi ascultători au ajuns la un consens. Zero puncte s-au dat atunci când fiecare a perceput un alt accent decât ceilalți. Bazat pe rezultatele perceptuale, accentul propoziției este atribuit cuvântului care obține două sau trei puncte. Se poate elabora un tipar de accent perceput în funcție de cinci trepte de emoții la un nivel ridicat. “I” înseamnă că accentul se află pe primul cuvânt al rostirii, ”F” înseamnă că accentul se află pe ultimul cuvânt al rostirii, iar ”M” înseamnă că accentul se află într-un cuvânt din mijlocul rostirii. Se găsește că accentul se schimbă în propoziții în funcție de emoții. Aceste accente se schimbă atât datorită emoțiilor cât și altor factori: conținut, situație, vorbitor. Câteodată, accentul în cazul fericirii păstrează pattern-ul rostirii într-o stare neutră. De asemenea, când într-o propoziție accentul este în mijloc, emoția îl duce spre finalul acesteia. Această transformare este atât de dificilă că metoda LMM, spre exemplu, este incapabilă să o modeleze.

Metoda de conversie prozodică

În scopul tratării cu suces a experimentului descris mai sus, se iau în considerare și metodele GMM și CART. Adevăratul scop al operației de mapare este stabilirea unei relații între două seturi de vectori multidimensionali, care corespund cu sursa vorbirii și respectiv cu vorbirea transformată. Folosirea unui model mai complex de conversie nu este preferabilă datorită dificultății generate de lucrul cu o suită de contururi ale F0. În acest sens ar trebui să se recurgă la atașarea unui model parametric necesar pentru descrierea tuturor contururilor spectrale. Există limbi și dialecte cu o formă accentuat tonală, în care o silabă cu diferite tipuri de ton poate reprezenta morfeme diferite. Există patru tipuri de ton de referință: înalt, în creștere, slab și în descreștere. Ele se manifestă mai ales în contururile frecvenței F0 fiind vizibile în cadrul considerării unui model de răspuns la comenzi pentru contururile frecvenței F0. Acesta folosește două tipuri de comenzi: comanda cu formă de impuls, care dă un ton crescut intonației globale și comanda accentului sub formă de treaptă, care conferă un accent ridicat dat de ondulațiile specifice fiecărui cuvânt. Sistemul STEM-ML realizat de Bell Labs este un sistem de etichetare, în care contururile F0 sunt descrise de taguri de marcare, incluzând marcatorii de accent pentru tonul local și marcatorii de nivel pentru curbele de expresie globale [128].

Problema tuturor acestor modele este aceea că este dificil să se stabilească relația dintre tagurile comenzii și diferite rostiri. În modelul propus de identificare a pitch-ului, variațiile în suprafața conturului F0 rezultă nu numai din sublinierea unităților de pitch (silabele din respectiva limbă), ci și din constrângerile articulatorii. Țintele de pitch sunt definite ca fiind cele mai mici unități asociate unităților de pitch lingvistice funcționale și aceste ținte pot fi statice (înalte sau joase) ori dinamice (cu specificații ale mișcării: surprinzâd creșterea sau scăderea acestora). Dincolo de particularitățile acestor modele, trăsăturile modelului de pitch sunt chiar necesare pentru conversia prozodică.

Fig.30 Modelul pitch-ului țintă

Figura 30 conferă o ilustrație schematică a pitch-urilor țintă ipotetice (linii subțiri) și suprafața realizată (liniile curbe evidențiate la scară). Trei linii verticale reprezintă limitele a două unități de pitch consecutive. Zona din dreapta figurii reprezintă un pitch țintă static (scăzut). Partea din stânga reprezintă un pitch țintă dinamic (în creștere). În ambele cazuri, țintele sunt aproximate asimptotic. Regulile implementării se bazează pe posibile constrângeri articulatorii în producerea conturului F0. Producția conturului suprafeței F0 este un proces de aproximare continuă a pich-urilor țintă de-a lungul silabelor. Când limita silabei este atinsă, începe noua aproximare pentru următoarea silabă cu un nou pitch țintă. Considerăm intervalul de timp a unei silabe ca fiind [0,D]. Modelul de pitch țintă M.P. este descris de următoarele ecuații:

unde τ (t) este pitch-ul țintă iar y(t) este suprafața conturului F0. Parametrii a și b reprezintă panta și ordonata la origine pentru pitch-ul țintă. Acești doi parametri descriu un obiectiv intonațional al vorbitorului, care poate fi total diferit de conturul F0. Coeficientul β este un parametru care măsoară distanța dintre conturul lui F0 și pitch-ul țintă fixat la momentul t = 0. Parametrul θ descrie cât de rapid se abordează pitch-ul țintă. Cu cât este mai mare valoarea lui θ, cu atât mai mare este viteza. Un model de pitch țintă pentru o silabă poate fi reprezentat ca un set de parametri (a,b,β,θ). În strânsă legătură cu limitele fiziologice ale aparatului fonator uman acești parametri fac obiectul unor restricții cum sunt intervalul de maxim al pitch-ului ori viteza maximă de schimbare a pitch-ului [129]. Acest set de parametri poate fi analizat printr-o metodă de estimare, de exemplu prin Metoda verosimilității maxime. De asemenea pot fi estimați prin asimilare cu un proces neliniar prin fixarea unor valori ale acestora în puncte de la începutul sau mijlocul conturului F0 a fiecărei silabe. Pentru estimarea parametrică într-un proces neliniar se poate folosi Metoda multiplicatorilor lui Lagrange sau algoritmul Levenberg – Marquardt.

Optimizare prozodică prin control dinamic a modelului de pitch

În general, problemele de control optimal asociate sistemelor evolutive dinamice, așa cum se prezintă procesul vorbirii libere, constau în intervenția în evoluția lor cu comenzi care să ducă la satisfacerea unor indici de performanță. În particular, considerând cazul rostirii radiofonice, prin reflectarea conformă modelului de pitch țintă, vom avea de-a face cu o formalizare a modelului M.P.:

sub forma:

unde τ: [0, D] →Rm , m ≥ 1, descrie starea sistemului la momentul t ϵ [0, D].

Introducem funcția u: [0,D] → Rn , n ≥ 1, care descrie decizia procesului de conducere a sistemului dinamic de vorbire/rostire, care se ia la momentul t ϵ [0, D] iar , pentru procesul evolutiv (4.115). Componentele τ1,τ2, …,τm ale vectorului τ ϵ Rm sunt variabile de stare iar componentele u1, u2, …,un ale lui u ϵ Rn sunt variabile de comandă. Dacă funcția f: [0, D]× Rm×Rn → Rm nu depinde explicit de t, adică f = f( x(t), u(t)) atunci procesul evolutiv (4.115) este staționar. Variabila de stare satisface și condiția inițială:

punctul inițial de intrare. Variabilele de comandă sunt supuse unor restricții descrise de funcțiile (regulate) gi : R → R, gi (u(t)) ≤ 0, t ϵ [0, D] care stabilesc dacă o comandă u(t) este sau nu admisibilă la momentul t ϵ [0, D]. Se observă că sunt îndeplinite condițiile de regularitate:

τ(t) este funcție continuă și diferențiabilă pe porțiuni;

u(t) este continuă pe porțiuni;

funcția f este continuă în argumentele sale și diferențiabilă în raport cu t și τ.

O problemă de control optimal, sau de optimizare a controlului, asociată procesului anterior constă în alegerea unei decizii admisibile u(t) astfel încât o funcție liniară de stare finală:

sau o funcțională neliniară:

să fie minimă (maximă) pe mulțimea stărilor τ(t), soluții ale sistemului:

Dacă criteriul de optim este dat printr-o funcțională neliniară atunci printr-o schimbare de variabilă în starea sistemului se rescrie criteriul de optim sub forma liniară:

Rezultă că:

Deci problema de control optimal are forma:

cu 0 ≤ t ≤ D; unde τ ϵ Rm+1 are componentele τ1, τ2, …, τm, f ϵ Rm+1 are componentele f0, … , fm iar:

În contextul problemei de control optimal (PCO) presupunem mai întâi că nu există restricții asupra variabilelor de comandă. Privită sub această formă, problema de control este o problemă de minim (maxim) pentru J dată de relația (PCO4) cu restricțiile (PCO1) și (PCO2). Observăm că optimizarea se face pe o mulțime de funcții, adică pe mulțimea soluțiilor problemei Cauchy PCO1-PCO2 care se obțin prin variația parametrului funcțional u(t). Folosim metoda multiplicatorilor lui Lagrange, unde multiplicatorii l1, l2, … ,lm vor fi funcții de t ϵ [0, D]. Deci, pentru orice t ϵ [0, D] construim funcția lui Lagrange:

căreia îi atașăm funcționala neliniară:

unde reprezintă produsul scalar în Rm. Integrând prin părți deducem:

care înlocuită în L produce:

unde H – funcția Hamilton (hamiltonianul).

Calculăm variația lui L(τ) la o variație δτ a stării cauzată de o variație oarecare δu a comenzii, i.e. aproximativ:

unde o(u,δτ) → 0 pentru δτ → 0 și unde:

De asemenea: τ(0) = τ0 fiind dat avem că . Pentru a scăpa de termenul dependent de δτ din expresia lui ΔL alegem pe l convenabil, i.e.:

În acest caz:

și deoarece variația δu este oarecare, deducem la fel ca în cazul finit dimensional că o condiție necesară ca u* să fie o comandă optimă este ca:

Se observă că odată aleasă comanda u(t) vectorul multiplicatorilor lui Lagrange, l(t), este unic determinat din problema Cauchy:

De asemenea, se observă că τ(t) și l(t) sunt duale reciproc în sensul:

adică apar ca soluții ale unui sistem de forma Hamilton-Jacobi clasic.

În cazul în care comanda este supusă condițiilor de admisibilitate: gi(u(t)) ≤ 0, 1 ≤ i ≤ p, t ϵ [0, D], în acest caz nu mai putem considera variații δu absolute oarecare ci trebuie să le alegem astfel încât u*+ δu să fie încă o comandă admisibilă pentru suficient de mic. Atunci, la fel ca în cazul finit dimensional, suntem conduși la inecuația variațională:

Aceasta trebuie să aibă loc pentru orice variație admisibilă δu. Aceasta arată că, pentru orice δu admisibilă și orice t ϵ [0, D] avem:

unde τ*și l* sunt soluțiile problemei (PCO 1-4) și (PC) pentru u=u*. Astfel, pentru o comandă admisibilă u(t) ϵ Rn, ca J să fie minim (maxim) în cazul procesului comunicațional dinamic (PCO 1-4) este necesar să existe o funcție l(t) ϵ Rm soluție a sistemului (PC) astfel încât u(t) să minimizeze (maximizeze) hamiltonianul H(τ(t),u(t)) pentru orice t ϵ [0, D].

Într-o variantă simplificată, pentru obținerea unor valori medii pentru un model pitch țintă de bază dat de (a, b, β, θ) se construiește operatorul Lagrange unidimensional:

Construim sistemul de ecuații normale:

Se obțin valorile pentru soluția optimă t* și multiplicatorul Lagrange λ:

Tabelul 7 prezintă valorile medii și abaterile standard ale parametrilor de pitch simplificat:

Tabelul 7 Valorile medii și abaterile standard ale parametrilor de pitch simplificat:

Optimizarea nivelului de emisie informațională

O abordare din punct de vedere al eficientizării comunicării verbale (radiofonice) se poate axa pe optimizarea nivelului informațional de emisie în cadrul transferului de mesaje noi, în contextul existenței unei rate de absorbție de către public a pachetului informativ. Ca un caz specific, nivelul de emisie informațională se poate traduce și prin nivelul de producție editorială (zilnică sau conform altei periodizări prestabilite) într-un interval orar [0, T].

Programarea procesului de emisie informativă poate fi descris de ecuațiile:

unde: C(t) este cantitatea medie de informație la momentul t, în (bit);

R(t) este rata medie de absorbție la momentul t, în (bit/sec.);

E(t) este rata medie de emisie informativă la momentul t, în (bit/sec.);

este o constantă.

Rata medie E(t) la momentul t poate fi controlată și poate crește nemărginit. De asemenea consumul de resurse pentru emisie este proporțional cu E2. Obiectivul este, în acest caz, să determinăm cât de mult poate fi îmbunătățită rata medie de emisie, care să reflecte un salt de transfer de la nivelul C(0) = C0; R(0) = R0 la nivelul C(T) = C1; R(T) =R1 în intervalul [0, T] astfel încât consumul mediu total de resurse să fie minim. Am fixat astfel cadrul unei probleme de control optimal, unde variabilele de stare sunt C și R iar variabila de comandă este E și se dorește a fi minimizată funcționala neliniară:

Hamiltonianul asociat problemei este:

Variabila de comandă nefiind supusă unor restricții de creștere, trebuie să satisfacă ecuațiile 4.142:

ne va da modalitatea optimă:

cu z0* , z1* și z2* soluții ale ecuațiilor (4.145):

Integrând aceste ecuații, obținem:

unde a,b și c sunt constante care se determină din condițiile inițiale și finale asupra lui x0, C și R. Astfel, modalitatea optimă va fi în mod necesar:

care înlocuită în ecuațiile de stare va genera:

și

Primele două ecuații se integrează. Avem:

unde d și e sunt constantele de integrare.

Ținând cont că x0(0)=0 și R0(0)=R0 iar C(0)=C0, obținem d=0 și e=R0. Înlocuind în ecuațiile (4.150 – 4.151) deducem:

pe care o integrăm și obținem soluția:

Impunând și îndeplinirea condițiilor finale:

C(T)=C1 și R(T)=R1

obținem sistemul:

din care se pot determina rapoartele . Introducând aceste valori în expresia lui x se deduce criteriul de optim:

unde k este factorul de proporționalitate al consumului mediu de resurse. Relația (4.157) ne oferă valoarea minimală a consumului mediu total de resurse de emisie.

Echilibru și câștig în strategiile de transfer informațional

4.3.7.1 Echilibrarea comunicării directe prin strategii de interacțiune aleatoare

Conceptul de interacțiune arbitrară în spațiul comunicării deschise este formalizat, într-o oarecare măsură, în cadrul Teoriei matematice a jocurilor. Așa cum enunța S. Guiașu încă din 1973, jocurile arbitrare cu n parteneri reprezintă ,,unul dintre primele exemple netriviale de sisteme cu conexiune inversă", făcând, desigur, trimitere către cibernetică [130]. Deși acest concept a suportat diverse abordări ulterioare, în principiu, interacțiunea prin comunicare este formată dintr-o mulțime de modalități sau tehnici de exprimare succesive, efectuate de către partenerii prezenți în spațiul comunicațional. Aceste structuri de exprimare sunt realizate după anumite reguli contextual apriori stabilite, dar care totodată, trebuie să răspundă intereselor partenerilor de comunicare, interese care pot fi aceleași sau diferite, uneori chiar contradictorii. Un sistem promotor al comunicării de informație în mediu concurențial, în cazul nostru a celei de natură vocală, poate fi reprezentat sub forma unui ansamblu de elemente constitutive specifice. Elementele constitutive indivizibile ale unui sistem de comunicare sunt denumite blocuri sau subsisteme. La rândul lor, conexiunile sau dependențele reciproce, reprezintă raporturile care există între elementele unui sistem informațional în cadrul evoluției acestuia. În Teoria Matematică a Informației procesul de transmitere a informației este considerat ca un proces aleator, în cea mai largă accepțiune a acestui concept. Comunicarea interumană, indiferent de forma pe care o îmbracă, este generată de o anumită rațiune, are la bază o anumită determinare. În virtutea acestui interes, promotorul mesajului purtător de informație se înscrie în ceea ce se numește ,,tendință de persuadare". Pentru a reuși în demersul său, promotorul comunicării trebuie să adopte, ținând seama de context, o anumită modalitate de exprimare, o strategie. Tocmai acest termen constituie poarta de intrare în analiza calitativă a conținutului comunicării vocale, de tip concurențial. În această secțiune se va urmări modul, deocamdată teoretic, prin care într-un proces de comunicare reciprocă, se poate ajunge la stadiul de echilibrare calitativă a transferului informațional dar și identificarea posibilității de a obține câștig în condiții de interacțiune comunicațională directă. Pentru a definitiva cadrul general de studiu subliniez faptul că ne vom afla în contextul interacțiunilor de tip necolaborativ, unde oricare promotor de mesaj transmite fără a cunoaște intențiile și resursele celorlalți parteneri de comunicare.

Pentru fiecare i=1,2,…,n denumim partiție informațională a promotorului i, expresia: . Notăm prin Fi funcțiile de câștig ale promotorilor de mesaj. Planul de exprimare propriu unui promotor, vizând întreaga desfășurare a interacțiunii de comunicare, îl vom numi strategie individuală. Astfel, o strategie individuală a promotorului i, în interacțiunea Δ, este o aplicație xi definită pe Si care asociază fiecărei mulțimi informaționale o valoare unică din mulțimea de indexare. Deci, strategia semnifică modalitatea de exprimare pe care promotorul este pregătit să o efectueze pentru fiecare conjunctură care poate să apară în cadrul procesului de comunicare. O strategie va fi un punct de echilibru al interacțiunii Δ, dacă, pentru orice i = 1,2,…,n,

oricare ar fi strategia .

Obiectivul dezirabil al fiecărui promotor de comunicare este maximizarea șanselor de a-și impune punctul de vedere. Dar, cum interesele celorlalți parteneri de comunicare în general diferă, apare greu de atins o stare în care toți partenerii de comunicare să-și atingă propriile obiective. Dacă ar putea fi obținut, punctul de echilibru al interacțiunii ar putea oferi o modalitate de rezolvare a interacțiunii care să nu avantajeze sau să dezavantajeze net pe niciunul dintre promotori.

Transcriind relația 4.158 pentru cazul particular al unei interacțiuni dintre doi promotori Δ={X,Y,F} rezultă că o strategie a interacțiunii constituie un punct de echilibru dacă sunt satisfăcute inegalitățile:

ceea ce revine la dubla inegalitate:

Conform Teoremei Karuch-Kuhn-Tucker, un punct de echilibru al interacțiunii Δ este un punct-șa al funcției câștig F. Sensul acestui rezultat, respectiv al termenului de ,,punct-șa" este relevată de răspunsul la întrebarea: ,,Ce semnifică o modalitate de exprimare optimă a ambilor promotori în interacțiunea Δ?" Dacă, spre exemplu, primul promotor alege o strategie personală x el nu poate fi sigur ,,a priori" decât de un câștig dat de:

În acest caz o exprimare optimă a sa se reflectă în selectarea acelei strategii care poate să-i permită maximul dintre câștigurile precedente. Acesta se va putea susține pe, cel puțin:

Suntem astfel în prezența Principiului Max-Min, care guvernează în Teoria Jocurilor criteriul de optim în privința alegerii modalităților de acțiune. În cazul nostru acesta reprezintă criteriul de performanță în sensul alegerii unei modalități optime de exprimare în procesul de comunicare concurențială. Dacă repetăm inferența anterioară de pe poziția celui de-al doilea promotor, care are funcția de câștig –F, constatăm că același Principiu Max-Min îl va conduce la adoptarea strategiei care să-i acorde șansa unui câștig de cel puțin:

În acest caz, câștigul primului promotor va fi maxim:

Termenii w1 și w2 sunt denumiți ,,valoarea max-min", respectiv, ,,valoarea min-max" între care există relația: . În cazul special în care w1=w2=w , atunci există și astfel încât:

oricare ar fi xϵX și yϵY, iar:

Cu w a fost notată valoarea interacțiunii. În acest caz, reciproca este valabilă. O condiție necesară și suficientă pentru ca:

este ca funcția F să admită un punct-șa. Dacă este un punct-șa a lui F, atunci:

w fiind valoarea comună a celor doi membri din egalitatea anterioară. Acest rezultat exprimă faptul că, într-o interacțiune comunicațională cu doi promotori, punctul de echilibru este dat de strategiile max-min ale celor doi promotori.

Conceptul de strategie în comunicare se poate extinde datorită caracterului nedeterminist al modalităților de exprimare a promotorilor de mesaj informațional. O strategie aleatoare a interacțiunii de comunicare Δ este o pereche de strategii aleatoare ale celor doi promotori. Mulțimea acestor strategii o notăm cu Sa. Interacțiunea comunicațională Δ este definită și prin matricea de câștig Φ=(φij), . Aceasta conține, în cazul procesului de comunicare, valorile parametrilor vocali și acustici, caracteristici prozodice dar și elemente ce derivă din structura și stilistica redactării textelor rostite.

O strategie aleatoare a promotorului A o putem considera sub forma unui vector aleator m-dimensional σ1=(p1,p2,…,pm),

O strategie aleatoare a promotorului B o putem considera sub forma unui alt vector aleator n-dimensional σ2=(q1,q2,…,qn),

Datorită nivelului redus de predictibilitate a câștigurilor pe care le pot obține cei doi promotori, nu putem vorbi decât despre câștigul mediu a lui A sau a lui B. Spre exemplu, pentru promotorul A câștigul mediu va fi:

Un rezultat care confirmă existența punctului de echilibru în cazul interacțiunilor de comunicare este Teorema min-max a lui von Neuman: ,,Orice interacțiune matriceală admite cel puțin un punct de echilibru format din strategii aleatoare". În acest context, dorim să mărim cadrul de generalitate al unui proces de comunicare, considerând cazul interacțiunilor comunicaționale necolaborative cu sumă variabilă, între doi promotori. Acest tip de interacțiune nu presupune neapărat existența unor interese contradictorii. Poate fi cazul comunicării verbale sub forma unei dezbateri, al dialogului dar nu al unei confruntări de tip concurențial, direct. Chiar dacă aici interesele promotorilor interlocutori diferă considerabil, nu se manifestă întotdeauna regula conform căreia câștigul unui promotor atrage după sine diminuarea nivelului de câștig al celuilalt. Atitudinea reciprocă a partenerilor din spațiul comunicării este mai degrabă indiferentă; fiecare își îndreaptă atenția asupra propriului câștig [131]. Punctul de echilibru oferă concomitent celor doi parteneri de interacțiune un câștig maxim relativ; dacă A abordează strategia, B nu poate obține mai mult decât atât cât îi revine alegând strategia și reciproc. Conform celor prezentate anterior, strategia a unei interacțiuni Δ între doi promotori, cu sumă variabilă, este un punct de echilibru, conform inegalităților:

pentru orice xϵX și yϵY.

În particular, în interacțiunea bimatriceală Δ cu matricele de câștig A=(αij), B=(βij), , strategia pură (i0,j0) constituie un punct de echilibru, dacă:

În același cadru formalizat, introducem funcțiile de câștig mediu prognozate de cei doi parteneri dacă se adoptă strategiile aleatoare σ1, respectiv σ2:

În acest caz, Teorema lui Nash enunță că: ,,Orice interacțiune bimatriceală Δ admite puncte de echilibru formate din strategii aleatoare". În contextul interacțiunilor necolaborative cu sumă variabilă, câștigurile diferă pentru puncte de echilibru diferite.

Următorul rezultat ne oferă condițiile în care se poate atinge un punct de echilibru, în contextul în care există organizate matricele de câștig și strategiile aleatoare:

Perechea de strategii aleatoare formează un punct de echilibru pentru interacțiunea bimatriceală Δ, cu matricele de câștig A și B, dacă și numai dacă pentru orice i=1,2,…,m:

și pentru orice j=1,2,…,n:

Dacă se notează cu Ai·vectorul linie cu componentele liniei i a matricei A și cu B·j vectorul coloană cu elementele coloanei j a lui B, relațiile anterioare se mai pot scrie sub forma vectorială:

Metoda practică de a determina punctele de echilibru în astfel de cazuri este de a înlocui inegalitățile de tipul (4.175) cu un sistem de inegalități sau egalități liniare ce poate fi rezolvat relativ simplu.

4.3.7.2 Strategii aleatoare de comunicare bazate pe optimizare entropică

Dorim să ne plasăm în cadrul mai general al unei interacțiuni de comunicare arbitrare, cu n parteneri promotori de mesaj informațional. Partenerii de comunicare pot avea interese comune sau diferite, uneori chiar total opuse. Notăm acești parteneri cu E1,E2,…,En cu Σ mulțimea acestora și cu Sa mulțimea strategiilor aleatoare. Partenerii comunicaționali pot fi priviți și ca reprezentanți materializați ai unor sisteme complete de probabilități atașate unor mulțimi bine definite, compuse din modalitățile de exprimare specifice și explicite ale fiecărui promotor informațional. Promotorul Ei se poate exprima la un moment dat prin modalitatea , având la dispoziție ni astfel de posibilități de exprimare, cu probabilitatea . Strategia acestuia reprezintă o variabilă aleatoare cu valorile date de exprimările , pe care o notăm cu:

Practic, această notație semnifică mulțimea modalităților de exprimare pe care un promotor le are la dispoziție împreună cu probabilitățile de a le utiliza. O serie de exprimări efectuate succesiv, de către cei n parteneri de comunicare, poate fi reprezentată de vectorul cu probabilitatea . Dacă exprimării îi asociem o anumită utilitate (importanță) atunci cantitatea medie de informație furnizată de promotorul Ei prin abordarea strategiei σi, 1 ≤ i ≤ n este mărimea:

adică exact entropia ponderată (cap.3, (4.5) ). Entropia ponderată a promotorului informațional Ei devine maximă (conf. 4.13) dacă și numai dacă strategia aleatoare σi adoptată de acesta urmează repartiția:

unde α este soluție a ecuației:

caz în care:

Într-un sens ceva mai restrâns, utilitatea (importanța) unei exprimări poate fi interpretată drept câștig ori succes care ar reveni promotorului interlocutor ce o produce. În acest caz utilitatea poate fi și negativă în sensul în care o anumită exprimare mai puțin inspirată poate aduce promotorului ei o pierdere sau un insucces, deci un câștig negativ. Indicatorul care este analizat în acest caz este acela de utilitate medie și respectiv, câștig mediu pe un anumit interval de timp [132].

Pentru un anumit partener implicat în demersul comunicării concurențiale directe, pe parcursul unui interval de timp dat, putem defini utilitatea/importanța medie corespunzătoare acestuia ca fiind:

Dar odată cu acest concept, din punct de vedere al promotorului informațional Ei aflat în concurență sau cel puțin în conexiune cu ceilalți parteneri, abordarea unei strategii aleatoare duce automat și la înlăturarea unei anumite incertitudini adică la obținerea unei cantități de informație. Astfel, considerând aceste două componente diferite, de utilitate/importanță și de informație în sens cantitativ, putem să cuantificăm beneficiul total mediu al unui participant la procesul de comunicare ca fiind:

Strategia optimă a promotorului Ei pentru care beneficiul său mediu devine maxim trebuie să fie:

unde α este soluție a ecuației:

pentru notația: , 1 ≤ i ≤ n.

În acest caz:

Dacă dorim să surprindem aportul strict calitativ din structura beneficiului maxim, înlocuim entropia informațională Shannon H(Ei) cu entropia ponderată din expresia (4.177) și obținem:

aceasta fiind soluția ecuației:

iar beneficiul maxim va avea expresia:

Conceptele de utilitate (importanță) și beneficiu generate prin abordarea unor strategii aleatoare, rămân valabile și când se trece de la un promotor informațional sau partener de comunicare la o coaliție de promotori, rezultatele anterioare putând fi generalizate în acest context. Acest demers poate constitui o viitoare direcție de cercetare, în spații particulare de tip debate.

Concluzii

Parametrii funcției de conversie sunt determinați de densitatea comună dintre caracteristicile sursei și ale țintei. S-a demonstrat în unele studii că densitatea comună generează rezultate mai bune decât densitatea sursei. Aceasta poate conduce la o mai bună alocare a componentelor mixtului Gaussian și evită problemele legate de posibilitățile de cuantificare. Pentru fiecare parametru a pitch-ului țintă a, b, β și λ, sursa și parametrii țintei sunt considerați a fi distribuiți Gaussian și astfel combinația dintre sursă (marcată cu x) și țintă (marcată cu y) exprimată sub o formă vectorială Zk = [Xk, Yk]T, k = 1,…,N este folosită pentru estimarea parametrilor modelului GMM. Prin antrenarea unui model GMM pentru a realiza conversia de la neutru la fiecare dintre cele trei nivele ale celor patru tipuri de emoții se observă că această tehnică facilitează realizarea unui proces de conversie fără inflexiuni și fără întreruperi, dar aceasta rămâne totuși în sine un algoritm pur numeric; cu alte cuvinte, metoda de mapare GMM dă greș în a încorpora informație lingvistică.

În ceea ce privește modelul de bază CART, acesta a fost folosit cu succes în predicționarea prozodiei, respectiv a duratei, limitelor prozodice ale frazelor etc. Elementele prozodice integrează eficient informația contextuală în modelul de predicție. Conform acestui model, parametrii de intrare conțin următoarele:

Identitatea tonului (incluzând tonurile curente, trecute și cele viitoare; cinci categorii);

Identitatea inițială (incluzând tipurile de silabe inițiale în poziție curentă și ulterioară; opt categorii);

Identitatea finală (incluzând tipurile de silabe finale în poziție curentă și anterioară; patru categorii);

Poziția în propoziție;

Partea de vorbire (incluzând cuvintele curente, anterioare și următoare; 30 de categorii)

Parametrii de ieșire se constituie în diferențele sesizate la parametrii pitch-ului țintă a, b, β și λ, respectiv între parametrii neutri și cei emoționali. Similar cu metoda GMM în procedura de pregătire, sursa și contururile pitch-urilor țintă din corpusuri paralele sunt aliniate conform cu etichetarea limitelor silabelor și apoi parametrii pitch-urilor țintă sunt extrași din fiecare contur al pitch-ului fiecărei silabe iar în final funcțiile de mapare a parametrilor a, b, β și λ se estimează folosindu-se regresia CART. Apoi, cele douăsprezece modele CART antrenate de la neutru la emoțional sunt din nou mapate. Pentru conversie, parametrii estimați ai pitch-urilor țintă, pornind de la conturul pitch-ului țintă, sunt transformați prin funcțiile de mapare obținute în procedura de antrenare iar apoi parametrii convertiți ai pitch-ului țintă generează noi contururi, asociate caracteristicilor țintei [133].

Deși se crede că trăsăturile prozodiei sunt foarte importante pentru clasificarea discursului emoțional, doar simpla modificare a caracteristicilor prozodiei nu este suficientă pentru a genera emoția așteptată. Un discurs emoțional diferă de unul neutru nu numai în caracteristicile prozodice dar în aceeași măsură și în cele spectrale. Trebuie luați în considerare și parametrii ce descriu procesele localizate în aparatul fonator, în ceea ce privește calitatea vocii. Studiul subliniază faptul că sentimentele puternice pot transforma literalmente tractul vocal. De exemplu, furia întotdeauna implică o tensiune emoțională care poate fi resimțită în tot corpul și aceasta reprezintă un efect al apăsării organului vorbirii, care crează un efect acustic distinct. În mod similar, starea de bucurie poate implica o transformare fizică de mai mică intensitate, adesea un simplu zâmbet fiind ușor de detectat. Conversia spectrală este utilă mai ales în cazul analizării unei conversii emoționale de la starea emoțională neutră la cea negativă. La ora actuală sunt disponibile o mulțime de metode de mapare, cum ar fi ghiduri de mapare, regresia lineară multivariată LMR, algoritmi bazați pe rețele neuronale RNA, modele GMM, modelele Markov ascunse (HMM). Hibridul format din modelul GMM și ghidul de mapare codifică anvelopa spectrală de bază folosind GMM și convertește parametrii spectrali prin folosirea unei metode de echivalare a codurilor de mapare. Prin aceasta, problemele legate de scăderea intensității și discontinuitate pot fi eliminate. În final se utilizează un program de sintetizare a vorbirii. Există studii care arată că metoda mapării prin GMM rămâne mai bună decât CART, atâta timp cât testele DPE nu arată o mare diferență. Diferit de testul ABX, care în mod normal este folosit pentru evaluarea conversiei vocii, dar este greu să fie folosit pentru raționamente speculative, DPE folosește diferite grade de percepție, cum ar fi puternic, mediu, slab. Gradele de percepție conferă o comparare mai flexibilă a emoțiilor. În plus, metoda DPE adoptă avantajul testului MOS care se folosește de media gradelor emoționale obținute prin feedback de la mai mulți ascultători. Rezultatele nu sunt uneori concordante cu alte analize de același tip astfel încât se consideră că modelele prozodice sunt strâns legate de conținutul discursului și de caracteristicile lingvistice. Un posibil motiv ar putea fi acela că datele pregătirii experimentului nu ajung să acopere cea mai mare parte din informația lingvistică când se folosește metoda CART. Metoda GMM este aplicată doar pe caracteristicile prozodice, deși deseori GMM poate obține rezultate mai bune, dar aplicată pe un corpus ceva mai mare.

Deși au fost realizate multe studii asupra distribuției acustice a stărilor emoționale, acestea nu au fost complet definite din punct de vedere al percepțiilor asupra fenomenului. Chiar dacă este vorba despre aceeași stare emoțională în care se află un subiect uman, există mai multe modalități de expresie pe care acesta le afișează. Un anumit vorbitor poate prezenta o creștere mai mare a fluctuației F0 în cazul stării de bucurie, mai tare decât pentru celelalte tipuri de emoții. Locația accentului propoziției în exprimarea furiei, spre exemplu, poate varia în funcție de context dar și de emfaza lingvistică. În cele mai multe cazuri ea este localizată propozițional în cuvântul pe care vorbitorul dorește să îl accentueze. Aceste diverse modalități ale afișării expresiei emoționale cresc dificultățile în acțiunea de simulare a emoțiilor, mai ales când caracteristicile acustice cunosc o dispersie pronunțată [134].

Informația contextuală derivată din particularitățile lingvistice este foarte importantă în expresia de tip emoțional. Uneori nu este necesar să schimbi parametrii prozodici pentru a exprima o emoție, dacă sunt introduse în rostire unele cuvinte cheie funcționale. Spre exemplu „sunt realmente supărat pentru ceea ce ai făcut” arată starea de furie doar prin cuvântul supărat. Mai mult, emoția poate deruta ascultătorul, ducându-l într-o altă direcție, mai ales dacă mesajul nu este rostit în totalitate. De multe ori, ascultătorii pot percepe niște voci fericite printr-o ridicare de ton la finalul unei întrebări. Când Ladd a analizat relațiile dintre paratext și intonație [135], el a descris relațiile dintre caracteristicile paralingvistice și cele lingvistice, punctând că tonul a fost afectat de perspectiva paralingvistică. De fapt, ambiguitățile ce țin de intonație și tonalitate sunt cauzate de modelele cu accent în exprimarea unor stări puternice sau atitudini emoționale. Influențele modelelor de accent, ton și intonații provenind de la caracteristicile paralingvistice ar trebui luate și acestea în considerare în cercetări viitoare. Fără o distribuție detaliată a modelului acustic este greu să sintetizezi o rostire mai mult sau mai puțin expresivă. Pentru rezolvarea acestei situații multe studii propun folosirea metodei GMM și compararea cu metoda CART. Diferit de metoda modificării lineare, ambele metode (GMM, CART) mapează distribuția prozodiei incerte/subtile între discursul neutru și emoțional. In timp ce GMM folosește doar caracteristici acustice, modelul CART permite și integrarea caracteristicilor lingvistice în mapare. Rezultatele arată că modelul modificărilor lineare LMM furnizează cele mai slabe rezultate dintre toate cele trei metode. Metoda GMM este mult mai aplicabilă pentru cazul utilizării unui set de antrenare, în timp ce CART dă rezultate mai bune dacă este folosit pe un text de antrenare mai consistent.

În principiu interacțiunea prin comunicare este formată dintr-o mulțime de modalități sau tehnici de exprimare succesive, efectuate de către partenerii prezenți în spațiul comunicațional. Aceste structuri de exprimare sunt realizate după anumite reguli contextual apriori stabilite, dar care totodată, trebuie să răspundă intereselor partenerilor de comunicare, interese care pot fi aceleași sau diferite, uneori chiar contradictorii. În acest capitol a fost modelat și adaptat cadrul comunicărilor directe în mediu concurențial prin paralelism cu elemente și concepte tipice Teoriei Jocurilor. Au fost identificate și evidențiate concepte care guvernează cadrul interacțiunilor de tip comunicațional: funcția de câștig, utilitatea, strategiile aleatoare e.t.c.

Obiectivul dezirabil al fiecărui promotor de comunicare este maximizarea șanselor de a-și impune punctul de vedere într-o interacțiune de tip comunicare directă și explicită. Orice modalitate de exprimare a unuia sau unora dintre promotorii de informație depinde de modalitatea de exprimare construită în funcție de ceilalți parteneri și la rândul său influențează acțiunile viitoare ale partenerilor de comunicare. De aceea este foarte importantă identificarea mecanismelor matematice dar și a posibilității de elaborare a unor soluții implementabile în zona software pentru sesizarea în timp real, prin intermediul conceptelor de entropie ponderată, repartiție maximizatoare ori beneficiu maxim, a modalității de îmbunătățire a procedeelor și parametrilor de comunicare individuali. Împreună cu etapele de monitorizare și control adecvat distribuite, aceste soluții care se întrevăd ca fiind posibil de materializat, vor putea fi utilizate cu succes în scopul creșterii șanselor de transfer optim a mesajului informațional util.

Cap. 5 Metode de analiză statistică a informației

5.1Analiza statistică

Metodele Statisticii matematice își găsesc aplicații dintre cele mai interesante în majoritatea domeniilor științei, începând cu științele exacte și inginerești și terminând cu științele socio-economice. Sunt foarte utile în special acolo unde există condiții de risc și incertitudine și unde este necesar să se adopte decizii riguros fundamentate pe principii stabile. Obținerea unor rezultate valide din câmpul proceselor informaționale nu se rezumă doar la înregistrarea datelor privind fenomenele și etapele procesului care fac obiectul cunoașterii, ci conține și totalitatea operațiilor de sistematizare, prelucrare, analiză și interpretare a informațiilor. Analiza Statistică urmărește descoperirea a ceea ce este permanent, esențial, logic în variația proceselor și fenomenelor de masă și măsurarea influenței factorilor care le determină variația în timp, în spațiu și din punct de vedere calitativ. În acest scop des folosite sunt următoarele metode: analiza dispersională, analiza de regresie, analiza de corelație, analiza seriilor de timp.

Asupra fenomenelor la nivel macro studiate prin analiză statistică, acționează un anumit număr de factori principali și secundari, obiectivi și subiectivi, care dezvoltă reciproc legături cauzale de o intensitate mai puternică sau mai slabă. Specific legăturilor de tip statistic este faptul că legile care operează asupra acestora nu pot fi verificate pentru fiecare caz particular ci doar la nivelul întregului ansamblu. Particularitatea acestui tip de legături rezidă în faptul că, o caracteristică denumită factorială sau exogenă, exercită o anumită influență asupra unei alte caracteristici, denumită caracteristică rezultativă sau endogenă. În cadrul relațiilor statistice, unei valori a caracteristicii factoriale îi corespunde o distribuție de valori a caracteristicii rezultative datorită faptului că asupra acesteia din urmă exercită o influență și alți factori caracteristici care din perspectiva legăturii primilor se consideră a avea un grad mare de aleatorism. Dacă într-un studiu statistic operăm asupra unei singure caracteristici exogene, care determină o singură caracteristică endogenă, ceilalți factori fiind considerați reziduali, se consideră că avem o legătură simplă. În cazul în care în analiză se iau în considerare mai mult de două caracteristici exogene, spunem că avem o relație multiplă.

Legătura stochastică dintre evenimentele/mărimile informaționale este generată, în majoritatea cazurilor, de factori multipli, cu influențe diferite ca sens și de intensități diferite. În aceste condiții, calculele de corelație trebuie să rezolve două probleme:

1. stabilirea tipului de legătură dintre evenimente luate la nivel de tendință (existența, direcția legăturii și funcția care descrie acestă legătură). Această problemă este rezolvată prin regresie – ecuația de regresie;

2. măsurarea intensității legăturii – măsurată cu ajutorul coeficientului de corelație și a raportului de corelație[136].

Pentru a putea elabora un studiu statistic care să vizeze atât caracteristici cantitative dar și mărimi pur calitative ale informației există și posibilitatea aplicării metodelor neparametrice de măsurare a intensității legăturilor dintre evenimente. Totodată metoda neparametrică se pretează foarte bine la studiul proceselor de transfer informațional de tip asimetric și în condițiile necunoașterii formei legii de distribuție. În acest sens, în perspectivă, se pot studia următorii indicatori: coeficientul de asociere, coeficientul de contingență, coeficienții de corelație a rangurilor: Kendall și Spearman. Importantă este și posibilitatea determinării autocorelației și a erorii datorate lipsei de corelație între valorile actuale și cele previzionate.

5.2 Etapele și procedeele specifice metodelor statistice

Definirea problemei presupune precizarea clară a scopului și a ariei de investigație (fenomen sau proces observat) a variabilelor care sunt observate. În această etapă se efectuează documentarea teoretică și faptică asupra fenomenului ce trebuie observat, se emit ipotezele de lucru, se aleg metodele de investigare, se elaborează planul de cercetare.

Observarea statistică este o etapă importantă, un proces complex de identificare, măsurare și înregistrare a fenomenelor de masă reprezentând caracteristicile indivizilor unei colectivități care se manifestă într-un mod real, practic se obțin probele pentru procesul de cunoaștere statistică. Calitatea probelor obținute va determina în mod esențial autenticitatea informației statistice. Culegerea datelor statistice se poate face prin:

înregistrare totală (exhaustivă) a populației;

înregistrarea parțială (anchete prin sondaj) adică înregistrarea la nivelul unui eșantion.

Prelucrarea statistică a datelor este un proces complex prin care datele înregistrate sunt sistematizate și tratate statistic în vederea obținerii sistemului de indicatori. Prelucrarea statistică cuprinde efectuarea unui set de opt operații pentru obținerea indicatorilor, utilizând procedee și tehnici de lucru specifice statisticii:

Sistematizarea probelor obținute în etapa observării statistice. Operația se poate realiza prin procedee clasice de centralizare și grupare statistică în urma cărora se obțin indicatorii primari și seriile de date statistice.

Prezentarea datelor statistice prin utilizarea metodelor tabelare și/sau graficelor.

Calcularea indicatorilor derivați cum ar fi:

indicatori ai valorii centrale;

indicatori ai dispersiei;

indicatori ai formei de repartiție.

Măsurarea gradului de intensitate a legăturilor statistice (procedeele covariației și corelației) și măsurarea influenței factorilor asupra variației fenomenelor;

Aproximarea modelelor de regresie și de trend (procedeul ajustării statistice);

Prognoza proceselor evolutive (extrapolarea statistică);

Estimarea parametrilor și verificarea ipotezelor statistice (procedeul inferențial). Rezultatul prelucrării statistice se regăsește în valoarea indicatorilor primari și derivați.

Analiza statistică propriu-zisă. Procesul cunoașterii statistice fiind un proces iterativ, etapele prelucrării datelor statistice se combină cu procedeele de analiză a rezultatelor, practic trecerea la următoarea fază de prelucrare statistică se face numai după analiza rezultatelor obținute în cadrul prelucrărilor statistice.

5.3 Indicatori statistici

Seria statistică scoate în evidență trăsăturile comune ale tuturor caracteristicilor ce se supun unor legi generale. Datele existente în cadrul seriei trebuie să fie sintetizate într-un indicator care să le reprezinte. Rezultatul măsurătorilor obținute în condițiile variabilității mărimilor ne conduce la faptul că există o tendință a datelor de a se grupa în jurul frecvenței maxime, frecvență care corespunde unei valori centrale a variabilelor statistice numită tendință centrală.

În cazul repartițiilor statistice empirice a frecvențelor, tendința de variație pentru orice caracteristică a populației statistice prezintă două aspecte:

de localizare (poziție) în jurul unei valori medii;

de variație (împrăștiere).

Din experiență, se constată că repartiția frecvențelor poate fi simetrică sau asimetrică în raport cu poziția de localizare; de asemenea, localizarea se poate face în jurul unei valori medii dar împrăștierea poate fi diferită. Graficele de frecvență rezultate în urma prelucrării datelor au numai o valoare de utilizare calitativă.

Analiza cantitativă permite o comparație a tendințelor de localizare și de variație (împrăștiere) și se poate realiza numai prin determinarea indicatorilor statistici care se calculează pe baza datelor statistice ale valorilor caracteristice respective.

Indicatori simplii ai variației sunt utilizați pentru a măsura câmpul de împrăștiere al caracteristicilor înregistrate, precum și pentru a determina împrăștierea fiecărui nivel individual al caracteristicii față de nivelul mediu. Indicatorii sunt: amplitudinea variației și abaterea individuală. Aceștia se pot exprima atât în mărimi absolute cât și în mărimi relative.

Indicatori sintetici ai variației exprimă, în mod sintetic, împrăștierea tuturor nivelurilor individuale ale unei caracteristici față de nivelul mediu.

Indicatorii de asimetrie conferă date referitoare la modul de repartizare a frecvențelor de o parte sau de alta a valorii centrale (media, mediana și modul). Indicatorii de aplatizare (boltire) exprimă gradul de suplețe a frecvențelor în zona centrală, mai precis în jurul mediei. Practic, asimetria constituie o deviație a curbei de la forma simetrică a distribuției. Într-o distribuție statistică coeficienții de asimetrie se determină ca o relație între medie și mod, respectiv între medie și mediană. Coeficienții de asimetrie se pot calcula atât în valori absolute cât și în valori relative, reprezentând un număr abstract utilizat pentru comparabilitate.

Calcularea indicatorilor de aplatizare este necesară, în special, pentru seriile cu intervale de grupare mari sau neegale. Între densitatea de repartiție și densitatea de probabilitate există analogii; astfel dacă valorile acestora indică o tendință de creștere ca valoare către valoarea centrală a caracteristicii înseamnă că seria are o tendință de normalitate și că media este reprezentativă pentru cele mai multe valori ale caracteristicii statistice [137].

5.4 Metode de studiu a legăturilor statistice

a) Metoda seriilor paralele interdependente constă în ordonarea valorică a două serii paralele în ordine crescătoare sau descrescătoare a caracteristicilor. Prin compararea seriilor de valori astfel aranjate, se poate stabili dacă există sau nu legături între ele și se determină direcția acestei legături. Seriile paralele se folosesc numai când avem un număr relativ redus de unități observate.

b) Metoda grupărilor reprezintă un model de analiză prin excelență calitativ, capabil să
surprindă aspectele esențiale ale legăturilor dintre variabile. Studiul legăturilor se realizează după ce
unitățile colectivității se grupează în funcție de caracteristica factorială iar pentru caracteristica rezultativă se calculează indicatorii derivați (mărimi relative sau medii), specifice fiecărei grupe. Prin compararea variației caracteristicii factoriale cu aceea a caracteristicii rezultative se poate aproxima caracterul legăturii, direcția și intensitatea acesteia. Se recomandă intervale de grupare egale.

c) Metoda tabelului de corelație (tabel cu dublă intrare) reprezintă o formă specială a
grupării combinate în care separarea pe grupe a unităților se face după variația ambelor caracteristici – factorială și rezultativă. Se recomandă ca numărul grupărilor formate după cele două caracteristici să fie aproximativ egale iar intervalele de grupare să fie egale.

d) Metoda grafică. Pentru a obține graficul de corelație – denumit și corelogramă – valorile
caracteristicii factoriale (x) sau intervalul acesteia se trec pe abscisa iar pe ordonată se trec valorile
caracteristicii rezultative (y) sau intervalele respective. Fiecare unitate observată, purtătoare a celor
două caracteristici corelate, se reprezintă grafic printr-un punct. Reprezentarea grafică a legăturii în
câmpul de corelație are aspectul unui nor de puncte.

5.4.1. Analiza de varianță (ANOVA)

Analiza de varianță indică măsura în care două sau mai multe grupuri au medii foarte diferite. Această analiză presupune că fiecare dintre grupurile de scoruri provine de la indivizi diferiți. Cu ajutorul testului parametric de analiză dispersională ANOVA se poate examina un număr de două sau mai multe eșantioane independente pentru a determina dacă mediile populațiilor din care provin ar putea fi egale, putându-se pune astfel în evidență influența factorului considerat sau a metodei aplicate. Grupurile diferite aparțin variabilei independente; valorile numerice corespund variabilei dependente. Practic, analiza de varianță calculează variația dintre scoruri și pe cea dintre nivelul pe eșantioane. Dacă două valori estimative sunt foarte diferite, înseamnă că variația datorată variabilei independente este mai mare decât ne-am putea aștepta pe baza variației dintre scoruri. Dacă acest decalaj este suficient de mare, diferența de la nivelul variabilității este semnificativă din punct de vedere statistic. Acest lucru înseamnă că variabila independentă are efect asupra scorurilor.

Analiza de varianță poate fi dificil de interpretat atunci când se folosesc două sau mai multe grupuri. Cu ajutorul acestui tip de varianță se studiază mărimea și frecvența cu care valorile reale ale unei caracteristici statistice se abat de la valorile teoretice calculate, precum și măsura în care aceste variații sunt dependente sau independente de factorul de grupare [138].

5.4.2. Metoda regresiei

Regresia unifactorială descrie legătura dintre variabilele y și x considerând că ceilalți factori au o acțiune constantă și neglijabilă asupra caracteristicii dependente. Modelul matematic utilizat de regresie este metoda celor mai mici pătrate al cărui enunț este următorul ,,suma pătratelor distanțelor punctelor observate față de dreapta teoretică trebuie să fie minimă”. Metoda este folosită în cercetare și proiectare, acolo unde teoria nu poate stabili nicio relație care să determine legătura între anumite mărimi. Cu ajutorul metodei de regresie se poate determina, cu o aproximație destul de bună, funcția care guvernează fenomenul studiat. Dacă fenomenul analizat este bidimensional se obține o dreaptă sau o curbă iar dacă este tridimensional se obține o suprafață de ajustare. Funcția obținută prin metoda regresiei este valabilă numai pe domeniul în care s-a realizat aplicația, nu reprezintă un model matematic generalizat, în schimb funcția poate fi utilizată cu succes în diverse aplicații similare cu fenomenul studiat în cadrul softurilor de simulare.

Metoda regresiei este eficientă pentru aplicațiile particulare fiindcă suplinește cu succes lipsa modelelor matematice. Figura 31 prezintă ridicarea unei drepte de regresie. De asemenea, pe domenii restrânse, interpretările utilizând funcția determinată prin metoda regresiei sunt mult mai aproape de adevăr față de cazul în care s-ar utiliza modele matematice clasice. Această metodă a devenit des utilizată datorită ușurinței operării programelor specializate pe calculator [139].

Fig.31 Ridicarea unei drepte de regresie

Metoda regresiei constituie o metodă statistică de analiză a legăturii dintre variabile cu ajutorul unei funcții denumite funcții de regresie:unde:

Y – variabila dependentă;

– variabile independente

Datorită caracterului aleator al fenomenelor și proceselor, modelul teoretic se înlocuiește cu un model de dependență statistică:unde: – reprezintă o eroare aleatoare cu dispersia constantă și media nulă.

Modelul liniar

Se consideră două variabile X și Y între care se presupune că există o legătură pentru care experimental au fost determinate perechile de valori xi și yi. Se trasează un grafic printre puncte care reprezintă ,,dreapta de regresie”: care se apropie cel mai mult de punctele experimentale. Valorii experimentale yx îi corespunde pe dreapta de regresie (fig.31) valoarea care are următorul model teoretic:

Modelul exponențial

Se determină coeficienții a și b pornind de la forma canonică a ecuației exponențiale, utilizând modelele specifice matematicii statistice : – modelul teoretic

– modelul determinist (practic, real)

Abaterile valorilor reale față de valorile estimate (de pe curba de regresie) sunt:

În această situație, modelul teoretic se poate estima printr-o ecuație similară cu modelul determinist, la care se ia în considerare și eroarea:

Modelul logaritmic

Se pornește de la forma canonică a ecuației logaritmice, exprimată prin cele două modele statistice:

– modelul teoretic.

– modelul determinist (practic, real) unde a >0, b >0

Abaterile valorilor reale față de valorile estimate (de pe curba de regresie) sunt:

Modelul parabolei

Se pleacă de la forma canonică a ecuației de gradul al doilea, utilizând modelele statistice

– modelul teoretic.

– modelul determinist (practic, real)

Abaterile valorilor reale față de valorile estimate (de pe curba de regresie) sunt:

Modelul hiperbolic

Se pleacă de la forma canonică a ecuației hiperbolei și utilizând modelele matematicii statistice, se obține:- modelul teoretic – modelul determinist (practic, real)

Abaterile valorilor reale față de valorile estimate (de pe curba de regresie) sunt:

Regresia multiplă are loc între fenomene sau procese de orice fel unde există legături complexe care se caracterizează prin influența unui număr mare de factori (variabile independente) asupra caracteristicii rezultative (variabila dependentă). Aceste legături se pot exprima cu ajutorul funcției de regresie multiplă: unde sunt caracteristici independente sau factoriale.

Cel mai utilizat model teoretic de regresie multifactorială, este modelul liniar dat de expresia:

unde:

– reprezintă coeficientul care exprimă influența factorilor neincluși în model, fiind considerați cu acțiune constantă [140];

– sunt coeficienți de regresie multipli și arată ponderea cu care caracteristica factorială x influențează fiecare caracteristică rezultativă y.

Modelul determinist este dat de relația:(5.5). Modelul teoretic se poate estima printr-o ecuație similară cu modelul determinist, la care se ia în considerare și eroarea:

Suma dispersiilor dintre modelul teoretic și modelul real trebuie să fie minimă, rezultă formula:

înlocuim pe și astfel rezultă formula:

Derivăm în raport cu și egalăm cu zero derivatele parțiale, se obține sistemul:

Prin rezolvarea sistemului se determină coeficienții .

5.4.3. Metoda corelației

Repartiția unui cuplu de variabile aleatoare nu poate fi redată numai prin momentele celor două variabile luate separat, ci este necesar să se caracterizeze și covariația lor. Fig.32 a-b) prezintă corelograma a două variabile aleatoare; c) pentru o reparție bivariată.

Fig.32 a) și b) Graficul corelației a două variabile aleatoare; c) Graficul reparției bivariate

Spre deosebire de legătura de regresie care reprezintă legătura dintre două variabile, dintre care una aleatoare iar alta cunoscută sau dată (nealeatoare), legătura de corelație se referă la un cuplu de două variabile aleatoare a cărui legătură poate fi caracterizată de coeficientul de corelație [141].

Pentru două variabile aleatoare X cu repartiția normală și variabila Y cu repartiția între care există o anumită legătură. Densitatea de probabilitate a funcției de repartiție normală cu doi parametri este dată de expresia:

a cărui reprezentare grafică este prezentată în figura 32 și are funcția de repartiție:

Coeficientul este denumit coeficient de corelație având valoarea cuprinsă în intervalul – 1 ≤ ≤ + 1 și definește gradul de dependență dintre variabile.

Dacă = 0, cele două variabile sunt independente atunci funcția de repartiție se scrie astfel:

fiind pusă în evidență condiția de independență.

Dacă > 0, variabilele x, y sunt dependente aleatoriu (stochastic). Coeficientul teoretic de corelație este dat de media produselor abaterilor normate.

5.4.4. Indicatori sintetici ai corelației

Covarianța se obține ca o medie aritmetică a produselor abaterilor variabilelor față de media lor:

Covarianța poate avea:

valoare pozitivă, ceea ce indică o legătură directă;

valoare negativă, ceea ce indică o legătură inversă;

valoare zero, dacă variabilele sunt independente (deci lipsește legătura de corelație).

Pe măsura ce covarianța crește, crește și intensitatea corelației

Coeficientul de corelație liniară simplă este un indicator care măsoară intensitatea legăturii de tip liniar dintre două variabile x și y:

În practică se folosește următoarea formulă:

Coeficientul de corelație este aplicabil numai în cazul a două variabile cu repartiții normale. Semnul său semnifică tipul de legătură. În practică se utilizează următoarea interpretare:

– nu există legătură semnificativă

– există o legătură slabă

– există o legătură de intensitate medie

– există o legătură puternică

– legătură deterministă

Raportul de corelație.

Este denumit și coeficientul de corelație al lui Pearson. Acesta măsoară intensitatea legăturilor atât liniare cât și curbilinii. Poate lua valori în intervalul [0,1]. Cu cât valoarea raportului este mai aproape de valoarea unu, cu atât legătura de corelație este mai puternică și invers [142].

unde: – reprezintă valorile inițiale;

Y – reprezintă valorile teoretice sau calculate;

– reprezintă valoarea medie.

5.5 Analiza corelațională și regresională a rostirii radiofonice

5.5.1 Descrierea aplicației SPSS

Programul SPSS (Statistical Package for the Social Sciences) este unul dintre cele mai utilizate în analiza statistică a datelor.Programul este utilizat astăzi în marketing, cercetare experimentală, educație, sănătate etc. În afară de analizele statistice posibile, programul are componente puternice pentru managementul datelor (selectare, reconfigurare, creare de date noi) și pentru documentarea datelor (există un dicționar metadata care reține caracteristici ale datelor).

Software-ul IBM SPSS 20.0 sub Windows reprezintă un pachet de programe interactiv, de utilitate generală, destinat analizelor de date și include multiple facilități și tehnici de natură statistică. Printre aceste facilități se numără opțiuni excelente de distribuire, modele automate, abilitatea de a opera cu versiunile server ale IBM SPSS Statistics Base, un editor de sintaxă, integrare cu Microsoft Office etc. În lucrarea de față, pentru a reprezenta cât mai exact evoluția variabilelor descrise se va urmări atât calculul indicatorilor tendinței centrale și ai împrăștierii, analiza dispersională unifactorială ANOVA, analiza de covarianță precum și analiza de regresie simplă liniară cu ajutorul programului SPSS [143].

Deși există o varietate de programe de acest gen (SAS, Statistica for Windows, GraphPad, Eviews, MS Excel), SPSS se distinge prin structurarea riguroasă și ușurința utilizării. Utilitarul Clementine SPSS permite la rândul său dezvoltarea rapidă a aplicațiilor profesionale, a modelelor de previziune pentru obținerea celor mai bune rezultate care ar putea fi integrate într-un sistem automat de formulare a deciziei. Interfața are o grafică specială, care îmbină cunoștințele de statistică, baze de date, organizarea proiectelor e.t.c.

SPSS oferă posibilități variate de reprezentare și de calcul a indicatorilor statistici descriptivi. În acest sens există, pe de o parte, proceduri specializate și, pe de altă parte, opțiuni care pot fi accesate din interiorul altor proceduri. SPSS permite efectuarea de teste parametrice: Testul z pentru un singur eșantion, Testul t pentru eșantioane independente, Testul t pentru eșantioane dependente, determinarea coeficientului de corelație liniară Pearson, regresia liniară simplă și teste neparametrice nominale. De asemenea, SPSS poate să execute analiză factorială multidimensională și analiză a componentelor principale (ACP). Metodele de analiză factorială permit reducerea volumului de date, înlocuind norul de puncte inițial cu altul de dimensiuni mai restrânse, pentru o reprezentare grafică comodă. Relativ la ACP, SPSS pune în evidență legăturile de dependență între variabile măsurate, cu ponderi apropiate din punct de vedere al importanței în proces, pentru explicarea abaterilor constatate asupra entităților. SPSS permite, pe lângă testarea ipotezelor asupra unui ansamblu de variabile, oferirea unei imagini ușor de interpretat și studierea perspectivei din punct de vedere al asemănărilor dintre entități sau a legăturilor dintre variabile.

Prelucrarea datelor cu SPSS presupune următoarele etape:

Crearea unei baze de date SPSS

Se lansează SPSS

Se definesc variabilele bazei de date în domeniul Data Editor

Se introduc datele pentru fiecare caz (subiect) în parte

Se salvează baza de date

Definirea „tipului” de variabilă

SPSS poate opera cu o varietate de tipuri de variabile. Fiecărui tip îi corespund anumite proprietăți (caracteristici) care trebuie definite de operator.

Etichetarea variabilelor și a valorilor

Etichetarea este o formă de descriere explicită a conținutului variabilei (având în vederea că numele variabilei nu poate fi mai mare de opt caractere). Etichetarea se poate practica atât la nivelul variabilei dar și la valorile pe care le conține, în cazul variabilelor de tip nominal sau ordinal.

Etichetele ajută la citirea mai ușoară a rezultatelor (deoarece le însoțesc). În plus, etichetele sunt asociate prelucrărilor grafice (histograme, bare, etc.) fapt care reduce necesitatea de a le introduce ulterior prin editarea respectivelor grafice.

Operații de transformare a variabilelor

Dacă privim variabilele SPSS din punctul de vedere al modului în care au fost create, putem distinge două categorii:

variabile „primare” care includ valori rezultate direct din cercetare și sunt introduse, de regulă, de la tastatură.

variabile „secundare” rezultate prin transformările aplicate variabilelor primare.

Recodificarea variabilelor

Recodificarea unei variabile constă în convertirea valorilor acesteia, cu scopul obținerii unei distribuții bazată pe frecvențe cumulate. Procesul este similar cu crearea unei tabele de frecvențe grupate.

În principiu, deși este recomandabilă obținerea unei grupări de frecvențe pe 5-15 clase, se poate opta pentru un număr de clase care servește cel mai bine interesul de cercetare

Organizarea datelor pentru analiză

SPSS permite efectuarea unor operații de organizare a datelor care prezintă un interes aparte pentru faza de analiză. Acestea sunt: sortarea, împărțirea fișierului în subgrupuri, selectarea unor seturi de date, combinarea fisierelor (adăugarea de cazuri, adăugarea de variabile).

Sortarea bazei de date

Sortarea este operația de aranjare a bazei de date în funcție de ordinea crescătoare/descrescătoare a valorilor unei variabile. Ea este utilă mai ales pentru inspectarea directă a valorilor de la extrema unei distribuții sau pentru listarea ordonată a bazei de date.

Împărțirea bazei de date în subgrupuri

Baza de date SPSS poate fi împărțită în subgrupuri, pentru analiză distinctă. Atunci când datele sunt astfel organizate, orice procedură de analiză se va efectua distinct pentru fiecare subgrup.

Selectarea unor seturi de date

Selectarea unui set de date permite aplicarea procedurilor de analiză numai pe cazurile selectate. Dacă nu se optează pentru ștergerea datelor neselectate, ele vor fi păstrate și vor putea fi reintroduse în analiză.

5.5.2 Calcularea indicatorilor statistici descriptivi

Principalele elemente de statistică descriptivă sunt:

reprezentarea întregii distribuții, pe cale:

numerică (analiza de frecvențe)

grafică (bară, histogramă, box-plot, stem and leaf)

valorile tendinței centrale

mod

medie

mediană

valorile împrăștierii

amplitudine

abatere standard

valorile formei distribuției

indice de simetrie (skewness)

indice de boltire (kurtosis)

SPSS oferă posibilități variate de reprezentare și de calcul a acestor indicatori. În acest sens există, pe de o parte, proceduri specializate și, pe de altă parte, opțiuni care pot fi accesate din interiorul altor proceduri. Acest aspect sugerează că analiza statistică descriptivă, în ciuda caracterului ei „elementar”, este o componentă indispensabilă a analizei statistice.

5.5.3 Teste parametrice

Testul z (t) pentru media unui singur eșantion

Testul z pentru un singur eșantion este utilizat pentru se testa diferența dintre media unui eșantion față de media cunoscută a populației din care face parte. Atunci când volumul eșantionului este mic (N<30) este utilizată o variantă denumită testul t pentru un singur eșantion (fig.33).

Utilizarea acestui test statistic este condiționată de cunoașterea mediei populației. Dacă populația are o extindere mare, acest lucru este dificil de realizat (în afara cazurilor în care există studii speciale. Spre exemplu, dintre variabilele psihologice ale căror medii pentru populație este cunoscută, este inteligența, exprimată în unități QI (μ=100). Testul poate fi utilizat, însă, atunci când populația statistică are o extindere mai redusă. De exemplu, dacă a fost evaluat nivelul de satisfacție într-o organizație, se poate testa diferența dintre nivelul de satisfacție la nivelul unui departament față de media satisfacției la nivelul întregii organizații (populație statistică).

Condiția teoretică de bază este normalitatea distribuției de eșantionare. În temeiul teoremei limitei centrale, cu cât volumul eșantionului este mai mare, cu atât normalitatea distribuției de eșantionare este mai sigură.

Datele supuse testării trebuie să fie incluse într-o variabilă SPSS de tip numeric.

Fig.33 Reprezentarea testului z

Primul tabel include statistica descriptivă a variabilei testate (N, media, abaterea standard, eroarea standard a mediei). Al doilea tabel include rezultatele testului statistic: t=6.254, df=4, p=0.03, diferența față de media populației (22,60) și limitele inferioară (12,57) și superioară (32,63) ale intervalului de încredere pentru media populației estimată de eșantionul de cercetare, (figura 33).

Testul t pentru eșantioane independente

Testul t pentru eșantioane independente este utilizat pentru testarea diferenței dintre mediile aceleiași variabile dependente măsurate pe două grupuri, formate din subiecți diferiți. Exemplu: testarea diferenței dintre media scorului la o scală de audiență a programelor radio aplicată în mediul rural și respectiv aplicată mediului urban. În acest caz, scorul la audiență este variabila dependentă, măsurată pe scală cantitativă (interval/raport) iar mediul ascultătorilor este variabila independentă, exprimată pe scală nominală dihotomică (individ/familie/grup social).

Condiții

Teoretic, testul t poate fi utilizat pentru eșantioane oricât de mici, dacă distribuția de eșantionare pentru cele două grupuri este normală și dacă varianța valorilor în cele două grupuri nu diferă semnificativ. În ce privește condiția egalității varianței, ea este testată cu un teste specifice. Unul dintre acestea este testul Levene, iar în funcție dacă rezultatul său programul calculează testul t pe două căi.

Dacă variabila dependentă nu întrunește condițiile pentru testul t, se poate apela la teste neparametrice, astfel:

Testul z pentru proporții (compararea procentului de „ascultători” din cele două grupuri)

Testul Mann-Whitney U, dacă se transformă valorile variabilei „audiență” în valori de rang

Aranjarea datelor

Tabela de date SPSS conține variabila dependentă, de tip numeric, și variabila independentă, de tip nominal, cu două valori, în funcție de apartenența la un grup sau altul. Variabila independentă poate fi de tip „string” (codificând cele două grupuri cu valori de genul „A” și „B”) sau de tip numeric (cu codificarea convențională 1 și 2).

Fig. 34 Testul t – eșantioane independente

În primul tabel (Group Statistics) avem statistica descriptivă a celor două grupuri. Se va observa că programul descrie grupurile prin intermediul etichetelor valorilor. Dacă acestea nu ar fi fost definite, în loc de „individ” și „familie” ar fi apărut 1, respectiv, 2.

Al doilea tabel are două linii:

Pe prima avem rezultatele testului t pentru cazul asumării omogenității varianței (Levene’s Test for Equality of Variances).

Pe a doua linie avem rezultatele testului t pentru cazul în care nu s-ar întruni condiția de omogenitate a varianței pentru cele două grupuri.

Testul t pentru eșantioane dependente (perechi)

Utilizare

Testul t al diferenței mediilor a două eșantioane dependente permite evaluarea semnificației variației unei anumite caracteristici la aceeași indivizi în două situații diferite (de exemplu, „înainte” și „după” o anumită audiție, ori în două contexte diferite, indiferent de momentul manifestării acestora) (fig.34). Avantajul major al acestui model statistic este acela că surprinde variația numită „intrasubiect”, prin faptul că baza de calcul este diferența dintre cele două valori ale fiecărui subiect în parte.

Condiții

Condiția teoretică a testului este normalitatea distribuției de eșantionare a distribuției de diferențe. Ca și în celelalte cazuri, teorema limitei centrale determină normalizarea distribuției de eșantionare pe măsură ce volumul eșantionului crește.

În situația în care condiția nu se îndeplinește, se pot utiliza teste neparametrice echivalente: testul semnului (pentru date nominale) sau testul Wilcoxon (pentru date ordinale).

Fig.35 Testul t – eșantioane dependente

Primul tabel conține statistica descriptivă pentru cele două variabile.Al doilea tabel conține testul de corelație Pearson (r) dintre cele două variabile. Evaluarea intensității asocierii liniare dintre cele două variabile este legitimă în acest context, dar oferă o informație diferită de testul diferenței dintre medii (fig.35). Alegerea testului de corelație sau al testului t se decide în funcție de obiectivul cercetării.

În fine, ultimul tabel prezintă rezultatul testului: t=5,076, df=9, p=0,001. Acesta permite respingerea ipotezei de zero și acceptarea ipotezei cercetării;zgomotul afectează capacitatea de calcul aritmetic [144].

Coeficientul de corelație liniară Pearson (r)

Utilizare

Corelația Pearson (r) măsoară gradul de asociere dintre variabile. Aceasta se referă la gradul și sensul de variație concomitentă a valorilor unei variabile în raport cu cealaltă, după un model de tip liniar. Domeniul de variație a coeficientului de corelație Pearson (r) este între r=-1 (corelație perfectă negativă) și r=+1 (corelație perfectă pozitivă). Absența oricărei legături (corelații) dintre variabile se traduce prin r=0.

Condiții

Condiția principală pentru calcularea coeficientului de corelație liniară Pearson este ca variabilele implicate să fie măsurate pe scală de interval/raport (alături de existența unei forme a distribuției care nu se abate sever de la curba normală).

Testele neparametrice alternative, pentru cazul în care condițiile pentru utilizarea testului Pearson nu se îndeplinesc, sunt: testul χ2 (pentru date nominale) sau coeficienții de corelație Spearman sau Kendall (pentru date ordinale).Testul implicit, din zona Correlation Coefficients, este Pearson, dar se poate bifa un altul (Kendall sau Spearman), dacă datele sunt neparametrice.

Tabelul rezultatelor cuprinde matricea de corelații a variabilelor analizate (fig.36). El este redundant deoarece prezintă aceleași corelații de două ori, odată deasupra diagonalei, odată sub diagonală. Corelațiile variabilelor cu ele însele sunt perfect pozitive (r=1) și nu prezintă, desigur, nici un interes. Fiecare celulă include următoarele informații:

valoarea lui r

nivelul p

numărul de subiecți (N)

Fig. 36 Reprezentarea corelațiilor în SPSS

Caracterul și intensitatea corelației dintre două variabile se evidențiază extrem de sugestiv cu ajutorul unei proceduri grafice specifice, numită scatterplot.

Reprezentarea grafică este sursă de informații cu privire la natura relației dintre variabile, motiv pentru care este recomandabilă utilizarea frecventă a acesteia. Mai mult, ea este necesară în special atunci când valoarea corelației este redusă, sau nesemnificativă, deoarece graficul poate scoate în evidență o legătura de alt tip decât liniară.

Reprezentarea grafică este sursă de informații cu privire la natura relației dintre variabile, motiv pentru care este recomandabilă utilizarea frecventă a acesteia. Mai mult, ea este necesară în special atunci când valoarea corelației este redusă, sau nesemnificativă, deoarece graficul poate scoate în evidență o legătura de alt tip decât liniară.

Regresia liniară

Utilizare

Analiza de regresie este o aplicație a corelației, utilizată în scopuri de predicție. Tipul de regresie în care există o singură variabilă predictor și o variabilă criteriu (ex. tendința spre risc) se numește regresie liniară simplă. Mai frecvent utilizată este regresia multiplă, care efectuează predicții bazate pe mai multe variabile predictor asupra unei variabile criteriu.

Condiții

Din punct de vedere statistic, condițiile variabilelor care sunt supuse analizei de regresie sunt aceleași ca în cazul corelației, deoarece regresia liniară este o aplicație a acesteia. Din punct de vedere metodologic, predicția presupune, de regulă, evaluarea variabilei predictor anterior variabilei criteriu. Acest fapt poate sugera o relație de tip cauzal între variabile, dar numai dacă sunt întrunite și alte condiții (cum ar fi izolarea efectelor altor variabile).

Procedura: În principiu, analiza de regresie începe cu coeficientul de corelație dintre variabile și vizualizarea imaginii scatterplot. Se poate trece la apoi analiza de regresie a cărei finalitate este aceea de obținere a coeficienților a (termenul liber, sau originea dreptei de regresie) și b (panta dreptei de regresie), cu ajutorul cărora se pot face estimări ulterioare.

Analiza rezultatelor

Fig.37Afișarea regresiei liniare în SPSS

Tabelul Model Summary oferă valoarea coeficientului de regresie, notat cu R, care este identic cu coeficientul de corelație dintre cele două variabile (fig 37). Dacă modelul de regresie ar fi avut mai multe variabile predictor, R ar fi fost coeficientul de corelație multiplă dintre predictori și criteriu. Interpretarea este similară coeficientului de corelație simplă, la fel ca și pentru R2, care este coeficientul de determinare al lui R. „Adjusted R Square” este o corecție a lui R2 în funcție de numărul de predictori și numărul de subiecți.Tabelul Coefficients conține coeficienții B (nestandardizați) și coeficientul beta (standardizat), care pot fi utilizați, la alegere, în ecuația de predicție.

Fig.38 Afișarea dreptei de regresie în SPSS

Acest procedeu de trasare a liniei în interiorul scatterplotului este utilizabil și în cazul corelației. Dacă se alege alt model decât cel liniar (de exemplu, Quadratic regression) se va obține linia/dreapta de regresie sub formă curbilinie, punând în evidență abaterile de la modelul liniar (fig.38). Acest lucru este cu deosebire util atunci când corelația este mică, fapt care se poate datora faptului că relația dintre variabile nu urmează un model liniar [145].

5.6 Niveluri ale intercorelării unor parametri vocali implicați în comunicarea informațiilor

5.6.1 Introducere

Pentru analiza comunicării s-a recurs la studierea principalilor parametri care descriu semnalele vocale din punct de vedere al eficienței transferului de conținut informațional. În prezenta secțiune se analizează calitatea fizică a transferului informațional în mediul ,,on air" funcție de parametrii streamingului audio dar și de caracteristicile fonetice particulare ale factorului uman. Prin aplicarea analizei statistice se urmărește identificarea și cuantificarea nivelului de corelare a parametrilor acustici cu cei vocali și impactul pe care prezența acestei intercorelări îl poate avea asupra optimizării structurilor comunicaționale.

Un domeniu științific de maxim interes prin rezultatele obținute în ultimii ani este cel al analizei vorbirii. În perioada anilor '90 au intrat în atenția cercetătorilor teoriile fonetice și fonologice cu implicații în modelarea aspectelor prozodice ale semnalului vocal. Acestea au creat premisele trecerii într-o nouă etapă asistemelor de sinteză și recunoaștere vocală, prin realizarea de descrieri ale semnalului vocal din punct de vedere prozodic și al stărilor emoționale [146]. Totodată, pentru analiza teoretică a semnalelor sonore se recurge deseori la modelarea matematică a principalilor parametri care determină evoluția acestora. În acest sens o secțiune esențială este reprezentată de modulul destinat procesării semnalului vocal, componentă care se concentrează pe dezvoltarea și implementarea de metode și algoritmi pentru extragerea de tipare, interpretarea, transformarea și codificarea semnalelor vocale.

Prima fază a acestei direcții de studio se referă la recunoașterea vocală a cuvintelor care cunoaște două modalități de realizare, dependent sau independent de vorbitor. Cea de-a doua metodă de recunoaștere vocală constă în selectarea și apoi identificarea unui set de parametri spectrali specificiconținutului mesajului transmis prin vorbire. Conform viziunii sistemice asupra proceselor de transfer dinamic, din punct de vedere tehnic, semnalele sonore pot fi definite ca reprezentând suportul fizic al transmiteriiinformației între sisteme dar și între componentele interne ale acestora.Pentru a putea fi procesate, semnale acustice provenite de la sursa vocală sunt înregistrate și ulterior convertite în semnale electrice cu ajutorul unor echipamente electronice specializate: microfoane,amplificatoare, filtre, convertoare analogic-digital etc. Majoritatea semnalelor vocaleprovenite din mediul de comunicare prezintăo variație continuă în timp și în acest sens pentru procesarealor, se folosesc sisteme analogice [147].

Ca fenomen acustic limbajul se prezintă sub forma unor secvențe continue fonice, separate prin intervale. În prezenta lucrare se analizează calitatea fizică a transferului informațional în mediul ,,on air" funcție de diferiți factori de mediu, de parametriistreamingului audio dar și de caracteristicile fonetice particulare ale factorului uman.Impactul din punct de vedere fizic al mesajului informațional depinde, în primul rând, de diverse mărimi acustice ale semnalului vocal: presiune acustică eficace, energie sonoră, intensitate auditivă, reverberație (reverberation time). Din punct de vedere fonetic studiul se axează pe câteva elemente fonice prin care se materializează comunicarea: claritatea vorbirii (speech clarity), înțelegerea vorbirii (speech intelligibility), viteza vorbirii (speed of speech) etc [148].

În privința actului de vorbire, indiferent dacă acesta îmbracă forma unui discurs, a unei relatări sau a unei conversații, toate aceste acte de comunicare sunt definite de secvențe coerente compuse din unități lexicale care generează un anumit conținut semantic. Acesta poate fi amplificat sau dimpotrivă, atenuat, de manifestarea efectelor unei asocieri între unii parametri vocali, acustici dar și factori care țin de tehnica și acuratețea vorbirii [149]. Prin aplicarea unor metode de analiză statistică se urmărește identificarea și cuantificarea nivelului de corelare a parametrilor acustici cu cei vocali și impactul pe care prezența acestei intercorelări îl poate avea asupra optimizării structurilor comunicaționale.

5.6.2 Descrierea măsurătorilor și a echipamentelor utilizate

Măsurătorile parametrilor acustici și vocali s-a realizat în incinta unui studio radio, respectiv cabina de înregistrare, având dimensiunile: 8×6×3 [m], adică un volum V=144 [m³]. S-a determinat timpul de reverberație RT60 = 0.376 [sec]. Valoarea vitezei sunetului în incintă la T=200 C a fost de 343 [m/s]. Coeficientul de distorsiune a sunetului δ = 0.18 %, acceptabil pentru o transmisie naturală a semnalului. Eroarea la detecția semnalului, la un nivel de încredere de 95%, a fost de ±0.94 dB în prezența filtrului și ±0.96 dB fără prezența etajului de filtrare, atât pentru voci cât și pentru zgomot. Intensitatea sonoră de backgroud a studioului s-a situat la valoarea: Ns ≈ 20 dB. Experimentele anterioare au scos în evidență faptul că pentru obținerea unei precizii ridicate înrecunoașterea vocală a unităților lexicale ale limbii române, este necesară rostirea acestora cu ointensitate ridicatăși aproximativ constantă. În scopul soluționării acestui aspecteste utilizat un procesor de voce Tascam TA-1VP, care cuprinde un preamplificator de microfon, compresor, de-esser și corecție de pitch. Acesta este cuplat cu un alt procesor de reverb și multiefect TC Electronic M3000. Microfoanele tip AT 2020 USB+ condenser asigură conversia din analog în digital la 16 biți, cu o rată de eșantionare de 48kHz și răspuns în frecvență în intervalul 20 ÷ 20 000 Hz. Consola de emisie (mixer) a fost de tip Traktor Kontrol Z2 prevăzut cu encodere de înaltă calitate, egalizor pe 3 benzi și filtru pe fiecare canal. Sistemul de înregistrare și procesare a semnalului mai cuprinde un recorder solid state Tascam TM – SSCDR 200 pentru înregistrări în format wav, mp3, control prin port serial RS232C și paralel. De asemenea sistemul dispune de un convertor audio multicanal Xlogic Alpha-Link Audio care dispune de 64 canale digitale la 48kHz, 24 I/O analogice și 12 I/O digitale stereo AES/EBU.S-a efectuat înregistrarea unor texte rostite de un număr de 59 subiecți (30 bărbați și 29 femei). Fiecare dintre aceștia a avut de parcurs la microfon un număr de 3 texte în limba română, aparținând sub aspect semantic unor domenii literare diferite. Condiția a fost ca fiecare subiect să fie înregistrat rostind un singur text din cele 3 pe fiecare serie iar rostirea să fie oprită la exact 1 minut de la începere. Toate spectrele vocale înregistrate pe memoria hard a unui PC au fost prelucrate cu ajutorul aplicației audio 3D QSound Pro 9.0 SSMS produs de firma Sony. Softul permite realizarea rulării de materiale de pe orice playerele media pe platforma PC [150].

5.6.3 Descrierea modului de lucru și a datelor achiziționate

În scopul evidențierii posibilelor asocieri între unii parametri vocali și acustici și pentru a sublinia relevanța acestor legături asupra structurii informaționale s-a ales analizarea cu ajutorul aplicației IBM SPSS 20.0. Cele 59 de fișiere audio procesate prin programul QSound au fost organizate într-o bază de date conținând următoarele variabile aleatoare (Tabelele 1-3).

Variabilele studiate au următoarele codificări prezentate în tabelul 8.

Tabelul 8 Codificări ale variabilelor studiate

*există și varianta (silabe/secundă) [sps] syllables/sec. in engl.

** conține cuvinte parțial suprapuse, accentuarea eronată a cuvintelor, greșeli de rostire etc

Software-ul IBM SPSS 20.0 reprezintă un pachet de programe interactiv, de utilitate generală, destinat analizelor de date și include multiple facilități și tehnici de natură statistică. Printre aceste facilități se numără opțiuni excelente de distribuire, modelare automată, operare cu versiunile server ale IBM SPSS Statistics Base, un editor de sintaxă, integrare cu Microsoft Office etc[152]. În lucrarea de față, pentru a reprezenta cât mai exact evoluția variabilelor descrise se va urmări atât calculul indicatorilor tendinței centrale și ai împrăștierii, analiza dispersională unifactorială ANOVA, analiza de covarianță precum și analiza de regresie simplă liniară cu ajutorul programului SPSS.

5.6.4 Rezultate și discuții

Statisticile descriptive

Statisticile descriptive sunt prezentate în tabelul 9 iar în figura 39 sunt redate histogramele repartiției variabilelor studiate.

Tabelul 9 Statistici descriptive

a Există mod multiplu

Fig.39 Histogramele repartiției variabilelor studiate

5.6.5 Corelațiile variabilelor

În conformitate cu corelațiile, din tabelul 10, se observă legături multiple și importante între următoarele variabile: IV (înțelegerea_vorbirii), FSV (frecvența_vorbirii) și de asemenea VR (viteza_vorbirii). Coeficientul de corelație dintre IV și FSV (r = -0,714) este unul moderat, dar aproape de limita inferioară a corelațiilor puternice (-0,75) iar cel dintre IV și VR este unul puternic (r=-0,893).

Tabelul 10Matricea de corelație

**Correlation is significant at the 0.01 level (2-tailed).

Un cluster corelațional important este format din variabilele vocale IS (intensitatea_sonoră), DI (densitatea_informațională) și NEV (nr_erorilor_vorbire). În acest caz, putem afirma, în sensul determinării cauză-efect, că variabila dependentă este densitatea informațională DI, rolul predictorilor fiind luat de parametrii IS și respective NEV.

Fig.40 Graficele corelațiilor

Graficele (figura 40) ilustrează cele mai importante corelații calculate între perechile de variabile vocale și acustice măsurate.

5.6.6 Concluzii

Din tabelul corelațiilor se observă că variabila CV (claritatea_vorbirii) prezintă asocieri relativ slabe cu toate celelalte variabile, având valori cuprinse între 0,019 și 0,217. În acest caz nu putem vorbi totuși despre o independență totală a variabilei CV decât cel mult în legătură cu variabila VR (viteza_rostirii).

Conform valorilor de corelație din tabelul 6 se remarcă o legătură multiplă consistentă între variabilele IV (înțelegere_vorbire), FSV (frecvență_vorbire) și respectiv VR (viteză_rostire). Coeficientul de corelație între IV și FSV (r = -0,714) este unul moderat aproape de limita superioară (-0,75) iar între IV și VR există o corelație puternică r = -0,893. În aceste condiții se poate studia posibilitatea existenței unei regresii liniare multiple în care, conform sensului unui proces informațional, variabila dependentă este IV iar FSV și VR sunt considerate variabile independente.

În privința variabilei FSV (frecvență_vorbire) se distinge un coeficient de corelație pozitiv (r = 0,617) cu variabila VR (viteza_rostirii). Coeficientul de corelație atestă o legătură de intensitate medie sub un prag de semnificație foarte bun p = 0,01. Dacă se consideră că dintre cele două, variabila FSV este cea dependentă, atunci acesta este explicată în procent de 38% de variabila VR.

În continuare, variabila IS (intensitate_voce) prezintă două puternice asocieri cu variabilele DI (densitate_informațională) r = 0,995 și respectiv NEV (nr_erori_vorbire) r = 0,903. Aceste valori ale coeficienților de corelație la un prag de semnificație sub p= 0,01 exprimă legături foarte intense între acești parametri, aspect care conduce la studiul existenței unui posibil model regresional liniar format cu aceste trei variabile. Se mai remarcă faptul că parametrul IS, în ambele relații de asociere, descrie trenduri de același sens (vezi grafice).

O ultimă corelație remarcabilă este cea dintre parametrii DI (densitate_informațională) și NEV (numărul_erori_vorbire). Valoarea coeficientului de corelație este r = 0,911, la un prag de semnificație sub p = 0,01. Considerând conform relației de cauzalitate dintre cei doi parametri, variabila DI ca fiind cea dependentă, putem spune că parametrul NEV explică/determină aproximativ 83% din conținutul parametrului DI. Trebuie specificat faptul că prin erori de vorbire se înțeleg cuvinte și accente pronunțate eronat, cuvinte incomplete, pauze neconcordante cu textul dar și incoerențe în exprimarea semanticii conținutului mesajului.

5.7 Analiza predictivă a unor parametri vocali prin metoda regresiei liniare multiple

5.7.1 Introducere

În prezentul studiu se analizează dependența transmisiei informațiilor în mediul ,,on air" de diferiți factori ai mediului de înregistrare, de parametrii semnalului audio dar mai ales de caracteristicile fonetice particulare ale factorului uman. Prin aplicarea metodei de analiză regresională se urmărește identificarea și cuantificarea nivelului de corelare a parametrilor acustici cu cei vocali și impactul pe care prezența acestei intercorelări îl reflectă în structurarea proceselor comunicaționale.

Ca domeniu științific de avangardă, analiza și recunoașterea vorbirii presupune modelarea matematică a principalilor parametri de care stau la baza proceselor informaționale. Ocomponentă importantă în lanțul analitic a conținutului informațional este cea a înregistrării și procesării semnalului sonor vocal, atât din punct de vedere fonetic cât și al acusticii mediului de transmisie.

Din punct de vedere strict tehnic, semnalele sonore pot fi definite ca reprezentând suportul fizic al transmiteriiinformației între sisteme dar și între componentele interne ale acestora. Modelarea vorbirii reprezintă procesul de identificare a cuvintelor și de înțelegere a mesajului interlocutorului. Acest proces constă în principal din următoarele etape: captura și prelucrarea digitală a semnalului vocal, partiționarea acestuia în unități sonore, filtrarea și eliminarea zgomotului de fond, analiza parametrilor acustici/vocali, recunoașterea vorbirii și vorbitorului, elaborarea corespondenței unitate sonoră – unitate lexicală, operarea lingvistică și trimiterea spre client a textului recunoscut. Știind că semnalul vocal este cvasistaționar pe intervale scurte de timp, adică proprietățile sale sunt invariante pe parcursul fiecărui interval, tehnicile actuale de prelucrare a semnalului vocal folosesc așa-numita analiză rapidă. În acest sens, semnalul vocal este divizat în intervale de timp de 10-30 ms, pe parcursul cărora semnalul se consideră staționar.

În prezentulstudiu se analizează dependențatransmisiei informațiilor în mediul ,,on air"în funcție de diferiți factori ai mediului de înregistrare, de parametriisemnalului audio dar mai ales de caracteristicile fonetice particulare ale factorului uman. Astfel,mesajul informațional depinde, în primul rând, de diverse mărimi acustice ale semnalului vocal: presiune acustică eficace, energie sonoră, intensitate auditivă, reverberație (reverberation time). Dintr-o perspectivăintegratoare, contentul informaționaleste receptat prin sistemul auditiv, procesat și apoi comunicat cu ajutorul aparatului fonator descris de caracteristici prin care se materializează efectiv comunicarea: claritatea vorbirii (speech clarity), înțelegerea vorbirii (speech intelligibility), viteza vorbirii (speed of speech) etc.Indiferent de forma și substanțacomunicării vocale, actul în sine este guvernat de limitările anatomice ale vorbitorului, de tehnica utilizată și de regulile și normele de limbaj. Impactul mesajului transmis poate cunoaște oscilații sensibile funcție de anumite asocieri între unii parametri vocali, acustici dar și de factori care țin de tehnica și acuratețea vorbirii [151].

Prin aplicarea metodei de analiză regresională se urmărește identificarea și modelarea predictivă aparametrilor acustici și a celor vocali precum și influența pe care prezența fiecărei variabile parametrice îl poate avea asupra optimizării proceselorcomunicaționale.

Metoda regresiei liniare multiple (RLM) este utilizată în scop predictiv dar și în scop explicativ, adică gradul în care fiecare parametru-predictor contribuie la corelație comparativ cu ceilalți predictori.Metodele folosite frecvent pentru aevalua predictorii sunt corelațiile saucoeficienții standardizați de regresie. Aceste metode prezintă dezavantajul că iau în considerare doar relația directă dintre predictor și variabila dependentă fără a lua în considerare legătura dintre predictori.

5.7.2 Matricea de corelație

Tabelul 11 Matricea de corelație

**

Correlation is significant at the 0.01 level (2-tailed).

5.7.3 Analiza de regresie liniară multiplă

Pentru prima grupare de parametri (IV, FSV, VR) s-au obținut următoarele rezultate (Tabelul 12):

În cadrul acestui tabel sunt raportate media, abaterea standard și volumul eșantionului pentru care a fost rulată analiza de regresie.

Tabelul 13 (Model Summaryb) afișează coeficientul de determinare și coeficientul de determinare ajustat, între care există o diferență foarte mică. Așadar, 83,6% din IV (înțelegerea vorbirii) este generată de FSV (frecvența semnalului vorbirii) și de VR (viteza rostirii). Testul de semnificație se află sintetizat în tabelul analizei dispersionale ANOVA (Tabelul 14):

Tabelul 14 ne relevă nivelele de semnificație ale testului t, care indică dacă între variabila dependentă și cele independente există o relație semnificativă. În acest caz, pentru ambele variabile independente (FSV și VR), pragul de semnificație este sub 0,05 (prag de referință) deci ambele variabile influențează IV (înțelegerea vorbirii). Coeficienții de regresie nestandardizați ne arată că atunci când frecvența semnalului vorbirii FSV crește, înțelegerea vorbirii scade cu 0,006 puncte pe scală și de asemenea, când viteza vorbirii VR crește, înțelegerea vorbirii scade cu 0,309 puncte pe scală. Valoarea destul de mică a coeficientului frecvenței semnalului vorbirii poate însemna că relația dintre acesta și înțelegerea vorbirii nu este liniară sau că efectul frecvenței semnalului vorbirii este redus relativ la ponderea vitezei rostirii. Coeficienții de regresie standardizați relevă importanța predictorilor, respectiv care dintre acești predictori are contribuția cea mai consistentă la explicarea variabilei dependente IV.Se observă că aceștia sunt în deplină concordanță cu pătratele corelațiilor semiparțiale, respectiv că predictorul frecvența semnalului vorbirii contribuie în procent de aproximativ 26% la explicarea variabilei dependente – înțelegerea vorbirii iar viteza rostirii în proporție de aproximativ 73%. Aceste ponderi în explicarea variabilei IV rămân valabile datorită absenței multicoliniarității, fapt atestat de valoarea indicatorului Tolerance de 0,620 mult mai mare decât pragul prezenței multicoliniarității de 0,1. De asemenea și indicatorul VIF are o valoare calculată de 1,614 mult mai mică decât pragul de 10 unități al multicoliniarității.Regresia valorilor prognozate și clusterizarea corelației variabilelor studiate inclusiv printr-un scatterplottrivariat sunt reprezentate în graficele următoare, (figura 41).

Fig.41Graficele 2D și 3D de regresie

O altă interdependență puternică se remarcă între variabilele DI (densitate_info), IS (intensitate_voce) și NEV (nr_erori_vorbire). Coeficienții de corelație dintre DI (densitate_info) și IS (intensitate_voce) respectiv DI și NEV (nr_erori_vorbire) sunt r = -0,995 și r = 0,911. Valorile acestora denotă faptul că 98% și respectiv aproape 83% din varianța variabilei dependente DI este explicată de cele două variabile independente IS și NEV. În acest context se studiază posibilitatea stabilirii unei regresii liniare multiple între aceste variabile comunicaționale. Tabelul 15 conține media, abaterea standard și volumul eșantionului analizat.

Tabelul 16 afișează valoarea coeficientului de determinație conform căruia 99% din DI (densitatea informațională) este explicată de variabilele independente IS (intensitatea sonoră a vorbirii) și NEV (numărul erorilor de vorbire). În tabelul analizei dispersionale ANOVA, tabelul 17, este afișat testul de semnificație.

Tabelul 18 arată că pentru ambele variabile independente (IS și NEV) nivelele de semnificație pentru testul t Student se află sub pragul de 0,05. Acest lucru înseamnă că ambele variabile independente influențează DI (densitatea informațională). Coeficienții de regresie nestandardizați ne arată că atunci când intensitatea semnalului vocal IS crește, densitatea informațională scade cu 0,941 puncte pe scală și de asemenea, când crește numărul de erori NEV, densitatea informaționalăcrește cu 0,242 puncte pe scală. Coeficienții de regresie standardizați arată că predictorul NEV are o contribuție de doar 7% la structura densității informaționale în comparație cu predictorul IS care manifestă o pondere de 93%. Procentele de participare sunt validate și de valoarea indicatorului Tolerance de 0,185 care trece de pragul multicoliniarității (0,1). Această constatare este dublată și prin valoarea de 5,413 a indicatorului VIF (factorul de inflație a varianței), valoare aflată sub pragul multicoliniarității de 10 unități. În graficele de mai jos sunt afișate modelul de regresie prognozat și imaginea grupării punctelor de corelație inclusiv printr-un scatterplot 3D, figura 42 si figura 43.

Fig.42 Graficele 2D și 3D de regresie_2

Fig.43 Modelul liniar de predicție

5.7.4 Concluzii

Regresia liniară multiplă (RLM), prin metoda celor mai mici pătrate, este metoda de modelare cea mai des utilizată pentru determinarea și evidențierea interdependențelor dintre diverși parametri de proces. Prin utilizarea regresiei multiple se încearcă identificarea relațiilor dintre o variabilă dependentă (exogenă) și un număr de variabile independente (predictori).

Pentru primul cluster de variabile parametrice (IV, FSV, VR) în care variabila dependentă este IV (înțelegerea_vorbirii) se observă asocieri de semn contrar între perechile IV-FSV (r = – 0,714) și respectiv IV-VR (r = 0,893). Interesant este faptul că și între variabilele independente FSV și VR asocierea este una de intensitate peste medie (r = -0,617). Acest lucru poate proveni dintr-o relație latentă de condiționare dintre cei doi parametri conducând la o pseudoindependență a acestora. Astfel, dacă în dubletul FSV-VR variabila VR este parametrul incident putem spune că contribuția FSV la explicarea variabilei dependente IV de doar 26% este justificată prin faptul că VR la rândul ei explică/determină în proporție de 38% evoluția variabilei FSV. În ansamblu, legătura dintre perechea de variabile pseudoindependente VR-FSV și variabila dependentă IV, determinată prin RLM, este una foarte intensă ( R = 0,917), la un prag de semnificație foarte bun < p = 0,01. Acest lucru arată că perechea VR-FSV explică/determină 83,6% din IV (înțelegerea vorbirii), ceea ce se traduce prin faptul că în procesul transmisiei, acuratețea receptării conținutului informațional este influențată major atât de frecvența sonoră a rostirii cât mai ales de viteza cu care este comunicat mesajul vocal.

În privința celui de-al doilea cluster parametric, analiza prin RLM a pus în evidență faptul că 99% din DI (densitatea informațională) este explicată de variabilele independente IS (intensitatea sonoră a vorbirii) și NEV (numărul erorilor de vorbire). Nivelurile de semnificație pentru testul t se află sub 0,01 și respectiv sub 0,05 atestând faptul că perechea de variabile independente IS-NEV (intensitate_sonoră_voce–nr._erori_vorbire) influențează consistent variabila DI (densitate_informațională). Se observă că semnele coeficienților de corelație DI-IS și DI-NEV sunt diferite, ceea ce înseamnă că au trenduri de asociere diferite. De asemenea valorile coeficienților de corelație (r = -0,995) și respectiv (r = 0,911) sunt, în valoare absolută, foarte mari, fapt ce generează implicit și un coeficient de corelație multiplă foarte mare (R = 0,99). Cu alte cuvinte, valoarea efectivă explicată a densității informaționale DI de către perechea IS-NEV este de 98%. Acest rezultat exprimă fără echivoc faptul că atât intensitatea sonoră a vocii cât și numărul de erori produse pe parcursul procesului de transmitere a unui conținut ,,on-air" influențează substanțial calitatea exprimării și impactul pe care mesajul comunicat îl poate avea asupra auditoriului.

Pentru ambele grupări parametrice se pot realiza modelările liniare automate. Pentru un prag mai mare de 0,1 în relațiile de interdependență din clusterul IV-VR-FSV, ca variabilă explicativă (predictor) apare și parametrul CV (claritatea_vorbirii).

5.8 Optimizarea modelării proceselor informaționale prin studiul corelației parametrilor vocali

5.8.1 Introducere

În analiza comunicării avem nevoie să studiem principalii parametri vocali din punct de vedere al eficienței transferului de conținut informațional. Prin aplicarea metodelor de analiză statistică se urmărește identificarea și cuantificarea nivelelor de corelație dintre parametrii vocali și cei acustici și a impactului pe care prezența acestor intercorelări o poate avea în sensul îmbunătățirii structurilor de comunicare. Transferul de date între diferite procese, sisteme, entități ori subsisteme socio-economice, crează un cadru larg de analiză denumit problemă comunicațională. Modelul fluid al interactivității informaționale are nevoie de noi posibilități de îmbunătățire a capabilităților de comunicare și creșterea cantitativă și calitativă a nivelului de informație utilă. Aceste rațiuni conduc la elaborarea unei dinamici superioare a procesului de comunicare. Eficiența practică a unui mesaj nu constă în complexitatea ori înălțimea nivelui de informație ci în efectele vizibile de formă și de conținut avute asupra ascultătorilor. Ceea ce este foarte important aici este semantica și probabilitatea de înțelegere a conținutului mesajului și de integrare a acestor caracteristici de substanță în forma și modalitatea efectivă de transmitere a acestuia. Există din acest punct de vedere trei moduri de operare asupra conținutului informației: morfo-sintactic (strâns legat de cadrul riguros al normelor și regulilor lingvistico-gramaticale), pragmatic (generat de utilitatea acordată informației de către ascultători) și semantică (semnificația care este structurată și transmisă prin limbajul formal).

Ca fenomen acustic, limbajul se prezintă sub forma unor secvențe fonetice continue, separate de intervale. Dincolo de abordarea deterministă a procesării semnalelor, în care acestea sunt studiate sub forma manifestărilor locale, analiza statistică consideră că semnalul vocal este purtător de informație identificat și strict clasificat după câțiva parametri asimilați unor variabile stochastice. Abaterea valorilor parametrilor de la medie este măsurată printr-un set de componente informaționale, cum sunt indicatori statistici simpli (amplitudine, mediană, mod) dar mai mult decât atât, prin indicatori sintetici cum sunt dispersia (σ2), abaterea medie pătratică (σ) ori coeficientul de variație al deviației medii liniare (). Toți acești indicatori descriptivi arată nivelul variabilelor pentru fiecare componentă informațională și modul în care toate acestea deviază de la valorile medii. În același timp, coeficientul de variație arată împrăștierea valorilor în raport cu media. Natura sa, care nu depinde de valoarea altor indicatori, îl recomandă ca indicator în analiza convergenței paametrice. În general, prin dependență a variabilelor implicate în procesul de comunicare, înțelegem doar un singur tip de dependență, cea totală sau deterministă. Pe de altă parte, există unele situații în care două variabile de tip stochastic x și y sunt legate printr-o relație probabilistică, unde, spre exemplu, știm probabilitatea lui x iar y depinde de legea de repartiție care la rândul ei este dependentă de x. În strânsă legătură cu variabilele stochastice, dependența poate fi determinată prin regresie ori corelație. Corelația este o metodă statistică descriptivă pentru că arată ce se întâmplă într-un grup de rezultate. Conceptul de corelație arată variația simultană a două variabile, prin intermediul unei proceduri de predicție reciprocă a evoluției acestor variabile. Acest lucru înseamnă că între unele variabile stochastice este posibil să nu apară nicio relație. Coeficientul de corelație (r) arată gradul/intensitatea relației dintre două astfel de variabile. La cel mai înalt grad de corelație, toatevalorile de pe graficul ambelor variabile se află în partea dreaptă a regresiei. În cazul celor mai joase puncte de corelație, distanța dintre aceste puncte și partea dreaptă a regresiei arată erorile dintre asocierile variabilelor [152]. Estimarea intercorelațiilor dintre diferite variabile stochastice asimilate parametrilor sistemului informațional, joacă un rol foarte important în analiza caracteristicilor procesului de comunicare, în accepțiunea sa fizică. Prin aplicarea unor metode de analiză statistică s-a încercat identificarea și cuantificarea nivelului de corelație a unor parametri acustici și vocali și sublinierea impactului acestor corelații asupra optimizării structurilor de comunicare prin intermediul energiei informaționale.

5.8.2 Descrierea parametrilor

Toate cele 59 de înregistrări audio au fost procesate și organizate sub forma unei baze de date care conține următoarele variabile de bază, tabelul 19, iar în tabelul 20 sunt redați parametri vocali derivați.

Tabelul 19 Variabile de bază

* avem opțiunea silabe/sec. [sps]

**cuvinte incomplete, cuvinte incorect accentuate, erori de rostire, neclarități lingvistice etc

***cuvinte eronate pe minut (cpm)

Tabelul 20 Parametrii vocali derivați

Înălțimea tonală TH se referă la proprietatea vocii de a fi mai profundă sau mai ascuțită. Acet parametru este relaționat cu vârsta și sexul vorbitorului. Experința arată faptul că acest parametru acustic subiectiv variază direct proporțional cu frecvența de oscilație a sunetului. Unitatea de măsură a înălțimii tonale este mel. Scala mel este una de tip subiectiv obținută prin trasarea experimentală a unei curbe de aproximare care reflectă variațiile TH cu propria sa frecvență.

Intensitatea sonoră VL este strâns legată cu intenția comunicării, cu timpul alocat acesteia sau cu cel desemnat recepționării și cu spațiul comunicării [153].

Flexibilitatea rostirii UF se referă la relația dintre înălțimea tonală TH și intensitatea sonoră VL în sensul evidențierii accentuării, diferențelor de semantică ori caracteristicilor emoționale ale actului vorbirii.

Fragmentarea vorbirii SF este o mărime derivată, fiind considerată ca fiind un raport între NWW și SS. Este opusul fluenței vorbirii și se consideră ca fiind raportul:

Pentru o variabilă stochastică X de tip discret a cărei valori reprezintă stările sistemului informațional, având repartiția pk ≥ 0, se numește energie informațională în sens Onicescu, IE, corespunzătoare distribuției stochastice de tip discret a variabilei X, expresia [70]:

Energia informațională este o valoareatașată unei distribuții stochastice, de aceeași natură cu entropia informațională de tip Shannon.

Denumim corelație informațională pentru două variabile aleatoare X1 și X2 sau a unei distribuții pk ≥ 0 și qk ≥ 0în sens Onicescu expresia: și coefi cient de corelație informațională raportul:

Variabilele aleatoare X1 și X2 pot fi variabile arbitrare referitor la structuralor sau pot reprezenta aceeași caracteristică aleatoare dar prezentă în două populații statistice diferite. Dacă energia informațională discretă IE este = 1 avem o concentrare informațională absolută pk = 1, pj = 0, j≠k, 1≤ j ≤ n iar în caz contrar energia informațională scade dacă nedeterminarea sau uniformitatea cresc în valoare.

5.8.3 Metoda corelației parametrice

Scopul acestei metode este să determine legătura dintre două seturi de variabile stochastice de tip discret. În statistică, conceptul de corelație are un înțeles special. Corelația statistică înseamnă că, dându-se două variabile discrete X și Y ca valori măsurate într-un eșantion variația lui X corespunde variației lui Y (sau nu). Ca regulă, când procedăm la o analiză de corelație lineară, vrem să determinăm cât de puternică sau intensă este relația dintre cele două variabile. Se observă că valorile extreme, dar și cele normale ale celor două variabile sunt legate între ele. Coeficientul de corelație (Pearson pentru coeficienții parametrici) măsoară gradul acestor legături. O corelație intensă între două variabile poate însemna însă și faptul că ambele sunt influențate de o a treia variabilă. Formula pentru calculul coeficientului Pearson este:

Valorile acestui coeficient se află în intervalul [-1,1]. Dacă:

r > 0, indică o legătură pozitivă între X și Y: dacă unul crește și celălalt va crește.

r < 0, indicates a negative connection: dacă unul crește, celălalt scade.

r = 0, indică lipsa legăturii.

Putem de asemenea să calculăm corelația dintre mai mult de două variabile. Fiind date trei variabile x, y și z putem defini coeficientul de corelație multiplă:

unde, spre exemplu, este definit ca:

și raportul relativ de corelație:

Dacă ry/x= Ry/xatunci se poate observa o legătură puternică, intensă și directă între variabilele implicate.

5.8.4 Rezultate

Tabel 21 Statistici descriptive

aExistă mod multiplu

Tabel 22 Matricea de corelație

**Correlation is significant at the 0.01 level (2-tailed)

*Correlation is significant at the 0.05 level (2-tailed).

Următoarele grafice (figurile 44.1-8) arată cele mai importante corelații între parametrii vocali:

Fig.44 Graficele corelațiilor

În urma analizei, înălțimea tonală TH prezintă o legătură pozitivă și puternică cu parametrul VL (timbrul vocal), (r = 0,995). Același parametru prezintă o legătură pozitivă și puternică cu UF (flexibilitatea rostirii), (r = 0.815) dar și o legătură pozitivă și mai mare ca media cu SS (viteza vorbirii), (r = 0,617) ambele la un prag de semnificație foarte bun sub p = 0,01. În cazul parametrului VL (intensitate sonoră) avem puternice corelații negative cu parametrul SF (fragmentarea vorbirii) și NWW (numărul de cuvinte eronate), (r = -0,853 și r = -0,903) și o asociere relativ medie și negativă cu parametrul UF (flexibilitatea rostirii), (r = -0,508). În același timp, parametrul derivat UF prezintă o corelație pozitivă de nivel coborât spre mediu cu variabilele NWW și SS (r = 0,464 și r = 0,422) și o corelație slabă cu parametrul SF (fragmentarea vorbirii), (r ≈ 0,300) sub un prag de semnificație p = 0,05. Același parametru denotă o legătură puternică și pozitivă cu parametrul VT, (r = 0,816). Parametrul derivat SF se observă ca având o foarte puternică legătură cu NWW (r = 0.963) și una negativă de nivel slab spre mediu (r = -0,432) cu SS (viteza vorbirii), ambele la un nivel de semnificație sub 0,01. O altă corelație semnificativă e formată între VT (timbrul vocal) și SS (viteza vorbirii), (r = 0,604). Notabile sunt și alte două corelații multiple cu o mare semnificație de grupuri de parametri derivați. Este vorba în primul rând despre clusterul în care UF este variabila dependentă iar clusterul de perechi (TH-VT), (VL-NWW) și respectiv SS sunt variabile exogene/generatoare. Al doilea grup are ca punct principal variabila dependentă SF (fragmentarea vorbirii), perechea (VL-NWW) și de asemenea parametrul independent SS. În conformitate cu valorile obținute, putem studia existența unor modele regresionale multiple pentru parametrii derivați UF și SF. De asemenea am mai determinat faptul că IE (energia informațională) corelează intens și direct cu NWW (r = 0,91) și totodată cu parametrul VL cu care este legat destul de consistent (r = 0,697). Ambele variabile endogene, independente, VL și NWW determină în procent de aproape 85% evoluția energiei informaționale IE.

5.8.5 Concluzii

Legătura pozitivă și puternică manifestată între parametrii TH (înălțime tonală) și VT (timbrul vocal) este normlă datorită faptului că înălțimea vocii este adeseori confundată cu însăși frecvența vocii și de asemenea aceasta depinde de stilistica vorbirii fiecărei persoane, ca rezultat al unui control riguros al intonației și articulării, stării fizice a organismului și în particular a tractului vocal. O altă legătură puternică este dezvoltată între VL (intensitatea sonoră) și NWW (nr. cuvinte eronate). Această corelație este negativă și ne arată faptul că, cu cât crește numărul erorilor de vorbire/rostire, cu atât este mai slabă intensitatea vocii vorbitorilor. Mai mult, perechile corelaționale (VT-SS) și (SS-TH) evidențiază relații directe și semnificative de nivel mediu, între 60÷62%. Relativ la prima pereche putem spune că aproximativ 60% din menținerea unui nivel constant al timbrului vocal se datorează unei rostiri adecvate a textului. Bineînțeles datorită relației directe și foarte puternice dintre TH și VT este normal ca intensitatea acesteia să fie parțial transferată perechii SS-TH. Deci, în acord cu perechea SS-VT o anumită viteză de rostire a textului conduce la un nivel particular de intensitate sonoră a vocii. Cu cât este mai rapidă viteza vorbirii și mai scăzut metrica rostirii cu atât mai mari sunt valorile perechii VT-TH. Relativ la parametrul derivat UF (flexibilitatea rostirii) observăm o masivă concentrare a dependenței funcționale a acestui parametru de gruparea TH-VL-NWW-VT-SS. În acest cluster parametric putem distinge cele două perechi de corelații pe care le-am analizat mai sus: TH-VT și VL-NWW. Dacă considerăm legăturadată în definiția lui UF observăm, din punct de vedere a semnului coeficienților că UF (flexibilitatea rostirii) crește în același timp cu creșterea parametrului TH (r = 0,815)și scade odată cu creșterea lui VL (r = -0,508). Deci, componentaemoțională și subiectivă a discursului este îmbunătățităprin creșterea înălțimii sunetului vocal și a timbrului vocal, în același timp cu scăderea intensității vocii. Pe de altă parte, creșterea vitezei de redare a unui text, SS, este explicată în proporție de 42÷44 % de creșterea varibilei UF, respective descreșterii fragmentării vorbirii SF. Valoarea negativă a coeficientului de corelație dintre SS și SF este în conformitate cu formula de definiție a parametrului SF. Evident că, simultan cu creșterea erorilor de vorbire, gradul de fragmentare a vorbirii cunoaște o creștere importantă.

5.9 Optimizarea transmisiei vocale prin studiul entropiei și energiei informaționale

5.9.1 Introducere

O secțiune foarte importantă în lanțul de analiză a conținutului informațional este reprezentată de înregistrarea și procesarea semnalului vocal din punct de vedere acustic ambiental cât și fonetic. Referitor strict la actul vorbirii/rostirii este importantă forma discursului, vorbirii sau a conversației, toate aceste forme ale comunicării fiind compuse din unități lexicale care generează structuri semantice exclusiv prin intermediul suportului fonetic. Această secțiune urmărește să sublinieze modul în care unele grupări parametrice vocale, care relevă un anumit grad de corelație, se oglindesc în distribuția entropiei informaționale ponderate.

Ca un indicator al asocierii dintre variabilele dependente și clusterul celor de predicție, este determinat coeficientul de corelație multiplă R. Pentru că există situații în care acest coeficient de corelație multiplă poate supraestima legătura dintre variabila dependentă și clusterul predictorilor, este utilizat coeficientul de determinație R2, cum este denumit pătratul coeficientului de corelație multiplă. Coeficientul rezidual relevă natura stochastică a răspunsului subiectiv și a oricărui alt factor din cadrul mediului comunicării care poate avea o influență asupra variabilei dependente, alții decât cei studiați aici [154]. În ceea ce privește conceptul de entropie ponderată, acesta permite diferențierea reciproc calitativă a două informații care sunt sau nu egale din punct de vedere cantitativ. Acest demers presupune atașarea la forma entropiei Shannon a unor valori obținute prin intermediul unui experiment preliminar. Această nouă valoare poate fi importantă în contextul unor măsurători individuale. În situațiile generale, entropia ponderată poate fi considerată măsură a calității informației care rezultă dintr-un anumit experiment. Prin concept de calitate se înțelege importanța și utilitatea unui rezultat. Forța unui mesaj nu constă în bogăția unei informații ci în efectele vizibile ale impactului pe care conținutul și forma acestui mesaj le produc asupra receptorului. Actul vorbirii expresive relevă dimensiunea emoțională și atitudinală a comunicării. Actul expresiv are o contribuție mai importantă decât toate celelalte acte ale vorbirii asupra controlului vorbitorilor prin imaginea individuală. Actele de expresie și mișcările reactive corespunzătoare lor interacționează reciproc și activează unele așteptări ale vorbitorilor. Răspunsurile sunt negociate și elaborate progresiv în interacție, relevând abilitățile vorbitorilor de a se reîntoarce la intențiile inițiale [155]. Utilizarea entropiei ponderate este concentrată pe identificarea și ierarhizarea tehnicilor de formulare a mesajelor vorbite în contextul unui mediu liber dar concurențial. Totodată, nivelele de corelație dintre entropia ponderată (cu ponderi generate de particularitățile textului scris) și câțiva parametri vocali este posibil să evidențieze sinergia și evoluția perechilor vorbit-scris într-un act liber de comunicare.

5.9.2 Entropia ponderată și descrierea parametrilor

Toate înregistrările audio au fost procesate și structurate într-o bază de date care conține următoarele variabile de bază prezentate în tabelul 23.

Tabel 23 Variabile de bază

* opțiunea silabe/sec. [sps]

**cuvinteincomplete, cuvinte incorrect accentuate, erori de rostire, neclarități lingvistice etc

***cuvinte eronate per minut (cepm)

Baza de date a fost completată prin determinarea și includerea valorilor entropiei informaționale ponderate pentru fiecare text rostit, în conformitate și cu ratingul acordat fiecărui vorbitor. Următorul tabel (tabel nr.24) conține parametrii derivați și entropiile ponderate:

Tabel 24 Parametri derivați si entropiile ponderate

Fragmentarea vorbirii SF este o mărime derivată, fiind considerată ca fiind un raport între NWW și SS. Este considerată ca fiind opusul fluenței vorbirii.

Flexibilitatea rostirii UF se referă la relația dintre înălțimea tonală TH și intensitatea sonoră VL în sensul evidențierii accentuării, diferențelor de semantică ori caracteristicilor emoționale ale actului vorbirii.

Densitatea informațională ID este dată ca fiind raportul dintre numărul de informații noi (sau care aduc o noutate) și toate celelalte comunicate.

Prin conceptul de entropie ponderată WE putem diferenția între ele, calitativ, două informații, egale sau nu cantitativ. Este vorba despre a atașa fiecărei informații individuale referitoare la un anumit eveniment o pondere în economia întregului conținut, pondere care poate fi tradusă ca importanță particulară, semnificație, utilitate ori câștig adus de desfășurarea evenimentului respectiv. Fiind dat un proces informațional, a cărui parametrii urmează o repartiție probabilistică 0, , și fiind date valoriledirect proporționale cu importanța evenimentelor probabilistice pk numim entropie ponderată expresia:

unde: pk probabilitatea cantității (-log pk) iar uk reprezintă importanța (utilitatea) unei unități de informație (-log pk). Dacă pentru ,α>0, α≠1:

atunci:

unde este energia informațională generalizată de ordin α [156].

5.9.3 Rezultate și discuții

Tabel 25 Valorile calculate ale entropiei ponderate

În vederea calculării entropiei ponderate Γn≡ WE, considerăm toți parametrii vocali de bază semnificativi, respectiv: VL (intensitate sonoră), SS (viteza vorbirii), NEE (nr. erori de exprimare) și NCE (nr. erori de compoziție). Cum era de așteptat, a fost evidențiată o puternică asociere între parametrii NCE și NEE, la un nivel de semnificație foarte bun, de peste 99% (tabelul 26 și fig.45-1):

Tabel 26Corelația Pearson

Fig. 45-1 Asociere între parametrii NCE și NEE

În privința parametrului NCE apare ca semnificativă relația acestuia cu variabila VL (intensitatea sonoră). De această dată, coeficientul de corelație este negativ și relativ mare r = -0,715 și este extrem de apropiat ca valoare de cel al perechii NCE-ID (r = 0,718) (tabelul 27 și fig.45-2).

Tabel 27Corelația Pearson

Același parametru, NCE stă la baza creșterii fragmentării rostirii respectiv a parametrului SF (fragmentarea vorbirii). În acest caz observăm o asociere puternică și directă a acestor două variabile, coeficientul de corelație fiind aproape 0,80. Nivelul de semnificație este p<0,01 (Tabelul 28 și figura 45-3)

Tabel 28 Corelația Pearson

Fig. 45-3 Curba de regresie

Putem de asemenea să notăm faptul că parametrul NCE corelează direct și moderat (r = 0,499) cu variabile derivată UF (flexibilitatea rostirii). Toate aceste rezultate ne conduc la ideea unei analize regresionale multiple și la o predicție locală cu ajutorul clusterului parametric concentrat pe variabila exogenă NCE. Cel mai reprezentativ model regresional în acest sens este cel în care parametrul SF este variabilă endogenă iar clusterul VL-NEE-SS-NCE este clusterul predicțional.

Fig. 45-4 Curba de regresie pentru variabila SF

În tabelul 29 avem coeficientul de determinație R2=0,991, o valoare foarte mare, care ne arată un model liniar foarte bun și care explică foarte bine variația fragmentării vorbirii, SF, depinzând de cei patru predictori într-un procent de 99%. Restul, aproximativ 1 % reprezintă influența factorilor neînregistrați, care nu sunt luați în considerare. Coeficientul de corelație multiplă r = 0,995 ne arată o corelație simultană de o intensitate foarte mare între toți cei cinci parametri. În fig. 46-4 a fost reprezentată curba de regresie pentru variabila SF.

Regresia este semnificativă, modelul este corect elaborat: F*=1444.83 > Ftheoretical la un prag de semnificație foarte bun, foarte aproape de zero, conform tabelului 30.

Coeficienții nestandardizați ne arată că atunci când erorile de exprimare NEE cresc de asemenea și nivelul SF (fragmentarea vorbirii) crește cu 0,749 puncte pe scală. Alți coeficienți de regresie au o contribuție redusă la modelul regresional. Referitor la multicolinearitate, indicele de toleranță este foarte mare, cu valori peste pragul de 0,1 iar VIF este mai mic decât 10 pentru toate valorile exogene. Singurul parametru care care afișează o valoare relativ mare pentru factorul VIF este NEE (nr. expresiilor eronate) datorită casiindependenței sale relativ la parametrul NCE (r = 0,84). Modelul regresional compus din aceste patru variabile exogene este:

Din tabelul 32 al valorilor reziduale se observă că avem o valoare medie predicționată y = 0,71±2,13 cu o valoare medie standard predicționată aproape de zero. În perspectiva identificării existenței unui model regresional centrat pe entropia informațională ponderată ca element endogen definind ,,amprenta informațională" a oricărui proces de comunicare, am procedat la identificarea și evidențierea nivelelor de corelație semnificative dintre entropia ponderată și uniiparametrii de proces (Tabelul 33):

Tabelul 33 Nivele de corelație dintre entropia ponderată și parametrii de proces

**Correlation is significant at the 0.01 level (2-tailed).

Din clusterul parametrilor vocali exogeni am înlăturat UF (flexibilitatea rostirii) datorită dependenței directe prin definiție cu parametrul TH (înălțimea tonală). Este foarte interesant faptul că entropia informațională ponderată, respectiv factorul de câștig generat prin procesul de comunicare, nu denotă o dependență sensibilă cu claritatea scrierii (r = 0,20) ori rostirea textului (r = 0,08).

Modelul regresional compus din variabila endogenă WE (entropia ponderată) și grupul variabilelor exogene TH-SS-VT este descris în cele ce urmează:

Fig. 45-5 Curba de regresie pentru variabila WE

În tabelul 34, coeficientul de corelație multiplă r = 0,995 arată o corelație directă și simultană, cu o intensitate foarte mare, între cei patru parametri. De asemenea, a fost obținut un coeficient de determinație R2 = 0,902, o valoare foarte mare care arată un model linear foarte clar. Acesta explică variația WE legată de toate cele trei variabile exogene, cu o rată de peste 90%. Restul, aproape 10%, reprezintă influența factorilor neînregistrați, care nu au fost luați în considerare pentru procesare. În figura 46-5 a fost reprezentată curba de regresie pentru variabila WE.

Din tabelul 35 se observă că regresia este global semnificativă, modelul este corect elaborat: F*=167.938 > Ftheoretical ( unde F este Testul Fisher) la un nivel foarte bun de semnificație.

Este specificat în rubrica coeficienților standardizați că variabila SS (viteza vorbirii) are cea mai mare contribuție la explicarea entropiei ponderate. Pe de altă parte, din secțiunea coeficienților nestandardizați se observă că, cu cât este mai mare viteza vorbirii cu atât este mai înalt nivelul entropiei ponderate WE, cu 0,169 puncte pe scală. Ceilalți coeficienți de regresie au o contribuție modestă la modelul regresional, fapt evidențiat și de valorile indicilor de toleranță la multicoliniaritate aflați sub 0,1 pentru variabilele TH și VT. Implicit, indicatorul de inflație a varianței VIF este peste limita de 10 unități pentru aceeași parametri. Toate aceste rezultate au condus la idea că, în fapt, parametrii TH șiVT nu sunt mutual independenți și în acest sens nu putem găsi un model regresional solid. Mai mult de atât, valorile proprii ale coliniarității sunt 0,057 și 0,07 pentru TH și respective VT și zero pentru SS. Pentru a confirma rezultatele analizei regresionale am procedat la studiul corelației parțiale dintre TH și VT, tabelul 37 și figura 45-6

Tabel 37Corelatia Pearson (TH, VT)

Fig. 45-6 Curba de regresie

Se observă foarte clar că ambele aceste variabile relevă o strânsă și directă legătură, fapt care exclude ipoteza inițială de independență asumată prin existența modelului de regresie lineară bine construit pentru variabila WE. Pentru a confirma această stare de lucruri am procedat la o analiză prin regresie simplă între parametrii SS și WE. Am găsit un coeficient de corelație r = 0,949 și un coeficient de determinație R2=0,901, fapt care relevă că aproape 90% din nivelul entropiei ponderate este generat de viteza de reproducere verbală. Prin urmare, doar 10%din structura entropică este datorată altor factori neînregistrați:

Tabel 38 Corelația Pearson

Fig. 45-7 Curba de regresie

5.9.4 Calculul energiei informaționale și corelațiile acesteia

În final s-a procedat la determinarea energiei informaționale IE pentru fiecare subiect vorbitor radiofonic, considerând toți parametrii fundamentali înregistrați în baza de date. Am identificat stările sistemului informațional cu valorile parametrilor de proces pentru fiecare subiect vorbitor în parte. Parametrii informaționali considerați au fost: TH (înălțimea tonală), SS (viteza vorbirii), NEE (nr. erorilor de exprimare), ID (densitatea informațională) și NCE (nr. erorilor de compoziție). În aceste condiții ecuația energiei informaționale este:

Am determinat că variabila parametrică IE corelează intens și direct cu parametrii NEE și NCE (r = 0,895 și r = 0,919) și de asemenea cu parametrul TH cu care este legată destul de strâns (r = 0,697). Pentru a evita multicoliniaritatea am considerat ca predictori doar parametrii de bază. Rezultatele obținute sunt prezentate în tabelul 37 și fig. 45-8:

Fig. 45-8 Curba de regresie

În tabelul anterior avem un coeficient de determinare R2=0,937, o valoare foarte mare care evidențiază un model foarte bine elaborate și care explică complet variația de energie informațională, IE, dependentă de toate cele trei variabile exogene în proporție de aproape 94%. Restul, aproape 6% relevă influența factorilor neînregistrați, care nu au fost luați în considerare.

Coeficientul de corelație multiplă, R = 0,968, evidențiază corelația simultană foarte intensă dintre toți acești patru coeficienți. În conformitate cu Tabelul ANOVA avem că regresia este global semnificativă iar modelul este bine elaborat: F*=273,512 > F theoretical la un prag de semnificație foarte bun.

Valorile coeficienților de regresie nestandardizați ne arată că atunci când numărul erorilor de exprimare și de compoziție crește, nivelul de energie informațională crește cu 18,613 și respectiv cu 12,598 puncte pe scală. Parametrul VL (intensitatea sonoră) denotă o slabă contribuție la variația de energie informațională, cu doar 2,772 puncte. Referitor la multicoliniaritate, indicatorii de toleranță au valori peste pragul de semnificație (0,1) iar VIF este mai mic decât valoarea 10 pentru toți predictorii considerați. Singurul parametru care prezintă o valoare relativ mare pentru factorul de inflație a varianței este NCE (nr. erori de compoziție) datorită cvasiindependenței sale relative la parametrul NEE (nr. erorilor de exprimare), (r = 0,841), aici având de-a face cu o situație identică cu modelul regresional al entropiei ponderate. Putem, prin urmare, să acordăm o importanță restrânsă parametrului vocal NEE, datorită relației sale de dependență cu NCE și astfel, modelul liniar regresional al IE va fi generat de doi predictori: VL (intensitatea sonoră) și NCE (nr erorilor de compoziție), conform tabelului și figurii de mai jos, table 42 și figura 45-9.

Fig. 45-9 Ecuația dreptei de regresie

Din tabel observăm că variabila exogenă NEE are o influență scăzută asupra regresiei energiei informaționale. Ambii predictori principali și independenți, VL și NCE determină în procent de aproape 85% evoluția lui IE. În același timp, valoarea foarte mare a coeficientului de corelație multiplă R = 0,921 arată că între predictor și variabila endogenă există o conexiune puternică și directă. În acest caz nu apare posibilitatea unei multicoliniarități iar ecuația dreptei de regresie este:

5.9.5 Concluzii

Acest studiu subliniază rolul pe care unele caracteristici vocale particulare, fundamentale ori derivate, îl au în îmbunătățirea suportului fizic cu care este susținut conținutul informației transmise. Determinarea și utilizarea entropiei ponderate ca indicator al nivelelor de asociere dintre parametrii studiați, este concentrată pe identificarea, descrierea și ierarhizarea formulărilor din cadrul mesajelor rostite, în contextul unui act al comunicării caracterizat prin concurență și exprimare liberă. În același timp, nivelul de corelare dintre entropia ponderată (cu ponderile în conformitate cu formularea scrisă) și unii parametri vocali este de presupus că subliniază apariția unei sinergii și evoluția perechilor scris-vorbit în actul comunicării libere. Prin intermediul corelației, al regresiei simple sau multiple, putem stabili circumstanțele care să determine coerența și consistența tiparelor regresionale dintre parametrii fundamentali și derivați și, pe de altă parte, între entropia informațională ponderată și unii parametri de proces. Astfel, putem spune că 84% din erorile de vorbire sunt datorate modului de scriere a textului. Putem concluziona că simultan cu creșterea numărului greșelilor de compoziție, erori care apar explicit doar în momentul rostirii, intensitatea vocii scade, probabil instinctual. Cu cât este mai mare numărul erorilor de scriere (deopotrivă erori gramaticale ori de logică/semantică) cu atât este mai puțin fluentă vorbirea la microfon. În perspectiva identificării unui pattern al regresiei bazată pe entropia informațională ponderată, ca un element rezultant care descrie ,,amprenta informațională" a fiecărui proces de comunicare, m-am concentrat pe determinarea și cuantificarea nivelelor de corelare semnificative dintre entropia ponderată și unii parametri ai procesului. Am descoperit că o contribuție peste medie este datorată unor caracteristici anatomice ale sistemului fonator uman, denumite înălțime tonală și timbru vocal în citirea mesajelor scrise. Astfel, deseori câștigul informațional este reprezentat de modul în care mesajul este transmis și nu neapărat de conținutul propriu-zis al informației. Mai mult, putem spune că cel mai important rol în determinarea/explicarea parametrului entropic este viteza cu care este rostit un text la microfon. Deci, prin eliminare succesivă regresională, putem afirma că, în realitate, entropia informațională ponderată corelează direct și foarte intens doar cu viteza de rostire a textului, parametru care depinde de tehnica fiecărui vorbitor în parte.

În privința energiei informaționale IE observăm că această variabilă parametrică este corelată direct și intens cu parametrii NEE și NCE (r = 0,895 și r = 0,919) iar cu variabila parametrică VL prezintă o conexiune inversă și destul de consistentă (r=0,697). În legătură cu entropia informațională ponderată, energia informațională relevă un grad relativ coborât de corelare, în raport de aproape 35%. Un fapt foarte interesant este că, deși coeficientul de regresie multiplă prezintă o valoare foarte mare, (0,921) și de asemenea pozitivă, considerând separat dubletul parametric IE și VL acestea corelează destul de consistent (r =0,697). Cele două variabile exogene, independente, VL și NCE determină în procent de aproape 85% evoluția energiei informaționale. În același timp, valoarea foarte mare a coeficientului de corelație multiplă R = 0,921 arată că între predictor și variabila endogenă are loc o relație directă și puternică.

Cap.6. Concluziifinale, contribuții originale, direcții viitoare de cercetare și diseminarea rezultatelor

În cadrul cercetării privind analiza și identificarea unor posibilități de echilibrare și optimizare a comunicării prin transfer informațional au fost dezvoltate studii pe două direcții principale:

Prima dintre aceste direcții de cercetare a vizat analizarea și generarea unui model de optimizare teoretică a expresivității comunicării prin control prozodic dinamic. Modelul de optimizare propus se încadrează în clasa modelelor nederivative, a celor folosite în situația existenței unui număr relativ mic de variabile. Algoritmul hibrid pentru optimizare cu restricții a fost elaborat mai întâi ca model teoretic de optimizare bazat pe condițiile de optimalitate Karush-Tucker-Kuhn căruia i s-a cuplat un algoritm de tip Newton amortizat. Ulterior s-a extins aplicarea, pentru cazul concret al modelului de pitch-țintă a rostirii radiofonice a unei metode de control optimal de tip dinamic.

A doua direcție principală de cercetare s-a axat pe aplicarea unor metode de analiză statistică regresională pentru determinarea modului și gradului în care corelează o serie de parametri vocali prezenți în câmpul comunicării unidirecționale de tip radiofonic. Acești parametri acustici și vocali, atât fundamentali cât și derivați, au fost tratați din punct de vedere al identificării și cuantificării gradului de interdependență, în contextul în care, inclusiv din punct de vedere prozodic și compozițional, mesajul de tip radiofonic a fost condiționat de evoluția actului comunicării într-un mediu de comunicare liber dar concurențial.

Limba guvernează parțial resursele gândirii pe care le convertește în conținut semantic dar totodată transformă, prin setul de reguli pe care îl impune, structura sonoră în expresie. Astfel, conștiința lingvistică a participantului la actul de comunicare verbală, simte fluxul sonor ca pe un complex de combinații fonice, cu valoare minimală. Sunetele generate în procesul vorbirii apar ca niște cuante sonore absolut necesare în procesul de formare a unităților lingvistice – morfeme, silabe, cuvinte, propoziții structuri frazeologice. Nu se poate vorbi despre un optim al transferului informațional în comunicarea de tip radiofonic în absența unui set referențial de parametri vocali și acustici care, împreună cu tehnici compoziționale aplicate textului și cele având ca obiectiv îmbunătățirea și adaptarea componentei prozodice a mesajului, să alcătuiască un cadru paradigmatic pentru orice demers de acest gen.

În capitolul 1– Stadiul actual al cercetărilor în domeniul Analizei Vorbirii, a fost realizat un periplu prin literatura științifică și o sinteză a celor mai importante rezultate implementate în ultimii ani, în domeniul în care au fost efectuate cercetările dar și în altele complementare. În actualitate se află încercări de a testa și elabora proceduri de segmentare aplicate la nivel de fonem din corpul textului redat prin vorbire, bazate pe o reprezentare perceptivă –Analiza spectrală a tiparelor prin excitație temporală (STEP) și tehnici dimensionale de reducere a spectrelor, de exemplu bazate pe încorporarea vecinătăților aflate într-o distribuție stochastică de tip t-Student (t-SNE).

Procesarea aspectelor prozodice ale comunicării verbale urmărește în esență identificarea unor tipare și a unor reguli care descriu evoluția în timp a elementelor care au acest tip de caracteristici, extrase dintr-un semnal vocal. În studiul modificării caracteristicilor vorbirii și a sintetizării vorbirii sunt intens utilizați algoritmi de scalare în funcție de timp ori de scalare în funcție de înălțimea sunetului. Scopul modificării vorbirii prin scalare în funcție de timp este refacerea vitezei de vorbire fără modificarea conținutului original al vorbirii.

Analiza sentimentelor/emoțiilor cuprinde alte trei subdomenii de aplicație. Detecția Emoțiilor (ED) urmărește să extragă și să analizeze emoțiile, aceste emoții putând fi implicite sau explicite în cadrul propozițiilor. Transferul de cunoștințe TL (Transfer learning) se concentrează pe analizarea datelor dintr-un domeniu și apoi folosirea rezultatelor în alt domeniu. Construirea Resurselor BR (Building Resources) vizează crearea unui fond lexical, respectiv a unui corpus în care exprimările opiniilor sunt adnotate conform polarității pe care le induc, mergând până la elaborarea unor dicționare specializate. Una dintre cele mai interesante și de actualitate metode de transformare a caracteristicilor mesajului în sensul biunivocității dependențelor dintre caracteristicile cuvintelor rostite și cele ale textului este metoda LSI (Latent Semantic Indexing). Metoda LSI transformă spațiul textului într-un nou sistem de axe care este o combinație liniară între caracteristicile originale ale cuvintelor. Tehnica PCA (Analiza Componentelor Principale) este cea mai potrivită pentru atingerea acestui obiectiv. Prin aplicarea tehnicii PCA se determină un sistem de axe realizat astfel încât să rețină cel mai ridicat nivel de informație generat de variația valorilor atributelor expresiilor utilizate în comunicare. Principalul dezavantaj al metodei LSI este faptul că este o tehnică nesupervizată care nu poate percepe distribuțiile de bază generate. Din familia metodelor FS, de selecție a caracteristicilor, mai fac parte modelele HMM și LDA (Latent Dirichlet Allocation). Mai multe studii recente se axează pe utilizarea caracteristicilor unor metode de tip Rețele neuronale de adâncime (Deep Belief Networks – DBN) care conțin straturi succesive de variabile latente ce conțin conexiuni între straturi dar nu și între variabile, pentru a estima probabilități de tip posteriori asociate fonemelor și apoi atribuind limite intervalelor în se care manifestă incertitudini în procesul de identificare – clasificare

În actualitate se află încercări de a testa și elabora proceduri de segmentare aplicate la nivel de fonem din corpul textului redat prin vorbire, bazate pe o reprezentare perceptivă –Analiza spectrală a tiparelor prin excitație temporală (STEP) și tehnici dimensionale de reducere a spectrelor. În corespondență cu alte studii realizate prin segmentarea nivelelor fonematice se preferă deseori utilizarea corpusului acustico-fonetic de vorbire continuă TIMIT.

În cadrul capitolului 2- Tehnici de analiză în Speech recognition și Data mining au fost tratate o serie de metode și algoritmi care s-au impus în domeniile Speech Recognition și Data Mining. Modelul fonetic are rolul de a cupla modelul acustic (cel care estimează probabilitățile acustice ale fonemelor) cu modelul lingvistic (cel care estimează probabilitățile secvențelor de cuvinte). Deseori modelul fonetic este un dicționar de pronunție care asociază fiecărui cuvânt din vocabular una sau mai multe secvențe de foneme (senone) adecvate, reprezentând modul în care se poate pronunța respectivul cuvânt. Cu toate că algoritmii de adaptare pentru vorbitori au progresat mult în ultimii ani, adaptabilitatea și robustețea sistemelor de SR pentru recunoașterea de voci diferite este încă foarte limitată. În cazul Metodei de reducere bazate pe Entropia Relativă, problema cea mai mare este dată de selectarea secvențelor pentru eliminare astfel încât entropia relativă – distanța, să fie minimă. În ipoteza că entropia este afectată de diverse secvențe în mod independent, se poate calcula distanța pentru fiecare secvență și se poate realiza o listă ordonată după care să urmeze eliminarea acelor secvențe care aduc cele mai mici modificări entropiei relative.

Intonația este o caracteristică acustică importantă a semnalelor vocale dată de variația frecvenței fundamentale și depinde de modalitatea în care vorbitorul realizează frazarea și accentuarea cuvintelor. Implementarea intonației în procesarea vocală este bazată pe generarea automată a amprentei sonore corespunzătoare rostirii unui text, pe baza unor modele de intonație care pun în corespondență structura morfo-sintactică și conținutul semantic al textului cu un set de pattern-uri la nivelul frecvenței fundamentale. Modelele intonaționale care consideră conturul frecvenței fundamentale ca o secvență de evenimente elementare intonale s-au dezvoltat în principal din două motive: necesitatea de adnotare prozodică a corpusurilor de voce respectiv predicția și generarea conturului frecvenței fundamentale în procesarea vocii. Adnotarea prozodică efectuează descrieri fonetice și fonologice pentru evenimentele prozodice care dau semnificație conturului intonațional.

Dintre metodele Data Mining existente, în contextul temei de cercetare, atrag atenția metodele de descoperire și extragere a regulilor de asociere. Aceste metode sunt utilizate frecvent în analiza unor cantități masive de date în special pentru a elabora modele de risc și selectarea de strategii. Deoarece extragerea regulilor de asociere poate necesita parcurgerea unei baze de date tranzacționale în mod repetat pentru a găsi tipare de asociere, timpul de procesare poate crește foarte mult și prin urmare îmbunătățirea performanței este o preocupare esențială în scopul extragerii tipurilor de reguli.

Algoritmii hibrizi rețin cele mai bune proprietăți ale diferitelor metode pentru a rezolva, în manieră cât mai eficientă, diferite probleme. În acest scop a fost proiectată o serie largă de algoritmi care au ca suport teoria Bayesiană, fie că este vorba de hibridizări la nivelul căutării celei mai verosimile ipoteze, fie că este vorba de combinarea cu arborii de decizie sau mașinile cu suport vectorial. Un algoritm hibrid eficient este algoritmul de clasificare numit NB-Tree, utilizat la clasificarea unui set de înregistrări. Acesta este compus dintr-o structură de arbore de decizie având unul sau mai multe noduri de decizie și unul sau mai multe noduri frunză. În fiecare nod de decizie se efectuează un test pe baza unor atribute. În fiecare nod frunză un clasificator bazat pe raționamentul Bayesian clasifică înregistrările. Totodată algoritmul este pretabil la baze de date extrem de mari unde interpretabilitatea unui clasificator este importantă. În practică, NB-Tree sunt tot mai prezenți în bazele de date și, în general, surclasează arborii de decizie sau CNB luați independent.

Una dintre cele mai importante activități de cercetare s-a concentrat asupra unor capitole speciale de acustică și teoria propagării sunetelor. S-a analizat calitatea fizică a transferului informațional în mediul on air funcție de diferiți factori de mediu, ai parametrilor de streaming audio și caracteristicile fonetice particulare ale factorului uman. Ca fenomen acustic, limbajul se prezintă sub forma unor secvențe continue de sunete, sau continuuri fonice, separate prin intervale. În vederea realizării unui sistem integrat de înregistrare și analizare a parametrilor de voce, sistemul trebuie să identifice caracteristicile fizice ale subiectului-sursă în timp real. S-a evidențiat posibilitatea studierii corelației statistice dintre mărimile acustice/fonetice și nivelele semantice ale mesajului la receptor/ascultător.

În capitolul 3- Transmisia informației în mediul radiofonic a fost, în primul rând, evidențiat gradul sporit de interes în prezent pentru accesarea informației, dar și tendința pentru creșterea cantității, calității și vitezei de transmisie a acesteia. Limbajul verbal reprezintă principala formă de comunicare interumană. Optimizarea acestui tip de transfer informațional, indiferent de caracterul său unidirecțional sau biunivoc, trebuie să se conformeze rigurozității presupuse de criteriile comunicării radiofonice.

În radio sunt preferate, din motive radiogenice, voci cu tonalități de frecvență medie, considerate a fi mai inteligibile. ,,Vocea de piept" care se formează în torace, la nivelul sternului, prezintă tonalități plăcute și de aceea este preferată în radiofonie. Spre diferență, ,,vocea de gât" prezintă tonalități mai înalte și poate afecta în mod neplăcut auzul. În radiofonie vocea se testează prin imprimare, deoarece s-a constatat că ea suferă o anumită transformare atunci când este prelucrată de lanțul de procesare electronică.

Radioul este cotat ca fiind cel mai rapid canal de comunicare în masă, datorită vitezei în prelucrare și a timpului scurt consumat de la obținerea informației până la emisie. În altă ordine de idei, ascultătorul trebuie să simtă că lui i se transmite un conținut. În primul rând, mesajul transmis și receptat, trebuie să fie corect, coerent și dinamic din punct de vedere gramatical dar și stilistic. În al doilea rând, nu există doar un singur mod preferabil de a citi sau prezenta un text, universal valabil.

Dincolo de parametrii prozodici ai comunicării, un parametru important în procesul rostirii de tip radiofonic este ritmul redării și viteza cu care este comunicat un text. Viteza aleasă trebuie să fie adecvată conținutului și genului mesajului transmis, deoarece nepotrivirile dau senzația de artificial și neprofesional. Pauzele în procesul rostirii marchează ritmul acesteia și subliniază ideile mai importante, lăsând totodată timp ascultătorului/interlocutorului pentru a înțelege și a concepe un răspuns, interior sau explicit. De asemenea accentuarea cuvintelor cheie dar și transmiterea componentei emoționale nu trebuie să depășească anumite limite. Analiza structurii unui sunet permite obținerea unui spectru caracteristic fiecărei surse (amprenta sonoră). Această proprietate permite recunoașterea persoanelor după voce. În general, un semnal vocal este considerat a fi muzical atunci când în sursa fonatorie se formează unde staționare, sunetele emise fiind periodice.

Rostirea reprezintă o dimensiune afectivă dar și una atitudinală a comunicării. Vorbitorii exprimă un spectru cât se poate de diversificat de atitudini sau stări psiho-emoționale ce țin de la simpatie, apreciere, aprobare dar și antipatie ori indignare. De asemenea exprimarea verbală reflectă și un grad al implicării subiective, nuanțate a locutorului în speech. De asemenea, actele vorbirii expresive angrenează o serie de mișcări reactive ori cel puțin creează premisele unor conținuturi de acest tip, din partea auditoriului.

În capitolul 4 – Optimizarea transferului informațional a fost analizată noțiunea de informație, ca unitate reprezentativă transmiterii de mesaje în cadrul procesului de comunicare. Informația reprezintă o categorie de maximă generalitate, conținând diverse sensuri în strânsă dependență de perspectivele din care este considerată. În general, informația presupune o interacțiune, reală sau teoretică, de tip comunicațional ce survine între o sursă emitentă și un destinatar receptor, datorită conceptului de predictibilitate a semnalelor sau simbolurilor prin care se transmite un mesaj dar și datorită asimilării informației cu o mărime matematică care exprimă incertitudinea înlăturată prin realizarea unui eveniment comunicațional (semnal, simbol, mesaj etc.), dintr-un set de evenimente comunicaționale posibile.

Algoritmul hibrid de optimizare propus în acest capitol se încadrează în clasa modelelor nederivative, a celor folosite în situația existenței unui număr relativ mic de variabile. Aceste metode sunt bazate pe construcția unui șir de puncte de-a lungul căruia valorile funcției de minimizat se reduc. Acestea sunt caracterizate de faptul că algoritmul corespunzător de determinare a minimului se bazează doar pe valorile funcției obiectiv, fără a se încerca o procedură de estimare în vreun sens și a utiliza informațiile asupra derivatei acestei funcții pentru a determina o direcție de descendență.

Un sistem complex de transfer informațional nerepetitiv, nu poate fi supus, în ansamblu experimentării. În plus, de multe ori sunt necesare una sau mai multe ecuații sau inecuații care exprimă faptul că variabilele controlabile pot varia numai între anumite limite. Funcția criteriu împreună cu restricțiile constituie modelul sistemului și în același timp problema pe care dorim să o rezolvăm. Prin urmare, acesta este atât un model al sistemului, cât și un model de decizie. O dată modelul constituit, el poate fi utilizat pentru a găsi exact sau aproximativ valorile optime ale variabilelor controlabile – adică acele valori care asigură cea mai bună performanță a sistemului, pentru anumite valori specificate ale variabilelor necontrolabile. În acest fel, se obține o soluție a problemei cu ajutorul modelului.

În Opinion Mining și Sentiment Analysis este o sarcină dificilă să transformi discursul neutru într-un discurs emoțional deoarece cel de-al doilea implică aspecte variate precum intonația, pauzele, viteza rostirii și intensitatea acesteia. Începând cu foarte mici deviații standard ale mediilor duratei și intensității silabelor, se pot găsi distribuții clare ale vitezei de rostire și intensității în funcție de diferite tipuri de emoții. Pentru acești parametri se poate folosi metoda modificării raportului liniar. Metoda este utilă pentru conversia conturului lui F0 în condiții de prezență a emoțiilor. Este de asemenea de subliniat că fluctuația frecvenței F0 reprezintă un parametru important pentru abordarea vorbirii emoționale.

Parametrii funcției de conversie sunt determinați de densitatea comună dintre caracteristicile sursei și ale țintei. S-a demonstrat în unele studii că densitatea comună generează rezultate mai bune decât densitatea sursei. Aceasta poate conduce la o mai bună alocare a componentelor mixtului Gaussian și evită problemele legate de posibilitățile de cuantificare.

Interacțiunea prin comunicare este formată dintr-o mulțime de modalități sau tehnici de exprimare succesive, efectuate de către partenerii prezenți în spațiul comunicațional. Aceste structuri de exprimare sunt realizate după anumite reguli contextual apriori stabilite, dar care totodată, trebuie să răspundă intereselor partenerilor de comunicare, interese care pot fi aceleași sau diferite, uneori chiar contradictorii. În cadrul acestei secțiuni au fost identificate mecanisme matematice și posibilități de elaborare a unor soluții implementabile în zona software pentru sesizarea în timp real, prin intermediul conceptelor de entropie ponderată, repartiție maximizatoare ori beneficiu maxim, a modalității de îmbunătățire a procedeelor și parametrilor de comunicare individuali. Împreună cu etapele de monitorizare și control adecvat distribuite, aceste soluții care se întrevăd ca fiind posibil de materializat vor putea fi utilizate cu succes în scopul creșterii șanselor de transfer optim a mesajului informațional util.

În capitolul 5 – Metode de analiză statistică a informației, pentru analiza din câmpul comunicării de tip radiofonic, s-a recurs la studierea principalilor parametri care descriu semnalele vocale din punct de vedere al eficienței transferului de conținut informațional. S-a analizat calitatea fizică a transferului informațional în mediul ,,on air" funcție de parametrii streamingului audio dar și de caracteristicile fonetice particulare ale factorului uman. Prin aplicarea analizei statistice s-a urmărit identificarea și cuantificarea nivelului de corelare a parametrilor acustici cu cei vocali și impactul pe care prezența acestei intercorelări îl poate avea asupra optimizării structurilor comunicaționale.

Conform analizelor statistice, respectiv valorilor de corelație dintre parametrii principali implicați în actul vorbirii și transmisia radiofonică, se remarcă o legătură multiplă consistentă între variabilele IV (înțelegere_vorbire), FSV (frecvență_vorbire) și respectiv VR (viteză_rostire). În privința variabilei FSV (frecvență_vorbire) se distinge un coeficient de corelație pozitiv (r = 0,617) cu variabila VR (viteza_rostirii). Coeficientul de corelație atestă o legătură de intensitate medie sub un prag de semnificație foarte bun p = 0,01. Dacă se consideră că dintre cele două, variabila FSV este cea dependentă, atunci acesta este explicată în procent de 38% de variabila VR. În continuare, variabila IS (intensitate_voce) prezintă două puternice asocieri cu variabilele DI (densitate_informațională) r = 0,995 și respectiv NEV (nr_erori_vorbire) r = 0,903. Regresia liniară multiplă (RLM), prin Metoda celor mai mici pătrate, este metoda de modelare cea mai des utilizată pentru determinarea și evidențierea interdependențelor dintre diverși parametri de proces. Prin utilizarearegresiei multiple se încearcă identificarea relațiilor dintre o variabilă dependentă (exogenă) și un număr de variabile independente (predictori). În ansamblu, legătura dintre perechea de variabile pseudoindependente VR-FSV și variabila dependentă IV, determinată prin RLM, este una foarte intensă ( R = 0,917), la un prag de semnificație foarte bun < p = 0,01. Acest lucru arată că perechea VR-FSV explică/determină 83,6% din IV (înțelegerea vorbirii), ceea ce se traduce prin faptul că în procesul transmisiei, acuratețea receptării conținutului informațional este influențată major atât de frecvența sonoră a rostirii cât mai ales de viteza cu care este comunicat mesajul vocal.În privința celui de-al doilea cluster parametric, analiza prin RLM a pus în evidență faptul că 99% din DI (densitatea informațională) este explicată de variabilele independente IS (intensitatea sonoră a vorbirii) și NEV (numărul erorilor de vorbire). Nivelurile de semnificație pentru testul t se află sub 0,01 și respectiv sub 0,05 atestând faptul că perechea de variabile independente IS-NEV (intensitate_sonoră_voce–nr._erori_vorbire) influențează consistent variabila DI (densitate_informațională). Se observă că semnele coeficienților de corelație DI-IS și DI-NEV sunt diferite, ceea ce înseamnă că au trenduri de asociere diferite. Valoarea efectivă explicată a densității informaționale DI de către perechea IS-NEV este de 98%. Acest rezultat exprimă fără echivoc faptul că atât intensitatea sonoră a vocii cât și numărul de erori produse pe parcursul procesului de transmitere a unui conținut ,,on-air" influențează substanțial calitatea exprimării și impactul pe care mesajul comunicat îl poate avea asupra auditoriului.

Determinarea și utilizarea entropiei ponderate ca indicator al nivelelor de asociere dintre parametrii studiați, este concentrată pe identificarea, descrierea și ierarhizarea formulărilor din cadrul mesajelor rostite, în contextul unui act al comunicării caracterizat prin concurență și exprimare liberă. În același timp, nivelul de corelare dintre entropia ponderată (cu ponderile în conformitate cu formularea scrisă) și unii parametri vocali este de presupus că subliniază apariția unei sinergii și evoluția perechilor scris-vorbit în actul comunicării libere. Prin intermediul corelației, al regresiei simple sau multiple, putem stabili circumstanțele care să determine coerența și consistența tiparelor regresionale dintre parametrii fundamentali și derivați și, pe de altă parte, între entropia informațională ponderată și unii parametri de proces. Astfel, putem spune că 84% din erorile de vorbire sunt datorate modului de scriere a textului. Putem concluziona că simultan cu creșterea numărului greșelilor de compoziție, erori care apar explicit doar în momentul rostirii, intensitatea vocii scade, probabil instinctual. Cu cât este mai mare numărul erorilor de scriere (deopotrivă erori gramaticale ori de logică/semantică) cu atât este mai puțin fluentă vorbirea la microfon. În perspectiva identificării unui pattern al regresiei bazată pe entropia informațională ponderată, ca un element rezultant care descrie ,,amprenta informațională" a fiecărui proces de comunicare, m-am concentrat pe determinarea și cuantificarea nivelelor de corelare semnificative dintre entropia ponderată și unii parametri ai procesului.

În privința energiei informaționale IE observăm că această variabilă parametrică este corelată direct și intens cu parametrii NEE și NCE (r = 0,895 și r = 0,919) iar cu variabila parametrică VL prezintă o conexiune inversă și destul de consistentă (r=0,697). În legătură cu entropia informațională ponderată, energia informațională relevă un grad relativ coborât de corelare, în raport de aproape 35%. Un fapt foarte interesant este că, deși coeficientul de regresie multiplă prezintă o valoare foarte mare, (0,921) și de asemenea pozitivă, considerând separat dubletul parametric IE și VL acestea corelează destul de consistent (r =0,697). Cele două variabile exogene, independente, VL și NCE determină în procent de aproape 85% evoluția energiei informaționale. În același timp, valoarea foarte mare a coeficientului de corelație multiplă R = 0,921 arată că între predictor și variabila endogenă are loc o relație directă și puternică.

Am mai descoperit că o contribuție peste medie este datorată unor caracteristici anatomice ale sistemului fonator uman, denumite înălțime tonală și timbru vocal în citirea mesajelor scrise. Astfel, deseori câștigul informațional este reprezentat de modul în care mesajul este transmis și nu neapărat de conținutul propriu-zis al informației. Mai mult, putem spune că cel mai important rol în determinarea/explicarea parametrului entropic este viteza cu care este rostit un text la microfon. Deci, prin eliminare succesivă regresională, putem afirma că, în realitate, entropia informațională ponderată corelează direct și foarte intens doar cu viteza de rostire a textului, parametru care depinde de tehnica fiecărui vorbitor în parte.

Printre posibilele direcții de cercetare viitoare în domeniul sau conexe temei tezei, se distinge, în primul rând, construirea unui model de răspuns la transferul informațional dedicat, centrat pe identificarea și adaptarea unui operator simetric care să răspundă perfect cerințelor axiomatice ale Principiului Min-Max.

O altă direcție de cercetare poate viza multiplicarea analizelor de corelație și regresie pentru serii de alți parametri acustici și vocali, în scopul creării unei baze de cunoștințe care să conțină cât mai multe astfel de modele standard. Lărgirea bazei analitice prin coroborarea parametrilor prozodici vocali cu particularitățile suportului scris, inclusiv cele care țin de stilistica textului. De asemenea, pentru studiile viitoare privind asocierile dintre acești parametri informaționali, inclusiv caracteristicile care țin de componenta volitiv-emoțională, se poate crea un modul de procesare preliminară a recepției mesajelor vocale, care, pe baza unor valori de prag validate prin atestarea modelelor regresionale, să semnaleze nivelul de impact transmis de sursă.

Diseminarea rezultatelor s-a realizat prin realizarea, prezentarea și/sau publicarea unui număr de 11 lucrări științifice, după cum urmează:

Lucrări ISI:

Descriptive Statistics and Cross Correlation of Some Vocal and Acoustic Parameters Involved in Live Broadcastig, Ghisa, V.E., Moraru, S.A., Journal of Science and Arts, Year 15, No. 2(31), pp. 191-198, 2015, ISBN 1844-9581, eISSN 2068-3049,Thomson Reuters, Web of science

Relevance of joining process between variables of data communication and weighted entropy levels,Ghișa, V.E., Moraru, S.A., Belc, M., Journal of Science and Arts JOSA, Year 15, No.3(32),pp. 285-294, 2015, ISBN 1844-9581, eISSN 2068-3049, Thomson Reuters, Web of science

Lucrări BDI:

Informational synergy features in live broadcasting, Ghisa, V.E., Moraru, S.A., Kristaly, D.M., Speech Technology and Human-Computer Dialogue (SpeD), 2015 International Conference on , Bucuresti, 14-17 Oct. 2015, INSPEC Accession Number:15650270, IEEE Xplore Digital Library, IEEE Catalog Number CFP 1555H-DVD, ISBN 978-1-4673-7

Linear Regression Processing Applied on Some Vocal Features in Direct Communication Processes, Ghisa, V.E., Moraru, S.A., Kristaly, D.M., Speech Technology and Human-Computer Dialogue (SpeD), 2015 International Conference on , Bucuresti, 14-17 Oct. 2015, IEEE Conference, Romanian Academy, IEEE Catalog Number CFP 1555H-DVD, ISBN 978-1-4673-7

Intelligent Computation in Industrial Measures Management System, Moraru, S.A., Kristaly, D.M., Badea, M., Ghisa, V.E., Congress on Information Technology, Computational and Experimental Physics(CITCEP 2015), Polish Academy of Science, Cracovia, 2015

The importance of vocal parameters correlation for information processes modeling, Journal of Defense Resources Management JoDRM, Ghișa, V.E., Ghișa, L.N., ISSN 2058-9403, eISSN 2247-5466, vol.7, issue 1(12) (articol acceptat pentru publicare)

Cărți:

Optimizarea proceselor informaționale, Ghișa V.E., Ed. Universității Transilvania din Brașov, 2012, ISBN 978-606-19-0068-8

Alte lucrări realizate și prezentate la manifestări internaționale:

Relevance of joining process between variables of data communication and weighted entropy levels, Ghișa V.E., Belc M., Moraru S.A., The 15th International Balkan Workshop on Applied Physiscs, 2-4 July 2015, Constanța, Romania

The importance of vocal parameters correlations in the modeling of informational processes, Ghișa V.E., Belc M., Moraru S.A., The 15th International Balkan Workshop on Applied Physiscs, 2-4 July 2015, Constanța, Romania

Building the software for a behavioural monitoring system for elderly, Moraru, S.A., Kristaly, D.M, Ghișa, V.E., New Trends on Sensing –Monitoring-Telediagnosis for Life Sciences, 3-5 Sept. 2015, Brașov, Romania

Developing a tablet application for stimulating the social engagement of ederly, Kristaly, D.M, Moraru, S.A., Ghișa, V.E., New Trends on Sensing –Monitoring-Telediagnosis for Life Sciences, 3-5 Sept. 2015, Brașov, Romania

Bibliografie

[1] Ferdinand de Saussure, Curs de lingvistică generală, Iași, Editura Polirom, 1998

[2] Acad. Corlățeanu, Nicolae, Vladimir Zagaevschi, Fonetică, Chișināu, Editura Lumina, 1993

[3] Van Cuilenburg, J.J., O.Scholten, G.W. Noomen, Știința comunicării, Humanitas, București, 2000

[4] V. Digalakis, J.R. Rohlicek, M. Ostendorf, ML estimation of a Stochastic Linear System with the EM Algorithm and its application to Speech Recognition, IEEE Transactions on Speech and Audio Processing, 1(4): 431-442, 1993

[5] Y. Bengio, P. Lamblin, D. Popovici, and H. Larochelle. Greedy layer-wise training of deep networks. In NIPS, 2006

[6] L.J.P. van der Maaten and G.E. Hinton, Visualizing High-Dimensional Data Using t-SNE. Journal of Machine Learning Research 9 (Nov) : 2579-2605, 2008

[7] http://www.etti.tuiasi.ro/cercetare/cerfs/images/lucrari/referat2.pdf

[8] Wright, J. Articulation index (Tech. Rep.). Linguistic Data Consortium, Philadelphia, 2005

[9] Shobaki, K., Hosom, J. P. and Cole, R., CSLU: Kids` Speech Version 1.1, Linguistic Data Consortium, Philadelphia, 2007

[10] Liberman, Mark, et al. Emotional Prosody Speech and Transcripts, Philadelphia: Linguistic Data Consortium, 2002

[11] C. Jankowski et al. 1990. NTIMIT: A Phonetically Balanced, Continuous Speech, Telephone Bandwidth Speech Database. In Proc. of ICASSP, pages 109–112

[12] Martin, Alvin, and Mark Pryzbocki. 2003 NIST Language Recognition Evaluation LDC2006S31. Web Download. Philadelphia: Linguistic Data Consortium, 2006

[13] Stan, A., Yamagishi, J., King, S., & Aylett, M. 2011. The Romanian Speech Synthesis (RSS) corpus: building a high quality HMM-based speech synthesis system using a high sampling rate. Speech Communication, 53(3), 442-450

[14] http://www.buet.ac.bd/icece/pub2004/P141.pdf

[15] Rabiner, Lawrence R. and Juang, B.H. Statistical Methods for the Recognition and Understanding of Speech. Rutgers University and the University of California, Santa Barbara; Georgia Institute of Technology, Atlanta, 2004

[16] R. Elbarougy and M. Akagi, “Improving Speech Emotion Dimensions Estimation Using a Three-Layer Model for Human Perception,” Acoustical Science and Technology, 35, 2, 86–98, 2014

[17] Reynolds, D. A., Automatic speaker recognition using Gaussian mixture speaker models, Lincoln Lab. J. 8 (1996), 173–192

[18] L. Burget, P. Matejka, H. Valiantsina, and J. Honza, "Investigation into variants of Joint Factor Analysis for Speaker Recognition," in Interspeech 2009, Brighton, 2009, pp. 1263-1266

[19] Scholkopf, B., Smola, A., Williamson, R. C., & Bartlett, P. (2000). New support vector algorithms. Neural Computation, 12, 1207–1245.

[20] J. Ming, D. Stewart, and S. Vaseghi, “Speaker identification in unknown noisy conditions – a universal compensation approach,” Proc. of ICASSP, March 2005

[21] Reynolds, D.A., Quatieri, T.F., Dunn, R.B.: Speaker Verification Using Adapted Gaussian Mixture Models. Digital Signal Processing 10(1) (2000) 19–41

[22] Ting-Yao Wu, Lie Lu, Ke Chen, Hong-Jiang Zhang, Universal Background Models For Real-time Speaker Change Detection,  Tingyao Wu, Apr. 2014

[23] A. Rakotomamonjy, F. Bach, S. Canu, and Y. Grandvalet. More efficiency in multiple kernel learning. In ICML, pages 775–782, 2007

[24] Robert A.J. Clark, Korin Richmond, and Simon King, “Festival 2 – build your own general purpose unit selection speech synthesiser”, In Proc. 5th ISCA workshop on speech synthesis, 2004.

[25] G. Beller. Gestural control of real-time concatenative synthesis in luna park. In P3S (Performative Speech and Singing Synthesis), 2011

[26] Chu S, Keogh E, Hart D, Pazzani M, Iterative deepening dynamic time warping for time series. In: Proceedings of the 2nd SIAM international conference on data mining, 2002

[27] https://sites.google.com/site/readtextextension/home/announcements/espeakforwindows

[28] T. Dutoit and H. Leich. MBR-PSOLA: Text-to-speech synthesis based on an MBE re-synthesis of the segments database. Speech Communication, 1993

[29] http://developer.ivona.com/en/speechcloud/introduction.html

[30] Thielemann, Henning "Untangling phase and time in monophonic sounds". Journal of Signal and Information Processing 1 (1): 1–17, 2010

[31] Bonada, Jordi. “High quality voice transformations based on modeling radiated voice pulses in frequency domain.” Proc. Digital Audio Effects (DAFx), 2004

[32] Bozkurt, B.,  Dutoit, T. ; Prudon, R. ; d'Alessandro, C.,  Improving quality of MBROLA synthesis for non-uniform units synthesis, Speech Synthesis, 2002. Proceedings of 2002 IEEE Workshop on Sept. ISBN 0-7803-7395-2, 2002

[33] F. Previdi and M. Lovera, “Identification of a class of nonlinear parametrically varying models,” Int. J. Adapt. Control Signal Process., vol. 17, pp. 33–50, 2003

[34] X. Huang and A. Acero, H. Hon,” Spoken Language Processing: A Guide to Theory, Algorithm, and System Development”, Prentice Hall, 2001

[35] Huan Zhao and Wenjie Gan, A New Pitch Estimation Method Based on AMDF, Journal of multimedia, vol. 8, no. 5, october 2013

[36] http://web.stanford.edu/dept/linguistics/corpora/material/PRAAT_workshop_manual421.pdf

[37] L. Tan, B. Borgstrom, and A. Alwan, “Voice activity detection using harmonic frequency components in likelihood ratio test,” in Proc. ICASSP, 2010, pp. 4466–4469

[38] McLeod. P, Wyvill. G, “Visualization of Musical Pitch”, Proc. Computer Graphics International, Tokyo, Japan, July 9-11, 2003, pp 300- 303

[39] Akeroyd, M. A., and Summerfield, A. Q. ,,A fully-temporal account of the perception of dichotic pitches," Br. J. Audiol. 2000, p.106–107

[40] Strapparava and R. Mihalcea (2008), “Learning to Identify Emotions in Text,” in Proc. 2008 ACM Symposium on Applied Computing, New York, NY, 1556– 1560

[41] B. Pang and L. Lee (2008), “Opinion Mining and Sentiment Analysis,” in Foundations and Trends in Information Retrieval, 2(1-2):1–135

[42] N. Amir, “Classifying emotions in speech: A comparison of methods,” in Proc. Eurospeech. Holon, Israel, 2001, pp. 127–130

[43] Y. Chen et al., “Voice conversion with smoothed GMM and map adaptation,” in Proc. Eurospeech, Geneva, Switzerland, 2003, pp. 2413–2416

[44] Y. Kang, Z. Shuang, J. Tao, W. Zhang, and B. Xu, “A hybrid GMM and codebook mapping method for spectral conversion,” in Proc. 1st Int. Conf. Affective Comput. Intell. Interaction, 2005, pp. 303–310

[45] Elvira Mendoza, Nieves Valencia1, Juana Muñoz1, Humberto Trujillo, Differences in voice quality between men and women: Use of the long-term average spectrum (LTAS), Journal of Voice, Volume 10, Issue 1, 1996, Pages 59–66

[46] M. Coman, Manual de Jurnalism,Tehnici fundamentale de redactare, Ed. Polirom, Buc., 1999

[47] Jelinek, F., Statistical Methods for Speech Recognition, MIT Press, 1997

[48] Odell, J.J., The Use of Context in Large Vocabulary Speech Recognition. University of Cambridge, England dissertation, 1995

[48a] Cucu H., Buzo A., Caranica A., Burileanu C., On formatting transcriptions of Romanian Speech, Rev. Téc. Ing. Univ. Zulia. Vol. 38, Nº 3, 1 – 11, 2015

[48b] Serban A., Proiect de diploma: Serviciu web de transcriere automată a știrilor difuzate la radio, Conducător știintific Lect. Cucu H., 2014

[49] Rabiner, L.R., & B.-H., Juang, Fundamentals of Speech Recognition, Prentice Hall Signal Processing Series 1993

[50] Jurafsky, D., Martin, J. H.,“Speech and language processing, An introduction to Natural language Processing”, Computational Linguistics and Speech Recognition, Prentice Hall, 2000

[51] Huang, X., Acero, A., Hon, H., ,,Spoken Language Processing", A Guide to Theory, Algorithm & System Development”, Prentice Hall, 2001

[52] Y. Minami, E. McDermott, A. Nakamura, and S. Katagiri, “A theoretical analysis of speech recognition based on feature trajectory models, in Proc. Interspeech, Jeju, Korea, Oct. 2004, pp. 549–552.

[53] Ashwin Bellur, K Badri Narayan, Raghava Krishnan K, Hema A Murthy, “Prosody modeling for syllable based concatenative speech synthesis of Hindi and Tamil”, in National conference on Communications, Jan 2011, pp 28-30

[54] Nicolas Obin, Xavier Rodet and Anne Lacheret Dujour,”A multi-level context-dependent prosodic model applied to duration modeling”, in the tenth annual conference, Inerspeech, France, 2009

[55] Vivek Kumar Rangarajan Sridhar, Srinivas Bangalore, and Shrikanth S. Narayanan,”Exploiting acoustic and syntactic features for automatic prosody labeling in a maximum entropy framework”, in Inernational Journal of Audio, Speech and Language processing, Volume 16, pp,797-811, May 2008

[56] Dimitris Spiliotopoulos, Gerasimos Xydas, and Georgios Kouroupetroglou,, Diction Based Prosody Modeling in Table-to-Speech Synthesis”, in LNAI 3658, pp. 294–301, 2005

[57] Dede, G. and Sazli, M. H., Speech Recognition with Artificial Neural Networks., Digital Signal Processing, 2010

[58] Jasper Snoek, Hugo Larochelle, and Ryan Prescott Adams, Practical bayesian optimization of machine learning algorithms, in Advances in Neural Information Processing Systems 25, pages 2960–2968, 2012

[59] Ilya Sutskever, James Martens, and Geoffrey E. Hinton. Generating text with recurrent neural networks. In Lise Getoor and Tobias Scheffer, editors, Proceedings of the 28th International Conference on Machine Learning, pages 1017–1024, New York, NY, USA, June 2011, ACM. ISBN 978-1-4503-0619- 5

[60] Sarawagi, S., Thomas, S., and Agrawal, R., Integrating association rule mining with relational database systems: alternatives and implications. Data Mining and Knowledge Discovery, 4, pp. 89–125, 2000

[61] Hand, D.J., Blunt, G., Kelly, M.G., and Adams, N.M.,Data mining for fun and profit. Statistical Science, 15, pp. 111–131, 2000

[62] Z. H. Deng and S. L. Lv. Fast mining frequent itemsets using Nodesets,  Expert Systems with Applications, 41(10): 4505–4512, 2014

[63] Balázes Rácz. Nonordfp: An FP-Growth Variation without Rebuilding the FP-Tree, 2nd Int'l Workshop on Frequent Itemset Mining Implementations FIMI 2004

[64] Chai, K.; H. T. Hn, H. L. Chieu; “Bayesian Online Classifiers for Text Classification and Filtering”, Proceedings of the 25th annual international ACM SIGIR conference on Research and Development in Information Retrieval, August 2002, pp 97-104

[65] Jaroszewicz S, Scheffer T, Fast discovery of unexpected patterns in data, relative to a Bayesian network, In: 11th ACM SIGKDD international conference on knowledge discovery and data mining (KDD-2005), Chicago, IL, August 2005, pp 118–127

[66] Budanitsky, A. and G. Hirst, 2001. Semantic distance in WordNet: An experimental, application-oriented evaluation of five measures. In Workshop on WordNet and Other Lexical Resources. Second meeting of the NAACL, Pittsburgh

[67] http://idd.univ-ovidius.ro/tutorials/cursuri/fim/ing12/cap5.pdf

[68] Teodorescu H.N., Gnatofonia și Gnatosonia, Ed. Performantica, 2007, Iași, Romania.

[69] Stan, I. T., Studii de fonetică și fonologie, Ed. P. U. C., Cluj – Napoca, 1996

[70] Negomireanu, Doina, Limba română contemporană. Fonetică și fonologie. Noțiuni generale, Craiova, Editura Universitaria, 2003

[71] https://ro.wikipedia.org/wiki/Alfabetul_Fonetic_Interna%C8%9Bional

[72] Feștilă, L., Simion, E., Miron, C.: Amplificatoare audio și sisteme musicale, Editura Dacia, Cluj- Napoca, 1990

[73] Toacșe, Gh., Nicula, D.: Electronică digitală, Editura Teora, București, 1996

[74] Ursuleanu, R., Suctiar, I.: Elemente de electrotehnică și electronică, Editura Satya, Iași, 1999

[75] Strîmbu, C., Ștefan, A.: Semnale și Circuite Electronice, Îndrumar de Laborator, vol I, II, Brașov, Editura Academiei Aviației și Apărării Antiaeriene “Henri Coandă”, Brașov, 2000

[76] Strîmbu, C., Constantinescu, C.G.: Electronică-ghid de pregătire a examenului de licență, Brașov, Editura Academiei Forțelor Aeriene “Henri Coandă”, Brașov, 2006

[77] Mateescu, A., Ciochină, S., Dumitru, N., Șerbănescu, Al., Stanciu, L.: Prelucrarea numerică a semnalelor, Editura Tehnică, București, 1997

[78] Ian Poole, Noțiuni de Tehnică Radio, Ed. Teora, București, ISBN-10: 9732003189, 2011

[79] I. Naforniță, A. Isar, „Reprezentări timp – frecvență”, Editura Politehnică Timișoara, 1998

[80] A. Mateescu, N. Dumitriu, L. Stanciu, Semnale și Sisteme, Teora, București, 2001

[81] http://education.inflpr.ro/res/CarteGarabet/Sunete.pdf

[82] Ciuchi V., Mocanu C., Predescu D., Romanițan C. „Otorinolaringologie”, Ed. SYLVI, 2000, 151-203

[83] Festen J.M., Plomp R. „Speech reception threshold in noise with one and two hearing aids” J. Acoust. Soc. Am. 1986, 79, 465−471

[84] Trevor, J.Cox, Peter D’Antonio, Engineering art: the science of concert hall acoustics, Interdisciplinary Science Reviews”, vol 28, no.2, 2003

[85] H.D. Lasswell, Power and Personality, W.W. Norton & Company, Inc., 1948

[86] Shannon, C and Weaver, W, Mathematical Theory of Communication. Urbana: University of Illinois Press, 1949

[87] Rudolf Carnap, Yehoshua Bar-Hillel, An Outline of a Theory of Semantic Information, Technical report no. 247, Oct. 1952

[88] Luciano Floridi, Is Semantic Information Meaningful Data?, Philosophy and Phenomenological Research Revue, 2005

[89] Cover, T M and Thomas, J A, Elements of Information Theory, New York: Wiley, 1991

[90] Purcaru, I., Informație și corelație, Ed. Științifică și enciclopedică, 1988

[91] R.Togneri and Ch.J.S. de Silva, Fundamentals of Information Theory and Coding Design, Chapman & Hall/CRC, 2003

[92] John von Neumann, Oskar Morgenstern, Theory of Games and Economic Behavior, Princeton University Press, 2004

[93] Dorje, C.B., Ian, R.C.B., Irene, C.C., Option price calibration from Renyi entropy, Physics Letter A 366(4-5), pp.298-307, 2007

[94] Maszczyk, T., Duch, W., Comparison of Shannon, Renyi and Tsallis entropy used in decision trees, Lecture Notes on Computer Science 5097, pp. 643-651, 2008.

[95] Mark, L. Berenson, David, M. Levine, Timothy, C. Krehbiel, Basic Business statistics: concepts and applications, twelfth edition, Pearson, 2012

[96] C. B. Bell, Mutual Information and Maximal Correlation as Measures of Dependence, Ann. Math. Statist., Volume 33, p.587-595, 1962

[97] Kramer-Friedrich, Sybille – Information Measurement and Information Technology: A Myth of the Twentieth Century, în vol. “Information Technology and Computers in Theory and Practice” Reidel Publ. Comp., Dordrecht, Boston, Lancaster, Tokyo, 1986

[98] Preda, V., Balcău, C., Entropy optimization with applications, The Publishing House of Romanian Academy, 2010

[99] Chong, E., Zak, S. – An introduction to Optimization, Second Edition, John Wilez Sons, 2001.

[100] Gheorghe Boldur-Lățescu, ș.a., Curs de Cercetare Operațională, A.S.E., 1988, București.

[101] Janina Mihaela Mihăilă, Grațiela Ghic, Bazele programării liniare, București, Editura Universitară, ISBN 978-606-591-317-2, 2011

[102] Cohen, G. Convexite et optimisation, ENPC, Paris, 2000

[103] Kall, P., Wallace, S.W., Stochastic programming, John Wiley & Sons, 1994

[104] Hampu, A., Programare stocastică, Sibiu, Editura Academiei Forțelor Terestre, 2001

[105] Robert Johnson –Elementary Statistics, 4th edition, PWS-Kent, 1984

[106] D. D. Wackerly, W. Mendenhall, R. L. Scheafer – Mathematical Statistics with Application, 7th ed. Thompson/Brooks-Cole, 2008

[107] Gavril Paltineanu, Pavel Matei, Romica Trandafir, Analiza numerica, Editura Conspress, Bucuresti, 1998

[108] Bertsekas, D.P. Constrained optimization and Lagrange multiplier methods, Academic Press, New York, 1982

[109] M. Postolache, Metode numerice, Editura Sirius, București, 1994

[110] Gh. Coman, Analiză numerică, Editura Libris, Cluj-Napoca, 1995

[111] Marinesccu, Gh. ș.a Probleme de analiză numerică rezolvate cu calculatorul, Editura Academiei, București, 1987

[112] V. Iorga, B. Jora și alții, Programare numerică, Editura Teora, 1996

[113] Agratini, O., Chiorean, I., Coman, Gh., Trîımbițaș, R., Analiză numerică și teoria aproximării, vol.III, Presa Universitară Clujeană, 2002

[114] Martin, O., Probleme de analiză numerică, Editura MatrixRom, București, 1998

[115] Andrei, N., Critica Rațiunii Algoritmilor de Optimizare fără Restricții, Editura Academiei Române, București, 2008

[116] Andrei, N., Programarea Matematică Avansată. Teorie, Metode Computaționale, Aplicații. Editura Tehnică, București, 1999

[117] D. R. Adams, V. Hrynkiv, and S. Lenhart. Optimal control of a biharmonic obstacle problem. In Ari Laptev, editor, Around the Research of Vladimir Maz’ya III, volume 13 of International Mathematical Series, pages 1–24. Springer New York, 2010

[118] De Melo, C., & Paiva, A., Environment expression: Expressing emotions through cameras, lights and music. In Proceedings of Affective Computing Intelligent Interaction (ACII’05) (pp. 715–722), 2005

[119] N. Campbell, “Perception of affect in speech—Toward an automatic processing of paralinguistic information in spoken conversation,” in Proc. ICSLP, Jeju, Korea, Oct. 2004, pp. 881–884

[120] R. Tato, R. Santos, R. Kompe, and J. M. Pardo, “Emotional space improves emotion recognition,” in Proc. ICSLP, Denver, CO, Sep. 2002, pp. 2029–2032

[121] M. Schröder and S. Breuer, “XML representation languages as a way of interconnecting TTS modules,” in Proc. ICSLP, Jeju, Korea, 2004, pp. 1889–1892

[122] Y. Kang, Z. Shuang, J. Tao, W. Zhang, and B. Xu, “A hybrid GMM and codebook mapping method for spectral conversion,” in Proc. 1st Int. Conf. Affective Comput. Intell. Interaction, 2005, pp. 303–310.

[123] C. Gobl and A. N’1Chasaide, “The role of voice quality in communicating emotion, mood and attitude,” Speech Commun., vol. 40, pp. 189–212, 2003

[124] L. M. Arslan and D. Talkin, “Voice conversion by codebook mapping of line spectral frequencies and excitation spectrum,” in Proc. Eurospeech, Rhodes, Greece, 1997, pp. 1347–1350

[125] H. Kawahra and R. Akahane-Yamada, “Perceptual effects of spectral envelope and F0 manipulations using STRAIGHT method,” J. Acoust. Soc. Amer., pt. 2, vol. 103, no. 5, p. 2776, 1998

[126] A. B. Kain, “High-resolution voice transformation,” Ph.D. dissertation, Oregon Health and Sci. Univ., Portland, Oct. 2001

[127] R. M. Stibbard, “Vocal expression of emotions in non-laboratory speech: An investigation of the reading/leeds emotion in speech project annotation data,” Ph.D. dissertation, Univ. Reading, Reading, U.K., 2001

[128] G. P. Kochanski and C. Shih, “STEM-ML: Language independent prosody description”, in Proc. ICSLP, Beijing, China, 2000, pp. 239–242

[129] Y. Xu and Q. E. Wang, “Pitch targets and their realization: Evidence from mandarin chinese,” Speech Commun., vol. 33, pp. 319–337, 2001

[130] S. Guiasu, “Information Theory with applications”, MgGraw-Hill New York – Dusseldorf, 1977

[131] I. Mitran, “Asupra unei solutii entropice a jocurilor cooperative”, Studii și Cerc. de Calc. Ec. și Cib. Ec.,3, 1981, pp.79-84

[132] I. Purcaru, “Asupra unor măsuri ale organizării unui joc strategic”, Studii și Cerc.Mat.,2, 1983, pp.503-517

[133] R. M. Stibbard, “Vocal expression of emotions in non-laboratory speech: An investigation of the reading/leeds emotion in speech project annotation data,” Ph.D. dissertation, Univ. Reading, Reading, U.K., 2001

[134] I. Murray and J. L. Arnott, “Toward the simulation of emotion in synthetic speech: A review of the literature on human vocal emotion,” J. Acoust. Soc. Amer., pp. 1097–1108, 1993

[135] Ladd, D. Robert, "Intonational phrasing: the case of recursive prosodic structure" Indiana University Press, 1986

[136] Andrei Tudorel, Stancu Andrei, Statistică – “Teorie și aplicații”, Editura All , București, 1995

[137] Constantin Gheorghe, Surulescu Nicolae, Zaharie Daniela, Lecții de statistică descriptivă, Universitatea de Vest, Timișoara, 1998

[138] Isaic-M, Al., Mitruț, C., Voineagu, V. „Statistics for business management”; Economic Publishing House, Bucharest, 2005

[139] Breaz N., Jaradat M., Statistică descriptivă, teorie și aplicații, Ed. Risoprint, Cluj-Napoca, 2009

[140] Căbulea L., Aldea M., Elemente de teoria probabilităților și statistică matematică, Editura Didactica, Alba Iulia, 2004

[141] Blaga P., Statistică matematică, Ediția a II-a, Universitatea „Babeș- Bolyai”, Cluj-Napoca, 2001

[142] Florea I., Parpucea I., Buiga A., Lazăr D., Statistică inferențială, Presa Universitară Clujeană, 2000

[143] Lungu O., Ghid introductiv pentru  SPSS 10.0, Ed. SC Erota SRL, Iași, 2001

[144] Zbăganu Gh., Metode matematice în teoria riscului și actuariat, Editura Universității, București, 2004

[145] Field, Andy, Discovering Statistics Using SPSS, 3rd ed. London: Sage Publications Ltd., 2009

[146] Furui S., Tokyo Institute of Technology, 50 years of progress in speech recognition technology – Where we are, and where we should go, International Conference on Acoustics, Speech, and Signal Processing (ICASSP), which will be held at the Hawai‘i Convention Center in Honolulu, April 15 – 20, 2007

[147] Teodorescu H.N., Aproposed theory in prosody generation and perception: th multi-dimensional contextual integration principle of prosody, SpeD 2005 – 3th Conference on Speech Technology and Human Dialogue, Eds. C. Burileanu, Trend in Speech Technology, Editura Academiei Române, 2005

[148] Kochanski G., Grabe E., Coleman J., Rosner B., Loudness Predicts Prominence; Fundamental Frequency Lends Little, J. Acoustical Society of America 11(2), 2005

[149] Apopei V., Jitcă D., Grigoraș F. (2003a), Studiul trăsăturilor acustice necesare pentru evidențierea evenimentelor fonetice în vederea segmentării semnalului vocal, Simpozionul Sisteme de Inteligență Artificială SIA, Iași, septembrie 2003

[150] http://www.qsound.com/technology/overview.htm

[151] Teodorescu H. N., Grigoras Fl., Apopei V., Nonlinear processes in speech production, Int. J.Chaos Theory and Applications, vol. 2, no. 2, pp. 35-52, 1997

[152] A. Field, “Discovering Statistics Using SPSS”, SAGE Publications Ltd, 3rd Edition, 2009

[153] A.E. Aronson, D.Bless, Clinical Voice Disorders, Thieme, NY, 4th Edition, 2009

[154] A.O. Sykes, An Introduction to Regression Analysis, Law School, University of Chicago, 1993

[155] Bremer, M. and Cohnitz, D., Information and Information Flow – an Introduction, Frankfurt, Lancaster: Ontos Verlag, 2004

[156] http://plato.stanford.edu/entries/information-semantic, Semantic Conceptions of Information, Oct. 5, 2005

Listă ReferinȚe Figuri

Fig.1 http://nlp.postech.ac.kr/research/previous_research/sir/

Fig.2 http://itre.cis.upenn.edu/myl/td/Instructions.html

Fig.3 Yu, Guoshen, "Solving Inverse Problems with Piecewise Linear Estimators: From Gaussian Mixture Models to Structured Sparsity", IEEE Transactions on Image Processing 21 (5): 2481–2499

Fig.4 Lai, C., Response Types and The Prosody of Declaratives. In Proceedings of Speech Prosody, Shanghai, 2012

Fig.6 http://apk-dl.com/prospec-lite-spectrum-analyzer

Fig.7 http://www-rohan.sdsu.edu/~ling354/voice-recognition.html

Fig.8 http://www.racai.ro/media/Referat2TBoros.pdf

Fig.9 Goldman, J.-P., EasyAlign: A friendly automatic phonetic alignment tool under Praat,

http://latlcui.unige.ch/phonetique/, 2010

Fig.10 http://soryro.tistory.com/85

Fig.11 http://www.csc.ncsu.edu/faculty/healey

Fig.12 http://www.slideshare.net/sumit786raj/sentiment-analysis-of-twitter-data

Fig.13 Giorgino,T., Computing and Visualizing Dynamic Time Warping Alignments in R: The dtw Package, 2009

Fig.14 Hirst D., Cristo A.D., Espesser R., Levels of representation and levels of analysis for intonation, Prosody Theory and Experiment (Horne, M. , ed.), The Netherlands: Kluwer, 2000

Fig.15http://speed.pub.ro/speed3/wp-content/uploads/2015/05/Proiect-Diploma-Serban-Alexandru.pdf

http://speed.pub.ro/speed3/wp-content/uploads/2013/04/Indrumar-de-proiect-PCDTV-v4.pdf

Fig.16 http://www.slideshare.net/imanog/artificial-neural-network-48027460

Fig.17 http://www.mokabyte.it/2008/12/genetics-6/

Fig.18 http://www.scrigroup.com/tehnologie/comunicatii/Metode-de-analiza-vorbire33251.php;

Fig.19 https://ro.wikipedia.org/wiki/Fonologia_limbii_rom%C3%A2ne

Fig.20 http://cs.curs.pub.ro/wiki/pm/pm/prj2009/cb/tuner

Fig.21 http://www.unibuc.ro/prof/niculae_c_m/telecom/componente_fundamentale.htm

Fig.22 http://einstein.informatik.uni-oldenburg.de/rechnernetze/pcm.htm

Fig.23 http://hidereferrer.net/?http://assigntraffic.com

Fig.24 http://cndiptfsetic.tvet.ro/materiale/Materiale_de_predare/ML

Fig.25 http://www.mindspring.com/~ssshp/ssshp_cd/ss_home.htm

Fig.26 http://www.slideshare.net/DragosPopescu/percsun-embed;

http://www.wikiwand.com/ro/Ureche

Fig.27 Andrei, N., Critica rațiunii algoritmilor de optimizare fără restricții. Editura Academiei Române, București, 2009

Fig.28 Idem

Fig.29 http://www.coli.uni-saarland.de/courses/FLST/2011/slides/CorporaFZ_fin.pdf

Fig.30 -38 http://www.ats.ucla.edu/stat/spss/examples/chp/chp5.htm

Rezumat / Abstract

Cercetări privind modalități de echilibrare și optimizare a transferului informațional

Research on the ways of balancing and improving the informational transfer

Rezumat

Acest studiu prezintă o serie de rezultate reieșite în urma modelării,cu ajutorul unor metode analitice de tip determinist și stochastic, a comunicării verbale din punct de vedereprozodic și fonetic. Este realizată analizarea și generarea unui model de optimizare teoretică a expresivității comunicării prin control prozodic dinamic. Modelul de optimizare propus se încadrează în clasa modelelor nederivative, a celor folosite în situația existenței unui număr relativ mic de variabile. În acest sens este realizat un model matematic centrat pe aplicarea metodei de control dinamic asupra parametrilor vocali ai unui model prozodic, bazat pe analiza combinată a frecvenței fundamentale și extremizarea funcționalei neliniare care descrie întregul proces de transfer informațional.Ulterior se urmărește aplicarea pentru cazul concret al unui model de tip formantic pentru rostirea unidirecțională, de tip radiofonic, a unei metode de control optimal dinamic. De asemenea, au fost aplicate o serie de instrumente de analiză statistică asupra transferului de informație unidirecțională realizată prin rostire radiofonică, fiind obținute o serie de rezultate privind asocierile și interdependențele dintre o serie de parametri vocali și acustici, inerenți unui act de comunicare de acest gen. Se urmărește pregătirea parametrică a unui modul de procesare vocală prin modul de explicitare a acestor condiționalități reciproce.Acești parametri acustici și vocali, atât fundamentali cât și derivați, sunt tratați din punct de vedere al identificării și cuantificării gradului de interdependență, în contextul în care, inclusiv din punct de vedere prozodic și compozițional, mesajul de tip radiofonic este condiționat de un mediu de comunicare liber dar concurențial.

Abstract

The aim of this study is to present a number of results that were concluded from the math representation through some stochastic and determinist analytical methods, made on verbal communication, underlining phonetical and prosody features. A model of theoretical improvement of communication expressivity through a dynamical prosody control is analysed. This model fits in non-derivative cathegory, those which are used when we have a quite small number of variables. In this respect a math model following the dynamic control method of prosody vocal parameters is made. This representation structure is focused on the main frequency and nonlinear function extremisation describing the whole informational transfer process. Subsequently we aim to fit this dynamical control method in a certain formantic model for one way broadcasting utterance. In the same time, a number of statistical tools of one way broadcasting utterance were applied. There obtain some results regarding the vocal and acoustical parameters corellation and interrelation which were inherent in a communication act of this type. Our research is to set the parametrical initial preparation of a vocal processing through explaining the reciprocal conditionalities. These vocal and acoustic parameters, both fundamental and derivatived, are approached in the respect of identification and quantification the interrelation degree. This is because the broadcasting message is limited by a free but competitive environment, inclusively from prosody and compositional context.

Curriculum Vitae RO

Work Experience

DECLARAȚIE

Subsemnații: Ghișa Valentin Eugen

(nume și prenume doctorand)

în calitate de

student – doctorand al IOSUD: Universitatea “Transilvania” din Brașov

(denumire IOSUD)

autor al tezei de doctorat cu titlul: Cercetari privind modalitati de echilibrare si optimizare a

transferului informational

(titlul tezei de doctorat)

și

Moraru Sorin-Aurel

(nume si prenume conducator doctorat)

în calitate de Conducător de doctorat al autorului tezei

la instituția Universitatea “Transilvania” din Brașov

(denumire institutie)

declarăm pe proprie răspundere că am luat la cunoștință de prevederile art.143 alin (4) si (5)* și art. 170** din Legea educației naționale nr.1/2011 și ale art. 65, alin.5 – 7***, art. 66, alin (2)**** din Hotărârea Guvernului nr.681/2011 privind aprobarea Codului Studiilor universitare de doctorat și ne asumăm consecințele nerespectării acestora.

Semnătură Semnătură

Student doctorand Conducător de doctorat

((4 )indrumatorii lucrărilor de licență, de diplomă, de disertație, de doctorat răspund solidar cu autorii acestora de asigurarea originalității conținutului acestora

(5) este interzisă comercializarea de lucrări șptiințifice în vederea facilitării falsificării de către cumpărător a calității de autor al unei lucrări de licență, de diplomă, de disertație sau de doctorat.

** (1)În cazul nerespectării standardelor de calitate sau de etică profesională, Ministerul Educației, Cercetării, Tineretului și Sportului, pe baza unor rapoarte externe de evaluare, întocmite, după caz, de CNATDCU, de CNCS, de Consiliul de etică și management universitar sau de Consiliul Național de Etică a Cercetării Științifice, Dezvoltării Tehnologice și Inovării, poate lua următoarele măsuri, alternativ sau simultan:

C:\Users\camism\Documents and Settings\Caty\Sintact 2.0\cache\Legislatie\temp\00137318.HTM – #retragerea calității de conducător de doctorat;

C:\Users\camism\Documents and Settings\Caty\Sintact 2.0\cache\Legislatie\temp\00137318.HTM – #retragerea titlului de doctor;

C:\Users\camism\Documents and Settings\Caty\Sintact 2.0\cache\Legislatie\temp\00137318.HTM – #retragerea acreditării școlii doctorale, ceea ce implică retragerea dreptului școlii doctorale de a organiza concurs de admitere pentru selectarea de noi studenți-doctoranzi.

C:\Users\camism\Documents and Settings\Caty\Sintact 2.0\cache\Legislatie\temp\00137318.HTM – #(2)Reacreditarea școlii doctorale se poate obține după cel puțin 5 ani de la pierderea acestei calități, numai în urma reluării procesului de acreditare, conform art. 158.

C:\Users\camism\Documents and Settings\Caty\Sintact 2.0\cache\Legislatie\temp\00137318.HTM – #(3)Redobândirea calității de conducător de doctorat se poate obține după cel puțin 5 ani de la pierderea acestei calități, la propunerea IOSUD, pe baza unui raport de evaluare internă, ale cărui aprecieri sunt validate printr-o evaluare externă efectuată de CNATDCU. Rezultatele pozitive ale acestor proceduri sunt condiții necesare pentru aprobare din partea Ministerului Educației, Cercetării, Tineretului și Sportului.

C:\Users\camism\Documents and Settings\Caty\Sintact 2.0\cache\Legislatie\temp\00137318.HTM – #(4)Conducătorii de doctorat sunt evaluați o dată la 5 ani. Procedurile de evaluare sunt stabilite de Ministerul Educației, Cercetării, Tineretului și Sportului, la propunerea CNATDCU.

***(5) teza de doctorat este o lucrare originală, fiind obligatorie mentionarea sursei pentru orice material preluat.

(6) studentul – doctorand este autorul tezei de doctorat și își asumă corectitudinea datelor și informațiilor prezentate în teză, precum și a opiniilor și demonstrațiilor exprimate în teză

(7) conducătorul de doctorat răspunde împreună cu autorul tezei de respectarea standardelor de calitate sau de etica profesională, inclusiv de asigurarea originalității conținutului, conform art. 170 din Legea nr. 1/2011.

**** protecția drepturilor de proprietate intelectuală asupra tezei de doctorat se asigură în conformitate cu prevederile legii.

Similar Posts