[1] P.Bourret,J.Reggia,M.Samuelides,” Réseaux neuronaux, une aproche connexioniste de l’Intelligence Artificielle”,Teknea Toulouse,1991 [2] I.Ciocoiu… [310529]
Bibliografie selectivă
[1] P.Bourret,J.Reggia,M.Samuelides," Ré[anonimizat] l’Intelligence Artificielle",Teknea Toulouse,1991
[2] I.Ciocoiu "Rețele neurale artificiale", 2000
[3] L.O.Chua and T.Roska "Cellular Neural Networks. Premiries and Foundations ", Notes course Berkeley,1997
[4] D.Dumitrescu, H.Costin, "Retele Neuronale", Editura Teora, 1996
[5] S.Haykin "Neural Networks" Mcmillan Publishing Co.,Englewood Cliffs,1994
[6]Hervé Abdi,"Les Réseaux de neurones ", Presses Universitaire de Grenoble, 1994
[7] Hecht-Nielsen "Neurocomputing" Addison-Wesley Publishing Company, 1990
[8] T.Kohonen “Self-organisation and Associative Memory”, [anonimizat], 1989
[9] B.Kosko "Neural Networks and Fuzzy Systems",[anonimizat], NJ,1992
[10] T.Roska and J.Vandewalle "Cellular Neural Networks" John Wiley & Sons Ltd.,1993
[11] I.Zurada " Introduction to Artificial Neural Systems. Learning and Applications”,West Publishing Co.,Wien,1992
[12] ***"Student: [anonimizat]4, User's Guide, [anonimizat], NJ, 1995
[13][anonimizat]-[anonimizat]. [anonimizat], 2002
Reviste
" IEEE Communications Magazine"
" IEEE Transactions on Communications"
" IEEE Transactions on Circuits and Systems"
" IEEE Transactions on Neural Networks"
"Neural Computation"
" IEEE Transactions on Communications"
" IEEE Transactions on Networking"
1. Introducere
În 1876 experimentul lui Alexander Graham Bell care demonstra că vocea poate fi transmisă la distanță pe cabluri de cupru a marcat nașterea telecomunicațiilor. Zece ani mai târziu erau 155.000 de telefoane în uz în SUA.
Telecomunicațiile au avut o [anonimizat], [anonimizat].
[anonimizat] a telecomunicațiilor cât și a informaticii. [anonimizat], de ordinul gigabiților pe secundă (sau chiar Tbiților au determinat înlocuirea rețelei de telecomunicații cu un sistem digital avansat
B-ISDN (Broadband Integrated Services Digital Network). Videoteleconferința , [anonimizat], comunicațiile la distanță interumane însoțite de realitate virtuală (telemedicină, învățământul la distanță), [anonimizat] a se putea asigura transmisia atât a semnalelor continue video /audio cât și a celor numerice.
2. [anonimizat], [anonimizat], [anonimizat]. Rețelele care erau în principal orientate pe îmbunătățirea serviciilor vocale au evoluat spre comunicațiile multimedia. S-a încetățenit opinia că multimedia și videoconferințele vor reprezenta preponderent traficul viitorului. Toate aceste servicii necesită o bandă largă de frecvențe ocupate. Există aplicații ca de exemplu bazele de date geospațiale care consumă chiar mai multă bandă decât comunicațiile multimedia. Comunicațiile interumane, ca educația și telemedicina, însoțite de realitate virtuală necesită nu numai o bandă foarte mare dar și parametrii care definesc calitatea serviciului satisfăcători (QoS quality of service).
Deci scopul BISDN este să ofere o paletă largă de servicii unui număr cât mai mare, variabil de utilizatori, la diferite viteze (rate de bit) într-o manieră eficientă și la un preț accesibil. BISDN trebuie să asigure integrarea rețelelor prin satelit cu rețelele mobile, celulare și cu rețelele terestre. BISDN trebuie să garanteze compatibilitatea componentelor, conectivitate totală (global roaming) în condițiile unei capacități cât mai mari de transmisie, a unei viteze de procesare în timp real și a satisfacerii parametrilor QOS. Vorbim în prezent de o generație 3 a sistemelor de transmisie și se prefigurează deja generația 4G. Sistemele de comunicație curente suportă aplicații multimedia și INTERNET. Ca de exemplu, sistemul Spaceway asigură o legătură de transmisie în jos cu viteze de până la 100Mb pe secundă și o capacitate totală de 4,4 Gb/s.
O tehnologie cheie pentru B-ISDN, o reprezintă modul de transfer asincron, al informației ATM (Asynchronus Transfer Mode), prin care informația este segmentată în pachete de lungime fixă numite celule, ceea ce facilitează comutarea de mare viteză.
O celulă reprezintă doar o parte din blocul de date de transmis. Fiecare celulă are un antet care determină destinația, permițând astfel o rutare transparentă prin rețea. Celula conține pe lângă adresa destinație și alte informații necesare pentru o mai bună circulație a acesteia prin canalul de comunicație. Celulele nu sunt preasignate, ele sunt asignate și transmise prin multiplexare în timp la cererea utilizatorului. În rețelele ATM, comunicația este orientată pe conexiune, utilizând circuitul virtual la nivelul cel mai de jos.
Transmisia ATM nu este limitată la un tip de mediu de transmisie, putând fi utilizată în toate mediile de comunicație existente, cablu coaxial, cablu torsadat, fibre optice. Organizația ATM Forum recomandă folosirea următoarelor interfețe fizice pentru ATM: FDDI, Fiber Channel, SONET, Frame Relay și X.25.
Tehnologia ATM îndeplinește câteva dintre obiectivele majore ale BISDN: suportă toate serviciile existente în prezent, asigură o utilizare eficientă a resurselor rețelei, minimizează timpul de procesare în nodurile intermediare, suportă viteze mari de transmisie, garantează performanțele necesare pentru aplicațiile existente.
În ceea ce privește dezvoltarea ulterioară a rețelelor de comunicații există mai multe scenarii care toate au la bază transmisiile prin satelit, fie că utilizează tehnica ATM, fie protocoalele INTERNET. Rețeaua globală trebuie să integreze rețele ATM cu Internetul, după cum se poate observa din arhitecturile prezentate în paragraful ……[].
3. Caracteristicile traficului într-o rețea de comunicații
Principala caracteristică a traficului este că aproape toți parametrii săi variază, respectiv numărul utilizatorilor, topologia rețelei, ratele de transfer ale informației, lățimea de bandă necesară. Astfel încât cerințele transmisiei diferă în funcție de nivelele de servicii oferite utilizatorilor.
Vocea împachetată necesită o bandă relativ redusă dată de o viteză de transmisie de aproximativ 8 kb/s, dar necesită o întârziere redusă pentru a asigura calitate la destinație.
Traficul video necesită o bandă mai largă, dată de o transmisie de 128-384 kb/s și de asemenea o întârziere redusă în transmisie.
Traficul de date, respectiv de fișiere sau email poate accepta latență în transmisie fără deprecierea parametrilor QOS. Emailul necesită bandă redusă, dar transmisia de fișiere necesită bandă largă.
Traficul se desfășoară în rafale și modelarea sa este posibilă doar în anumite condiții de constrângere și pentru aplicații specifice. Presupunerea făcută în rețeaua telefonică a distribuției Poisson s-a demonstrat neviabilă în transmisia de date.
În teoria curentă și în practică încă domină modelele exponențiale, care însă s-au demonstrat a fi adecvate doar la o scară limitată de timp. Nici unul dintre aceste modele nu este capabil să ilustreze exact proprietățile traficului real. Limitările algoritmilor convenționali se datorează în special necesității modelării exacte a problemei, ceea ce este foarte dificil de realizat în condițiile complexe ale traficului real.
Fig.2 prezintă comparativ traficul pe baza modelului Poisson și cel real, de tip J PEG (Joint Photographic Expert Group), adică digitizat și comprimat, al unei secvențe din filmul Star Wars, la diferite scale de timp. Ambele secvențe sunt prezentate din punctul de vedere al celulelor ATM, în coordonate număr de celule / interval de timp.
Pe coloana întâi reprezentarea este din punctul de vedere la slot-ului. Slotul este intervalul de timp egal cu timpul de transfer al unei celule ATM.
Coloana doi reprezintă aceleași secvențe cu scala de timp schimbată, unitatea fiind
slice-ul. Slice-ul corespunde la a treizecea parte dintr-un cadru.
A treia coloană reprezintă traficul din punctul de vedere al cadrului.
Fig.2 Traficul ATM (a)-(c) conform unui model Poisson
(d)-(e) secvență JPEG din filmul Star Wars
Ce se poate constata?. În general că există mari diferențe. Rafalele traficului real apar la momente de timp care nu corespund modelului Poisson. Traficul Poisson se netezește pe măsură ce intervalul de timp crește. Dimpotrivă, traficul real este și la o scală de timp mai mare tot în rafale, așa cum era la scală redusă. Forma de bază a traficului a rămas neschimbată.
Deoarece traficul real are rate mari de variație și este în rafale, el este complet diferit de imaginea ideală (statică) a teletraficului din perioada telefoniei statice.
În plus, în permanență apar servicii noi , cu caracteristici de trafic diferite, cereri QOS diferite de la rețeaua de telecomunicații.
Obiectivul strategiei administrării eficiente ATM este un înalt grad de utilizare, în timp ce se menține calitatea serviciilor. Proiectarea unei astfel de strategii utilizând tehnicile de programare tradiționale nu poate fi eficientă datorită gradului mare de complexitate. Este necesară o schimbare radicală de opinie, în sensul abandonării teoriei așteptării, cu o matematică exactă.
Este necesar să se înțeleagă calitativ implicațiile caracteristicilor dominante ale traficului măsurat. Pentru a urmări și controla parametrii traficului trebuie să se elaboreze rutine noi și complexe. Acestea au nevoie de o enormă cantitate de procesare, viteză de calcul și control în timp real.
În acest context, rețelele de comunicații ale viitorului trebuie să fie sisteme adaptive și inteligente, pentru a asigura flexibilitatea și fiabilitatea rețelei, predicția exactă a parametrilor traficului, utilizarea eficientă a canalului disponibil, administrarea optimizată în raport cu diferite medii, într-o permanentă dinamică.
În concluzie, nu modelarea stohastică și analiza cozii de așteptare reprezintă răspunsul problemelor complexe pe care le ridică traficul modern ci tehnicile inteligente, ca de exemplu rețelele neuronale.
4. Parametrii de calitate ai serviciilor
Parametrii de calitate ai serviciilor , definiți de Forumul ATM, sunt parametrii tehnici asociați unei conexiuni pentru un mai bun control al traficului. Printre aceștia cei mai importanți sunt:
rata de pierdere a celulelor (CLR cell loss rate) reprezintă procentul de celule care nu au fost livrate la destinație, fiind pierdute în rețea datorită congestiei și supraîncărcării cozilor de așteptare;
rata de vârf a celulelor (PCR peak cell rate) este rata maximă de celule la care poate transmite utilizatorul;
rata întreținută a celulelor (SCR sustained cell rate) reprezintă rata medie de transmisie a celulelor pe durata unei conexiuni;
întârzierea celulei datorată transferului (CTD cell transfer delay) este suma tuturor întârzierilor unei celule de la intrarea în rețea până la punctul de ieșire (întârzieri de propagare în cozile de așteptare);
variația întârzierii celulei (CDV cell delay variation) este variația întârzierilor în transferul unei celule de la intrarea în rețea până la punctul de ieșire;
Scopul managementului resurselor rețelei de comunicații din punctul de vedere al parametrilor QOS este să împartă eficient accesul la resursele disponibile între diferitele tipuri de trafic, menținând parametrii QOS.
Rețelele oferă două tipuri de servicii: garantate și cu "best effort", adică cu cel mai bun efort. Pentru serviciile cu parametrii QOS garantați, rețeaua garantează parametrii diferiților utilizatori, adică minimul, maximul, un prag specificat. În serviciile cu "best effort" parametrii QOS sunt în funcție de starea rețelei. Transmisia emailu-lui este astfel asigurată. Nu există nici o garanție a parametrilor serviciilor.
5. Sisteme de comunicații prin satelit
Sistemele de comunicații 4G trebuie să asigure procesare în timp real, de mare viteză, servicii multimedia interactive, deci mai puține toleranțe la erori și întârzieri. Ele trebuie să funcționeze la anumiți parametrii QOS și să asigure integrare și compatibilitate între componente. În prezent atenția cercetătorilor se concentrează asupra transmisiilor prin satelit, considerându-le parte integrantă a autostrăzii informaționale.
Trendul în sistemele 4G este spre o rețea globală ce oferă servicii multimedia flexibile utilizatorilor, la cerere, oricând și oriunde.
Sistemele de transmisie de bandă largă, prin satelit pot fi bazate pe tehnologia ATM, cu OBP și OBS sofisticate și legături intersateliți, sau pe transpondere (bent-pipe transponder relays). Proiectarea depinde de factori ca : acoperirea, cerințele traficului, utilizator și nu în ultimul rând, costul.
Amplasarea sistemelor prin satelit poate fi pe orbite: geostaționare GEO (geostationary orbit) , pe orbite medii MEO (medium sau midle earth orbit) joase LEO (low earth orbit), sau combinații, dependent de acoperirea și serviciile prestate. Sistemele viitorului vor folosi sateliți MEO și LEO.
Satelitul GEO (geostationary orbit) este amplasat la 22300 mile (35786) distanță de suprafața pământului și se rotește odată cu acesta.. 1 milă este 1,5 km. Stația terestră țintește un singur punct în spațiu.
Satelitul MEO este amplasat la o distanță între 1000 și 22300 mile (35786) de suprafața pământului.
Satelitul LEO este amplasat la o distanță între 400 și 1000 mile de suprafața pământului se deplasează cu viteze mari, în jur de 8 km pe secundă, sau 27400 km pe oră, adică o revoluție completă la 90 min. În concluzie nu sunt necesare legături între sateliți și sistemele sunt adecvate pentru zone izolate.
Deși gradul de acoperire GEO este un avantaj față de MEO și LEO, timpul de întârziere mai mare al transmisiilor le face mai puțin adecvate ppentru aplicațiile interactive multimedia al sistemelor 4G. Pentru LEO întârzierea este de ordinul a 10 ms, ptr. MEO 8o ms și ptr. GEO 250-270 ms. Alte întârzieri datorate procesării și transmisiei sunt de ordinul a 80-100 ms ptr. Traficul regional și 250-270 ms ptr. Traficul internațional pot fi limitative ptr. calitatea transmisiei. Sistemele LEO și MEO au alte carențe: datorită deplasării rapide există întreruperi între terminal și satelit (handover) ptr. o perioadă scurtă de timp. Mobilitatea mare determină schimbări regulate în topologia rețelei și transmisia este supusă efectului Doppler și atenuărilor multicanal (multipath fading) În plus sistemele LEO și MEO depind de legăturile intersatelit pentru asigurarea acoperirii. Există astfel riscul să apară erori de jitter care alterează vocea și performanțele QOS. O soluție bună pentru problema de jitter este tamponul. Mai multe sisteme au fost folosite până în prezent, după cum se poate observa în Tabelul 1.
Tabelul 1
Spaceway are 16 sateliți GEO și 20 MEO în banda Ka(24-32 GHz), cu o viteză de transmisie de 16 kb/s -6Mb/s ptr. legătura în sus și 100Mb/s ptr. legătura în jos și o capacitate totală de 4,4 Gb/s. Sistemul integrează transmisiile de date de mare viteză cu Internetul și transmisiile multimedia.
Skybridge are 80 sateliți în banda Ku (10,7GHz-14,5 GHz) și o capacitate totală de 4,5 Gb/s, respectiv 20 milioane de utilizatori.
Fig.3 Benzile de frecvență din domeniul microundelor
Dacă primele sisteme prin satelit erau în banda C (2,4-4,2GHz), proiectarea curentă este orientată spre banda K (Ku și Ka). Aceasta a permis și răspândirea terminalelor cu apertură redusă și în zonele în care sistemele celulare nu există, implementarea lor fiind prea scumpă. Este de așteptat pe viitor să se utilizeze frecvențe din ce în ce mai mari pe măsură ce spectrul devine tot mai redus. Frecvențele înalte vor permite utilizarea unor terminale mai reduse și potențial obținerea unei mobilități mai mari.
Există două tipuri de topologii, după cum se poate vedea în Fig.4. Subrețeaua bazată pe satelit poate fi ultima legătura care conectează terminalele la Internet sau alte rețele, ca în structura din stânga sau poate fi coloana vertebrală a unui sistem global, ca în structura din dreapta.
Fig.4 Două tipuri de arhitecturi pentru sistemele de transmisie prin satelit
În primul caz utilizatorii de multimedia și de date accesează unul sau mai multe servere printr-o legătură cu satelitul și o stație poartă, Internetul și alte rețele. Această arhitectură este adecvată zonelor izolate, unde ar fi costisitor accesul prin cablu sau legătură radio. Comunicațiile prin satelit au avantajul unei acoperiri largi, latoți utilizatorii din zona de acoperire.
În al doilea caz rețeaua prin satelit oferă servicii de purtătoare (carrier services) furnizorilor de servicii Internet. Pentru minimizarea numărului stațiilor poartăși creșterea acoperirii
Semnificația notațiilor este următoarea:
NCS Network Control Station este stația de control care asigură controlul general al resurselor rețelei și operațiile de rutare;
Stația de control (Network Control Station) este în sistemele geostaționare, în mod uzual, câte una pe satelit. Ea asigură controlul general al operațiilor și resurselor rețelei. Stația de control asigură resursele radio stațiilor poartă conform unei strategii de planificare a resurselor pe termen lung. Nodul de control este responsabil cu rutarea și administrarea accesului. Ca de exemplu, actualizează locațiile, autentifică, înregistrează, șterge și plătește, adică contorizează apelul. În sistemele non geostaționare aceste operații se realizează în mai multe stații poartă, în mod distribuit.
GTW(Gateway stations) Stațiile poartă sunt stații terestre care asigură conectivitatea cu rețelele terestre;
Într-un sistem pe orbită geostaționară plasamentul acestor stații și numărul lor depinde doar de solicitările traficului. Acolo unde traficul este intens numărul stațiilor terestre este mare. În sistemele non geostaționare numărul și amplasamentul stațiilor poartă depinde și de unele caracteristici de proiectare. De exemplu , într-un sistem pe orbită medie, fără legătură între sateliți un număr mai mic de zece stații poate asigura conectivitatea totală a utilizatorilor în majoritatea timpului. Un sistem pe orbită joasă necesită zeci până la sute de stații terestre, dar numărul lor poate fi redus utilizând legături între sateliți. Toate terminalele folosesc aceeași schemă de acces și stivă de protocoale.
SAU (Satelite adaptation unit) stația de adaptare a satelitului este o unitate specială care asigură accesul la rețeaua prin satelit.
Ea realizează toate adaptările de protocoale necesare de la terminalul utilizatorului la platforma de protocoale a satelitului. Include toate funcțiile nivelului fizic ale transmisiilor, adică codarea de canale, modulația / demodulația, procesarea semnalului de radofrecvență.Ea furnizează o interfață de acces similară UNI (user network interface) ptr. ATM. Rețeaua prin satelit trebuie să opereze cu diferite tipuri de terminale și cerințe de transmisie, de la viteze de 8÷16 kb/s până la 144 kb/s (sau 384 kb/s) pentru terminale de uz personal, până la 2048 kb/s sau mai mari, pentru restul utilizatorilor.
ISL (Intersatellite link) legături între sateliți Scopul ISL este de a mări acoperirea și de a reduce numărul stațiilor terestre.
IWU (Interworking units) furnizeză roaming între rețele și diferite standarde pentru a evita întreruperea recepției unui anumit serviciu.
OBS (Onboard switch) respectiv OBP (Onboard processing unit) asigură multiplexarea, demultiplexarea, codarea de canal / decodarea, comutarea rapidă .
Tehnologia ATM este uneori utilizată. Unitățile de comutare ATM sunt experimentale și includ doar părți ale funcțiilor pe care ar trebui să le îndeplinească comutarea ATM terestră. Majoritatea operațiilor ce necesită o mare putere de procesare sunt realizate terestru, ca de exemplu controlul admisiei și terminarea apelului.
Toate aceste componente ale sistemului prin satelit colaborează între ele ptr. a asigura mobilitatea și suportul rutării, la parametrii QOS necesari.
Fig. 5 Arhitectura unei rețelei globale prin satelit
Arhitectura unui sistem de al doilea tip este detaliată în. Fig. 5 .
Terminalele utilizatorilor funcționează pe baza mai multor protocoale standard, ATM sau INTERNET, prin intermediul cărora se pot conecta la stația de adaptare a satelitului:
ATM User Network Interface;
Narrow Band-ISDN;
Transmision Control Protocol / Internet Protocol;
Frame Relay UNI;
Public Switched Telephone Network;
Interconexiunile spre alte părți ale rețelei terestre de la unitatea de control sunt realizate prin protocoalele aferente sistemul de semnalizare Nr 7 (Signaling System 7).
Rețeaua inteligentă (IN Intelligent Network) este platforma de protocoale inteligente care asigură localizarea informației, funcționarea și întreținerea întregului sistem. Ea rezolvă problemele legate de rutarea apelului și mobilitatea personală și de terminal.
Tendința actuală este spre sisteme ce încorporează terminale compatibile ATM, cu mari viteze de transmisie a datelor, astfel încât infrastructura unei rețele BISDN devine esențială.
După o prezentare succintă a aspectelor arhitecturale tehnice ne vom ocupa de caracteristicile traficului într-o rețea globală de comunicații.
Rețelele neuronale sunt un bun candidat deoarece asigură controlul adaptiv, flexibil, fiabil, optim și o viteză extraordinară de procesare.
Tehnologiile de vârf ale OBP permit integrarea în același sistem a terminalelor mobile ieftine cu aplicațiile de mare viteză. Aceasta implică reducerea stașiilor terestre, utilizarea de emițătoare, receptoare de dimensiune redusă, ușoare și mobile. Se poate separa astfel legătura în sus de cea de transmisie în jos, în scopul optimizării separate. Fiind necesară o putere de emisie mai redusă și efectul neliniarităților introduse de transpondere sau de canalele adiacente este mai redus. Caracteristicile esențiale ale OBP în transmisiile de mare viteză ale viitorului sunt flexibilitatea și reconfigurabilitatea.
Acestea se referă la :
Reprogramarea memoriilor de control ;
Reconfigurarea stațiilor terestre ;
Asigurarea comutării de pachete și de circuite ;
Adoptarea a diferite strategii de control, și de flux ptr. Fiecare zonă dependent de încărcarea și de tipul traficului ;
OBP trebuie să asigure servicii compatibile cu structura BISDN/TCP/ IP, servicii compatibile ptr. Aplicațiile de date și servicii video la cerere, servicii punct la punct și servicii multipunct.
Comutarea poate fi integral pe satelit sau comutare parțial sistată de stațiile terestre. În primul caz, pe sateli se face toată procesarea și comutarea, echipamentul de pe satelit devine complicat și scump, dar stațiile terestre sunt simplificate. În al doilea caz, stațiile terestre asistă procesarea și comutarea de pe satelit, a cărui echipament se simplifică. Siguranța în funcționare este astfel crescută.
Se poate realiza OBP cu :
Procesare și comutare în banda de bază ;
Cu comutare pe frecvența intermediară ;
Cu comutare rapidă de pachete;
Cu comutatoare fotonice în banda de bază ;
Cu comutatoare ATM ;
Dependent de tipul traficului, comutarea în banda de bază poate fi orientată spre circuit sau spre pachete.
O provocare ptr. tehnologiile viitorului o reprezintă procesarea în timp real, eficientă. Astfel de tehnologii au apărut deja, ca de exemplu modulația adaptivă,CDMA code division multiple acces .
Modelul unui sistem de transmisie prin satelit
Modelul simplificat al unui sistem mobil de transmisie prin satelit în banda de bază este prezentat în Fig.
Traficul de comunicații este asimetric ptr. legătura spre satelit și dinspre satelit.Legătura în jos necesită mai multe resurse în ceea ce privește banda alocată, viteza de transmisie și puterea necesară. De exemplu, sistemele mobile de transmisie prin satelit ce furnizează servicii Internet de mare viteză permit utilizatorilor accesul la date multimedia, ceea ce necesită o capacitate și o viteză mare de transmisie. Legătura de transmisie în sus necesită o capacitate mai mică și viteze mai mici, deoarece utilizatorii transmit cantități mici de informație, ca de exemplu: email, cereri de browsing, informații de bază .
Pentru a crește puterea semnalului sateliții se echipează cu amplificatoare de putere echipate cu tuburi cu undă progresivă sau amplificatoare în stare solidă. Acestea au o caracteristică de transfer neliniară atât în ceea ce privește amplitudinea cât și faza, așa cum se poate vedea în figura de mai jos. Aceste distorsiuni sunt importante în special în schemele de modulare multinivel, ca de exemplu M-QAM (M array quadrature amplitude modulation).
Fig.1.7 Caracteristica de amplitudine
a) respectiv de fază b) a unui tub cu undă progresivă
Figura de mai jos prezintă constelația ieșirilor unui canal neliniar pentru un semnal 64-QAM. Semnalele M-QAM sunt mai eficiente din punct de vedere spectral. Datorită neliniarităților primele sisteme de transmisie prin satelit utilizau modulații binare și BPSK, mai puțin sensibile la neliniarități, dar ineficiente din punct de vedere spectral.
Fig.1.8 constelația unui semnal 64-QAM la intrarea, respectiv la ieșirea unui canal neliniar.
Efectul de umbrire este important la un unghi de incidență θ mic și apare datorită efectului de umbrire geometrică – unda incidentă nu poate ilumina porțiunile umbrite de obiecte înalte
Propagarea undei pe căi multiple (multipath propagation)
îndepărtează semnificativ condițiile de propagare de cazul ideal și se referă la posibilitatea propagării undei pe diferite traiectorii de la emițător la receptor.
Există 2 căi de propagare a undei:
directă prin atmosferă
indirectă prin reflexie și refracție la suprafața de separare între atmosferă și pământ
Propagarea pe cai multiple
Deplasarea sateliților și a terminalelor mobile determină caracterul aleatoriu și variant în timp al canalului de propagare. Cercetarea în ultimele două decenii s-a concentrat pe măsurarea și modelarea de canal atât în mediul urban cât și în cel suburban. Există diferite modele pentru diferite benzi. Banda Ka respective aproximativ intervalul 20-30 GHz reprezintă cea mai potrivită bandă de frecvențe ptr. aplicațiile multimedia și Internet. Exemple sunt :
modelul Loo
modele statistice multistare
Cercetările viitoare vor include și exploatarea unor noi benzi de frecvență ptr. a face față cantității tot mai mari de date ce trebuie vehiculată.
Tehnicile moderne au ca obiectiv creșterea eficienței spectrale și de putere.
Eficiența spectrală – abilitatea unui sistem de a opera eficient într-o bandă de frecvență alocată
Eficiența de putere – abilitatea unui sistem de a transmite informație la un nivel cât mai mic de putere
Caracteristicile modelului de canal ale viitorului
să se bazeze pe o estimare precisă și o modelare statistică a propagării
să conțină efectele combinate ale atenuării datorate precipitațiilor, propagării pe căi multiple și umbririi
să ia în considerare schimbările de stare, de exemplu cu sau fără umbrire
să fie adecvat procesării în timp real
Modelarea și estimarea corectă și eficientă este f.importantă pentru tehnicile noi:
Procesarea adaptivă de semnal
Modularea adaptivă codată
Proiectarea cross-layer
Rețelele neuronale sunt sisteme neliniare formate dintr-un număr mare de procesoare elementare, relativ simple care operează în paralel. Procesoarele interacționează între ele prin intermediul conexiunilor: excitatorii și inhibitorii, cărora le sunt asociate ponderi. Învățarea se realizează prin modificarea ponderilor conform unei reguli de învățare.
Cursul nr. 2
Argumente pentru utilizarea rețelelor neuronale în comunicații
Câteva dintre caracteristicile intrinseci ale RN sunt și argumente ale utilizării lor în rețelele de comunicații :
Neliniaritatea
Rețelele neuronale sunt sisteme cu intrări și ieșiri multiple care pot învăța o relație neliniară între intrare și ieșire.
Rețelele neuronale nu au nevoie de modelul traficului
Rețelele neuronale au demonstrat capacitatea de a rezolva probleme complexe fără cunoștințe exacte sau experiență apriori Așadar nu este necesar un model al traficului ci o bună reprezentare a problemei.
Generalizarea
Rețelele neuronale (uneori acompaniate de logica fuzzy) sunt capabile să aproximeze relații complicate intrare-ieșire selectând intrările semnificative și obținând parametri caracteristici. Ele se adaptează și intrărilor afectate de zgomot și incomplete, furnizând și în această situație răspunsul corect. Adică, rețelele neuronale generalizează, generează soluția corectă și în cazul în care la intrare se aplică date noi care nu au fost experimentate în timpul antrenamentului.
Flexibilitatea
Fiecare componentă a rețelei neuronale ( numită neuron, perceptron sau unitate) este un procesor ce operează independent de celelalte procesoare din sistem, astfel încât, pentru rezolvarea unor probleme mai complexe, sistemul se poate extinde într-o manieră modulară, prin adăugarea de procesoare fără a fi necesară reproiectarea.
Toleranța la deteriorare
Într-un mod similar sistemului nervos uman, performanțele sistemului neuronal se degradează treptat în funcție de deteriorarea interconexiunilor sau a funcționării neuronilor. Datorită procesării paralele și distribuite, rețeaua va continua să funcționeze chiar și în condiții de deteriorare până la pragul de avarie majoră.
Viteza de procesare Datorită paralelismului și posibilității de implementare hard, inclusiv implementări optice, rețelele neuronale au o viteză extraordinară de procesare.
S-au raportat viteze de Terra operații pe secundă pentru un chip de 1 cm2.
Potențialul de procesare
Potențialul de procesare al RN este extraordinar. Datorită caracterului neliniar și vitezei de procesare RN au un potențial de aplicabilitate deosebit, practic în toate domeniile de activitate umană apar în permanență noi aplicații.
Datorită tuturor acestor caracteristici RN:
pot învăța variațiile traficului din experiență;
se pot adapta la solicitările dinamice ale rețelei;
prezice comportarea ulterioară a traficului;
Optimizarea traficului utilizând rețele neuronale
Rețelele neuronale fac posibilă rezolvarea problemelor din domeniul comunicațiilor și asigură o îmbunătățire a funcționării și siguranței procesului de comunicație. Ele oferă soluții de mare viteză în:
caracterizarea și predicția traficului (estimarea calității serviciilor);
controlul admiterii conexiunii;
controlul fluxului și congestiei;
rutarea dinamică;
controlul comutării;
proiectarea de rețea;
atribuirea de canal în rețelele de comunicații mobile;
Caracterizarea și predicția traficului
Pentru controlul rapid și exact al traficului, în condițiile supraîncărcării rețelei este necesară caracterizarea traficului și predicția sa.
O RN este capabilă să învețe funcția distribuție de probabilitate a traficului, să selecteze parametrii semnificativi statistici și să estimeze valorile previzibile ale lor. Deci caracterizarea, clasificarea și predicția traficului reprezintă o aplicație directă a RN.
Aplicațiile uzuale sunt cu rețele multistrat antrenate cu metoda retropropagării erorii [][] și rețelele neuronale pe bază de funcții radiale [].
Controlul admiterii conexiunii
Controlul admiterii apelului a fost una dintre primele probleme rezolvate cu rețele neuronale datorită abilității acestora de a se adapta la situațiile de schimbare a traficului.
Controlul admiterii conexiunii este setul de acțiuni luate de rețea în timpul fazei de stabilire a apelului pentru a determina dacă cererea de conexiune / cale virtuală poate fi acceptată sau rejectată. O cerere de conexiune este acceptată doar dacă sunt suficiente resurse disponibile pentru stabilirea apelului pe parcursul întregii căi la parametrii QoS solicitați, parametrii de eficiență ai utilizării conexiunii și globali ai rețelei, în condițiile menținerii parametrilor căilor existente. Pentru aceasta trebuie evaluat gradul de disponibilitate curentă a încărcării rețelei și impactul adăugării de noi conexiuni. CAC este practic implementată prin rutare, controlul admisiei legăturii, alocarea legăturii și controlul comutării.
Ideea principală este de a învăța RN o relație între sosirea unei celule de la o anumită sursă în cadrul unei ferestre și banda echivalentă necesară pentru a suporta sursa. Simulările indică o reducere a ratei de pierdere a celulelor și o utilizare eficientă a rețelei de comunicații în cazul controlului admisiei conexiunii cu rețele neuronale.
Controlul fluxului și congestiei
Controlul fluxului și congestiei reprezintă probabil cea mai importantă aplicație în domeniul comunicațiilor. Apariția congestiei se poate datora mai multor cauze:
viteza de prelucrare a informațiilor de către procesoarele existente în nodurile rețelei fiind limitată, se ajunge în situația ca numărul celulelor retransmise pe căile de ieșire să devină tot mai mic datorită timpului afectat operațiilor de administrare la nivelul nodului;
capacitatea de transport spre următorul nod poate fi depășită dacă pe mai multe căi de intrare se recepționează date ce trebuie dirijate spre aceeași ieșire;
O soluție este folosirea memoriilor tampon în nodurile intermediare pentru ca acestea să absoarbă salturile traficului și să evite pierderea de celule. Dar introducerea memoriilor tampon produce întârzieri nedorite , care reprezintă un impediment major în diferite tipuri de servicii, ca de exemplu o conferință multimedia.
Majoritatea mecanismelor de control ale congestiei dezvoltate până în prezent sunt ineficiente. De aceea găsirea unui mecanism de evitare a congestiei în timp real fără degradarea calității serviciilor este vitală pentru comunicațiile moderne.
RN au demonstrat că reprezintă o soluție promițătoare. Majoritatea aplicațiilor utilizează rețele multistrat cu algoritmi de învățare cu control [] sau competitivi []. Experimentele au condus la o pierdere semnificativ redusă a celulelor și reducerea timpului de reacție.
Controlul comutării
În nodurile de comutare bufferele de ieșire trebuie să rezolve conflictele de comutare care apar atunci când mai multe celule sunt comutate simultan către aceeași legătură destinație. Când sosesc prea multe celule simultan sau /și apar conflicte de comutare repetate registrele de ieșire se vor satura și se vor pierde celule.Cozile de așteptare a celulelor pot fi amplasate fie la porturile de intrare, fie la cele de ieșire având asignate priorități în funcție de caracteristicile traficului.
Strategiile de control cu RN ale comutării au evoluat în general ca o soluție la problemele de optimizare.
O problemă celebră de optimizare este aceea a comis voiajorului. Acesta trebuie parcurgă în traseul său N orașe, trecând o singură dată prin fiecare oraș. Problema este de a determina ordinea orașelor în traseu , astfel încât distanța pe care o parcurge comis voiajorul să fie minimă. Problema este de tip combinatorial, numărul variantelor ce trebuie testate fiind N! =1x2x3x….xN. Acest număr este relativ comod pentru valori mici ale lui N, dar devine rapid foarte mare. Se spune că este o problemă de tip NP- complet .
Într-un mod similar problemelor de optimizare, ponderile rețelei Hopfield pentru comutarea de pachete sunt alese în conformitate cu mecanismul de comutare []. Minimizând funcția de energie asociată rețelei neuronale, rețeaua neuronală găsește regula de programare a pachetelor de la intrarea cozilor de ieșire din comutator, evitând blocarea la cap de linie (head of line blocking).
Rutarea dinamică
Majoritatea strategiilor de rutare sunt derivate din rețeaua Hopfield. Căile de comunicație ale rețelei primesc ponderi în conformitate cu diferite cereri. Toți algoritmii minimizează o funcție de cost (energie) asociate RN.
Există rezultate promițătoare ale aplicării rețelelor neuronale celulare, ce utilizează metoda Manhattan pentru găsirea drumului cel mai scurt [].
Ideea principală a algoritmului este distribuirea spațială a pachetelor în rețea cât se poate de uniform. Aceasta se realizează uitilizând strategia de rutare a drumului cel mai scurt, metoda Manhattan, dar ținând cont de distribuția pachetelor în rețea exprimată în funcție de densitatea traficului. Modelarea cu rețele neuronale celulare a fost aleasă pentru posibilitatea implementării VLSI și a vitezei deosebite de procesare. Simulările au demonstrat beneficiile strategiei de rutare prin îmbunătățirea semnificativă a performanțelor în special în condiții de trafic greu.
Proiectarea de rețea
Permanenta dezvoltare a mecanismelor de procesare crește necesitatea procesării distribuite ce trebuie realizată într-o rețea de comunicație complexă cu un mare număr de noduri ce își împart informația. Într-un astfel de mediu este dificil de găsit soluția corectă pentru structura rețelei. Proiectarea unei rețele de comunicație, adăugarea permanentă de echipament nou, implementarea de tehnici noi, actuale devine o sarcină deosebit de dificilă. Proiectarea convențională se pare că este depășită. Principalul motiv este absența tuturor datelor pentru echipament și tehnicile de transmisie, din moment ce rețeaua de comunicație este într-o permanentă schimbare. În plus orice inovații trebuie simulate înainte de implementarea rețelei, ceea ce crește timpul afectat proiectării.
RN proiectant folosește parametrii măsurați ai rețelei în dezvoltarea acesteia .
Atribuirea de canal în rețelele de comunicații mobile
Pentru atribuirea de canal în rețelele de comunicații mobile s-au testat diferite RN, rețeaua Hopfield [] și rețele competitive autoorganizatoare cu o regulă Kohonen modificată [], iar rezultatele obținute au fost performante.
Ca o concluzie RN sunt adecvate în toate situațiile în care nu există informație suficientă sau experiență, acolo unde metodele clasice au eșuat în a da soluții eficiente.
COMPONENTELE UNEI R.N.
Componentele unei R.N. sunt:
-unitățile de procesare;
-starea de activare a neuronilor (starea curentă);
-o ieșire pentru fiecare unitate;
-interconexiunile dintre unități, cărora le sunt asociate ponderi;
-o regula de propagare prin rețeaua de conexiuni;
-o funcție de activare care combina intrarea cu starea curenta a unei unități pentru a genera o nouă stare de activare;
-o regulă de învățare care modifică ponderile interconexiunilor prin experiență;
-un mediu în care operează sistemul;
Fig1 ilustrează componentele unei R.N. Prin cercuri sunt reprezentate unitățile de procesare. Unitatea ui are la un moment dat valoarea de activare ai(t), care trecuta prin funcția de activare fi determină o noua valoare de activare, care de obicei este chiar ieșirea oi. Prin intermediul conexiunilor , oi este aplicată unităților rețelei. Fiecărei conexiuni i se asociază un număr real wij, numit pondere, care determina efectul unității j asupra unității i. Toate intrările într-o unitate sunt combinate printr-un operator (uzual adunare), formând intrarea netă, neti. Ponderile interconexiunilor sunt adaptabile, deci se pot modifica printr-o funcție de învățare.
Fig.2.1. Componentele unei rețele neuronale
Fig.2 prezintă două simboluri utilizate adesea pentru marcarea neuronilor într-o RN.
2.1 Modelele neuronului
În literatură există mai multe modele pentru neuronii artificiali. Fig.2.2 prezintă două astfel de modele. Pragul(curentul de polarizarea) poate fi abordat și ca ponderea unei conexiuni de la o intrare separată x0. El se scade (sau se însumează) din suma ponderată a celorlalte intrări după valoarea intrării x0 (±1). Ecuațiile care îi caracterizează sunt de fapt aceleași:
(2.1)
(2.2)
unde:
wji care multiplică intrarea xi se numește pondere.Cu wji se notează ponderea conexiunii de la neuronul i înspre neuronul j;
xi este intrarea i;
este o constantă care se numește prag și trebuie sustras din suma produselor dintre intrări și ponderi;
netj este intrarea netă în neuronul j;
funcția f(.) este funcția de activare;
oj este ieșirea
Fig.2.2 Două modele ale neuronului
;
Simbolurile neuronului corespunzătoare celor două modele sunt ilustrate în Fig.2.3.
Fig.23 Simbolurile unui neuron
2.2 Unitățile de procesare
În R.N. unitățile de procesare sunt mici entități, de tip caracteristică. Ele pot reprezenta: caracteristici, litere, cuvinte, concepte, elemente abstracte asupra cărora pot fi definite modele cu anumite semnificații.Toate unitățile procesează în același timp, în paralel.
Există trei tipuri de unități: de intrare, de ieșire si ascunse.
Unitățile de intrare primesc semnale de la sursele externe sistemului. Aceste intrări pot fi de tip senzorial sau pot proveni din alte părți ale unui sistem mai mare, în care este încadrată rețeaua.
Unitățile de ieșire transmit semnale spre ieșirea sistemului. Semnalele de ieșire pot acționa asupra altor sisteme.
Unitățile ascunse primesc și transmit semnale în cadrul sistemului modelat. Ele nu sunt "vizibile" din exteriorul sistemului.
2.3 Starea de activare
Starea unității ui la momentul t este caracterizată de starea sa de activare ai(t). Starea unei rețele neuronale este dată de un vector de N numere reale, în care fiecare element reprezintă starea de activare a unei unități la un moment dat t.. Evoluția RN în timpul procesării este reprezentată prin stările de activare ale unităților sale în timp.În diferite modele, se fac presupuneri diferite asupra valorilor de activare permise pentru o unitate. Valorile de activare pot fi analogice sau discrete.
Valorile analogice pot fi orice număr real sau într-un interval mărginit. Valorile discrete pot fi binare, bipolare sau orice set mic de valori. O activare de 1 are semnificația că unitatea este activă, 0 (sau -1) are semnificația că unitatea este inactivă. Uneori sunt folosite seturi de valori discrete, ca de exemplu: (-1,0,1), (1,2,3, …,9).
Potrivit descoperirilor neurologice creierul uman este un calculator analogic. Fără a avea în prim plan criteriul plauzibilității biologice, dezbaterile referitoare la alegerea optimă dintre abordarea logică sau discretă este un subiect de actualitate. Argumentul major în favoarea abordării analogice este viteza superioară recunoscută a calcului analogic, la care se adaugă lipsa necesității sincronizării (obligatorie la RN digitale sincrone) dificil de realizat la rețelele mari.
Avantajul principal al abordării discrete este precizia calculelor, importantă mai ales în cazurile în care parametrii rețelei sunt supuși unor restricții severe, de exemplu referitoare la condiții de simetrie. Posibilitatea memorării pe o durată de timp a unor valori numerice utile reprezintă un alt avantaj. O problemă nesoluționată satisfăcător până în prezent este în cazul RN discrete rezoluția necesară procesării într-o aplicație dată. Trebuie făcută o distincție suplimentară în legătură cu gradul de cuantizare al semnalelor. Există rețele care folosesc semnale cu mai multe nivele de cuantizare al semnalelor, care pot proveni din utilizarea unor funcții de activare multinivel, sau pot avea intrinsec un asemenea caracter, ca în cazul utilizării unor coduri multinivel.
2.4 Ieșirea unităților
Unitățile unui sistem interacționeaza între ele prin intermediul ieșirii. Uzual ieșirea unității este dată de starea ei de activare.
2.5 Interconexiunile rețelei
Unitățile sunt conectate între ele prin interconexiuni cărora li se asociază ponderi. Modelul de interconexiune reprezintă "ceea ce știe sistemul" si va determina modul în care el răspunde la o intrare arbitrară.
În majoritatea cazurilor, fiecare unitate are o contribuție aditivă la intrarea unităților la care este conectată. În aceste cazuri, intrarea totală netă a unității uj, neti(t) este suma tuturor activărilor unităților ponderate.
(2.3)
O pondere pozitiva reprezintă o intrare excitatoare. O pondere negativa reprezintă o intrare inhibitorie. Adesea este convenabila reprezentarea modelului de conexiune printr-o matrice pondere W.
În cazul cel mai simplu, intrările excitatorii si inhibitorii ponderate sunt însumate algebric. Dacă intrările sunt supuse unei reguli mai complexe decât simpla însumare algebrica, este necesară definirea unei matrici separate We pentru intrările excitatorii si Wi pentru cele inhibitorii.
În cazul general este necesar un model mai complex. O unitate poate primi intrări de diferite tipuri, care sunt însumate separat. Pentru fiecare tip de conexiune este recomandabil să avem o matrice de conexiune separată.
2.6 Regula de propagare
Regula de propagare combină vectorul o(t) al ieșirilor cu matricea de conexiune pentru a produce intrarea netă , pentru fiecare tip de intrare într-o unitate.
Fie netij intrarea netă de tipul i in unitatea uj. Dacă există un singur tip de conexiune se suprimă indicele i, deci intrarea netă in uj va fi netj. Regula de propagare este în general de tip înainte, adică dinspre intrarea RN spre ieșirea acesteia..
Intrarea netă este uzual suma ponderată a intrărilor într-o unitate. Aceasta este dată de vectorul produs, care de exemplu pentru intrarea excitatorie este:
(2.4)
Similar pentru intrarea inhibatorie:
neti = Wi.o(t)
Când sunt implicate modele mai complexe de activare, sunt necesare reguli mai complexe de propagare.
2.7 Funcția de activare
Funcția de activare reprezintă funcția de transfer intrare-ieșire a neuronului. Ea combină intrarea curentă cu starea de activare existentă în neuron a(t) pentru a genera o nouă stare de activare a(t+1):
(2.5)
Funcția de activare poate fi deterministă sau stohastică (probabilistică). În cele ce urmează se prezintă câteva exemple:
funcția Heaviside (cunoscută în rețelele neuronale și sub numele de hard-limitatoare): unipolară (t) (treaptă unitate) sau bipolară sgn(t);
(2.6)
Fig. 2.4 Funcția Heaveside
Uneori intrarea netă trebuie să depășească o valoare numită prag pentru determinarea unei noi activări:
(2.7)
O funcție semiliniară unipolară poate fi definită printr-o relație de forma.:
(2.8)
Pentru varianta bipolară se poate utiliza relația :
(2.9)
Adesea funcția de activare trebuie să fie o funcție neliniară, nedescrescătoare, ca de exemplu:
(2.10)
Figura 2.5: Funcții de activare pentru neuron
a) comparatoare bipolară cu prag; b)liniară cu saturație; c)sigmoidală bipolară
Uzual funcția de activare este o funcție neliniară.. Un exemplu este funcția logistică numită și sigmoidă :
(2.11)
unde este un factor de proporționalitate. Avantajul acestei funcții este derivata sa, simplu de determinat :
(2.12)
Funcția tangentă hiperbolică este și ea des utilizată deoarece intervalul său de răspuns este [-1, +1]:
(2.13)
Și derivata sa se calculează relativ ușor :
(2.14)
Există rețele care utilizează funcții de activare probabilistice. Probabilitatea ca neuronul să fie activ este :
(2.15)
unde T este o constantă, numită temperatură. Aceasta dă panta curbei de probabilitate.
Fig.2.6 Funcție probabilistică de activare
Rețelele cu funcții neliniare sunt uzual utilizate, performanțele lor fiind superioare celor cu funcții liniare sau semiliniare.Deși majoritatea funcțiilor de activare sunt monotone, există și funcții nemonotone care conduc la performanțe foarte bune în special în memoriile asociative.
Fig.2.7 prezintă câteva astfel de funcții:
Fig.2.7 Funcții de activare nonmonotone
Se pot utiliza și alte tipuri de funcții, unele cunoscute din teoria aproximării, care pot conduce la performanțe superioare în diferite aplicații. Fie exemplul următor preluat din analiza Fourier :
(2.16)
sau altfel scris:
(2.17)
unde și
Se poate interpreta această ultimă relație ca o aproximare implementată cu o RN de tip spre înainte, care conține :
un neuron de intrare;
un neuron de ieșire
n neuroni ascunși cu funcția de activare sin(neti);
În acest caz, a0 corespunde pragului neuronului de ieșire, θn corespunde pragului neuronului ascuns n și cn ponderilor dintre neuronul ascuns n și neuronul de ieșire. Diferența esențială dintre transformata Fourier și cea a RN este că în primul caz n poate lua doar valori întregi, pe când în al doilea caz ponderile interconexiunilor pot lua orice valoare reală. În Fig.2.7.a se prezintă ieșirea unei RN antrenate cu zece modele să aproximeze funcția f(x)=sin(2x).sin(x), cu algoritmul retropropagării erorii. RN a fost implementată cu un neuron de intrare, un neuron de ieșire, patru neuroni ascunși și funcția de activare sinus. Cu linie întreruptă este reprezentată funcția aproximată și cu linie continuă ieșirea RN.
În Fig.2.7.b se prezintă ieșirea unei alte RN antrenate tot cu algoritmul retropropagării erorii și aceleași zece modele. RN a fost implementată cu un neuron de intrare, un neuron de ieșire, opt neuroni ascunși și o funcție de activare sigmoidă.
Se remarcă că performanța rețelei în primul caz este mult mai bună decât în cel de-al doilea caz, deși numărul neuronilor ascunși este mai mic.
Fig.2.7.a) Ieșirea unei RN antrenate BKP să aproximeze funcția f(x)=sin(2x).sin(x), ce utilizează funcția de activare sinus
Fig.2.7.b) Ieșirea unei RN antrenate în aceleași condiții ca în cazul a), dar o funcție de activare sigmoidă;
2.8 Reguli de învățare
Configurarea interconexiunilor unei rețele neuronale trebuie făcută astfel încât aplicarea unui set de intrări să genereze un set de ieșiri dorite Prin regula de învățare se modifică ponderile interconexiunilor în funcție de experiența RN. Există RN cu ponderi fixe ( ca de exemplu RN Hopfield și RN Hamming) și cu ponderi adaptabile. Pentru determinarea ponderilor există deci diferite metode:
fixarea explicită, utilizând informație apriori referitoare la particularitățile și eventual restricțiile la care este supusă aplicația considerată. Astfel de considerații conduc la sisteme specializate, de dimensiuni reduse, ușor de manipulat ;
determinarea ponderilor prin antrenare, generând rețelei modele de învățat și lăsând-o să-și modifice ponderile conform unei reguli de învățare, în mod iterativ ;
O condiție esențială este ca algoritmul de antrenare să fie convergent, adică la un moment dat ponderile să rămână constante, indiferent de intrările aplicate.
Se poate face o clasificare a RN în funcție de modalitățile de învățare:
2.8.1.RN cu învățare supravegheată (cu control)
Se generează rețelei un set de perechi de modele de intrare-modele de ieșire dorite, cu ajutorul cărora aceasta calculează mărimile de eroare în funcție de diferența dintre valoarea reală curentă a ieșirii și cea dorită, pe baza cărora se ajustează parametrii rețelei. Răspunsurile dorite pot fi furnizate din exterior sau de către sistemul global care conține rețeaua însăși (RN cu auto-control) .
(2.18)
Exemple sunt: regula Delta, regula Delta generalizată, algoritmul retropropagării erorii și variantele sale, cuantizarea vectorială cu control, pentru rețelele cu propagarea informației "spre înainte " respectiv algoritmul retropropagării erorii în timp și învățarea în timp real pentru RN recurente.
Fig.2.8 RN cu învățare supravegheată
2. 8.2 RN cu învățare nesupravegheată (fără control)
RN extrage singură anumite caracteristici ale modelelor de intrare și realizează gruparea modelelor de intrare, formând reprezentări interne distincte ale acestora. RN utilizează un gen de competiție între neuronii elementari, care are ca efect modificarea ponderilor conexiunilor numai a neuronului care câștigă întrecerea , restul ponderilor interconexiunilor rămânând neafectate.
În unele modele apare un parametru numit conștiință, care intră în funcție când unul dintre neuroni câștigă prea des competiția.
Fig.2.9 RN cu învățare nesupraveghetă
Reprezentative pentru această categorie sunt rețelele neuronale auto-organizatoare, RN cu cuantizare vectorială, RN pentru analiza componentelor principale. Aceste rețele pot încorpora și un mecanism de control care să permită o rafinare ulterioară a parametrilor.
2.8.3. RN cu învățare cu critic sunt numite și cu pedeapsă și recompensă Rețeaua nu beneficiază de un semnal dorit (ca în învățarea supravegheată), ci de unul apreciază cât de bine funcționează sistemul. Algoritmii aparținând acestei categorii se bazează pe observațiile experimentelor pe animale și funcționează după următorul principiu: dacă acțiunea unui sistem capabil să învețe are un efect favorabil, această acțiune este încurajată, în caz contrar este inhibată.
Fig.2.10 RN cu învățare cu critic
Teoria rezonanței adaptive utilizează cu succes acest tip de învățare.
Câteva dintre regulile de învățare uzuale sunt:
Regula lui Hebb
Conform acestei reguli ponderea în pasul k1 se modifică proporțional cu produsul dintre intrarea și ieșirea neuronului :
(2.19)
unde:
wij este variația vectorului pondere wij de la neuronul j către neuronul i din pasul k în pasul (k+1), dată de relația: ;
oi este ieșirea neuronului i;
xj este intrarea în neuronul j ;
η este o constantă de care depinde viteza de învățare, η (o,1);
Această regulă de învățare este fără control (nesupravegheată) deoarece nu utilizează răspunsul dorit.
Regula perceptronului :
Este o regulă supervizată pentru că în calculul variației ponderii se utilizează răspunsul dorit notat cu di :
(2.20)
unde x este vectorul intrărilor în neuronul j x=[x1 x2 …xj … xn ]
Regula Delta (sau regula Widrow-Hoff)
Denumirea de Delta este dată de diferența dintre ieșirea curentă și răspunsul dorit :
(2.21)
Regula este cunoscută și sub denumirea autorilor săi regula Widrow și Hoff.
Regula Delta generalizată
Modificările în ponderi se calculează cu :
(2.22)
unde f este derivata funcției de activare, deci este valabilă doar pentru funcții de activare continue .
Regula de învățare a corelației
Este o variantă a regulii lui Hebb:
(2.23)
Regulă de învățare de tip competitiv
În RN competitive se modifică de obicei doar ponderile neuronului câștigător. Există numeroase reguli de acest tip, exemple fiind următoarele două relații:
(2.24)
unde m este neuronul câștigător.
Regula outstar (a lui Grossberg):
(2.25)
Există bineînțeles multe alte reguli de învățare dezvoltate pentru a ameliora performanțele RN. Pe parcursul cursului vor fi prezentate și alte reguli de învățare.
2.9 Organizarea ierarhică a R.N.
2.9.1 Rețele neuronale cu procesare de tip în sus
În rețelele cu procesare în sus, informația se propagă spre înainte, de la intrare spre ieșire. Într-o numerotare a nivelelor de la intrare spre ieșire unitățile nivelului i vor afecta doar unitățile de nivel superior lui i, adică straturile i1, i2 . Matricea ponderilor W va avea elementele wij = 0 pentru toate unitățile uj aparținând unor nivele inferioare nivelului i . Uzual unitățile nivelului i nu afectează unitățile nivelului i+2..
2.9.2 Rețele neuronale cu procesare de tip în jos
În acest tip de model informația se propagă spre înapoi, de la ieșire spre intrare. Neuronii de pe nivelul i vor afecta doar unitățile de pe nivelurile inferioare lui i, adică din straturile i-1, i-2.
2.9.3 Rețele neuronale interactive (recursive)
Modelele interactive sunt modele în care pot exista conexiuni în ambele sensuri, de la nivelele inferioare către nivelele superioare și invers. În cazul general aceste rețele au și o reacție de la ieșire înspre intrare. Orice element al matricii de conexiune poate fi diferit de zero.
Experiența a confirmat supoziția teoretică ca RN multistrat au un potențial de procesare mai mare decât sistemele cu două straturi (intrare-iesire). La rândul lor, RN recursive au un potențial de procesare mai mare decât sistemele echivalente ierarhice, cu același număr de unități ascunse.
2.10 Inițializarea
Initializarea se referă la momentul de aplicare a regulii de activare. În procedura de initializare sincronă exista un cronometru central, care determină o evaluare simultană a activării tuturor unităților din RN. În procedura asincronă, initializarea se face probabilistic, pentru fiecare unitate, în parte. Avantajul procedurii asincrone constă în faptul că într-un interval de timp suficient de scurt este initializată o singură unitate. Aceasta îmbunătățeste stabilitatea rețelei, evitând oscilațiile(care apar destul de des în rețelele sincrone).
2.11 Reprezentarea mediului
Este esential pentru dezvoltarea oricărui model să existe o reprezentare clară a mediului în care operează acesta.
În R.N. mediul se reprezintă ca o funcție stochastică, variabilă în timp, în spațiul modelelor de intrare. Adică , la un moment dat există o probabilitate oarecare ca unul dintre modelele setului de modele posibile să fie aplicat la intrarea sistemului. Funcția de repartiție depinde, în general, atât de istoria intrarilor cât și de ieșirile sistemului. În practică, majoritatea modelelor implică o caracterizare mult mai simplă a mediului. Tipic, mediul este caracterizat de o densitate de probabilitate stabilă, independentă de intrarile și răspunsurile anterioare ale sistemului. În acest caz, pot exista 1,2,… ,M intrări posibile pentru rețea. Adeseori R.N. sunt restricționate de tipurile modelelor de intrare. Unele R.N. sunt capabile sa răspundă corect doar dacă vectorii de intrare formeaza un set liniar independent de vectori, altele doar dacă vectorii de intrare sunt ortogonali, altele sunt capabile să învețe să răspundă la modele de intrare esențial arbitrare.
Capitolul 3 Rețele cu propagarea informației spre înainte
3.1 Neuronul Mc Culloch-Pitts
Cel mai simplu model (Fig.3.1), realizat de Mc Culloch-Pitts în 1943 este discret, cu intrările xi[k], la momentul k, valori binare 0 sau 1. Funcția de activare este de tip comparator cu prag. Funcția sa de ieșire este funcția identitate. Ponderile sunt fixe.
(3.1)
unde:
(3.2)
este pragul neuronului;
Ponderile wi pot lua valoare 1, dacă efectul intrării corespunzătoare este excitator respectiv valoarea -1 dacă efectul este inhibator.
Fig.3.1 Neuronul Mc Culloch-Pitts
Deși acest model este extrem de simplu el permite implementarea funcțiilor logice elementare ȘI NU, SAU NU, pe baza cărora se pot sintetiza funcții logice complexe. După cum se știe orice funcție logică combinatorială poate fi sintetizată utilizând funcțiile NU și SAU. Figura 3.a,b ilustrează câteva exemple. Mai mult, folosind posibilitatea de a obține celule de întârziere cu un tact se pot construi și circuite secvențiale Fig.2c prezintă o celulă de memorare cu o intrare excitatoare 1 și una inhibatoare -1, care menține ieșirea constantă pe timp nedeterminat, în absența unei noi intrări.
Restricția la valori binare a intrării și mai ales a ponderilor (care sunt fixate la valori constante, fără posibilitatea de modificare în funcție de performanțele rețelei), tipul funcției de activare, precum și necesitatea de funcționare sincronă a rețelelor realizate cu astfel de neuroni constituie limitări majore ale modelului.
Mc Culloch si Pitts au abordat problematica invarianței în percepția imaginilor și a sunetelor, deschizând o noua etapă în aplicațiile RN în recunoașterea formelor ( Pitts si Mc Culloch 1947). Modelele lor sunt însă fără învățare.
Formalismul lui Mc Culloch-Pitts a marcat atât evoluția calculatoarelor digitale (conform memoriilor lui von Neumann), cât si începutul dezvoltării hard a R.N.
Mueller, Martin si Pultzrath (1962) au proiectat circuite care modelează neuronul Mc Culloch-Pitts. Ei și-au extins analiza si asupra unor circuite analogice, similare, pentru recunoașterea semnalelor acustice.
Fig.3.2 Exemple de funcții logice implementate cu neuronul Mc Culloch-Pitts
3.2 Perceptronul
Ideea adaptării ponderilor apare pentru prima oară, în studiile lui Caianello (1961) și ulterior în ale lui Rosenblat (1962). Utilizând structura neuronului Mc Culloch, admițând date de intrare și ponderi de valori oarecare (nu numai binare) și introducând o regula de modificare a ponderilor, Rosenblat a pus bazele unei clase largi de modele neuronale, numite perceptroane (1962).
Ieșirile perceptroanelor lor sunt binare (1 și 0) date de funcția de activare Heaveside sau bipolare (1 și –1) date de funcția signum:
(3.3)
O variantă, ce a marcat evoluția ulterioară a RN, este perceptronul cu corecția erorii prin cuplare inversă. Aici apare ideea adaptării ponderilor proporțional cu un semnal de eroare, dat de diferența dintre ieșirea curentă o și un semnal de control, ieșirea dorită, d , :
Ponderile vor fi modificate conform unei legi probabilistice, proporțional cu semnalul de reacție inversă e:
(3.4)
Rosenblat a dezvoltat și demonstrat teorema de convergență a perceptronului. Teorema de convergență afirmă că valorile ponderilor converg într-un număr finit de pași, adică wk1 wk2 wk3 wk4…, pentru un număr de iterații finit. Se pot face următoarele observații în legătură cu algoritmul de antrenare:
numărul de iterații necesar asigurării unei clasificări corecte depinde de viteza de antrenare și de succesiunea datelor folosite în etapa de antrenare;
coeficientul de adaptare este constant;
ponderile se modifică doar dacă apar clasificări greșite;
Astfel se fundamentează teoretic capabilitatea de asociere a perceptroanelor bazată pe similaritate (modele similare de intrare se transformă în modele similare de ieșire).
Aplicațiile posibile sunt de clasificare (în recunoașterea formelor) și de implementare de funcții logice.
Fig.3.3 prezintă câteva exemple în care se implementează funcții logice. Fig.3.4 este reprezentarea geometrică în spațiul modelelor de intrare.
Fig 3.3 Funcții logice implementate de perceptron
Fig.3.4 Reprezentarea geometrică în spațiul modelelor de intrare
3.2.1 Limitele perceptronului
Se poate demonstra că un neuron adaptabil (perceptronul) nu poate discrimina decât clase liniar separabile. În cazul particular al perceptronului cu două intrări și o ieșire, două categorii sunt liniar separabile dacă pot fi separate printr-o dreaptă. Funcțiile logice ȘI, SAU și NU implică clasificări separabile printr-o dreaptă. Ele sunt liniar separabile, deci perceptronul le poate implementa (Fig.3.5).
Definiție
Clasele distincte se pot separa prin așa zise suprafețe de decizie. Pentru determinarea suprafețelor de decizie trebuie evaluat un set de funcții de discriminare. Două clase se numesc liniar separabile dacă funcțiile de discriminare au forma următoare:
(3.5)
unde a0, a1,…an sunt constante.
Fig.3.5 Două categorii liniar separabile
Cel mai cunoscut caz de separabilitate nonliniară este cel al funcției SAU EXCLUSIV (XOR). Ieșirea este dată de relația . Tabelul de adevăr al funcției este următorul :
Regiunile de decizie ale funcțieie SAU Exclusiv nu pot fi separate printr-o dreaptă, ci prin două drepte, după cum se poate vedea în Fig.3.6.
Fig.3.6 Spațiul modelelor de intrare pentru problema lui SAU EXCLUSIV
Limitele de învățare ale unei rețele neuronale cu un singur strat de neuroni adaptivi nu sunt date de algoritmul de învățare ci de topologia rețelei, care permite divizarea spațiului de intrare doar în două semiplane. Funcția SAU EXCLUSIV poate fi implementată cu un perceptron, dacă este codată adecvat. Este suficient să se utilizeze trei intrări în loc de două, cea de-a treia fiind dată de produsul celorlalte două. Problema constă deci în învățarea relației ternare următoare:
Asocierea corectă pentru un perceptron cu pragul zero este generată de următoarele ponderi: w1=1 , w2=1 , w1=-2 . Acest exemplu demonstrează că o problemă de separabilitate nonliniară poate fi transformată într-una de separabilitate liniară, printr-o formalizare adecvată a problemei. În practică este chiar mai importantă reprezentarea adecvată a problemei decât arhitectura RN .
O altă metodă de rezolvare a problemelor nonseparabile liniar este utilizarea RN cu mai multe straturi. Deci pentru limite de decizie mai complexe sunt necesare mai multe straturi de neuroni. Pentru SAU EXCLUSIV sunt necesare două straturi de neuroni. Fig.3.7 prezintă două variante pentru implementare a funcției . Rețelele din Fig.3.7 se numesc cu două straturi, pentru că au două straturi de neuroni adaptabili.
Fig.3.7 Două rețele pentru învățarea funcției logice SAU EXCLUSIV
Alegerea ponderilor nu este unică. O RN cu două straturi poate forma regiuni de decizie convexe obținute prin intersecția semiplanelor de decizie ale neuronilor primului strat. Fiecare neuron al stratului ascuns generează un hiperplan de separare. Neuronii stratului de ieșire generează regiuni de decizie mai complicate, formate prin intersecția semiplanelor primului strat. Fig.3.8 prezintă două exemple.
O RN cu două straturi este capabilă să identifice orice fel de regiuni convexe, dacă numărul neuronilor din stratul ascuns este suficient și ponderile sunt adecvat adaptate.
Fig.3.8 Regiuni de decizie pentru o RN cu două straturi de neuroni
O RN cu trei straturi poate implementa regiuni de decizie arbitrare, complexitatea fiind limitată de numărul de neuroni. S-a demonstrat că precizia unei clasificări neliniare de către o RN cu trei straturi (2 ascunse ) poate fi făcută arbitrar de bună.
Deci cu alte cuvinte o RN cu trei straturi este capabilă să proceseze orice transformare neliniară continuă cu o precizie arbitrar de bună.
Fig.5 Regiuni de decizie pentru o RN cu trei straturi de neuroni
Cursul 3
3.3 ADALINE și M ADALINE
În 1960 Widrow si colaboratorii săi au realizat rețelele ADALINE și MADALINE , RN cu control. Denumirea ADALINE este un acronim pentru ADaptive LInear Combiner, care are un singur neuron adaptiv la ieșire , respectiv MADALINE pentru RN cu mai multi neuroni adaptivi (din engleză more ADALINE).
Într-o implementare simplă ADALINE conține un set de rezistențe controlabile conectate într-un circuit care însumează curenții determinați de tensiunile de intrare. Uzual blocul de însumare este urmat de un cuantizor a cărui ieșire este 1 sau -1, în funcție de polaritatea intrării. Alteori ieșirea o este analogică. Dacă se notează conductanțele de intrare cu wi , la ieșirea blocului de însumare se obține:
(3.6)
Ieșirea analogică conferă circuitelor ADALINE un potențial de procesare mai mare decât a perceptronului. Se pune problema determinării ponderilor wi astfel încât dacă la intrarea circuitului se aplică setul de valori xip la ieșirea sa să se obțină op, răspunsul dorit, pentru un număr mare p de modele arbitrare. Fig.3.10 prezintă structura ADALINE.
Fig.3.10 Structura ADALINE.
Se pune problema determinării ponderilor wi astfel încât dacă la intrare se aplică rețelei modelul xp la ieșire se obține modelul dorit dp, pentru un număr arbitrar de modele. Intrarea se aplică RN, care generează o ieșire op . Aceasta se compară cu o ieșire dorita , scop, dp furnizând o eroare ep. Eroarea se transmite înapoi, pentru corecția ponderii. Ponderile se modifică conform regulii de învățare “delta” cunoscută și sub numele de regula “Widrow-Hoff”:
(3.7)
este o constanta cu valori în intervalul (0,1), numită viteză de învățare.
Algoritmul minimizează eroarea pătratica medie pentru toate modelele de intrare si modelele de ieșire, adică :
(3.8)
Din acest motiv, algoritmul se numește si LMS (least mean square), adică cu cea mai mică eroare pătratică medie. Se poate demonstra că, alegând o viteza de învățare suficient de mică, sistemul converge spre o funcție de eroare minima, găsind setul de ponderi optim. La fiecare iterație eroarea scade cu , sistemul converge spre un minim al funcției de eroare, găsind setul de ponderi optim. (vezi Fig.3.11)
(3.9)
Fig.3.11 Suprafața de eroare pentru un neuron adaptiv cu regula de învățare Delta
Demonstrație
Se demonstrează că regula delta implementează un gradient descendent în spațiul erorilor.
(3.9)
Întrucât au un singur neuron adaptiv rețelele ADALINE pot implementa doar funcții separabile linear.
Rețelele MADALINE (Fig.3.12 ) au mai intrări, mai mulți neuroni adaptivi și la ieșire circuite logice de tip SAU, ȘI sau MAJORITATE.
Cu ponderile potrivit alese, MADALINE pot implementa și funcții logice nonlinear separabile.
Fig.3.12 Structura MADALINE care implementează funcția logică cu tabelul de adevăr TAB1
Fie, de exemplu funcția logică cu tabelul de adevăr următor:
MADALINE implementează deci o separabilitate nonlineară, prezentată în Fig. 3.13.
Fig.3.13 Regiunile de separare implementate de structura din Fig.3.12
3.4. Aplicațiile ADALINE
3.4.1 Filtrarea adaptivă
O aplicație directă este filtrarea adaptivă. Semnalul de intrare este aplicat unei linii de întârziere cu L celule și apoi unui ADALINE. Ieșirea este o combinație liniară a intrării curente și a eșantioanelor întârziate. Se utilizează regula Delta (algoritmul LMS) pentru determinarea ponderilor optime. Modificând ponderile se poate deci controla răspunsul la impuls al filtrului. Există mai multe tipuri de filtre adaptive, ce caută să obțină zerourile și polii funcției de transfer. Acest filtru realizează zerourile funcției de transfer. Structura lattice prezentată converge în anumite condiții mai rapid decât orice alt filtru, este simplă și robustă. Filtrul adaptiv LMS este cel mai des utilizat filtru adaptiv.
Fig. 3.14 Structura filtrului adaptiv
Fig. 3.15 Simbolul filtrului adaptiv
3.4.2 Modelarea unui sistem necunoscut
Se aplică semnalul de intrare filtrului adaptiv și sistemului necunoscut, ca în Fig.3.16. Ieșirea sistemului necunoscut se utilizează ca răspuns dorit pentru filtrul adaptiv. În urma adaptării ponderilor, diferența dintre ieșirea sistemului și a filtrului adaptiv va fi minimă. F.A. va modela sistemul necunoscut.
Fig.3.16 Modelarea unui sistem necunoscut
3.4.3 Predicția statistică
Ponderile filtrului adaptiv se adaptează pentru a genera cea mai bună estimare în medie pătratică între semnalul întârziat cu Δ iterații și semnalul de intrare curent (care, la rândul său reprezintă o predicție a intrării peste Δ eșantioane). Ponderile optime sunt copiate într-un filtru sclav, la a cărui intrare se aplică semnalul de intrare.
La ieșirea filtrului sclav se obține cea mai bună estimare a intrării peste Δ eșantioane .
Fig. 3.17 Un circuit adaptiv predictiv
3.4.4 Egalizor de canal
Canalele telefonice, radio și chiar fibrele optice au un răspuns în frecvență variabil ca nivel și nonlinear în fază. Așadar transmisia datelor la mare viteză determină interferența intersimbol. Circuitul egalizor combate acest fenomen, prin filtrarea semnalelor de intrare. Un modem dotat cu un filtru adaptiv capabil să se adapteze ca un sistem invers poate compensa imperfecțiunile (ca nivel și ca fază ale canalului de telecomunicații.
La ieșirea circuitului cuantificator se obține un semnal binar, care poate fi utilizat ca răspuns dorit pentru algoritmul adaptiv. Ponderile sunt inițializate la zero. Semnalul de ieșire este inițial afectat de zgomot. În timp ponderile se adaptează pentru a elimina diferența dintre răspunsul dorit și ieșirea curentă. Sporadic pot apare erori de adaptare, dar în medie filtrul funcționează corect. Egalizorul adaptiv are un răspuns plat ca nivel și liniar ca fază. Fără egalizator canalul de telecomunicații transmite semnalul cu o eroare de aproximativ 10 –1 . Odată ce filtrul s-a adaptat eroarea de transmisie este de ordinul 10-6.Prin utilizarea unor modemuri cu egalizoare încorporate viteza de transmisie s-a multiplicat cu patru. Discriminarea între semnale la recepție este clară +1 sau –1.
Fig.3.18 Egalizor de canal
4. Rețele neuronale multistrat
4.1 Arhitectura
În forma lor generală, rețelele neuronale multistrat RNM (multilayer perceptrons) au un strat de intrare, un număr de straturi intermediare, numite ascunse și un strat de ieșire, format fiecare dintr-un număr de neuroni. Când informația se propagă prin rețea de la intrare înspre ieșire, aceste rețele se numesc de tip "spre înainte" (feed-forward). În cele ce urmează se vor folosi modelul neuronului și notațiile introduse în paragraful 1.3.1.
Arhitectura unei RNM cu un singur strat ascuns este reprezentată în figura 4.1.
Fig.4.1 Arhitectura unei rețele neuronale multistrat
În mod uzual, funcția de activare este aceeași, pentru toți neuronii aparținând aceluiași strat. Pentru neuronii stratului de ieșire utilizarea unei funcții de activare f(net) liniare, cel mult semiliniare, ca în exemplul din relația (4.1), este satisfăcătoare din punctul de vedere al performanței realizate, pentru majoritatea aplicațiilor:
Pentru a se depăși performanțele rețelelor cu un strat, este însă necesar ca funcția de activare a neuronilor ascunși să fie cel puțin semiliniară. Uzual, ea este o funcție sigmoidă, dată de relația:
unde este un factor de proporționalitate, aparținând intervalului (0,1).
Avantajul unei astfel de funcții este calculul simplu al derivatei:
Adesea se utilizează și funcția tangentă hiperbolică, deoarece are valori în intervalul [-1, 1]:
Derivata ei este relativ simplu de determinat, cu relația:
Pentru antrenarea unei rețele RNM se utilizează uzual algoritmul "cu retropropagarea erorii".
4.2 Algoritmul cu retropropagarea erorii
Algoritmul cu retropropagarea erorii RPE ("back-propagation error") a fost fundamentat independent de mai mulți cercetători din domeniul analizei numerice (Bryson & Ho, 1969), al statisticii (Werbos în 1974) și cel al RN (Parker 1982 , Le Cun 1986, Rumelhart, Hinton & Wiliam 1986). Algoritmul este o învățare cu control în două etape și este cunoscut și sub denumirea de "regula delta generalizată", denumire introdusă în 1986 de grupul de cercetare creat de Rumelhart și Mc Clelland, într-o carte de referință în domeniul RN, "Parallel Distributed Processing" [D.E. Rumelhart, 86].
Algoritmul are 2 etape: prima în care informația se propagă prin rețea din strat în strat, de la intrare până la ieșire, și cea de-a doua, în care erorile se propagă de la ieșire înspre intrare, determinând actualizarea parametrilor RNM.
Prima etapă
Fie notațiile:
N – numărul intrărilor în RN (care este dimensiunea vectorilor de intrare);
Nh – numărul neuronilor stratului ascuns;
Nout – numărul neuronilor stratului de ieșire;
Ca în figura 4.1, în cele ce urmează, neuronii stratului de intrare vor fi indexați după i, neuronii stratului ascuns după j și cei ai stratului de ieșire după k. Intrarea netă netpj pentru fiecare model de intrare p, într-un neuron ascuns j, este dată de suma ponderată a intrărilor în neuron și de pragul j, prin relația:
Ieșirea opj a fiecărui neuron ascuns se calculează ca o funcție de intrarea netă:
În cazul unei rețele neuronale cu un singur strat ascuns, ieșirea opk a neuronului k de ieșire se exprimă în funcție de informația primită din stratul ascuns cu relația:
și vectorul este vectorul ponderilor conexiunilor neuronului k de ieșire. Funcția globală realizată de RN la ieșirea neuronului k este deci:
Ieșirea curentă opk se compară cu răspunsul dorit dpk, generând, în neuronii de ieșire, o eroare pk:
unde f' este derivata funcției de activare a neuronului.
Etapa a doua
În etapa a doua, erorile se propagă de la ieșire spre intrare, din strat în strat determinând modificarea ponderilor conexiunilor în sensul minimizării erorii la nivelul fiecărui neuron în parte. Regula de învățare pentru conexiunile dintre neuronii de ieșire și cei ascunși este:
unde Δpwkj reprezintă variația ponderii wkj a interconexiunii dintre neuronul j și neuronul k și este constanta de învățare care poate lua valori în intervalul (0,1).
Pentru neuronii ascunși, indexați după j, erorile pj se calculează cu ajutorul erorilor neuronilor de ieșire pk cu relația:
Apoi se modifică ponderile conexiunilor dintre neuronii ascunși și intrări cu relația:
Dacă în RN există mai multe straturi ascunse, erorile se evaluează pentru fiecare strat cu relația (4.12) și apoi se determină noile ponderi dintre stratul anterior și cel succesiv. În rețea pot exista și ponderi fixe. Dacă există neuroni de ieșire și în straturile ascunse, aceștia însumează două tipuri de erori: erori rezultate din compararea ieșirii cu răspunsul dorit și erori obținute prin propagare, de la neuronii de ieșire spre neuronii cu care sunt cuplați. Algoritmul cu retropropagarea erorii minimizează eroarea pătratică medie în fiecare iterație. Studiile arată că RN converge în general spre un minim local, care reprezintă în unele cazuri o soluție acceptabilă. În literatura de specialitate sunt prezentate mai multe metode pentru evitarea minimelor locale, aspect care va fi abordat în cele ce urmează.
În literatură se demonstrează [S.Haykin, 94.2] că algoritmul cu retropropagarea erorii implementează un gradient descendent al erorii totale în spațiul ponderilor, adică este satisfăcută relația:
unde dE/dw este gradientul aleatoriu necunoscut al erorii totale dintre modelele de intrare și modele de ieșire dorite. White a demonstrat că relația (4.14) este de fapt o aproximare stochastică [S. Haykin, 94.2].
Algoritmul presupune o etapă de antrenament, una de testare și apoi cea de utilizare. Crearea bazei de date și selectarea datelor de antrenament, respectiv de testare, au o influență majoră în succesul sau eșecul funcționării unei RN. În timpul antrenamentului, fiecare pereche (xp , dp) model de intrare-model de ieșire dorit este prezentată repetat. Necesitatea unei prezentări repetate a modelelor în timpul antrenamentului reprezintă una dintre carențele algoritmului cu retropropagarea erorii, deoarece conduce la un timp îndelungat afectat antrenamentului RN. În timpul testării se aplică doar modelele de intrare, verificându-se statistic corectitudinea funcționării. În cazul în care performanța obținută este acceptabilă, RN poate fi utilizată în practica curentă.
4.3 Aspecte importante ale algoritmului
cu retropropagarea erorii
În cele ce urmează se prezintă câteva dintre elementele care influențează semnificativ performanțele algoritmului cu retropropagarea erorii, ilustrându-se cauzele unor posibile rezultate nesatisfăcătoare și oferindu-se câteva indicații utile în aplicațiile practice [S. Haykin, 94.2], [Y.H. Hu, 02].
4.3.1 Crearea bazei de date
Crearea bazei de date solicită cel mai îndelungat efort în dezvoltarea unei aplicații și are o importanță majoră în succesul sau eșecul acesteia. Această etapă presupune:
adunarea datelor;
analiza datelor;
alegerea variabilelor;
preprocesarea variabilelor de intrare, astfel încât RN să poată învăța eficient;
Din practica curentă specialiștii afirmă că 9/10 din dezvoltarea unei aplicații este soluționată prin colectarea datelor adecvate. Selectarea datelor de intrare implică adesea alegerea dintre mai multe variabile, astfel încât familiaritatea cu domeniul aplicației este de neprețuit. Specialiștii în RN colaborează cu experții în domeniul aplicației pentru dezvoltarea RN.
Analiza datelor de intrare se face din perspectiva tehnicilor statistice. Corelația dintre o anumită intrare și o anumită ieșire poate sugera includerea sau excluderea variabilei. O corelație puternică dintre două variabile poate duce la eliminarea uneia dintre ele. După alegerea celor mai semnificative intrări se pune problema examinării distribuției lor și în general se elimină valorile în afara distribuției tipice. Este de dorit ca perechile de date intrare-ieșire folosite în procesul de antrenare să fie cât mai diferite, pentru ca rețeaua să aibă la dispoziție un număr de "scenarii" cât mai mare pentru problema concretă considerată. În setul de antrenare se inserează câteodată (în special atunci când baza de date este redusă sau puternic redundantă) și date provenind din suprapunerea unor nivele de zgomot peste valorile originale, ceea ce are ca efect îmbunătățirea capacității de generalizare a rețelei. Analiza datelor poate duce la identificarea de tendințe, cicluri sau alte relații care pot fi extrase prin preprocesare.
Preprocesarea transformă datele astfel încât ele să poată fi mai ușor învățate de RN. Preprocesarea poate implica calculul de sume, diferențe, derivate, puteri, radicali, medii, transformate Fourier sau extragere de caracteristici. O RN poate pregăti datele de intrare pentru o altă RN, realizând de exemplu o grupare, înainte de o clasificare mai rafinată.
Cantitatea datelor suficiente este o problemă complexă, adeseori afectată de considerații practice, ca de exemplu costul colectării datelor. Datele de antrenament trebuie să asigure un eșantion reprezentativ și suficient pentru un antrenament corect. Seturi mari de date reduc riscul subeșantionării funcției de învățat, dar în acest caz RN necesită un timp îndelungat de antrenare. Seturi mici de date implică o antrenare rapidă, dar rețeaua poate eșua în faza de utilizare. Suficiența datelor depinde de mai mulți factori, ca de exemplu: mărimea RN, distribuția intrărilor și ieșirilor, cerințele testării. Din practica curentă s-a ajuns la concluzia că pentru un antrenament eficient sunt suficiente aproximativ zece modele pentru fiecare interconexiune a rețelei. O altă regulă empirică apreciază că trebuie să existe următoarea relație între dimensiunea bazei de date considerate D, folosite în procesul de învățare, numărul ponderilor Nw și valoarea finală a erorii pătratice E(∞):
Împărțirea judicioasă a bazei de date, într-un set de antrenare și altul de validare, este hotărâtoare în obținerea unor performanțe de generalizare satisfăcătoare. Există rezultate teoretice care justifică alegerea dimensiunii setului de date de antrenament la aproximativ 90% și a celui de validare la aproximativ 10% din baza de date originală.
4.3.2 Modalități de antrenare
Strategia uzuală presupune antrenarea RN multistrat ″off-line″, cu date disponibile în baza de date. Există două metode de antrenare ″off-line″, pentru o RN multistrat cu algoritmul cu retropropagarea erorii:
1. Modul ″model cu model″ ( ″pattern by pattern mode″) constă în modificarea setului de ponderi după câte o prezentare a unei singure perechi de date model de intrare- model de ieșire dorit. Se recomandă o prezentare aleatoare a datelor de antrenament, pentru a evita ca rețeaua să considere, în mod eronat, că acestea au un caracter periodic, intrinsec. Există indicații empirice că viteza de convergență a algoritmului este mai mare în acest caz.
2. Modul ″pachet″ (″batch mode″) în care ponderile sunt ajustate după prezentarea întregului set de date de antrenament. Aplicarea datelor de antrenament o singură dată se numește epocă de antrenare. Varianta optimă de antrenare depinde de aplicația concretă.
Antrenarea în timp real, ″on-line″, este mai apropiată de condițiile reale de utilizare a RN. Datele de antrenare sunt obținute în timp real, din măsurători curente ale procesului de modelat și determină modificarea imediată a parametrilor RN.
Dezavantajul constă în faptul că în urma unei modificări radicale a parametrilor, la prezentarea unei perechi model de intrare – model de ieșire dorit, RN își poate pierde capacitatea de interpolare a unor date ulterioare. Dacă dimpotrivă, noua asociere este prea aproape de cea anterioară, modificarea parametrilor poate fi nesemnificativă.
4.3.3 Criterii de oprire a învățării
Există mai multe criterii de oprire a antrenării unei RN multistrat cu algoritmul RPE, ca de exemplu:
După un număr de iterații predefinit, dar există riscul ca eroarea să nu scadă suficient;
La o valoare impusă a erorii, dar numărul de iterații ar putea fi prea mare;
La o valoare dată a variației erorii pentru două iterații consecutive. Metoda este inadecvată pentru situațiile în care eroarea are paliere de-a lungul cărora se modifică foarte puțin, deși în valoare absolută este considerabilă.
Validarea prin intersecția datelor (″cross-validation″). RN se antrenează cu datele de antrenament, timp în care eroarea descrește continuu. Se verifică funcționarea RN cu datele de testare, timp în care eroarea descrește, apoi crește din nou, ca în figura 4.2.
Fig.4.2 Evoluția erorii în funcție de numărul de iterații pentru faza de antrenament,respectiv testare
În acest interval, așa numit de supraantrenare (″overfitting″), RN nu mai modelează procesul care a generat asocierile model de intrare – model de ieșire dorit, ci învață chiar datele. Ponderile RN se îngheață la un număr de iterații optim, corespunzător momentului în care eroarea din faza de testare începe să crească.
4.3.4 Generalizarea
Odată antrenată RN, se pune problema cât de bine generalizează. A generaliza, conform dicționarului explicativ, înseamnă a formula principii sau concluzii din detalii obținute prin experiență. Abilitatea unei RN de a generaliza se referă la identificarea de reguli ce-i permit să facă predicții corecte asupra unor date necunoscute. Capacitatea de generalizare a unei RN se verifică pe setul de date de testare. Factorii care o influențează sunt: numărul eșantioanelor de date, complexitatea problemei, mărimea rețelei. Există studii care stabilesc limita inferioară și superioară a capacității de generalizare a unei RN (măsură cunoscută sub denumirea de ″dimensiunea Vapnik-Cervonenkis″), în funcție de dimensiunea modelelor de intrare, numărul neuronilor ascunși, numărul total al neuronilor RN, numărul ponderilor RN.
4.3.5 Funcția de activare
Utilizarea unei funcții de activare neliniare conferă unei RN avantajul unui potențial de procesare superior comparativ cu cazul utilizării unei funcții liniare. Astfel o RN cu o funcție de activare neliniară va necesita un număr mai mic de neuroni ascunși, chiar de straturi, decât o RN cu o funcție de activare liniară pentru a rezolva o aceeași problemă. Uzual, funcția de activare a unui neuron este o funcție neliniară bipolară (4.16) sau unipolară (4.17), funcții de inspirație biologică:
S-au observat creșteri semnificative ale vitezei de convergență în cazul utilizării unei funcții de activare bipolare. Ajustarea parametrului a, cu valori în intervalul (0,1), respectiv scăderea sa în timp, are efecte benefice în special în faza inițială a procesului de învățare.
Un avantaj major al acestor funcții îl constituie simplitatea obținerii derivatelor de ordinul I cu relația (4.3), care permite evaluarea rapidă a erorilor δ în algoritmul RPE. Găsirea tipului adecvat de neliniaritate pentru o aplicație dată conferă forță de calcul superioară unei rețele neuronale.
În aplicațiile de clasificare se utilizează adeseori funcția denumită softmax, care permite interpretarea ieșirilor rețelei neuronale ca probabilități condiționate:
Derivata funcției de activare are un efect semnificativ asupra vitezei de convergență. Observația conform căreia variația ponderilor, direct proporțională cu derivata funcției de activare, este neglijabilă pentru semnale mari (pentru care derivata se anulează) a impus creșterea artificială a valorii derivatei. Prin adăugarea unei constante de 0,1 s-a redus în unele situații timpul de procesare la jumătate.
4.3.6 Funcția de eroare
În cazul unei rețele neuronale multistrat, funcția de eroare este o funcție multidimensională neliniară, ai cărei parametrii sunt valorile interconexiunilor și pragurile neuronilor. Un algoritm de antrenare oarecare urmărește modificarea acestor parametrii în sensul minimizării erorii.
Într-o formă generală, pentru o RN cu N neuroni, funcția de eroare poate fi dată de relația:
unde:
-djp este răspunsul dorit pentru modelul p de intrare;
-opj este ieșirea curentă a neuronului j pentru modelul p de intrare;
-W reprezintă totalitatea parametrilor rețelei (ponderile și pragurile);
-Xp este modelul de intrare p;
Pentru R=2 se obține eroarea medie pătratică.
Observații:
Eroarea pătratică medie este extrem de sensibilă la prezența unor erori particulare mari, pentru modelele de intrare atipice ("outliers"). Performanțe superioare se obțin pentru alte tipuri de distanțe metrice, ca de exemplu, pentru distanța Manhattan, care are R=1.
Funcția de eroare definită anterior este specifică modului de antrenare de tip "pachet" (batch) (ajustarea parametrilor rețelei se face după fiecare prezentare integrală a bazei de date disponibile). Reprezentarea geometrică a funcției de eroare pune în evidență existența unui minim global și a mai multor minime locale, ca în figura 4.3. Este important de observat că aspectul funcției de eroare este independent de algoritmul de învățare. În cazul unei funcții de activare neliniare suprafața funcției eroare nu este concavă, astfel încât există posibilitatea ca algoritmul de antrenament să se oprească într-unul dintre minimele locale. În acest minim local, eroarea poate fi mare. Pentru unele aplicații, oprirea într-unul dintre minimele locale reprezintă o soluție a problemei, din moment ce eroarea obținută este acceptabilă. Un exemplu în acest sens îl reprezintă implementarea funcției SAU EXCLUSIV.
Observând natura statistică a algoritmului retropropagării erorii, White a propus tehnici de optimizare robuste ale statisticii pentru a crește insensibilitatea RN la perturbații. Eroarea se poate înlocui cu o funcție de eroare, ca de exemplu: . În alegerea funcției de eroare se apelează adesea la metoda încercării.
Fig.4.3 Aspect tipic al funcției de eroare
Tehnicile de optimizare utilizate în prezent se încadrează într-una dintre următoarele două categorii:
a) Metode în care funcția de eroare descrește sau rămâne constantă de la o iterație la alta, fără posibilitatea de a crește temporar. Dezavantajul acestora este imposibilitatea de a "evada" din minimele locale. Exemple din această categorie sunt algoritmul RPE de tip gradient conjugat, algoritmul RPE de tip quasi-Newton, precum și varianta "tampon" a algoritmului RPE cu scădere după gradient.
b) Metode în care eroarea evoluează în medie către valoarea minimă, permițând creșteri temporare ale valorii acesteia. Din această categorie sunt varianta "model cu model" a algoritmului RPE cu scădere după gradient și varianta RPE cu impuls.
Unele dintre metodele performante de optimizare neliniară, ca de exemplu algoritmul RPE de tip gradient conjugat și algoritmul Levenberg-Marquardt, fac apel la aproximări pătratice locale ale funcției de eroare și utilizează matrici jacobienne ale derivatelor parțiale de ordinul întâi sau matrici hessienne ale derivatelor parțiale de ordinul doi.
4.3.7 Inițializarea ponderilor și pragurilor
Valorile inițiale ale ponderilor și pragurilor se aleg cu atenție pentru a preîntâmpina saturarea prematură a neuronilor și deci scăderea vitezei de convergență a algoritmului. De obicei acestea se aleg aleatoriu, eventual uniform distribuit într-un interval de valori:
[-2,4/; 2,4/]
unde Fi este numărul total de intrări în neuron.
4.3.8 Viteza de învățare
Alegerea vitezei de învățare , în intervalul de valori (0,1) are o importanță deosebită în evoluția procesării.
O viteză de învățare mare, asigură o convergență rapidă, dar poate determina oscilații ale rețelei;
O viteză de învățare mică, în intervalul (0.05, 0.25) are ca efect mărirea timpului de procesare și poate duce la împotmolirea în minime locale cu o probabilitate mai mare;
Deci, pentru a mări convergența algoritmului de antrenare este necesară creșterea constantei de învățare. Există mai multe metode folosite pentru satisfacerea acestei condiții:
Metoda impulsului
Metoda impulsului a fost introdusă de Rumelhart, Hinton și Williams, în 1986, într-o carte de referință în domeniul RN, "Parallel Distributed Processing" [D.E.Rumelhart, 86]. Prin introducerea unei relații între variația curentă a ponderii Δpwij(t+1) și modificarea ei anterioară Δpwij(t) se pot asigura pași mai mari în procesare (convergență mai rapidă ) și se evită oscilațiile rețelei la o viteză mare de învățare:
unde este o constantă, numită impuls ("momentum"), ce determină efectul variației anterioare a ponderilor asupra variației curente.
Fig.4.4 Convergența algoritmului de antrenare
a) pentru o viteză mică de învățare; b) pentru o viteză mare de învățare;
c) pentru o viteză mare de învățare și un termen de impuls;
Dacă este zero, se poate regăsi în relația (4.20) algoritmul clasic al retropopagării erorii. Dacă variația ponderii are de la o iterație la alta același semn, atunci, în pasul următor, ea va crește cu αΔwij(t). Astfel este favorizată parcurgerea "dealurilor" în funcția de eroare. Dacă Δwij(t) își schimbă semnul de la o iterație la alta atunci Δwij(t) scade în pasul următor cu αΔwij(t) Astfel metoda are un efect stabilizator, realizând practic o filtrare a variațiilor ponderilor.
Figura 4.4 reprezintă convergența rețelei în spațiul ponderilor în trei cazuri posibile:
pentru o viteză mică de învățare, fără impuls, când este necesar un timp îndelungat pentru atingerea minimului;
pentru o viteză mare de învățare, fără impuls, când minimul nu poate fi atins datorită oscilațiilor rețelei;
pentru o viteză mare de învățare și un termen de impuls, când minimul este atins rapid;
Metoda netezirii
Este o generalizare a metodei impulsului, introdusă de Sejnowski și Rosenberg, în 1987, care utilizează relația:
Dacă:
constanta b=0, atunci relația (4.21) este forma standard a algoritmului RPE ;
b=1, atunci ponderile rămân neschimbate;
b (0,1) atunci variația ponderii este ″netezită″ cu constanta b;
Metoda vitezei de învățare variabile
Pentru a evita oscilațiile RN, care pot apare în jurul soluției optime, se poate alege o viteză de învățare descrescătoare în timp. Descreșterea rapidă poate fi asigurată de condiția :
unde η[n] este viteza de învățare la momentul n.
Dacă descreșterea vitezei de învățare este prea rapidă, există riscul ca ponderile să uite modelele deja învățate. Astfel încât viteza de învățare trebuie să descrească suficient de lent, satisfăcând relația:
Dacă [n]=1/n condițiile (4.22) și (4.23) sunt simultan satisfăcute. Cele două condiții reprezintă așa numita dilemă plasticitate-stabilitate, descoperită de Grossberg, care poate fi formulată astfel :
O RN trebuie să satisfacă două condiții contradictorii :
1. Trebuie să fie suficient de stabilă pentru a-și aminti modelele anterior învățate ;
2. Trebuie să fie suficient de plastică pentru a putea învăța modele noi ;
Satisfacerea celor două condiții menționate anterior nu garantează convergența algoritmului RPE, ci asigură doar o comportare "rezonabilă".
4.3.9 Problema minimelor locale
Există mai multe metode pentru evitarea minimelor locale:
schimbarea constantei de învățare;
schimbarea ponderilor inițiale;
modificarea numărului de neuroni ascunși;
Adăugarea unor valori aleatoare mici ponderilor, procedură cunoscută sub numele de "scuturarea rețelei", permite RN ieșirea dintr-un minim local. Dacă noua stare este suficient de îndepărtată de minimul local, procesarea se poate desfășura într-o nouă direcție, fără a exista riscul revenirii în minim.
Dacă performanța obținută într-un minim local este acceptabilă, acesta poate fi considerat o soluție a problemei.
4.3.10 Arhitectura
Prin alegerea adecvată a arhitecturii rețelei se poate diminua probabilitatea apariției unor minime locale ale funcției de eroare. Pentru alegerea arhitecturii optime a unei RN pentru o aplicație dată, respectiv pentru determinarea numărului de straturi ascunse necesare și a numărului neuronilor dintr-un strat, nu există criterii cantitative, ci doar reguli empirice. Probabil că acest aspect nu se va rezolva în cazul general, din moment ce fiecare aplicație are alte cerințe pentru rețea. Numărul neuronilor trebuie să fie suficient de mare pentru a genera o configurație a regiunilor de decizie suficient de complexă, pentru o problemă dată.
Dimensiunea RN trebuie judicios aleasă astfel încât să nu fie subdimensionată sau supradimensionată. O rețea neuronală prea mică nu va fi capabilă să generalizeze în mod adecvat. O rețea neuronală prea mare ar putea fi prea capabilă, prezentând dezavantajul manipulării greoaie. Numărul conexiunilor ar fi în acest caz foarte mare și pentru determinarea ponderilor ar fi necesar un număr foarte mare de date, respectiv un timp îndelungat de antrenament. Pentru determinarea mărimii optime se poate recurge la metoda empirică a încercărilor.
Literatura de specialitate consemnează mai multe modalități de determinare a mărimii optime a unei rețele:
Se construiește cea mai mică rețea posibilă pentru aplicația în cauză și apoi i se adaugă treptat neuroni, până când performanța realizată este satisfăcătoare;
Se construiește o rețea mare și apoi se elimină treptat neuronii inutili, verificându-se de fiecare dată performanța rețelei ;
Se apreciază că numărul de neuroni din primul strat ascuns, trebuie să fie de trei ori mai mare decât numărul neuronilor din al doilea strat ascuns, pentru ca acest strat să furnizeze trei sau patru laturi pentru fiecare regiune identificată de al doilea strat ascuns. În general structura unei RN multistrat trebuie să fie una de tip compresie, de la un număr mai mare de neuroni spre un număr redus de neuroni. În cazul în care problema de instruire presupune divizarea spațiului vectorilor de intrare în m clase, RN trebuie să aibă m ieșiri, fiecare ieșire corespunzând unei clase.
În unele cazuri este necesară o creștere exponențială a numărului de straturi pentru a obține o creștere liniară a vitezei de învățare. Există însă și probleme pentru care viteza de instruire descrește cu mărimea numărului de straturi.
Exemplu
După cum am menționat anterior, este o adevărată artă, ce implică întreaga experiență a proiectantului alegerea arhitecturii adecvate, a funcției de activare și a algoritmului de antrenament pentru o RN care să genereze soluția optimă într-o aplicație concretă.
Pentru a exemplifica impactul funcției de activare vom prezenta comparativ [B.J.A. Kröse, 94] performanțele obținute de două rețele neuronale multistrat, antrenate cu algoritmul retropropagării, ce aproximează funcția f(x)=sin(2x)sin(x).
În figura 4.5 este reprezentată ieșirea unei RN implementată cu un neuron de intrare, un neuron de ieșire și opt neuroni ascunși ce procesează o funcție de activare sigmoidă. RN a fost antrenată cu zece modele să aproximeze funcția dorită f(x)=sin(2x).sin(x). În figură, cu linie întreruptă este reprezentată funcția aproximată și cu linie continuă ieșirea RN.
Fig.4.5. Ieșirea unei RN antrenate cu algoritmul retropropagării erorii să aproximeze funcția f(x)=sin(2x).sin(x), ce utilizează o funcție de activare sigmoidă
În figura 4.6 se prezintă ieșirea unei alte RN cu o arhitectură semnificativ redusă, antrenată tot cu algoritmul retropropagării erorii și cu aceleași zece modele.
RN a fost implementată cu un neuron de intrare, un neuron de ieșire, patru neuroni ascunși ce procesează o funcție de activare armonică, respectiv sin(), preluată din teoria aproximării. Se remarcă că performanța rețelei în al doilea caz este net superioară decât în primul caz, deși numărul neuronilor ascunși este semnificativ mai mic. Așadar alegerea funcției de activare optime poate îmbunătăți semnificativ performanța obținută de o RN.
Fig.4.6 Ieșirea unei RN antrenate în aceleași condiții ca în cazul Fig.4.5, dar cu o funcție de activare sinus în neuronii ascunși;
Cursul 4
Egalizoare
Introducere
Canalele de comunicație au, în cazul cel mai general, caracteristici de fază și amplitudine neliniare și variabile în timp, datorită neliniarităților intrinseci, condițiilor meteo de propagare, zgomotelor aditive din mediul înconjurător și zgomotului termic al dispozitivelor electronice. Amplificatoarele care lucrează în mod uzual în apropierea punctului de saturație introduc și ele neliniarități fără memorie, care combinate cu efectele filtrelor de transmisie și recepție devin neliniarități cu memorie. În consecință, semnalele transmise sunt afectate de diferite distorsiuni neliniare, atenuări, zgomot aditiv, interferență intersimbol, interferență cu canalele adiacente, etc.
Tehnica de reconstrucție a simbolurilor transmise este egalizarea de canal. În cazul unei dispersii mari a valorilor datelor de intrare, egalizoarele liniare se confruntă cu problema instabilității numerice. Deoarece, în general, canalele de comunicații sunt variabile în timp, egalizoarele trebuie să fie adaptive, pentru a urmări variațiile în timp ale răspunsului în frecvență al canalului. În cazul distorsiunilor neliniare, generate de canalele variabile în timp, egalizoarele liniare nu au performanțe bune. Singura soluție în cazul distorsiunilor neliniare și severe ale canalelor de comunicație o reprezintă egalizoarele neliniare. Abordând problema egalizării ca o problemă de clasificare, rețelele neuronale pot genera regiuni de decizie arbitrare cu o mare precizie. Studiile realizate în ultimul deceniu au stabilit superioritatea egalizoarelor neuronale comparativ cu cea a egalizoarelor tradiționale, în special în condițiile distorsiunilor neliniare mari și a semnalelor rapid variabile în timp. Implementarea prin intermediul rețelelor neuronale oferă avantajul unei viteze de procesare deosebite, în timp real, absolut necesară pentru comunicațiile viitorului.
Deoarece comunicațiile viitorului se vor baza pe transmisiile eficiente din punct de vedere spectral, ca de exemplu cele care utilizează semnale modulate în cuadratură, studiile internaționale curente vizează în mod special aceste semnale. Semnalele modulate în cuadratură, având anvelopă variabilă, sunt mai puternic afectate atât în fază, cât și în amplitudine, de neliniaritățile introduse în transmisie. Pentru a elimina distorsiunile semnalelor modulate în fază și în cuadratură sunt necesare egalizoare pentru semnale complexe. Egalizoarele cu RN pentru semnale complexe sunt extensii directe ale celor pentru semnale reale, obținute prin înlocuirea parametrilor relevanți, ca de exemplu, intrările, ieșirile, ponderile, pragurile șisau funcțiile de activare, cu mărimi complexe [D.Jianping,02].
Literatura de specialitate prezintă diferite tipuri de egalizoare neliniare, variante clasice, variante hibride care încorporează și tehnica neliniară a rețelelor neuronale și variante care folosesc exclusiv rețele neuronale. Egalizoarele hibride sunt uzual combinații între un filtru liniar transversal și diferite tipuri de rețele neuronale, cu sau fără reacție inversă. Filtrul liniar transversal elimină distorsiunile liniare, ca de exemplu interferența intersimbol, astfel încât rețeaua neuronală se poate ocupa exclusiv de distorsiunile neliniare.
Pentru implementarea egalizoare adaptive neuronale s-au abordat diferite arhitecturi implementate cu:
RN multistrat de tip spre înainte, antrenate cu un algoritm de tip gradient descendent, ca de exemplu algoritmul retropropagării erorii [S. Chen, 90], [A.Kantsila, 04], [T.Kim, 02];
rețele neuronale cu legături funcționale [A. Hussain, 97], [J.C.Patra, 99];
rețele neuronale cu funcții de bază radiale [I. Cha, 95 ], [S. Chen, 94a], [Q. Gan, 99], [D.Jianping, 02], [J. Lee, 96], [J.Lee, 99], [C.Botoca, 04];
rețele neuronale celulare [R.Perfetti, 93];
rețele neuronale recurente [S.Bouchired, 99.1], [G.Kechriotis, 94], [R.Parisi, 97], [**, 02] ;
5. 2 Problema egalizării
Figura 1 prezintă poziția unui egalizor într-un sistem de comunicație. Canalul de comunicații introduce atât distorsiuni liniare cât și neliniare. Ieșirea canalului de comunicații y(n), este afectată de un zgomot aditiv w(n). În cel mai simplu caz zgomotul aditiv poate fi modelat ca un proces Gaussian.
Fig.6.1 Poziția egalizorului în sistemul de comunicații
Rolul egalizorului este de a genera cea mai bună estimare a semnalului transmis x(n), pe baza semnalului recepționat r(n). În proiectarea unui egalizor trebuie luați în considerare următorii factori: tipul canalului, zgomotul introdus de receptor în special datorită amplificării și interferența intersimbol.
Canalul de comunicație poate fi fix sau variabil în timp, de fază minimă sau nu. Un canal este de fază minimă dacă toate zerourile funcției de transfer H(z) sunt conținute în interiorul cercului unitate din planul z.
Interferența intersimbol este determinată de distorsiunile liniare. Amplificatoarele, convertoarele și mediul de propagare introduc în special distorsiuni neliniare.
Egalizorul trebuie să realizeze cel mai bun compromis între eliminarea interferenței intersimbol și amplificarea zgomotului la receptor.
3 O clasificare a egalizoarelor adaptive
Figura 2 prezintă o clasificare a egalizoarelor adaptive. După modul de determinare a parametrilor, familia egalizoarelor adaptive se poate împărți în egalizoare supravegheate și egalizoare nesupravegheate, așa numite egalizoare "oarbe".
Pentru compensarea caracteristicii canalului de comunicații necunoscut, este necesară adeseori excitarea periodică a sistemului cu un semnal cunoscut sau cu un semnal pilot, ce întrerupe transmisia informației utile. O copie a acestui semnal este disponibilă și la receptor și egalizorul îl compară cu răspunsul întregului sistem de transmisie pentru a-și reînnoi parametrii. Acest tip de egalizor se numește egalizor supravegheat. Constrângerile asociate cu unele sisteme de comunicație, ca de exemplu televiziunea digitală sau radioul digital, nu oferă însă cadrul pentru folosirea unui semnal cunoscut pentru antrenamentul egalizorului.
În această situație egalizorul utilizează metode nesupravegheate sau cu autorecuperare pentru a-și adapta parametrii. Acest tip de egalizor se numește egalizor orb. După antrenament, egalizorul funcționează în modul de decizie direct, în care își poate reînnoi parametrii pe baza datelor curente detectate.
Egalizarea supravegheată poate fi obținută fie prin estimarea blocului (secvenței) de date, fie prin estimarea simbolului. Egalizorul de bloc de date folosește o secvență a eșantioanelor recepționate pentru refacerea întregii secvențe a simbolurilor de date transmise. Egalizorul de secvențe optim este cel care se bazează pe criteriul plauzibilității maxime (MLSE maximum likehood sequence estimator) și poate fi eficient implementat cu algoritmul Viterbi de plauzibilitate maximă (MLVA maximum likehood Viterbi algorithm). Egalizorul MLVA poate oferi cele mai bune performanțe atunci când statistica canalului este perfect cunoscută, dar prezintă dezavantajul unei complexități ridicate de implementare. Acesta este unul dintre principalele motive pentru care egalizoarele cu estimarea simbolului, care necesită implementări simple, sunt folosite în mod uzual, chiar dacă performanțele lor sunt mai slabe decât cele ale clasei de egalizoare cu decizia blocului [E.S.Chng, 95]. Egalizoarele cu estimarea simbolului sunt de asemenea preferate în cazul în care canalul este variabil în timp, ca de exemplu în comunicațiile mobile. Performanțele egalizoarelor MLVA se degradează semnificativ în comunicațiile mobile, din cauza acumulării erorilor de urmărire ale canalului în timpul estimării blocurilor de date.
Fig. 2 Clasificarea egalizoarelor adaptive
Egalizoarele care estimează simbolul transmis realizează detecția și decizia simbolului recepționat în fiecare perioadă a acestuia. În această clasă de egalizoare există două modalități de implementare a funcției de decizie, și anume, cea care utilizează tehnicile liniare, respectiv cea care utilizează tehnicile neliniare. O abordare liniară pentru funcția de decizie a egalizorului simbol cu simbol oferă simplitatea implementării calculelor, dar cu costul unei performanțe inferioare.
Forma convențională a egalizorului liniar se bazează pe teoria filtrului adaptiv liniar, ale cărui ponderi sunt adecvat ajustate de un algoritm ce minimizează eroarea dintre simbolurile de ieșire și cele recepționate. Diferite criterii de optimizare cum ar fi criteriul erorii medii pătratice minime (MMSE minimum mean square error), criteriul minimului erorii de bit (MBER minimum bit error rate) sau criteriul distorsiunii de amplitudine pot fi utilizate pentru proiectarea egalizoarelor liniare. Egalizorul optimizat folosind criteriul distorsiunii de amplitudine este numit egalizor cu forțare a zeroului (ZF). În ultimii ani egalizarea ZF a devenit mai puțin populară, implementările curente fiind în mod uzual bazate pe criteriile MMSE sau MBER. În cazul criteriului MMSE egalizarea liniară implică utilizarea ecuațiilor Wiener, care necesită cunoașterea exactă a caracteristicilor canalului. În practică, egalizarea liniară este o filtrare liniară antrenată cu un algoritm adaptiv. Uzual se folosește algoritmul erorii medii pătratice minime (LMS least mean square). Alți algoritmi sunt: algoritmul recursiv al celor mai mici pătrate (RLS recoursive least square), algoritmul RLS rapid (fast RLS), algoritmul rădăcinii pătrate RLS (square root RLS) , algoritmul RLS de tip gradient (gradient RLS). Egalizoarele liniare nu au performanțe bune în cazul canalelor "cu nuluri spectrale adânci", din moment ce ele plasează un câștig mare la aceste frecvențe, și în consecință amplifică zgomotul aditiv. În absența zgomotului aditiv și în cazul canalelor de fază minimă, egalizorul liniar operează ca și un sistem invers canalului, furnizând o transmisie fără distorsiuni. Atunci când zgomotul este prezent și canalul nu este de fază minimă, utilizarea modelului invers nu este suficientă. Amplificarea zgomotului poate fi evitată prin utilizarea tehnicilor neliniare. Implementarea neliniară include două tipuri de structuri, una fără reacție și cealaltă cu decizie pe baza reacției inverse. Egalizorul Bayes este cel care oferă performanța optimă din punctul de vedere al erorii de bit [A.T. Georgiadis, 00]. Funcția de decizie a egalizorului Bayes se bazează pe criteriul probabilității maxime aposteriori (MAP maximum a posteriori probabilitiy), derivat din teoria Bayes și va fi prezentată într-unul din paragrafele următoare. Detectorul optim MAP simbol cu simbol (MAPSD) oferă o rată a erorii de bit mai mică, pentru o întârziere dată, decât în cazul MLSE. La valori mari ale raportului semnal pe zgomot diferențele de performanță a celor două tipuri de egalizoare sunt nesemnificative. Pe de altă parte, la valori mici ale raportului semnal pe zgomot, performanța egalizorului MLSE este inferioară egalizorului MAPSD [A.T. Georgiadis, 00].
Un model clasic de egalizor neliniar este așa numitul egalizor cu decizie pe baza reacției inverse (decision feedback equaliser DFE ). Egalizorul DFE utilizează pentru reconstrucția semnalului util semnalul recepționat și ca reacție deciziile sale anterioare. Acest egalizor este utilizat în special atunci când interferența intersimbol este mare, având la o aceeași complexitate performanțe superioare filtrelor liniare transversale. Datorită reacției, funcția de transfer a DFE este o funcție neliniară a semnalului recepționat.
Tehnicile moderne în procesarea semnalului oferă și o mare varietate de alte egalizoare neliniare, ca de exemplu: egalizoarele bazate pe seriile Volterra, egalizoarele bazate pe distanța Mahalanobis și egalizoarele cu rețele neuronale.
Structurile ce vor fi prezentate în cele ce urmează combină un filtru liniar transversal cu rețele neuronale de diferite tipuri, într-o arhitectură cu sau fără reacție inversă. Filtrul liniar transversal elimină distorsiunile liniare, ca de exemplu interferența intersimbol, astfel încât rețeaua neuronală se poate concentra asupra eliminării distorsiunilor neliniare.
4 Egalizarea ca o problemă de clasificare
Un punct de vedere alternativ la ideea filtrării inverse este abordarea tehnicii de egalizare ca o problemă de clasificare a modelelor. Obiectivul egalizării este în acest caz separarea semnalelor recepționate în spațiul modelelor. În situațiile reale, când zgomotul este prezent în semnalul recepționat, canalul de comunicație este variabil în timp și nu are fază minimă, o clasificare optimă este neliniară. Datorită proprietății lor de aproximatoare universale RN sunt capabile să proceseze regiuni de decizie neliniare, cu o precizie remarcabilă. Viteza deosebită a RN datorată procesării paralele, este încă un argument pentru utilizarea lor în implementarea egalizoarelor adaptive.
În cazul unei transmisii bipolare de date, eșantioanele recepționate, afectate de interferența intersimbol și de zgomot, ar trebui clasificate ca +1 sau –1. Funcția egalizorului este în acest caz să asocieze fiecare eșantion recepționat cu regiunea de decizie corectă.
În cazul unor semnale complexe clasificarea trebuie realizată în spațiul complex. Astfel pentru semnale modulate în cuadratură 4-QAM , constelația intrărilor posibile este:
Din punctul de vedere al unei RN, egalizorul trebuie să clasifice semnalul recepționat într-una dintre cele patru clase posibile:
sau:
5 Un model al problemei egalizării
Fie un semnal x(n) aplicat la intrarea unui canal liniar dispersiv cu răspuns finit la impuls (FIR) (Fig. 3), care poate fi modelat cu un filtru FIR de ordinul k, cu valori reale și nenule ale coeficienților a0, a1, …, ak-1. Semnalul aleator de intrare generează ieșirea y(n):
Fie semnalul de la ieșirea canalului de comunicație y(n) afectat de zgomotul aditiv w(n). În majoritatea studiilor w(n) este modelat ca un zgomot alb, gaussian, cu o dispersie σe2. Semnalele y(n) și w(n) se consideră semnale necorelate. Semnalul recepționat de egalizor este:
Problema egalizării constă în determinarea unei estimări cât mai exacte a semnalului de intrare x(n), utilizând informația reprezentată de semnalul recepționat, r(n) și semnalul întârziat cu d iterații, x(n-d). Performanța egalizorului poate fi evaluată prin probabilitatea clasificărilor eronate în funcție de raportul semnal pe zgomot (RSZ), dat de relația:
unde E este momentul centrat de ordinul doi, σs2 =1 este dispersia simbolurilor transmise, egală cu 1, și σe2 este dispersia zgomotului alb.
Fig. 3 Un model al problemei egalizării
În cele ce urmează vom considera structura egalizorului hibrid prezentată în Fig. 4, o combinație între un filtru liniar transversal și un egalizor neliniar. Semnalul recepționat folosit pentru a estima simbolurile transmise este r(n)=[ r(n) r(n-1) ….r(n-m+1)]T. Semnalul corespunzător de la ieșirea canalului de comunicație neafectat de zgomot este vectorul y(n)=[y(n) y(n-1) …y(n-m+1)]T. Egalizorul constă dintr-un filtru pentru implementarea funcției de decizie și un dispozitiv de cuantificare a funcției de ieșire f(r(n)) a acestuia într-unul din simbolurile posibile transmise. În cazul în care alfabetul transmis este format din simbolurile {+1, -1} cuantificatorul poate fi implementat folosind funcția sgn( ). În cazul în care semnalul transmis este 4-MAQ zgomotul aditiv se consideră și el un semnal complex, cu partea reală wR(n) independentă de cea imaginară wI(n). În acest caz, se folosesc două circuite de cuantificare, unul pentru partea reală și unul pentru partea imaginară.
Performanțele egalizorului sunt determinate de funcția de decizie. Se știe că funcția de decizie optimă este funcția de decizie Bayes [E.S.Chng, 95]. Ea este o funcție neliniară astfel încât și funcția de decizie a egalizorului trebuie să fie neliniară.
Fig. 4 Structura unui egalizor hibrid
Exemplu
Pentru a ilustra diferența de performanță între egalizoare liniare și cele neliniare simulările au fost orientate spre compararea performanței de decizie a egalizorul MMSE liniar cu cea a egalizorului neliniar optim, Bayes. A fost utilizat canalul cu următoarea funcție de transfer și o sursă de semnale bipolare, cu constelația . Rezultatele simulărilor, pentru o întârziere d=1 .și un ordin al filtrului LT m=4, sunt prezentate în Fig. 5.
Axa verticală a graficului indică probabilitatea deciziei eronate pe o scară logaritmică și axa orizontală indică RSZ. Se poate observa că performanțele egalizorul Bayes diferă semnificativ față de cele ale egalizorului liniar. De exemplu, pentru o valoare a probabilității de decizie eronată de , egalizorul Bayes are o îmbunătățire a raportului semnal pe zgomot de 4,4 dB față de egalizorul liniar de tip MMSE
Figura 5 Comparația performanței de decizie a egalizorul liniar MMSE și cea a egalizorul neliniar optim, Bayes, pentru canalul pentru d=1 și m=4
6 Modelul canalului de comunicație
În paragraful anterior s-a introdus cel mai simplu model al unui canal de comunicație dispersiv liniar, și anume, filtrul liniar transversal. În situațiile reale canalul introduce însă și distorsiuni neliniare. Utilizarea unor modele adecvate ale canalului, respectiv ale dispozitivelor active de pe calea de transmisie, cât mai apropiate de cele reale este esențială în dezvoltarea sistemelor de comunicație ale viitorului.
Figura 6 reprezintă un model al canalului de comunicație care introduce atât distorsiuni liniare (L) cât și distorsiuni neliniare (NL). Literatura de specialitate menționează variate modele cu diferite liniarități, respectiv neliniarități.
Uzual, partea liniară este modelată cu un filtru liniar transversal, cu valori reale și nenule ale coeficienților a0, a1, …, ak.
Fig. 6 Modelul neliniar al unui canal de comunicație
Semnalul aleator de intrare generează ieșirea conform relației ( 4):
Pentru semnale complexe se utilizează modele de canal complexe. Modelul sugerat în referința bibliografică [I.Cha, 95] generează ieșirea conform relației:
Partea neliniară este de ordinul al treilea și furnizează ieșirea:
Un alt model [S.Chen, 94] se bazează pe relațiile următoare:
Fig. 7 Coeficienții unui canal de comunicație variabil în timp
Modelarea unui canal neliniar variabil în timp, ca de exemplu un canal ai cărui coeficienți variază în timp se poate face cu următoarea funcție de transfer:
unde coeficienții ai(n) variază cu timpul discret n și poți fi generați prin trecerea unui zgomot gaussian printr-un filtru Butterworth .
Banda filtrului determină banda relativă (fading rate) a canalului. Presupunând că avem un canal cu o bandă de frecvență de 2 kHz, cu o viteză de transmisie de 2400 simboluri pe secundă și un filtru Butterworth de ordinul 2 cu o bandă de 0.5 Hz la 3 dB, curbele răspunsului la impuls sunt prezentate în Fig. 7.
7 Egalizoare implementate cu
rețele neuronale multistrat
Structura unui egalizor pentru semnale reale, implementat cu o rețea neuronală multistrat, cu un strat ascuns, este dată în Fig. 8. În cazul în care performanța egalizorului nu este satisfăcătoare, între filtrul liniar transversal și ieșire se pot introduce mai multe straturi de neuroni ascunși.
Structura unui egalizor neliniar pentru semnale complexe, implementat cu o rețea neuronală multistrat este prezentată în Fig. 9. Se observă că partea reală este abordată separat de cea imaginară a semnalului de intrare. Variabilele de intrare în rețeaua neuronală sunt eșantioanele întârziate ale semnalului de intrare. Stratul de ieșire va avea un neuron pentru partea reală, respectiv unul pentru partea imaginară. Ieșirea acestuia se compară cu semnalul dorit, adică semnalul de intrare întârziat. Funcția de activare este uzual o funcție neliniară de tip sigmoidă. Pentru determinarea coeficienților filtrului liniar transversal și a rețelei neuronale se utilizează în mod uzual algoritmul retropropagării erorii. Algoritmul este iterativ și minimizează orice funcție de cost diferențiabilă, ca de exemplu eroarea medie pătratică.
Fig. 8 Egalizor pentru semnale reale implementat cu o rețea neuronală multistrat , cu un strat ascuns
Fig. 9 Structura unui egalizor complex implementat cu o rețea neuronală multistrat
În cazul unor semnale complexe este necesară pentru antrenare o variantă complexă a algoritmului cu propagare inversă a erorii. (CBKP complex backpropagation), care are și el aceleași carențe ca și varianta clasică, reală. Algoritmii de tip gradient, prezintă dezavantajele timpului îndelungat de antrenare și a atragerii soluției în minimele locale ale funcției eroare, adesea nesatisfăcătoare din punctul de vedere al preciziei realizate. O altă problema care poate apare în CBKP este selecția funcției de activare. În cazul semnalelor reale, funcțiile de activare sunt reale și limitate. În cazul semnalelor complexe, cu excepția constantelor, toate funcțiile de activare uzuale ar putea fi nelimitate. Pentru a satisface situația conflictuală între limitarea și diferențiabilitatea unei funcții complexe au fost dezvoltate două variante ale algoritmului CBKP, una care utilizează o funcție de activare complet complexă [T.Kim, 02] (fully complex activation function BKP FCBKP) și alta cu funcții de activare separate pentru cele două părți ale semnalului, reală și imaginară [A.Kantsila, 04] (split complex activation function (SCBKP).
Pentru a rezolva problema convergenței lente a fost introdus un alt algoritm de antrenament complex resilient propagation (CRPROP). Studiile efectuate arată că din punctul de vedere al erorii de bit algoritmul CRPROP are performanțe comparabile cu CBKP, dar în condițiile unei convergențe mult mai rapide și cu un cost computațional semnificativ redus [A.Kantsila, 04].
8. Rețele pe bază de funcții radiale
8.1 Generalități
Având în vedere carențele rețelelor neuronale multistrat, timpul îndelungat de antrenare și posibilitatea blocării în minimele locale ale funcției de eroare, rețelele neuronale pe bază de funcții radiale (RBFR) au focalizat în ultimul deceniu interesul cercetării internaționale. RBFR sunt capabile să aproximeze orice funcție neliniară într-un spațiu multidimensional, cu o complexitate de procesare semnificativ redusă în comparație cu cea a altor rețele neuronale.
În figura 10 este reprezentată structura unei RBFR, care conține un strat de intrare, un singur strat ascuns și un strat de ieșire.
Fig.10 Arhitectura unei rețelele neuronale pe bază de funcții radiale
În cele ce urmează se prezintă câteva dintre caracteristicile RBFR, în comparație cu RNM:
Ca și RNM, rețeaua RBFR este o rețea cu procesarea informației "spre înainte". Spre deosebire de RNM care are poate avea mai multe straturi ascunse, RBFR are un singur strat ascuns.
În RBFR, neuronii stratului ascuns sunt neliniari și neuronii stratului de ieșire sunt liniari. RNM utilizează neuroni neliniari atât în stratul ascuns cât și în cel de ieșire atunci când funcționează ca și clasificatoare. Doar în cazul în care RNM rezolvă probleme de regresie neliniară se preferă neuroni liniari în stratul de ieșire.
În stratul ascuns, RBFR utilizează funcții de activare radiale, de tip canal, al căror răspuns neliniar (uzual exponențial) este localizat într-o regiune restrânsă a spațiului modelelor de intrare. Ca și RNM, RBFR sunt aproximatoare universale. RNM realizează o aproximare globală a transformării neliniare intrare-ieșire, în timp ce RBFR, datorită utilizării funcțiilor radiale, implementează aproximări locale. Acesta este motivul pentru care RBFR învață mai rapid și sunt mai robuste, respectiv mai puțin sensibile la ordinea prezentării datelor de intrare, decât RNM.
Funcția de activare este reală și pentru procesarea unor semnale complexe, nu ca în cazul RNM, o funcție complexă. Atunci când semnalul de intrare este complex, partea reală și cea imaginară sunt prelucrate separat, în aceeași manieră.
Ieșirile RBFR se determină cu relația:
unde
yj este ieșirea neuronului j;
wji sunt ponderile asociate conexiunilor neuronului j;
θj este pragul neuronului j;
este funcția radială a neuronului i ascuns;
ci reprezintă vectorul pondere a neuronului i ascuns, numit și vectorul centru asociat neuronului i;
reprezintă distanța euclidiană;
Nh este numărul neuronilor din stratul ascuns;
No este numărul neuronilor din stratul de ieșire;
Fiind dat vectorul x de intrare, x=[x1 x2 … xN]T, aparținând spațiului RN, distanța euclidiană se definește prin relația:
Parametrii RBFR sunt vectorii centru {ci} și vectorii pondere {wj}. Fiecare dintre neuronii stratului ascuns calculează o distanță între vectorul de intrare al rețelei x și vectorul său centru ci. Aceasta poate fi o distanță metrică oarecare, uzual cea euclidiană. Cu cât un centru este mai aproape de vectorul de intrare cu atât distanța neuronului corespunzător va fi mai mică. În cazul în care vectorul centru corespunde cu vectorul de intrare, distanța euclidiană va fi zero. Rezultatul este trecut printr-o funcție de activare neliniară, reală, continuă , , numită funcție radială. Aceasta dă și denumirea rețelei neuronale. Răspunsul acestei funcții este simetric față de centru. Funcția radială depinde și de un parametru ρi, numit rază sau împrăștiere a funcției. Pentru datele de intrare îndepărtate de centru, ieșirea funcției radiale este mică, apropiindu-se de zero pe măsură ce crește distanța. Pentru datele de intrare apropiate de centru ieșirea funcției radiale este mare, apropiindu-se de valoarea unu pe măsură ce scade distanța. Astfel, RBFR este capabilă de o modelare locală a datelor de intrare. Pentru fiecare vector de intrare, una sau mai multe funcții radiale ale neuronilor ascunși va avea o ieșire diferită de zero. În cazul extrem o singură funcție radială se folosește pentru fiecare vector de intrare, astfel încât vectorii centru vor fi identici cu cei de intrare. De aceea, transformarea funcțiilor radiale în orice valoare de ieșire dorită, devine o problemă simplă, realizabilă prin intermediul ponderilor interconexiunilor stratului de ieșire liniar.
Există mai multe tipuri de funcții de activare radiale, dintre care se prezintă exemplele următoare:
Funcția Gaussiană:
Fig.11 Funcția radială Gauss cu centrul c=0 și rază ρ=1
Uzual se alege raza proporțională cu dispersia centrului σ2 , respectiv , monoton descrescătoare cu distanța față de centru, ca în figura 11.
Funcția multipătratică este reprezentată în figura 12 și este dată de relația:
Fig.12 Funcția radială multipătratică cu centrul c=0 și rază ρ=1
Funcția inversă multipătratică este reprezentată în figura 13:
Fig.13 Funcția radială inversă multipătratică cu centrul c=0 și rază ρ=1
Funcția Cauchy, reprezentată în figura 14, se definește prin relația:
Fig.14 Funcția radială Cauchy pentru centrul c=0 și rază ρ=1
Bineînțeles că se pot introduce și alte funcții de activare radiale cu proprietăți similare celor anterior descrise. Studiile teoretice și practice demonstrează că tipul neliniarității funcției radiale nu este esențial pentru performanțele RBFR [S. Haykin, 94.2].
8.2 Algoritmi de determinare a centrilor și a ponderilor conexiunilor stratului de ieșire
Aplicațiile inițiale ale RBFR au fost de modelare și identificare de sisteme neliniare, deci au vizat transformări neliniare în spațiul multidimensional. Aceasta a necesitat structuri mari, cu mulți neuroni, deoarece erau necesare suficiente neliniarități pentru a permite modelarea și identificarea oricărui sistem neliniar. În aceste aplicații toate datele de intrare au fost folosite ca centri. Evident, deoarece uzual numărul datelor de intrare disponibile este foarte mare, utilizarea lor integrală nu este practică. Pentru aplicațiile de procesare a semnalelor, în care RBFR este uzual utilizată ca și un estimator, se pot folosi tehnici de selecție pentru reducerea dimensiunii. Termenul folosit în domeniul RN este de antrenare a RBFR. Antrenarea unei RBFR constă în determinarea parametrilor săi, respectiv a numărului centrilor (1), poziției și razei centrilor funcțiilor radiale (2), precum și a ponderilor conexiunilor stratului de ieșire (3). Unii algoritmi abordează acești pași separat, alții generează toți parametrii simultan. S-au propus mai mulți algoritmi de determinare a parametrilor RBFR, constând de obicei dintr-un algoritm fără control pentru determinarea vectorilor centru ai stratului ascuns al rețelei și unul cu control pentru determinarea vectorilor pondere ai interconexiunilor stratului de ieșire.
Proiectarea și antrenarea rețelelor RBFR depind esențial de modul de alegere a centrilor, de aceea numeroase studii au abordat această problemă. Principalele strategii care s-au impus în practică sunt următoarele: alegerea aleatoare a unor centri ficși din baza de date [S. Haykin, 94.2], algoritmul standard competitiv [R. Hecht-Nielsen, 90], algoritmul sensibil la frecvența de câștigare a competiției [S.C. Ahalt, 90], algoritmul competitiv cu penalizarea rivalului [L. Xu, 93], algoritmul competitiv cu penalizarea dinamică a rivalului [C. Botoca, 05], alegerea unui subset din datele de intrare prin metoda celor mai mici pătrate ortogonale (orthogonal least squares) [S. Chen, 91] și selecția supervizată a centrilor [S. Haykin, 94.2].
9 Implementarea funcției de decizie Bayes
folosind o rețea neuronală pe bază de funcții radiale
Atunci când canalul de comunicație este cunoscut și zgomotul aditiv introdus în transmisie este gaussian, egalizorul Bayes conduce la o eroare medie pe simbol minimă, întrucât el realizează o clasificare neliniară a semnalelor recepționate cu o probabilitate minimă a erorilor. De aceea se pune problema implementării egalizorului Bayes cu o rețea neuronală, capabilă să funcționeze și atunci când canalul și perturbațiile care afectează transmisia sunt necunoscute. Din acest punct de vedere, prezintă interes rețeaua neuronală pe bază de funcții radiale, introdusă în capitolul 5. Considerăm în figura 6.4 funcția de decizie a egalizorului implementată cu o RBFR cu o funcție de activare radială gaussiană. Răspunsul egalizorului implementat cu o RBFR poate fi scris și sub forma [E.S. Chng, 95]:
unde:
f (r) este funcția de decizie a unui neuron de ieșire a RBFR
wi, este ponderea conexiunii dintre neuronul ascuns i și neuronul de ieșire;
ci reprezintă vectorul centru al neuronului ascuns i;
reprezintă distanța euclidiană, dată de relația:
Nh este numărul neuronilor din stratul ascuns;
ρ este raza funcției radiale;
Structura rețelei RBFR implementează chiar funcția de decizie Bayes, dacă vectorii centru, raza funcției radiale și neliniaritățile ( ) sunt alese adecvat. De aceea rețeaua RBFR este ideală în modelarea egalizorului Bayes.
Pentru implementarea egalizorului Bayes, folosind rețeaua RBFR, stările canalului , , devin centri RBFR. Numărul neuronilor ascunși Nh este dat de numărul stărilor posibile la ieșirea canalului de comunicație, respectiv de NS.
Similaritatea cu egalizorul Bayes impune ca parametrul de împrăștiere să fie dat de relația ρ=2σe2, unde σe2 este dispersia zgomotului dată de relația:
În relația de mai sus norma poate fi de diferite tipuri, dar de obicei este folosită distanța euclidiană. Ponderile wi fie sunt fixe, fie pot fi determinate printr-un algoritm supervizat, ca de exemplu algoritmul LMS.
Performanțele RBFR depind în mod critic de pozițiile centrilor și mai puțin de estimarea zgomotului.
10 Egalizor complex cu rețea neuronală
pe bază de funcții radiale
Structura unui egalizor pentru semnale complexe, implementat utilizând RBFR, este prezentată în figura 15 și este similară egalizorului optim de tip Bayes, în condițiile prezentate în paragraful anterior. Egalizorul conține un filtru liniar transversal de ordinul m și o RBFR. Canalul de comunicație este modelat utilizând un filtru transversal de ordinul k. Fie vectorul semnalului de la ieșirea canalului de comunicație y[n] afectat de zgomotul aditiv complex w[n], care poate fi un zgomot gaussian cu o dispersie . Semnalele y[n] și w[n] sunt considerate necorelate. Partea reală wR[n] și cea imaginară wI[n] a zgomotului se consideră secvențe mutual independente. Ieșirea canalului de comunicație se aplică la intrarea egalizorului complex.
Vectorul semnalului recepționat aplicat la intrarea RBFR este secvența r[n], r[n]=[r[n] r[n-1] ….r[n-m+1]]T. Pentru că acesta presupune m termeni ai semnalului de intrare, vor trebui considerate NS combinații posibile ale secvenței de intrare în canalul de comunicație NS=4 M+m-1 de forma x[n]=[x[n] x[n-1] …x[n-m-M+2]]T. Semnalul corespunzător de la ieșirea canalului de comunicație neafectat de zgomot este vectorul y[n]=[y[n] y[n-1] …y[n-m+1]]T ce are de asemenea NS stări.
Sarcina egalizorului este de a reconstitui semnalul transmis cât se poate de exact generând o estimare , pe baza vectorului semnalului recepționat r[n] și a semnalului întârziat x[n-d]. Partea reală, respectiv cea imaginară a semnalului complex 4-QAM este prelucrată în mod independent, în aceeași manieră. Funcția de activare neliniară a neuronilor ascunși este reală, și poate fi specificată prin relația:
Unde operatorul (•)H=((•)T)*, este (•)T operatorul de transpunere și (•)* este operatorul de conjugare complexă. Stratul de ieșire al RBFR are opt neuroni, doi neuroni pentru fiecare dintre clasele posibile ale semnalului 4-QAM, unul pentru partea reală și celălalt pentru cea imaginară. Funcția de activare a neuronilor de ieșire fRBF este liniară, și ținând cont de funcția de activare gaussiană a neuronilor ascunși, este dată de relația:
unde wi sunt ponderile complexe de interconexiune înspre neuronul de ieșire:
Pentru antrenarea rețelei RBFR se utilizează de obicei un algoritm fără control pentru determinarea centrilor stratului ascuns și unul cu control pentru determinarea ponderilor interconexiunilor stratului de ieșire.
Un exemplu de algoritm cu control uzual este algoritmul erorii medii pătratice minime (LMS least mean square), care utilizează relația următoare pentru determinarea ponderilor interconexiunilor înspre stratul de ieșire al unei RBFR:
unde α este constanta de învățare și e[n] este eroarea complexă, determinată cu relația:
Acest algoritm minimizează media erorii pătratice (MSE mean square error ):
unde N este numărul secvențelor de intrare.
Alți algoritmi permit determinarea simultană a tuturor parametrilor RBFR. Un exemplu, în acest sens este algoritmul propus de Cha și Kassam în studiul [I. Cha, 95 ], care utilizează ca și criteriu de eroare un gradient stohastic descendent. Algoritmul calculează gradientul curent al erorii medii pătratice și modifică parametrii rețelei în direcția minimizării acestuia.
În lucrarea [D. Jianping, 02] se propune un algoritm cu învățare secvențială pentru antrenarea unui egalizor neuronal, numit algoritm complex cu alocare minimă a resurselor (complex minimal resource allocation network CMRAN), care permite adăugarea și eliminarea de neuroni ascunși astfel încât să se realizeze o structură optimă pentru aplicația dată.
Fig.15 Structura unui egalizor cu RBFR
Rețeaua inițială nu are neuroni ascunși. De fiecare dată când la intrare se aplică o pereche de date de antrenament, formată dintr-un model de intrare – model de ieșire dorit, rețeaua se construiește pe baza a trei criterii de creștere. Algoritmul adaugă un neuron ascuns sau modifică parametrii existenți ai RN în concordanță cu datele de antrenament. Algoritmul CMRAN încorporează și un mecanism de îndepărtare a neuronilor ascunși care nu contribuie semnificativ la performanța RN.
Studiile au demonstrat că performanțele egalizorului a cărui configurație a fost determinată cu algoritmul CMRAN sunt superioare egalizorului antrenat cu algoritmul cu gradient stohastic, din punctul de vedere al erorii pe bit și al complexității de procesare.
Canalele de comunicație de ordine ridicate au un număr mare de stări, astfel încât ele necesită structuri RBFR cu un număr foarte mare de centri. Algoritmul CMRAN reduce însă numărul centrilor astfel încât egalizorul implementat are o performanță bună, în condițiile unei complexități reduse și deci ale unei funcționări rapide.
11 Exemple
În cele ce urmează se prezintă câteva rezultate ale simulărilor implementate în Matlab pentru testarea unor egalizoare cu RBFR, pentru semnale complexe modulate în amplitudine în cuadratură 4-QAM, cu diferite modele neliniare și complexe de canal, în diferite condiții de zgomot, utilizând diferite ordine ale filtrului liniar transversal și întârzieri d [C. Botoca, 04].
Semnalele 4-QAM au fost generate utilizând o distribuție uniformă, partea reală în mod independent de cea imaginară. S-a generat un zgomot alb complex w[n] cu o distribuție gaussiană, partea reală în mod independent de cea imaginară. Zgomotul s-a însumat cu ieșirea canalului de comunicație neliniar y[n] obținându-se la intrarea egalizorului semnalul recepționat r[n].
Numărul neuronilor ascunși, adică al centrilor RBFR a fost ales mai mare decât NS, numărul stărilor posibile ale semnalului y[n], de la ieșirea canalului de comunicație [S. Chen, 94.1].
Alegând ordinul modelului canalului k=3 și ordinul filtrului liniar transversal de la intrarea RBFR m=1, se obține numărul stărilor posibile ale semnalului de la ieșirea canalului, NS = 64.
Pentru determinarea centrilor egalizoarelor RBFR au fost utilizați mai mulți algoritmi competitivi, algoritmul competitiv standard ACS (expus în paragraful 5.2.2), algoritmul competitiv sensibil la frecvență ACSF (expus în paragraful 5.2.3) și algoritmul competitiv cu penalizarea rivalului ACPR (expus în paragraful 5.2.4). Pentru stratul de ieșire al RBFR s-au utilizat opt neuroni, câte doi neuroni pentru fiecare clasă posibilă a semnalului 4-QAM , unul pentru partea reală și unul pentru partea imaginară. Raza funcțiilor de activare radiale, ρ, a fost aleasă la valoarea 0.28.
Simulările au fost implementate utilizând modelele de canal introduse în subcapitolul 6.6. Pentru determinarea centrilor egalizorului RBFR au fost aplicate secvențe de intrare x[n] de forma: x[n]=[x[n] x[n-1] x[n-2]].
Exemplul 1
Pentru antrenarea centrilor RBFR ai unui egalizor complex a fost utilizat un număr de N=1000 de secvențe de intrare x[n]. Simulările au fost realizate utilizând modelul de canal dat de relațiile (8) și (9), respectiv de referința [I.Cha, 95]. Un număr de 70 de centrii au fost inițializați aleator, în spațiul modelelor de intrare, așa cum se poate vedea în figura 16. S-au utilizat diferite dispersii pentru zgomotul aditiv gaussian. În toate situațiile algoritmul ACPR a orientat vectorii centru înspre stările dorite, lipsite de zgomot, ale canalului.
Cele mai bune rezultate au fost obținute pentru următoarele constante de învățare: η=0.09, constanta de învățare a neuronului câștigător, β=0.003 constanta de învățare a rivalului și α=0.01 constanta de învățare a ponderilor în stratul de ieșire, cu algoritmul LMS.
Algoritmul ACS a eșuat în găsirea centrilor doriți datorită problemei "unităților moarte ". Algoritmul ACSF a eliminat problema "unităților moarte ", dar nu a găsit nici el toți centri doriți, datorită faptului că numărul inițial al centrilor a fost diferit de numărul claselor căutate. Algoritmul ACPR a reușit să orienteze centrii RBFR către stările dorite, ieșirile neafectate de zgomot ale canalului de comunicație. Centrii nedoriți au fost eliminați înafara spațiului stărilor posibile astfel încât s-a obținut o structură simplificată a egalizorului RBFR.
Figura 17 reprezintă stările dorite y[n] ale canalului de comunicație, semnalele recepționate r[n], pozițiile inițiale și finale ale centrilor RBFR c[n], în cazul unui raport semnal pe zgomot RSZ=13dB după 100 de iterații.
Figura 18 reprezintă evoluția erorii pătratice medii (MSE) în timpul antrenamentului, pentru egalizorul RBFR ai cărui centri au fost antrenați cu algoritmul ACPR, în funcție de numărul de iterații, pentru un raport semnal pe zgomot RSZ =5 dB, pentru un ordin al filtrului liniar transversal de m=1 și o întârziere d=1. Performanța este similară cu cea a altor egalizoare RBFR [Q. Gan, 99], [D.Jianping, 02], dar cu avantajul unei complexități de calcul reduse.
Pentru a reprezenta regiunile de decizie ale egalizorului RBFR, spațiul complex al semnalelor de ieșire a fost eșantionat cu un pas de δ=0.02. Figura 6.24 reprezintă regiunile de decizie, puternic neliniare ale egalizorului RBFR pentru un raport semnal pe zgomot RSZ =5 dB.
Fig.16 Semnalele de la ieșirea canalului de comunicație, semnalele recepționate afectate de zgomot r[n], pozițiile inițiale și finale ale centrilor rețelei RBFR c[n], în cazul unui raport semnal pe zgomot de RSZ=13 dB, după 100 de iterații
(Legendă: "o" – Stările dorite; "*"- stările de intrare zgomotoase; "×" – pozițiile inițiale ale centrilor; "+" – pozițiile finale ale centrilor)
Fig.17 Evoluția erorii medii pătratice în funcție de numărul de epoci de antrenare pentru un RSZ= 5 dB și canalul neliniar complex din [I.Cha, 95], m=1 și d=1
Fig.18 Regiunile de decizie ale egalizorului RBFR, pentru un canal neliniar complex
din [I.Cha, 95], în cazul: RSZ= 5 dB, m=1 și o întârziere d=1
Exemplul 2
Pentru antrenarea centrilor RBFR a fost utilizat un număr de N=7000 de secvențe de intrare x[n]. Simulările au fost realizate utilizând modelul de canal dat de relațiile (10) și (11), respectiv de referința [S.Chen, 94.2]. Un număr de 70 de centri au fost inițializați aleator, departe de stările posibile dorite ale canalului de comunicație, în jurul punctului (5, 5j) așa cum se poate vedea în figurile 19 a), b) și c).
a)
b)
c)
Fig.19 Semnalele de la ieșirea canalului de comunicație, semnalele afectate de zgomot recepționate r[n], pozițiile inițiale și finale ale centrilor rețelei RBFR c[n], în cazul unui raport semnal pe zgomot de RSZ=13dB, după 100 de iterații utilizând:
a) algoritmul ACS; b) algoritmul ACSF; c) algoritmul ACPR;
(Legendă: "o" – Stările dorite; "*"- stările de intrare zgomotoase; "×" – pozițiile inițiale ale centrilor; "+" – pozițiile finale ale centrilor; "–" evoluția centrilor)
Cele mai bune rezultate au fost obținute pentru următoarele constante de învățare: η=0.05, constanta de învățare a neuronului câștigător pentru toți cei trei algoritmi testați, β=0.0001 constanta de învățare a rivalului și α=0.01 constanta de învățare a ponderilor în stratul de ieșire, cu algoritmul LMS.
Figurile 6.26 a), b) și c) reprezintă stările dorite y[n] ale canalului de comunicație, semnalele recepționate r[n], pozițiile inițiale și finale ale centrilor RBFR c[n], în cazul unui raport semnal pe zgomot RSZ=13dB, după 100 de iterații, utilizând algoritmii ACS, ACSF și ACPR.
Algoritmul ACS a eșuat în găsirea centrilor doriți datorită problemei "unităților moarte". Algoritmul ACSF a eliminat problema "unităților moarte ", dar nu a găsit nici el toți centrii doriți, datorită faptului că numărul inițial al centrilor a fost diferit de numărul claselor căutate.
Algoritmul ACPR a reușit să orienteze centrii RBFR către stările dorite, ieșirile neafectate de zgomot ale canalului de comunicație. Centrii nedoriți au fost eliminați înafara spațiului stărilor posibile. În plus, centrii determinați cu algoritmul ACPR au avut poziții mai apropiate de stările dorite decât centrii determinați cu algoritmul ACSF. Prin penalizarea neuronului rival, convergența ACPR este mai bună decât a algoritmului ACSF.
Figura 20 prezintă comparativ evoluția erorii pătratice medii (MSE) în timpul antrenamentului, pentru egalizorul RBFR ai cărui centri au fost antrenați cu algoritmul ACSF respectiv cu algoritmul ACPR, în funcție de numărul de iterații, pentru un raport semnal pe zgomot RSZ =13 dB și pentru un ordin al filtrului liniar transversal de m=1.
Figura 21 prezintă evoluția mediei erorii pătratice (MSE) în timpul antrenamentului unui egalizor RBFR, cu centrii determinați cu algoritmul ACPR, în funcție de numărul de iterații pentru un raport semnal pe zgomot RSZ =10 dB și pentru un raport semnal pe zgomot RSZ =5 dB, pentru un ordin al filtrului liniar transversal de m=1 și m=2, pentru o întârziere a semnalului utilizat ca răspuns dorit de d=1. Performanța realizată este similară cu cea a egalizoarelor cu rețele neuronale multistrat, în condițiile unei complexități de calcul semnificativ reduse.
Fig.22 Regiunile de decizie neliniară ale egalizorului RBFR
Pentru a reprezenta regiunile de decizie ale egalizorului RBFR, spațiul complex al semnalelor de ieșire a fost eșantionat cu un pas de δ=0.02. Figura 22 reprezintă regiunile de decizie, puternic neliniare ale egalizorului.
12 Concluzii
Dezavantajele egalizoarelor neuronale implementate cu rețele neuronale multistrat sunt complexitatea structurală și timpul îndelungat de antrenare. O alternativă atractivă sunt egalizoarele neuronale RBFR, având în vedere avantajele ce le oferă comparativ cu egalizoarele neuronale multistrat, respectiv: simplitatea structurii, utilizarea unei funcții de activare reale și în cazul abordării unor semnale complexe, rapiditatea convergenței și robustețea. În plus arhitectura RBFR similară cu structura optimă de tip Bayes, garantează obținerea performanțelor optime din punctul de vedere al erorii pe bit.
Performanțele egalizoarelor neuronale cu RBFR sunt superioare performanțelor egalizoarelor liniare convenționale și a egalizoarelor neuronale implementate cu rețele neuronale multistrat. [S. Bouchired, 99.2], [S. Chen, 94.2]. Algoritmii competitivi elimină dezavantajele egalizoarelor cu RNM menționate anterior. Între algoritmii competitivi este de remarcat algoritmul competitiv cu penalizarea rivalului ce determină eficient centrii RBFR, recompensând neuronul câștigător și penalizând rivalul. Algoritmul ACPR este simplu, generează regiuni de decizie puternic neliniare și are o convergență rapidă. În comparație cu algoritmul ACS nu are problema "neuronilor morți". În comparație cu algoritmul ACSF are o convergență mai rapidă și centrii determinați au poziții mai apropiate de pozițiile dorite. Astfel algoritmul ACPR este adecvat pentru egalizarea adaptivă a semnalelor complexe rapid variabile în timp, afectate de distorsiuni liniare și neliniare. Performanța obținută, o eroare pătratică medie de 10-2, pentru un raport semnal pe zgomot de 5 dB este similară cu cea a altor egalizoare neuronale cu RBFR raportate în literatură, testate în aceleași condiții.
Pentru a îmbunătăți performanța egalizorului RBFR ar trebui mărit ordinul filtrului liniar transversal, ceea ce ar duce însă la creșterea complexității structurale și a calculelor. O alternativă este introducerea reacției de la ieșire spre intrare, respectiv implementarea unui egalizor cu o rețea neuronală recurentă..
Rețelele neuronale recurente (RNR) sunt cazul cel mai general de RN, având fiecare neuron conectat cu toți ceilalți neuroni ai rețelei. În acest caz, rețeaua neuronală se numește complet conectată. Neuronii RNR au funcții de activare neliniare și o comportare dinamică complexă, astfel încât aceste RN sunt în mod special recomandate pentru aplicațiile în timp real. Ieșirea unui neuron la un moment dat depinde nu numai de intrările externe și de ieșirile altor neuroni, ca în cazul RNM și RBFR, dar și de ieșirile sale anterioare. RNR cu o aceeași structură au comportări dinamice diferite în funcție de algoritmul de antrenament. În consecință o RNR este complet definită prin specificarea atât a arhitecturii cât și a algoritmului de antrenament.
Algoritmul uzual pentru antrenarea unei RNR capabile să proceseze semnale complexe este învățarea recurentă complexă în timp real (Complex Real Time Recurrent Learning CRTRL ) [G. Kechriotis, 99]. Acest algoritm se bazează pe o procedură de minimizare a erorii medii pătratice de tip gradient descendent, astfel încât se caracterizează printr-o viteză redusă de convergență și poate fi afectat de o condiționare numerică defectuoasă. Complexitatea numerică a calculelor este de ordinul N4, unde N este numărul neuronilor rețelei.
Dimensiunea redusă a RNR în comparație cu a RNM și RBF pentru o aceeași performanță sunt principalul argument pentru utilizarea în aplicațiile de reconstrucție a semnalelor afectate de neliniarități rapid variabile în timp.
Există structuri de RN recurente obținute prin combinații ale unor filtre liniare transversale și egalizoare, ce încorporează RN, cu decizie pe baza reacției inverse [A. Guntsch, 98]. De exemplu, în [S. Bouchired, 99.1] se utilizează o RBFR și o rețea neuronală competitivă, combinate cu un filtru liniar transversal pentru a îmbunătăți decizia unui egalizor cu decizie pe baza reacției inverse, pentru semnale 16-QAM.
Aceste arhitecturi sunt prezentate în figurile 23 a) și b). Centrii rețelei RBFR din figura 23 a) au fost calculați cu algoritmul ACS. Pentru etichetarea neuronilor stratului de ieșire s-a utilizat algoritmul ce minimizează eroarea medie pătratică LMS.
În rețeaua competitivă din figura 23 b) pentru determinarea neuronului câștigător a fost utilizată regula lui Kohonen [R. Hecht-Nielsen, 90]. Fiecare neuron al rețelei Kohonen a fost apoi asociat cu unul dintre simbolurile transmise printr-un tabel de referință.
Fig.23 Structura unei rețele neuronale recurente obținute prin:
a) combinația unui filtru liniar transversal (FLT) cu o RBFR
b) combinația unui filtru liniar transversal (FLT) cu o rețea competitivă
Structurile cu RNR au depășit performanțele egalizoarelor clasice în special în cazul unor neliniarități mari și atunci când au fost utilizate scheme de modulație complicate [S. Bouchired, 99.2].
În figura 24 sunt reprezentate curbele de separare a semnalelor reconstruite, 16-MAQ modulate în amplitudine în cuadratură, în spațiul modelelor de ieșire, implementate de trei tipuri de egalizoare cu RN ([S. Bouchired, 99.1], cu permisiunea scrisă a autorilor), obținute prin combinația dintr-un filtru liniar transversal și o rețea neuronală de tip multistrat cu două straturi ascunse (LF-NLN), prin combinația dintr-un filtru liniar transversal și o rețea competitivă (LTE-SOM) respectiv prin combinația dintr-un filtru liniar transversal și o rețea pe bază de funcții radiale (LTE-RBFR).
Fig 24 Curbele de separare implementate de trei tipuri de egalizoare cu RN, obținute prin combinația dintr-un filtru liniar transversal și o rețea neuronală de tip multistrat cu două straturi ascunse (LF-NLN), prin combinația dintr-un filtru liniar transversal și o rețea competitivă (LTE-SOM) respectiv prin combinația dintr-un filtru liniar transversal și o rețea pe bază de funcții radiale LTE-RBFR
Figura 25 reprezintă eroarea pe bit în funcție de raportul semnal pe zgomot pentru egalizarea unui canal de transmisie prin satelit, conexiunea în jos, pentru semnale 16-QAM, pentru o viteză de deplasare de 150 km/h ([S. Bouchired, 99.1], cu permisiunea scrisă a autorilor). Egalizorul recurent de tip LTE- RBF are cea mai bună performanță, respectiv cu un ordin de mărime mai bună decât egalizorul transversal.
Fig. 25 Eroarea pe bit în funcție de raportul semnal pe zgomot exprimat în dB pentru diferite egalizoare obținute cu: un filtru liniar transversal (LTE antrenat cu algoritmul LMS); o rețea neuronală de tip multistrat (MLP); o rețea neuronală recurentă, combinație dintre un filtru liniar transversal și o rețea pe bază de funcții radiale (LTE-RBF); o rețea neuronală recurentă combinație dintr-un filtru liniar transversal și o rețea competitivă (LTE-SOM) și o rețea neuronală recurentă, combinație dintre un filtru liniar transversal și o rețea neuronală de tip multistrat cu două straturi ascunse (LF-NLN);
RNR sunt rețele neuronale recomandate în mod special procesării de semnale în timp real. Deoarece RNR depășesc performanțele egalizoarelor tradiționale și ale celorlalte egalizoare neuronale atunci când canalul de telecomunicații este variabil în timp și are distorsiuni neliniare, este previzibilă o evoluție a cercetării în direcția aplicării în telecomunicații a acestor rețele. În mod deosebit prezintă interes rețelele neuronale recurente cu o structură de tip filtru liniar transversal- rețea neuronală pe bază de funcții radiale, care îmbină avantajele RBFR, simplitatea structurii și robustețea de procesare, cu avantajele algoritmilor competitivi, respectiv convergența rapidă și precizia.
Cursul 5
Caracterizarea și predicția parametrilor traficului
Caracterizarea și predicția parametrilor traficului la nivelul celulelor, respectiv a legăturilor de transmisie, se poate face fie utilizând modelele analitice ale surselor de trafic și ale componentelor B-ISDN, fie procesând parametrii măsurați ai traficului la nivelul acestor componente.
Deoarece tehnicile analitice se bazează pe operații de convoluție care devin prea complexe pentru traficul real este de preferat să se utilizeze RN deoarece pentru acestea predicția este o aplicație directă.
Modelarea componentelor traficului B-ISDN
Modelarea componentelor traficului B-ISDN, adică a nodurilor de comutare și a legăturilor de transmisie, se poate face cu registre – buffere în care celulele sunt citite conform principiului primul intrat – primul ieșit FIFO.
Caracteristicile nodurilor de comutare și ale legăturilor de transmisie (Fig.3) sunt:
-lungimea registrului de deplasare;
-capacitatea globală a nodului de comutare (throughput capacity) ;
-rata de pierdere a celulelor;
-întârzierea minimă introdusă ;
Anumite noduri care generează apeluri încorporează și un set de parametrii pentru a controla generarea conexiunilor și a celulelor.
Tabelul de rutare din nodul de comutare pointează:
pentru fiecare conexiune către conexiunea de ieșire a apelului;
pentru fiecare legătura de transmisie către legătura destinație;
Toate nodurile și legăturile de transmisie monitorizează traficul curent și caracteristicile sale statistice, adică :
-numărul celulelor și al conexiunilor fiecărui serviciu ;
-ocuparea bufferelor, respectiv ocuparea minimă și maximă ;
-întârzierea, variația întârzierii și rata de pierdere a celulelor ;
Arhitectura RN pentru caracterizarea și predicția traficului
Arhitectura RN poate fi multistrat, de tip feedforward, cu două straturi de neuroni adaptivi (cum se poate vedea în Fig.3) Stratul de intrare și cel ascuns au o funcție de activare sigmoidă. Stratul de ieșire are o funcție de activare liniară. Intrările în RN sunt eșantioanele întârziate ale traficului. Algoritmul de antrenare al RN poate fi algoritmul retropropagării erorii.
Timpul de predicție adică întârzierea trebuie aleasă adecvat, în corespondență cu mediul de operare BISDN. Adică timpul de predicție trebuie să fie de același ordin de mărime cu constantele de timp ale surselor de trafic și fereastra de măsurare a parametrilor QoS ai serviciilor.
Viteza de învățare poate fi adaptivă. Dacă variație erorii în raport cu ponderile își schimbă semnul de la o iterație la alta, viteza de învățare scade cu o valoare mică, constantă; dacă nu crește. Faza de învățare durează câteva sute de epoci pentru câteva mii de modele de antrenare. Ea este urmată de faza de operare.
Rezultatele simulărilor (Fig.4) arată că funcțiile de activare bipolare simetrice dau o precizie mai bună decât funcția sigmoidă unipolară. Astfel, pentru funcțiile arctangentă și tangentă hiperbolică eroarea pătratică medie scade la din eroarea obținută în cazul utilizării funcțiilor unipolare.
Cerințele unei RN în caracterizarea și predicția traficului
Există două modalități de antrenament al unei RN :
OFF LINE cu date eșantionate din traficul măsurat sau cu date obținute din simulări pe computer ;
O metodă
ON LINE, în timp real, cu date obținute din traficul monitorizat curent ;
Dacă am ales un set de date de antrenament bun și un bun model pentru comportamentul bufferului se poate utiliza RN fără antrenament on line. De obicei antrenamentul on line se folosește pentru rafinarea ponderilor obținute după antrenarea off line, deoarece există diferențe între traficul real și cel simulat.
Viteza de calcul este dată de numărul cererilor de set-up care sosesc într- o secundă.Tipic 1 ms este necesară pentru manipularea a 1000 de cereri pe secundă. Timpul de antrenament este important doar pentru procesarea în timp real.
O altă cerință a antrenamentului în timp real este controlul "sigur". Modul sigur de control cere ca parametrii QoS să fie estimați pentru un caz mai defavorabil decât cel curent. Estimarea QoS trebuie să aibe deci o marjă de eroare față de traficul curent. Dacă controlerul de trafic supraapreciază parametrii QoS și acceptă mai multe conexiuni, atunci toți utilizatorii care folosesc același buffer vor avea parametrii QoS mai slabi decât cei ceruți și nici unul dintre ei nu-și poate continua comunicația. Acceptarea unui număr mai mic decât posibil de conexiuni este mai bună decât cazul anterior expus. Astfel se rejectează mai multe conexiuni decât este necesar dar utilizatorii își continuă comunicațiile așa cum au prevăzut.
Variabilele de antrenare trebuie alese corespunzător cu cerințele procedurii de control al fluxului.
Parametrii de calitate ai serviciilor unui nod de comunicație sunt determinați de combinația parametrilor de trafic ai tuturor conexiunilor care trec prin el. Când numărul conexiunilor este mare estimarea acestor parametrii QoS nu este deloc ușoară. O problemă este și diferența dintre valorile curente și cele declarate ale QoS. Valorile declarate sunt valorile QoS în condițiile de trafic maxim. Traficul curent este însă în general mai redus decât cel maxim estimat. Când numărul conexiunilor este mare și diferența este mare.
Intrarile într-o RN pot fi starea registrului și ieșirile din RN, adică parametrii de trafic QoS estimați. Numărul întrărilor în RN este numărul categoriilor de parametrii de trafic. Un număr practic este mai mic decât o sută. Numărul ieșirilor este numărul parametrilor QoS.
Pentru starea unui registru există mai multe modalități de definire, dintre care numărul conexiunilor este ușor de manipulat. Conexiunile pot fi clasificate în grupuri, în funcție de parametrii de trafic. Cea mai simplă modalitate de clasificare este în comunicații video nV, comunicații audio nA și date numerice nD. Fiecare grup ar putea fi subîmpărțit la rândul său în altele mai mici, în funcție de modalitatea de codare, de caracteristicile de generare a celulelor.
RN estimează deci parametrii QoS ca o funcție de numărul acestor conexiuni și matricea ponderilor :
O altă modalitate simplă de caracterizare a traficului este prin numărul celulelor care sosesc într-o perioadă de timp Tm.
Se estimează:
unde W este matricea ponderilor și H(i) este un vector cu dimensiune m, care reprezintă valorile instantanee ale ratei de bit în ultima perioadă Tm măsurată până în momentul curent i. Valorile ratei de bit sunt obținute prin eșantionarea procesului de sosire a celulelor după fiecare perioadă TS de eșantionare.
Alegerea perioadei de măsurare este importantă și se face astfel încât să ofere o fereastră de predicție rezonabilă. Perioada de eșantionare se alege astfel încât H(i) să capteze caracteristicile traficului în timp ce se menține un număr rezonabil m al eșantioanelor. (deoarece de m depinde și dimensiunea RN).
Metoda tabelului
Uzual perioada de antrenare a unei RN pentru predicția parametrilor traficului este foarte scurtă pentru că starea registrelor se schimbă continuu, deci numărul datelor obținute este foarte mare.
Un tabel de modele este o memorie mare utilizată pentru a înmagazina o cantitate foarte mare de date, care la un moment dat s-ar putea umple. În acest caz , dacă se observă date noi în trafic o intrare în tabel este aleasă aleatoriu și vechea informație este suprascrisă cu cea nouă, astfel încât se pot pierde date utile antrenamentului. Pe de altă parte, pentru antrenarea unei RN sunt necesare atât exemple bune cât și exemple proaste, dar situațiile în care parametrii QOS sunt nesatisfăcători sunt mai rare decât cele în care parametrii QOS sunt adecvați. De aceea se recomandă utilizarea de tabele separate pentru exemplele "bune" și cele "rele", pentru a preveni înlocuirea în tabel a unor exemple "rele" cu cele "bune". Avantajul metodei constă în faptul că raportul exemplelor bune și a exemplelor proaste poate fi ușor ponderat prin rata de selecție a tabelului corespunzător în timpul antrenamentului.
Rețele cu reacție (feedback)
Dezvoltarea rețelelor cu reacție are ca inspirație diferite idei preluate din fizica statistică. Câteva din caracteristicile comune tuturor acestor RN sunt:
neuroni neliniari;
conexiuni simetrice;
reacție de la ieșire la intrare;
Aceste RN pot fi implementate ca și sisteme dinamice continue:
( 1)
sau discrete:
( 2)
parametrizate de o matrice W (sau mai multe ) care codează informațiile, unde:
-x este starea sistemului;
– este derivata stării sistemului;
-u este intrarea, care poate fi independentă sau aplicată ca o condiție inițială x(0), respectiv x0.
Sistemele discrete se numesc recursive.
Câteva exemple de rețele cu reacție sunt:
1.Rețeaua Hopfield Implementată de cercetătorul căruia îi poartă numele în 1981, RN Hopfield are un singur strat în care fiecare dintre neuroni este conectat cu toți ceilalți. Aplicațiile sunt de memorie asociativă și de optimizare combinatorială.
2. Mașina Bolzmann (Hinton și Sejnowski 1983) este o generalizare a rețelei Hopfield care combină caracteristicile rețelelor multistrat cu cele a rețelei Hopfield . Are deci o structură multistrat cu neuroni ascunși și conexiuni simetrice. Principiul care stă la baza funcționării este răcirea simulată, în care energia sistemului considerat scade cu temperatura. Denumirea a fost aleasă în memoria lui Bolzmann care a fost primul care a observat că mișcarea aleatorie a moleculelor unui gaz are o energie legată de temperatură.
3. Mean-field theory (Peterson și Anderson 1987) este derivată din mașina Bolzmann și funcționează pe baza metodei aproximării câmpului mediu (mean-field approximation). Pentru a reduce excesiva capacitate de procesare s-au înlocuit neuronii binari aleatorii a mașinii Bolzmann cu unități deterministe analogice.
1 Noțiuni teoretice generale:
Într-o bază de date (memorie) implementată pe un calculator clasic, memorarea se face sub formă de liste imbricate. Apelul unui model din memorie se face secvențial, ceea ce implică un timp îndelungat de acces, dependent de numărul elementelor memorate.
În memoriile asociative neuronale apelul unei informații din memorie se face printr-un proces de relaxare, de minimizare a unei funcții de cost. Timpul de acces nu depinde de numărul modelelor memorate, ci este o caracteristică a arhitecturii rețelei.Acest mecanism de căutare reprezintă avantajul major al memoriilor asociative neuronale față de cele clasice . El este similar recunoașterii de modele în sistemele nervoase biologice și explică de ce timpul necesar recunoașterii figurilor familiare este același la vârsta de cinci, douăzeci și cinci , sau cincizeci de ani.
Memoriile asociative implementează o transformare neliniară între o mulțime de modele aparținând spațiului de intrare Fx și o mulțime de modele aparținând spațiului de ieșire Fy (Fig. 1). Ori de câte ori la intrare se aplică un model particular , la ieșire se obține modelul asociat acestuia.
Fig. 1 Structura unei memorii heteroasociative
Un caz particular este autoasocierea, când un model aplicat la intrare este asociat cu el însuși la ieșirea rețelei neuronale (Fig. 2). Scopul procesării este completarea de model sau eliminarea zgomotului, asociindu-se modelul de intrare incomplet sau afectat de zgomot cu el însuși la ieșire.
Fig. 2 Structura unei memorii autoasociative
Există trei modalități de proiectare a rețelelor neuronale ca și memorii asociative, care asigură convergența înspre:
puncte de echilibru stabil;
soluții periodice;
traiectorii haotice;
Fig. 3a prezintă o structura unei rețele neuronale formată din unități stabile și Fig. 3b structura unei RN formate din oscilatoare. Conexiunile de autoreacție și cele dintre diferitele unități sunt reprezentate prin linii, iar sensul legăturii prin săgeți.
Fig. 3 Structura unei memorii asociative a) formată cu unități stabile
b) formată cu oscilatoare
Metodele uzuale de proiectare a MA urmăresc memorarea informației ca puncte fixe de echilibru ale sistemului. S-au înregistrat rezultate promițătoare în memorarea informației ca oscilații periodice stabile și nestabile (generate de sisteme haotice). Cercetările neurologice (în special în simțul mirosului) din ultimii ani vin să confirme ipoteza că modul procesare al informației în creierul uman este de tip “haotic”. Din păcate până în prezent se știe foarte puțin despre proiectarea unui sistem haotic care să memoreze modele dorite. Exploatarea potențialului de procesare a sistemelor haotice deschide noi perspective MA.
Implementarea unei memorii asociative are loc în două faze:
învățarea celor p perechi de modele de asociat;
aplicarea la intrarea rețelei a oricăruia dintre modelele memorate va genera la ieșire modelul asociat (recall);
Literatura de specialitate consemnează mai multe metode de implementare a unei memorii asociative cu puncte de echilibru stabil: regula Hebb ( rețeaua Hopfield, memoria bidirectională associativă a lui Kosko), la decompunerea în valori singulare (proprii) a modelelor de înmagazinat, metoda pseudoinversei, regula delta generalizată și reguli de tip probabilistic ( în teoria armoniei,, mașina Bozmann) ou des autres règles pour adapter les poids.
Proiectarea se face astfel încât să fie îndeplinite câteva cerințe esențiale;
O capacitate de memorare cât mai mare. Capacitatea de memorare este numărul modelelor distincte pe care sistemul le poate învăța cu precizie și rememora, deci coda și decoda.
O bună capabilitate de corecție a erorilor. Dacă se aplică la intrarea rețelei unul dintre modelele de intrare, afectat de zgomot, rețeaua ar trebui să conveargă către modelul asociat dorit ( în condițiile unei erori cât mai mari);
Evitarea modelelor nedorite (spurious patterns) Un model nedorit este un model parazit, pe care rețeaua și-l amintește deși el nu a fost codat. Parametrii rețelei trebuie ajustați astfel încât rețeaua să memoreze doar modelele dorite, nu și altele, parazite;
Un număr redus de interconexiuni. Sunt de dorit interconexiuni de ordinul întâi, știut fiind faptul că cele de ordin superior generează probleme în implementările VLSI;
Un algoritm de determinare a ponderilor interconexiunilor rapid și aditiv în cazul necesității încorporării unui model nou.
a) b)
Fig.4.3 O memorie asociativă a) cu o bună performanță a) cu o slabă performanță
Figurile Fig.4.3a și Fig.4.3.b ilustrează caracteristicile unei MA performante, respectiv ale unei MA ineficiente . Modelele care reprezintă informația utilă sunt reprezentate prin cercuri goale, iar cele nedorite prin cercuri pline. Este de dorit, ca în cazul în care modelele nedorite nu pot fi evitate, ele să fie cât mai îndepărtate de punctele în care se memorează informația utilă.
Aglomerarea modelelor memorate poate afecta precizia clasificării, deoarece modelele similare pot avea bazine de atracție care se suprapun.
Se știe că dimensiunea rețelei trebuie să depășească numărul de modele pe care dorim să le memorăm, pentru ca sistemul să nu învețe modele noi cu prețul uitării altora .
Funcția de energie a unei RN
O memorie asociativă poate fi interpretată ca un sistem gravitațional n dimensional, în care se poate localiza orice număr de corpuri de masă egală în indiferent ce punct. Forța gravitațională a fiecărui corp se exercită asupra tuturor corpurilor mai apropiate. Plasând un corp într-un punct dorit al sistemului (starea inițială) și imprimându-i un impuls (regula de învățare) el va fi atras de corpul care exercită asupra lui cea mai mare forță (de obicei cel mai apropiat).
O interpretare elegantă pentru comportamentul unei RN, introdusă de Hopfield în 1982 este de a-i asocia o funcție de energie (o funcție Lyapunov). Funcția de energie Lyapunov se poate reprezenta printr-un relief de energie în spațiul intrărilor. Dintr-o stare inițială rețeaua se deplasează în sensul minimizării funcției de energie până atinge un minim local.(Fig 5). Dacă starea inițială a RN este Q, rețeaua va evolua înspre cel mai apropiat bazin de atracție, Pi, independent de numărul bazinelor de atracție. Procedura de învățare va amplasa modelele dorite în minimele funcției de energie, respectiv în P1, P2, ….Pi, …. PN. Dacă RN evolează înspre un alt minim decât cel dorit și învățat în procesul de codare, modelul respectiv se numește nedorit spurious.
Viteza de apel a informației din memorie este o caracteristică a rețelei și nu depinde de numărul modelelor memorate.
Fig. 5 Funcția de energie asociată unei rețele neuronale
Spațiul tuturor stărilor posibile ale rețelei se numește spațiul de fază (phase space), terminologie preluată din fizică.
Minimele locale ale funcției de energie sunt punctele de echilibru stabil, adică punct din care RN nu-și mai schimbă starea. Aceste puncte stabile se numesc atractori, deoarece fiecare atractor exercită influență în jurul său într-un domeniu numit bazin de atracție.
Din acest motiv rețelelor cu reacție cu conexiuni simetrice se numesc și rețele cu atractori.
Stabilitatea unei RN
Un system dinamic este stabil (Elbert 1984) dacă i se poate găsi o funcție de energie care să-l caracterizeze (funcția Lyapunov) descrescătoare de-a lungul tuturor traiectoriilor posibile:
( 3)
unde L este funcția de energie asociată.
Un system dinamic este asimptotic stabil dacă
( 4)
În echilibru stabil traiectoria rețelei poate trece pe lângă punctul de echilibru fără a-l atinge. În echilibru asimptotic stabil traiectoria rețelei atinge punctul de echilibru exponențial de rapid. Condiția de existență a unei funcții de energie Lyapunov este suficientă, dar nu necesară ca o rețea să fie asimptotic stabilă.
Datorită conexiunilor simetrice o rețea de tip cu reacție inversă este global stabilă.
Optimizarea
Optimizarea este o tehnică pentru rezolvarea unor probleme ce implică minimizarea unei funcții de cost asociate în raport cu niște constrângeri impuse, într-un mode similar asocierii energiei sistemelor fizice . Funcția de cost este funcția de energie asociată RN. Prin minimizare RN converge către o stare stabilă producând o soluție optimă (sau lângă optim).
În figura 6 s-a reprezentat funcția de energie asociată unei astfel de rețele. Cu linie plină s-au figurat dealurile și cu linie punctată văile. Fiecare contur, curbă de nivel, corespunde unei aceleiași valori a energiei. Evoluția rețelei, numită traiectorie, dintr-o stare inițială, are loc înspre un minim local, înspre o vale, și se va opri în cel mai apropiat atractor. În problemele de optimizare se urmărește găsirea minimului global al funcției de energie asociate. Pentru o memorie asociativă modelele memorate se găsesc în minimele energetice locale ale funcției Lyapunov care caracterizează sistemul.
Fig. 6 a)Releful funcției de enrgie asociate unei rețele cu reacție
b) Traiectoriile posibile pentru RN din fig.6.a)
c) Dinamica unei rețele cu reacție
Rețeaua Hopfield . Noțiuni teoretice
Rețeaua Hopfield este o rețea neuronală cu reacție, în care starea fiecărui neuron la un moment dat depinde și de ieșirile tuturor celorlalți neuroni la momentul anterior.
Structura ei este prezentată în Fig.1. Are un singur strat de neuroni, complet interconectați, adică fiecare neuron este conectat cu toți ceilalți. Ieșirile neuronilor sunt binare 0 și 1, sau bipolare -1 și +1 . Matricea ponderilor este simetrică wij=wji.Autoreacția est nulă wii=0 (fenomen observat de alfel și în neuronii biologici). Aceasta îmbunătățește performanțele obținute cu modele bipolare.
Fig.1 Rețeaua neuronală Hopfield
Există două modalități de implementare a unei rețele neuronale Hopfield determinate de aplicația în care este utilizată: ca sistem discret pentru o memorie asociativă și ca sistem continuu pentru o problemă de optimizare.
1.1 Rețeaua neuronală Hopfield ca memorie asociativă
În funcționarea unei rețele neuronale ca memorie asociativă există două faze:
de înmagazinare a informațiilor;
de regăsire a informației dorite din memorie (recall sau retrieval);
Înmagazinarea informațiilor Fie un set de p modele bipolare X1, X2, X3, … XP, de dimensiune N, pe care dorim să le memorăm.Aceste modele se numesc și modele prototip sau modele fundamentale. Ponderile interconexiunilor se determină cu o generalizare a regulii lui Hebb, regula bipolară hebbiană (outer product rule):
(1)
Ținând cont și de faptul că autoreacția trebuie să fie nulă wii=0, relația (5.1) se poate scrie sub formă matriceală:
(2)
unde :
I este matricea unitate de dimensiune N x N ;
p este numărul modelelor memorate;
Xk este model prototip Xk =[ X k1 X k2 X k3 … X kN];
termenul p.I a fost introdus pentru anularea ponderilor de autoreacție;
De exemplu pentru a coda modelul bipolar [1,-1] într-o rețea cu doi neuroni se obține matricea W1 :
(3)
Pentru a simplifica formalismul matematic al regăsirii informației se poate utiliza și un termen de proporționalitate în relația (5.2):
(4)
Regăsirea informației dorite din memorie
Un model de intrare bipolar x =[ x1 x2 x3 … xN] , N dimensional, este impus ca stare a RN Hopfield . Tipic el este o versiune incompletă sau afectată de zgomot al unui model memorat. Actualizarea stării neuronilor este asincronă, un singur neuron își schimbă starea la un moment dat în conformitate cu funcția de activare. Intrarea netă a acestui neuron depinde de ieșirile tuturor celorlalți:
(5)
unde:
xj este starea de activare a neuronului j;
Ii este o intrare constantă, numită curent de polarizare ;
N este numărul neuronilor rețelei ;
Se aplică apoi funcția de activare care poate fi1 o funcție bipolară cu prag , dată de relația :
( 6)
sau funcția signum:
(7)
La o nouă iterație un alt neuron își schimbă starea în conformitate cu regula de actualizare.Se determină pentru acesta intrarea netă cu relația (5) și apoi noua stare cu relația (6). În final RN ajunge într-o stare invariantă în timp care satisface condiția de stabilitate, adică într-unul dintre atractori.
Observații
Un artefact al codării bipolare hebbiene este faptul că prin memorarea modelului bipolar X se memorează implicit și modelul complementar Xc , care este un model nedorit.
Fie de exemplu modelul X= [1,1] aplicat ca stare inițială a rețelei care a memorat modelul [1 –1] (anterior introduse).
Printr-o actualizare asincronă un singur neuron își schimbă starea. Fie acesta neuronul unu.
Doar prima coloană a matricii pondere este implicată (ponderile neuronului unu către neuronul doi). Starea neuronului 2 rămâne 1.
Aplicând din nou rețelei modelul [-1,1] prin W și actualizând neuronul 2 se obține același model [-1,1] . Deși s-a dorit memorarea doar a modelului [1, -1] implicit, prin codarea bipolară hebbiană a fost memorat și modelul complementar [-1,1].
2. .Rețeaua Hopfield este stabilă.
Indiferent care este starea inițială a rețelei Hopfield ea va evolua înspre unul dintre modelele memorate care reprezintă atractorii, adică punctele de echilibru stabil. Ca exemplu se poate lua în considerare rețeaua anterior construită.
2. Actualizarea asincronă permite interpretarea informației procesate de rețeaua Hopfield ca un proces aleator. Pentru actualizarea neuronilor uneori se stabilește o schemă de actualizare astfel încât în medie fiecare neuron să fie actualizat de același număr de ori. Actualizarea asincronă după o lege probabilistică permite caracterizarea statistică a rețelei Hopfield (ancorarea ei în fizica statistică). Evoluția stărilor rețelei în spațiul {0,1}N sau {-1,1}N nu este în mod unic definită de o anume stare inițială, ci depinde de schema de actualizare.
3. Contribuția cea mai importantă a lui Hopfield este introducerea unei funcții de energie în analiza comportamentului RN. Aceasta permite abordarea RN într-o manieră similară sistemelor fizice, marcându-le evoluția. Fie funcția ce caracterizează rețeaua Hopfield :
(9)
Se poate demonstra că de fiecare dată când un neuron își schimbă starea, E(x) descrește:
(10)
unde () este starea nouă (veche) a neuronului k, singurul neuron care își schimbă starea în iterația curentă. Toți ceilați neuroni ik rămân în aceeași stare = astfel încât în suma dată de relația (10) vor exista termeni care se anulează.
Există două situații posibile:
1.când starea neuronului k a fost și devine
Pentru că se poate rescrie relația (10):
(11)
Semnul celui de-al doilea factor al produsului din relația (11) este plus pentru că starea neuronului k devine +1 dacă este îndeplinită condiția . Diferența este negativă, deci E este și ea negativă.
2. când starea neuronului k a fost și devine .
Semnul celui de-al doilea factor al produsului din relația (11) este minus pentru că starea neuronului k devine –1 dacă este îndeplinită condiția. Diferența este pozitivă, deci E este negativă.
Practic s-a demonstrat că în conformitate cu definiția stabilității unui sistem, rețeaua neuronală Hopfield este stabilă.
5. Rețeaua Hopfield est o RN auto-asociativă. Scopul procesării în cazul memoriei asociative este completarea de model sau eliminarea zgomotului, asociindu-se modelul de intrare , incomplet, sau afectat de zgomot cu el însuși la ieșire.
Capacitatea de memorare a rețelei Hopfield este cea mai mare dintre toate memoriile asociative cunoscute.
Capacitatea de memorare este numărul modelelor distincte pe care sistemul le poate învăța cu precizie și rememora, deci coda și decoda.
(12)
Pentru determinarea capacității de memorare se poate utiliza și o relație empirică aproximativă C=0,15N.
Exemplul 1
Construiți o rețea Hopfield care să memoreze modelele X1=[1 -1] și X2=[-1 1], printr-o codare bipolară hebbiană.
a) Determinați matricea ponderilor. De ce este suficientă memorarea unui singur model?
b) Determinați stările succesive ale rețelei până în starea finală pentru toate intrările posibile. Ce observați?
c) Se știe că pentru cazul particular al pragurilor și ponderilor nule funcția de energie a rețelei este : . Determinați evoluția rețelei pentru intrările de la punctul b. Ce puteți spune despre stabilitatea rețelei ?
Soluție
a) Rețeaua are 2 neuroni. Este suficientă memorarea unui singur model pentru că un artefact al codării bipolare hebbiene este memorarea modelelor complementare. Matricea ponderilor este :
(13)
b)Intrările posibile sunt : X=[1 1], [-1 -1], [1 -1] et [-1 1].
Fie strarea inițială X1= [1,1]. Fie neuronul 1 cel care iși schimbă starea. Starea neuronului 2 rămâne neschimbată.Noua stare va fi :
(14)
Se aplică funcția de activare, funcția signum. Stare rețelei rămâne aceeași [-1,1]. După actualizarea neuronului 2 starea rețelei va fi tot [-1,1], care este un punct de echilibru.
Dacă se aplică la intrare X2 = [-1 -1] se obține prin actualizarea primului neuron:
(15)
(16)
Prin actualizarea neuronului 2:
(17)
(18)
Rețeaua va ajunge într-un alt punct de echilibru [1 -1]. Pentru celelalte stări posibile, care reprezintă modelele memorate [1 -1] și [-1 1], rețeaua nu-și va schimba starea . În concluzie, indiferent de starea inițială RN, va evolua înspre unul dintre punctele sale de echilibru
c) Pentru starea inițială X1= [1 1] energia RN este:
(19)
A doua stare , care este și cea finală are energia următoare:
(20)
Pentru starea inițială X2= [-1 -1] energia rețelei este:
(21)
Starea finală are energia :
(22)
În mod similar se poate calcula energia și pentru celelalte intrări care sunt puncte de echilibru ale rețelei. Pentru aceste cazuri energia rămâne la o aceeași valoare –1. Deci în toate cazurile energia are o evoluție descrescătoare astfel încât satisface condiția de stabilitate
Exemplul 2
Construiți o rețea Hopfield cu patru neuroni care să memoreze modelul X1=[1 1 1 -1], printr-o codare bipolară hebbiană. Fie funcția de activare funcția signum, pragurile și curenții de polarizare nuli.
a) Determinați matricea ponderilor.
b) Fie starea inițială una dintre următoarele:
X0=[1 1 1 1] ;
X0=[1 1 -1 -1] ;
X0=[1 -1 1 -1] ;
X0=[-1 1 1 -1] ;
Actualizați neuronii în ordinea 1, 2, 3, et 4. Determinați stările succesive ale rețelei până în starea finală pentru toate intrările posibile .
c) Se știe că pentru cazul particular al pragurilor și ponderilor nule funcția de energie a rețelei este : . Determinați evoluția rețelei pentru intrările de la punctul b. Ce puteți spune despre stabilitatea rețelei ?
Soluție
Structura rețelei este cea din Fig.2. Matricea ponderilor este dată de relația:
(23)
(24)
b) Fie starea inițială: X=[1 1 1 1]. În mod secvențial, conform schemei de actualizare câte un neuron își actualizează starea:
(25)
Noua stare a neuronului 1 este . (26)
Într-un mod similar se actualizează neuronul 2, , apoi neuronul 3 , a cărui stare devine . Neuronii 2 și 3 rămân în aceeași stare 1. Doar neuronul 4 își schimbă starea :
Fig.2 Structura rețelei din exemplul 2
(27)
Stare finală va fi , care este un atractor al rețelei .
Dacă starea inițială este X=[1 -1 -1 1], după actualizarea primului neuron ea devine:
(28)
(29)
Se actualizează al doilea neuron:
(30)
(31)
După actualizarea celui de-al patrulea neuron starea rețelei devine:
(32)
(33)
Starea finală va fi:
(34)
(35)
Modelul X=[-1 –1 –1 1] este un model nedorit, dar este un atractor al rețelei memorat printr-o codare bipolară hebbiană .
d) Pentru starea inițială X= [1 –1 –1 1] energia rețelei este:
(36)
Pentru starea succesivă, care este și cea finală energia este:
(37)
Asfel încât evoluția energiei rețelei este descrescătoare, deci satisface condiția de stabilitate..
2. Rețeaua Hopfield continuă
Reprezintă o generalizare a RN Hopfield discrete.
Este o RN dinamică asimptotic stabilă. Evoluția rețelei în spațiul de fază este continuă în timp, în sensul minimizării funcției de energie asociate E(x(t))- de unde denumirea de RN Hopfield de tip gradient. În final, rețeaua se va stabiliza într-unul dintre atractorii spațiului stărilor posibile, într-un minim energetic.
Dacă funcția de energie asociată RN este o funcția de cost supusă unor constrângeri într-o problemă de optimizare, starea finală a rețelei va fi soluția problemei. Astfel încât pentru rețeaua Hopfield optimizarea este o aplicație directă. Prin minimizarea funcției asociate RN converge către o stare stabilă producând o soluție optimă (sau lângă optim).
O RN de tip gradient poate fi complet descrisă printr-uN set de ecuații diferențiale neliniare cu termeni constanți
Aplicațiile RN Hopfield continue
În toate problemele de optimizare:
-comutarea de pachete
-controlul admisiei conexiunii
-rutare
Comutarea de pachete
În rețelele de comunicații de mare viteză poate apare fenomenul de congestie atunci cand două sau mai multe pachete intră în competiție ptr. același nod de comutare. Pentru controlul comutării de pachete se folosesc metodele cozilor de așteptare:
-la intrare
-la ieșire
Metoda cozii de așteptare la ieșire asigură cea mai bună performanță din punctul de vedere al întarzierii sau al capacității globale, dar comutatorul de dimensiune NXN trebuie să opereze de N ori mai repede decat regitrul de ieșire și necesită mai multe registre ptr. fiecare port de ieșire
Metoda cozii de așteptare la intrare este mai simplă și pot fi atinse performanțe comparabile cu metoda cozii de așteptare la ieșire dacă se rezolvă problema blocării la cap de linie (head of line blocking)
Blocarea la cap de linie este fenomenul prin care un pachet dintr-o coadă de așteptare care funcționează pe baza principiului primul intrat primul ieșit FIFO nu poate accesa portul de ieșire deoarece pachetul din fața lui în registru este blocat la intrarea în portul de ieșire. Datorită acestui fenomen capacitatea globală a unui comutator de tip crossbar NXN scade pană la 0,58 din capacitatea disponibilă pentru valori mari ale lui N.
Metoda bypass poate soluționa problema permițând și altor pachete, înafara primului din coada de așteptare să fie transmise, atunci când primul este blocat.
Folosind și un controler neuronal pentru programarea pachetelor capacitatea globală a comutatorului va fi maximizată
Comutare de pachete cu controler neuronal
Controlerul neuronal va programa transferul pachetelor de date astfel încât capacitatea globală a comutatorului să fie maximizată
Cozile de bypass sunt amplasate la intrarea rețelei de comutare.
Lungimea F a ferestrei este relativ mică față de lungimea cozii de așteptare.
Toate pachetele din fereastra F sunt în competiție ptr. destinație în fiecare slot.
Este selectat un set de pachete nonblocante astfel încât să fie maximizat numărul de pachete selectate cu condiția ca să fie evitată transmisia înafara succesiunii
Trebuie satisfăcute următoarele constrângeri:
în fiecare rand, din fereastră, este selectată ptr. transmisie cel mult o celulă
fiecare celulă selectată într-un slot trebuie să aibe o adresă destinație distinctă
celulele cu o aceeașiadresă destinație sunt programate succesiv
Rețeaua neuronală va avea un număr de NxF neuroni, unde N este numărul registrelor de intrare și F este dimensiunea ferestrei din care se face selecția celulelor ptr. transfer. Deci fiecare neuron corespunde unei celule din fereastră.
Prin minimizarea funcției de energie, în fiecare rand, respectiv coloană, va fi activ un singur neuron. Fiecare neuron are doi indici i pt registrul de intrare și j pentru poziția celulei pe cre o reprezintă în fereastră. Dacă un neuron este activ, celula corespunzătoare este selectată pentru transfer în slotul curent. Ponderile interconexiunilor dintre neuroni sunt determinate în timpul fiecărui slot, prin identificarea cu funcția de energie generală a rețelei Hopfield. Ele codează constrangerile impuse transferului.
Comutator de pachete cu controler neuronal de tip Hopfield
Funcția de activare a neuronilor este:
unde
oij este ieșirea
Netij este intrarea netă
β este un parametru de castig
Din cele 3 constrangeri se formulează următoarea funcție de energie
unde
A,B,C,D sunt constante positive.
Iij sunt intrări externe cu valoarea 1 dacă poziția j a registrului i conține o celulă și 0 în rest
θij este pragul neuronului j
Matricea T cu elemente tij,pq este o matrice împrăștiată, dependentă de modelul de trafic și desemnează conectivitatea dintre neuronul ij și neuronul pq
Primul termen este minimizat dacă un singur neuron este activ în fiecare rand.
Iij va forța neuronul ij pe ON dacă poziția corespunzătoare a registrului este ocupată de o celulă
Al doilea termen este nul, minim, doar dacă nu există blocare, adică nu există celule selectate ptr. transfer cu aceeași destinație.
Al treilea termen forțează transmisia în succesiune. Pragurile neuronilor θij sunt dependente de poziția neuronului în fereastră.
Deoarece θij este o funcție de indexul j al coloanei toți neuronii din aceeași coloană au același prag și neuronii cei mai din stanga au cele mai mici praguri.
Termenul al treilea are valoare minimă dacă suma pragurilor tuturor neuronilor activi este maximizată. D este un termen de polarizare cu rol de a mări convergența. Includerea a astfel de termeni este importantă, dar este doar o chestiune de experiență.
Prin minimizarea funcției de energie în final în fiecare rand, respectiv coloană, va fi activ un singur neuron . Stările neuronilor reprezintă un set optim de celule nonblocante în timpul unui slot. O problemă care poate apare este oprirea într-un minim local și nu într-unul global dorit. Experimentele arată că oprirea într-un minim local atrage doar o degradare ușoară a calității soluțiilor și nu o violare a constrangerilor problemei.
Figura 5 arată că probabilitatea de pierdere a celulelor este mai mică cu controlerul neuronal pentru o aceeași mărime registrului, a ferestrei și încărcare a traficului, decat cele obținute prin metoda cozii de așteptare la ieșire și cea metoda secvențială bypass (convențională).
Figura 6 prezintă variația raportului între capacitatea globală obținută cu controlerul cu RN și cea obținută prin căutarea exhaustivă, în funcție de mărimea comutatorului N. Căutarea exhaustivă generează soluții globale optime în timp. Ptr. N=128 și F=8 capacitatea maximă obținută prin căutarea exhaustivă a fost 0,973. Raportul dintre capacitatea obținută pentru controlerul neuronal și cea prin căutarea axhaustivă a fost peste 0,98 pentru valori mari ale lui N. Practic s- a înregistrat o scădere de 2% față de soluțiile optime globale.
Cursul 6
Rețele neuronale autoorganizatoare
Rețelele neuronale abordate în capitolele precedente învață să implementeze o transformare , din perechile de modele intrare xp- modele de ieșire dorite op. Există însă probleme în care nu dispunem de setul de modele dorite ci doar de modelele de intrare. Rețeaua neuronală trebuie să găsească singură informația relevantă din exemplelexp care i se aplică la intrare, pe baza similarității acestora. Câteva probleme din această categorie sunt următoarele:
Gruparea în categorii RN trebuie să găsească singură criteriul de clasificare și să realizeze gruparea modelelor de intrare.
Cuantizarea vectorială RN trebuie să determine discretizarea optimă a spațiului continuu de intrare. Intrarea în sistem este modelul x, n dimensional, iar ieșirea este o reprezentare discretă a spațiului de intrare.
Reducerea dimensiunii Modelele de intrare sunt grupate într-un subspațiu care are dimensiune mai redusă decât dimensiunea spațiului de intrare. Sistemul neuronal trebuie să învețe transformarea optimă astfel încât cea mai mare parte din distribuția modelelor de intrare să se regăsească la ieșire.
Extragerea de caracteristici. RN trebuie să extragă trăsăturile caracteristice esențiale ale datelor de intrare. Adesea aceasta implică și o reducere a dimensiunii.
Dacă există și modelele de ieșire dorite, acestea pot fi folosite ulterior la o rafinare a parametrilor rețelei autoorganizatoare.
1 Principiul învățării competitive
Într-o rețea competitivă toți neuronii unui strat sunt complet conectați. Adică primesc intrări excitatorii de la toți neuronii stratului anterior, transmit conexiuni excitatorii către toți neuronii stratului următor și conexiuni inhibitorii către toți neuronii stratului din care fac parte. Vectorii pondere sunt inițializați aleator, de obicei la valorile unui subset de modele de intrare. În majoritatea rețelelor autoorganizatoare atât modelele de intrare cât și vectorii pondere sunt normalizați, având același număr de N elemente. Astfel atât modelele de intrare cât și vectorii pondere au aceeași lungime și pot fi interpretate ca și puncte pe o sferă N dimensională (paragraful 6.3). La aplicarea unui model de intrare fiecare neuron procesează intrarea netă:
(6.1)
Se determină starea de activare a neuronilor prin trecerea intrării nete prin funcția de activare. Se selectează apoi neuronul câștigător printr-una dintre cele două modalități posibile:
Neuronul câștigător este declarat neuronul cu cea mai mare stare de activare ac.
Neuronul câștigător este declarat neuronul cu cea mai mică intensitate de intrare Ij definită de relația:
(6. 2)
unde D este o distanță metrică oarecare.
Câteva distanțe metrice, uzual utilizate, sunt următoarele:
Norma euclidiană, dată de amplitudinea vectorului diferență :
d = ||x-v || = || || = (T )1/2 (6.3)
Fig.6.1 Reprezentarea vectorului diferență
Pătratul amplitudinii vectorului diferență:
d = || x v ||2 = || ||2 = T )
Relația (6.4 ) reprezintă o simplificare față de cazul anterior.
Distanța Manhattan, care este o sumă a valorilor absolute ale coordonatelor vectorului diferență:
d = (6.5)
Proiecția lui x pe v. Aceasta este cea mai simplă măsură a asemănării vectorilor normalizați:
d = vT x = || v |||| x ||cos (6.6)
Fig.6.2 Proiecția vectorului x pe v
Se recomandă ca cei doi vectori să fie normalizați înainte de măsurare: || x ||=|| v ||=1.
Distanța Hamming:
d = (6.8)
Exemplu:
Se calculează distanțele prezentate anterior pentru vectorii x = [1 1 -1 1] și v = [1 -1 -1 -1].
distanța eulidiană = sqrt(02 + 22 + 02 + 22) = 2.83
distanța Manhattan = 0 + 2 + 0 + 2 = 4
distanța Hamming = 0 + 1 + 0 + 1 = 2
distanța ca produs = [1 1 -1 1][1 -1 -1 -1]T = 0
Odată selectat neuronul câștigător învățarea are loc prin modificarea ponderilor, conform unei strategii de tip competiție, cunoscute în literatura sub numele de "câștigătorul ia totul ".Din acest motiv RN autoorganizatoare se numesc și RN competitive. Neuronul câștigător tinde către valoarea de activare maximă, adică 1, în timp ce toți ceilalți tind către valoarea minimă, zero, printr-un proces iterativ de inhibiție laterală.
În decursul anilor, mai mulți cercetători au elaborat RN competitive, având la baza diferite reguli de învățare: Kohonen, von der Malsburg (1973), Grossberg (1972, 1976), Fukushima (1975), Bienenstock , Cooper și Munro (1980), Rumelhart și Ziepser (1985).
6.3 Interpretarea geometrică
Modelele de intrare și vectorii pondere normalizați pot fi reprezentați prin puncte pe o sferă N dimensională. Conform regulii de învățare de fiecare dată când un neuron câștigă competiția, vectorul său pondere se îndreaptă înspre modelul de intrare x, mișcare ilustrată în Fig.6.3.
Fig.6.3 Deplasarea vectorului pondere a neuronului declarat câștigător
Fig.6.4 prezintă învățarea grupelor de modele în cazul unei RN formate din trei neuroni .
Fig.6.4.a Modele similare de intrare sunt situate în puncte apropiate pe sferă.
Fig.6.4.b Când se aplică un model de intrare câștigă competiția neuronul al cărui vector pondere este cel mai apropiat de modelul de intrare câștigă competiția. Vectorul său pondere se rotește înspre modelul de intrare.
Fig.6.4.c Dacă există trei neuroni și trei grupări de modele de intrare, fiecare dintre neuroni va câștiga competiția pentru una dintre cele trei grupări.
Dacă există în RN mai mulți neuroni de ieșire decât numărul grupărilor modelelor de intrare, pe măsură ce RN învață, vectorii pondere devin mai deși acolo unde modelele de intrare sunt mai dese și mai rari, sau chiar absenți acolo unde modelele de intrare sunt mai puține. Cu alte cuvinte RN se adaptează pentru a măsura funcția densitate de probabilitate a modelelor de intrare.
6.4 Algoritmi competitivi
6.4.1.Algoritmul competitiv standard
Algoritmul competitiv standard (ACS) [R. Hecht-Nielsen, 90] calculează o distanță între vectorii de intrare și vectorii pondere RBFR. Această distanță poate fi de mai multe tipuri, dar uzual este folosită distanța euclidiană.
Neuronul j având distanța minimă dintre vectorul său pondere și vectorul de intrare este declarat câștigător:
unde x[n] este vectorul de intrare, ci[n] este vectorul vectorul pondere i și n este timpul discret. Vectorul pondere câștigător este mutat înspre vectorul de intrare cu o fracțiune η, numită viteză de învățare:
Viteza de învățare, aparținând intervalului (0,1), poate fi constantă sau variabilă, de exemplu, dată de relația:
unde Nh reprezintă numărul vectorilor vectorul pondere.
Vectorii pondere RBFR sunt inițializați aleator, uzual la valori ale vectorilor de intrare. Ecuațiile (6.9), (6.10) și (6.11) sunt aplicate iterativ până când algoritmul converge, adică atunci când viteza de învățare atinge o valoare foarte mică sau zero, respectiv îngheață atunci când se atinge un număr de iterații predefinit.
Deficiența majoră a algoritmului este necesitatea cunoașterii apriori a numărului de grupări k ale modelelor de intrare. În cazul în care acest număr este necunoscut clasificarea eșuează. Din păcate, în aplicațiile practice numărul k al grupărilor este adesea necunoscut. O altă problemă ce poate apare în procesarea algoritmului ACS este așa numita problemă a "unităților moarte". În cazul în care un vectorul pondere este inițializat prea departe de datele de intrare, în comparație cu ceilalți vectori pondere, este posibil ca acesta să nu câștige niciodată competiția, deci să nu se adapteze, astfel încât practic el este mort din punctul de vedere al învățării. Fig.6.5 prezintă poziția unei unități moarte în spațiul vectorilor pondere. Cu cerculețe cu steluță s-au reprezentat modelele de intrare și cu cerculeț s-au reprezentat vectorii pondere.
Fig.6.5 Izolarea neuronului al cărui vector pondere a fost inițializat prea departe de modelele de intrare
6.4.2 Algoritmul competitiv sensibil la frecvență
Pentru a evita problema "unităților moarte " s-a introdus algoritmul competitiv sensibil la frecvență (ACSF) [S.C.Ahalt, 90], numit și algoritm "cu conștiință". În ACSF fiecare neuronii țin evidența situațiilor în care au câștigat competiția și își reduc viteza de învățare invers proporțional cu numărul acestora. Astfel sunt crescute șansele neuronilor care n-au câștigat niciodată competiția, în raport cu ceilalți neuroni. Algoritmul este o extensie a algoritmului ACS obținut prin modificarea relației (6.9) în următoarea:
Frecvența relativă γi a vectorul pondere wi se definește cu relația:
Unde si este numărul situațiilor în care neuronul cu vectorul pondere wi a câștigat competiția. După selectarea neuronului câștigător vectorul său pondere se actualizează cu relația (6.10) într-un mod similar algoritmului ACS, ajustându-se și parametrul si cu relația:
Prezența "conștiinței" evită apariția neuronilor morți și garantează că toți neuronii vor câștiga odată competiția. Figura de mai jos prezintă modul de apropiere a vectorului pondere al unei unități, în cazul algoritmului competitiv sensibil la frecvență.
Algoritmul ACSF distribuie întotdeauna cei Nh vectori pondere în spațiul modelelor de intrare, fără problema "unităților moarte", dar necesită cunoașterea exactă a numărului k al grupărilor. Câteva dintre aplicațiile în care algoritmul ACSF a avut rezultate remarcabile sunt: extragerea de caracteristici [H.C.Card, 98] și compresia imaginilor [C.H.Chang, 05].
Fig.6.6 Apropierea vectorului pondere îndepărtat de modelele de intrare, prin mecanismul cu "conștiințã"
6.4.3. Algoritmul competitiv cu penalizarea rivalului
Algoritmul competitiv cu penalizarea rivalului (ACPR) realizează o grupare adecvată fără a cunoaște apriori numărul grupărilor modelelor de intrare [L. Xu, 93]. El determină nu numai neuronul câștigător j, cu relația (6.12) ci și următorul neuron cel mai apropiat, numit rival r, cu relația:
Vectorul pondere al neuronului câștigător este mutat înspre vectorul de intrare cu o viteză de învățare η, aparținând intervalului (0,1). Vectorul pondere al rivalului este îndepărtat de vectorul de intrare cu o viteză de învățare β, mult mai mică decât η, uzual cu două ordine de mărime. Toți ceilalți vectori pondere rămân neschimbați. Regula de învățare poate fi sintetizată în relația:
Dacă viteza de învățare η este mult mai mare decât β, cu cel puțin două ordine de mărime, rețeaua va determina automat numărul claselor semnalelor de ieșire. Altfel spus, presupunând că numărul claselor este necunoscut și că numărul neuronilor din stratul ascuns Nh este mai mare decât numărul claselor, atunci vectori pondere vor converge înspre centrii grupărilor semnalelor de intrare. Algoritmul competitiv cu penalizarea rivalului va îndepărta în fiecare iterație cel mai apropiat rival și va converge mult mai rapid decât algoritmii ACS și ACSF, anterior menționați. Vectori pondere în exces, al căror număr este dat de diferența dintre Nh și numărul de clase k vor fi îndepărtați din spațiul modelelor de intrare. Dacă numărul neuronilor din stratul ascuns este mai mic decât numărul claselor, atunci rețeaua va oscila în timpul antrenamentului, indicând necesitatea creșterii numărului neuronilor ascunși.
Algoritmul realizează gruparea modelelor de intrare fără problema unităților moarte și fără a fi necesară cunoașterea apriori a numărului de clase, îndepărtând vectorii pondere în exces din spațiul modelelor în mod automat. Algoritmul ACPR este simplu și are o mai bună convergență decât algoritmul ACSF. Algoritmul ACPR a fost aplicat cu succes în egalizarea canalelor de comunicație [C. Botoca, 04], segmentarea color a imaginilor [L.T. Law, 03] și în extragerea de caracteristici [T. Nakamura, 98]. Dezavantajul acestui algoritm este sensibilitatea la alegerea vitezei de învățare a rivalului, care trebuie să fie cu câteva ordine de mărime mai mică decât cea a neuronului câștigător.
4.Algoritmul competitiv cu penalizarea dinamică a rivalului Algoritmul competitiv cu penalizarea dinamică a rivalului (ACPDR) este o variantă a algoritmului ACPR care elimină dependența convergenței de alegerea vitezei de învățare a rivalului [C. Botoca, 05]. Comparativ cu ACPR, algoritmul competitiv cu penalizarea dinamică a rivalului introduce un parametru, numit putere de penalizare, pentru penalizarea dinamică a vectorul ponderelui rival:
unde ww[n] este vectorul pondere câștigător și wr[n] este vectorul vectorul pondere rival. Viteza de învățare a vectorului pondere rival, β din ecuația (6.16) devine:
Se poate observa că valoarea puterii de penalizare a rivalului p(wi) din relația (6.18) este întotdeauna între 0 și 1, astfel încât poate fi privită ca o probabilitate. Dacă , atunci rivalul va fi complet penalizat cu viteza de învățare η. În caz contrar, rivalul va fi penalizat cu viteza de învățare η p(wi), care este gradual atenuată pe măsură ce distanța dintre vectorul ponderel câștigător și rivalul său crește. Astfel algoritmul ACPDR este de fapt o generalizare a algoritmului ACPR, care permite îndepărtarea rivalului cu o viteză de învățare mai mare decât acesta, deci are o convergență mult mai rapidă înspre vectori ponderei doriți.
Exemple
Algoritmii ACSF, ACPR și ACPDR au fost utilizați pentru clasificarea unor date de intrare complexe [C. Botoca, 05], [C. Botoca, 06]. În cele ce urmează se prezintă rezultatele experimentelor, pentru un număr diferit de vectori pondere și de grupări. Partea reală și cea imaginară a datelor de intrare au fost generate independent, pornind de la numere alese în mod aleator în spațiul complex, prin suprapunerea unui zgomot gaussian, cu valori diferite ale dispersiei σ². Vectori ponderei au fost inițializați aleator la un subset de valori ale datelor de intrare. Viteza de învățare a vectorul ponderelui câștigător a fost aleasă la η=0.001, pentru toți algoritmii. Viteza de învățare a rivalului a fost aleasă la β=0.0001.
Exemplul 1
Au fost generate 600 de date de intrare complexe, utilizând un zgomot gaussian în jurul a trei puncte: (1; j), (1; 5j) și (5; 5j) [C. Botoca, 05]. Datele de intrare au format trei grupări așa cum se poate vedea în figurile 6.7 a), b) și c). Cei șase vectori pondere aleși au fost următorii: (0.2580; 0.2849j), (1.4659; 5.1359j ), (0.3893; 5.3331j), (5.2045; 5.1298j), (1.9193; 5.4489) și (5.5869; 5.1937j).
Figurile 6.7 a), b) și c reprezintă stările dorite (datele complexe inițiale, neafectate de zgomot), datele de intrare afectate de zgomot x[n], respectiv pozițiile inițiale și finale ale vectori ponderelor c[n], în cazul unei dispersii a zgomotului de σ²=0.36, după 100 iterații, în cazul utilizării celor trei tipuri de algoritmi ACSF, ACPR și ACPDR. Reprezentările s-au făcut pentru același număr de iterații, pentru toți cei trei algoritmi, pentru a evidenția diferențele dintre rezultatele procesării, chiar dacă graficele obținute au scări diferite.
Se poate observa că algoritmul ACSF a eșuat în determinarea stărilor dorite, pentru că el trebuie să cunoască apriori numărul grupărilor, astfel încât nu poate manipula un număr de vectori pondere diferit de numărul grupărilor. Ceilalți doi algoritmi, ACPR și ACPDR au reușit să orienteze corect vectori ponderei spre stările dorite. Comparând figura 6.7 b) cu figura 6.7 c) se poate observa că algoritmul ACPDR a îndepărtat mai rapid vectori ponderei în exces decât algoritmul ACPR și a găsit poziții mai apropiate de cele dorite, în același număr de iterații, deci convergența sa este mai bună.
a)
b)
c)
Fig.6.7 Stările dorite , stările de intrare zgomotoase x[n], pozițiile inițiale și cele finale ale vectori ponderelor c[n] în cazul unei dispersii a zgomotului de σ²=0.36, după 100 iterații, utilizând:
a) algoritmul ACSF; b) algoritmul ACPR; c) algoritmul ACPDR
(Legendă: "o" – Stările dorite; "*"- stările de intrare zgomotoase; "×" – pozițiile inițiale ale vectori ponderelor; "+" – pozițiile finale ale vectori ponderelor; "–" evoluția vectori ponderelor)
Exemplul 2
Au fost generate 600 de date de intrare x[n] obținute în jurul a 16 puncte din planul complex, reprezentând stările dorite, peste care s-a suprapus zgomot alb cu o dispersie de σ²=0.1 [C. Botoca, 06]. Au fost inițializați 20 de vectori pondere în mod aleatoriu în mulțimea datelor de intrare.
Figurile 6.8 a), b) și c) reprezintă rezultatele simulărilor după 30 de iterații, utilizând algoritmii ACSF, ACPR și ACPDR. După cum se poate observa în figura 6.8.a), algoritmul ACSF a eșuat în determinarea stărilor dorite. Ceilalți doi algoritmi, ACPR și ACPDR au reușit să orienteze corect vectori ponderei înspre stările dorite. Este de remarcat faptul că algoritmul ACPDR a îndepărtat mult mai rapid vectori ponderei în exces decât algoritmul ACPR și a găsit poziții mai apropiate de cele dorite, în același număr de iterații, deci convergența sa este mai bună.
Algoritmii ACPR și ACPDR recompensează vectorul ponderel câștigător și penalizează următorul vectorul pondere câștigător, numit rival. Comparativ cu algoritmul competitiv standard cei doi elimină problema unităților moarte. Dacă se compară cu algoritmul competitiv sensibil la frecvență, algoritmii ACPR și ACPDR nu necesită cunoașterea numărului de grupări și în plus elimină vectori ponderei în exces în afara spațiului modelelor, asociind câte un singur vectorul pondere fiecărei categorii. Ambii algoritmi sunt adecvați pentru clasificarea adaptivă a semnalelor complexe afectate de zgomot. Algoritmul competitiv cu penalizarea dinamică a rivalului elimină dezavantajul selecției destul de delicate a vitezei de învățare a rivalului, controlând-o în mod dinamic, în funcție de distanța față de vectorul ponderel câștigător.
a)
b)
c)
Fig.6.8 Stările dorite, stările de intrare zgomotoase x[n], pozițiile inițiale și cele finale ale vectori ponderelor c[n] în cazul unei dispersii a zgomotului de σ²=0.1, după 30 iterații, utilizând:
a) algoritmul ACSF; b) algoritmul ACPR; c)algoritmul ACPDR
(Legendă: "o" – Stările dorite; "*"- stările de intrare zgomotoase; "×" – pozițiile inițiale ale vectori ponderelor; "+" – pozițiile finale ale vectori ponderelor; "–" evoluția vectori ponderelor)
Comparând algoritmul ACPR cu algoritmul ACPDR, cel din urmă are o convergență mai rapidă.
Algoritmii competitivi reprezintă un instrument eficient în rezolvarea problemelor de clasificare, larg aplicat într-o mare varietate de probleme din procesarea semnalelor cum ar fi: compresia datelor [T. Hofmann, 98], cuantizarea vectorială a semnalelor [S.C. Ahalt, 90], [H.C. Card, 98], [C.H. Chang, 05] [R. Gray, 84], egalizarea adaptivă de canal de comunicație [C. Botoca, 04], [S. Bouchired, 99.1], [X. Wang, 02], procesarea de imagini [L.T. Law, 03], [T. Nakamura, 98] și regăsirea de imagini [C. Carson, 99].
6.5 Estimarea funcției densitate de probabilitate
Aproape toate informațiile referitoare la date din unele domenii ca de exemplu teoria informației, recunoașterea formelor , statistică se regăsesc în funcția distribuție de probabilitate
Se dorește ca vectorii pondere ai RN, wj să se aranjeze în spațiul RN astfel încât să învețe funcția densitate de probabilitate a modelelor de intrare. Dar regula de învățare competitivă standard (Kohonen) nu asigură, în general, un set de vectori pondere echiprobabili. Cu alte cuvinte, fiind dat un model de intrare x din spațiul RN, în conformitate cu funcția densitate de probabilitate probabilitatea ca x să fie cel mai aproapede wj să fie 1/N j1,2,…N.
Pot apare următoarele probleme:
ca unele regiuni, acolo unde densitatea de probabilitate este mică, să nu fie reprezentate;
regiunile cu densitate de probabilitate mare să fie supraeșantionate ;
S-au elaborat o serie de soluții pentru rezolvarea acestor probleme cum sunt:
Metoda radial sprouting este adecvată pentru distanța euclidiană și alte măsuri similare [Hecht Nielsen].
Vectorii pondere sunt inițializați la zero și modelele de intrare x sunt multiplicate cu (un număr pozitiv mic, 0 < 1). Procesul de învățare începe cu o valoare scăzută a lui , aproape de zero. Astfel toți vectorii pondere sunt aproape de vectorii de intrare. Pe măsură ce rețeaua neuronală învață crește, vectorii pondere sunt forțați să se îndepărteze de zero și să urmeze modelele de intrare. Câțiva vectori pondere pot rămâne în urmă și sunt irosiți în procesul de clasificare.
Dezavantajul metodei constă din faptul că procesul de învățare este încetinit.
O altă soluție a fost de a adăuga vectori de zgomot uniform distribuiți intrărilor, în scopul pozitivării funcției densitate de probabilitate. Inițial nivelul zgomotului este mult mai mare decât valoarea modelelor de intrare. În timp puterea zgomotului scade. Învățarea în prezența zgomotului este însă și mai lentă decât în cazul metodei "radial sprouting".
Adăugarea unui termen numit "conștiință" pentru fiecare neuron , care monitorizează numărul de situații succesive în care acesta a câștigat competiția. Această metodă rezolvă problema echiprobabilității vectorilor pondere.
Conceptul de bază al mecanismului de învățare cu conștiință este de a ține o evidență a timpului fi în care neuronul i a câștigat competiția:
(6.18)
unde:
o este ieșirea 0 sau 1 a neuronilor după ce s-a terminat competiția;
este o constantă pozitivă mică, cu o valoare tipică de 0,0001;
Se determină apoi curentul de polarizare (pragul) ci conform relației:
(6.19)
unde este o constantă pozitivă, tipic de valoare 10.
Termenul ci reprezintă cantitatea prin care frecvența de câștigare a competiției de către neuronul i este sub nivelul de echiprobabilitate 1 N. Neuronul cu cea mai mică diferență min[D(x,wi) ci] este declarat câștigător și își va modifica ponderile conform regulii de învățare, apropiindu-se de modelul de intrare. Spre deosebire de cazul uzual când un singur neuron iși modifică ponderile, și ceilalți neuroni își modifică ponderile îndepărtându-se de intrare. Elementele de procesare care câștigă prea des competiția au valori ci negative mari. Cele care nu câștigă prea des competiția au valori de polarizare pozitive astfel încât favorizate de relația de declarare a neuronului câștigător.
În final vectorii pondere se vor distribui într-o configurație aproape echiprobabilă
Metoda este cunoscută și sub denumirea de învățare competitivă sensibilă la frecvență "frequency competitive learning" .
.
6.5 Rețeaua MAXNET
În rețeaua MAXNET fiecare neuron este cuplat cu el însuți excitator și îi inhibă pe toți ceilalți:
(6.20)
unde < 1 este o constantă pozitivă mică, iar N numărul de neuroni din RN
Relația (6.20) se poate scrie ca o matrice de dimensiune NxN:
(6. 21)
Modelul de intrare este activ doar în momentul inițial x[0]. Fiecare neuron procesează intrarea sa netă conform relației (6.1), adică sub formă matricială:
(6.22)
Apoi se determină ieșirea aplicându-se funcția de activare intrării nete:
(6.23)
Funcția de activare este definită de relația:
(6.24)
Ieșirile tuturor neuronilor la momentul k+1 se folosesc pentru a determina intrarea netă în neuroni la momentul următor de timp k+2. Se poate demonstra că aplicându-se în mod recursiv relațiile (6.23) și (6.24) rețeaua MAXNET va converge înspre o situație în care doar neuronul cu cea mai mare intrare netă inițială va rămâne activ în timp ce toți ceilalți vor converge spre activarea zero. Din acest motiv rețeaua MAXNET se numește și rețea de tipul (" câștigătorul ia totul " în engleză winner-takes-all).
O rețea similară este MINNET care la ieșire va avea un singur neuron activ, acela cu cea mai mică stare de activare inițială.
Exemplu
Tipic o rețea neuronală competitivă este alcătuită din două straturi de neuroni:
-stratul de măsurare al distanței;
-stratul competitiv, de tip MAXNET sau MINNET;
Structura unei rețele neuronale competitive este reprezentată în figura 6.9:
Fig.6.9 Structura rețelei neuronale competitive
Fie un clasificator neuronal de caractere, implementat cu o rețea Hamming ca prim strat și o rețea Maxnet ca al doilea strat. Literele C, I, T sunt modelele prototip . RN va selecta clasa căreia îi aparține modelul aplicat la intrare, respectiv clasa la distanța Hamming cea mai mică față de acesta.
Stratul Hamming va avea la ieșire un neuron cu cea mai mare stare de activare , dacă distanța Hamming dintre modelul de intrare și categoria reprezentată de acel neuron va fi minimă. Stratul MAXNET suprimă ieșirile tuturor neuronilor cu excepția celui care a avut cea mai mare stare de activare inițială.
Fie modelul prototip pentru o clasă m, .
Matricea ponderilor pentru stratul Hamming care realizează o clasificare în p categorii este dată de relația:
Pentru litera C, modelul prototip, conform imaginii de mai jos, are structura
s1=[1 1 1 1 -1 -1 1 1 1 1].
În mod similar pentru litera I modelul prototip este s2=[-1 1 -1 -1 1 -1 1 -1 1 ] și pentru litera T modelul prototip este s3=[1 1 1 -1 1 -1 -1 1 -1 ]. Matricea ponderilor pentru rețeaua Hamming este:
Intrarea netă pentru rețeaua Hamming este dată de relația
, pentru m=1,2, … , p
sau de :
unde HD este distanța Hamming, numărul de poziții în care cei doi vectori diferă.
Practic net ne dă numărul de poziții în care cei doi vectori x și sm se aseamănă.
Intrările rețelei Hamming sunt date de:
Ieșirile rețelei Hamming sunt intrări pentru rețeaua Maxnet la momentul 0 :
Într-o formă vectorială modelul de intrare în rețeaua Maxnet este:
Dacă se alege ε=0.2 (care respectă condiția ε<1/3), matricea ponderilor pentru rețeaua Maxnet WN este :
Intrarea netă în MAXNET este la momentul initial :
Ieșirile rețelei Maxnet, respectiv intrările nete la iterațiile succesive sunt:
Ieșirea rețelei MAXNET rămâne pentru toate iterațiile succesive aceeași :
Așadar modelul de intrare, prototipul afectat de zgomot va fi clasificat ca litera C.
Optimizarea traficului ATM cu un controler neuronal de tip competitiv
Se propune o metodă de planificare a celulelor din memoria tampon a unui nod de comunicație, ce utilizează un algoritm competitiv cu conștiință. În Fig. 1 este reprezentată schema bloc a RN ca planificator de celule. Sistemul de comunicații controlat are surse multiple la intrare și o singură ieșire. Sursele generează date în perioade ON-OFF independente, după o distribuție exponențială. Fiecare intrare a nodului de rețea are câte o memorie tampon de aceeași capacitate maximă xb. Numărul celulelor dintr-o coadă particulară s-a notat cu xi. Numărul celulelor într-o coadă particulară a nodului variază în timp după o distribuție Poisson. Prebufferele netezesc datele generate de surse. RN selectează celulele de la intrări pentru transferul optim la ieșire.
Fig. 1 Schema bloc a controlerului neuronal
Rețeaua neuronală are trei straturi: unul de intrare, unul ascuns care determină o distanță metrică și unul de ieșire de tipul "câștigătorul ia totul" . Primul strat formează componentele vectorului de intrare x=[x1,x2,…,xN]T, unde prin xN se reprezintă numărul de celule la un moment dat din memoria tampon N. Al doilea strat conține neuroni adaptivi care calculează distanța metrică D(x,wi) între vectorul de intrare și propriul vector pondere
wi = [wi1, wi2, …,wiN ]T. Elementele de procesare furnizează distanța dintre vectorul de intrare x și vectorul pondere w, D(x,wi). Distanța poate fi de tipul distanță euclidiană, distanță Manhattan, distanță Minkovski sau altele . Ultimul strat este competitiv de tipul "câștigătorul ia totul". Neuronul cu diferența minimă [D(x,wi)-ci] dintre distanța D(x,wi) și pragul său ci, este declarat câștigător și din coada de așteptare xi este selectată o celulă pentru transfer spre ieșire. Ieșirea se calculează cu relația următoare:
(1)
Elementul de procesare declarat câștigător își va modifica ponderile în conformitate cu legea de învățare Kohonen :
(2)
unde aW este viteza de învățare cu valori între 0 și 1;
Și neuronii care au pierdut competiția își modifică ponderile, dar cu o constantă aL mai mică decât a neuronului câștigător:
(3)
Astfel, toți vectorii pondere se deplasează spre vectorii de intrare cu fracțiuni diferite, ca în figură. Vectorii pondere vor deveni mai deși acolo unde modelele de intrare sunt mai dese și mai rari sau chiar absenți acolo unde modelele sunt mai puține.
Fig. 2 Rotirea vectorului pondere spre vectorul de intrare
atât a neuronului m câștigător cât și a neuronului p învins.
Dar legea de învățare Kohonen nu asigură, în general, un set de vectori pondere echiprobabili, existând riscul ca odată declarat câștigător un neuron el să rămână câștigător. Problema echiprobabilității vectorilor pondere se poate rezolva introducând pentru fiecare neuron un termen numit "conștiință" care monitorizează numărul de dăți succesive în care acesta a câștigat competiția.
Prezența "conștiinței" evită și apariția neuronilor morți. Neuronii morți au ponderile prea îndepărtate de intrări, astfel încât ei nu au șansa de a câștiga vreodată competiția. Mecanismul cu de învățare cu conștiință oferã șanse și acestora și garantează că toți neuronii vor câștiga odată competiția.
a) b)
Fig. 3a)Izolarea neuronului cu vectorul pondere depãrtat de modelul de intrare
b)Apropierea vectorului pondere cu ajutorul mecanismului cu “conștiințã”.
Dacă un neuron câștigă prea des competiția , de mai multe ori decât valoarea medie 1/N, conștiința îl elimină din competiție mărindu-i distanța metrică față de intrare Fracțiunea fi de timp în care care neuronul i a câștigat competiția este dată de relația :
(4)
unde
b se determină conform relației:
(5)
termenul kd reprezintă numărul de situații în care un neuron a câștigat succesiv competiția;
Această evaluare se face în pasul imediat următor al terminării competiției.
Pentru fracțiunea fi se calculează apoi un termen de polarizare care se sustrage din distanța inițială D(wi,x):
(6)
unde g este o constantă, de același ordin de mărime ca și D, care se determină în fiecare slot cu relația:
(7)
Termenul qi oferă posobilitatea de a acorda priorități cozilor de așteptare.
Termenul (xi) depinde de lungimea cozii de așteptare xi.
(8)
Toți termenii xi sunt normați la capacitatea maximă a cozii de așteptare xb, astfel încât valoarea maximă a lui xi este 1. Constanta 0.001 evită situația de împărțire la zero, dacă xi este aproape de 1. Termenul Δk este intervalul de timp corespunzător transferului unei celule, adică un slot. Primul termen al relației (8) permite creșterea polarizării pentru neuronul corespunzător cozii celei mai lungi. Rolul celui de al doilea termen este de a implica și rafalele în algoritmul de programare.
Se observă în relația (6) că pragul ci crește cu lungimea cozii de așteptare, astfel încât el determină descreșterea diferenței [D(x,wi)-ci]. De fiecare dată când un neuron câștigă competiția fi crește, în consecință ci descrește și diferența D(x,wi)-ci] va crește.Se observă din relațiile (6) și (8) că un neuron care câștigă des competiția are un prag negativ semnificativ. Acest prag îl îndepărtează de ceilalți neuroni concurenți. Un neuron care câștigă rar competiția are un prag pozitiv , care determină creșterea probabilității ca să câștige competiția.
Regula implementată de RN este că va fi deservită coada de așteptare cea mai lungă, asigurându-se transferul de celule spre ieșire și evitându-se depășirea capacității.
Observații
1.) Un punct slab al controlerului neuronal îl reprezintã determinarea empiricã a coeficienților b și g.
2.)Problema stabilitãții
În cazul în care vectorii de intrare nu sunt inițializați spre grupãri potrivite și viteza de învãțare este mare, aplicarea unui vector de intrare face ca sã se modifice configurația acestora, deci sistemul sã nu mai ajungã într-o stare stabilã ci sã evolueze continuu ca în Fig.4.
Fig. Reprezentarea instabilitãții rețelei neuronale în cazul unei rate de învãțare mare
Soluția este scãderea treptatã a ratei de învãțare.
Rezultatele simulării Pentru a testa RN propusă s-au utilizat trei surse independente de tipul ON-OFF, cu o distribuție Poisson a generării celulelor. Rata de vârf a celulelor a fost (3, 3, 1) celule pe slot, în perioadele active. Factorii corespunzători au fost (100/237, 307/167, 57/121) sloturi. Registrele de intrare au funcționat pe baza principiului primul venit, primul plecat și au avut o capacitate de xb=100 de celule.Fig.5a, b și c reprezintă cozile de așteptate de la intrare xi generate de cele trei surse într-un interval de timp de 550 sloturi. Se observă că ele reprezintă condiții relativ dificile pentru transferul către o singură ieșire.
Fig.5 a Coada de așteptare de la sursa A în funcție de timp
(sute de sloturi)
Fig.5 b Coada de așteptare de la sursa B în funcție de timp
(sute de sloturi)
Fig.5 c Coada de așteptare de la sursa C în funcție de timp
(sute de sloturi)
Ieșirea primului neuron din stratul competitiv
(sute de sloturi)
Ieșirea celui de-al doilea neuron din stratul competitiv
(sute de sloturi)
Ieșirea celui de-al treilea neuron din stratul competitiv
(sute de sloturi)
Rata de pierdere a celulelor din cozile de așteptare
Cursul 7
1.1 Rețele neuronale celulare Generalități
Leon Chua si Lin Yang au fundamentat în 1988, la Berkeley, rețelele neuronale celulare (RNC), o nouă categorie de rețele neuronale, cu o evoluție spectaculoasă în ultimul deceniu, ce au generat o direcție de cercetare distinctă .
În articolul fundamental, “Cellular Neural Networks: Theory” ei introduc următoarea definiție :
“Like a neural network, a cellular neural network is a large scale nonlinear analog circuit, which processes signals in real time. Like cellular automata, is made of massive aggregate of regularly spaced circuit clones, called cells, which communicate with each other directly only through its nearest neighbors. Each cell is made of a linear capacitor, a nonlinear voltage controlled current source and a few resistive linear circuit elements.
Cellular neural networks share the best features of both worlds; its continuous time feature allows real time signal processing found wanting in the digital domain and its local interconnection feature makes it tailor made for VLSI implementation”.
Tamás Roska dă ulterior o descriere mai sintetică :
“Analog processor arrays placed on a 3D regular grid interacting within a finite neighbourhood: this is the CNN (cellular neural network) paradigm. Using other words: it is a programmable prototype machine performing nonlinear dynamic spatial convolutions in real time”
Din definițiile prezentate se conturează câteva caracteristici esențiale ale RNC: structura geometrică regulată, localitatea conexiunilor și programabilitatea , ceea ce le conferă un potențial de procesare deosebit, în timp real.
Datorită conexiunilor locale, RNC oferă un model relativ simplu și în același timp puternic pentru o reprezentare deterministă a fenomenelor spațio-temporale (descrise prin ecuații diferențiale neliniare și cu întârziere în timp). RNC reprezintă cadrul adecvat pentru modelarea fenomenelor din diverse domenii : mecanică (analiza rezistenței materialelor), chimie (modele de coroziune), electromagnetism , geofizică (dinamica poluării), biologie (modelul retinei, modele de morfogeneză și de difuzie).
De la arhitectura de bază până la inventarea mașinii universale RNC , și a supercomputerului, în 1992, rețelele neuronale celulare au cunoscut o dezvoltare fără precedent în știință , concentrând interesul cercetătorilor din lumea întreagă, conducând la formarea unor colective puternice, care colaborează între ele și a căror activitate le este dedicată, în mod special. De remarcat sunt :
“The Nonlinear Electronics Laboratory” condus de profesorul L. O. Chua la “University of California at Berkeley”;
“The Analogic and Neural Computing Laboratory” condus de profesorul T. Roska la “Computer and Automation Institute, Hungarian Academy of Sciences” din Budapesta;
“The Vision Research Laboratory” condus de profesorul F. Werblin la “University of California at Berkeley”;
“The Neurobiology Laboratory” condus de professorul J. H. Mori, la “University of Medicine in Budapest”;
“The Analog Integrated Circuit Design Laboratory “ condus de profesorul A. Rodriguez-Vasquez la “University of Seville”;
Laboratorul condus de profesorul A. Ushida la “University of Tokushima”;
Laboratorul condus de profesorul P. P. Civalleri la “The Technical University of Torino”;
“The Laboratory PASTIC” condus de professorul J. Zerubia la INRIA, Sophia – Antipolis, Franța;
Laboratorul condus de profesorul J. A. Nossek, la “The Technical University of Munich”;
“The Signal Processing Laboratory “ condus de profesorul G. Moschytz la ETH Zurich;
Laboratorul condus de profesorul D. Wolf, la “Goethe University”, Frankfurt;
Laboratorul condus de prof. J. Vandewalle, la ”Catholic University of Leuven”, Olanda;
Laboratorul condus de M. Tanaka la “Sophia University”, Tokyo;
Cercetarea în domeniul RNC abordează o problematică cu o paletă extrem de largă, care acoperă aproape toate domeniile activității umane (vezi fișierul în powerpoint):
prelucrări de imagini statice și dinamice
extragere de contur, filtrare, halftoning, skeletonizare, sortare de obiecte în funcție de orientare sau dimensiune, detecție de minime și maxime, mărire și micșorare de imagine;
extragerea unui anumit model din imagine (detecția gurii și a ochilor pe imaginile faciale în mișcare, detecția mânerelor de ușă din imagini pentru protezarea orbilor);
reconstrucție de obiecte tridimensionale prin interpolare și aproximare, rotația obiectelor 3D;
îmbunătățirea imaginilor prin eliminarea zgârieturilor, prin accentuare, prin mărirea contrastului (în microscopie, neurologie, analiza amprentelor digitale);
recunoașterea caracterelor scrise ( latine și japoneze);
compresia și decompresia imaginilor;
recunoașterea bancnotelor (copiatoare inteligente);
în îmbunătățirea imaginilor amprentelor digitale prin rezolvarea de ecuații parțiale diferențiale în timp real
segmentarea imaginilor, detecția defectelor din textura materialelor, din realizarea cablajelor;
analiza și detecția mișcării;
detecție de ținte multiple și urmărire;
navigare într-un mediu necunoscut;
monitorizarea traficului și detecția coliziunii;
stereograme;
modele morfogenetice- implementarea unor modele biologice pentru percepția vizuală (modelul retinei), pentru fenomenul de difuzie între membranele celulelor, pentru morfogeneza blănii mamiferelor, pentru deplasarea în mediu, pentru controlul deplasării unor roboți (cu un sistem locomotor similar cu al viermilor, peștilor, insectelor) prin rezolvarea ecuațiilor parțiale diferențiale de tipul
controlul roboților, al deplasării lor într-un mediu necunoscut
baze de date prin memorii asociative;
în medicină:
-dezvoltarea unui sistem RNC analogic pentru analiza mamografiilor, în vederea diagnosticării interactive a cancerului mamar;
-detecția carcinoamelor bronhice și alte analize tomografice computerizate;
-îmbunătățirea imaginilor din ecocardiografia ultrasonică;
-analiza cromozomială, toolkit pentru partiția, identificarea și analiza defectelor posibile;
în telecomunicații
Egalizoare Avantajele oferite sunt următoarele:
Procesarea în timp real;
Se elimină problemele de convergență, datorită stabilității RNC;
Viteza de procesare depinde de constantele de timp ale circuitului și nu de ordinul filtrului;
Faxuri, scannere și copiatoare cu funcții multiple
Controlul admisiei apelului și al congestiei în rețelele de comunicații îmbunătățirea parametrilor globali de eficiență
realizarea unor supercomputere dintr-o nouă generație, chipul RNC de mașina universală și platforma pentru testarea lui;
Sute de articole având ca subiect investigațiile teoretice, aplicațiile și proiectarea RNC, cât și modelarea neuromorfică prin RNC au fost elaborate în ultimii ani. Majoritatea studiilor în domeniu au fost publicate în volumele workshop-urilor sub egida IEEE dedicate rețelelor neuronale și aplicațiilor lor.
“International Journal on Circuit Theory and Applications” și “Transactions on Circuits and Systems” au consacrat numere speciale RNC .
1.2 O analiză a dezavantajelor și avantajelor rețelelor neuronale celulare
1.2.1 Dezavantajele
O analiză critică a rețelelor neuronale celulare dezvoltate până în prezent relevă câteva dintre dezavantajele lor, moștenite de la categoria de RN, din care s-au desprins:
lipsa unei abordări teoretice unitare;
generarea unei soluții particulare, adecvate numai în cazul unei aplicații concrete, fiind dificilă adaptarea ei pentru o altă aplicație ;
lipsa unor informații referitoare la arhitectura necesară într-o aplicație dată, date sub forma unor reguli de construcție clară (de exemplu numărul de straturi, numărul de neuroni-strat, rețea cu sau fără reacție). Majoritatea implementărilor au evoluat experimental, prin metoda trial and error , strict orientate spre găsirea soluției într-o aplicație concretă.
structurile cu vecinătăți de ordin superior ridică probleme, deși datorită localității interconexiunilor RNC sunt mult mai ușor implementabile;
În cazul RNC cu matrici de interconexiune variante în spațiu calculul este distribuit în toată masa rețelei , în concluzie, depanarea este dificilă, deși mult mai accesibilă decât în cazul altor RN și greu este posibilă localizarea componentei care duce la funcționare eronată la un moment dat.
Avantajele rețelelor neuronale celulare
Avantajele rețelelor neuronale celulare sunt date de caracteristicile care le particularizează în marea clasă a rețelelor neuronale și sunt:
Localitatea conexiunilor ,de inspirație biologică, reprezintă caracteristica esențială a RNC și a fost practic determinată de necesitatea implementării VLSI. Fiecare procesor elementar (celulă) interacționează cu celelalte procesoare din rețeaua neuronală, într-o vecinătate finită . Raza vecinătății este mult mai mică decât numărul celulelor din rețea. Matricea de interconexiuni se numește “cloning template” . În majoritatea aplicațiilor aceasta este aceeași pentru toate procesoarele ,proprietate cunoscută sub numele de invarianță în spațiu.
Marele avantaj față de alte RN este că depanarea , în cazul RNC cu matrici de interconexiune invariante în spațiu, este ușor de realizat , datorită acțiunii locale a operatorilor.
Structura geometrică regulată Toate procesoarele sunt identice ca structură electrică, și pot fi specificate în mod unic prin câțiva parametrii, cel mult 19 numere reale 86. Funcționarea unei RNC de orice dimensiune poate fi controlată prin modificarea a 19 parametrii a unui singur tip de circuit. Independența de dimensiune este cheia programabilității atât din punct de vedere soft, cât și hard.
Programabilitatea Din punct de vedere soft , cele 19 numere pot fi interpretate ca un program ce implementează un anumit tip de funcționare a neuronului, un anumit algoritm. Implementarea aceluiași algoritm pe un computer digital convențional ar necesita scrierea unui program cu mii de instrucțiuni. Dacă luăm în considerare faptul că acești parametrii se pot permuta între ei de 19! ori, fiecare situație corespunzând unei RNC distincte, compresia este impresionantă, față de cazul instrucțiunilor unui computer digital Von Neumann.
Din punct de vedere hard sunt necesare doar 19 conexiuni spre exteriorul chip-ului. Acestea permit programarea externă ,fără restricții datorate mărimii rețelei. Față de calculatoarele clasice seriale, unde timpul de procesare depinde exponențial de mărimea numărului de procesoare , timpul de stabilizare al unei RNC depinde linear în multe dintre cazuri. De fapt, pentru multe aplicații timpul de procesare este independent de dimensiunea rețelei.
Posibilitatea implementării VLSI
Prin localitatea conexiunilor și structura geometrică regulată, RNC sunt un concept natural pentru implementările VLSI .Acesta reprezintă avantajul major al RNC față de celelalte arhitecturi neuronale. Datorită proprietății de invarianță în spațiu este posibilă construirea de rețele mari prin potrivirea condițiilor la limită, dintre chip-uri. Aceasta înseamnă că mărimea unei RNC nu este restricționată de numărul neuronilor ce pot fi implementați într-un chip.
Performanța realizată, de 0.3 Terra operații analogice pe secundă, pe o suprafață de 1 cm2, reprezintă o viteză de procesare fără precedent, care nu face decât să confirme supozițiile teoretice. Implementările optice sunt în fază experimentală, capabile de procesări cu viteze superioare.
Potențialul de procesare
Programabilitatea interconexiunilor de control, reacție și de polarizare le conferă RNC un potențial de procesare deosebit, permițându-le o comportare variată și complexă, inclusiv ca oscilator sau simulator de haos, în aplicații ce necesită o deosebită capacitate de procesare (ca de exemplu probleme de optimizare globală, de sortare ,de numărare, de filtrare mediană). RNC pot simula unde autogeneratoare (autowaves) pot produce “ Turing pattern-uri1” (într-un mod similar reacției de difuzie studiate de Turing) sau pot genera alte fenomene dinamice spectaculoase, cum ar fi undele concentrice, spiralele .
Evident comportarea rețelei depinde de condițiile inițiale, de condițiile la limită, de structura geometrică și de dimensiunile domeniilor spațiale.
În colaborare cu neurologii a fost elaborat modelul retinei umane. Comportarea deosebit de complexă a RNC a permis și generarea modelului difuziei chimice dintre două membrane celulare, a unor modele morfogenetice. Astfel prin RNC se elaborează modele cu plauzibilitate biologica, ce permit o mai bună înțelegere atât a anatomiei creierului, cât și a procesării cunoașterii umane. În același timp modelele RNC oferă un cadru experimental al degradării funcțiilor biologice la deteriorările structurale.
Cea mai recentă invenție în domeniu, mașina universală RNC combină abordarea analogică cu cea digitală . Ea este singura rețea neuronală cu o dinamică similară funcțiilor de “tip analogic” implementate în emisfera dreaptă a creierului și a funcțiilor de “tip discret” implementate în emisfera stângă a creierului uman. Cu alte cuvinte, mașina universală RNC este o primă încercare grosolană a implementării asimetriei a creierului uman.
S-a demonstrat că mașina universală RNC este o mașină Turing analogică , ea fiind capabilă să rezolve orice problemă ce poate fi soluționată cu un calculator clasic.
Dezvoltarea unor algoritmi de învățare adaptivi și utilizarea tehnologiilor optice, electromagnetice și cuantice în implementarea pe scară industrială deschid noi perspective RNC.
2.1 Rețele neuronale celulare generalizate
2.1.1 Arhitectura rețelelor neuronale celulare generalizate
In 1993, L.Chua și Guzelis au reunit in conceptul de rețea celulară neuronală generalizată (RNCG) toate variantele cunoscute de RNC .
Definiția 1
O rețea celulară neuronală generalizată este un sistem neliniar, analogic, dinamic, format dintr-un număr mare de subcircuite cu o aceeași structură, plasate pe o grilă tridimensională. Subcircuitele sunt sisteme dinamice, de ordin arbitrar, conectate local, într-o vecinătate finită.
Altfel spus, o RNCG este un procesor paralel programabil ce efectuează convoluții dinamice spațiale în timp real. RNCG se pot considera o alternativă tridimensională analogică pentru automatul celular bidimensional inventat de von Neumann .
O RNCG are, în cazul cel mai complex m straturi. Fiecare strat, la rândul său poate avea o arhitectură unidimensională, cu N1 celule, notată Π1 ,bidimensională, de N1 x N2,celule, notată Π 2, sau o arhitectură n dimensională, de N1 x N2 x … x Nn celule, notată Π n (Nj fiind un număr întreg).
Numim rețea n dimensională cu m straturi, o RNCG formată din m straturi cu n dimensiuni. Fig.2.1 reprezintă structura unei rețele bidimensionale cu trei straturi. Ca în figură, numărul celulelor și tipul conexiunilor dintre ele pot diferi de la un strat la altul. Fiecare unitate poate fi conectată atât cu vecinii (în conformitate cu definiția 2) de pe stratul ei cât și cu cei de pe alte straturi. In cazul cel mai general fiecare celulă a fiecărui strat poate fi conectată la celulele mai multor straturi.
Ca de exemplu, în Fig.2.1 fiecare celulă a fiecărui strat are conexiuni într-o vecinătate de r=1. Stratul doi este complet conectat cu celelalte două straturi, adică fiecare celulă a stratului doi este conectată cu toate celulele stratului unu, respectiv trei.
Fig. 2.2 ilustrează câteva tipuri de conexiuni posibile într-o rețea cu trei straturi.
În Fig.2.2a ieșirile unităților dintr-un strat k, Π k, sunt cuplate la intrările unităților din stratul următor Π k+1, caracterizând o RNCG de tip feed-foward. În Fig.2.2b, într–o RNCG de tip cascadă, ieșirile unitaților stratului k sunt conectate nu numai la intrările stratului k+1, ci și la cele ale straturilor consecutive , k+2, k+3, șamd. RNCG recurentă din Fig.2.2c. are conexiuni bidirecționale și/sau o buclă de reacție.
Unitățile de procesare au ca indici coordonatele spațiale. O celulă din stratul k al unei RNCG n dimensionale cu m straturi se notează Ci1,i2,…,in,k unde ij ={1,2, …,Nj} pentru toți j ={1,2, …,n} și
k ={1,2, …,m}.In particular pentru n=1 o celulă se notează Ci,k respectiv pentru n=2, Ci,j,k.
Fig.2.1 Rețea neuronală celulară generalizată cu trei straturi
Fig.2.2 Tipuri de RNCG a) feed-foward b) cascadă c) recurentă
Definiția 2
Vecinătatea Ni,l ,din stratul l, a unei celule Ci din stratul k, al unei RNCG n dimensionale, cu m straturi se definește prin relația:
(2.1)
unde: dk,l,(i,v) este distanța metrică dintre vectorii de numere întregi (i1, i2, …, in, k)T și (v1,v 2, …,v n,l)T și rk,l este un număr pozitiv întreg.
Se pot alege distanțe metrice diferite, pentru diferite valori k și l. Setul celor mai apropiate vecinătăți pentru o celulă Ci, este dat de reuniunea tuturor vecinătăților Ni,l, din diferite straturi .
Se observă că în cazurile extreme, vecinătatea cea mai apropiată a unei celule poate fi mulțimea vidă
(nici o conexiune cu celulele învecinate) sau poate conține toate celulele RNCG, ca în cazul rețelei Hopfield. In cazul general, se pot alege r și d diferite pentru aceeași celulă dintr-un strat, și/sau perechi de straturi. Acest caz generează o topologie neuniformă, ceea ce nu este de dorit pentru o arhitectură neuronală. Vom considera în cele ce urmează rețele cu aceleași valori rk,k și dk,k pentru celulele aparținând unui strat k, si respectiv aceleași valori rk,l și dk,l pentru celulele din două straturi diferite k, l.
Fig.2.3 Modalități de conectare a unei celule intrastrat
1
Fig.2.4 Modalități de conectare a unei celule interstraturi pentru o RNCG
unidimensională, cu două straturi
2
Fig.2.3 prezintă câteva tipuri de conexiuni intrastrat pentru o rețea bidimensională.
In Fig.2.3a conexiunile sunt date de rk,k=1 și și dk,k=|i1 – v1| + |i2 – v2|;
In Fig.2.3b rk,k=1 și dk,k=max(|i1 – v1|, |i2 – v2|);
In Fig.2.3c rk,k=2 și dk,k=|i1 – v1| + |i2 – v2|;
Fig. 2.4 prezintă câteva posibilități de interconectare a unei celule între straturi. Vecinătățile sunt date pentru cazul din Fig.2.4a de rk,k+1 = 1 și dk,k+1= |i1 – v1|+ 1, respectiv în Fig.2.4b de rk,k+1 = 1 și dk,k= max (|i1 – v1|,1).
Pentru celulele aparținând vecinătății Ni, ponderile conexiunilor de control Biv, respectiv cele de reacție Ai,v se pot reprezenta sub formă unor matrici. Aceste matrici de conexiune pot fi aceleași sau pot diferi de la o celulă la alta.
Definiția 3
O RNC cu matrici de control, reacție și polarizare invariante la transformările de coordonate, adică , independente de i , se numește invariantă în spațiu.
În prezent există diferite variante de RNC, ca de exemplu:
RNC cu interconexiuni neliniare
RNC cu diferite neliniarități
RNC cu întârziere în timp
RNC cu vecinătăți multiple
RNC cu diferite tipuri de vecinătăți
Instrucțiunile RNC universale funcționând ca un procesor în timp real sunt succesiuni de matrici de interconexiune numite templates. Se pot defini algoritmi spațio-temporali, ca succesiuni de matrici de interconexiune: un template operează într-un anumit interval de timp, apoi altul operează asupra datelor generate la ieșirea RNC, ș.a.m.d. Există și posibilitatea de învățare prin adaptarea ponderilor.
Pentru determinarea matricilor de conexiune există mai multe metode ce se încadrează în 2 direcții clare, distincte, vizând aplicațiile RNC ca:
operatori spațiali
memorii asociative
Algoritmi pentru convergența la puncte fixe
Metode de tip gradient, pentru învățare de traiectorii prescrise pentru rețelele neuronale celulare analogice
Metode de învățare de traiectorii prescrise în rețelele neuronale celulare discrete
Algoritmi globali pentru rețelele neuronale celulare discrete
Algoritmi orientați spre implementarea hard
Algoritmi genetici
2.2 Rețele neuronale celulare analogice
2.2.1 Dinamica rețelei
Rețelele neuronale celulare analogice (RNCA) au fost primele introduse în 1988 , de L Chua și L Yang. Ele reprezintă un caz particular al RNCG, față de care se fac următoarele simplificări:
rețeaua are straturi bidimensionale. Dimensiunea unui strat k fiind de M x N celule, vom nota o celulă cu Ci,j unde i {1,2, …,M} și j {1,2, …,N};
subcircuitul liniar dinamic este de ordinul întâi;
neliniaritatea aplicabilă în unitatea de ieșire este o funcție continuă, liniară pe porțiuni, definită de relația:
(2.3)2
unde:
. reprezintă valoarea absolută ;
bi = ci = 1, hi = 0 ;
constantele ai = -a < 0 sunt aceleași pentru toate celulele;
fiecare celulă este conectată într-o vecinătate Nr(i,j) dată de distanța metrică d(i,j;k,l): (2.4)
După cum se vede în Fig.2.6 vecinătatea unei celule pentru r=1 conține 8 celule, pentru r=2 conține 24 de celule, șamd.
Fig.2.6 Vecinătatea unei celule pentru r=1,r=2,r=3
In aceste condiții sistemul de ecuații (2.2) se poate scrie sub forma:
3
(2.5)
unde:
u este intrarea independentă;
x este starea celulei;
y este ieșirea;
Nr este vecinătatea de ordin r a celulei;
A este matricea de conexiune de reacție, B este matricea de conexiune de control și I matricea de polarizare;
R și C sunt constante pozitive;
Figura următoare reprezintă schema bloc a ecuației de stare.
Structura unei celule
Sistemul descris de ecuațiile (2.5) poate fi modelat prin circuitul din Fig.2.7
Fig.2.7 Un exemplu de circuit pentru o celulă Ci,j
Fiecare circuit Ci,j conține o sursă independentă de tensiune, Eij, o sursă independentă de curent, I, o capacitate liniară C, două rezistențe liniare Rx și Ry și cel mult 2m (m reprezintă numărul celulelor învecinate) surse liniare de curent controlate în tensiune, cuplate la celulele vecine prin tensiunea de control ukl și reacția de la tensiunea de ieșire ykl a tuturor celulelor vecine Ckl .
Fig 2.8 Caracteristica sursei neliniare de curent controlate în tensiune
4 In particular, sursele de curent controlate în tensiune sunt liniare Ixy(ij,kl) = Aij,kl și
Ixu(ij,kl) = Bij,kl. Singurul element neliniar este o sursă de curent controlată în tensiune Iyx = (1/Ry) f(xi,j) cu caracteristica f(.) dată în Fig.2.8. 5
In practică, amplitudinea semnalului poate fi normalizată pentru a îndeplini condițiile parametrilor. Valorile rezistențelor pot fi convenabil alese, ele determinând și puterea disipată de circuit. Rezistențele Rx și Ry au valori cuprinse între 1k și 1M. CRx este constanta de timp a circuitului și este uzual aleasă de ordinul 10-5 – 10-8s.
2.3 Rețele neuronale celulare discrete
2.3.1 Dinamica rețelei
Aproximând ecuația diferențială de stare din sistemul (2.5) cu o ecuație cu diferențe finite, unde t=nT, T fiind o constantă unitară de timp se poate obține sistemul de ecuații (2.6), care caracterizează o rețea neuronală în timp discret (RNCD) [47], [48]:
6 (2.6)
7
Spre deosebire de RNCA sistemul discret are doar ieșiri binare ponderate prin operatorul de reacție. Ieșirea binară a unei celule este determinată de semnul tensiunii de stare a celulei, din iterația anterioară și este nedeterminată pentru o tensiune nulă. Practic însă, există întotdeauna un zgomot care determină o stare diferită de zero. Algoritmul este relativ insensibil la variațiile date de toleranța parametrilor reacției , controlului și polarizării, dacă este îndeplinită condiția:
(2.7)
Comparativ cu modelul analogic, cel în timp discret, are câteva avantaje importante:
a) Datorită utilizării semnalelor binare, interconectarea mai multor chipuri este foarte simplă.
b) Insensibilitatea parametrică dată de ecuația (2.7) determină robustețea rețelei la toleranțele de fabricație, dacă ponderile conexiunilor au fost proiectate corect.
Viteza de propagare poate fi controlată într-un domeniu larg schimbând doar frecvența tactului. Aceasta facilitează și testarea circuitului.
RNC au aplicații în diverse domenii ce implică:
procesarea de imagini;
modelarea neliniară și optimizare;
modelarea spațio- temporală
controlul structurilor distribuite în spațiu
Cea mai recentă realizare hard, computerul analogic este prima încercare de simulare a modului de operare analogico -logic al creierului.
Copyright Notice
© Licențiada.org respectă drepturile de proprietate intelectuală și așteaptă ca toți utilizatorii să facă același lucru. Dacă consideri că un conținut de pe site încalcă drepturile tale de autor, te rugăm să trimiți o notificare DMCA.
Acest articol: [1] P.Bourret,J.Reggia,M.Samuelides,” Réseaux neuronaux, une aproche connexioniste de l’Intelligence Artificielle”,Teknea Toulouse,1991 [2] I.Ciocoiu… [310529] (ID: 310529)
Dacă considerați că acest conținut vă încalcă drepturile de autor, vă rugăm să depuneți o cerere pe pagina noastră Copyright Takedown.
