Fiabilitatea In Sistemele Electronice de Telecomunicatii
Principalul subiect al teoriei fiabilității (reliability theory) este construirea sistemelor fiabile din componente nefiabile. Dacă un sistem ar funcționa numai atunci toate componentele sale ar fi funcționale, ar fi virtual imposibil de construit un sistem complex, pentru că fiabilitatea ar descrește exponențial cu numărul de componente.
Principala unealtă folosită în construirea sistemelor complexe este abstracția. Un sistem este construit pe nivele; nivelul B este alcătuit din componente de nivel A. La rîndul lor, componente de nivel B sunt folosite ca și cum ar fi atomice, indivizibile, pentru a construi nivelul C, și așa mai departe. Acest proces este inspirat din matematică, unde lemele și teoremele sunt folosite drept componente elementare în demonstrațiile altor leme și teoreme. Se poate privi alcătuirea unor nivele din arhitectura sistemelor electronice de telecomunicații din punctul de vedere al fiabilității pe care o oferă nivelelor superioare. Astfel putem distinge:
Nivele care măresc fiabilitatea, construind un tot mai fiabil din componente mai puțin fiabile. Acest lucru este obținut folosind redundanță în stocarea sau calculul informației. Acest tip de nivel este cel mai adesea folosit în construcția calculatoarelor contemporane.
Nivele care expun lipsa de fiabilitate nivelelor superioare, lăsîndule pe acestea să rezolve imperfecțiunile. Nivelele superioare au adesea informații suplimentare despre cerințele reale de fiabilitate ale sistemului, și ca atare pot construi fiabilitate pe măsura necesităților.
Anumite nivele partiționează resursele în parți oarecum independente, izolate una de alta. Partiționarea are drept efect izolarea defectelor (fault containment / fault isolation), astfel încît o defecțiune întro parte să nu afecteze celelalte părți. În calculatoare această tehnică este folosită în sistemele de operare și clusterele de calculatoare.
La ora actuală circuitele integrate pe scară largă (Very Large Scale Integrated circuits, VLSI) au ajuns la nivele incredibile de fiabilitate. Ca atare arhitecții calculatoarelor în general privesc nivelul hardware ca fiind „perfect” și folosesc această abstracție foarte convenabilă în proiectarea nivelelor superioare.
Anumite clase de aplicații însă au nevoie de o fiabilitate foarte ridicată (de exemplu, controlul de trafic aerian sau supervizarea centralelor nucleare). În astfel de sisteme critice arhitecții sistemelor de calcul iau în considerare și posibilitatea defectelor hardware, pe care le tratează în software.
Miniaturizarea continuă a circuitelor integrate va duce la schimbări în această stare de fapt; trebuie să ne așteptăm ca în viitor circuitele să conțină din ce în ce mai multe defecțiuni și să fie din ce în ce mai sensibile la fluctuații termodinamice și particule de înaltă energie din radiația cosmică sau chiar din degradarea radioactivă a circuitului integrat! Astfel de schimbări vor cere probabil o regîndire completă a arhitecturii sistemelor electronice de telecomunicații .
Definiție
Fiabilitatea unui obiect (o componentă sau un sistem) este o funcție de timp F(t), definită ca probabilitatea ca, în condiții de mediu specificate, obiectul să funcționeze adecvat în intervalul de timp [0,t). Ingredientul cel mai folosit pentru a construi sisteme fiabile este redundanța. Putem distinge două genuri de redundanță, spațială și temporală:
Redundanța spațială:
folosește mai multe componente decît strict necesar pentru a implementa un anumit sistem. Resursele adiționale fac calcule suplimentare și rezultatele sunt comparate între ele. În general, cu cît redundanța unui sistem este mai mare, cu atît poate detecta sau tolera mai multe erori.
Redundanța temporală:
constă în folosirea aceluiași dispozitiv pentru a calcula același lucru în mod repetat, după care rezultatele sunt comparate între ele.
Erori tranziente și erori permanente
Putem clasifica defectele în două mari categorii:
Erori tranziente:
sunt erori care se manifestă printro malfuncție temporară a unei componente, dar nu prin defectarea ei definitivă. În sistemele de calcul contemporane, cea mai mare parte a erorilor sunt tranziente.
Erori permanente:
se produc la un moment dat și persistă pînă cînd sistemul este reparat. În această categorie includem și defectele din fabricație.
Costul fiabilității; sisteme echilibrate
În cazul proiectării unui sistem complex este foarte important să fie echilibrată fiabilitatea părților. De exemplu, dacă memoria unui sistem are o fiabilitate mult mai mare decît procesorul, atunci sistemul se va defecta cel mai adesea cu probleme de procesor. Faptul că memoria este de foarte bună calitate nu ne ajută cu nimic; dimpotrivă, probabil că am plătit un preț mai mare pentru memorie decît ar fi fost strict necesar. În general, o componentă este „destul de bună” dacă nu are cea mai mare probabilitate de defectare. Întotdeauna cînd discutăm despre fiabilitate trebuie să socotim nu numai costul componentelor fiabile, ci și costul întreținerii sistemului.
Creșterea fiabilității
Evitarea defectelor
Evitarea defectelor este o metodologie idealizată, care presupune că toate componentele sunt perfecte. Pentru că hardwareul de astăzi are o calitate excepțională, nivelul software în calculatoarele obișnuite adoptă o astfel de viziune idealizată. Fiabilitatea excelentă a dispozitivelor hardware este obținută printro combinație de tehnici, cum ar fi felurite forme de redundanță, proiectare și fabricație cu precizie foarte ridicată, și o fază agresivă de testare și „ardere” (burnin).
Empiric sa observat că sistemele tind să aibă o mortalitate care urmărește o curbă numită albie, ilustrată în figura 1: sistemele foarte tinere și cele foarte uzate se strică mult des decît sistemele „mature”. „Burnin” este o fază de testare care folosește componentele pînă devin mature; în acest fel, componentele cu mortalitate infantilă ridicată sunt eliminate.
În plus fabricanții proiectează și testează sisteme de calcul în condiții mai nefavorabile decît cele specificate. De exemplu, pe acest fapt se bazează cei care fac „overclocking”: specificațiile unui procesor indică frecvența de ceas la care acesta poate opera. Dar în mod frecvent un procesor cu specificație de ceas de 1Ghz poate opera la 1.2Ghz, datorită marginilor de toleranță din fabricație.
Figura 1: Graficul ratei de eroare a unui dispozitiv în funcție de vîrsta sa are adesea forma de albie: dispozitivele foarte noi și foarte vechi au o probabilitate mai mare de a se defecta.
Scheme de votare
O metodă foarte simplă dar scumpă de a tolera erori este de a multiplica fiecare componentă. De exemplu, dacă duplicăm întreg sistemul de calcul, apariția unui defect poate fi detectată comparînd rezultatele celor două subsisteme.
Prima schemă de toleranță a defectelor a fost propusă de John von Neumann în 1956 și se numește „redundanță modulară triplă” (Triple Modular Redundancy). În această schemă trei module fac aceeași operație și un modul de „vot” alege rezultatul majoritar. Dacă fiecare componentă are o fiabilitate de peste 50%, fiabilitatea ansamblului este mai mare decît a componentelor. Există și scheme în care sistemul de votare este replicat, pentru a nu depinde de o singură componentă.
DIVA
O schemă deosebit de interesantă de redundantă spațială a fost propusă în aceeași conferință în 1999 de către Todd Austin, profesor la universitatea Michigan. Acest proiect e numit DIVA, de la Dynamic Implementation Verification Architecture: arhitectură cu verificare dinamică.
Spre deosebire de schemele anterioare, DIVA e proiectată pentru a tolera atît erori tranziente, cît și permanente (cele din urmă doar în anumite părți ale sistemului). Observația centrală pe care se bazează DIVA este că e mai ușor de verificat dacă rezultatul unui calcul e corect decît este de efectuat calculul însuși. Ca atare, arhitectura DIVA este compusă din două procesoare diferite:
Un procesor complex, superscalar, foarte optimizat, care face calculele în mod normal;
Un procesor extrem de simplu, mai lent, dar foarte fiabil, care execută instrucțiunile în ordine, și este construit folosind tehnici de evitare a defectelor.
Procesorul DIVA funcționează astfel:
Procesorul complex execută toate instrucțiunile și calculează rezultatele lor. Rezultatele însă nu sunt scrise, ci sunt transmise procesorului simplu. Procesorul simplu merge ceva mai încet, și verifică în paralel toate detaliile rezultatelor primite. Deși acest procesor este mai simplu, are o treabă mai ușoară, și ca atare poate atinge aceeași performanță ca cel rapid (exprimată în instrucțiuni procesate pe secundă). Cînd verificarea descoperă o eroare, procesorul simplu calculează rezultatul corect și repornește procesorul complex de la instrucțiunea următoare.
RAID
RAID este o prescurtare de la Redundant Array of Inexpensive Disks, sau set redundant de discuri ieftine. Ideea a fost introdusă în 1987 de cercetători de la Universitatea Berkeley din California, și la ora actuală este obiectul unei industrii anuale de 12 miliarde de dolari.
Ideea centrală în RAID este de a stoca informație pe mai multe discuri simultan. Informația este codificată redundant, astfel încît să poată fi recuperată dacă oricare din discuri se defectează. Această proprietate este foarte utilă pentru sisteme care trebuie să funcționeze în foc continuu.
Se observă tipul de defecțiune pe care RAID o adresează: dorim să operăm cînd un disc este complet distrus iar în situațiile anterioare ne interesa să detectăm alterații ale informației stocate. Întrun sistem RAID toate aceste tehnici operează simultan: fiecare disc folosește coduri CRC și sectoare de rezervă, iar sistemul RAID folosește stocare a informației redundantă. În ultimii 8-9 ani, tehnologia. RAID și-a dovedit robustețea și fiabilitatea. într-o gamă largă de sisteme de calcul. Pe măsură ce companiile folosesc din ce în ce mai mult aplicații „mission critical”, ele vor continua să depindă de soluții RAID pentru a asigura toleranța la erori și rezistența la defecte majore
Copyright Notice
© Licențiada.org respectă drepturile de proprietate intelectuală și așteaptă ca toți utilizatorii să facă același lucru. Dacă consideri că un conținut de pe site încalcă drepturile tale de autor, te rugăm să trimiți o notificare DMCA.
Acest articol: Fiabilitatea In Sistemele Electronice de Telecomunicatii (ID: 162484)
Dacă considerați că acest conținut vă încalcă drepturile de autor, vă rugăm să depuneți o cerere pe pagina noastră Copyright Takedown.
