Chemometrie
CHEMOMETRIE
1. Chemometrie – notiuni introductive………………………………………..3
1.1. Dezvoltarea chemometriei……………………………………………3
1.2. Definirea chemometriei………………………………………………4
1.3. Clasificarea metodelor chemometriei…………………………………5
1.4. Analiza mediului……………………………………………………..8
1.5. Nevoia de a aplica metodele chemometriei …………………………10
2. Marimi fizice. Principii de masurare. Surse de erori……………………11
2.1. Marimi fizice, unitati de masura…………………………………….11
2.2. Principii de masurare………………………………………………..12
2.3. Surse de erori in procesul analitic…………………………………..14
3. Baza statistica a masuratorilor…………………………………………….16
3.1. Parametrii statistici care caracterizeaza distributia datelor…………16
3.1.1. Indicatori ai tendintei de centrare a datelor (media aritmetica, mediana, modulul)………………………………………………..16
3.1.2. Indicatori ai tendintei de imprastiere a datelor (amplitudinea, abaterea patratica standard, dispersia sau varianta, deviatia medie a datelor, coeficientul de variatie sau abaterea standard relativa, coeficientul de variabilitate sau coeficientul de variatie
PEARSON)……………………………………………………….17
3.2. Sistematizarea si prezentarea datelor statistice……………………..19
3.2.1. Quantile. Quartile. Decile. Centile. Box ploturi……………20
3.2.2. Impartirea datelor experimentale in clase (impartirea normala Struges)……………………………………………………………………………….21
3.2.3. Constructia histogramelor si a cercurilor de structura……….22
4. Legi de repartitie……………………………………………………………………………….24
4.1. Repartitia normala (clopotul lui Gauss, tabelul z)………………………..24
4.2. Indici de asimetrie si boltire a distributiei datelor………………….26
4.2.1. Parametrii asimetriei (coeficientul de asimetrie Fisher)…….27
4.2.2. Parametrii boltirii (indicatorul B)…………………………………..28
4.3. Esantionarea. Distributia de esantionare. Intervale de incredere…….29
4.3.1. Tipuri de esantioane. Modul de esantionare…………………….29
4.3.2. Determinarea marimii esantionului………………………………..30
4.3.3. Distributia de esantionare……………………………………………..31
4.3.4. Intervale de incredere (criteriul z)………………………………….33
4.3.5. Cazul esantioanelor mici. De la z la t sau de la distributia normala la distributia Student (criteriul Student)……………………..34
4.3.6. Testarea omogenitatii dispersiilor (testul Cochran)…………..35
4.3.7. Compararea a doua esantioane (raportul lui Fisher)………….36
5. Estimarea preciziei si exactitatii metodelor de analiza. Controlul calitatii rezultatului analitic……………………………………………………………………………….37
5.1. Estimarea preciziei si controlul preciziei…………………………………….37
5.1.1. Estimarea preciziei metodelor de analiza…………………………37
5.1.2. Controlul preciziei (testul χ2)…………………………………………38
5.2. Estimarea exactitatii…………………………………………………………………38
5.2.1. Controlul exactitatii (testul Link si Walace)…………………….39
5.3. Procedee de evidentiere a erorilor sistematice (metoda Student)…….40
5.4. Controlul de calitate in analiza chimica………………………………………41
5.4.1. Diagrame de control……………………………………………………..42
5.4.2. Diagrame duble de control medie – amplitudine………………43
5.5. Eliminarea datelor necorespunzatoare………………………………………..45
5.5.1. Testul Irvin………………………………………………………………….45
5.5.2. Testul Romanovski………………………………………………………46
5.5.3. Testul Grups………………………………………………………………..47
5.5.4. Testul Q sau testul Dixon………………………………………………48
6. Studiul relatiilor dintre variabile………………………………………….49
6.1. Regresia liniara simpla (metoda celor mai mici patrate)……………51
6.1.1. Aprecierea calității funcției de regresie (eroare standard, coeficient de eroare, coeficient de determinatie)…………………….51
6.1.2. Indicatorii corelației parametrice (covarianta, coeficientul de corelatie liniara)…………………………………………………………………..52
6.1.3. Testarea semnificației – coeficientului de corelație (raportul de corelatie)……………………………………………………….54
6.1.4. Corelația neparametrică (coeficientul de corelatie al rangurilor Spearman)…………………………………………………………….55
6.2. Regresia liniara multipla…………………………………………………………56
6.2.1. Definirea modelelor de regresie multipla………………………..56
6.2.2. Interpretarea modelelor de regresie multipla (standardizarea datelor)………………………………………………………………………………..56
6.2.3. Eficienta unui model de regresie multipla (coeficientul de determinatie multipla R2)……………………………………………………….57
ANEXE
Anexa nr.1 Valorile criteriului Student………………………………………………………58
Anexa nr.2 Valorile raportului Fisher………………………………………………………..59
Anexa nr.3 Testul de semnificatie Cochran………………………………………………..60
Anexa nr.4 Tabelul z al distributiei normale……………………………………………….61
Anexa nr.5 Valorile parametrului χ2t………………………………………………………….62
Anexa nr. 6 Valorile parametrului K………………………………………………………….63
1. CHEMOMETRIE – NOTIUNI INTRODUCTIVE
1.1. Dezvoltarea chemometriei
Metodele matematicii statistice au gasit o inca de la inceput o larga aplicatie in validarea si interpretarea datelor experimentale, in stabilirea si eliminarea erorilor care afecteaza valoarea rezultatului, in incercarea de modelare a fenomenelor cu scopul realizarii predictiilor cat mai apropiate de realitate, in stabilirea factorilor de influenta majora si a corelatiilor intre acesti factori de influenta si datele obtinute.
Urmarea aplicarii acestor metode matematice in diverse ramuri ale stiintei a fost aparitia unor noi discipline de sine statatoare ca: biometria, psihometria, tehnometria, statistica medicala, econometria, etc. Aceasta evolutie a fost evidentiata de aparitia unor publicatii ca: Biometrika (1901), Psychometrika (1936), Technometrics (1959).
Aparitia si dezvoltarea metodelor de analiza instrumentala dupa 1950 si implementarea lor in domeniul chimiei analitice, a generat obtinerea unui volum urias al datelor experimentale. Chemometria a aparut ulterior, ca o necesitate in realizarea investigatiilor chimice cu scopul prelucrarii datelor experimentale si al extragerii maximului de informatii din aceste date.
Explozia tehnologiei calculatoarelor si a softurilor a gasit imediat aplicatii practice in cadrul chemometriei ducand la dezvoltarea disciplinei si aplicarea avansata a statisticii si a metodelor matematice.
Denumirea de chemometrie a fost utilizata pentru prima data de tanarul om de stiinta suedez SWANTE WOLD in 1970. Cooperarea lui cu chimistul analist american BRUCE KOWALSKI a dus la punerea bazelor chemometriei ca o noua stiinta. In anul 1974 s-a fondat Societatea Internationala de Chemometrie. Dezvoltarea chemometriei a cunoscut de atunci o puternica ascensiune, pusa in evidenta si de aparitia altor publicatii si periodice in domeniu: Chemometria si Sisteme Inteligente de Laborator (1986), Jurnalul Chemometriei (1987), Environmetrics (1990), Ferestrele Chemometriei (1993), etc.
1.2. Definirea chemometriei
Definitia data de KOWALSKI chemometriei este ca fiind disciplina chimiei care utilizeaza metode statistice, matematice sau alte metode in format logic pentru:
proiectarea si selectarea procedurilor optime de masurare si experimentare
obtinerea maximului de informatii chimice relevante prin analizarea datelor experimentale obtinute.
Pentru chemometrie pot fi date si alte definitii ca:
partea non-materiala a chimiei analitice KATEMAN 1988
colectia de metode si proceduri pentru a proiecta si analiza experimentele de laborator (chimice si non-chimice: statistice si matematice) pentru obtinerea maximului de rezultate si concluzii, in conditii de limitare a costurilor (manopera, timp, echipamente) BRERETON 1990.
Definitia adoptata de catre Societatea Internationala de Chemometrie poate fi sintetizata astfel: Chemometria este o subdisciplina a chimiei care foloseste metode matematice, statistice sau alte metode intr-un format logic pentru:
evaluarea si interpretarea datelor chimice sau analitice
optimizarea modelarii proceselor chimice sau analitice sau a experimentelor
extragerea maximului de informatii chimice sau analitice din datele experimentale
1.3. Clasificarea metodelor chemometriei
Metodele aplicate in chemometrie sunt cuprinse intr-un domeniu larg incepand de la simple analize statistice si pana la cele mai sofisticate proceduri.
O posibilitate de clasificare ar reprezenta urmarirea metodelor utilizate pe parcursul desfasurarii procesului analitic. In principal, procesul analitic incepe cu definirea si selectarea materialului care urmeaza a fi investigat. Foarte important in aceasta etapa, este cunosterea istoriei sau trecutului probei sau obiectului investigat, deoarece aceasta poate induce erori sistematice importante.
Cele mai importante directii in chemometrie sunt:
principiile si metodele aplicate la probare
proiectarea sau programarea experimentelor
alegerea si optimizarea metodelor si conditiilor analitice
prelucrarea semnalului analitic (include metodele de calibrare)
analizarea si interpretarea datelor
stabilirea modelului si validarea lui
obtinerea informatiilor in baza modelului si utilizarea lor in stabilirea actiunilor ulterioare.
Urmatoarele topici apartin tot chemometriei si implica aplicarea unor metode mai avansate:
controlul si optimizarea proceselor
analiza rationala
organizarea si conducerea laboratoarelor
interpretarea si analizarea datelor utilizand softuri pentru calculator
retele neuronale si inteligenta artificiala
algoritmi genetici
MEDIUL Interpretarea datelor si
trasarea concluziilor
Definirea problemei
Stabilirea metodelor analitice
Planificarea si stabilirea obiectivelor
Prelevarea probelor Rezultate analitice
Pregatirea probelor Rezultatele masuratorii
Masurarea analitica
Controlul calitatii
Figra nr. 1.3.1. Reprezentarea schematica a procesului analitic.
Definirea problemei
Stabilirea planului de probare Proiectarea experimentala
Selectarea si optimizarea metodelor
Extragerea informatiilor simulare
din datele obtinute
Stabilirea concluziilor
Redefinirea obiectivelor
Figra nr.1.3.2. Schema de strategie pentru un proiect de chemometrie.
1.4. Analiza mediului
Studiile asupra mediului inconjurator includ o gama larga de subiecte. Aceasta se datoreaza diferitelor domenii continute. Peste compartimentele ca aer, apa, sol se suprapun alte compartimente ca plante, animale si om. Pentru a realiza o intelegere a mediului trebuie sa intelegem ca acesta este dinamic, existand diferite schimburi intre aceste compartimente, determinate de procese fizice, chimice si biologice. Datorita acestor schimburi si mobilitati si datorita unor reactii care au loc in majoritatea cazurilor in mod ireversibil, este deosebit de dificil sa descriem mediul in baza unor procese deterministe.
In marea majoritate a cazurilor se pune problema limitei de detectie a metodei utilizate pentru analizarea elementului urmarit, deoarece poluantul care influenteaza mediul nu se gaseste printre elementele majore.
O alta problema este legata de interactiunile care pot aparea intre poluanti. Intre acestia pot exista combinari generatoare de noi poluanti, care pot fi mai agresivi decat elementele initiale.
Modurile de acces a poluantilor in mediu, mecanismele de transport sunt in general necunoscute. Aceste transporturi sunt asociate cu schimbari ale concentratiilor speciilor chimice individuale dar si cu mecanismele prin care aceste specii duc la aparitia influentelor.
Cresterea interesului pentru mediu a aparut ca o necesitate. Poluarea actuala, cauza a dezvoltarii societatii umane, a dus la intreruperea unor procese ciclice naturale avand ca efect afectarea calitatii vietii. Poluarea existenta si potentialul de distrugere existent necesita atat masuri urgente de monitorizare si control cat si intelegerea proceselor fizice, chimice si biologice implicate.
Directiile de perspectiva trebuiesc orientate spre remediere si stoparea influentelor negative asupra mediului prin inlocuirea tehnologiilor poluante cu unele ecologice, urmarindu-se actionarea asupra cauzelor nu numai asupra efectelor.
Cresterea calitatii mediului se realizeaza prin procesele de autoepurare si prin procesele de epurare – tratare aplicate de catre om. Capacitatea de autoepurare a mediului este puternic influentata de calitatea acestuia in sensul in care cresterea nivelului de poluare scade capacitatea de autoepurare. Este absolut necesar orientarea pentru realizarea unei reintegrari in mediu a activitatilor umane si nu o dezvoltare a acestor activitati in detrimentul mediului, privit ca o anexa.
emisii de poluanti in mediu
autoepurare apa aer sol
surse de apa vegetatie animale
epurare tratare om si activitati umane
poluare
Figura nr. 1.4.1. Reprezentarea generala a circulatiei poluantilor in mediul inconjurator in legatura cu activitatea umana.
1.5. Nevoia de a aplica metodele chemometriei
Datele experimentale obtinute in urma efectuarii unor analize de mediu sunt influentate de o serie mare de factori care au diferite origini:
1. variabilitatea cauzata de mediul inconjurator:
– schimburile de masa care au loc intre compartimentele mediului (aer – apa –sol), mecanismele de transport
– variabilitatea datorata activitatilor antropogene (emisiile de poluanti datorate activitatilor umane) ca surse de aparitie
– variabilitatea temporala data de evolutia in timp a concentratiilor poluantilor (descompuneri sau acumulari)
2. variabilitatea datorata erorilor experimentale. Fiecare etapa a procesului analitic este supusa unor erori mai mari sau mai mici care pot fi evidentiate prin metode statistice.
Pe de alta parte aparitia unui anumit poluant in mediul inconjurator poate fi cauza mai multor surse si procese, de multe ori necunoscute. Emisiile de poluanti contin un amestec de elemente nocive care pot actiona in sinergie. Datele analitice sunt ultimul pas al tuturor acestor evolutii. Toate aceste informatii sunt ascunse latent in datele experimentale.
Scopul chemometriei este acela ca pornind de la datele experimentale, printr-o serie de metode matematice sa obtinem maximul posibil de informatii.
Utilizarea metodelor chemometrice sunt foarte utile pentru solutionarea urmatoarelor probleme legate de mediul inconjurator:
planificarea si optimizarea procesului analitic, incapand de la stabilirea planului de prelevare al probelor si pana la optimizarea procedurilor si metodelor analitice aplicate in laborator
restrangerea datelor, eliminarea datelor necorespunzatoare
vizualizarea relatiilor cantitative
detectarea si identificarea originii surselor elementelor poluante
investigarea spatiala si temporala a relatiilor dintre datele de mediu si schimbarile acestuia
investigarea interactiunilor dintre poluanti
investigarea mecanismelor de transport, a celor de acumulare – degradare
investigarea interactiunilor dintre poluanti si componentele mediului
impactul poluarii asupra mediului.
2. MARIMI FIZICE. PRINCIPII DE MASURARE. SURSE DE ERORI
2.1. Marimi fizice, unitati de masura
Studiul oricarui proces, fenomen fizic sau chimic are la baza marimile fizice. Pentru a fi masurabila o marime trebuie sa fie definita calitativ si cantitativ. Orice marime fizica prezinta doua componente: valoare si natura.
Valoarea marimii fizice reprezinta un raport intre marimea ei si o marime de referinta considerata a fi egala cu unitatea. Totalitatea valorilor pe care le poate lua o marime fizica corespunde multimii starilor sau intensitatilor. Marimea de referinta corespunde elementului considerat egal cu unitatea din multimea starilor. Aceasta multime trebuie sa fie strict ordonata si trebuie sa se stabileasca o relatie biunivoca cu multimea numerelor reale. Astfel fiecarui element din multimea starilor sa-i corespunda un numar real si invers fiecarui numar real sa-i corespunda un anumit element din multimea starilor (sau intensitatilor). Pe aceasta baza se stabileste o scara de masurare si o unitate de masura. O marime fizica poate avea aceeasi valoare, intensitate sau stare dar poate avea unitate de masura diferita functie de marimea unitatii de referinta.
Marimile pot fi aditive (masa) sau neaditive (pH, temperatura). In cazul marimilor neaditive scara de marime se alege conventional, in general prin alegerea a doua valori care determina un interval. Trecerea de la o scara la alta se va face prin interpolare. Un exemplu reprezentativ pentru acest caz ar constitui doua segmente de dreapta de lungimi diferite. Fiecarui punct de pe segmentul scurt o sa-i corespunda un unic punct situat pe segmentul lung. Pe acest considerent pe ambele segment ar trebui sa existe acelasi numar de puncte. Aparent pe segmentul lung trebuie sa existe mai multe puncte decat pe cel scurt. Realitatea este aceea ca ambele segmente de dreapta indiferent de lungime contin un numar infinit, deci identic de puncte.
Natura marimii defineste aprecierea calitativa a acesteia si se exprima printr-un simbol: L – lungime; M – masa; T – timp. Pentru fiecare natura exista o multime a starilor sau intensitatilor.
Marimile fizice pot fi:
extensive – prezinta proprietati de ordonare si sumabilitate
intensive – prezinta doar proprietati de ordonare
scalare – sunt determinate doar de valoarea lor numerica
vectoriale – care asociaza fiecarei coordonate cate un vector (forta)
O alta clasificare a marimilor fizice le imparte in fundamentale (independente alese conventional) si derivate sau secundare (care se definesc in baza celor fundamentale). Alegerea unitatilor fundamentale este arbitrara, dar se prefera utilizarea unui sistem unitar cu scopul exprimarii marimilor derivate fara interventia unor factori de proportionalitate. Totalitatea marimilor fundamentale si derivate utilizate intr-un domeniu alcatuiesc un sistem de unitati de masura. Pe parcursul dezvoltarii cunoasterii au existat sisteme de unitati diferite care difera fie prin natura marimilor fundamentale fie prin valorile unitatilor de masura. Cele mai importante sisteme de unitati de masura sunt: CGS (centimetrul, gram, secunda), MKfS (metrul, kilogram forta, secunda) si sistemul international de unitati de masura adoptat in 1961 MKS (metrul, kilogram, secunda).
2.2. Principii de masurare
Principiul de masurare descrie procesele (reactiile chimice) prin care se actioneaza asupra materialului supus analizei in scopul de a obtine un semnal analitic corelat cu elementul care se doreste a fi masurat. Prin prelucrarea ulterioara a acestui semnal se realizeaza masurarea efectiva.
Metoda de analiza descrie toti pasii necesari a fi efectuati intre pregatirea probei si obtinerea rezultatelor sau a datelor analitice. Procedura contine toti acesti pasi inclusiv interpretarea datelor exeprimentale. Metodele de analiza pot fi clasificate in metode directe (volumetria directa, gravimetria) in care se masoara direct elementul a fi dozat si metode indirecte (instrumentale in general) prin care se masoara efectul acestui element sau se aplica un stimul acestuia cu scopul masurarii efectului selectiv si caracteristic provocat. Acest semnal analitic este corelat cu cantitatea elementului prezent in proba si prin utilizarea unei asa numite curbe de calibrare se poate determina valoarea acestuia. Trebuie mentionat faptul ca trasarea curbei de calibrare are la baza utilizarea unor etaloane (de obicei greu de fabricat) in care se cunoaste cu exactitate continutul elementului urmarit. Problemele care mai apar in etapa de calibrare sunt stabilirea domeniului calibrarii (de cele mai multe ori liniar) si in trasarea celei mai bune drepte sau curbe de calibrare. Aceste probleme sunt elegant rezolvate in baza unor metode matematice, utilizate in chemometrie.
Caracteristica principala a principiului de masurare este aceea ca trebuie sa duca la obtinerea unui semnal selectiv si caracteristic pentru elementul urmarit a fi dozat si sa asigure evitarea sau minimalizarea interferentelor altor elemente prezente in proba cu scopul evitarii erorilor. In marea majoritate a cazurilor se stie faptul ca erorile variaza cu continutul elementului a fi dozat in sensul ca la scaderea concentratiei cresc erorile.
Posibilitatea determinarii elementului urmarit in baza relatiei stimul – semnal caracteristic, a dus la o puternica permanenta dezvoltare a aparatelor de analiza, in timp ce metodele directe de analiza au atins un anumit nivel de stagnare.
O anumita metoda de analiza poate fi descrisa de exactitate si precizie. Exactitatea unei metode arata masura in care aceasta permite obtinerea unui rezultat apropiat de realitate. O metoda este cu atat mai exacta cu cat rezultatul obtinut este mai apropiat de valoarea reala. Pentru evaluarea exactitatii unei metode analitice este necesar utilizarea etaloanelor.
Precizia unei metode analitice reda gradul de dispersie al rezultatelor, obtinute pe aceeasi proba in conditii similare de lucru, in jurul valorii medii. Cu cat rezultatele sunt mai apropiate de valoare medie cu atat metoda este mai precisa. Aprecierea preciziei unei metode de analiza se realizeaza prin utilizarea unor procedee statistice.
O metoda de analiza poate fi foarte precisa dar mai putin exacta sau invers. O analogie la aceasta problema ar putea fi reprezentata de un concurs de tir. Un sportiv care are loviturile mai grupate dar pe marginea tintei va fi mai precis si mai putin exact decat alt sportiv care are loviturile mai imprastiate pe suprafata tintei dar cu media lor mai apropiata de punctajul maxim, sportiv care este mai putin precis dar mai exact. In practica analitica se urmareste utilizarea unor metode care sa asigure atat o exactitate mai ridicata cat si o precizie mai mare.
2.3. Surse de erori in procesul analitic
Datele obtinute in urma unui proces analitic de masurare a unui element continut intr-o anumita proba sunt afectate intr-o masura mai mare sau mai mica de o serie de erori. Acestea provin din mai multe surse si sunt de diferite naturi. Rezultatul final este afectat de erori care pot interveni in fiecare pas al procesului analitic, incepand de la modalitatea de recoltare si pana la calculul final si interpretarea rezultatului. In figura de mai jos se prezinta structurat cateva tipuri de erori care pot afecta rezultatul analitic.
eroarea totala
umana de procedura
grosolana subiectiva
de recoltare de reducere de pregatire de analiza
de principiu de calibrare
eroarea
intamplatoare sistematica
constanta variabila in timp
independenta independenta dependenta
Figura nr. 2.3.1. Clasificarea erorilor functie de sursa si de natural lor.
Pentru diminuarea sau eliminarea erorilor cauzate de factorul uman se recomanda ca atat analiza cat si recoltarea probei sa fie realizata de catre operatorul chimist, respectand cu strictete atat normele de prelevare cat si metodologia metodei de analiza. Erorile grosolane duc la obtinerea unor rezultate care nu au nimic de-a face cu analiza urmarita si cauzeaza costuri legate de consumul inutil de resurse. Acestea se imputa persoanei in cauza. Erorile subiective sunt cauzate tot de factorul uman si constau in erori de citire sau de apreciere a volumului de echivalenta, de realizare a dilutiilor, etc. si genereaza vicierea rezultatului.
Erorile de procedura sunt erorile care apar inerent datorita neaplicarii, a aplicarii incorecte sau a imposibilitatii de aplicare exacta a normelor si standardelor legate de recoltare, reducerea probei si de pregatirea probei in vederea analizarii ei. Problema cea mai importanta care apare aici este legata de obtinerea unei probe reprezentative. In situatia in care se urmareste determinarea continutului unui element pe o suprafata sau dintr-un volum ridicat este necesar recoltarea unui numar mare de probe individuale de pe suprafete determinate prin impartirea suprafetei mari in suprafete uniforme sau concentrate functie de natura si sursa de poluare. Acestea vor fi amestecate ulterior iar prin metode specifice cum ar fi metoda dreptunghiului sau a conului var fi aduse la un volum mai redus. Erorile care apar in pregatirea probei tin de modalitatea de dezagregare sau de aducere in solutie. Majoritatea analizelor se efectueaza in solutie. Dezagregarea materialului solid trebuie sa asigure trecerea complecta a elementului urmarit a fi dozat din starea solida (sub forma de compusi insolubili) in stare lichida sub forma de saruri solubile. In mod similar in cazul analizei gazelor sistemele de adsorbtie – absorbtie trebuie sa asigure in final trecerea cantitativa a elementului analizat din starea gazoasa in starea lichida. Din aceasta cauza si pregatirea probei constituie o bogata sursa de erori.
Erorile de analiza pot aparea in cazul in care se utilizeaza o metoda de analiza cu un principiu corect dar nu se asigura respectarea conditiilor de lucru care sa asigure indepartarea interferentelor. Alte tipuri de erori de analiza apar in cazul etalonarii aparatelor si instrumentelor in cazul in care se utilizeaza etaloane necorespunzatoare sau nu se obtine cea mai buna curba de calibrare. O alta sursa de erori de acest tip viciaza rezultatul in cazul in care extrapolarea se realizeaza la limitele domeniului de calibrare.
Dupa natura lor erorile pot fi intamplatoare sau sistematice, independente sau dependente de continutul elementului urmarit a fi dozat din proba. Erorile intamplatoare pot fi de tipul erorilor datorate factorului uman, cele sistematice de obicei sunt datorate metodei sau aparatului. Erorile sistematice deplaseaza valorile obtinute intr-un singur sens, fie spre valori mai mari fie spre valori mai mici decat valoarea reala. Realizarea dezagregarii incomplecte a unei probe solide are ca urmare trecerea in solutie partiala a elementului urmarit generand erori sistematice cu obtinerea unor rezultate totdeauna mai mici decat valorile reale. Un alt tip de eroare sistematica independenta de marimea masurata poate fi considerate si lipsa de puritate a unui reactiv utilizat pe parcursul analizei. Trasarea unei curbe de calibrare cu panta mai mare (sau mai mica) decat cea optima genereaza aparitia unor erori sistematice dependente de concentratie elementului. In cazul extrapolarii cu cat ne vom apropia de limita superioara a domeniului de calibrare cu atat erorile obtinute vor fi mai mari sau mai mici.
In analiza chimica evidentierea erorilor intamplatoare se poate realiza prin utilizarea metodelor statistice de analiza a datelor. Deasemenea se pot aplica diferite teste de eliminare a datelor necorespunzatoare care ar vicia valoarea mediei. Aici intervine chemometria: in scopul de a obtine cele mai bune rezultate atat prin interpretarea datelor dar si prin optimizarea procesului analitic.
3. BAZA STATISTICA A MASURATORILOR
Consideram ca am efectuat in conditii similare o analiza chimica utilizand aceeasi metoda cu acelasi principiu si am obtinut un numar de n rezultate sau date experimentale. Totalitatea datelor obtinute alcatuieste o populatie de date sau o populatie statistica. Populatia statistica se defineste ca fiind o multime definita de obiecte de aceeasi natura. Elementele populatiei se numesc unitati statistice sau indivizi. Numarul elementelor definesc volumul sau efectivul populatiei. O submultime de elemente a populatiei constituie un esantion. In tratarea statistica a datelor se utilizeaza o serie de parametrii care caracterizeaza tendinta de centrare sau imprastiere a datelor experimentale.
3.1. Parametrii statistici care caracterizeaza distributia datelor
3.1.1. Indicatori ai tendintei de centrare a datelor
1. Media aritmetica. Aceasta reprezinta valoarea medie a rezultatului . Aceasta estimeaza tendinta de centrare a datelor dar este puternic influentata de catre valorile extreme.
In cazul in care in sirul de date apar elemente care se repeta, definim notiunea de frecventa ca fiind numarul de repetitie al acesteia in cadrul populatiei obtinute in urma masuratorii. Frecventa relativa reprezinta raportul dintre frecventa individuala si suma frecventelor individuale a tuturor datelor. In acest caz media aritmetica se va determina cu formula:
2. Mediana sau valoarea de mijloc se obtine prin ordonarea crescatoare a datelor si identificarea datei situate la mijlocul seriei. In cazul in care aceasta serie contine un numar impar de date, mediana va fi considerata valoarea situate la mijlocul seriei. In cazul in care aceasta serie contine un numar par de date, mediana va fi considerata media aritmetica a celor doua date situate la mijlocul seriei. Mediana nu mai este influentata de catre valorile extreme.
x1 ≤ x2 ≤ ………………. ≤ xm ≤…….≤ xn
x1, x2,………….xm,………..xn daca n este impara n=2k+1 m = (n+1)/2
Me = xm
x1, x2,………….xm, xm+1,………..xn daca n este para n=2k m = n/2
Me = (xm + xm+1)/2
3. Modulul reprezinta valoarea care apare cu frecventa cea mai mare. Functie de acest parametru populatia de date poate fi clasificata in unimodala sau polimodala. O functie polimodala arata neomogenitatea datelor, adica arata faptul ca datele obtinute nu fac parte din aceesi populatie.
Exemple:
pentru sirul de date: 1,2,3,4,4,4, 5,6,7,8,9 modulul este MO = 4
pentru sirul de date: 1,2,3,4,4,5,6,6,6,6,7,8,9 cele doua module sunt MO1 = 6 si
MO2 = 4
3.1.2. Indicatori ai tendintei de imprastiere a datelor
1. Amplitudinea sau domeniul datelor reprezinta diferenta dintre cea mai mare si cea mai mica valoare. Cu cat amplitudinea va fi mai mica cu atat valorile vor fi mai apropiate si frecventa de aparitie a unei valori individuale mai mare.
A = xn – x1
2. Abaterea medie patratica sau abaterea standard sau deviatia standard este parametrul principal care exprima imprastierea rezultatelor in jurul valorii medii, fiind un indicator al preciziei (al reproductibilitatii rezultatelor). Deasemenea abaterea patratica standard este un indicator de punere in evidenta a erorilor intamplatoare care afecteaza procesul de analiza. In cazul unei distributii normale a datelor, se calculeaza cu formula:
3. Dispersia sau varianta reprezinta patratul abaterii standard si masoara gradul de împrăștiere a eșantionului în jurul mediei de sondaj. Presupunând că există n elemente în eșantion, cu valorile {x1, x2, . . . , xn}, având media M = (x1 + x2 + . . . + xn)/n, atunci dispersia este:
s2 = [(x1 – M)2 + (x2 – M)2 + . . . + (xn – M)2]/(n-1)
4. Deviatia medie a datelor reprezinta media aritmetica a valorilor absolute a deviatiilor individuale a datelor in jurul valorii medii. Deviatia individuala reprezinta valoarea absoluta a diferentei intre valoarea individuala si valoarea medie aritmetica a acestor valori.
di = │xi – xm│
Mentionam faptul ca suma deviatiilor calculate in valori reale si nu absolute este nula. In acest caz deviatiile pozitive vor anula deviatiile negative ale valorilor individuale fata de valoarea medie aritmetica.
5. Coeficientul de variatie sau variabilitate (coeficientul de variatie al lui Pearson) Este utilizat în scopul stabilirii gradului de omogenitate a unui esantion si se obtine prin raportarea abaterii standard la media esantionului. Rezultatul obtinut se raporteaza apoi în procente.
Spre exemplu, daca xm = 11,40, iar s = 2,7, vom avea:
V = (2,7/11,4)*100 = 23,68%
Interpretarea coeficientului de variabilitate se face în functie de valorile obtinute:
– daca coeficientul este cuprins între 0 si 15%, înseamna ca împrastierea datelor este foarte mica, iar media este reprezentativa, deoarece esantionul masurat este omogen;
– daca valoarea lui este între 15 si 30%, împrastierea datelor este mijlocie, media fiind înca suficient de reprezentativa;
– daca coeficientul depaseste 30%, media aritmetica nu este reprezentativa pentru esantionul în cauza, fiind recomandata utilizarea medianei din cauza lipsei de omogenitate a grupului.
OBSERVATIE: Acest coeficient este aplicabil doar în cazul variabilelor masurate pe scala de raport, cu origine naturala zero.
3.2. Sistematizarea si prezentarea datelor statistice
Sistematizarea constituie o etapă în cadrul prelucrării datelor statistice în vederea prezentării acestora sub formă de serie statistică (tabele statistice).
Datele obținute ca urmare a procesului de observare statistică, în forma lor brută, permit o caracterizare amănunțită a fiecărei unități din populația considerată. Deoarece, datele rezultate din observare se prezintă sub formă dezorganizată nu permit o caracterizare a populației în ansamblu.
În vederea atingerii scopului cercetării statistice întreprinse și anume acela de a da o caracterizare de ansamblu a populației considerate este necesar ca datele rezultate din observare să fie supuse unor operații de sistematizare și prezentare în vederea deducerii a ceea ce este esențial, tipic și general în legătură cu populația.
Deoarece în prelucrarea statistică primul pas îl constituie prezentarea datelor observate sub forma de serie (tabel), pentru construirea seriilor statistice se aleg variabilele care trebuie să fie în strânsă dependență cu scopul cercetării și cu natura fenomenului cercetat.
3.2.1. Quantile. Quartile. Decile. Centile. Box ploturi
Ansamblul quantilelor de ordinul k impart setul de date in k parti egale din punct de vedere al numarului de valori. Similar se definesc decilele si centilele, care impart setul de valori in 10, respective 100 de parti egale, care contin acelasi numar de date.
Quartilele impart setul de date in patru parti din punct de vadere al numarului de valori. Acestea prezinta cea mai mare importanta. Quartilele prezinta 5 ordine:
quartila de ordin 0 este identica cu valoarea minima inregistrata din sirul de date
quartila de ordin 4 este identica cu valoarea maxima
quartila de ordin 2 este identica cu valoarea medianei
quartila de ordin 1 este identica cu valoarea medianei elementelor cuprinse sub valoarea medianei
quartila de ordin 3 este identica cu valoarea medianei elementelor mai mari decat valoarea medianei centrale
In baza quartilelor se construiesc box ploturile. O diagramă de tip boxplot reflectă grafic rezumarea setului de date experimentale prin cele 5 valori a unei distribuții: valoarea minimă, prima quartilă, mediana, a treia quartilă și valoarea maximă. Pe aceste tipuri de grafice se poate reprezenta si limitele inferioare si superioare in afara carora datele se considera a fi aberante. Distanta dintre prima si a treia quartila se numeste interval interquartil (contine 50% din date). Limitele inferioara si superioara se stabilesc functie de acest interval interquartil D. Valorile aberante (care nu apartin populatiei) se considera a fi acele valori mai mari decat LS si mai mici decat LI.
D = q0.75 – q0.25
LS = q0.75 + 1.5 · (q0.75 – q0.25)
LI = q0.25 – 1.5 · (q0.75 – q0.25)
3.2.2. Impartirea datelor experimentale in clase
Operația de stabilire a claselor presupune împărțirea unităților unei populații în clase distincte în raport cu una sau mai multe variabile și aranjarea claselor rezultate într-o anumită ordine. În urma unei asemenea operații, fiecare unitate trebuie să se găsească în una și numai una din clasele rezultate. Această operație nu trebuie să conducă la pierderi de unități, modificand doar ordinea initiala de obtinere a adatelor experimentale.
Omogenitatea constituie o proprietate de bază pe care trebuie să o aibă clasele. Se spune că o clasă este omogenă dacă, pentru unitățile care fac parte din ea, variabila de grupare înregistrează variații nesemnificative.
Problemele care apar in impartirea pe clase a datelor sunt:
– determinarea lungimii intervalelor – de lungime egale
– de lungimi diferite
– stabilirea formei de scriere a acestor intervale
Stabilirea numărului de intervale de variație trebuie să asigure satisfacerea următoarelor condiții:
sa nu existe pierderi de informatie prin grupare, evitarea divizarii excesive a populatiei
media aritmetică a fiecărei grupe să fie cât mai aproape de centrul intervalului de variație respectiv
să nu existe grupe vide
reprezentarea grafică a seriei rezultate să permită conturarea unei regularități a fenomenului de studiat din cadrul populației. Trebuie remarcat că acest lucru nu este posibil nici în cazul unui număr mic de intervale deoarece se pierd prea multe date, nici în cazul unui număr prea mare de intervale, populația fărâmițându-se prea tare.
Statisticianul american H.A. Struges a stabilit, in cazul distributiilor normale, următoarea expresie de calcul a lungimii clasei, in cazul in care setul de date se imparte intr-un numar egal de clase:
(numarul de clase in care se imparte populatia de date este1+3,322 Lg(n). Seria de intervale de lungime egală după care se imparte sirul de date este:
Numeroase sunt cazurile practice în care studiul unei populații în raport cu o variabilă sau mai multe, presupune împărțirea domeniilor de variație ale acestora în intervale de lungime neegală. În asemenea cazuri nu există o relație de calcul în acest sens. Stabilirea intervalelor de variație se face în directă legătură cu variația variabilelor și distribuirea unităților în raport cu acestea.
Dacă la baza seriei în cauză stau două sau mai multe variabile calitative sau cantitative atunci clasele se stabilesc în raport cu fiecare din variabilele considerate prin stările acestora, in acest caz avem de-a face cu serii bidimensionale sau multidimensionale.
Nu este recomandat ca numărul variabilelor în raport cu care se studiază populația să fie prea mare, deoarece aceasta duce la o divizare exagerată a populației pierzându-se din vedere aspectele principale, generand pierderi de informatii.
După ce clasele au fost definite, are loc repartizarea unităților populației în clasele respective, folosind în acest scop un algoritm adecvat.
Pentru elaborarea și prezentarea seriilor statistice se apelează la pachete de programe statistice cum ar fi: S.P.S.S. (Statistical Package for the Social Sciences), STATISTICA, S.A.S. (Statistical Analysis System), STATGRAPHICS, etc.
3.2.3. Constructia histogramelor
Histogramele prezinta datele aparute cat si frecventele lor de aparitie si pot fi reprezentate si prin diagrame in care frecventele de aparitie ale datelor individuale se insumeaza. Pentru rezumarea datelor continue (reprezentări grafice), este necesară uneori gruparea datelor. Aceasta se realizează prin divizarea domeniului in care au aparut valorile individuale în intervale disjuncte, numite intervale de clasă (sau intervale de grupare), astfel încât fiecare valoare să fie conținută într-un interval de clasă.
Exemple:
seria 1 pentru sirul de date: 1,2,3,4,4,4, 5,6,7,8,9
seria 2 pentru sirul de date: 1,2,3,4,4,5,6,6,6,6,7,8,9
Figura nr. 3.2.3.1. Histograma datelor experimentale.
Figura nr. 3.2.3.2. Cumularea frecventelor pentru valorile masurate.
Prezentarea histogramelor sub forma profilului dreptunghiurilor se realizeaza prin construirea a cate unui dreptunghi pe fiecare interval (sau clasa) a carui inaltime este proportionala cu frecventa clasei (sau in cazul in care intr-o anumita clasa avem date care au frecvente diferite inaltimea dreptunghiului va fi dat de frecventa absoluta a clasei (a datelor din interval). Pentru cazul unei distributii normale a datelor populatiei, histograma prezinta aspectul clopotului lui Gauss. Pentru aceasta varianta de distributie, aspectul de clopot este dat de faptul ca se considera ca intr-o distributie normala numarul indivizilor clasei va fi cu atat mai mare cu cat clasa care-i contine este mai apropiata de clasa care contine valoarea medie aritmetica.
Cercurile de structura permit vizualizarea structurii datelor prin reprezentarea sub forma de sectoare de cerc a submultimilor populatiei de date. Aranjarea datelor in submultimi se poate realiza functie de o serie de caracteristici. Unghiul unui sector de cerc care caracterizeaza o anumita submultime va fi dat de procentul datelor cuprinse de submultimea respective care apartin polulatiei.
4. LEGI DE REPARTITIE
Prelucrarea statistica a datelor experimentale necesita cunoasterea legilor dupa care sunt repartizate aceste marimi. Probabilitatea ca variabila aleatoare x sa ia valori in intervalul (x1, x2) poarta denumirea de lege de repartitie si se exprima prin relatia:
Legea de repartitie care sta la baza metodelor de prelucrare a datelor de masurare este legea de repartitie normala, denumita repartitia Gauss.
4.1. Repartitia normala
In practica experimentala majoritatea variabilelor prezinta curbe de repartitie apropiate curbei Gauss. Presupunem ca realizam un numar infinit de determinari al unei valori aleatoare si notam valorile individuale cu x (unde variabila x variaza continuu). Frecventa valorilor gasite f(x) (probabilitatea de aparitie) variaza functie de x sub aspectul unei curbe Gauss. Suprafata de sub curba normala (Gauss) reprezinta suma probabilitatilor si este egala cu 1.
Functie de distanta fata de valoarea centrala (media aritmetica) probabilitatile de aparitie a unei date poate fi apreciata. Astfel:
domeniul x ═ xm ±s cuprinde 68.26% din valori dintre toate valorile posibile
domeniul x ═ xm ±2s cuprinde 95.46% din toate valorile posibile
domeniul x ═ xm ±3s cuprinde 99.73% din toate valorile posibile
Probabilitatea de 95% corespunde unui domeniu de ± 1.96s iar probabilitatea de 99% corespunde unui domeniu de ± 2.58s, unde s reprezinta abaterea patratica medie sau deviatia standard. Pentru un numar foarte mare de date, la limita, frecventa este egala cu probabilitatea. In acest caz putem defini frecventa ca fiind raportul dintre numarul de aparitie a valorii individuale x si numarul total al valorilor, iar probabilitatea se poate defini ca raportul dintre numarul cazurilor favorabile si numarul total al cazurilor posibile.
Expresia matematica a distributiei normale (functia care duce la obtinerea clopotului lui Gauss) este:
Consideram un grup de 100 de studenti care la o testare a cunostintelor tip grila, cu punctaj intre 0 si 100 realizeaza o medie de x ═ 70 de puncte cu abaterea patratica standard de s ═ 10 puncte. Pentru o distributie standard a rezultatelor avem 68 din studenti cu rezultate cuprinse intre 60 si 80 de puncte iar 95 dintre studenti au rezultate cuprinse intre 50 si 90 de puncte. Proprietatile distributiei normale ne permite sa calculam probabilitatile ca, spre exemplu, un student sa obtina un punctaj mai mare de sa zicem 90 de puncte, sau sa gasim probabilitatea ca un student sa obtina un punctaj cuprins intre 80 si 90 de puncte. Pentru a realiza aceste lucruri este necesar sa utilizam un caz particular al distributiei normale pentru care valoarea medie este 0 iar abaterea patratica standard este egala cu 1. Exista un tabel cu ajutorul caruia putem calcula ariile dintre valoarea medie 0 si o abatere patratica standard s impusa. Aceasta arie este rezultatul integralei functiei de repartitie unitare:
Sa calculam probabilitatea ca un student sa obtina un punctaj mai mare de 90. Pentru aceasta este necesar sa calculam aria aflata la dreapta valorii de 90. Tabelul ofera insa valoarea ariei aflate intre valorile xm si xm + z·s. Cum distributia normala este simetrica, inseamna ca aria aflata la drepta mediei este egala cu aria aflata la stanga mediei si egala cu 0,5 (deoarece aria distributiei normale este 1). Pentru a afla aria aflata la drepta lui 90 trebuie sa cautam in tabel aria cuprinsa intre valoarea medie de 70 si 90, apoi sa scadem aceasta arie din 0,5. Pentru a afla aria cuprinsa intre valoarea medie de 70 si 90, trebuie sa gasim valoarea lui z:
xm + z·s ═ 70 + z·s ═ 90, de unde obtinem:
z ═ (90 – 70)/10 ═ 2
Tabelul este organizat astfel: coloana din stanga cuprinde unitatile si prima zecimala dupa virgula a lui z iar prima linie cuprinde cea de-a doua zecimala pentru z. La intersectia liniei care contine unitatile si prima zecimala a lui z cu coloana care contine cea de-a doua zecimala a lui z se gaseste valoarea ariei cautate (valoarea de 0.4772). Aceasta este probabilitatea ca un student sa obtina un punctaj intre valoarea medie de 70 si 90 de puncte. Dar pe noi ne intereseaza probabilitatea ca un student sa obtina un punctaj mai mare de 90 de puncte, adica aria din dreapta lui z ═ 2. Pentru a o obtine nu avem decat sa scadem 0.4772 din 0.5 si obtinem probabilitatea de 0.0228. Datorita simetriei distributiei normale aceasta probabilitate ca un student sa obtina un punctaj mai mare de 90 de punte, in conditiile in care media realizata de catre toti studentiii a fost de 70 de puncte cu o abatere standard de 10, putem concluziona faptul ca aceasi probabilitate de 0.0228 o are un student de a obtine un punctaj mai mic de 50.
4.2. Indici de asimetrie si boltire a distributiei datelor
In urma analizarii diferitelor tipuri de seturi de date, se constata faptul ca forma histogramelor poate fi diferita de forma clopotului lui Gauss. Aceasta forma este cauzata de modul de repartizare a valorilor variabilei de o parte și de alta a valorii medii, considerată și centrul de greutate a seriei.
În marea majoritate a cazurilor, distribuția elementelor unei populații se face după un clopot (după legea normală a lui Gauss). Dar datele individuale nu se distribuie uniform în jurul valorii medii, ceea ce poate conduce la înclinații într-o direcție sau alta a valorii medii. Această distribuire neuniformă poate conduce la cazul când diferite serii (diferit distribuite în jurul valorii medii) să aibă aceeași medie, același σ (s) și totuși o curbă să fie mai aplatizată decât cealaltă, simetrică sau mai puțin simetrică. Evidențierea acestor diferențe poate fi realizată cu ajutorul parametrilor formei.
Parametrii formei unei serii de repartiție, după conținut, se clasifică în două grupe: parametrii asimetriei si parametrii boltirii.
4.2.1. Parametrii asimetriei
Asimetria unei serii se definește în raport cu dispunerea elementelor într-o parte sau alta a valorii medii. În acest sens, o serie de repartiție este simetrică în raport cu media sa dacă frecvențele valorilor variabilei X egal depărtate de valoarea medie sunt egale între ele, adică:
Coeficientul de asimetrie al lui Fisher
Acest parametru se notează cu α3, iar expresia sa de calcul este:
Calculând valoarea acestui parametru, în funcție de semnul ei, avem următoarele cazuri:
1. α 3 = 0, ceea ce înseamnă că suma tuturor abaterilor cu semnul minus este egală cu suma tuturor abaterilor cu semnul plus, ridicate la puterea a treia. Ca urmare în acest caz se poate spune că seria este simetrică.
2. α 3 > 0, ceea ce înseamnă că pe total suma abaterilor cu semnul plus de la valoarea medie este mai mare decât suma abaterilor cu semnul minus și ca urmare seria prezintă o asimetrie pozitivă.
3. α 3 < 0, deci < 0. Aceasta înseamnă că pe total, suma abaterilor cu semnul minus este mai mare decât suma abaterilor cu semnul plus de la valoarea medie. O astfel de serie se spune că reprezintă o asimetrie negativă.
4.2.2. Parametrii boltirii
Boltirea se refera la înaltimea curbei, comparativ cu cea normala. Se vorbeste astfel de distributii leptocurtice (cu cocoasa înalta) si platicurtice (mai aplatizate). Valorile pozitive indica distributii "înalte", leptocurtice, iar cele negative distributii "plate", platicurtice. Pentru a fi considerata normala, o distributie trebuie sa nu depaseasca intervalul de valoari de ±1,96σ. Indicatorul B (boltirea) se obtine cu ajutorul formulei:
Unde: xm este media; n este numarul de subiecti; iar S este abaterea standard.
Daca luam in considerarea doua seturi de date, de valori x si y, caracterizate de faptul ca au mediile si abaterile patratice standard egale si trasam diagramele distributiilor vom obtine doua clopote care vor avea boltiri diferite asemenea figurii de mai jos.
x
y
Valoarea medie cea mai reprezentativă în seria în care cele mai multe unități ale populației cercetate au înregistrat valori, mai apropiate de valoarea medie. Pentru o astfel de serie, împrăștierea față de valoarea medie fiind mică, graficul are o formă mai ascuțită în cazul seriei X și mai plată în cazul seriei Y.
4.3. Esantionarea. Distributia de esantionare. Intervale de incredere
In practica nu se pot face un numar infinit de determinari. In acest caz nu se poate caracteriza intreaga populatie ci numai o selectie (denumita esantion) alcatuita dintr-un numar limitat de determinari. Statistica matematica permite estimarea parametrilor intregii populatii pe baza unei selectii (sau a esantionului). Exista de asemenea, cazul in care in baza unei polulatii trebuie sa alegem un esantion care sa caracterizeze polulatia de la care s-a pornit sau exista alte cazuri in care avem doua esantioane de date si apare problema analizarii lor pentru a se stabili daca acestea apartin aceleasi populatii.
4.3.1. Tipuri de esantioane. Modul de esantionare
Esantioanele sunt clasificate in probabilistice (aleatoare) si neprobabilistice. Esantioanele neprobabilistice sunt obtinute in urma unor proceduri mai putin riguroase in ceea ce priveste alegerea indivizilor. Lipsa de rigurozitate se refera la faptul ca nu se asigura egalizarea sanselor fiecarui individ din cadrul populatiei de a face parte din esantion.
Pentru realizarea unei esantionari probabilistice trebuiesc asigurate doua caracteristici: asigurarea egalizarii sanselor de extragere a indivizilor din cadrul populatiei si faptul ca extragerea unui individ nu influenteaza sansele de extragere ulterioara a indivizilor. Pentru obtinerea unui esantion reprezentativ se utilizeaza mai multe procedee.
Metoda urnei Fiecarui element din populatie ii corespunde o bila. Toate bilele sunt introduse intr-o urna si dupa amestecare se extrag pe rand un numar de bile egal cu volumul esantionului. Pentru a asugura probabilitati de extragere egale pentru toate bilele, dupa fiecare extragere bila extrasa va fi reintrodusa in urna.
Metoda tabelelor cu numere aleatoare Procedura consta in generarea unor siruri de numere aleatoare si introducerea lor intr-un tabel. Apoi fiecarui element al populatiei i se atribuie un numar de la 1 la N. Cel care realizeaza selectia alege la intamplare un numar din sirul de numere aleatoare apoi cauta in populatia vizata elementul cu numarul de ordine respectiv. Acest element va face parte din esantionul probabilistic.
Metoda pasului In acest caz este nevoie de alcatuirea unei liste care sa contina toate elementele populatiei vizate, fiecarui element atribuindu-se un numar de la 1 la N. Dupa ce se stabileste pasul de esantionare (de obicei egal cu raportul dintre marimea populatiei N si marimea esantionului n) se alege la intamplare un numar din lista, dupa care incepand de la acest element este selectat in esantion tot al N/n –lea element din populatie.
Esantionarea prin stratificare este utilizata atunci cand cel care face esantionarea are motive sa creada ca populatia este neomogena, alcatuita din mai multe subpopulatii sau subgrupuri distincte, denumite tehnic straturi. Realizarea esantionarii presupune parcurgerea urmatorilor pasi: populatia este impartita in subpopulatii functie de un anumit criteriu deja cunoscut, dupa care este constitut un esantion care la randul lui va fi alcatuit din mai multe subesantioane (tot atatea cate subpopulatii stabilite anterior). In interiorul fiecarei subpopulatii elementele care vor fi introduse in subesantioane vor fi stabilite aleator.
4.3.2. Determinarea marimii esantionului
Determinarea marimii esantionului pe baza caruia sa se caracterizeze populatia de date se stabileste functie de nivelul de incredere care se urmareste a se realiza pentru datele caracteristice populatiei, obtinute in baza esantionului. Populatia care se urmareste a se caracteriza se considera a avea un grad maxim de neomogenitate, astfel incat statisticianul sa considere si cea mai nefavorabil caz.
Daca se cunoaste abaterea populatiei, numarul indivizilor din cadrul esantionului se poate determina prin impunerea unei anumite erori pentru esantion, in baza formulei:
Exista o serie de variabile denumite dihotomice care sunt caracterizate prin faptul ca au doua variabile posibile. (un exemplu de astfel de variabila ar fi prezenta: care poate avea valoarea 1 pentru prezenta si 0 pentru absenta). In aceste conditii calcularea mediei si abaterii standard ale acestor variabile se realizeaza in modul urmator:
Cu alte cuvinte media variabilei dihotomice este frecventa relativa de aparitie a valorii 1, sau probabilitatea de aparitie a caracteristicii studiate p. Abaterea se va calcula cu relatia:
In cazul in care se urmareste stabilirea marimii unui esantion al unei populatii dihotomice se porneste de la relatia de definire a abaterii pentru caracteristicile dihotomice si de la relatia de definire a erorii esantionului functie de numarul indivizilor din esantion. Relatia obtinuta in acest caz pentru stabilirea numarului de indivizi care sa caracterizeze populatia dihotomica este:
4.3.3. Distributia de esantionare
Pentru cazul in care realizarea esantionarii se face cu ajutorul metodei urnei apare intrebarea de ce este necesar reintroducerea in urna a bilei extrase. Raspunsul la aceasta intrebare este urmatorul: probabilitatea ca o bila dintre cele N sa fie extrasa este de 1/N. In cazul in care bila extrasa nu va fi reintrodusa in urna, probabilitatea de extragere a bilei urmatoare va fi de 1/(N-1). Cu alte cuvinte extragerile nu vor fi independente. Un esantion simplu este un esantion ale carui n observatii (elemente) sunt independente. Problema care apare in cazul esantionarii probabilistice este aceea ca esantionul sa descrie statistic populatia din care a provenit. Cat de mare este probabilitatea ca media esantionului sa aproximeze media populatiei, in conditiile in care esantionul respectiv este doar unul dintre totalitatea esantioanele pe care le putem extrage din populatia respectiva? Pentru a raspunde la aceasta intrebare este necesar introducerea notiunii de distributie de esantionare a mediei.
Pentru a exemplifica consideram o populatie care contine un numar mare de indivizi. Consideram marimea populatiei de N ═ 1.000.000. Populatia va avea media XP si abaterea standard SP si o distributie oarecare (nu neaparat normala). Presupunem ca extragem un esantion de n10 ═ 10 indivizi. In acest esantion vom avea media x10m si abaterea s10m. Distributia acestui esantion nu va avea nici o legatura cu distributia populatiei. Procedam la fel si mai extragem un esantion tot cu marimea de 10 indivizi. Vom obtine caracteristici noi si diferite si o distribuit diferita. Daca vom extrage toate esantioanele posibile care contin 10 indivizi vom obtine tot atatea valori ale mediei, abaterii patratice medii si distributii diferite. Distributia acestor medii se numeste distributia de esantionare a mediei si daca marimea esantionului este suficient de mare (minim 20) , atunci aceasta distributie de esantionare a mediei va avea totdeauna o forma normala tipic curbei Gauss, chiar in conditia in care distributia populatiei nu este de tip Gauss. Cu cat numarul de esantioane extrase este mai marte cu atat distributia mediei esantioanelor se va apropia mai mult de o distributie normala. Problema care apare este aceea de a stabili sansa ca esantionul extras de noi sa aiba o medie egala cu media populatiei sau apropiata de aceasta. Pentru a raspunde la aceasta intrebare este necesar sa apelam la teorema limita centrala care afirma ca distributia de esantionare a mediei pentru esantioanele simple aleatorii (probabilistice) este o distributie normala a carei medie este media polulatiei iar abaterea ei standard denumita si eroare standard este egala cu .
Valoarea medie a esantionului va apartine distributiei mediilor de esantionare diferind de aceasta prin marimea z·e. Adica:
(Xm)esantion ═(Xm)populatie + z · e
In baza acestei relatii putem determina valoarea lui z, iar cu valoarea lui z putem gasi probabilitatea ca media selectiei sa fie cuprinsa intre valoarea medie a populatiei si valoarea medie a selectiei.
Exemplu de calcul: Consideram o populatie de date constituite din rezultatele obtinute de catre toti studentii anului 2 la o analiza chimica efectuata cu aceesi metoda pe aceeasi proba omogena in conditii similare, pentru care media aritmetica este de 55 mg/L, cu o abatere patratica standard de 7.2 mg/L. Sa se determine probabilitatea ca selectand un esantion probabilistic de 9 studenti acestia, prin efectuarea aceleiasi analize pe aceeasi proba omogena in aceleasi conditii similare, o obtina o medie a rezultatului mai mare sau egala cu 50mg/L.
Rezolvarea problemei se realizeaza dupa urmatorii pasi:
1. Stabilim eroarea esantionului functie de eroarea populatiei:
E ═ SP/(N)0.5 ═7.2/3 ═ 2.4
2. Determinam valoarea lui Z din relatia de egalitate dintre valoarea medie a esantionului si suma dintre valoarea medie a populatiei si produsul dintre Z si abaterea esantionului:
(Xm)esantion ═ (Xm)populatie + Z · E
adica 50 ═ 55 + Z · 2.4 de unde obtinem Z ═ -2.08
3. Din tabelul Z probabilitatea ca rezultatul mediu obtinut de catre esantionul de studenti sa fie mai mare sau egala cu – 2.08 este probabilitatea ca rezultatul mediu sa fie mai mic sau egal cu 2.08. Din tabel pentru valoarea lui Z ═ 2.08 obtinem valoarea de 0.019.
4. Deci probabilitatea ca media rezultatelor analizelor efectuate de catre studentii din esantion sa fie mai mari sau egale cu 50 mg/L este de aproximativ 2%.
4.3.4. Intervale de incredere
In capitolul anterior am raspuns la intrebarea care este probabilitatea ca un esantion simplu aleator sa ofere rezultate mai mult sau mai putin apropiate de valorile populatiei. Acest lucru a fost posibil datorita cunoasterii parametrilor acestei populatii. In marea majoritate a cazurilor trebuie procedat altfel, in sensul in care cunoscand un esantion si caracteristicile acestuia sa putem desprinde informatii legate de populatia din care provine esantionul statistic. Pentru a evidentia acest lucru sa consideram urmatorul exemplu:
Pentru estimarea valorii medii a rezultatului analizei efectuate de catre toti studentii, consideram media aritmetica a unui esantion de 25 de studenti si am obtinut valoarea medie a esantionului de 50 mg/L. Problema care se pune este aceea de a estima valoarea medie a populatiei din care provine esantionul, deci de a obtine informatii despre populatia necunoscuta in baza esantionului cunoscut. Bineinteles ca rezultatul obtinut va fi afectar de eroare, din aceasta cauza el va trebui prezentat sub forma de A ± a mg/L. Despre populatia de baza se cunoaste doar abaterea patratica standard de 12 mg/L.
Reamintindu-ne despre proprietatile distributiei normale, ne aducem aminte ca in intervalul xm ± 1.96s se incadreaza 95% dintre rezultatele populatiei statistice. Consideram ca valoarea medie a populatiei se incadreaza cu o probabilitate de 95% in jurul valorii medii a esantionului de selectie.
Adica: P(xm – 1.96e < xp < xm + 1.96e) ═ 0.95
Estimam eroarea esantionului functie de eroarea populatiei si numarul indivizilor esantionului:
e ═ sp/(n)0.5 ═12/5 ═ 2.4
Deci obtinem urmatoarea relatie:
P(50 – 1.96 ·2.4 < xp < 50 + 1.96 ·2.4) ═ 0.95 sau
P(50 – 1.96 ·2.4 < xp < 50 + 1.96 ·2.4) ═ 0.95
P(45.296 < xp < 54.704) ═ 0.95
Deci se poate afirma faptul ca cu o probabilitate de 95% media populatiei se gaseste in intervalul 45.296 – 54.705 mg/L, interval denumit interval de incredere.
Pentru a prezenta rezultatul sub forma A ± a mg/L, corespunzator unui nivel de probabilitate vom considera egalitatea:
P(xm – z1/2 · e < xp < xm + z1/2 · e) ═ nivelul de incredere, sau
P(xm – z1/2 · 2.4 < xp < xm + z1/2 · 2.4) ═ nivelul de incredere, unde prin z1/2 am reprezentat valoarea din tabelul Z, corespunzator nivelului respectiv de incredere.
Deoarece statisticianul nu poate modifica nici valoarea medie a esantionului si nici eroarea patratica medie a acestuia, el va putea doar sa mentioneze limitele de valori intre care se gaseste valoarea mediei populatiei in functie de nivelul de incredere.
– adica cu o probabilitate de 95% valoarea medie a populatiei se va situa in intervalul:
45.296 – 54.705 mg/L sau 50 ± 4.704 mg/L sau 50 mg/L ± 9.408%
– similar, pentru o probabilitate de 68% valoarea medie a populatiei (in tabelul Z se determina valoarea lui z0.34 ═ 1, corespunzatoare probabilitatii de 68%/2) corespunzatoarea valoarea se va situa in intervalul:
P(50 –1 ·2.4 < xp < 50 + 1 ·2.4) ═ 0.68
adica 47.6 – 52.4 mg/L sau 50 ± 2.4 mg/L sau 50 mg/L ± 4.8%
Se observa restrangerea domeniului de incredere a rezultatului functie de scaderea nivelului de incredere (sau a probabilitatii de situare a valorii medii a populatiei in nivelul de incredere). Concluzia desprinsa este aceea ca exactitatea rezultatului variaza invers proportional cu nivelul de siguranta. Un nivel de siguranta mare (probabilitate mare) va implica o exactitate redusa si invers. Acest fapt nu este altceva decat o alta fata a principiului de incertidudine a lui Heisenberg.
3.4.5. Cazul esantioanelor mici. De la z la t sau de la distributia normala la distributia [anonimizat] am aratat cum se poate caracteriza o populatie de date in baza unui esantion in conditia in care cunoastem abaterea patratica medie a populatiei. Dar in marea majoritate a cazurilor cunoasterea abaterii populatiei nu este posibila. In acest caz vom pleca de la abaterea esantionului aplicand o largire a intervalului de incredere (in baza distributiei Student care se aseamana distributiei normale cu diferenta ca are un interval mai mare de distributie datorita considerarii unui numar mai mare de grade de libertate). Deosebit de utila este aplicarea acestei metodologii mai ales in cazul in care numarul indivizilor esantionului este redus (sub 120). Acest lucru consta in inlocuirea lui z cu t in rationamentul prezentat anterior.
Parametrul t denumit criteriul lui Student se obtine dintr-o forma tabelata, similara parametrului z. In tabelul care permite obtinerea criteriului lui Student prima coloana contine numarul gradelor de libertate ν iar prima linie va contine nivelul de semnificatie α. Numarul gradelor de libertate se defineste ca fiind mai mic cu 1 decat numarul indivizilor care alcatuiesc esantionul. Pentru n date experimentale care au media rezultatelor xm se considera numarul gradelor de libertate n-1, in baza rationamentului ca n-1 date pot avea valori variabile (deci diferite) cu exceptia valorii n impusa din conditia impunerii valorii medii. Nivelul de semnificatie reprezinta diferenta dintre 100 si probabilitatea impusa. Astfel pentru o probabilitate impusa de 95% nivelul de semnificatie corespunzator va avea valoarea de 5%.
In acest caz domeniul de imprastiere al mediilor de selectie in jurul valorii medii (a populatiei), functie de probabilitate sau nivelul de semnificatie, denumit si intervalul de incredere, este:
4.3.6. Testarea omogenitatii dispersiilor
Testarea omogenitatii dispersiilor de acelasi volum se poate face cu ajutorul testului Cochran. Acesta verifica daca dispersiile respective apartin populatiei generale. Se calculeaza valoarea coeficientului Gcalculat cu ajutorul relatiei de mai jos, iar valoarea acestuia se compara cu valoarea tabelata a lui Gtabelat, prezentat functie de numarul experimentelor distincte n si numarul gradelor de libertate ν ale acestor experimente.
Daca Gcalculat < Gtabelat se considera ca dispersiile fac parte din aceeasi populatie in caz contrat masuratorile din experimentul caracterizat de abaterea patratica maxima se elimina. Datele experimentale eliminate trebuiesc inlocuite prin efectuarea unui alt test de obtinere a datelor experimentale.
4.3.7. Compararea a doua esantioane. Raportul lui Fisher
In acest caz compararea a doua selectii consta in verificarea daca sunt distincte dpvd statistic, stabilindu-se daca apartin aceleasi populatii . Testul se aplica in conditia in care variabila respectiva are o distributie normala.
Practic se calculeaza raportul patratelor abaterilor patratice standard al celor doua esantioane astfel incat sa se obtina un numar subunitar.
< 1
Tabelele care contin raportul Fisher sunt functie de nivelul de semnificatie si aranjeaza datele functie de valorile gradelor de libertate pentru cele doua esantioane.
Daca Fcalculat < Ftabelat corespunzatoare nivelului de semnificatie de 5% (probabilitatea de 95%) se considara ca cele doua esantioane apartin aceleasi populatii.
Daca Fcalculat este situat intre Ftabelat 5% si Ftabelat 1% rezultatul este indoielnic, iar daca Fcalculat este mai mare decat Ftabelat 1% se poate spune cu certitudine ca cele doua esantioane au la origine populatii diferite.
5. ESTIMAREA PRECIZIEI SI EXACTITATII METODELOR DE ANALIZA. CONTROLUL CALITATII REZULTATULUI ANALITIC
5.1. Estimarea preciziei metodelor de analiza si controlul preciziei
5.1.1. Estimarea preciziei metodelor de analiza
Precizia unei metode de analiza masoara gradul de reproductibilitate al rezultatelor obtinute prin efectuarea a aceleasi analize, prin aceasi metoda, pe aceasi proba omogena in conditii similare de lucru. Cu cat valorile repetitiilor vor fi mai grupate in jurul valorii medii cu atat precizia va fi mai ridicata.
Precizia este o masura de indicare a erorilor intamplatoare, ea nu poate evidentia masura in care rezultatul este afectat de o serie de erori sistematice si nici nu poate garanta apropierea valorii rezultatului obtinut de valoarea sa reala.
Parametrul statistic care permite cuantificarea preciziei unei metode de analiza este abaterea patratica standard in valori absolute sau procentuale (coeficientul de variatie). Estimarea preciziei unei metode de analiza are la baza efectuarea mai multor serii de masuratori, masuratori efectuate in conditiile prezentate mai sus. Pentru estimarea preciziei putem proceda in mai multe variante functie de numarul masuratorilor:
1. se executa un numar sufiecient de mare de masuratori pentru care se calculeaza abaterea patratica standard (cu cat numarul acestora va fi mai mare cu atat rezultatul obtinut va fi mai reprezentativ)
2. se executa serii de cate doua determinari paralele pe probe de concentratii diferite (obtinute prin diluare), se calculeaza valorile medii pentru cele doua concentratii si se calculeaza abaterea patratica sub forma diferentei mediilor:
3. Se executa serii de mai multe determinari paralele (fiecare serie va contine acelasi numar de determinari) pe aceasi proba, se determina abaterea patratica standard pentru fiecare serie si se va considera ca precizia metodei este data de media aritmetica a abaterilor individuale.
5.1.2. Controlul preciziei
Controlul preciziei consta in compararea dispersiilor de selectie s12, s22,…, sn2 obtinute si in aplicarea testelor statistice pentru a vedea daca aceste selectii apartin aceleasi populatii de date.
In cazul in care se cunoaste pretecizia metodei (abaterea patratica standard a populatiei) problema se reduce in a arata faptul ca dispersiile selectiilor fac parte din aceasi populatie cu dispersia populatiei de date. Se foloseste testul χ2 procedandu-se in felul urmator:
Pentru fiecare selectie se calculeaza χ2c si se extrage din tabele valoarea corespunzatoare a lui χ2t funcie de probabilitatea impusa si numarul gradelor de libertate GL═n-1 (unde n reprezinta numarul indivizilor esantionului).
Daca χ2c < χ2t atunci se considera ca s-a lucrat cu precizia metodei.
In cazul in care nu se cunoaste precizia metodei (in marea majoritate a cazurilor) se poate proceda in doua variante:
se considera valoarea preciziei metodei ca o medie intre preciziile selectiilor si se procedeaza ca mai sus
se aplica testul Cochran, prezentat la 4.3.6.
5.2. Estimarea exactitatii
Exactitatea metodei arata gradul de apropiere al rezultatului metodei de analiza de valoarea reala a parametrului masurat. Trebuie mentionat faptul ca o metoda poate avea o exactitate deosebita dar o precizie slaba.
Estimarea exactitatii se poate realiza numai in conditiile cunoasterii rezultatului asteptat, acest fapt necesita utilizarea in analiza etaloanelor in care se cunoaste cu precizie maxima valoarea parametrului care urmeaza a fi identificat prin efectuarea analizei chimice.
Exactitatea este reprezentata de eroarea absoluta si eroarea relativa (procentual), care reprezinta diferenta intre valoarea reala si media valorilor datelor obtinute:
Ea ═ Cr – xm
Exactitatea unei metode de analiza este o masura a tuturor erorilor posibile care intervin in procesul analitic.
5.2.1. Controlul exactitatii
Pentru controlul exactitatii se poate utiliza testul Student (t). Folosind parametrii x si s ai unei selectii cu ajutorul testului Student se poate aprecia daca rezultatele obtinute sunt sau nu afectate de o eroare sistematica.
Un alt procedeu de control este testul Link si Walace. Testul este bazat pe amplitudine si se aplica pentru compararea mai multor selectii omogene care contin acelasi numar de indivizi, pentru care se cunoaste media, amplitudinea si abaterea (pentru testarea omogenitatii se aplica testul Cochran conform modului prezentat la punctul 4.3.6.). Testul Link care presupune satisfacerea urmatoarei inegalitati:
in care n este volumul selectiilor, Axm este amplitudinea valorii medii si Ax este amplitudinea selectiilor. Valoarea lui K se ia din tabel (functie de nivelul de semnificatie si de volumul selectiilor). Daca Kcalculat ≤ K se considera ca selectiile nu sunt afectate de erori sistematice.
In cazul in care dorim sa comparam o selectie omogena cu o selectie neomogena aplicam testul t, pentru care t este calculat in modul urmator:
5.3. Procedee de evidentiere a erorilor sistematice
Erorile sistematice reprezinta acele erori care cauzeaza devierea rezultatului obtinut fata de rezultatul real, in aceasi directie. Erorile sistematice pot fi sau nu proportionale cu intensitatea parametrului masurat. Determinarea erorilor sistematice se poate realiza cu utilizarea sau nu a etaloanelor.
Exista mai multe posibilitati de apreciere a influentei erorilor sistematice asupra rezultatului obtinut:
1. Metoda Student. In conditiile utilizarii etaloanelor se poate face o apreciere in baza criteriului Student.
Se executa o serie de determinari, se calculeaza valoarea medie aritmetica si conoscand valoarea reala se impune conditia ca aceasta sa fie cuprinsa in intervalul de incredere. Se calculeaza valoarea lui t si se compara cu valoarea lui t din tabelele Student, functie de probabilitate (95%) si numarul gradelor de libertate (egal cu n – 1)
Daca │tcalculat│ > ttabelat (pentru P ═ 95% si f ═ n-1) se considera ca rezultatul este afectat de erori sistematice.
2. Metoda reprezentarii grafice. Se va reprezenta grafic valoarea reala (Yi) functie de valoarea determinata (Xi). Se traseaza cu ajutorul metodei celor mai mici patrate dreapta cea mai probabila si functie de forma acesteia se pot aprecia influentele erorilor asupra rezultatului:
– daca se obtine dreapta y ═ x, rezultatul nu este afectat de erori
– daca se obtine dreapta y ═ x + a, rezultatul este afectat de o eroare sistematica constanta
– daca se obtine dreapta y ═ bx, rezultatul este afectat de o eroare sistematica proportionala cu valoarea parametrului masurat. Aceasta eroare este pozitiva su negativa dupa cum b <1, respectiv b > 1
– daca se obtine dreapta y ═ bx + a, rezultatul este afectat atat de o eroare sistematica constanta cat si de o eroare sistematica proportionala cu valoarea masurata.
3. Metoda adaosului standard de etalon. Procedeul are la baza efectuarea unei analize in prezenta si absenta odaosului unei cantitati de proba etalon, in care se cunoaste cu exactitate valoarea parametrului masurat. In baza acestui principiu al adaosului, se vor realiza analize pe volume diferite de probe in care se adauga cantitati diferite de etalon. In baza rezultatelor obtinute si a cantitatilor de etalon adaugate se va proceda similar metodei 2.
4. Metoda efectuarii analizei chimice in varianta utilizarii paralele a doua metode cu principii diferite. In acest caz se verifica daca media obtinuta cu o metoda difera semnificativ de media rezultatelor obtinute prin metoda paralela, in baza criteriului Student (t). In acest caz se va calcula tcalculat dupa formula de mai jos, si se va compara cu t (tabelat ), similar metodei 1. Daca │tcalculat│ > ttabelat (pentru P ═ 95% si f ═ n1 + n2 – 1) se considera ca rezultatul este afectat de erori sistematice.
Pentru evidentierea influentelor erorilor sistematice asupra rezultatului obtinut in analiza chimica, mai pot fi utilizate o serie de alte metode experimentale dintre care amintim: procedeul efectuarii analizelor repetate in conditii similare de catre mai multi analisti, metoda variatiei sistematica a unor factori din procesul analitic.
5.4. Controlul de calitate in analiza chimica
Pentru obtinrerea celor mai bune si sigure rezultate, care sa fie afectate in masura minima de erori, este necesar indeplinirea urmatoarelor cerinte:
– pregatirea de specialitate a personalului
– utilizarea unor metode de analiza standardizate, pe principii de masurare unanim acceptate
– utilizarea de reactivi si sticlarie de laborator la nivelul de calitate corespunzator
– reglarea si calibrarea optima a aparaturii de laborator utilizata
– realizarea unui control al calitatii in procesul analitic, control in care sunt implicate si metodele matematice statistice.
5.4.1. Diagrame de control
Diagrame de control a dispersiei rezultatelor individuale se utilizeaza in controlul preciziei de laborator. Pentru controlul preciziei analizelor chimice se efectueaza minim 20 de determinari aceasi proba, in conditii similare pentru evitatrea aparitiei erorilor. Pentru datele obtinute se calculeaza valoarea medie, si abaterea patratica standard si functie de acestea se traseaza anumite limite:
limitele superioare si inferioare de avertizare LSA si LIA:
LSA (LIA) = xm ± 2s
limitele superioare si inferioare de control LSC si LIC:
LSC (LIC) = xm ± 3s
Se construieste diagrama de control avand doua axe pe care se reprezinta ca origine valoarea medie, pe ordonata se traseaza limitele de avertizare si control iar pe abscisa se trec la distante egale cele minim 20 de determinari efectuate. Probele trebuie sa se incadreze intre limitele de avertizare. Ulterior construirii diagramei de control daca un rezultat al analizei efectuat pe aceeasi proba in conditii similare depaseste aceste limite de avertizare inseamna ca procesul analitic induce erori neadmisibile si trebuiesc luate masuri de remediere prin determinarea cauzelor perturbatiilor si eliminarea lor.
Utilizarea diagramelor de control are la baza ipoteza distributiei normale a rezultatelor in jurul valorii medii. Astfel probalilitatea de aparitie a unui rezultat in limitele de avertizare este de 95,45%, iar probabilitatea de aparitie a rezultatului intre limitele de control este de 99.70%.
5.4.2. Diagrama dubla de control medie si amplitudine
Pentru construirea unei asemenea diagrame este necesar obtinerea a minim 20 de perechi de rezultate (doua sau mai multe repetitii) si se procedeaza in felul urmator:
1. se construieste un tabel care sa contina urmatoarele coloane: ordinea perechilor de rezultate, urmatoarele patru coloane contin rezultatele perechilor de date obtinute, media arirmetica si amplitudinea perechilor de rezultate (diferenta dintre valorile de date perechi)
2. se calculeaza media aritmetica a mediilor aritmetice a perechilor de date si media aritmetica a amplitudinilor
Diagrama dubla de control medie – amplitudine va contine:
– o zona superioara in care se fixeaza limitele superioare si inferioare de control, respective de avertizare, calculate cu relatiile:
LSC ═ xm + A2 · Am
LIC ═ xm – A2 · Am
LSA ═ xm + 2/3A2 · Am
LIA ═ xm – 2/3A2 · Am
– in zona inferioara se construieste diagrama amplitudinii si se reprezinta limitele superioare si inferioare de control si limita superioara de avertivare, calculate cu relatiile:
LSC ═ D4 · Am
LIC ═ D3 · Am
LSA ═ Am[1 +2/3(D4-1)]
LIA ═ xm – 2/3A2 · Am
In relatiile de mai sus parametrii A2, D3 si D4 au valorile prezentate in tabelul de mai jos, iar n reprezinta numarul determinarilor paralele efectuate in fiecare serie de determinari.
Tabelul nr. 5.4.2.1. Valorile factorilor necesari construirii diagramei de control xm – A.
In interpretarea datelor in baza diagramei duble medie – amplitudine pot aparea urmatoarele 4 situatii:
5.5. Eliminarea datelor necorespunzatoare
5.5.1. Testul Irvin
Testul Irvin (sau λ), propus pentru prima data in anul 1925, se bazeaza pe faptul ca rezultatele dubioase sunt situate la extremitatile sirului ordonat al masuratorilor efectuate. In acset caz se calculeaza valorile lui λ pentru cea mai mica si pentru cea mai mare dintre valorile datelor experimentale:
Daca λ > λα,n atunci valoarea respectiva se elimina, fiind considerata necorespunzatoare. Valorile λα,n se gasesc tabelate in functie de nivelul de semnificatie si de numarul n al datelor experimentale.
Tabelul nr. 5.5.1.1. Valorile parametrului λ al testului Irvin.
5.5.2. Testul Romanovski
Pentru aplicarea testului Romanovski se calculeaza parametrii de sondaj xm si s fara a include valoarea suspecta xe:
Valoarea lui t astfel calculata se compara cu valoarea lui ttabelat (functie de n si nivelul de semnificatie). Daca t > ttabelat valoarea se considera gresita si se elimina din esantion.
Tabelul nr. 5.5.2.1. Valorile t, corespunzatoare testului Romanovski.
5.5.3. Testul Grups
Se calculeaza valoarea medie si abaterea patratica standard pentru toate marimile esantionului. Functie de valoarea tabelata a lui vp (dependenta de numarul de indivizi ai esantionului si de probabilitate) se calculeaza valorile minime si maxime acceptate care se compara cu valoarea minima, respectiv maxima din multimea datelor experimentale.
xnp ═ xm + s·vp
x1p ═ xm – s·vp
Tabelul nr. 5.5.3.1. Valorile vp, corespunzatoare testului Grups.
5.5.4. Testul Q sau testul Dixon
Trebuie sa mentionam faptul ca testul Dixon se aplica pentru un numar de date mai mic de 30
Formula generala utilizata la testul Dixon este:
, in care indicii A, B, C si D sunt functie de numarul datelor experimetale, prezentati in tabelul Dixon. Valoarea lui dix calculata se compara cu valoarea dix tabelata si astfel se stabileste daca valoarea extrema se elimina sau nu. (Daca valoarea calculata este mai mare decat valoarea tabelata aceasta se va elimina).
Tabelul nr. 5.5.4.1. Tabelul Dixon pentru eliminarea datelor necorespunzatoare.
6. Studiul relatiilor dintre variabile
In foarte multe situatii pot aparea cazuri in care se constata o oarecare legatura logica sau asemanare intre 2 sau mai multe variabile determinate. In acest caz se pune intrebarea daca intre acestea exista o dependenta, si daca da atunci care este forma si intensitatea relatiei, daca este posibila generalizarea rezultatelor si nu in ultimul rand cat de mult temei avem sa afirmam ca relatia este de tip cauzal (adica daca este posibila existenta unei variabile care nu a fost luata in calcul care sa determine relatiile dintre variabilele analizate).
Pentru a determina și măsura intensitatea legăturii între două variabile, precum și pentru a testa semnificația acesteia se pot utiliza mai multe tehnici, între care:
Analiza regresiei
Analiza corelației
Metode neparametrice
Metoda covarianței, metoda analizei dispersionale
Interdependențele existente între variabilele statistice pot fi deosebit de complexe. În analiza dependenței existente între o variabilă rezultativă (sau variabilă dependentă, variabilă efect, notată cu y) și una sau mai multe variabile cauzale (variabilele cunoscute, cauză, notate cu xi) se pornește de la următoarea întrebare: există o legătură logică între cele două variabile? Cu alte cuvinte, modificarea variabilei (variabilelor) cauzale (x) va determina o modificare în variabila rezultativă (y)?
Matematic, existența unei astfel de dependențe între variabila efect și n variabile cauzale poate fi formalizată astfel:
Y = f(x1, x2,….,xn)
Stabilirea unei relații exacte, a unei relații deterministe (funcționale) este de cele mai multe ori neconcordantă cu realitatea, deoarece variația unei caracteristici rezultative (y) este rezultatul acțiunii mai multor variabile cauzale (xi). Chiar dacă mai multe variabile cauzale sunt incluse în model, este improbabil că se va reuși predicția exactă a lui y. Cu siguranță, vor exista variații ale caracteristicii rezultative (y) cauzate fie de variabile importante, dar neincluse în model (de exemplu variabile ce sunt greu de depistat sau cuantificat), fie de variabile aleatoare, întâmplătoare (ce nu pot fi explicate sau prevăzute).
Aceste variabile nespecificate sunt luate în considerare în modelul probabilist sub forma erorii aleatoare e, modelul probabilist având următoarea formă generală:
Y = f(x) + e
Unde y = variabila dependentă (reziduală)
f(x) = componenta deterministă (funcția de regresie)
e = eroarea aleatoare
Legăturile existente între variabilele cauzală și rezultativă se pot clasifica după mai multe criterii.
A. Astfel, în funcție de numărul variabilelor factoriale (x) luate în considerare există
legături simple – se consideră că variabila rezultativă este determinată, în mod esențial, de o singură variabilă factorială;
legături multiple – se iau în considerare două sau mai multe variabile factoriale pentru a explica variația caracteristicii rezultative.
B. După direcția legăturii:
legături directe – variabilele factorială și rezultativă se modifică în același sens (o creștere/descreștere în variabila cauzală conduce la o creștere/descreștere în variabila rezultativă);
legături inverse – variabilele factorială și rezultativă se modifică în sens contrar (o creștere/descreștere în variabila cauzală conduce la o descreștere/creștere în variabila rezultativă).
C. După momentul de timp în care se realizează legătura:
legături sincrone (concomitente) – variabilele factorială și rezultativă se modifică în același timp;
legături cu decalaj (asincrone) – variabila factorială se modifică după un anumit timp (an, lună etc.) de la modificarea variabilei rezultative.
D. După tipul relației:
legături deterministe;
legături probabiliste.
E. După forma funcției (expresia analitică a legăturii):
legături liniare – variabila rezultativă depinde liniar de variabila cauzală;
legături neliniare – dependența dintre variabilele factorială și rezultativă se exprimă cu ajutorul unei curbe (ex: funcția parabolică, exponentiala, logistică etc)
6.1. Regresia liniara simpla
Cel mai des procedeu folosit in cazul in care variabilele sunt de tip cantitativ este analiza de regresie. In cazul bivariat cand este studiata relatia dintre o variabila dependenta si o singura variabila independenta regresia se numeste regresie simpla. Atunci cand este studiat efectul simultan al mai multor variabile independente asupra variabilei dependente regresia se numeste multipla. (multivarita sau multiliniara). In continuare vom arata cum sunt definite modelele de regresie liniara simpla, in ce fel putem interpreta coeficientii care descriu aceste modele, urmand ca in subcapitolul urmator sa prezentam modelele de regresie multipla.
Daca acceptăm că între variabilele Xi si Yi există o legătură directă de formă liniară, metoda regresiei ne permite sa estimăm parametrii funcției:
Estimarea parametrilor funcției de regresie se face cu metoda celor mai mici pătrate pe baza sistemului următor:
Acest sistem a fost obtinut prin impunerea egalarii cu zero a derivatelor partiale a functiei in raport cu parametrii a si b. Metoda celor mai mici patrate se utilizeaza in trasarea curbelor de calibrare pe domeniul liniar de variatie.
Parametru “b” se numește coeficient de regresie și exprimă sensul și mărimea influenței lui x asupra lui y. Dacă “b” este pozitiv arată o legătură directă; dacă “b” este negativ arată o legătură indirectă. Mărimea parametrului “b” arată cu câte unități se modifică variabila rezultativă la creșterea cu o unitate a factorului de influență.
6.1.1. Aprecierea calității funcției de regresie
Aprecierea calității funcției de regresie se poate realize cu ajutorul următorilor indicatori:
Eroarea standard (abaterea medie pătratică a valorilor teoretice față de cele reale) este folosită pentru a caracteriza funcția de regresie sau calitatea funcției de regresie:
.
Coeficientul de eroare cuantifică intensitatea variației în jurul funcției de regresie și poate fi considerat tot un indicator care arată calitatea ecuației de regresie:
.
Coeficientul de determinație reprezintă o altă modalitate de a caracteriza calitatea funcției de regresie (de regulă se trece în dreapta funcției de regresie):
6.1.2. Indicatorii corelației parametrice
Analiza corelației reprezintă, ca și regresia, un instrument de măsură a intensității legăturii dintre două variabile. Conceptul de corelație este strâns legat de analiza regresiei: dacă toate perechile de puncte (Xi, Yi) se află pe o linie dreaptă, corelația dintre variabilele X și Y este perfectă.
Corelația poate fi pozitivă sau negativă, funcție de natura legăturii dintre cele două variabile (legătură directă sau inversă).
Pentru a exprima intensitatea legăturii dintre variabile se pot utiliza următorii indicatori: covarianța; coeficientul de corelație; raportul de corelație.
Covarianța reprezintă o măsură absolută a intensității legăturii dintre variabile și se stabilește ca medie aritmetică a produselor abaterilor fiecărei variabile de la media sa: :
Dacă rezultatul este egal cu zero sau tinde către zero atunci între variabile nu există legătură statistică. Dacă rezultatul este pozitiv legătura dintre variabile este directă. Dacă rezultatul este negativ legătura dintre variabile este inversă. Valoarea maximă pe care o poate lua covarianța a două variabile este egală cu produsul dintre abaterea medie pătratică a celor două variabile și este întâlnită în cazul unei legături perfecte:
Coeficientul de corelație liniară, ca măsură a direcței și intensității legăturii dintre două variabile, se scrie ca raport între covarianța empirică, reală și valoarea maximă pe care o poate avea covarianța.
O formulă alternativă a coeficientului de corelație liniară este:
Acest coeficient ia valori între –1 și +1
a) O valoare pozitivă a coeficientului de corelație (r > 0) indică o corelație pozitivă, directă între variabilele x și y. Cu cât valoarea coeficientului este mai apropiată de 1, cu atât legătura dintre cele două varibile este mai puternică.
Un coeficient unitar (r = 1) indică o corelație directă perfectă, ceea ce înseamnă că toate valorile observate se găsesc pe o linie dreaptă, cu o pantă pozitivă.
b) O valoare negativă a coeficientului de corelație (r < 0) indică o legătură inversă între cele două variabile analizate. Cu cât valoarea este mai apropiată de –1, cu atât legătura dintre variabile este mai intensă; r = -1 arată o corelație negativă perfectă.
c) o valoare nulă a coeficientului de corelație (r = 0) sau apropiată de zero, indică lipsa corelației dintre variabilele x și y.
În practica se utilizează următoarele interpretări ale coeficientului de corelație:
, fie că nu există legătură, fie că legătura este foarte slabă;
, legătura este slabă și necesită aplicarea unui test de verificare
a semnificației statistice a acestei legături (testul Student);
, legătura este de intensitate medie;
, legătura este puternică;
, legătura este foarte puternică, cvasifuncțională.
6.1.3. Testarea semnificației coeficientului de corelație
Pentru a vedea dacă valoarea coeficientului de corelație este statistic semnificativă, se calculează testul t (testul Student):
unde n reprezintă numărul de perechi de valori observate.
Valoarea calculată se compară cu valoarea din tabele pentru un prag de semnificație (de regula = 0,05) și n-2 grade de libertate.
Dacă coeficientul de corelație este semnificativ, legătura dintre x și y nu este întâmplătoare.
Obsevație: Este foarte important să se testeze dacă coeficientul de corelație este senmificativ, doarece este foarte probabil ca orice pereche de variabile să aibă un coeficient de corelație diferit zero.
Chiar și atunci când se obține o valoare semnificativă, este important să se determine dacă există într-adevăr o legătură cauzală între cele două variabile analizate.
Raportul de corelație se utilizează pentru a caracteriza intensitatea legăturii dintre variabilele între care există o legătură curbilinie:
sau
Raportul de corelație ia valori între 0 și +1. Cu cât valoarea sa se apropie mai mult de 1, cu atât legătura dintre cele două variabile analizate este mai puternică.
Observație: În cazul corelației liniare, raportul de corelație = coeficientul de corelație liniară (în modul); această relație poate fi considerată ca un test de verificare a liniarității legăturii.
6.1.4. Corelația neparametrică
Corelația neparametrică se poate aplica atunci când una sau mai multe variabile analizate sunt numerice.
Variabilele numerice pot fi transformate in serii de ranguri (numere de ordine) sau in variabile alternative.
Metodele neparametrice cea mai des utilizate sunt:
coeficientul de corelatie a rangurilor Spearman;
coeficientul de corelatie a rangurilor Kendall;
coeficientul de asociere propus de Yule.
Coeficientul de corelație a rangurilor
Coeficientului de corelație a rangurilor reprezintă o metodă neparametrică de caracterizare a intensității și direcției legăturii dintre două variabile. Astfel, caracterizarea legăturii dintre variabilele x și y prin această metodă nu se realizează pe baza luării în considerare a valorilor variabilelor analizate ci presupune determinarea rangurilor corespunzătoare variabilelor considerate.
Utilizarea acestei metode se recomandă în special când cel puțin una dintre variabile este o variabilă calitativă, sau când variabilele nu au o distribuție normală sau asimptotic normală (iar distribuția lor nu este cunoscută).
Rangurile se obțin prin ordonarea caracteristicilor xi și, respectiv, analizate, astfel încât variantei ce înregistrează cea mai bună performanță îi va corespunde rangul “1”, celei de-a doua valori rangul ”2”, și așa mai departe până la rangul ”n” ce va corespunde variantei cu performanța cea mai slabă.
Dacă două observații înregistrează aceeași valoare, li se acordă același rang, calculat ca medie aritmetică a rangurilor asociate celor două poziții.
Coeficientul de corelație a rangurilor Spearman se determină pe baza relației:
,
unde: di – reprezintă diferența dintre rangul variabilei xi și rangul variabile yi, la nivelul unității de obervare i.
n – numărul perechilor de valori observate.
Acest coeficient este cuprins între –1 și +1. Cu cât valoarea sa este mai apropiată de unitate, cu atât intensitatea legăturii dintre variabilele x și y este mai pronunțată. Valoarea de +1, respectiv, -1 a coeficientului de corelație Spearman indică o concordață perfectă directă, respectiv, inversă între variabilele analizate.
6.2. Regresia limiara multipla
Modelul de regresie simpla este folosit pentru a descrie relatia dintre doua variabile cantitative. In cazul in care sunt disponibile date despre mai multi factori cu potential explicativ estimati prin variabile cantitative, este de dorit ca analiza sa cuprinda simultan toate variabilele. Utilizarea regresiei simple in acest caz poate duce la ignorarea unei variabile independente, sau prin aplicarea succesiva pentru fiecare dintre variabilele independente se pot obtine rezultate eronate.
6.2.1. Definirea modelelor de regresie multipla
Considerand Y variabila a carei variatie incercam sa o explicam si X1, X2, …… , Xm variabile cantitative, putem scrie urmatoarea relatie intre acestea:
Y ═ a + b1· X1 + b2· X2 +……….+ bm· Xm
Daca m═2 relatia poate fi descrisa grafic intr-un spatiu 3D.
Parametrii a, b1, b2, … , bm se pot determina aplicand metoda celor mai mici patrate.
6.2.2. Interpretarea modelelor de regresie multipla
Coeficientul bi numit panta variabilei Xi reprezinta numarul de unitati cu care variaza Ycalculat atunci cand Xi creste cu o unitate, iar celelalte variabile sunt mentinute constant. Asemeni pantei pentru cazul bivariant, coeficientii modelului de regresie depind de unitatile de masura a variabilelor independente din aceasta cauza nu pot fi utilizati pentru ierarhizarea variabilelor independente in functie de contributia fiecareia la explicatia variatiai variabilei dependente.
Pentru a descrie nu doar forma ci si intensitatea relatiilor liniare intre variabilele independente si variabila dependenta sunt folositi coeficientii de regresie standardizati. Pentru obtinerea acestora este necesar aplicarea modelului de regresie multipla pentru variabilele standardizate.
Standardizarea variabilei xi se realizeaza in modul urmator prezentat in continuare. Fiecarei valori xi se ataseaza valoarea standardizata zi aplicand formula de mai jos:
Rezultatul acestei transformari va fi variabila z care are totdeauna media 0 si abaterea standard egala cu 1. Putem spune ca unitatea de masura a noii variabile z este chiar abaterea strandard a variabilei x. Valorile z ne vor informa asupra distantei la care se gaseste o observatie fata de media seriei de date, distanta masurata in abateri standard ale variabilei originale x. Aceasta transformare nu modifica forma distributiei variabilei.
Coeficientii de regresie standardizati permit ierarhizarea variabilelor independente functie de importanta pe care o are fiecare in explicarea variatiei variabilei dependente printr-o relatie directa.
6.2.3. Eficienta unui model de regresie multipla
La fel ca in cazul bivariant, puterea explicativa a unui model multivariant poate fi evaluata cu ajutorul unor indicatori. Cel mai important indicator R2, numit coeficient de determinatie multipla se defineste cu ajutorul relatiei:
– daca R2═1 atunci valorile Y sunt complect determinate de valorile X.
– daca R2═0 nu inseamna neaparat ca intre variabilele X su Y nu exista relatii. Dependentele pot fi si de tip neliniar.
– cu cat numarul variabilelor independente este mai mare cu atat R2 se va aproia de valoarea 1
Anexa nr. 1. Valorile criteriului Student.
Anexa nr. 2. 1. Valorile raportului Fisher pentru nivelul de semnificatie α ═ 5%.
Anexa nr. 2. 2. Valorile raportului Fisher pentru nivelul de semnificatie α ═ 1%.
Anexa nr. 3.1. Testul de semnificatie Cochran pentru verificarea omogenitatii dispersiilor pentru nivelul de semnificatie α ═ 0.05
Anexa nr. 3.1. Testul de semnificatie Cochran pentru verificarea omogenitatii dispersiilor pentru nivelul de semnificatie α ═ 0.01
Anexa nr. 4. Tabelul z. Distributia normata standard (aria cuprinsa sub curba de distributie intre 0 si z.
Anexa nr. 5. Valorile parametrului χ2t functie de probabilitatea impusa P si numarul gradelor de libertate GL═n-1.
Anexa nr. 6.1. Valorile parametrului K pentru gradul de semnificatie de 0.05 (probabilitatea impusa P de 95%) functie de volumul selectiilor n si numarul selectiilor k.
Anexa nr. 6.2. Valorile parametrului K pentru gradul de semnificatie de 0.01 (probabilitatea impusa P de 90%) functie de volumul selectiilor n si numarul selectiilor k.
Copyright Notice
© Licențiada.org respectă drepturile de proprietate intelectuală și așteaptă ca toți utilizatorii să facă același lucru. Dacă consideri că un conținut de pe site încalcă drepturile tale de autor, te rugăm să trimiți o notificare DMCA.
Acest articol: Chemometrie (ID: 111565)
Dacă considerați că acest conținut vă încalcă drepturile de autor, vă rugăm să depuneți o cerere pe pagina noastră Copyright Takedown.
