Aplicații ale Statisticii Matematice în Biologie

Introducere

Matematica a câștigat și și-a menținut o poziție excepțională între științe pentru că rezultatele sale sunt obținute dintr-un număr mic de axiome printr-un lanț de raționamente. Deoarece este bazată pe o logică impecabilă, matematica furnizează științelor naturale un grad înalt de securitate care altfel nu poate fi atins. Din acest motiv, tratarea riguros matematică a acestora este de dorit și se realizează ori de câte ori e posibil. Mai mult decât atât, matematica este un mijloc de comunicare între oamenii de știință și ingineri de diverse specialități. Ca rezultat, dacă o anumită ramură a științei este prezentată în formă riguros matematică, accesibilitatea și audiența ei sporește.

Deși dezvoltarea biologiei nu a fost influențată în mod esențial de dezvoltarea matematicii, în ultimele decenii este recunoscută importanța completării studiului descriptiv al unor fenomene sau mecanisme biologice cu aspecte legate de prelucrarea și interpretarea datelor obținute. Cea mai avansată formă a folosirii matematicii în biologie este biologia matematică. Ea își propune modelarea matematică a proceselor biologice și studiului modelelor folosind metode specifice matematicii. Pentru construirea și validarea modelelor matematice se pot folosi cercetări specifice.

Statistica dezvoltă tehnici și proceduri de înregistrare, descriere, analiză și interpretare a datelor experimentale sau a rezultatelor obținute din observarea unui prices social, economi, biologic etc., precum și vizualizarea datelor folosind softuri dedicate acestui scop.

Cunoașterea unor elemente și principii de bază ale statisticii este importantă în momentul actual, permițând realizarea unor analize corecte a datelor și evitarea erorilor de interpretare a acestora. Strâns legată de statistica inferențială este teoria probabilităților, care furnizează metode și tehnici pentru stabilirea unor previziuni (inferențe statistice) referitoare la caracteristicile unei populații pornind de la rezultatele obținute din observarea unui eșantion al acesteia.

În cele ce urmează prezentăm unele noțiuni de bază ale statisticii matematice și ale teoriei probabilităților în descrierea unor fenomene simple ce apar in biologie și agricultură. Asocierea celor două domenii beneficiare ale matematicii nu sunt întâmplătoare, agricultura fiind în buna măsură biologie aplicată.

CAPITOLUL I

Noțiuni de bază ale statisticii matematicii

Statistica matematică se ocupă cu descrierea și analiza numerică a fenomenelor (sociale, economice, științifice etc). Statistica operează cu date care se pot colecta din surse existente sau se pot obține prin observații și studii experimentale.

Statistica matematică este una din ramurile moderne ale matematicii. La baza statisticii matematice stă noțiunea de probabilitate.

Ppornind de la cunoașterea modului de repartizare a frecvențelor statistica matematică își propune ca prin metode inductive să obțină informații referitoare la legile de probabilitate ale fenomenului care a produs frecvențele.

În cadrul analizei statistice a unui fenomen acționează mai întâi statistica formală sau descriptive, care se ocupă cu culegerea datelor asupra fenomenului respective și cu înregistrarea datelor.

Intervine apoi statistica matematică, cu ajutorul căreia datele sînt analizate și

interpretate.

1.1 Populația statistică

1.1.1Definiție. Numin populație sau colectivitate statistică, o mulțime bine definită de elemente, obiective vii sau material, concepte sau fenomene cu însușiri commune. O parte a populației se numește subpopulație.

O populație poate fi finită sau infinită. Numărul de elemente ale unei populații finite se numește volumul populației.

Elementele constitutive ale unei colectivități statistice se numesc indivizi sau unități statistice.

1.1.2 Definiție. Caracteristica populației este trăsătura comună a elementelor sale care care este supusă studiului statistic. Deoarece o caracteristică variază de la individ la individ, ea poate fi considerată ca o funcție , unde este populația statistică.

Caracteristicile statistice se clasifică în cantitative și calitative, ele se numesc atributive.

Numim selecție o subcolectivitate a colectivității cercetate, iar numărul elementelor selecției poartă numele de volumul selecției.

Daca volumul colectivității este mult mai mare decât volumul selecției atunci selecția nerepetată poate fi considerată ca fiind selecție repetată.

1.1.1 Observație. Problema centrală a statisticii matematice este stabilirea legii de probabilitate pe care o urmează caracteristica studiată. Din punct de vedere a teoriei probabilităților, o caracteristică a unei colectivități este o variabilă aleatoare ai cărei indicatori numerici, cum ar fi media, dispersia, se numesc teoretici.

Demersul statistic are două niveluri: descrierea statistică și statistica inferențială.

Statistica descrisptivă se ocupă cu înregistrarea, gruparea prelucrarea și prezentarea datelor obținute prin investigație și pe această baza descrie fenomenul studiat. În studiul statistic descriptive toate elementele populației sunt luate în considerație.

Statistica inferențială are ca obiect de studiu investigarea prin sondaj: din întreaga populație se selectează un eșantion reprezentativ asupra căruia se fac măsurători sau observații legate de o anumită caracteristică a populației. În realizarea unei cercetări statistice se parcurg de obicei următoarele etape:

-colectarea datelor care se realizează prin metode specifice obiectivului și condițiilor cercetării.

-procesarea datelor înseamnă cuantificarea lor numerică și obținerea seriilor de date.

-analiza datelor se realizează prin metode și tehnici specifice statisticii matematice. Această etapă necesită o cunoaștere profundă a filosofiei ce stă în spatele fiecărei metode deoarece este posibil să se obțină rezultate nesemnificative statistic atunci când ipotezele de lucru sau condițiile de aplicare a metodelor nu sunt îndeplinite.

-interpretarea rezultatelor este difertă în statistica descriptive și în cea inferențială. În primul caz se obțin informații concrete și clare despre populația studiată, în al doilea caz validarea rezultatelor obținute este realizata prin compararea cu ce se știa sau se bănuia în domeniul respective.

În unele situații analiza statistică dezvăluie corelații între fenomene, legături care ar fi fost greu sau chiar imposibil de observat fară eficientul mecanism statistico-matematic.

În momentul de față există o vastă informație statistică la nivel global, datorată în principal dezvoltării continue a tehnologiei calculatoarelor. Realizarea și folosirea corectă a bazelor de date reprezintă o preocupare importantă în mediul economic și nu numai.

1.2 Serii statistice și distribuții de frecvențe

Fie o populație statistică sau o selecție de volum cu o caracteristică care ia valorile . Astfel, dacă unele date ale selecției se repetă, notăm prin numărul de aparițiiale valorii numit frecvența absolută a valorii , unde .

1.2.1 Definiție. Mulțimea perechilor de valori se numește serie statistică, iar tabloul

se numește distribuție statistică sau empirică asociată caracteristicii a populației de volum .

1.2.2 Definiție. Tabelele distribuțiilor statistice pot fi completate și cu alți indicatori, cum ar fi frecvența relativă care se definește ca raportul dintre frecvența absolută și volumul selecției, deci:

și frecvența cumulată

Din definiția acestor doi indicatori rezultă faptul că

Menționăm că, în practică, uneori frecvența relativă se dă în procente, adică se înlocuiește prin .

1.3 Reprezentarea statistică a datelor statistice. Diagrame

O imagine mai sugestivă decât tabelele pentru fenomenele cercetate statistic o prezintă graficele, ele având o expresivitate mai mare a datelor statistice, mai ales pentru beneficiarii ce nu au o pregătire de specialitate.

Graficul unei serii statistice se numește diagramă.

Cazul seriilor pentru care caracteristica este măsurată cantitativ se întâlnesc în mod curent următoarele reprezentări grafice:

-reprezentarea cu segmente verticale;

-histograma cu bare;

-poligonul frecvențelor;

-alte tipuri de diagrame;

1.3.1 Reprezentarea cu segmente verticale.

Se folosește pentru serii cu un număr redus de date, de obicei numere întregi.

Pentru distribuția de frecvențe , reprezentarea cu segmente, este familia de segmente verticale ce unesc punctele de coordonate și unde .

1.3.1. Exemplu: Pentru reprezentarea cu segmente

verticale este prezentată în figura următoare:

Figura 1.3.1. Histograma cu segmente

1.3.2 Histograma cu bare.

Se foloseste pentru seriile cu un număr mare de date ce nu sunt neapărat numere întregi. Ea se realizează astfel:

-se determină valoarea minimă, și valoarea maximă a seriei de date.

-se divide segemntul prin puncte echidistante cu pasul.

unde n este numărul de intervale ales de analistul seriei.

-se calculează câte valori ale seriei aprțin fiecărui interval . Acest număr, notat , se numește frecvența clasei .

-deasupra fiecărui interval se trasează un dreptunghi cu baza , și înălțimea proporțională cu . Pentru determinarea înălțimii dreptunghiului se poate folosi formula

Obiectul fizic rezultat din alăturarea acestor dreptunghiuri se numește histograma cu bare a seriei de date sau histograma distribuției de frecvențe, pentru că ilustrează modul în care sunt distribuite datele.

Un exemplu de histogramă cu bare este dat în figura următoare:

Figura 1.3.2

1.3.3 Poligonul frecvențelor.

Poligonul frecvențelor unei serii statistice grupate în clase constă în unirea printr-o linie poligonală a punctelor de coordonate , , … , unde este mijlocul intervalului . În cazul reprezentării din Figura 1.3 poligonul de frecvențe, A, B, C, D, E este dat în figura de mai jos:

Figura 1.3.3. Poligon de frecvențe

1.3.4 Alte tipuri de diagrame.

Cele mai frecvent utilizate sunt dreptunghiuri, pătrate, cercuri sau sectoare de cerc.

Fie seria statistică .

1.Dreptunghiuri de structură. Se construiește un dreptunghi de arie direct proporțională cu volumul colectivității reprezentate iar aceasta se subdivide în subdreptunghiuri. Dacă este înălțimea dreptunghiului ce caracterizează întreaga colectivitate, atunci înălțimea dreptunghiului corespunzător clasei este:

unde este volumul selecției statistice studiate și frecvența relativă a clasei.

2.Diagrame pătrate. Considerând pătratul de latură corespunzător întregii colectivități statistice, avem

unde este latura pătratului corespunzător clasei . Construim apoi pătratele de latură fie succesiv, fie înscriind pătratele mici în cele mari astfel încât au un vârf și deci un unghi comun.

3.Diagrame prin sectoare de cerc. Considerăm aria cercului de rază , reprezentând volumul selecției , fiecare frecvență fiind reprezentată printr-un sector de cerc cu aria proporțională cu valoarea

pentru sectoare de cerc, respectiv

pentru sectoare de semicerc.

1.4 Indicatori statistici

1.4.1 Indicatori de poziție

1.4.1.Definiții. Dacă datele statistice primare, relative la caracteristica ale unei selecții de volum , sunt , atunci

1. media aritmectică este numărul , definit de relația;

Media aritmetică este sensibilă față de valorile extreme ale seriei, ea devenind nereprezentativă dacă termenii seriei sunt foarte împrăștiați.

2. media armonică , este inversul mediei aritmetice a valorilor inverse ale acestor date;

Media armonică se utilizează pentru exprimarea tendinței centrale în funcție de scopul cercetării și mai ales în funcție de natura obiectivădintre valorile variabilei numerice observate.

3. media geometrică , este numărul

Dacă cel puțin o valoare individuală este nulă sau negativă, calculul mediei geometrice este lipsit de sens. Ea nu poate fi folosită dacă în cadrul seriei există cel puțin un termen negativ, deoarece expresia devine imaginară.

Media geometrică mai este denumită și medie de ritm, find folosită pentru calculul ritmului mediu de creștere.

1.4.2. Definiție. Prin mediana notată a unei serii statistice , înțelegem valoarea care împarte datele statistice studiate, ordonate crescător în două părți egale.

1.4.3. Definiție. Se numește valoare modală sau dominanta a caracteristicii , valoarea corespunzătoare frecvenței maxime a seriei statistice.

1.3.1. Observații. Este posibil ca să aibă mai multe valori modale, caz în care caracteristica se numește plurimodală.

În cazul multor date statistice grupate în clase, se determină mai întâi intervalul corespunzător frecvenței maxime, (numit interval modal), fie acesta iar apoi, fie se ia media clasei, fie se determină valoarea modală astfel:

1.4.4. Definiție. Fie seria cronologică de momente cu termenii și intervalul dintre termenii . Prin media cronologică a acestei serii înțelegem numărul definit de relația

În cazul particular al intervalelor de timp egale cu unitatea avem

1.4.2 Indicatorii variației

1.4.5 Definiție. Indicatorii care dau o caracterizare precisă a unei serii statistice prin care se poate cunoaște variația valorilor individuale (cum se grupează aceste valori în jurul valorii medii, dacă sunt apropiate sau îndepărtate de această valoare), se numesc indicatorii variației.

1.4.6. Definiție. Numim dispersie de selecție, notată , a datelor statistice primare , numărul

unde este media aritmetică a acestor date.

1.4.7. Definiție. Prin abatere medie pătratică înțelegem , adică media pătratică a abaterilor de la medie.

1.4.8. Definiție. Numim coeficient de variație a caracteristicii , raportul dintre abaterea medie pătratică și valoarea medie a acestei caracteristici exprimată adesea în procente,

sau

1.3.2. Observație. Tot odată coeficientul de variație este un indicator al omogenității seriei statistice. Astfel ;

– dacă , aceasta arată că populația este omogenă;

– dacă , populația este relativ omogenă;

– dacă , populația este relativ eterogenă;

– dacă , atunci populația este eterogenă.

1.4.9. Definiții. 1)Prin abaterea medie absolută a distribuției statistice înțelegem numărul real

2) Prin asimetria lui înțelegem numărul

iar prin excesul lui , numărul real

1.3.3. Observație. În definiția indicatorilor de mai sus întâlnim momentele simple și momentele centrate de ordin , definite astfel:

respectiv

Observăm că momentul de ordinul întâi este valoarea medie , iar momentul centrat de ordinul doi, , este tocmai dispersia de selecție .

În practică, pentru calculul dispersiei se folosește formula

Coeficientul de variație se calculează astfel:

acesta are valori cuprinse în intervalul . El este cel mai sintetic indicator al împrăștierii.

CAPITOLUL II

Distribuții teoretice

Distribuțiile experimentale reprezintă estimații ale unor distribuții teoretice, definite de teoria probabilitățiilor.

Operația de asimilare a unei distribuții experimentale cu o distribuție teoretică poartă denumirea de ajustare.

1.2.1 Definiție. Ajustarea poate fi definită ca tehnica înlocuirii unui set de valori observate cu o ecuație sau cu o curbă continuă și netedă, în stare să prezinte o imagine cât mai apropiată de realitatea fenomenului studiat.

Pentru orice distribuție teoretică trebuie să se cunoască funcția de frecvență sau probabilitatea teoretică, funcția de distribuție sau probabilitatea totală precum și parametrii distribuției respective.

2.1 Noțiune de probabilitate

2.1.2 Definiție. Numim eveniment orice rezultat al unui experiment. Evenimentele pot fi sigure, imposibile sau întâmplătoare.

2.1.3 Definiție. Probabilitatea unui eveniment este raportul dintre numărul de cazuri favorabile producerii lui și numărul total de cazuri posibile .

dacă atunci eveniment sigur

daca atunci ⇒ eveniment imposibil

dacă atunci ⇒ eveniment întâmplător

Dacă notăm cu probabilitatea evenimentului contrar, atunci și .

2.2 Distribuția binomială

2.2.1 Definiție. Se numesc experiențe binomiale toate experiențele întâmplătoare care ne conduc la realizarea a două evenimente complementare.

2.2.1 Observație. Presupunem că avem o populație formată din unități din care unități posedă caracteristica , iar restul unități nu posedă această caracteristică. Atunci

, deci .

Din această populație se extrage o probă luând pe rând unități independente, astfel încât numărul de unități înaintea fiecărei extrageri să fie același. În aceste condiții, probabilitatea ca din numărul total de exemplare ale probei, unități să posede caracteristica este dată de funcția de frecvență a distribuției binomiale:

Funcția de distribuție a distribuției binomiale este dată de relația:

Parametrii distribuției se calculează astfel:

media aritmetică:

dispersia:

Pentru distribuția este simetrică. Cu cât diferența dintre și este mai mare cu atât se accentuează asimetria.

2.3 Distribuția Poisson

Distribușia POISSON reprezintă un caz particular al distribuției binomiale. Se întâlnește atunci când probabilitatea evenimentului este foarte mică, chiar și atunci când numărul observațiilor este mare.

2.3.1 Definiție. Funcția de frecvență este:

unde: 2,71828

λ- este singurul parmetru al distribuției, egal cu media aritmetică și în același timp cu dispersia.

x=numărul de unități statistice extrase din eșantion ce prezintă caracteristica cercetată.

Pentru avem iar pentru se folosește relația de recurență:

2.3.1 Exemplu:

2000 de arbori dintr-un arboret au fost analizați din punct de vedere al prezenței gelivurilor. În tabelul de mai jos sunt prezentate rezultatele observațiilor:

Media aritmetică (0,506) este foarte apropiată de dispersia distribuției (0,514) ceea ce arată că în acest caz este aplicabilă distribuția Poisson.

Cu formula calculăm:

Cu relația de recurență , calculăm:

2.4 Distribuția normală

Distribuția normală este foarte răspândită în natură. Apare ori de câte ori o caracteristică este supusă unui număr mare de influențe întâmplătoare, de slabă intensitate și totodată independente unele de altele.

2.4.1 Definiție. Funcția de frecvență este:

unde și reprezintă abaterea standard și media populației respective.

Funcția de frecvență a distribuției normale normate va fi :

unde , .

În aceste condiții media este egală cu 0 iar abaterea standard este egală cu unitatea. Distribuția normală este perfect simetrică, are un maximum și două puncte de inflexiune corespunzătoare absciselor și .

2.4.2 Definiție. Funcția de distribuție, corespunzătoare frecvențelor cumulate, este dată de integrala:

sau în abateri normate:

Dacă integrarea se face în limitele și funcția .

Integrarea in limitele 0 și u definește funcția lui Laplace:

Această expresie reprezintă suprafața de sub curba normală de la valoarea medie până la u.

2.5 Distribuția Charlier

2.5.1 Definiție. Distribuția Charlier este o distribuție normală generalizată ce ia în considerare asimetria și excesul.

2.5.2 Definiție. Funcția de frecvență este:

unde: este abaterea normată

este funcția de frecvență a distribuției normale normate

derivata de ordin III a lui

este derivata de ordin IV a lui

A-este asimetria

E-este excesul

Pentru A=0 și E=0 distribuția Charlier se transformă într-o distribuție normală.

Pentru calculul indicilor acestei distribuții se poate folosi procedeul momentelor:

2.6. Sistemul distribuțiilor Pearson

Sistemul distribuțiilor PEARSON se bazează pe ecuația diferențială:

unde și sunt parametrii ce se stabilesc pe baza datelor experimentale.

Sistemul de repartiții Pearson se determină pe baza indicilor de asimetrie și exces. Sistemul cuprinde în afară de repartiția normală, încă șapte tipuri de curbe diferite, numerotate de la I la VII.

Sistemul s-a aplicat la ajustarea repartiției numărului de arbori pe categorii de diametre.

2.7. Distribuția Beta

2.7.1 Definiție. Funcția de distribuție, corespunzătoare valorilor cumulate, este:

unde: a este limita inferioară a distribuției experimentale, iar b este limita superioară a distribuției experimentale iar sunt exponenții funcției Beta.

2.7.2 Definiție. Funcția de repartiție, se calculează cu relația:

deci funcția de repartiție devine :

2.8. Distribuția Meyer

Se utilizează frecvent în cazul distribuțiilor descrescătoare.

2.8.1 Definiție. Frecvențele teoretice se determină cu relația:

unde: reprezintă frecvențele teoretice;

este baza logaritmilor naturali (e= 2,71828)

și sunt parametrii funcției.

Pentru determinarea parametrilor ecuației, se logaritmează funcția de frecvență:

dar

În această relație se introduc frecvențele experimentale ale celor 2 valori extreme ale variabilei, rezultând un sistem de două ecuații cu două necunoscute: și

sau

Dacă în relația înlocuim: ; ; , aceasta devine:

care este ecuația unei drepte.

Parametrii și se pot determina și prin metoda celor mai mici pătrate, rezolvând sistemul de ecuații:

Cunoscând valorile și se poate determina , iar apoi, deoarece se pot calcula frecvențele absolute compensate .

2.8.1 Exemplu:

Într-un arboret plurien s-au inventariat arborii și au fost grupați pe categorii de diametre rezultând distribuția experimentală din tabelul următor.

Se cere să se ajusteze această distribuție experimentală după legea Meyer.

Ajustarea distribuției experimentale a numărului de arbori pe categorii de diametre după distribuția Meyer

CAPITOLUL III

Examinarea Semnificației

Semnificația

La fiecare extragere a unei probe dintr-o populație, se obțin alte valori pentru medie, frecvențe relative, coeficient de corelație, valori care se abat mai mult sau mai puțin față de valorile adevărate ale parametrilor populației.

Ipoteza nulă

Pentru a putea răspunde la problema semnificației se formulează inițial o ipoteză care în urma analizei va fi acceptată sau respinsă. Frecvent se folosește ipoteza nulă care constă în presupunerea că abaterea indicilor estimați față de parametri populației este zero.

Erorile în verificarea ipotezei nule sunt de două genuri:

-Erori de genul I;

-Erori de genul II;

Pentru a reduce erorile de genul I trebuie respinse numai ipotezele care se realizează cu o probabilitate mai mică de .

Pentru erorile de genul II probabilitatea de a accepta , cand de fapt ea este falsă, se notează cu , iar în practică se alege de obicei sau .

Teste de semnificație

Verificarea ipotezelor statistice se face cu ajutorul testelor de semnificație.

Frecvent utilizate sunt: testele de conformitate, testele de egalitate, testele de ajustare, testele de independență.

Clase de semnificație

În raport cu mărimea probabilității de transgresiune acceptată s-au format următoarele clase de semnificație:

3.1 Intervalul de încredere al mediei aritmetice

Intervalul de încredere al mediei în cazul distribuției normale:

Cazul I. Abaterea standard teoretică se cunoaște;

La extragerea mai multor probe intervine, în locul abaterii standard, eroarea standard a mediei aritmetice:

cunoscând că și mediile probei se distribuie tot normal, limitele intervalului de încredere vor fi:

. Probabilitățile de transgresiune sunt de respectiv .

3.1.1 Exemplu:

Într-un arboret de molid s-a determinat valoarea coeficientului de formă naturală, prin doborârea a cinci arbori. S-a obținut o valoare medie de .

Valoarea medie a coeficientului de variație a coeficientului de formă , cunoscută din cercetări anterioare, este de .

Pentru o probabilitate de transgresiune de , se cere să se stabilească între ce limite este cuprinsă valoarea adevărată a mediei coeficientului de formă.

iar valoarea standard a mediei este:

din tabelele, pentru

Media adevărată va fi între limitele adică

.

Cazul II. Abaterea standard teoretică nu se cunoaște.

În acest caz, limitele intervalului de încredere vor fi date de expresia:

Valoarea lui se determină din tabela distribuției student în funcție de probabilitatea de transgresiune urmărită și de numărul gradelor de libertate . În cazul unui mare număr de observații ; distribuțiile t și u sunt identice și intervalul de încredere va fi .

3.1.2 Exemplu:

Într-o cultură de plop euramerican, s-au măsurat 12 înălțimi ale unor exemplare alese la întâmplare, obținând următoarele rezultate:

din tabele, pentru și grade de libertate ⇒ intervalul de încredere al mediei va fi: .

3.2 Teste de conformitate

3.2.1 Definiție. Testele de conformitate servesc la compararea unor parametrii teoretici cu indicatorii unei probe. Prin intermediul acestor teste pot fi comparate mediile, varianțele, abaterile standard, coeficienții de corelație, coeficienții de regresie, etc.

3.2.1 Examinarea diferenței dintre o medie experimentală și o valoare dată.

Folosirea testului u

Testul u se aplică atunci când abaterea standard teoretică este cunoscută, când valoarea provine dintr-o probă normal distribuită de volum foarte mare.

Se dă: –media experimentală calculată în baza unei probe cu N observații extrasă dintr-o populație cu media necunoscută.

– media cunoscută a unei populații ce poate rezulta din considerații teoretice sau din observații anterioare.

– abaterea standard cunoscută

Se cere să se determine dacă între media și există diferențe, deci dacă este valabilă ipoteza

Se calculează astfel:

Dacă atunci diferența între cele două medii este semnificativă și ipoteza nulă se va respinge.

Folosirea testului t

Testul se aplică atunci când nu se cunoaște valoarea teoretică a abaterii standard și când numărul de măsurători este relativ mic

Se pune problema și în acest caz dacă între media eșantionului și media populației există sau nu diferențe, deci dacă este sau nu valabilă ipoteza nulă .

Raportul se distribuie după legea student și este tabelat în funcție de numărul gradelor de libertate și probabilitatea de transgresiune acceptată.

Limitele de încredere ale varianței

3.2.2 Definiție. Limitele inferioară si superioară ale intervalului de încredere, pentru o probabilitate de transgresiune , vor fi:

unde: este varianța rezultată din experiment;

este criteriul pentru probabilitatea

este criteriul pentru probabilitatea

este numărul gradelor de libertate

3.3 Teste de egalitate

3.3.1 Definiție. Testele de egalitate servesc la compararea unui anumit număr de populații prin intermediul unui număr egal de probe extrase din aceste populații.

3.3.1 Verificarea semnificației diferenței dintre două varianțe

Se verifică ipoteza nulă unde reprezintă varianțele teoretice corespunzătoare celor două varianțe experimentale .

Se calculează raportul dintre dispersia cea mai mare și dispersia cea mai mică:

grade de libertate al dispersiei mai mari ;

grade de libertate al dispersiei mai mici ;

Dacă ipoteza nulă se acceptă, diferența dintre cele două dispersii fiind considerată nesemnificativă. Varinațele fiind omogene se poate calcula o varianță comună, care se va apropia cel mai mult de varianța populației:

Dacă diferența dintre cele două dispersii este semnificativă.

3.3.2 Examinarea egalității mai multor varianțe

Se verifică ipoteza nulă

Bartlet a demonstrat că variabila întâmplătoare:

unde:

urmează aproximativ legea distribuției cu grade de libertate, k fiind numărul varianțelor examinate.

Se calculează empiric cu relația:

unde este varianța mediei ponderată.

Din tabele, în funcție de și de numărul gradelor de libertate , se obține .

Dacă se acoperă ipoteza nulă.

Dacă se respinge ipoteza nulă.

3.3.3 Distribuția abaterii standard

Abaterea standard, privită ca o variabilă aleatoare, atunci când numărul de observații este mare, are o distribuție aproximativ normală, cu media , unde și varianța: . Abaterea standard va fi: .

Limitele de încredere ale abaterii standard vor fi:

3.3.4 Examinarea semnificației diferenței dintre două medii

Fie și două sisteme de observații extrase randomizat din două populații normal distribuite, cu parametrii: și ; și .

Pentru fiecare probă se calculează indicii:

, cu grade de libertate;

, cu grade de libertate;

Diferențele formează asemenea o distribuție normală cu media:

și dispersia:

Compararea a două medii în situația când

Daccă verificarea ipotezei cu testul F, dacă aceasta este justă se trece la verificarea ipotezei .

Dacă această ipoteză este justă, atunci diferențele , formează o distribuție normală, cu media și cu varianța .

Raportul:

constituie criteriul prin intermediul căruia se examinează semnificația diferenței dintre cele două medii.

Dacă nu se cunoaște valoarea lui , parametrul se înlocuiește cu estimația .

Prin înlocuirea lui cu se va apela la testul :

Din tabele, în funcție de și , se obține .

Dacă se acceptă ipoteza nulă. În acest caz se poate calcula o medie ponderată:

Și o varianță comună:

Compararea a două medii în situația când

În acest caz se lucrează cu testul t.

Deoarece în acest caz testul t nu poate fi aplicat în mod obișnuit, se introduce o modificare la calculul gradelor de libertate. Astfel, în locul formulei

, intervine expresia:

Se parcurg următoarele etape:

-cu ajutorul testului F se verifică ipoteza

dacă , se respinge ipoteza , deci

-se calculează

-se extrage din tabele , în funcție de și de determinat mai sus.

Dacă ⇒ cele două medii se referă la populații distincte.

3.3.5 Compararea a două proporții

Pentru stabilirea semnificației diferenței dintre două proporții se utilizează testul u.

unde:

este proporția caracteristicii aflate în cazuri din eșantionul ;

este proporția caracteristicii aflate în cazuri din eșantionul ;

este proporția totală.

Pentru suficient de mare se poate renunța la corecțiile și de la numărătorul relației de calcul al lui .

Dacă diferența dintre propoții este semnificativă.

Dacă diferența dintre proporții este nesemnificativă.

3.3.6 Compararea mai multor proporții

Pentru stabilirea semnificației diferenței dintre mai multe proporții se utilizează testul hi pătrat determinat cu relația:

unde este proporția , dintre cazuri favorabile din numărul de observații , iar , este proporția medie.

Dacă diferența dintre proporții este semnificativă.

se determină din tabele, în funcție de probabilitatea de transgresiune și de grade de libertate, unde este numărul proporțiilor analizate.

CAPITOLUL IV

Analiza Varianței Și Corelației

4.1 Aspecte Teoretice

Asupra unei colectivități pot acționa simultan mai mulți factori care determină o anumită fluctuație a mărimii statistice studiate, flutuație redată printr-o dispersie care poate fi mai mare sau mai mică.

4.1.1 Definiție. Analiza varianței este metoda statistică de prelucrare a datelor de observație care depind de mai mulți factori cu acțiune concomitentă.

Analiza varianței are ca scop scindarea dispersiei totale în categorii de variații potrivit cauzelor care le determină.

Această variație reziduală este folosită ca unitate de măsură pentru examinarea semnificației celorlalte componente ale variației totale.

În acest scop se folosește testul :

-dacă factorul studiat nu influiențează caracteristica respectivă

-dacă factorul studiat are o influiență semnificativă

Dacă prin testul s-a constatat o influiență semnificativă a unor anumiți factori, se trece apoi la o analiză de detaliu, cu ajutorul testului , stabilindu-se între care varianțe există diferențe semnificative.

Analiza este aplicabilă atunci când:

varianțele probelor luate în considerare sunt omogene;

probele se formează randomizat;

varianțele reprezintă probe extrase din populații normal sau aproape normal distribuite;

numărul observațiilor este suficient de mare.

Analiza varianței poate fi:

simplă când valorile individuale se grupează după un singur criteriu;

dublă când observațiile se grupează după două criterii;

multiplă când în experimente intervin mai multe grupări.

4.2 Analiza simplă a varianței

4.2.1 Definiție. Analiza simplă a varianței constă în compararea mediilor mai multor colectivități statistice în ipoteza că dispersiile acestora sunt egale.

Observațiile se prezintă sub forma unui tabel:

Tabel 4.1

– numărul de repetiții pe variante

În baza datelor din tabel, se calculează:

suma totală a pătratelor abaterilor

dacă se îmlocuiește

unde C este denumit termen de corecție.

suma pătratelor abaterilor între grupe:

suma pătratelor abaterilor din interiorul grupelor:

varianța între grupe:

varianța reziduală:

testul F:

–numărul gradelor de libertate pentru varianța între grupe

–numărul gradelor de libertate al varianței reziduale

Desfășurarea calculelor este prezentată în tabelul următor:

Tabel 4.2

Valoarea teoretică a lui F se extrage din tabele, în funcție de –numărul gradelor de libertate al varianței mai mari și –numărul gradelor de libertate al varianței mai mici.

Dacă ⇒ ipoteza nulă se respinge și în acest caz, se trece la o analiză de detalui privind stabilirea semnificației diferențelor dintre grupe, analiză ce se face prin intermediul testului :

se calculează eroarea diferenței dintre varianțe, folosind varianța reziduală:

dacă numărul de observații (n) este același pentru toate grupele, relația devine:

se determină diferențele limită pentru diferite probabilități de transgresiune:

unde t se determină în funcție de grade de libertate.

Diferențele dintre media varianței și media varianței se compară cu diferențele limită calculate pentru diferite probabilități.

4.3 Analiza dublă a varianței

Valorile observate se grupează după doi factori A și B.

Metoda permite analiza influenței exercitate de cei doi factori A și B asupra caracteristicii luate în considerare .

Datele privind variația caracteristicii în raport cu factorii A, B se trec într-un tabel de forma: (tabelul 4.3)

Etape de calcul:

Se verifică omogenitatea varianțelor prin testul Hartley:

Dacă se trece la analiza dublă a varianței

Se calculează suma pătratelor abaterilor;

între varianțele factorului A

între varianțele factorului B

în interiorul grupelor

pe total

Se calculează numărul gradelor de libertate;

între varianțele factorului A ;

între varianțele factorului B ;

în interiorul grupelor ;

pe total ;

Se calculează varianța

între varianțele factorului A, B;

în interiorul grupelor;

Se calculează valoarea testului ;

pentru varianțele factorului A, B;

4.4 Testul rangurilor

4.4.1 Definiție. Testul rangurilor se bazează pe statistica:

unde: este suma rangurilor pentru grupa

este numărul observațiilor din grupa

este numărul total de obserbații.

Rangul se stabilește astfel:

– se face o clasificare a observațiilor după mărimea lor.

– cu 1 se notează observația cea mai mică, cu 2 observația următoare ca mărime, cu N se notează cea mai mare valoare.

– în cazul în care în seria de observații se întâlnesc două sau mai multe valori identice, rangul se va stabili calculând medii aritmetice de rang.

se compară cu , extras din tabele în funcție de probabilitatea acceptată și , unde este numărul grupelor comparate.

4.5 Analiza corelației

4.5.1 Definiție. Analiza corelației este o metodă prin care se cercetează și se exprimă existența, natura și intensitatea legăturilor dintre variabile, prin intermediul unor indicatori statistici.

4.5.1 Observație. Distribuțiile bidimensionale au două variabile:

, variabila independentă, stabilită arbitrar și considerată ca nefiind afectată de erori;

, variabila dependentă care se obține prin măsurători și care este afectată de erori.

Relațiile dintre două variabile pot fi:

relații funcționale , de exemplu ;

relații statistice ( corelații), la care pentru aceași valoare a lui , pot fi valori diferite pentru .

Corelația poate fi: simplă (când se referă la două variabile și ) sau multiplă (când asupra lui influiențează două sau mai multe caracteristici).

Corelația poate fi deasemenea, pozitivă (directă) sau negativă ( inversă), liniară sau curbilinie.

4.6 Metode de constatare a corelațiilor

Existența corelațiilor poate fi identificată cu ajutorul reprezentărilor grafice ( pentru ) sau cu ajutorul tabelei de corelație (pentru ). Cu cât axa mică a elipsei de corelație este mai mică comparativ cu axa mare, cu atât corelația este mai strânsă.

Tabela de corelație are două intrări: una pentru variabila independentă , alta pentru variabila dependentă . În tabel se trec datele de bază, grupate pe clase. Fiecare distribuție marginală are o medie și o abatere standard proprie.

4.7 Coeficientul de corelație

4.7.1 Definiție. Coeficientul de corelație teoretic

exprimă gradul legăturii liniare dintre cele două variabile.

Coeficientul de corelație indică gradul de împrăștiere al variabilei în jurul dreptei de regresie, redând totodată și intensitatea legăturii dintre cele două variabile.

Pentru calculul coeficientului de corelație se calculează abaterile standard și covarianța , după care se aplică formula:

Calculul se mai poate face, pentru valori negrupate în clase, cu relația:

iar pentru valori grupate în clase cu relația:

Se pot utiliza și momentele centrate de ordin II pentru seriile .

Seria z se obține făcând sumele pe diagonală în tabelul de corelație.

4.8 Examinarea semnificației coeficientului de corelație

4.8.1 Teoremă. Coeficientul de corelație , al probei, estimează coeficientul de corelație al populației din care a fost extrasă proba. Este necesar să se examineze dacă valoarea calculată a lui este reală sau se datorează doar unor erori de eșantionaj.

Demonstrație. Verificarea se face printr-un test de conformitate, verificând ipoteza nulă .

a)În toate cazurile când numărul de măsurători este mic și este apropiat de , se folosește transformarea:

Variabila are proprietatea de a se distribui normal, spre deosebire de valorile lui .

După transformarea de mai sus, se calculează statistica :

unde reprezintă eroarea valorii .

Dacă pentru probabilitatea de transgresiune acceptată, se acceptă ipoteza nulă. Corelația dintre variabile nu poate fi dovedită. Dacă corelația este dovedită.

În funcție de limitele de încredere a valorii :

se pot stabili și limitele de încredere pentru coeficientul de corelație .

4.9 Corelarea rangurilor

Metodele neparametrice fac abstracție de condiția cunoașterii anterioare a tipului de distribuție, condiție obligatorie în cazul metodelor parametrice, care nu pot fi aplicate decât pentru distribuții bidimensionale normal distribuite.

De asemenea, metodele neparametrice se pot aplica în cazul caracteristicilor calitative, deoarece nu operează cu valorile reale ale caracteristicilor ci cu rangurile acestora.

4.9.1 Definiție. Coeficientul de corelație a rangurilor indică intensitatea corelației și se calculează, cu relația:

unde reprezintă diferența de rang.

Rangul se stabilește astfel; se clasifică observațiile după mărimea lor, atât pentru șirul de observații cât și pentru șirul de observații .

Suma rangurilor, atât pentru variabila cât și pentru variabila , va fi:

unde , respectiv reprezintă rangurile.

Semnificația corelației de rang se stabilește comparând valoarea obținută cu valorile limită, alese în funcție de numărul gradelor de libertate și probabilitatea de transgresiune .

Capitolul V

Aplicații

1. Cantitaea de deșeuri organice produse la o fermă în decursul a 100 de zile consecutive a fost înrefistrată în tabelul de mai jos:

a) Să se completeze coloana frecvențelor relative;

b) Să se deseneze histograma cu segmente verticale asociată datelor din table.

c) Să se calculeze indicatorii de pozitie (media, mediana, modul) și indicatorii de împrăștiere (dispersia, abaterea standard și coeficientul de variație).

Rezolvare:

b) Histograma cu segmente este:

Figura 5.1. Histograma cu segmente a seriei de date pentru exercițiul 1

c)Indicatorii de poziție sunt:

– media

– mediana se calculează tinând cont ca sunt 100 termeni în serie. Dacă scriem termenii seriei în ordine crescătoare, repetându-i de atâtea ori cât indică frecvența absolută obținem , deci;

-modul este pentru că această valoare are cel mai mare număr de apariții.

Indicatorii de poziție sunt:

-dispersia:

-abaterea standard:

-coeficientul de variație:

2. Măsurătorile efectuate prin sondaj aleator asupra înălțimii a 50 de spice dintr-un lot de orz indică următoarele valori, date în tabelul de mai jos:

a) Să se facă gruparea datelor și să se determine frecvențele absolute și relative.

b) Să se reprezinte histograma.

c) Să se determine clasele de valori de lungime 0.3, să se determine frecvențele absolute ale intervalelor și să se reprezinte histograma cu bare.

d) Să se determine valorile centrale ale claselor, media, valoarea modală, mediana, dispersia și abaterea mediei pătratică.

Rezolvare:

a) Distributia de frecvențe a seriei de date este:

Frecvențele relative sunt date de:

b) Histograma este:

Figura 5.2. Histograma cu segmente a seriei de fate din exercițiul 2

c) Clasele sunt date în tabelul următor:

Histograma cu bare este:

d) Distribuția de frecvențe pentru care se calculează indicatorii este:

Media este:

Valoarea modală este:

Mediana este:

Dispersia este:

Abaterea medie patratică este:

Coeficientul de variație este:

deci datele sunt grupate în jurul valorii medii și media este un indicator relevant.

3. Într-o plantație de rășinoase, 20% din puieți sunt atacați de insecte. Cu ajutorul distribuției binomiale, să se stabilească probabilitatea ca dintr-o piață de probă de 5 puieți un număr de 0, 1, 2, 3, 4 sau 5 puieți să fie atacați.

4. Într-un arboret de larice s-au extras probe de creștere la 70 de arbori pe două direcții (Nord și Sud) ale aceleeași secțiuni transversale. Să se stabilească ce influență are asupra mediilor de selecție poziția de recoltare a probelor.

Cu ajutorul testului F se verifică ipoteza:

Deoarece se admite ipoteza potrivit căreia și se poate calcula o varianță comună:

Pentru și , se obține , mediile nu sunt estimații ale aceleeași medii a populației, deci poziția de recoltare a probelor de creștere influiențează puternic valoarea mediei a creșteriii.

5. Dintr-o îndelungată practică a cercetărilor, se cunoaște că varianța factorului de cubaj al lemnului de foc este de . La o nouă cercetare, efectuată asupra a 59 unități, a rezultat o abatere standard și o dispersie . Este oare semnificativă diferența dintre cele două varianțe la o probabilitate de transgresiune de ? Calculați și limitele de încredere pentru varianța , pentru o probabilitate de transgresiune de 5%.

R:

Calculăm:

Din tabele, pentru și

deci ipoteza este adevărată. Populația din care s-a extras proba are o dispersie mai mare decât cea cunoscută. Stivele din care s-au extras cele 59 de probe sunt mai puțin omogene în raport cu factorul de cubaj decât cele anterior studiate.

Limitele de încredere se calculează astfel:

Din tabele se ia baloarea lui pentru probabilitatea și

Se ia valoarea lui pentru probabilitatea și

Așadar, în 95% din cazuri, la repetarea experienței, ne putem aștepta la o varianță cuprinsă între 0.0084 și 0.0040. Limitele abaterii standard vor fi: și respectiv .

Bibliografie

1. Bălan V., Matematici Superioare Aplicate, Editura Universitaria, Craiova, 2007

2. Petrișor E., Probabilități și statistică, Editura Politehnica, Timoșoara, 2005

3. Biji E., M. (coordonator), Statistica managerială a agentului economic din agricultură, Editura Ceres, București, 1998

4. M. Iosifescu, Gh. Mihoc, R. Teodorescu, Teoria probabilităților și statistica matematică, Editura Tehnică, București, 1972

5. Văduva, I. (1970) Analiză dispersională. București, Editura Tehnică

Similar Posts