Biostatistica 1 [631798]

1 Testul ipotezei multiple – compararea mediilor mai multor
eșantioane ( Metoda ANOVA )

Presupunem că avem de determinat semnificația diferențelor dintre m
grupe independente de date. Făcând apel la cunoștințele deja prezentate, un
posibil răspuns a r fi să comparăm două câte două grupuri , în toate
combinațiile posibile (se va aplica testul t). Dacă am avea 10 loturi , atunci
numărul de teste ar fi combinări de 10 luate câte 2, adică
45!2)!210(!10
2102
10 


C
. Un nu măr destul de mare de va riante !

Ținând cont de performanțele actuale ale sistemelor informa tice, nu
aceasta ar fi problema ! Dacă privim tema în discuție, în termeni ai
probabilității de a avea o eroare, atunci iată că procentul de 5% ar însemna în
cazul nostru aproximativ 2 teste greșite din cele 45 (așa zisa eroare de tip I
este prezentă aici și constă în a accepta greșit existența diferenței
semnificative între două grupe, când în realitate aceasta nu există).

Ideea de a elimina această posibilă eroare se bazează pe crearea unui
singur test pentru a compara cele m grupe de date simultan.

Prin analiza varianței numită ANOVA (analysis of variances ) se aplică
un singur test, ce respectă o statistică de tip Fisher pentru determinarea
semnificației diferenței dintre mediile eșantioanelor.

Presupunem că avem m grupe de date, fiecare grup j având nj elemente.

Notăm un element din întregul set de valori cu xij, unde i reprezintă
poziția elementului din grupu l j.
Astfel , i variază de la 1 la nj, iar j de la 1 la m.

Ipoteza nulă H0 se definește astfel :

H0 :
m j  … …2 1 , iar ipoteza alternativ ă,

H1: Există cel puțin două grupe de medii diferite .

Aceasta înseamnă că
 , cu pentru care
l k .

2
În figura alăturată este prezentată componența loturilor de studiu.

Grupele de date de comparat

Ca ipotez e de lucru, se presupune că :

i) fiecare grup de date este distribuit normal ,
ii) iar dispersiile sunt egale între grupuri.

Aceste presup uneri trebuie verificate ; în caz contrar, testul ANOVA
nu poate fi aplicat !

Numărul total de elemente n poate fi calculat cu for mula următoare ,
ținând cont de cele m grupe :

m
jjn n
1 (j este numărul de grupe).
Media totală a tuturor valorilor este :
nx
xjiij
, , deci suma tuturor
elementelor raportată la numărul total de elemente.

Putem calcula media totală și ținem cont de valoarea mediei fiecărui
grup astfel:

Notăm media grupului j cu
jx . Acest grup are nj elemente.

Avem în final media totală:
nxn
xjj j
 .

Variația variabilei aleatoare X de interes este măsurată convențial în
termeni ai deviației față de valoarea medie (
x xij ).
x1
x2

xn1
Lotul 1
Medie
x1
x2

xnj
Lotul j
Medie
x1
x2

xnm
Lotul m
Medie

3
Suma totală a pătratelor deviațiilor este ( total sum of square ):

jiijx x SST
,2
.
Putem scrie suma deviației astfel (adăugăm și scădem
jx ):
xx xxxxj j ij ij 
.

Folosind teorema lui Cochran se poate demonstra că prin sumare și
ridicare la pătrat se păstrează egalitatea:

   
jij
jij ij
jiij xx x x x x
,2
,2
,2
.

Ținând cont că ultima sumă depinde numai de numărul de grupe de
comparat ( j):

   
jj j
jij ij
jiij xxn x x x x2
,2
,2
.

Aceste variații reprezintă:

 Suma totală a pătratelor deviațiilor:

jiijx x SST
,2
.
 Suma pătratelor deviațiilor între grupuri ( sum of square between ):

jj j x xn SSB2
.
 Suma pătratelor deviațiilor în grupuri ( sum of square within ):

jij ijx x SSW
,2
.

Avem egalitatea: SST = SSW + SSB .

Deducem astfel, că există două surse de variație , între grupuri și în
cadrul grupurilor . Raportul mediilor acestor două surse de variație respectă
(în cazul presupunerilor de repartiții normale și dispersii egale) o distribuție
de tip Fisher. Aceasta este statistica de analizat în studiul de tip ANOVA.

4 SSB – reprezintă o distribuție de tip Chi pătrat, cu m-1 grade de libertate.

SSW – reprezintă o dis tribuție de tip Chi pătrat, cu n-m grade de libertate.

Putem calcula mediile:
1mSSBMSSB , respectiv
mnSSWMSSW .

Statistica Fisher se obține prin raportul
MSSWMSSBF .

Aceasta va avea m-1, respectiv n-m grade de libertate.

Pentru interpretare se calculează valoarea F prin raportul prezentat mai
sus și se compară valoarea acestui raport cu valoarea tabelată (valoarea
critică) corespunzătoare gradelor de libertate determinate și unui nivel de
semnificație standard de 5% (0,05).

Dacă valoarea calculată este mai mare decât cea tabelată, rezultă că
mediile nu sunt egale și există cel puțin două grupe cu diferență
semnificativă statistic.

Dacă se calculează valoarea semnificației, aceasta se va compara cu
valoarea 5%. În situația în care este mai mică atu nci există diferență
semnificativă statistic.

Menționăm că testul ANOVA , în cazul existenței diferenței
semnificative , are dezavantajul de a nu putea prezenta care sunt grupurile ale
căror medii diferă.

Această metodă este optimă în situația în care nu avem diferenț ă
semnificativă între grupe , deoarece am realizat un singur test pentru m grupe
de comparație.

Exemplu numeric de calcul

Pentru a minimiza calculele necesare realizării testului ANOVA vom
considera că avem trei grupuri cu câte 4 valori fiecare. Valorile sunt afișate
în tabelul următor.

5
Valorile grupelor de comparat:

Grupul
A Grupul
B Grupul
C
2 2,9 2
2,5 3,2 2,1
3 3 2,6
2,7 3,1 2,3

Calculând mediile celor 3 grupe de date obținem:
55,21x ;
05,32x ;
25,23x
. Media pe toate grupurile este
616,2x .

Valoarea SSW este: SSW = (2 -2,55)2 + (2,5 -2,55)2 + (3-2,55)2 + (2,7 –
2,55)2 + (2,9 -3,05)2 + (3,2 -3,05)2 + (3-3,05)2 + (3,1 -3,05)2 + (2-2,25)2 + (2,1 –
2,25)2 + (2,6 -2,25)2 + (2,3 -2,25)2 ; SSW = 0,79.

Valoarea SST este: SST = (2 -2,616)2 + (2,5 -2,616)2 + (3-2,616)2 + (2,7 –
2,616)2 + (2,9 -2,616)2 + (3,2 -2,616)2 + (3-2,616)2 + (3,1 -2,616)2 + (2-2,616)2
+ (2,1 -2,616)2 + (2,6 -2,616)2 + (2,3 -2,616)2 . Efectuând calculele ob ținem :
SST = 2,09.

Valoarea SSB o calculăm ca diferența celor d ouă și obținem :
SSB = 1,30.

Se vor calcula mediile prin raportarea sumelor pătratelor diferențelor la
gradele de libertate și în final , se va determina valoarea statisticii Fisher.

Pentru continuarea calculului putem realiza tabelul de mai jos (tabelul de
mai jos este cuprins în toate programele de analiză a varianței ANOVA,
acestea calculează de asemenea și nivelul de semnificație , notat p).

6 Tabelu l de calcul pentru testul ANOVA
Sursa de
variație Suma
pătratelor
SS Grade de
libertate
df Media SS
MS Statistica
Fisher
F
Between
Groups 1.306666667 3-1 = 2 0.653333333 7.443037975
Within Groups 0.79 12-3 = 9 0.087777778

Total 2.096666667 11

Valoarea statisticii Fisher corespunzătoare tabelată este
F(2; 9; p=5%)=4,256 .

Valoarea cal culată fiind mai mare decât valoarea tabelată (valoarea
critic ă), deducem că mediile diferă semnificativ, dar nu cunoaștem efectiv
care dintre acestea sunt diferite.

Programele de calcul și analiză statistică determină și valoarea
semnificației, notată cu p.

Dacă valoarea acesteia este mai mică de 0,05 , atunci mediile diferă
semnificativ.

Similar Posts