Statistic ă multivariat ă [631789]
Statistic ă multivariat ă
Lucrarea nr. 8 — Regresia liniar ă multiplă
– Excel, SPSS –
A. Noțiuni teoretice
Regresia liniar ă, prin metoda celor mai mici p ătrate, este metoda de modelare
cea mai des utilizat ă. Este metoda denumit ă “regresie”, “regresie liniar ă“, “regresie
multiplă” sau “cele mai mici p ătrate” atunci când se construie ște un model.
Scopul regresiei multiple (termen utili zat de Pearson, 1908) este de a eviden ția
relația dintre o variabil ă dependent ă (explicat ă, endogen ă, rezultativ ă) și o mulțime de
variabile independente (explicative, factoriale , exogene, predictori). Prin utilizarea
regresiei multiple se încearc ă, adesea, ob ținerea răspunsului la una dintre întreb ările:
“care este cea mai bun ă predicție pentru …?”, “cine este cel mai bun predictor
pentru …?” .
De reținut că metoda regresiei multiple este generalizat ă prin teoria
“modelului liniar general”, în care se permit mai multe variabile dependente simultan
și, de asemenea, variabile factoriale care nu sunt independente liniar.
Clasa modelelor liniare poate fi exprimat ă prin
y = x α + ε
unde
• y este variabila dependent ă (explicat ă, endogen ă, rezultativ ă),
• x este vectorul variabilelor independente (explicative, exogene), de
dimensiune 1×p,
• α este vectorul coeficien ților, de dimensiune p×1, parametrii modelului,
• ε este o variabil ă, interpretat ă ca eroare (perturbare, eroare de m ăsurare
etc.).
Cu alte cuvinte,
y = α1×1+α2×2+…+ αpxp+ε
care exprim ă relația liniară dintre y și x.
Observații. 1. Liniaritatea rela ției se refer ă la coeficien ți și nu la variabile.
Astfel, modelul
ε α α α + + + =
33 2 22
111 y xx x
este tot un model liniar.
2. Considerând c ă x1 este constant egal ă cu 1, se ob ține un model liniar care
include un termen constant (termenul liber al modelului).
3. Pentru p = 2 și x1 ≡ 1 se obține modelul liniar simplu, dreapta de regresie.
4. Utilitatea principal ă a unui model liniar este aceea a predic ției valorii lui y
din valorile cunoscute ale variabilelor x.
Presupunem c ă avem un set de n observații efectuate asupra variabilelor
implicate în model. Prin urmare dispunem de ( xi1, xi2, . . . . , xip, yi), i = 1, 2, . . . , n.
Notând cu y vectorul de tip n×1 având drept componente valorile m ăsurate pentru
variabila y, cu X matricea ( xij)n×p a valorilor m ăsurate pentru variabilele x și cu ε
vectorul de tip n×1 având drept componente valorile erorilor, modelul se rescrie în
relația matriceal ă:
y = Xα + ε
Ipoteze ini țiale. În tot ceea ce urmeaz ă se presupun îndeplinite ipotezele:
1. Matricea de experien țe, n observații pentru p variabile, este fixat ă: Xn×p nu
este stohastic ă. În plus, n >> p.
2. X este de rang p (coloanele sunt liniar independente – formeaz ă o bază a
unui spațiu vectorial p-dimensional).
3. a. Vectorul de perturba ții (n-dimensional) ε constă din n variabile
aleatoare independente cu media 0 și aceeași dispersie:
Exp( ε) = 0
Var(ε) = Exp( εε') = σ2In , unde σ2 este un parametru necunoscut,
sau,
b. Vectorul ε este o v.a. n-dimensional ă normală
ε ~ N(0, σ2In ).
De remarcat c ă ultima ipotez ă, a normalit ății, este, mai degrab ă, o ipotez ă
simplificatoare decât una restrictiv ă, cum sunt primele dou ă. Aceasta deoarece erorile
se datoreaz ă, în general, în procesele studiate, ac țiunilor simultane ale unor factori
aleatorii, ceea ce prin teorema de limit ă centrală conduce la concluzia c ă ε, ca sumă a
lor, tinde spre o reparti ție normal ă.
Problemele principale urm ărite sunt:
• estimarea coeficien ților α,
• calitatea estim ării,
• verificarea ipotezelor,
• calitatea predic ției,
• alegerea modelului.
Estimația prin cele mai mici p ătrate
Numim estimație (ajustare) a modelului orice solu ție {a, e} a sistemului
y = Xa + e.
Este de remarcat c ă sistemul con ține n ecuații și p + n necunoscute, deci
admite o infinitate de solu ții.
Numim estimație prin cele mai mici p ătrate , acea solu ție a care minimizeaz ă
suma pătratelor erorilor ei, adică
∑ ∑
= =++ + − =n
iipp i i in
ii xa xa xa y e
12
22 11
12)] ( [ K .
Cum ee′= ∑=2
12
i ie este o func ție de coeficien ții a, o condiție necesar ă pentru
atingerea maximului este
0)( =′
∂∂eea.
Se obține
a = (X'X)-1X'y
și se demonstreaz ă că este îndeplinit criteriul de minim și că este singura valoare cu
această proprietate adic ă valorile determinate reprezint ă estimația prin cele mai mici
pătrate a coeficien ților modelului liniar.
Ecuația
y = a 1×1 + a 2×2 + … + a pxp
se numește ecuația de regresie multipl ă.
Înlocuind în aceast ă relație valori pentru variabilele independente xi se obține
valoarea prognozat ă pentru variabila dependent ă y.
Interpretarea coeficienților
Un coeficient ai are interpretarea: modificarea cu 1 a valorii variabilei xi
produce o modificare a valorii y cu ai unități. Deoarece scalele de m ăsură sunt, în
general, diferite, interpretarea în acest sens a coeficien ților poate deforma imaginea
importanței variabilelor independente în model. Din acest motiv se introduc
coeficienții de regresie standardiza ți definiți drept coeficien ții de regresie estima ți ai
modelului:
ppx x x y~ ~ ~ ~
22 11 β β β ++ + = K
în care nu exist ă termen liber, iar variabilele y~ și ix~sunt variabilele standardizate,
prin standardizare înțelegându-se transformarea de tipul
xsxxx−=~.
Coeficien ții de regresie standardiza ți au interpretarea: modificarea cu o abatere
standard a valorii variabilei x produce o modificare cu βi abateri standard a valorii
variabilei dependente. În acest fel, m ărimea coeficien ților standardiza ți reflectă
importanța variabilelor independente în predic ția lui y.
Distribuția estimatorului
Exp( a) = α
Var(a) = σ2(X'X)-1.
Estimația dispersiei erorilor ( σ2)
Notând cu ŷ valoarea ajustat ă, dată de ecuația de regresie, pentru o realizare a
vectorului x, considerat ă la estimarea parametrilor, se ob ține eroarea de ajustare,
notată cu e:
ei = y i – ŷi, i = 1,…,n.
Erorile de ajustare sunt denumite uzual reziduuri și analiza lor este o parte
important ă studiului calitativ al ecua ției de regresie. Este evident c ă reziduurile
constituie estima ții ale erorilor ε. Se demonstreaz ă că
pnyy
sn
ii i
−−
=∑
=12
2)ˆ (
este o estima ție nedeplasat ă a dispersiei necunoscute σ2. Este de notat c ă numitorul
este egal cu num ărul gradelor de libertate a sumei de la num ărător (n observații din
care am ob ținut p estimații).
Precizia ajust ării
Reziduuri mici exprim ă o ajustare mai bun ă a datelor experimentale, dar
stabilirea unui criteriu care s ă indice cât de mici trebuie s ă fie reziduurile pentru ca
regresia s ă fie acceptat ă este o problem ă dificilă.
Pentru a ob ține o măsură a preciziei ajust ării se pleac ă de la identitatea
) ˆ() (ˆ yy yy yyi i i i − − − =−
care, prin reorganizarea termenilor, produce
).ˆ () ˆ(i i i i yy yy yy − +− =−
Se poate demonstra c ă are loc identitatea:
.)ˆ ( ) ˆ( ) (2 2 2∑ ∑ ∑ − + − = −
ii i
ii
ii yy yy yy
Această relație arată că variația valorilor observate în jurul valorii medii se
descompune într-un termen ce exprim ă variația valorilor estimate în jurul mediei și
într-un termen datorat reziduurilor ajust ării. Prin urmare, regresia estimat ă va fi cu
atât mai bun ă cu cât ultimul termen va fi mai mic, sau cu cât varia ția valorilor
estimate va fi mai apropiat ă de variația valorilor observate. Se alege drept indicator
sintetic de precizie a ajust ării raportul
22
2
) () ˆ(
∑∑
−−
=
iiii
yyyy
R .
Pentru o bun ă ajustare a ecua ției de regresie la datele experimentale, trebuie ca
acest raport s ă fie apropiat de 1.
Cantitatea R2 se numește coeficientul de determinare și, exprimat procentual,
arată cât din varian ța variabilei dependente este explicat ă de ecuația estimat ă. Este un
indicator de asociere având atributul PRE,
22 2
2
) ()ˆ ( ) (
∑∑ ∑
−− − −
=
iiii i
ii
yyyy yy
R
deci poate fi interpretat și în următorul sens: cu cât se îmbun ătățește prognoza
valorilor y prin considerarea modelului estimat.
Se arată că R2 crește prin includerea mai multor variabile în model, astfel încât
are loc o supraestimare în cazul modelelor extinse. O solu ție propus ă este ajustarea
coeficientului de determinare prin
). 1(1 2 2 2RpnpR R −−−− =
Coeficientul de corela ție multipl ă
Ca măsură a asocierii dintre y și ansamblul variabilelor x se introduce
coeficientul de corela ție multipl ă, notat cu R. Poate fi definit drept coeficientul maxim
de corelație simplă (Pearson) dintre y și o combina ție liniară de variabile x. Astfel se
explică faptul că valoarea calculat ă a lui R este întotdeauna pozitiv ă și tinde să crească
o dată cu mărirea num ărului de variabile independente.
Metoda celor mai mici p ătrate poate fi astfel gândit ă ca o metod ă care
maximizeaz ă corelația dintre valorile observate și valorile estimate (acestea
reprezentând o combina ție liniară de variabile x). O valoare R apropiată de 0 denot ă o
regresie nesemnificativ ă, valorile prognozate de regresie nefiind mai bune decât cele
obținute printr-o ghicire aleatorie (sau bazate doar pe distribu ția lui y).
Deoarece R tinde să supraestimeze asocierea dintre y și x, se prefer ă
indicatorul definit anterior, coeficientul de determinare, R2, care este p ătratul
coeficientului de corela ție multipl ă.
Testarea ipotezelor
Notăm
∑ ∑ ∑ − = − = − =
ii i rez
ii reg
ii g yy SP yy SP yy SP2 2 2)ˆ ( ,) ˆ( ,) (
cele trei sume de p ătrate care apar în identitatea introdus ă la definirea coeficientului
de determinare. Sumele s unt referite ca suma p ătratelor global ă (SP g), suma pătratelor
datorate regresiei (SP reg) și suma pătratelor reziduale (SP rez). Fiecare sum ă de pătrate
are atașat un num ăr de grade de libertate: νg = n-1, νreg = p-1, νrez = n-p și se poate
realiza un tabel al analizei di spersionale (ANOVA) sub forma
Sursa
de variație Suma
de pătrate Grade de
libertate Media pătrată F
Regresie SPreg νreg SP reg / νreg = s2
reg F = s2
reg / s2
Rezidual ă SPrez νrez SP rez / νrez = s2
Globală SPg νg SP g / νg
Testul F de semnifica ție globală
Primul test utilizat în analiza regresiei este un test global de semnifica ție a
ansamblului coeficien ților (exceptând termenul liber, dac ă acesta apare).
Ipotezele testului sunt
H0: α1 = α2 = … = αp = 0
H1: (∃)i, astfel încât αi ≠ 0.
În condițiile ipotezei nule, se demonstreaz ă că statistica F, calculat ă în tabelul
ANOVA, este repartizat ă Fisher-Snedecor F p-1;n-p , încât se poate verifica ipoteza nul ă.
Nerespingerea ipotezei nule duce la concluzia c ă datele observate nu permit
identificarea unui model liniar valid, deci regresia nu este adecvat ă în scopul de
prognoză, propus ini țial.
Teste t
În situația când este respins ă ipoteza nul ă, se accept ă că ecuația de regresie
este semnificativ ă la nivel global, cu men țiunea că s-ar putea ca anumi ți coeficien ți să
nu fie semnificativi. Pentru testarea fiec ărui coeficient se utilizeaz ă un test t cu
ipotezele:
H0: αi = 0
H1: αi ≠ 0.
În condițiile ipotezei H 0 se arată că statistica )(ii
iasat= este repartizat ă Student
cu n – p grade de libertate, ceea ce permite utilizarea testului t. În expresia care d ă
statistica testului, s(ai) este abaterea standard estimat ă a coeficientului, dat ă ca
rădăcina pătrată din elementul corespunz ător de pe diagonala principal ă a matricei
s2(X’X)-1.
Nerespingerea ipotezei nule arat ă că datele experimentale nu permit stabilirea
necesității prezenței variabilei x i în model, variabila este nesemnificativ ă în model.
Intervale de încredere
Apar de interes dou ă tipuri de intervale de încredere: pentru parametrii
modelului, αi, și pentru valorile prognozate cu ajutorul modelului estimat.
Parametrii modelului
O regiune de încredere, la nivelul δ, pentru ansamblul parametrilor este dat ă
de
( α – a)’X’X(α – a) ≤ ps2F1-δ,p,n-p
Utilizând reparti ția statisticilor ti, definite la testarea semnifica ției
parametrilor, se demonstreaz ă că intervalul de încredere pentru parametrul αi,
i = 1, 2, …, p, este dat la pragul de încredere α, de relația
ai – t 1-α/2;n-ps(ai) ≤ α1 ≤ ai + t 1-α/2;n-ps(ai) .
Valorile prognozate
Utilitatea principal ă a modelului liniar este pr ognozarea valorilor variabilei
dependente. Valoarea prognozat ă este evident o statistic ă pentru c ă se obține prin
modelul estimat (din datele experimentale). Se poate atunci vorbi de reparti ția de
sondaj a valorii prognozate, reparti ție care st ă la baza determin ării intervalelor de
încredere pentru valorile prognozate.
În estimarea intervalului de încredere pentru o valoare y 0= x0α + ε0, se
distinge între situa țiile în care observa ția x0 a fost, sau nu, utilizat ă la estimarea
coeficienților (cu alte cuvinte, dac ă matricea X conține sau nu linia x0).
În primul caz, intervalul de încredere pentru valoarea estimat ă este
ŷ0 – t 1-α/2;n-ps01
0 ) ( x XXx ′ ′− ≤ y0 ≤ ŷ0 + t 1-α/2;n-ps01
0 ) ( x XXx ′ ′−
unde ŷ0 = x0a, este valoarea prognozat ă de ecuația de regresie.
În al doilea caz, intervalul de încredere este
ŷ0 – t 1-α/2;n-ps 1 ) (01
0 +′ ′−x XXx ≤ y0 ≤ ŷ0 + t 1-α/2;n-ps 1 ) (01
0 +′ ′−x XXx .
În cazul regresiei simple (dreapta de regresie), ultimul interval de încredere are
forma
ŷ0 – t 1-α/2;n-ps∑ −−+22
0
) () ( 1
xxxx
ni ≤ y0 ≤ ŷ0 + t 1-α/2;n-ps∑ −−+22
0
) () ( 1
xxxx
ni ,
de unde se ob ține concluzia c ă valorile prognozate au intervale de încredere, la acela și
prag de încredere, mai mari pe m ăsură ce valoarea x 0 este mai dep ărtată de media x.
De aici apare recomandarea ca un model liniar s ă nu fie utilizat pentru prognoz ă în
cazul în care variabilele independente au valori dep ărtate de centrul datelor
considerate la estimarea modelului (de exemplu, estimarea trendului ratei de schimb valutar din datele unei s ăptămâni nu poate fi utilizat ă pentru a prognoza rata de
schimb de peste un an). În cazul unui sistem dinamic (valorile sunt produse/evaluate
în timp), prognoza se va realiza doar pentru câteva momente de timp, dup ă care are
loc o nouă estimare a modelului etc.
Analiza reziduurilor
Analiza statistic ă a ecuației de regresie este bazat ă pe ipotezele Gauss-Markov
asupra erorilor ε ~ N(0, σ2In ). Valabilitatea acestor ipoteze, în special cea a
normalității erorilor, poate fi testat ă prin analiza reziduurilor. Ca și în cazul testelor
statistice, concluziile analizei sunt de genul: ipoteza normalit ății se respinge sau
ipoteza normalit ății nu se respinge. Analiza reziduurilor este, în esen ță, de natur ă
grafică.
Calculul estima țiilor erorilor produce
e = Yobs-Yest = Yobs – Xa = Yobs – X(X’X)-1X’Y obs = (1 – X(X’X)-1X’)Y obs
Notând Z = X(X’X)-1X’ = (z ij), rezultă că, în cazul îndeplinirii ipotezelor
Gauss-Markov, dispersia reziduului ei este egal ă cu (1-z ii) σ2 unde z ii sunt elementele
de pe diagonala principal ă a matricei Z, cu estima ția s2(ei) = (1-z ii)s2. Reamintim c ă
media reziduurilor este egal ă cu zero.
Ipotezele de reparti ție a erorilor sunt reflectate în reparti ția reziduurilor
(estimații ale erorilor). Se analizeaz ă histograma reziduurilor sau diagrame ale
reziduurilor în raport de valorile estimate, de variabilele independente. Diagramele
construite în continuare pun în eviden ță eventualele abateri de la reparti țiile presupuse
pentru erori, abateri ce vor exprima devia țiile de la ipotezele de reparti ție a erorilor.
Diagrama reziduurilor
Deoarece ) ) 1(;0(~2σii i z Ne − , rezultă că mărimile di, i = 1,…, n, date de
iii
iz sed
−=
1
sunt repartizate N(0;1). Din acest motiv, m ărimile di sunt denumite reziduuri
normalizate.
Observație. În practic ă, se neglijeaz ă uneori radicalul de la numitor.
Histograma m ărimilor di trebuie s ă reflecte o reparti ție normal ă standard.
Atunci când n este relativ mic, histograma va prezenta, în general, mari neregularit ăți
față de situația care ar permite aproximarea cu o curb ă normală. Decizia referitoare la
provenien ța, sau neprovenien ța, dintr-o reparti ție normal ă se poate lua în acest caz, de
exemplu, în urma compara ției cu histograme ob ținute pentru e șantioane de acela și
volum n generate aleatoriu dintr-o reparti ție normal ă standard.
Diagrama reziduuri – valori estimate
Considerând punctele de coordonate ( ŷi,di), i = 1,…, n, reprezentate într-un
sistem de axe rectangulare, sunt posibile 4 situa ții caracteristice, sau combina ții ale
lor, de regiuni ocupate de punctele considerate.
Cazul a) nu arat ă nici o abatere de la normalitate și nici o violare a ipotezei c ă
erorile au aceea și dispersie constant ă.
În cazul b), se constat ă o creștere a dispersiei, deci este invalidat ă ipoteza
constanței dispersiei erorilor. Practic, în aceast ă situație se consider ă că modelul nu
conține o variabil ă esențială, cum ar fi timpul, sau c ă metoda de calcul adecvat ă este
metoda celor mai mici p ătrate ponderate. În anumite situa ții reale, situa ția poate fi
rezolvată și printr-o transformare prealabil ă a datelor (de exemplu, prin logaritmare).
Cazul c) arat ă practic o eroare de calcul, deoarece este ca și cum nu s-ar fi
reușit explicarea unei componente liniare a varia ției variabilei dependente.
Cazul al patrulea, d), arat ă că modelul nu este adecvat datelor observate. Se
încearcă un nou model care s ă includă variabile de ordin superior, de genul x2, care să
preia varia ția curbilinie, sau se transform ă în prealabil variabila y.
Observație. Indiferent de forma regi unilor, punctele foarte dep ărtate de
celelalte ofer ă informații despre observa țiile aberante. Regula uzual ă este aceea ca
orice observa ție pentru care | di| > 3 să fie considerat ă o observa ție aberant ă. Practic, în
acest caz, observa țiile aberante se vor exclude din setul de date sau, dac ă observațiile a) b)
d) c)
sunt totu și de interes, se va încerca ob ținerea unor determin ări suplimentare în
regiunea de interes. În ambele situa ții se va reface calculul regresiei.
Diagrama reziduuri – variabil ă independent ă
Se vor reprezenta grafic punctele de coordonate ( xji,di), i = 1,…, n, pentru
fiecare variabil ă independent ă xj.
Cele patru situa ții grafice possibile se interpreteaz ă similar, cu observa ția că
situația d) impune introducerea în model a variabilei xj ridicată la o putere.
Multicoliniaritatea
Situația descris ă drept multicoliniaritate apare atunci când un grup de variabile
independente sunt puternic corelate între ele. În acest caz, prin includerea în model a unei variabile din grup, restul variabilelor din grup nu mai aduc o informa ție
semnificativ ă. Simultan are loc o supraevaluare a coeficientului de determinare, ca și
a dispersiilor coeficien ților estima ți, ceea ce poate denatura interpretarea modelului și,
în plus, produce m ărirea intervalelor de încredere.
Apar astfel dou ă probleme: determinarea multicoliniarit ății și cum trebuie
procedat în cazul existen ței multicoliniarit ății.
Detectarea multicoliniarit ății
Cea mai simpl ă metodă de detectare a multicoliniarit ății este bazat ă pe studiul
matricei de corela ție dintre variabilele x. Se pot determina astfel perechile de variabile
independente care sunt puternic corelate între ele. O structur ă mai complex ă a
intercorela țiilor poate fi detectat ă prin calcularea determinantului acestei matrice de
corelație. O valoare apropiat ă de zero a determinantului reflect ă o puternic ă corelație
între anumite variabile, deci existen ța multicoliniarit ății.
O altă abordare a problemei este aceea a stab ilirii unui indicator sintetic pentru
a decide dac ă o variabil ă este coliniar ă cu celelalte (sau cu un grup dintre celelalte).
Notând cu 2
iR coeficientul de determinare ob ținut la estimarea regresiei multiple
având ca variabil ă dependent ă pe xi și ca variabile independente restul variabilelor x,
adică
),,,,,,(1 1 2 1 p i i i x xx xxf x K K+ − =
se introduce toleranța variabilei xi prin
21i i R−=τ .
O valoare mic ă a lui τi (uzual mai mic ă decât 0,1) reflect ă un coeficient 2
iR
apropiat de 1, deci o leg ătură liniară puternic ă între xi și restul variabilelor
independente. Prin urmare xi este coliniar ă cu celelalte variabile independente.
Se definește factorul de infla ție a varian ței, notat VIF, inversul toleran ței:
iiVIFτ1=.
Denumirea provine din aceea c ă un asemenea factor apare multiplicativ în
definirea varian ței coeficien ților estima ți (se poate spune c ă se măsoară de câte ori
este supraevaluat ă varianța coeficien ților datorit ă multicoliniarit ății în raport cu
situația când nu ar exista coliniaritate). Interpretarea este dedus ă din cea a toleran ței: o
valoare VIF mare (uzual mai mare decât 10), denot ă coliniaritate.
Eliminarea multicoliniarit ății
O rezolvare comun ă a problemei multicoliniarit ății este aceea ca dintre dou ă
variabile independente corelate s ă se rețină în model doar una.
Prin interpretarea toleran țelor sau a factorilor de infla ție se vor exclude din
model acele variabile care au toleran țe mici (sau factori de infla ție mari).
Cea mai bun ă regresie
Procesul de selectare a celei mai bune regresii are loc în contextul în care
există o variabil ă dependent ă y și o mulțime de variabile independente posibile x.
Problema poate fi formulat ă:
Care este acea submul țime minimal ă de variabile independente
care permite estimarea unui model liniar semnificativ și
adecvat valorilor observate y?
Etapele select ării celei mai bune regresii
1. Se identific ă toate variabilele independente posibile (cu alte cuvinte se
specifică modelul maxim).
2. Se specific ă criteriul de selectare a celei mai bune regresii.
3. Se specific ă o strategie pentru selectarea variabilelor independente.
4. Se realizeaz ă estimarea și analiza modelului.
5. Se evalueaz ă reliabilitatea modelului ales.
Strategii de selectare a celui mai bun model
Metoda tuturor regresiilor posibile
Se estimeaz ă toate regresiile posibile.
Se rețin valorile coeficien ților de determinare; gruparea este dup ă cardinalul
mulțimii de predictori.
Variabile independente R2
{x1}, {x 2} … …
{x1,x2}, {x 1,×3}, …, {x n-1,xn} …
… …
{x1,x2,…,x n} …
Se analizeaz ă valorile R2 și se reține acea submul țime de variabile pentru care
se realizeaz ă compromisul acceptabil între num ărul de variabile și mărimea
coeficientului de determinare.
Selecția prospectiv ă
Procedura începe prin includerea în mo del a variabilei independente având cel
mai mare coeficient de corela ție cu variabila y. La fiecare pas urm ător, se analizeaz ă
fiecare dintre variabilele neincluse înc ă în model printr-un test F secven țial și se
extinde modelul prin includerea acelei variabile care aduce o contribu ție maxim ă
(probabilitatea critic ă din testul F este cea mai mic ă). Procesul se opre ște atunci când
modelul nu mai poate fi extins, criteriul uzual fiind acela al fix ării un prag de intrare
(PIN) și acceptând doar variabilele pent ru care probabilitatea critic ă în testul F
secvențial este mai mic ă sau egală cu acest prag.
Procedura are ca limit ări faptul c ă anumite variabile nu vor fi incluse în model
niciodată, deci importan ța lor nu va fi determinat ă. Pe de alt ă parte, o variabil ă inclusă
la un anumit pas r ămâne permanent în model, chiar dac ă, prin includerea ulterioar ă a
altor variabile, importan ța ei poate s ă scadă.
Selecția retrograd ă
Se începe cu estimarea modelului complet și apoi, într-un num ăr de pași
succesivi, se elimin ă din model variabilele nesemnificat ive. La fiecare pas, pe baza
unui test F par țial, se elimin ă acea variabil ă care are cea mai mare probabilitate
critică. Procesul se opre ște atunci când nici o variabil ă nu mai poate fi eliminat ă.
Criteriul uzual este acela de fixare a unui prag de eliminare ( POUT) și considerarea
doar a variabilelor care au probabilitatea critic ă mai mare decât acest prag.
Selecția pas cu pas
Procedura pas cu pas ( stepwise regression ) este o combina ție a celor dou ă
metode descrise anterior. La un pas ulteri or al regresiei prospective se permite
eliminarea unei variabile, ca în regresia retrograd ă. O variabil ă eliminată din model
devine candidat ă pentru includerea în model, iar o variabil ă inclusă în model devine
candidată la excludere. Pentru ca procesul s ă nu intre într-un ciclu infinit, trebuie ca
PIN ≤ POUT.
B. Instrumente Excel, SPSS
Excel
REGRESSION
Estimarea coeficien ților unui model liniar prin metoda celor mai mici p ătrate
și calculul statisticilor necesare testelor statistice asociate sunt efectuate de procedura
Regression , una dintre cele mai complexe din pachetul de prelucr ări statistice din
Excel. Procedura permite și construirea graficelor neces are pentru aprecierea vizual ă a
potrivirii modelului liniar. De și acestea, din motive evidente, necesit ă prelucrări
suplimentare de scalare înai nte de interpretare, existen ța lor este un real ajutor pentru
statistician.
Termeni
Modelul liniar estimat de procedur ă
este
Y = α0X0 + α1X1 + α2X2 + … + αp-1Xp-1 + ε,
care exprim ă faptul că variabila Y se poate
obține ca o combina ție liniară a variabilelor
X0, X1,…, X p-1 la care se adaug ă o "eroare" ε.
Pentru estimarea parametrilor
modelului se consider ă disponibile n
observații asupra tuturor variabilelor din
model. Valorile sunt structurate ca un tablou dreptunghiular, fiecare variabil ă ocupând o
coloană (deci o linie este referit ă drept o
observație).
Dialogul procedurii
Regression este
prezentat în figura urm ătoare.
Input
Input Y Range – se precizeaz ă domeniul (coloana) pe care se afl ă valorile variabilei depen-
dente.
Input X Range – se precizeaz ă domeniul pe care se afl ă valorile tuturor variabilelor
independente. Acest domeniu trebuie s ă fie compact, fiecare variabil ă X i ocupând o
coloană.
Labels – se marcheaz ă boxa de control în cazul în care prim a linie din tabloul de date este cu
denumirile variabilelor (situa ție recomandat ă).
Constant Is Zero – se marcheaz ă boxa de control dac ă modelul care se estimeaz ă este fără
termen liber.
Confidence Level – se precizeaz ă, procentual, siguran ța statistic ă dorită în raportarea
intervalelor de încredere deci valoarea (1– α)×100, unde α este pragul de semnifica ție.
Intervalele ob ținute sunt suplimentare, întotdeauna afi șându-se cele pentru α = 0,05. Boxa
se va marca doar dac ă se dorește și un alt prag de semnifica ție.
Output options
Output Range, New Work sheet Ply, New Workbook – Precizeaz ă zona unde se vor înscrie
rezultatele. Zona de rezultate este foarte complex ă, cuprinde tabele care depind de
mărimea modelului, de num ărul de observa ții, de num ărul graficelor dorite etc. Prin
urmare se va prefera o foaie de calcul nou ă sau o zon ă liberă în dreapta și în jos.
Residuals
Residuals – se marcheaz ă boxa de control în cazul când se dore ște calcularea reziduurilor
modelului estimat.
Residual Plots – se marcheaz ă boxa de control în cazul când se dore ște obținerea diagramelor
reziduuri – variabil ă independent ă, adică vizualizarea punctelor de coordonate
(xij, rj), j = 1,…n, având ca abscis ă o valoare a variabilei independente X i, iar ca ordonat ă
reziduul corespunz ător.
Standardized Residuals – aceast ă boxă de control se va marca dac ă se dorește calculul
valorilor standardizate ale reziduurilor. Valorile astfel ob ținute provin, teoretic, dintr-o
distribuție normal ă standard, astfel încât o histogram ă a acestor valori trebuie s ă se
apropie de curba normal ă (clopotul lui Gauss).
Line Fit Plots – se marcheaz ă această boxă de control dac ă se dorește afișarea diagramelor Y
– variabil ă independent ă, prin care se vizualizeaz ă, pe un acela și grafic, punctele de
coordonate (x ij, yobs,i), (x ij, yest,i), j = 1,…,n, unde abscisele sunt valorile variabilei
independente, iar ordonatele sunt valorile observate și cele estimate ale variabilei
dependente. Este desenat câte un grafic pentru fiecare variabil ă independent ă.
Interpretarea acestor diagrame poate oferi indica ții asupra adecvan ței modelului, asupra
valorilor aberante.
Normal Probability
Normal Probability Plots – se marcheaz ă dacă se dorește vizualizarea reparti ției de sondaj a
variabilei Y într-o re țea de probabilitate.
Exemplu
Un set de date cuprinde 25 de observa ții asupra a 4 variabile, notate Y (considerat ă
variabila dependent ă) și X 1, X 2, X 3 (considerate variabile independente). Valorile și
denumirile ocup ă în foaia de calcul un domeniu dreptunghiular continuu, B2:E27, valorile Y
ocupând prima coloan ă.
Pentru a estima modelul liniar
Y = α0 + α1X1 + α2X2 + α3X3 + ε,
cu termen constant, se apeleaz ă procedura Regression .
a) Un prim tabel de rezultate, prezentat în figura al ăturată, conține statisticile
generale ale ecua ției de regresie.
Multiple R – coeficientul multiplu de corela ție.
R Square – coeficientul de determinare (este egal cu p ătratul
coeficientului de corela ție multipl ă). Poate fi gândit,
exprimat procentual, drept propor ția din varia ția
variabilei dependente explicat ă de varia ția variabilelor
independente: 60,7% din varia ția lui Y este explicat ă de
variabilele X.
Adjusted R Square – valoarea corectat ă a coeficientului de
determinare. Este introdus ă pentru a contracara (par țial)
efectul cre șterii mecanice a lui R2 o dată cu numărul variabilelor independente.
Standard Error – eroarea standard a estima ției. Se calculeaz ă ca abaterea standard a
reziduurilor (pentru num ărul gradelor de libertate utilizat se va vedea tabloul ANOVA, în
continuare) și este estima ția abaterii standard a erorilor ε (în ipoteza normalit ății
acestora).
Observations – numărul de observa ții din eșantion.
b) Al doilea tabel de rezultate cuprinde tabloul de analiz ă a varianței asociat regresiei
estimate.
Coloanele acestui tablou au semnifica țiile uzuale într-un tablou ANOVA:
Sursa de varia ție – arată descompunerea varia ției totale în varia ția explicat ă de regresie și cea
reziduală (neexplicat ă).
df – numărul gradelor de libertate: 3 = p – 1, 21 = n – p, 24 = n – 1, unde p = 4 este num ărul
parametrilor modelului (trei variabile X pl us termenul liber) iar n = 25 este num ărul de
observații.
SS – sumele de p ătrate potrivit descompunerii
Suma global ă
de pătrate =Suma de p ătrate
datorată regresiei + Suma de p ătrate
reziduală
MS – media sumelor de p ătrate: SS împ ărțită la numărul respectiv de grade de libertate.
Valoarea de pe linia a doua ( Residual ) este estima ția dispersiei pentru reparti ția erorilor și
este pătratul erorii standard a estima ției.
F – valoarea statisticii F pentru testul caracterizat de
H0 : α1 = α2 = α3 = 0
H1 : există cel puțin un coeficient αi diferit de zero.
Acest test se refer ă la ansamblul variabilelor independente (este de remarcat c ă H0 nu se
extinde și asupra termenului liber). Datorit ă înțelesului ipotezei nule, se consider ă că prin
acest test se verific ă semnifica ția întregii regresii.
Significance F – este probabilitatea critic ă unilateral ă. Dacă valoarea afi șată este mai mic ă
decât pragul de semnifica ție fixat, atunci se respinge ipoteza nul ă în favoarea ipotezei
alternative.
c) Al treilea tablou de rezultate con ține valorile estimate pentru coeficien ții modelului,
precum și statisticile necesare verific ării ipotezelor uzuale asupra coeficien ților. De remarcat
că, spre deosebire de testul F, testele asupra coeficien ților sunt individuale.
Liniile tabelului se refer ă la variabilele din model, incluzând și termenul liber.
Coloanele tabelului sunt urm ătoarele:
(prima coloan ă) – sunt afi șate denumirile existente în tabl oul de date sau create automat
pentru variabilele independente implicate. Intercept este denumirea pentru termenul liber
(constant) al modelului.
Coefficients – conține valorile estimate ale coeficien ților. Din valorile afi șate rezult ă că
modelul estimat în exemplu este
Y = 11,718 – 1,443*X 1 + 3,135*X 2 – 0,324*X 3.
În ipotezele distribu ționale ale modelului liniar, valorile calculate ale coeficien ților provin
din reparti ții normale, fiind astfel posibile verific ări statistice ale coeficien ților.
Standard Error – eroarea standard a coeficientul ui (abaterea standard a reparti ției
coeficientului).
t Stat – statistica t pentru verificarea ipotezei H 0 : αi = 0 contra ipotezei alternative H 1 : αi ≠ 0.
În condițiile ipotezei nule se demonstreaz ă că raportul dintre coeficient și eroarea
standard a coeficientului urmeaz ă o repartiție Student cu (n – p) grade de libertate. Acest
raport este tocmai valoarea raportat ă drept t Stat. Adic ă 2,161 = 11,718/5,421 etc.
Utilizarea statisticii este cea uzual ă.
P-value – probabilitatea critic ă bilaterală a testului t cu ipotezele precizate la t Stat. Pentru
pragul de semnifica ție α = 0,05 se poate respinge ipoteza de nulitate a termenului liber
(0,042 < 0,05) și a coeficien ților α1 și α2 (0,002 și 0,000 sunt mai mici decât 0,05). Nu se
poate respinge ipoteza nul ă privind coeficientul α3 (0,069 > 0,05).
Lower 95%, Upper 95% – limitele inferioar ă și superioar ă ale intervalului de încredere pentru
parametrul respectiv. Limitele la pragul 0, 05 sunt calculate automat, indiferent de
inițializarea procedurii Regression.
Se poate deci interpreta c ă, în popula ție, parametrii modelului liniar sunt cuprin și în
intervalele urm ătoare:
0 , 4 4 4 < α 0 < 22,992
−2,271 < α 1 < −0,615
. . .
Se poate observa c ă ultimul interval cuprinde și valoarea zero, prin urmare se reg ăsește
concluzia privind nerespingerea ipotezei nule H 0 : α3 = 0.
d) Studiul reziduurilor se poate face pe b aza datelor raportate în tabelul alocat
reziduurilor, tabel având structura urm ătoare:
Pentru fiecare observa ție (linie din tabelul de date ini țial) se afișează:
Observation – numărul de ordine al observa ției.
Predicted y – valoarea y prognozat ă pentru observa ția respectiv ă; se obține înlocuind valorile
X ale observa ției în modelul estimat.
Residuals – valoarea erorii de predic ție (diferen ța dintre valoarea observat ă și valoarea
prognozat ă).
Standard Reziduals – valoarea standardizat ă a erorii. Este ob ținută prin împ ărțirea
reziduului la abaterea standard a reziduurilor (rezultatul nu este sus ținut absolut riguros de
teorie).
e) Analiza calit ății modelului este facilitat ă și de graficele construite automat de
procedura Regression . Sunt produse dou ă tipuri de diagrame:
– diagrame reziduuri vs. variabile independente și
– diagrame variabila dependent ă vs. variabile independente.
Graficele necesit ă, de obicei, prelucr ări suplimentare pentru a fi interpretate sau
raportate.
În figură se dă un exemplu de diagram ă reziduuri – variabil ă independent ă X.
Punctele din figur ă se pot considera într-o regiune de tip band ă orizontal ă ceea ce nu
contrazice ipotezele de normal itate a erorilor. Forma de band ă uniformă reflectă
constanța dispersiei reziduurilor pentru tot domeniul variabilei independente X 1. Alte
forme de distribuire a reziduurilor duc la concluzii importante pentru adecvan ța
modelului în privin ța variabilei independente implicate:
Forma regiunii Interpretare
Situa ția "bună". Nu se contrazic
ipotezele de normalitate f ăcute asupra
erorilor.
Dispersia erorilor nu este constant ă (se
modifică după valorile X). Se poate ca
din model s ă fie omis ă o variabil ă de
gen "Timp".
Modelul liniar nu este adecvat în
privința variabilei independente
respective. Se poate încerca un introducerea unui termen p ătratic.
Situa ția poate s ă apară în urma unei
erori de calcul. Practic ar însemna c ă
nu s-a considerat componenta liniar ă,
adică scopul modelului nu a fost atins.
În mod asem ănător se pot interpreta diagramele Y – X.
Diagrama reziduuri –variabilă Regiunea reziduurilor
SPSS
Dreapta de regresie
Principalul dialog pentru estimarea unui model liniar se ob ține prin Analyze –
Regression –Linear.
În Dependent se va transfera
variabila dependent ă. Variabilele
independente, Independent (s), pot fi
grupate pe blocuri: 1. se transfer ă
variabilele dorite, 2. se precizeaz ă în
Method modul de introducere a
acestor variabile în regresie ( Enter –
toate simultan, Forward , Backward ,
Stepwise – metodele discutate la
alegerea celei mai bune regresii), 3. se
definește un nou bloc prin Next.
Se pot selecta observa țiile
precizând în Selection Variable
variabila și, prin Rule , regula de
selectare a cazurilor în func ție de
valorile variabilei de selec ție.
În Case Labels se poate preciza variabila care identific ă cazurile, etichetele
fiind considerate la reprezent ările grafice. Prin WLS Weight se poate preciza variabila
de ponderare pentru metoda celor mai mici p ătrate ponderate (nediscutat ă în curs).
Butonul Statistics deschide dialogul sinonim în care se pot preci za statisticile
calculate. Unele op țiuni sunt selectate și în mod implicit.
Estimates – coeficien ții estima ți,
Confidence intervals – intervalele de
încredere ale coeficien ților, Model fit –
calcularea statisticilor R, R2 și a tabelului
ANOVA, R squared change – modific ărea
coeficientului de determinare și testarea
semnifica ției schimb ării la ad ăugarea
fiecărui bloc de variabile, Descriptive –
statisticile esen țiale pentru fiecare variabil ă,
Collinearity diagnostics – calcularea toleran țelor, a statisticilor VIF și studiul
multicoliniarit ății prin analiza în componente principale (a se vedea capitolul urm ător
al cursului). În zona Residuals se produce o analiza a reziduurilor pentru a putea
decide asupra normalit ății acestora și a diagnostica valorile aberante.
Prin Plots se afișează dialogul sinonim în care se pot indica reprezent ările
grafice dorite.
În lista variabilelor disponibile pentru
diagrame se afl ă DEPENDNT – variabila
dependent ă – și variabile derivate din
regresie cum ar fi valorile prognozate standardizate (*ZPRED), reziduurile
standardizate (*ZRESID).
Diagramele indicate în Standardized
Residual Plots sunt utile pentru verificarea
normalității reziduurilor.
Dialogul Save permite calcularea și salvarea ca variabile noi a valorilor
prognozate și a reziduurilor sub diferite forme, precum și salvarea altor statistici de
interes. Predicted Values – valorile prognozate prin model pentru fiecare caz:
Unstandardized , Standardized pentru valorile nestandardizate și standardizate,
Adjusted valoarea prognozat ă pentru un caz din ecua ția de regresie estimat ă fără a
considera acel caz, S.E. of mean predictions abaterile standard ale valorilor
prognozate, utile pentru calcularea intervalelor de încredere ale acestor valori.
Distances – distan țele cazurilor de
la punctul mediu, pentru identificarea
valorilor aberante: Mahalanobis este
distanța explicat ă în capitolul privind
clasificarea, Cook's este măsura a cât de
mult se modific ă reziduurile dac ă se
elimină cazul respectiv din estimarea
modelului (o valoare mare arat ă o influen ță
considerabil ă a cazului în estimarea
coeficienților), Leverage values măsoară
influența cazurilor în estimare.
Prediction Intervals sunt intervalele
de incredere pentru valorile estimate, la
nivelul de încredere precizat în Confidence
Interval. Sunt generate dou ă variabile.
Residuals – reziduurile estim ării în diferite form e: standardizate,
nestandardizate, studentizate (reziduul este împ ărțit la estima ția abaterii sale standard,
proprie fiec ărui caz). Deleted , Studentized deleted se
referă la reziduurile ob ținute din modelul la estimarea
căruia cazul respectiv a fost exclus.
Influence Statistics sunt modific ările în
coeficienți (inclusiv cei standardiza ți), DfBeta(s) și
Standardized DfBeta , și în valorile prognozate, DfFit
și Standardized DfFit , rezultate dup ă excluderea
cazului din estimare.
În sfârșit, prin butonul Options se deschide
dialogul sinonim în care se pot fixa parametri ai estimării: pragurile de intrare și excludere la metodele pas cu pas precum și modul de
tratare a valorilor lips ă dintr-o variabil ă implicată.
C. Lucrarea practic ă
1. Legea lui Ohm, I = V/R, afirm ă că intensitatea curentului, I, este
proporțională cu tensiunea, V, și invers propor țională cu rezisten ța, R.
Elevii dintr-un laborator de fizic ă efectueaz ă experimente bazate pe legea
lui Ohm: variaz ă tensiunea, m ăsoară intensitatea curentului și determin ă în
final rezisten ța firului. Se ob țin rezultatele:
V 0,50 1,00 1,50 1,80 2,00
I 0,52 1,19 1,62 2,00 2,40
Deoarece legea lui Ohm poate fi rescris ă sub forma unei regresii liniare,
I = α+βV, unde α= 0 și β=1/R, să se estimeze, pe baza datelor
experimentale, coeficien ții α și β.
– Să se obțină intervalul de încredere, la pragul de semnifica ție de 5%, pentru
coeficientul β. Să se deduc ă intervalul de încredere pentru rezisten ța
firului.
– Să se verifice ipoteza α = 0.
2. O familie înregistreaz ă consumul de gaz necesar înc ălzirii locuin ței.
Consumul (în mc) este raportat în tabelul urm ător, împreun ă cu diferen ța
medie de temperatur ă față de cea extern ă (în grade Fahrenheit).
Luna oct nov dec ian feb mar apr mai iun
temperatura 15.6 26.8 37.8 36.4 35.5 18.6 15.3 7.9 0
Gaz 520 610 870 850 880 490 450 250 110
– Să se studieze forma relatiei dintre cei doi indicatori. Exista asociere între
cei doi indicatori?
– Să se estimeze dreapta de regresie care modeleaz ă relația dintre cei doi
parametri.
– În timpul verii, proprietarul locuin ței îmbunătățește izolația termică a casei
sale. Drept care în luna februarie urm ătoare, la o diferen ță medie de 40, se
consuma 895 mc de gaz. Se poate spune c ă lucrarea efectuat ă reduce
consumul de gaz?
3. Datele necesare acestul exerci țiu sunt la adresa web
www.infoiasi.ro/~val/statistica/boston.sav și sunt doar o oglindire a unor
date din surse interna ționale. Analiza datelor dore ște să prognozeze pre țul
de vânzare a unei case din regiunea Boston în func ție de caracteristici
diverse ale locuin ței și ale localiz ării ei. Prelucrarea se va efectua, de
preferință, în SPSS
Variabilele sunt în ordine: CRIM – rata criminalit ății, ZN – propor ția
teritoriului zonat în loturi de peste 25,000 sq.ft., INDUS propor ția
terirorială a zonei industriale, CHAS – indicator de învecinare cu râul din
zonă (= 1 da, 0 nu), NOX – concentra ția de oxizi nitrici, RM – num ărul
mediu de camere, AGE – propor ția de locuin țe construite înainte de 1940
și ocupate de proprietar, DIS – distan ța ponderat ă la cinci centre din
Boston, RAD – indicele de accesibilitate la re țeaua de autostr ăzi, TAX –
rata de impozit (procent la 10000$), PTRATIO – raportul copii-profesori
în zonă, B – 1000(Bk −0.63)2 unde Bk este procentajul popula ției de
culoare în zon ă, LSTAT – procentajul popula ției sărace, MEDV – valoarea
medie a caselor (în mii de dolari).
Se se efectueze urm ătoarele opera ții:
– Completa ți în SPSS denumirile de variabile și informațiile necesare.
– Verifica ți condițiile necesare aplic ării analizei regresionale.
– Estimați ecuația de regresie prin diferite metode. Analiza ți dacă obțineți un
răspuns care pare consistent, independent de metod ă.
– Validați și interpreta ți rezultatele regresiei.
Copyright Notice
© Licențiada.org respectă drepturile de proprietate intelectuală și așteaptă ca toți utilizatorii să facă același lucru. Dacă consideri că un conținut de pe site încalcă drepturile tale de autor, te rugăm să trimiți o notificare DMCA.
Acest articol: Statistic ă multivariat ă [631789] (ID: 631789)
Dacă considerați că acest conținut vă încalcă drepturile de autor, vă rugăm să depuneți o cerere pe pagina noastră Copyright Takedown.
