Statistic ă multivariat ă [622140]
Statistic ă multivariat ă
Lucrarea nr. 9 — Multicolin iaritate, valori aberante,
regresia polinomial ă – SPSS
A. Noțiuni teoretice
Reamintim c ă un model liniar poate fi exprimat ă prin
y = x α + ε
unde
• y este variabila dependent ă (explicat ă, endogen ă, rezultativ ă),
• x este vectorul variabilelor independente (explicative, exogene), de
dimensiune 1×p,
• α este vectorul coeficien ților, de dimensiune p×1, parametrii modelului,
• ε este o variabil ă, interpretat ă ca eroare (perturbare, eroare de m ăsurare
etc.).
Cu alte cuvinte,
y = α1×1+α2×2+…+ αpxp+ε
care exprim ă relația liniară dintre y și x.
Multicoliniaritatea
Situația descris ă drept multicoliniaritate apare atunci când un grup de variabile
independente sunt puternic corelate între ele. În acest caz, prin includerea în model a
unei variabile din grup, restul variabilelor din grup nu mai aduc o informa ție
semnificativ ă. Simultan are loc o supraevaluare a coeficientului de determinare, ca și
a dispersiilor coeficien ților estima ți, ceea ce poate denatura interpretarea modelului și,
în plus, produce m ărirea intervalelor de încredere.
Apar astfel dou ă probleme: determinarea multicoliniarit ății și cum trebuie
procedat în cazul existen ței multicoliniarit ății.
Detectarea multicoliniarit ății
Cea mai simpl ă metodă de detectare a multicoliniarit ății este bazat ă pe studiul
matricei de corela ție dintre variabilele x. Se pot determina astfel perechile de variabile
independente care sunt puternic corelate între ele. O structur ă mai complex ă a
intercorela țiilor poate fi detectat ă prin calcularea determinantului acestei matrice de
corelație. O valoare apropiat ă de zero a determinantului reflect ă o puternic ă corelație
între anumite variabile, deci existen ța multicoliniarit ății.
O altă abordare a problemei este aceea a stabilirii unui indicator sintetic pentru
a decide dac ă o variabil ă este coliniar ă cu celelalte (sau cu un grup dintre celelalte).
Notând cu 2
iR coeficientul de determinare ob ținut la estimarea regresiei multiple
având ca variabil ă dependent ă pe xi și ca variabile independente restul variabilelor x,
adică
),,,,,,(1 1 2 1 p i i i x xx xxf x K K+ − =
se introduce toleranța variabilei xi prin
21i i R−=τ .
O valoare mic ă a lui τi (uzual mai mic ă decât 0,1) reflect ă un coeficient 2
iR
apropiat de 1, deci o leg ătură liniară puternic ă între xi și restul variabilelor
independente. Prin urmare xi este coliniar ă cu celelalte variabile independente.
Se definește factorul de infla ție a varian ței, notat VIF, inversul toleran ței:
iiVIFτ1=.
Denumirea provine din aceea c ă un asemenea factor apare multiplicativ în
definirea varian ței coeficien ților estima ți (se poate spune c ă se măsoară de câte ori
este supraevaluat ă varianța coeficien ților datorit ă multicoliniarit ății în raport cu
situația când nu ar exista coliniaritate). Interpretarea este dedus ă din cea a toleran ței: o
valoare VIF mare (uzual mai mare decât 10), denot ă coliniaritate.
Eliminarea multicoliniarit ății
O rezolvare comun ă a problemei multicoliniarit ății este aceea ca dintre dou ă
variabile independente corelate s ă se rețină în model doar una.
Prin interpretarea toleran țelor sau a factorilor de infla ție se vor exclude din
model acele variabile care au toleran țe mici (sau factori de infla ție mari).
Valori aberante
Printr-o valoare aberant ă (outlier ) se înțelege o observa ție extrem ă, adică o
observație care nu se "încadreaz ă" în paternul general al celorlalte valori. Atunci când
este studiat ă o singură variabilă, există teste specifice elimin ării valorilor aberante, de
exemplu testul Dixon. Regula empiric ă (bazată pe distribu ția normal ă) este aceea de
considera ca valoare aberant ă orice valoare care este dep ărtată de medie cu mai mult
de trei abateri standard.
În situația special ă a regresiei liniare, problematica valorilor aberante este mai
complexă deoarece anumite valori extreme (nu toate) pot influen ța major coeficien ții
regresiei. Se pot astfel identifica valori aberante
• între valorile y (în spa țiul răspunsurilor)
• între valorile x (în spa țiul x, al variabilelor independente)
• în ambele spa ții.
În problematica valorilor aberante se disting astfel dou ă aspecte: identificarea
valorilor aberante și modul de tratare a valorilor identificate.
Identificarea valorile aberante se realizeaz ă prin analiza reziduurilor
standardizate, caz în care se identific ă valorile extreme în spa țiul y. Din p ăcate,
anumite valori din acest spa țiu nu pot fi identificate din cauz ă că, prin procesul de
estimare, curba de regresie a fost "tras ă" spre valoarea extrem ă. Acest fapt se întâmpl ă
atunci când valori extreme y sunt asociate valorilor extreme din spa țiul x (așa-zisele
puncte pârghie – leverage points ; punctele extreme y asociate valorii medii x nu
modifică în mod exagerat curba). Au fost atunci dezvoltate și măsuri specifice pentru
identificarea acelor puncte care influen țează semnificativ regresia. Una este distan ța
Cook (sau D), explicat ă în continuare.
Cook's D . Considerând s – eroarea standard a estima ției, jyˆ – valoarea
estimată (pentru a j-a observa ție) și )(ˆiyj – valoarea estimat ă din regresia calculat ă
după omiterea celei de a i-a observa ții, distanța Cook pentru observa ția (punctul) i se
definește prin
()
n i
s kiy y
Dn
jj j
i ,,1 ,
)1()(ˆ ˆ
212
K=
+−
=∑=
adică o măsură a influen ței celei de a i-a observa ții asupra tuturor valorilor
prognozate. Regula detect ării unei valori aberante este, pentru distan ța Cook,
)1(4
+−≥knDi
Deoarece n este uzual mult mai mare decât k, unii autori propun devizarea
doar la n. Prin aceast ă regulă are loc o supraidentificare, mai multe valori aberante
decât ar fi natural, și se recomand ă tratarea acestor distan țe ca o nou ă variabilă pentru
care se determin ă valorile sale aberante (de exemplu regula celor 3 abateri standard).
De remarcat c ă procedura care utilizeaz ă distanța Cook identific ă acele
observații care au o influen ță majoră asupra coeficien ților de regresie (asupra
modelului estimat).
Tratarea valorilor aberante presupune, ca abordare direct ă, eliminarea acestora
(a observa țiilor care le con țin) și refacerea regresiei. Se poate totu și ca în acest mod de
abordare s ă se piardă informații valoroase, poate singurele cu adev ărat importante în
procesul studiat. Prin urmare, se va studia în prealabil:
• dacă valorile au ap ărut în urma unor erori de m ăsurare,
• dacă reprezint ă cazuri neimportante pentru procesul studiat,
• dacă există influențe majore asupra modelului (a coeficien ților).
In cazul neîndeplinirii unei asemenea condi ții, atunci valoarea nu este
eliminată și se va încerca, pentru o adecvan ță mai mare a modelului, s ă se obo
adecvanță mai mare a modelului, s ă se obțină determin ări suplimentare în acea
regiune a spa țiului variabilelor.
Transform ări de variabile
În cazul în care rela ția dintre y și x nu pare a fi liniar ă, situație detectabil ă
într-o diagram ă de împrăștiere, sau dispersia valorilor y nu pare a fi constant ă după
valorile lui x, se poate încerca o
transformare prealabil ă a lui x și/sau
y. Mosteller și Tukey (1977) propun
un ghid ( bulging rule ) pentru
selectarea unei transform ări care să
pconducă la o "liniarizare" a rela ției.
Se observ ă, în figura al ăturată, că pe
fiecare ax ă, x sau y, se propune o
creștere (x2, x3 …) sau o sc ădere (log
x, x, 1/x …) a gradului variabilei
respective. Prin urmare, se va
identifica forma rela ției în diagrama
de împrăștiere și se vor utiliza
transform ările din cadranul
corespunz ător.
Un alt set de propuneri de transform ări de variabile pornesc de la histograma
valorilor variabilei ( și nu de la diagrama de împr ăștiere):
Histograma variabilei x Transformarea propus ă
1. x
2. lg x
3. x1
4. x x −+1) max(
5. lg (max( x) +1– x)
6. x x −+1) max(1
De notat c ă situațiile 4 – 6 sunt reduse la 1 – 3 prin simetrizare.
Regresia polinomial ă
Un caz particular des utilizat de model liniar este regresia polinomial ă.
Modelul polinomial este
y = α0 + α1x + α2×2 + … + αpxp + ε
Se observ ă că există o singur ă variabilă independent ă, x. Acest model se
impune atunci când forma rela ției dintre y și x este curbilinie, fapt sugerat de
diagrama de împr ăștiere sau de considerente teoretice.
Pentru a estima un model polinomial este necesar, dac ă produsul informatic
utilizat nu dispune de o procedur ă specializat ă, să se genereze variabilele
independente ca puteri ale variabilei ini țiale.
y x x2 …xp
y1 x 1 x 12…x 1p
y2 x 2 x 22…x 2p
……… ……
Estimarea are loc prin procedura uzual ă a regresiei multiple, considerând
puterile calculate drept noi variabile, cu acelea și interpret ări și teste ca la modelul
liniar.
B. Instrumente SPSS
SPSS
Dreapta de regresie
Reamintim principalul dialog pentru estimarea unui model liniar se ob ține prin
Analyze –Regression –Linear.
În Dependent se va transfera
variabila dependent ă. Variabilele
independente, Independent (s), pot fi
grupate pe blocuri: 1. se transfer ă
variabilele dorite, 2. se precizeaz ă în
Method modul de introducere a acestor
variabile în regresie ( Enter – toate
simultan, Forward , Backward , Stepwise –
metodele discutate la alegerea celei mai bune regresii), 3. se define ște un nou bloc
prin Next.
Se pot selecta observa țiile
precizând în
Selection Variable variabila
și, prin Rule , regula de selectare a
cazurilor în func ție de valorile variabilei
de selecție.
Butonul Statistics deschide
dialogul sinonim în care se pot preciza
statisticile calculate. Unele op țiuni sunt
selectate și în mod implicit.
Estimates – coeficien ții estima ți,
Confidence intervals – intervalele de
încredere ale coeficien ților, Model fit –
calcularea statisticilor R, R2 și a tabelului
ANOVA, R squared change – modific ărea
coeficientului de determinare și testarea semnifica ției schimb ării
la adăugarea fiec ărui bloc de variabile, Descriptive – statisticile
esențiale pentru fiecare variabil ă
Pentru tema curent ă este important ă alegerea C ollinearity diagnostics –
calcularea toleran țelor, a statisticilor VIF și studiul multicoliniarit ății prin analiza în
componente principale (a se vedea capitolul urm ător al cursului). În acest caz, tabelul
privind coeficien ții modelului estimat va con ține încă două coloane cu statisticile
privind diagnosticul coliniarit ății.
Apare totodat ă în fișierul de ie șire un tabel intitulat Collinearity Diagnostics
care conține informa ții privind analiza factorial ă (a se vedea capitolul urm ător din
curs) a variabilelor independente. Se poate deocamdat ă interpreta (mecanic) faptul c ă
existența mai multor valori proprii situate în imediata vecin ătate a lui 0 denot ă o
posibilă coliniaritate în variabilele independente.
In ceea ce prive ște valorile aberante reamintim dialogul Plots (prezentat în
lucrarea trecut ă) prin intermediul c ăruia se pot solicita diagramele asociate
reziduurilor.
Din dialogul Save, care permite calcularea și salvarea unor variabile noi
(valorile prognozate, reziduuri sub diferite forme etc.) accentu ăm elementele:
Distances – distan țele cazurilor de la punctul mediu, pentru identificarea
valorilor aberante: Mahalanobis este distan ța explicat ă în capitolul privind
clasificarea, Cook's este distan ța Cook explicat ă mai sus (o valoare mare arat ă o
influență considerabil ă a cazului în estimarea coeficien ților), Leverage values măsoară
influența cazurilor în estimare.
Influence Statistics sunt modific ările în coeficien ți (inclusiv cei standardiza ți),
DfBeta(s) și Standardized DfBeta , și în valorile prognozate, DfFit și Standardized
DfFit , rezultate dup ă excluderea cazului din estimare.
In ieșirea SPSS, valorile aberante pot fi deci identificate prin
1) Std residual sau Stud Residual mai mari decât 3 în valoare absolut ă.
2) Standardized DfBeta mai mari de 1 (sau, dup ă alți autori, chiar mai mari de
2/Sqrt(N)).
3) Cook’s D mai mare decât 4/N pot indica observa ții cu probleme..
C. Lucrarea practic ă
1) Se va salva și deschide fi șierul
www.infoiasi.ro/~val/statistica/Expenditures.xls
Datele se refer ă la cheltuielile publice (1960) pe cap de locuitor în statele
americane. Variabilele sunt
EX: cheltuieli publice pe locuitor
ECAB: indice de dezvoltare economic ă
MET: procentajul popula ției din zone metropolitane
GROW: modificarea procentual ă a populației 1950-1960
YOUNG: procentajul popula ției tinere 5-19 ani
OLD: procentajul popula ției peste 65 ani
WEST: 1 pentru statele din vest, 0 pentru celelalte
i) să se studieze rela ția dintre EX (nivelul cheltuielilor) și indicatorii
demografici și economici (ECAB, MET, GROW, YOUNG, OLD)
ii) se va estima o regresie polinomial ă în cazul în care asocierea pare a fi
curbilinie
iii) se vor identifica valorile aberante și se va reface estimarea prin excluderea
acestora
iv) se va estima și analiza regresia multipl ă
EX = f(ECAB, MET, GROW, YOUNG, OLD)
atât pe ansamblu, cât și pentru fiecare categorie de state (estice, vestice).
Se vor identifica diferen țele.
2) Se va deschide fi șierul Employee Data.sav dintre fi șierele de test SPSS.
i) se va modela salariul curent func ție de celelalte variabile continue.
(1) se va studia influen ța variabilelor independente.
(2) se vor analiza și trata valorile aberante.
ii) se va reface analiza pentru fiecare categorie de job
Copyright Notice
© Licențiada.org respectă drepturile de proprietate intelectuală și așteaptă ca toți utilizatorii să facă același lucru. Dacă consideri că un conținut de pe site încalcă drepturile tale de autor, te rugăm să trimiți o notificare DMCA.
Acest articol: Statistic ă multivariat ă [622140] (ID: 622140)
Dacă considerați că acest conținut vă încalcă drepturile de autor, vă rugăm să depuneți o cerere pe pagina noastră Copyright Takedown.
