1UUNNIIVVEERRSSIITTAATTEEAA CCOONNSSTTAANNTTIINN BBRRAANNCCUUSSII DDIINN TTÂÂRRGGUU JJIIUU [602796]
1UUNNIIVVEERRSSIITTAATTEEAA „„CCOONNSSTTAANNTTIINN BBRRAANNCCUUSSII”” DDIINN TTÂÂRRGGUU JJIIUU
FFAACCUULLTTAATTEEAA DDEE ȘȘTTIIIINNȚȚEE EECCOONNOOMMIICCEE ȘȘII GGEESSTTIIUUNNEEAA AAFFAACCEERRIILLOORR
DDEEPPAARRTTAAMMEENNTTUULL PPEENNTTRRUU ÎÎNNVVĂĂȚȚĂĂMMÂÂNNTT LLAA DDIISSTTAANNȚȚĂĂ ȘȘII FFOORRMMAARREE CCOONNTTIINNUUĂĂ
Lect. univ. dr. DANIELA-EMANUELA DÃNÃCICÃ
ECONOMETRIE
pentru uzul studen ților ID
Editura Academica Brâncu și
Târgu Jiu, 2014
2Referenți științifici:
Prof. univ. dr. Ana-Gabriela Babucea
Lect. univ. dr. Aniela Bãlãcescu
3
Cuprins
INTRODUCERE ………………………………………………………………………………………………… 6
MODULUL 1
UUNNIITTAATTEEAA 11:: IInnttrroodduucceerree îînn ssttuuddiiuull eeccoonnoommeettrriieeii…………………… 10
U1.1. Scopul și obiectivele unit ății……………………………………………………………………. 10
U1.2. Definirea și caracterizarea econometrie……………………………………………………. 11
U1.3. Noțiuni și concepte fundamentale ale econometriei……………………………………. 13
U1.4. Natura și sursa datelor folosite în analiza econometric ă………………………………
U1.5. Limit ări ale model ării econometrice…………………………………………………………. 14
17
U1.6. Test de autoevaluare……………………… ………………………………………………………. 17
U1.7. Rezumat……………………………………………………………………………………………….. 19
Bibliografie minimal ă……………………………………………………………………………………… 19
MMOODDUULLUULL 22
UUNNIITTAATTEEAA 22:: Modelul liniar simplu –partea I…………….. 2211
U2.1. Scopul și obiectivele unit ății……………………………………………………………………. 21
U2.2. Originile istorice ale termenului regresie. Interpretarea modern ă a
termenului regresie……………………………………………………………………………….. 22
U2.3. Regresie vers us cauzalitate. Regresie versus corela ție………………………………… 23
U2.4. Specificarea și definirea modelului liniar simplu……………………………………….. 26
U2.5. Estimarea parametrilor unui model econ ometric liniar simplu ……………………. 28
U2.6. Test de autoevaluare……………………… ………………………………………………………. 30
U2.7. Rezumat……………………………………………………………………………………………. … 30
Bibliografie minimal ă……………………………………………………………………………………… 30
UUNNIITTAATTEEAA 33:: Modelul liniar simplu –partea a-II-a………. 3322
U3.1. Scopul și obiectivele unit ății…………………………………………………………………… 32
U3.2. Covarian ța. Coeficientul de corela ție liniară simplă…………………………………… 33
U3.3. Inferen ța statistică în cadrul modelului liniar simplu………………………………….. 35
U3.4. Asump țiile regresiei……… …………… …………… ………….. ……………. ………… ……….. 39
U3.5. Eroarea standard a estim ării……………………………………………………………………. 41
U3.6. Aplica ție rezolvat ă…………………………………………………………………………………. 41
U3.7. Comenzi SPSS pentru modelul liniar simplu…………………………………………….. 47
U3.8. Test de autoevaluare……………………… ………………………………………………………. 50
U3.9. Rezumat……………………………………………………………………………………………….. 50
Bibliografie minimal ă…………………………………………………………………………………….. 51
TEMA DE CONTROL NR. 1 ……………………………………………………………………….. 52
MMOODDUULLUULL 33
UUNNIITTAATTEEAA 44:: Modelul liniar multiplu partea I…………. 5555
U4.1. Scopul și obiectivele unit ății…………………………………………………………………… 55
U4.2. Specificarea și definirea modelului liniar multip lu…………… ………….. …………… 56
U4.3. Estimarea parametrilor modelu lui liniar multiplu…………. ……….. …………. ……… 57
U4.4. Estimarea coeficientului de corela ție multipl ă…………………………………………… 59
4U4.5. Test de autoevaluare……………………… ………………………………………………………. 61
U4.6. Rezumat……………………………………………………………………………………………….. 63
Bibliografie minimal ă……………………………………………………………………………………… 63
UUNNIITTAATTEEAA 55:: Modelul liniar multiplu partea a-II-a……… 6644
U5.1. Scopul și obiectivele unit ății……………………………………………………………………. 64
U5.2. Inferen ța statistică în cadrul modelului liniar multip lu…………. …………… ………. 65
U5.3. Multicoliniaritatea………………………………………………………………………………….. 67
U5.4. Aplica ție rezolvat ă…………………………………………………………………………………. 71
U5.5. Comenzi SPSS pentru modelul liniar multiplu…………………………………………… 76 U5.6 Test de autoevaluare……………………… ………………………………………………………. 78
U5.7. Rezumat……………………………………………………………………………………………….. 80 Bibliografie minimal ă……………………………………………………………………………………… 80
TEMA DE CONTROL NR. 2………………………………………………………………………………. 81
MODULUL 4
UUNNIITTAATTEEAA 66:: Regresia parabolicã……………………….. 8833
U6.1. Scopul și obiectivele unit ății……………………………………………………………………. 83
U6.2. Neliniaritatea unor rela ții de dependen ță dintre variabilele socio-economice…. 84
U6.3 Definirea și specificarea modelului de regresie porabolic…………………………….. 85
U6.4. Estimarea parametrilor modelului de regresie porabolic……………………………… 86
U6.5. Cuantificarea intensit ății legăturii dintre variabile în modelul parabolic ………. 88
U6.6. Test de autoevaluare……………………… ………………………………………………………. 89
U6.7. Rezumat……………………………………………………………………………………………….. 90
Bibliografie minimal ă……………………………………………………………………………………… 90
UUNNIITTAATTEEAA 77:: RReeggrreessiiaa hhiippeerrbboolliiccãã………………………………………………………… 9911
U7.1. Scopul și obiectivele unit ății……………………………………………………………………. 91
U7.2. Definirea și specificarea modelului de regresie hiperbolic…………………………… 92
U7.3. Estimarea parametrilor modelului de regresie hiperbolic…………………………….. 93
U7.4. Cuantificarea intensit ății legăturii dintre variabile în modelul hiperbolic………. 94
U7.5. Test de autoevaluare……………………… ………………………………………………………. 94
U7.6. Rezumat……………………………………………………………………………………………….. 95
Bibliografie minimal ă……………………………………………………………………………………… 96
UUNNIITTAATTEEAA 88:: RReeggrreessiiaa eexxppoonneennțțiiaallãã…………………………………………………….. 97
U8.1. Scopul și obiectivele unit ății……………………………………………………………………. 97
U8.2. Definirea, specificarea modelului de regresie exponen țială și estimarea
parametrilor……………………………………………………………………………………. …… 98
U8.3. Cuantificarea intensit ății legăturii dintre variabile în modelul exponen țial……. 100
U8.4. Test de autoevaluare……………………….. …………………………………………………….. 100
U8.5. Rezumat ……………………………………………………………………………. 102 Bibliografie minimal ă……………………………………………………………………………………… 102
UUNNIITTAATTEEAA 99:: Inferența statisticã în cadrul modelelor neliniare……………. 103
UU99..11.. Scopul și obiectivele unit ății…………………………………………………………………. 103
UU99..22.. Inferența statistică în cadrul modelului parabolic…………………………………….. 104
UU99..33.. Inferența statistică în cadrul modelului hiperbolic…………………………………… 108
UU99..44.. Inferența statistică în cadrul modelului exponen țial………………………………….. 111
UU99..55.. Aplicație rezolvat ă………………………………………………………………………………. 114
UU99..66.. Comenzi SPSS pentru modelele neliniare……………………………………………….. 125
5 U9.7. Test de autoevaluare………………………………………………………………………………… 1 29
U9.8. Rezumat……………………………………………………………………………………………… … 131
Bibliografie minimal ă………………………………………………………………………………………… 131
MODULUL 4
UUNNIITTAATTEEAA 1100:: Analiza datelor de supravie țuire. Func ția de
supraviețuire și funcția de hazard………………………………………………………………. 133
U10.1. Scopul și obiectivele unit ății………………………………………………………………….. 133
U10.2 No țiuni introductive privind analiza datelor de supravie țuire……………………… 134
U10.3. Funcția de supravie țuire și funcția de hazard……………………………….. ………… 138
U10.4. Estimarea func ției de supraviețuire………………………………………………………… 141
U10.5. Test de autoevaluare…………………………………………………………………………….. 148
U10.6. Rezumat…………………………………………………………………………………………….. 150 Bibliografie minimal ă………………………………………………………………………………………
150
UUNNIITTAATTEEAA 1111:: MMooddeelluull ddee rreeggrreessiiee CCooxx ccuu hhaazzaarrdd
pprrooppoorrțional…………………………………………………………………………………………… 151
U11.1. Scopul și obiectivele unit ății………………………………….. ………. .. 151
U11.2. Modelul de regresie Cox cu hazard propor țional………………………………………. 152
U11.3. Aplicație rezolvat ă……………………………………………………………………………….. 156
U11.4. Test de autoevaluare…………………………………………………………………………….. 159
U11.5. Rezumat…………………………………………………………………………………………… .. 160
Bibliografie minimal ă……………………………………………………………………………………… 160
TEMA DE CONTROL NR.3………………………………………………………………. 161
Bibliografie…………………………………………………………………………………….. 163
6Introducere
Scopul cursului:
Deși metodele cantitative și utilizarea aces tora în economie a fost o
preocupare constant ă a economi știlor încă din secolele XVII și XVIII, totu și
Econometria, ca disciplină economic ă de frontier ă rezultat ă din
întrepătrunderea dintre teorie economic ă, statistică și matematic ă este o știință
relativ tân ără. Înființarea Societății de Econometrie, la 29 decembrie 1930 este
determinant ă pentru cristalizarea Econometriei ca știință economic ă.
Volumul de fa ță este conceput pentru a veni în sprijinul studen ților de
la Facultatea de Științe Economice și Gestiunea Afacerilor, forma de
învățământ la distan ță, Universitatea Constantin Brâncu și din Târgu-Jiu, dar
conține informa ții utile pentru orice student în domeniul științelor economice.
Volumul cuprinde 5 module în tr-o ordine bine gândit ă, logică, reușind să
acopere unele dintre cele mai intens dezb ătute topicuri din econometria
modernă. Cele 5 module sunt divizate în 11 unit ăți de învățare, fiecare unitate
prezentând obiectivele înv ățării, aspecte metodologice și aplicative ale
subiectului abordat, aplica ții rezolvate, teste de autoevaluare, rezumate,
concluzii, referin țe bibliografice minimale și teste de control. De asemenea
sunt prezentate comenzii specifice soft -ului statistic SPSS pentru prelucrarea
datelor cu ajutorul calculatoarelor. O unitate de înv ățare acoper ă în medie 2 ore
de studiu individual și este conceput ă ca o înl ănțuire logic ă de sarcini de
învățare, în care un rol determinan t revine studiului individual și autoevalu ării.
Prin parcurgerea acestui volum veți avea posibilitatea însu șirii
noțiunilor și conceptelor ce stau la baza construirii, utiliz ării și rezolvării
modelelor econometrice. La sfâr șitul acestui curs ve ți putea în țelege mai bine
legăturile dintre fenomenele și procesele economice, ve ți fi capabili s ă
modelați aceste leg ături și veți putea realiza previziuni privind evolu ția
indicatorilor micro sau macroeconomici într-o manier ă probabilist ă.
7
Obiectivele cursului:
Cursul de Econometrie oferă studenților posibilitatea însu șirii noțiunilor și
conceptelor ce stau la baza construirii, utiliz ării, rezolv ării și validãrii modelelor
econometrice. Cursul de econometrie î și propune sã ofere mãsurãri empirice
pentru teoria economicã și metode de verificare a teoriei economice cu ajutorul
testelor.
La sfârșitul acestui curs:
9 veți fi capabili sã în țelegeți noțiunile și conceptele fundamentale ale
econometriei
9 veți fi familiariza ți cu natura și sursa datelor folosite în analiza
econometricã
9 veți cunoaște limitãrile modelãrii econometrice
9 veți fi familiariza ți cu problemele metodologice și aplicative generate de
utilizarea modelului simp lu liniar în economie
9 veți înțelege importan ța testãrii semnifica ției statistice generale a
modelului liniar simplu și importan ța testãrii semnifica ției statistice a
estimatorilor coeficien ților de regresie
9 veți fi familiariza ți cu utilitatea modelului liniar multiplu pentru modelarea
fenomenelor economice complexe
9 veți înțelege importan ța verificãrii prezen ței multicoliniaritã ții în modelul
liniar multiplu și veți fi capabili sã identifica ți soluții pentru atenuarea
multicoliniaritãtii
9 veși înțele importan ța modelelor neliniare în contextul dinamismului
ridicat manifestat de fenomenele și procesele economice
9 veți întelege importanta testãrii verosimilitã ții modelelor neliniare și a
semnnifica ției statistice a estimatorilor coeficien ților de regresie
9 veti înțelege importan ța estimãrii și interpretãrii corecte a intensitã‚ii
legãturilor dintre diferite fenomene și procese economice
9 veți înțelege importan ța analizei datelor de supravie țuire pentru cercetarea
economicã
9 veți fi familiariza ți cu noțiunea de cenzurare, func ție de supravie țuire și
funcție de hazard
89 veți fi familiariza ți cu no țiunea de duratã medie și medianã de
supraviețuire, curbã de supravie țuire
9 veți înțelege importan ța testãrii diferen țelor observate între diferite curbe
de supravie țuire
9 veți fi familiariza ți cu aspecte metodologice și aplicative ale modelului
Cox cu hazard propor țional.
Timpul alocat:
Evaluarea:
Temele de control vor avea o pondere de 30% în nota final ă, restul reprezint ă 60%
nota la testul de verificare a cuno ștințelor de la examenul programat în sesiunea de
examene și 10% accesarea platformei e-learning.
Durata medie de studiu individual a con ținutul cursului – 22 ore(SI)
Activități tutoriale – 4 ore (AT)
Elaborarea temelor de control – 20 ore(TC)
9
MODULUL 1
UNITATEA 1: INTRODUCERE ÎN
STUDIUL
ECONOMETRIEI
10
Cuprins: U1.1. Scopul și obiectivele unit ății
U1.2. Definirea și caracterizarea econometriei
U1.3. Noțiuni și concepte fundamentale ale econometriei
U1.4. Natura și sursa datelor folosite în analiza econometric ă
U1.5. Limit ări ale model ării econometrice
U1.6. Test de autoevaluare
U1.7. Rezumat
Bibliografie minimal ă
U1.1. Scopul și obiectivele unit ății
Scopul acestei unit ăți de învățare este acela de a v ă introduce în universul
econometriei, o ramură interdisciplinar ă a științelor economice, rezultată din
întrepătrunderea dintre economie, matematic ă și statistic ă. Scopul econometriei
este acela de a oferi posibilitatea cuantific ării fenomenelor economice și de
verificare a teoriei economi ce cu ajutorul testelor.
La finalul parcur gerii acestei unit ăți de învățare:
veți fi familiariza ți cu etapele de dezvolta re ale econometriei ca știință
veți înțelege noțiunile și conceptele fundamentale ale econometriei UNITATEA 1
Introducere în studiul econometriei
Durata medie de studiu individual – 2 ore
11 veți fi familiariza ți cu natura și sursa datelor folosite în analiza
econometric ă
veți cunoaște limitările model ării econometrice
veți obține un scor de cel pu țin 80% într-un interval de timp de maxim 20
minute la testul de la sfâr șitul acestei unit ăți de învățare.
U1.2. Definirea și caracterizarea econometriei
Din punct de vedere et imologic, termenul econometrie își are rădăcinile
în cuvintele grece ști eikonomia (economie) și metren (măsură). Termenul
econometrie a fost introdus în anul 1926 de c ătre economistul și statisticianul
norvegian Ragnar Frisch, laureat al premiului Nobel pentru Economie în anul
1969. Pornind de la termenul biometrie , folosit la sfâr șitul sec. XIX de c ătre
Francis Galton și Karl Pearson, termen ce desemna cercet ările biologice ce
utilizau tehnicile specifice statisticii matematice, Ragnar Frisch utilizeaza
analogia și enunță conceptul de econometrie.
Însă utilizarea metodelor cantitative în economie au
preocupateconomi știi încă din secolele XVII și XVIII, debutul preocup ărilor în
acest domeniu fiind întâlnite la Sir William Petty, care prin simple colec ții de date
a pus bazele “ metodelor statistice “. În secolul XVII a fost elaborat calculul
diferențial de către Newton în Anglia și Leibnitz în Germania, fiind cel mai
important instrument la începuturile aplic ării matematicii în economie. Lloyd,
Bernoulli, Depuit, von Thunen sunt doar câ țiva cercet ători ai vremii care au
început s ă aplice tehnicile matematice înainte de “revolu ția marginalist ă“.
Augustin Cournout și munca sa remarcabil ă poate fi considerat un moment cheie
în dezvoltarea ulterioar ă a aplicării matematicilor în economie. Înc ă din anul
1860, fondatorul școlii marginaliste engleze William Stanley Jevons eviden ția
importanța utilizării funcțiilor matematice în economie. În 1871 acesta publica
lucrarea “ Teoria economiei politice “ în cadrul c ăreia expunerea principiilor
economice se realiza prin utilizarea no țiunilor de algebr ă și a diagramelor.
Aplicarea matematicii în economie a progresat mult dup ă Jevons, prin publicarea
lucrărilor lui Walras, Edgeworth, Fisher și Pareto. Pe aceste fundamente s-a
construit aparatul familiar nou ă, al teoriei neoclasice moderne, cum ar fi de ex.
curbele de indiferen ță și isocoantele.
12 Înfiin țarea Societății de Econometrie la 29 decembrie 1930 precum și a
revistei “ Econometrica ” în anul 1933 are un efect major în dezvoltarea
Econometriei ca disciplin ă economic ă de frontier ă, cristalizat ă din
întrepătrunderea dintre teorie economic ă, statistică și matematic ă. Cei care au pus
bazele acestei nou înfiin țate Societăți de Econometrie au fost Ragnar Firsch,
Charles Roos, Joseph Schumpeter, Haro ld Hotelling, Henry Schultz, Karl
Menger, Edwin Wilson, Frederick Mills, William Ogburn, J. Harvey Rogers, Malcom Rorty, Carl Snyder, Walter A Shewhart, Oystein ore, Ingvar
Wedervang și Norbert Wiener. Primul pre ședinte al Societ ății de Econometrie a
fost Irving Fisher .
După cel de-al doilea r ăzboi mondial cercetarea economic ă devine din ce
în ce mai dominat ă de aparatul matematic.
La ora actual ă, putem vorbi de trei categorii de defini ții ale econometriei:
a) definiția istorică, formulată de către Ragnar Frisch în primul num ăr al revistei
Econometrica, în anul 1933: „ experiența a arătat că fiecare din urm ătoarele
trei puncte de vedere, al stat isticii, al teoriei economice și al matematicii, este
o condiție necesar ă, dar nu și suficient ă, pentru o în țelegere efectiv ă a
realităților cantitative din economia modern ăș unificarea lor este aceea care
asigură eficiența. Econometria este tocmai aceast ă unificare” ( Pecican si
colectiv, 2008) .
b) definiția restrictiv ă, enunțată de către Cowles Commissi on for Research in
Economics; prin aceast ă definiție se subliniaz ă că nu putem vorbi de analiz ă
econometric ă dacă investigarea fenomenelor economice nu se realizeaz ă cu
ajutorul modelelor stochastice. Sus ținătorii acestei defini ții considerau c ă se
pot include în domeniul econometriei doar cercet ările economice ce utilizeaz ă
metodele induc ției statistice pentru verificarea rela țiilor cantitative formulate
de către teoria economic ă cu privire la fenomenele economice analizate.
c) definiția extins ă a econometriei, enunțată și popularizat ă de economi știi
anglo-saxoni, defini ție ce include în domeniul econometriei metodele
cercetării opera ționale precum teoria grafurilor, teoria jocurilor, teoria
optimului, teoria deciziilor, procese stochastice, etc.
În România, econometria, ca disciplin ă de studiu introdus ă în planurile
de învățământ ale facult ăților de științe economice cuprinde totalitatea metodelor
de investigare cantitativ ă a fenomenelor și proceselor economice. A șa cum am
subliniat și anterior, econometria este o disciplin ă de graniță apărută ca urmare a
13interacțiunii dintre statistic ă, matematic ă și teoria economic ă, ce studiaz ă
fenomenul economic dar sub asp ect cantitativ. Pionierii utiliz ării metodelor
cantitative în țara noastr ă au fost profesorii Mihail Manoilescu și Nicolae
Georgescu-Roegen.
U1.3. Noțiuni și concepte fundamentale ale econometriei
a) Modelul econometric- este un instrument de cercetare științifică, o
construcție teoretic ă ce reproduce în mod simbolic teoria economic ă a
obiectivului cercetat. Cu ajutorul unui model econometric, fenomenul
economic analizat este supus cercet ării, experiment ării și verific ării,
obținându-se astfel informa ții privind comportamentul acestuia. Modelele
econometrice, prin antitez ă cu modelele economice, explic ă substanța unui
fenomen economic din perspective teorie i economice; acestea sunt totdeauna
construite cu un scop prestabilit, de prognoz ă, de simulare a aplic ării
anumitor politici și strategii economice, de verificare a unei teorii, etc.
b) Variabilele- sunt elemente de baz ă ale unui model econometric . În funcție de
modul lor de exprimare, variabilele se clasific ă în:
variabile economice cantitative (ex. rata șomajului, PIB/capita, IPC,
producție, etc)
variabile economice calitative (ex. nivel educa țional, calitatea produselor,
apartenen ță macroregiuni de dezvoltare, etc).
După natura varia ței avem:
variabile cu varia ție continu ă (ex. vârsta indivizi lor, salariul angaja ților,
cifra de afaceri, etc)
variabile cu varia ție discretă (ex. num ăr angajați, număr unități economice,
etc).
După modul de prezentare al variabilelor avem:
mărimi certe
mărimi aleatoare
Variabilele unui model econometric pot fi variabile endogene , notate de
regulă cu iY, i=1,n , unde n este num ărul variabilelor endogene sau variabile
14exogene , notate cu jX, j=1,k, unde k este num ărul variabilelor independente,
exogene. În practica economic ă, pe lângă acțiunea variabilele exogene jX există
și o serie de alte variabile ce ac ționează asupra variabilei endogene iY, variabile
nespecificate în model ce poart ă numele de variabile aleatoare (random ).
Influența acestor variabile asupra variabilei rezultative iY este considerat ă, pe
baza ipotezelor economice, ca fiind întâmpl ătoare, neesen țială, spre deosebire de
variabilele exogene a c ăror influen ță este determinant ă pentru variabilitatea
variabilei iY .
Un alt tip de variabil ă întâlnită într-un model econometric este variabila
timp, notată cu t. Variabila timp este introdus ă în anumite modele econometrice
ca variabil ă explicativ ă a fenomenului iYimprimând acestuia un caracter dinamic
(spre deosebire de modelele statice).
U1.4. Natura și sursa datelor folosite în analiza econometric ă
Datele privind variabilele unui m odel econometric sunt culese, în
general, din baze de date statistice oficia le (precum INSSE, Eurostat, etc), anuare
statistice sau prin intermediul anch etelor statistice. Calitatea estima țiile pe care le
obținem cu ajutorul unui m odel econometric este func ție de acurate țea datelor
utilizate. Calitatea datelor, veridicitatea acestora și acuratețea lor este o problem ă
foarte important ă în econometrie. Datele utilizate nu trebuie s ă fie viciate de erori
sistematice de observare și prelucrare și trebuie s ă îndeplineasc ă condițiile de
omogenitate (Pecican și colectiv, 2008).
În cadrul unui model econom etric, un fenomen economic {}i iy Y= ,
n i,1= poate fi analizat prin intermediul urm ătoarelor valori ale variabilelor
economice:
a) valori reale sau empirice , ) ,…,(2 1 n i y yy y= rezultate în urma m ăsurării
fenomenului analizat. Vectorul valo rilor ce descriu fenomenul analizat,
) ,…,(2 1 n i y yy y= poate fi definit prin intermediul mediei aritmetice și a abaterii
standard a variabilei Y, după relațiile:
15ny
yn
ii∑
==1
nyyn
ii2
1 2) (−
==∑
=σσ
Unde cu 2σam notat dispersia variabilei Y.
b) valori centrate, yy yii−=*
. Valorile centrate au media egal ă cu zero și
dispersia egal ă cu dispersia valorilor centrate. Astfel avem:
,0) (
1 *=−
=∑
=
nyy
yn
ii
unde cu *y am notat media valorilor centrate.
nyy
ny yn
iin
ii∑ ∑
= =−
=−
=12
12*
2*) ( ) *(
σ
Unde cu *2σam notat dispersia valorilor centrate.
c) Valori centrate și normate sau abateri standard
σyyyii−=**
Media și dispersia acestor valori sunt descrise de rela țiile:
nyy
yn
ii
i∑
=−
=1 **σ
nyyn
ii 2
12**) (∑
=−
=σσ =1
În componen ța modelelor econometrice putem identifica diverse tipuri de
relații, exprimate de ecua țiile matematice, precum:
a) relații de identitate , de tipul ecua țiilor balan ță, ce corespund unor formul ări
logice cu privire la pro cesul economic descris.
16 b) relații tehnologice , ce descriu restric țiile impuse produc ției, out-put-urilor în
raport de in-put-uri, adic ă bunurile de capital disponi bile, resursele de munc ă
existente în economie, factori de produc ție, etc. Aceste rela ții tehnologice sunt
reprezentate de dife ritele tipuri de func ții de produc ție.
c) relațiile de comportament , ce descriu ecua țiile stochastice care reprezint ă și
modeleaz ă un proces de luare a deciziei, care încearc ă să descrie r ăspunsul
variabilei endogene Y, sub forma deciziei , la un set de valori ale variabilei
exogene (ex. analiza dependen ței dintre produc ție și productivitate, consum și
investiții, prețuri și rata infla ției, etc).
d) Relațiile institu ționale au rolul de a explica în mod determinist sau stochastic
fenomenele care sunt determinate fie de lege fie de tradi ție, sau obiceiuri.
Tipologia modelelor econometrice este vast ă și totodată complex ă. Un
model econometric poate fi construi t prin intermediul unei singure ecua ții sau cu
ajutorul unui sistem de ecua ții de tipul celor patru rela ții menționate mai sus,
numite modele cu ecua ții multiple.
Testele statistice –sunt instrumente de baz ă cu ajutorul c ărora se accept ă
sau se resping ipotezele formulate în cadrul modelelor econometrice. Testele
statistice ofer ă posibilitatea cercet ătorului să decidă, cu o certitudine rezonabil ă,
dacă datele statistice anali zate sunt rezultatul unui proces caracterizat de o
anumită proprietate testat ă. Procesul de testarea statistic ă presupune lucrul cu
două ipoteze, ipoteza nul ă 0H și ipoteza alternativ ă,
AH . Pe baza rezultatului
calculului unor statistici vom respinge o ipotez ă și o vom accepta pe cea
alternativ ă. De regul ă o ipoteză este respins ă în situația în care diferen ța dintre
estimarea parametrului corespunz ător și valoarea specificat ă a acestuia este prea
mare.
Nivelul de semnifica ție al unui test statistic este probabilitatea ca
procedura de testare s ă respingă ipoteza nul ă a testului, atunci când aceasta este
adevărată. Nivelul de semnifica ție marginal ă a unui test se nume ște p-value .
Cunoscând valoarea p-value pentru un test st atistic, putem cunoa ște dacă ipoteza
nulă se respinge sau trebuie acceptat ă.
Cele mai uzuale teste statistice folosite în practica statistic ă și
econometric ă sunt testul testul χ2, testul t – Student, testul F- Fisher Snedecor,
testul Wald, etc .
17U1.5. Limit ări ale model ării econometrice
Modelele econometrice exprimă într-o form ă abstractă caracteristicile
esențiale ale proceselor economice privite sub aspectul cauzalit ății sau sub
aspectul evolu ției în timp. Domeniul ec onometriei se intersecteaz ă cu cel al altor
discipline economice precum: teorie economic ă generală, statistică matematic ă,
previziune/simulare, economi a muncii, dezvoltare economic ă, etc.
Ca limitări ale modelelor econometrice putem enun ța: un model
econometric exprim ă doar coordonatele principa le ale procesului economic
analizat, referindu-se doar la variabilele importante precum și relațiile dintre
acestea exprimate într-o form ă oarecum stilizată. O zonă reziduală, ce poate îns ă
fi cuantificat ă ca propor ție, rămâne în afara cunoa șterii. Principalele surse de
erori, mai mult sau mai pu țin aleatoare, cum ar fi comportamentul uman,
condițiile climaterice, condi țiile de for ță majoră socială, nu formeaz ă decât
tangențial obiectul cuantific ărilor, ceea ce confer ă prognozelor și simulărilor,
limitate strict la aspecte m ăsurabile, o anumit ă nesiguran ță în acceptare.
U1.6. Test de autoevaluare
1. Variabilele calitative sunt exprimate:
a) numeric b) zecimal
c) prin litere d) nici una din variantele de mai sus 2) Valorile centrate au: a) media egal ă cu zero
b) dispersia egal ă cu zero
c) media și dispersia egal ă cu zero
d) nici unul dintre r ăspunsuri nu este corect
3) Termenul de econometrie a fost introdus prima dat ă de:
a) Karl Pearson b) Francis Galton
c) Ragnar Frisch
Timp de lucru: 20 min
Punctaj 100p
18d) Alfred Nobel
4) Revista
Econometrica a fost editat ă de:
a) Societatea Român ă de Econometrie
b) Karl Pearson
c) Societatea de Econometrie
d) nici un raspuns nu este corect
5) Variabilele unui model econometric sunt: a) endogene b) exogene c) endogene și exogene
d) nici un r ăspuns nu este corect
6) Valorile empirice sunt: a) valori centrate b) valori standardizate c) valori rezultate din m ăsurarea fenomenului analizat
7) Să presupunem c ă analizăm dinamica ratei șomajului în func ție de num ărul de
angajări dintr-o perioada dat ă. Care este variabila endogen ă și care este variabila
exogenă? Argumenta ți răspunsul.
8) Variabila PIB/capita este o variabil ă:
a) cantitativ ă
b) calitativ ă
c) aleatoare d) alternativ ă
9) Argumenta ți importan ța testelor statistice
10). Calitatea estima țiilor oferite de un model este func ție de:
a) cine le analizeaz ă
b) acurate țea datelor utilizate
c) tipul softurilor statistice utilizate d) conjunctura economic ă
19
U1.7. Rezumat
Bibliografie minimal ă
1. Tașnadi, Al. (2005), Econometrie, Editura ASE Bucure ști
2. Georgescu, V. (2005), Statistică descriptiv ă și inferen țială, Editura
Universitaria, Craiova
3. Hinton, P.R. (2004), Statistics Explained, 2nd Edition, Routledge New York.
4. Pecican, E si colectiv (2008), Modele econometrice, Biblioteca digitala ASE
Bucuresti
În această unitate de înv ățare ați făcut primii pa și în acest univers complex
al econometriei. Etimologia cuvântului econometrie, precum și evoluția
istorică a acestei discipline a fost explicat ă. De asemenea, a ți fost
familiariza ți cu noțiunile și conceptele fundamentale ale econometriei, cu
natura și sursa datelor econometrice, cu limit ări ale modelelor
econometrice și cu importan ța testelor statistice. Unitatea se încheie cu un
test de autoevaluare prin car e se doreste verificarea cuno știntelor asimilate.
20
MODULUL 2
UNITATEA 2: MODELUL LINIAR
SIMPLU – PARTEA I
UNITATEA 3: MODELUL LINIAR
SIMPLU
– PARTEA a-II-a
21
Cuprins: U2.1. Scopul și obiectivele unit ății
U2.2. Originile istorice ale termenului regresie. Interpretarea modern ă a
termenului regresie U2.3. Regresie versus cauzalitate. Regresie versus corela ție
U2.4. Specificarea și definirea modelului liniar simplu
U2.5. Estimarea parametrilor unui model econometric liniar simplu U2.6. Test de autoevaluare U2.7. Rezumat
Bibliografie minimal ă
U2.1. Scopul și obiectivele unit ății
Scopul acestei unit ăți de învățare este acela de a face o prezentare
generală a modelului de regresie simplu liniar și de a eviden ția aplicabilitatea
acestuia în economie.
La finalul parcur gerii acestei unit ăți de învățare:
veți fi familiariza ți cu noțiunea de regresie, cu originile istorice ale acestui
termen dar și cu interpretarea modern ă a termenului regresie
veți înțelege legătura dintre regresie și cauzalitate
veți înțelege legătura dintre regresie și corelație UNITATEA 2
Modelul liniar simplu – partea I
Durata medie de studiu individual – 2 ore
22 veți fi familiariza ți cu specificarea și definirea modelului liniar simplu
veți fi capabili s ă identifica ți legături liniare simple între fenomenele și
procesele economice
veți obține un scor de cel pu țin 80% într-un interval de timp de maxim 20
minute la testul de la sfâr șitul acestei unit ăți de învățare.
U2.2. Originile istorice ale termenului regresie . Interpretarea
modern ă a termenului regresie
Cea mai veche form ă de analiz ă de regresie a fost metoda celor mai mici
pătrate, publicat ă de către matematicianul francez Adrien-Marie Legendre, în anul
1805 și de către matematicianul german Johann Ca rl Friedrich Gauss, în anul
1809. Atât Legendre cât și Gauss au aplicat metoda celor mai mici p ătrate pentru a
determina, utilizând observa ții astronomice, orbitele corpurilor cere ști față de
soare. Gauss a publicat ulterior, în 1821, o form ă elaborată a teoriei celor mai mici
pătrate, inclusiv o versiune a teoremei Gauss-Markov.
Îns ă cel care a introdus pentru prima dat ă termenul de regresie, a fost Sir.
Francis Galton , secolul XIX, pentru a descrie un fenomen observat în studiile sale
de biologie. Într-o lucrare faimoas ă a sa, Galton arata c ă, deși există o tendință ca
părinții înalți să aibă copii înal ți, iar părinții scunzi s ă aibă copii scunzi, media
eșantionului de copii n ăscuți din părinți o anumit ă înălțime tinde s ă regreseze
către înălțimea medie a întregii popula ții. Adică, înălțimea copiilor n ăscuți din
părinți neobișnuit de înal ți sau neobi șnuit de scunzi tinde s ă regreseze către
înălțimea medie a întregii popula ții.
La momentul respectiv pentru Galton regresia avea o importan ță doar în
contextul cercet ărilor sale biologice ulterior munca sa a fost extins ă de către Udny
Yule și Karl Pearson la un context statistic mult mai general.
În viziunea modern ă, termenul de regresie este destul de diferit de
înțelesul conferit acestui a la început. În sens larg, putem spune c ă analiza de
regresie se focalizeaz ă pe studiul dependen ței dintre o variabil ă, variabil ă
dependent ă, endogenă, și una sau mai multe variabile independente, explicative,
exogene . Cu ajutorul analizei de regresie putem realiza estim ări ale efectului
variabilelor exogene asupra variabilei rezultative, sau put em efectua predic ții.
23 Dezvoltarea informaticii și apariția unor calculatoare performante a
contribuit semnificativ la progresul statisticii în general și a analizei de regresie în
special. În anul 1970 de pild ă, pentru a ob ține rezultatele unei analize de regresie
un analist trebuia s ă aștepte un timp îndelungat, pân ă la chiar 24 ore.
Analiza de regresie a început s ă fie din ce în ce mai des utilizat ă în
ramuri diferite ale științei. Recent, tehnici moderne au fost introduse pentru
regresia robust ă, pentru serii cronol ogice, curbe de cre ștere, regresii non-liniare,
regresie non-parametric ă, metode Bayesiene de regres ie, regresie cu mai multe
variabile explicative decât observa ții, etc.
Exemple de probleme economice pentru ca re analiza de regresie este util ă:
un manager poate fi interesat de leg ătura dintre cheltuielile cu publicitatea
efectuate și volumul vânz ărilor realizat
un economist este interesat de rela ția dintre cererea pentru un produs
oarecare X și prețul acestuia
un produc ător este interesat de rela ția dintre volumul ofertei pentru un
produs oarecare X și prețul acestuia
un director al unei unit ăți economice este interesat de leg ătura dintre
cheltuielile de produc ție pentru un produs oarecare X și volumul realizat al
producției.
un cercet ător dorește să estimeze efectul genului, a vârstei, a educa ției,
asupra probabilit ății de angajare a indivizilor
un economist/sociolog dore ște să investigheze poten țiala legătură între rata
infracționalității înregistrat ă într-o societate și rata șomajului economiei
respective.
Și exemplele pot continua.
U2.3. Regresie versus cauzalit ate. Regresie versus corela ție
Înc ă din acest punct trebuie s ă înțelegem clar c ă, în cadrul analizei de
regresie, suntem interesa ți de ceea ce putem cunoa ște din punct de vedere statistic
și nu funcțional sau deterministic . În analiza statistic ă a legăturii dintre
24variabilele economice utiliz ăm variabile aleatoare sau va riabile stochastice. În
cazul modelelor deterministe utiliz ăm de asemenea variabile, dar acestea nu sunt
aleatoare sau stochastice. Pentru a în țelege mai bine aceste aspecte vom explica în
continuare diferen ța dintre un model determinist și un model econometric.
Un model determinist ilustrează legătura funcțională dintre elementele de
intrare și de ieșire ale sistemului. De exemplu, legea gravita ției enunțată de
Newton spune c ă: două corpuri punctiforme de mas ă m1 și m2 se atrag reciproc
printr-o for ță direct propor țională cu produsul maselor corpurilor și invers
proporțională cu pătratul distan ței dintre ele, orientat ă pe direc ția dreptei ce
unește centrele de greutate ale celor dou ă corpuri (221
rmmkF= ), unde F este
magnitudinea for ței gravita ționale dintre cele dou ă corpuri punctiforme, k este un
coeficient de propor ționalitate numit constanta atrac ției universale, m1 este masa
primului corp, m2 este masa celui de al II-lea corp, r este distan ța dintre cele dou ă
corpuri. Dac ă constanta k a atracției universale are fi afectat ă de erori de m ăsurare,
variabila F poate fi estimat ă doar aproximativ în func ție de valori particulare ale
lui k, devenind în acest caz variabil ă aleatoare, iar rela ția anterior prezentat ă nu
mai este una determinist ă, ci devine o rela ție statistic ă.
Pe baza defini țiilor formulate de teoria economic ă cu privire la elementele
obiectului respectiv, statistica economic ă, utilizând metode proprii, exprim ă,
printr-un sistem de indicatori, elemente le cuantificabile ale sistemului economic.
Pe baza parametrilor de performan ță ai sistemului (sau ai indicatorilor de eficien ță
a factorilor de produc ție) se construiesc modele econometrice.
În general, un model determinist se exprim ă prin relația:
)(xfy= sau ) ,(,….2 1 nxxxfy=
Modelele deterministe se utilizeaz ă curent în practica economic ă la analiza
pe factori a varia ției, în timp sau spa țiu, a multor fenomene economice. În acest
scop, modelul determinist reprezint ă suportul teoretic al aplic ării metodei indicilor
– teritoriali sau dinamici– metod ă ale cărei avantaje și limite sunt bine cunoscute
economiștilor.
Spre deosebire de modelul determinist, modelul econometric descrie legătura statistic ă sau stochastic ă dintre intr ările sistemului – variabilele exogene
X și ieșirile acestuia, variabilele endogene Y, cu ajutorului unui model aleator:
ε+= )(XfY . Spre deosebire de modelul determinist, modelul econometric
introduce în schema de descriere a legit ății de manifestare a unui fenomen și
25proces economic și o variabil ă aleatoare (întâmpl ătoare), ε. Evoluția în timp sau
spațiu a unui fenomen economic este determinat ă și influențată de un sistem
numeros de factori, cantitativi și/sau calitativi, factori de uneori sunt imposibili de
cuantificat. De asemenea, utilizarea unor modele complexe, cu mai multe
variabile exoge ne genereaz ă uneori a specificare formal ă incomplet ă din punct de
vedere economic, specificare ce este corectat ă și vizualizat ă cu ajutorul variabilei
aleatoare ε.
Kendall și Stuart men ționau: “o rela ție statistic ă, oricât ar fi de puternic ă și
de sugestiv ă, nu poate
niciodată legitima o rela ție de cauzalitate între
variabilele analizate ideile noast re legate de cauzalitate trebuie s ă vină
dinafara statisticii, dintr-o teorie sau alta” (Gujarati, 2004).
Analiza de corela ție este înrudită cu analiza de regresie, și totuși
conceptual diferit ă de aceasta. Obiectivul principal al analizei de regresie este de a
măsura intensitatea leg ăturii între dou ă sau mai multe variabile analizate. Suntem
de exemplu interesa ți să estimăm coeficientul de corela ție dintre cantitatea cerut ă
dintr-un bun și prețul acestuia, dintre cantitatea oferit ă pentru un bun și prețul
acesteia, dintre nota la examenul de econometrie și numărul de ore acordate
studiului individual pe parcursul semestrului, etc. În analiza de regresie nu suntem
interesați de estimarea intensit ății legăturii, ci de a estima valoarea medie a unei
variabile pe baza valorilor observa te ale celorlalte variabile.
În analiza de regresie putem vorbi de existen ța unei asimetrii în modul
cum variabila dependent ă, exogenă, și variabilele explicative, exogene, sunt
tratate. Astfel, variabila endogen ă se presupune a fi statistic ă, aleatoare, sau
stochastic ă. Pe de alt ă parte, variabilele exogene au valori fixate , rezultate din
observație. În contrast, în analiza de corela ție variabilele sunt tratate simetric,
nefăcându-se distinc ție între variabila dependent ă și cea explicativ ă, iar ambele
variabile sunt presupuse a fi aleatoare. Analiza de corela ție se bazeaz ă în mare
parte pe presupunerea c ă variabilele sunt al eatoare, pe când în analiza de regresie Un aspect foarte important ce trebuie men ționat aici este acela
că, deși analiza de regresie se focalizeaz ă pe dependen ța unei
variabile de una sau mai multe alte variabile, totu și această
dependență nuînseamnă neapărat și cauzalitate.
26avem presupunerea c ă o variabil ă, cea endogen ă, este stochastic ă, iar variabilele
explicative, exogene sunt fixate, ne-stochastice.
În tabelul 1 este prezentat ă terminologia specific ă analizei de regresie. În
literatura econometric ă termenii variabilă dependent ă și variabilă independent ă
au o palet ă largă de denumiri.
Tabelul 1: Terminologie specific ă
Variabila dependent ă Variabila/variabilele
independente
Rezultativ ă Factorial ă
Predictivă Predictor
Endogenă Exogen ă
Explicativ ă Independent ă
Ieșire Covariabil ă
Variabilă controlat ă Variabil ă control
Dac ă analizăm dependen ța dintre o variabil ă dependent ă, endogen ă, și o
singură variabilă exogenă (ex. cantitatea dintre-un bun cerut ă pe piață și prețul
acelui bun), vom avea un model simplu, ( two-variable, regression ). Dacă însă
analizăm dependen ța dintre o variabil ă endogenă și două sau mai multe variabile
exogene vom avea un model mulptiplu ( multiple regression analysis ).
U2.4. Specificarea și definirea modelului liniar simplu
Modelul de regresie liniar simplu se utilizeaz ă pentru analizarea unei
ipoteze privind leg ătura dintre o variabil ă dependent ă, endogen ă, Y, și o variabil ă
independent ă, exogenă, X. Cu ajutorul acestui model vom putea estima cât de mult
variază variabila endogen ă Y atunci când variabila exogen ă X variază, și vom
putea estima o valoare sau un interval de valori ale variabil ei endogene în func ție
de anumite valori ale variabilei exogene. De exemplu vom dori s ă analizăm legătura dintre durata șomajului unei
persoane, m ăsurată în zile și vârsta acesteia (ani). Pornim de la ipoteza c ă durata
șomajului unui indi vid este influen țată de vârsta acestuia. Deci, variabila durata
șomajului (zile) este o variabil ă dependent ă, endogen ă, iar vârsta individului (ani)
27este variabila independent ă, exogenă. În figura 1 este prezentat ă schematic aceast ă
legătură, pe care dorim s ă o analizăm.
Figura 1:
Schemă legătură durata șomajului – vârsta individului
Deoarece vârsta unui individ nu poate s ă explice total varia ția variabilei
durata șomajului, în modelul nostru vom avea și o
eroare ce reprezint ă efectul
altor variabile neincluse în model și considerate neesen țiale pentru variabila
endogenă.
Forma canonic ă a modelului de regresie liniar simplu este:
i i x x y
iεβα+⋅+= , n i ,…..2,1=
unde α și β sunt parametrii ce specific ă în mod unic modelul relativ la întreaga
populație statistic ă, ce are ca surs ă a datelor o ob servare exhaustiv ă.
Ecua ția determinat ă pe baza unui e șantion aleator va fi:
i i x exba Y
i+⋅+=, n i ,…..2,1=
unde
ixY reprezint ă valorile estimate ale vari abilei endogene analizate, a este un
estimator al parametrului α, b este un estimator al parametrului β și ie este un
estimator al erorii reziduale iε. Determinarea coeficien ților a, b și e, se realizeaz ă
totdeauna pe baza datelor din e șantionul analizat.
Termenul a este numit și termen liber și reprezint ă ordonata la origine,
adică a Y
ix= dacă ix=0. Parametrul b este numit coeficient de regresie iar
termenul e este numit eroare (eroare rezidual ă). Parametrul “ b” se mai nume ște și
coeficient de regresie și reprezint ă, în sens geometric, panta liniei drepte.
Coeficientul de regresie “ b“ ne arată cu cât se schimb ă, în medie, variabila
ixY în
cazul în care variabila exogen ă X se modific ă cu o unitate. Coeficientul de
regresie b este pozitiv dac ă legătura dintre variabilele analizate este directa și
negativ dac ă legătura dintre variabile este invers ă. Coeficientul de regresie este
constanta sau coeficientul cu care se înmul țește variabila exogen ă pentru a genera
un efect asupra variabilei dependente. Eroa rea este efectul total, efectul tuturor
variabilelor ce ac ționează asupra variabilei endogene minus efectul variabilei
identificata in model ca exogena. Putem s pune deci ca eroarea este partea din Vârsta (ani) Durata șomajului Eroare
28efectul total pe care variabila exoge na nu o explica. Eroarea rezidual ă are două
componente ce se însumeaz ă:
O component ă ce înglobeaz ă efectul altor variabile ce nu au o influen ță
semnificativ ă asupra variabilei endogene, va riabile ce nu au fost
specificate în ecua ția de regresie
O component ă cu efect haotic, generat de natura absolut imprevizibil ă a
fenomenelor în general și a comportamentelor umane în particular.
U2.5. Estimarea parametrilor unui model econometric liniar
simplu
Determinarea parametrilor a și b se poate realiza folosind una din
următoarele metode:
metoda punctelor empirice
metoda punctelor medii
metoda celor mai mici p ătrate ( ordinary least squares -OLS )
metoda verosimilit ății maxime, cu informa ție limitată sau complet ă.
Cea mai des uzitat ă în practica econometric ă este metoda celor mai mici
pătrate , pe careo vom prezenta în cele ce urmeaz ă. Metoda celor mai mici p ătrate
a fost enun țată de către matematicianul german Carl Friedrich Gauss .
Valorile variabilei endogene a modelului ( Y) sunt valorile înregistrate de
către cercet ător în timpul derul ării studiului s ău și se numesc valori empirice,
observate . Valorile variabilei endo gene prezise cu ajutorul modelului de regresie
se numesc valori estimate (Y), valori teoretice . Nici o predic ție oferită de către
un model econometric nu este perfect ăș diferența dintre valoarea estimat ă și cea
observată, empirică, se nume ște eroare, și este dată de expresia:
ix i i Yye−= Cea mai important ă functie a analizei de regresie este cea de predic ție.
Pe baza modelului de regresie putem prezice valoarea pe care o ia o
variabila endogen ă prin simpla manipulare a valorilor
variabilei/variab ilelor endogene.
29 Uneori valorile empirice sunt mai mari decât valorile estimate, diferen țele
dintre acestea fiind numere pozitive, iar alteori valorile empirice, observate sunt
mai mici decât valorile estimate, diferen țele fiind numere negative. A șadar,
dreapta care aproximeaz ă cel mai bine leg ătura dintre cele dou ă variabile analizate
este aceea în func ție de care distan țele punctelor valorilor empirice la dreapta
valorilor teoretice sunt minime. Adic ă, min) ( min2
1 12=−⇔=∑ ∑
= =n
ix in
ii
iYy e. Este
evident că ),(
12baf en
ii=∑
=.
Deci vom avea, min ) (2
1=−−∑
=n
ii i bxay . Așadar,
⎪⎪
⎩⎪⎪
⎨⎧
==
0),(0),(
bbafabaf
δδδδ
, unde
2
1) (∑
=−−=n
ii i bxay f
Formulată ca o problem ă de optimizare, determinarea estimatorilor a și b se face
apelând la condi țiile necesare de ordinul I:
⎪⎪
⎩⎪⎪
⎨⎧
+=+=
⇔
⎪⎪
⎩⎪⎪
⎨⎧
=−−−=−−−
⇔
⎪⎪
⎩⎪⎪
⎨⎧
==
∑∑ ∑∑∑
∑∑
== ===
==
n
in
in
iii iin
in
ii i
n
ii i in
ii i
xbxaxyxb nay
xbxaybxay
bbafabaf
11 1211
11
0 ) (20) (2
0),(0),(
δδδδ
Pentru determinarea parametrilor a și b putem folosi fie metoda reducerii, fie
metoda substitu ției fie calculul determinan ților.
Cea mai bun ă estimare este cea care are cele mai mici erori. Cea mai
potrivită dreaptă de regresie este aceea pentru care suma p ătratelor erorilor
este cel mai mic num ăr posibil (are o valoare minim ă).
Interpretarea estimatorului coeficientului de regresie b.
-b reprezint ă schimbarea în medie a variabilei endogene Y, generată de
schimbarea cu o unitate a variabilei exogene X. Modific ările valorilor
variabilei endogene Y pot fi fie în sens pozitiv, de cre ștere, fie în sens
negative, de sc ădere. Media tuturor acestor modific ări ale valorilor variabilei
endogene este punctul de pe dreapta de regresie a c ărei pantă este dată de
valoarea estimatorului b.
30U2.6. Test de autoevaluare
1. Termenul de regresie a fo st introdus pentru prima dat ă de către:
a. Pearson b. Galton c. Yule d. Adam Smith
2. Explica ți termenii de corela ție și cauzalitate.
3. Explica ți diferența dintre un model determinist și unul stochastic.
4. Dați 3 exemple de probleme economice ce pot fi analizate cu ajutorul
modelului liniar simplu. 5. Preciza ți ce reprezint ă termenul eroare rezidual ă
U2.7. Rezumat
Bibliografie minimal ă
1. Georgescu, V. (2005), Statistică descriptiv ă și inferențială, Editura
Universitaria, Craiova Scopul acestei unit ăți de învățare a fost de a prezenta o introducere a
modelului de regresie simplu liniar și de a eviden ția aplicabilitatea acestuia în
economie. Aspecte legate de originile termenului de regresie, abordarea
modernă a termenului de regresie, regresie și cauzalitate, regresie și corelație,
precum și specificarea și definirea modelului liniar simplu au fost prezentate.
Unitatea se încheie cu un test de evaluare ce urm ărește verificarea no țiunilor
asimilate.
Timp de lucru : 20 min
Punctaj 100p
312. Gujarati, D. (2004), Basic Econometrics, 4th Edition , The McGraw −Hill.
3. Hinton, P.R. (2004), Statistics Explained, 2nd Edition, Routledge New York.
4. Tașnadi, Al. (2005), Econometrie, Editura ASE Bucure ști
32
Cuprins:
U3.1. Scopul și obiectivele unit ății
U3.2. Covarian ța. Coeficientul de corela ție liniară simplă
U3.3. Inferen ța statistică în cadrul modelului liniar simplu
U3.4. Asump țiile regresiei
U3.5. Eroarea standard a estim ării
U3.6. Aplica ție rezolvat ă
U3.7. Comenzi SPSS pentru modelul liniar simplu U3.8. Test de autoevaluare U3.9. Rezumat
Bibliografie minimal ă
U3.1. Scopul și obiectivele unit ății
În cadrul acestei unit ăți de învățare sunt prezentate aspecte legate
determinarea coeficientului de corela ție liniară simplă, interpretarea acestuia,
determinarea raportului de corela ție, testul liniarit ății legăturii dintre dou ă
variabile economice analizate, inferen ța statistic ă în cadrul modelului liniar UNITATEA 3
Modelul liniar simplu – partea a-II-a
Durata medie de studiu individual – 2 ore
33simplu, asump țiile regresiei precum și determinarea si interpretarea erorii standard
a estimării.
La finalul parcur gerii acestei unit ăți de învățare:
veți înțelege deosebirea dintre regresie și corelație
veți fi capabili s ă determina ți și să interpreta ți valoarea coeficientului de
corelație liniară simplă
veți înțelege utilitatea determin ării raportului de corela ție și a
coeficientului de determina ție
veți înțelege importan ța testării validit ății modelului liniar simplu, a
coeficienților de regresie, a coeficientului de corela ție
veți înțelege importan ța verificării asumpțiilor regresiei
veți fi capabili s ă determina ți și interpreta ți eroarea standard a estim ării
veți obține un scor de cel pu țin 80% într-un interval de timp de maxim 60
minute la testul de la sfâr șitul acestei unit ăți de învățare.
U3.2. Covarian ța. Coeficientul de corela ție liniară simplă
Analiza de corela ție este înrudită cu analiza de regresie, și totuși
conceptual diferit ă de aceasta. Obiectivul prin cipal al analiz ei de corela ție este de
a măsura intensitatea leg ăturii între dou ă sau mai multe variabile analizate.
Suntem de exemplu interesa ți să estimăm intensitatea leg ăturii dintre cantitatea
cerută dintr-un bun și prețul acestuia, dintre cantitatea oferit ă pentru un bun și
prețul acesteia, dintre nota la examenul de econometrie și numărul de ore acordate
studiului individual pe parc ursul semestrului, etc.
Un prim indicator st atistic cu ajutorul c ăruia putem aprecia tipul si
intensitatea leg ăturii dintre dou ă variabile este covarianța. Formula de calcul a
covarianței este:
nyyxx
yxn
ii i∑
=−−
=1) )( (
), cov(
Interpretarea covarian ței este urm ătoarea:
dacă 0), cov(=yx , cele dou ă variabile sunt independente
dacă 0), cov(>yx , legătura dintre cele dou ă variabile este direct ă, pozitivă
34
dacă 0), cov(<yx , legătura dintre cele dou ă variabile este invers ă,
negativă.
Îns ă valoarea numeric ă a covarian ței nu are nici o semnifica ție pentru
cercetător.
Valoarea absolut ă a covarian ței tinde spre ∞și cu cât valoarea
covarianței este mai mare cu atât este mai intens ă legătura dintre cele dou ă
variabile. Unul dintre cei mai importan ți indicatori de estimare a intensit ății
legăturii dintre dou ă variabile statistice este îns ă coeficientul de corela ție liniară
simplă Bravais-Pearson. Formula de calcul a acestuia este:
yxn
ii i
xyn
i yi
xi
xynyyxx
rnyyxx
rσσσσ ∑ ∑
==−−
=⇔−⋅−
=1
/1
/) )( ( ) (
Observăm că
yxxyyxrσσ), cov(
/= . De asemenea, yx xy r r/ /= (asocierea dintre x și y este
egală cu asocierea dintre y și x). Coeficientul de corela ție simpă
liniară ]1,1[/−∈xyr .
Interpretarea coeficientului de corela ție simplă liniară xyr/ este
următoarea:
dacă 0/=xyr , cele dou ă variabile analizate sunt independente
dacă 0/>xyr , legătura dintre cele dou ă variabile este direct ă, pozitivă
dacă 0/<xyr , legătura dintre cele dou ă variabile este invers ă, negativă
dacă 2,0 0/<≤xyr , legătura dintre cele dou ă variabile nu exist ă sau este
foarte slab ă
dacă 5,0 2,0/<≤xyr , legătura dintre cele dou ă variabile este slab ă
dacă 75,0 5,0/<≤xyr , legătura dintre cele dou ă variabile este de intensitate
medie
dacă 95,0 75,0/<≤xyr , legătura dintre cele dou ă variabile este puternic ă
dacă 1 95,0/≤≤xyr , legătura dintre cele dou ă variabile este func țională
35
Importanța analizei de corela ție trebuie s ă o înțelegem în contextul
problematicii realiz ării predicțiilor. Dac ă 0
/=xyr , variabilele sunt independente, și
deci nu putem realiza nici o predic ție despre valoarea uneia pe baza varia ției
celeilalte. Dac ă însă acest coeficient este difer it de zero, putem prezice cu o
precizie mai mare sau mai mic ă valoarea variabilei considerat ă dependent ă pe
bază valorilor variabile i independente, cauz ă. Dacă 1/±=xyr , atunci putem realiza
predicții cu un grad ridicat de precizie.
U3.3. Inferen ța statistic ă în cadrul modelului liniar simplu
Complexitatea fenomenelor social-economice face imposibil ă studierea
acțiunii tuturor factorilor ce influen țează o variabil ă considerat ă ca fiind endogen ă
(Y). De aceea, în practica statistic ă/econometric ă se iau în considera ție numai
legăturile semnificative di ntre variabila endogen ă Y și variabila sau variabilele
exogene X. Deoarece regresia este o metod ă inferențială, ce opereaz ă pe un
eșantion de observa ții, oferind posibilitatea deducerii și generaliz ării concluziilor
asupra întregii popula ții, este absolut necesar ă testarea validit ătii modelului ales, a Coeficientul de corela ție liniarã simplã Bravais-Pearson se utilizeazã
doar în cazul legãturilor de tip lini ar. Utilizarea coefic ientului Pearson
pentru aprecierea intensitã ții unei legãturi neliniare va coduce la erori
grave de interpretare. De exemplu, o valoare a lui xyr/ de 0,1 ne poate
duce la concluzia cã legãtura dintre cele douã variabile analizate este
foarte slabã, iar în realitate aceasta sã fie foarte puternicã, dar neliniarã.
În cazul legãturilor neliniare, pentru aprecierea intensitã ții acestora vom
utiliza raportul de corela ție.
Dacã legãtura a fost demonstratã ca fiind liniarã, pentru estimarea
intensitãții acesteia putem utiliza atât coeficientul Pearson cât și raportul
de corelație. În acest caz, xy xy R r/ /= , egalitatea putând fi utilizatã pentru
verificarea liniaritã ții legãturii.
36semnifica ției coeficien ților de regresie și determinarea intervalelor de încredere
corespunz ătoare, pentru un nivel de semnifica ție λ.
Fie statistica
asatα−= , ce urmeaz ă o distribu ție Student cu (n-k-1) grade
de libertate. a este estimatorului parametrului α din modelul de regresie, α este
parametrul de regresie ce specific ă în mod unic modelul relativ la întreaga
populație statistic ă, ce are ca surs ă a datelor o observare exhaustiv ă, iar as este
eroarea standard a estimatorului a.
Definim probabilitatea:
() λ αα
λ λ λ −=⋅+≤≤⋅−=⎟⎟
⎠⎞
⎜⎜
⎝⎛≤−
−− −− −− 1;1 ;1 ;1 a kn a kn kn
as ta s taP tsaP
unde λ;1−−knt este valoarea critic ă tabelată a repartiției Student pentru pentru (n-k-
1) grade de libertate și riscul λ dat, a este estima ția parametrului de regresie α,
iar as reprezint ă eroarea standard a coeficientului a.
Vom considera ipotezele:
a) Ipoteza nul ă 0 :0=−ααoH , unde 0α este o valoare aleatoare a
parametrului α
b) Ipoteza alternativ ă 0:0 1≠−ααH .
Respingerea ipotez ei nule presupune ca 0α să se afle în af ara intervalului
de încredere corespunz ător nivelului de semnifica ție ales, adic ă:
λααtsa≥−0
Analog pentru parametrul de regresie β putem defini probabilitatea:
() λ ββ
λ λ λ −=⋅+≤≤⋅−=⎟⎟
⎠⎞
⎜⎜
⎝⎛≤−
−− −− −− 1;1 ;1 ;1 b kn b kn kn
bs tb s tbP tsbP Predicția presupune estimarea va lorilor unei variabile c onsideratã endogenã pe
baza valorilor variabilei identificatã ca exogenã. Inferen ța presupune estimarea
parametrului din popula ția analizatã pe baza statisticii ob ținutã pe baza unui
eșantion aleator.
37unde 2/;1λ−−knt reprezint ă valoarea critic ă tabelată a distribu ției Student pentru (n-k-
1) grade de libertate și riscul λdat, b este estima ția parametrului de regresie β, iar
bs reprezint ă eroarea standard a coeficientului b.
Vom considera ipotezele:
a) Ipoteza nul ă 0 :0=−ββoH , unde 0β este o valoare aleatoare a
parametrului β.
b) Ipoteza alternativ ă 0:0 1≠−ββH .
Respingerea ipotezei nule presupune ca 0β să se afle în afara intervalului
de încredere corespunz ător nivelului de semnifica ție ales, adic ă:
λββtsb≥−0
Un test uzual în practica statistic ă este acela de a verifica dac ă parametrii
α și β diferă semnificativ de zero. Este practic un caz particular al rela țiilor
prezentate anterior, când 00=α și respectiv 00=β . Dacă tabelat calculat t t> vom
respinge ipoteza nul ă, parametrul de regresie difer ă semnificativ de 0.
Pe lângă testarea utilit ății estimatorilor parametrilor de regresie, este
necesară și testarea calit ății ajustării prin modelul de regresie a datelor de
observație. Aprecierea calit ății ajustării se realizeaz ă utilizând analiza de tip
dispersional. Vom descompune varia ția totală a variabilei endogene Y în raport cu
cele două surse de varia ție identificabile, varia ția datorat ă regresiei și variația
reziduală.
Din cursul anterior știm că valorilor ajustate sunt i x xba Y
i⋅+= iar eroarea este
ix i i Yye−= . Abaterea valorilor empirice iy de la media lor este:
) ( ) () ( y Y eyy y Y Yy yy
i i i x i i x x i i −+=−⇔−+−=−
Deci vom avea i i i i x i i e bxxby e bxa Y e y
i++−=++=+=
Vom scădea y din ambii membrii și vom avea:
i i i x i exxbey Yyy
i+−=+−=− ) (
Variația totală a variabilei endogene Y se obține ca sum ă a pătratelor abaterilor
valorilor individuale de la media lor,
adică:
∑∑∑ ∑∑∑
== = == =+−=−⇔−+−=−n
in
iixn
iin
in
ix i xn
ii e y Y yy Yy y Y yy
i i i
112 2 2
1 112 2 2
1) ( ) ( ) ( ) ( ) (
38Variația explicat ă a variabilei Y, datorată regresiei este:
∑∑∑
= = =−−=−n
iin
iin
ix e yy y Y
i
12 2
1 12) ( ) (
Iar pentru varia ția rezidual ă a lui Y avem:
∑∑
===−n
in
iix i e Yy
i
112 2) (
Prin urmare, calculul varia ției totale 2
1) (∑
=−n
iiyy se bazeaz ă pe (n-1) grade
de libertate, calculul varia ției explicate ∑
=−n
ixy Y
i
12) (
se bazeaz ă pe un singur grad
de libertate, iar pentru varia ția rezidual ă ∑
=−n
ix iiYy
12) ( avem (n-1)-1, adic ă n-2
grade de libertate.
Analiza varian ței este prezentat ă într-o form ă sistematizat ă în tabelul 1.
Tabelul 1: Analiza varian ței
Sursa
variației Suma pătratelor Grade de
libertate Pătratul mediu
Explicată ∑
=−n
ixy Y
i
12) ( 1 ∑
=−n
ixy Y
i
121/) (
Reziduală ∑
=−n
ix iiY y
12) (
=∑
=n
iie
12n-k-1
112
−−=∑
=
kne
sn
ii
e
Totală 2
1) (∑
=−n
iiyy n-1
1) (
12
−−
=∑
=
nyy
sn
ii
y
Calitatea ajust ării datelor de observa ție pe baza dreptei de regresie se poate
aprecia cu ajutorul testului F (Fisher- Snedecor). Statistica F are expresia: Trebuie sã explicãm aici no țiunea de grade de libertate. În statisticã, gradul
de libertate este egal cu numãrul compara țiilor independente între
elementele unei mãrimi de observa ție sau numãrul valorilor care pot fi
alese arbitrar în cadrul unei specificãr i. De exemplu, num ãrul gradelor de
libertate într-un tabel de contingen țã cu p rânduri și q coloane într-o
distribuție arbitarã este egal cu ).1 )(1(−−q p
39∑∑
==
−− −−
= =n
ix in
ix
kn Yyy Y
reziduala Dispersialicata DispersiaF
ii
1212
)1 /() (1/) (exp
.
F urmează o distribu ție Fisher-Snedecor cu 1 și n-k-1 grade de libertate
(2,1~−nFF ).
Pentru aprecierea semnifica ției globale a modelului de regresie vom
compara valoarea calculat ă a statisticii F cu valoarea tabelat ă ) ,2,1(λ−nF a
distribuției Fisher pentru cele dou ă grade de libertate 1 și (n-2) asociate
estimațiilor de dispersie corespunz ătoare și pentru un prag de semnifica ție λ dat.
Dacă tabelat calculat F F> vom respinge ipoteza nul ă, variabilitatea factorialei X
influențează semnificativ variabilitatea rezultativei Y, în caz contrar se accept ă
ipoteza nul ă, modelul de regresie este nesemnificativ.
Pentru testarea semnifica ției valorii coeficientului de corela ție Pearson
vom considera ipotezele:
a) Ipoteza nul ă 0 :/=xy or H , ceea ce ar însemna c ă cele dou ă variabile ale
modelului sunt independente
b) Ipoteza alternativ ă 0:/ 1≠xyrH .
Statistica t este descris ă de relația:
2
1 /2/−
−= n
rrt
xyxy,
urmând o distribu ție Student cu (n-2) grade de libertate.
Vom confrunta va loarea calculat ă a statisticii t cu valoarea tabelat ă, pentru
(n-2) grade de libertate și un nivel de semnifica ție λ dat. Dac ă tabelat calculat t t>
vom respinge ipoteza nul ă și vom concluziona, cu un risc λ dat (uzual este de
5%) că valoarea coeficientului Pearson este diferit ă de zero, deci între cele 2
variabile exist ă o legătură, și aceasta este semnificativ ă.
U3.4. Asum țiile regresiei
Utilizarea analizei de regresie ofer ă cercetătorului posibilitatea ob ținerii
unor rezultate acurate dac ă și numai dac ă sunt verificate o serie de ipoteze
(asumpții):
40
Asumpții generale:
• Ipoteza liniarit ății. Liniaritatea se verific ă prin examinarea vizual ă
a norului de puncte, cu ajut orul corelogramei (scatter)
• Variabilele analizate sunt numeric e. Putem utiliza în modelul de
regresie și variabile calitative, prin transformarea categoriilor
acestora în variabile dummy .
• Nu există erori de m ăsurare. Erorile de m ăsurare ale variabilelor
analizate pot s ă apară atunci când subiec ții cercetării nu ofer ă
răspunsurile adecvate sau când opera torii de teren nu înregistreaz ă
datele în mod corect sau când ope ratorii de calculator nu introduc
în mod corect datele în calculator.
Asumpții cu privire la eroarea iε
• Speranța matematic ă a erorii iε este nulă:
0][=iEε , i=1,n
• Distribuția de probabilit ăți a erorii iε este independent ă de valorile
luate de variabila exogen ă X.
t cons E Vari i tan ][ ][2===σεε oricare ar fi i
Această proprietate poart ă numele de homoscedasticitate . Cazul
contrar, când j j ii E E2 2 2][ ][ σεσε =≠= , pentru ji≠, este cunoscut
sub numele de heteroscedasticitate .
• Erorile reprezint ă o secven ță de variabile aleatoare necorelate între
ele (nu sunt autocorelate). Adic ă, 0],[ ], cov[ = =j i j i Eεεεε oricare
ar fi ji≠
• Erorile urmeaz ă o lege de distribu ție normal ă, de medie nul ă și
dispersie 2σ, deci
),0(2σε Ni≈
• Valorile observate ale variabilei exogene X nu sunt corelate cu iε,
adică:
0)( ],[ ], cov[ == =i i i i i i Ex xE x εε ε
41
U3.5. Eroarea standard a estim ării
Acuratețea predicției obținute cu ajutorul analizei de regresie se verific ă
cu ajutorul statisticii eroarea standard a estim ării.
Știm de la statistic ă formula pentru abaterea standard. Pentru calculul
erorii standard a estima ției vom ridica mai întâi la p ătrat erorile și le vom însuma,
obținând ∑
=−n
ix iiYy
12) (. Apoi, suntem interesa ți să determin ăm o valoare medie a
pătratelor erorilor, nYyn
ix ii∑
=−
12) (
. Prin calcularea celor doi coeficien ți de regresie
pierdem dou ă grade de libertate. Form ula erorii standard a estim ării este deci:
1) (
12
−−−
=∑
=
knYy
sn
ix i
ei
. Această eroare standard a estim ării măsoară abaterea
standard a variabilei endogene Y atunci când valorile variabilei X sunt cunoscute
și oferă posibilitatea cunoa șterii abaterii standard a erorilor în jurul dreptei de
regresie.
U3.6. Aplica ție rezolvat ă
În urma unei cercet ări efectuate în municipiul T ărgu-Jiu se cunosc
următoarele date privind încas ările medii lunare (mil.lei) și suprafața commercial ă
a 10 unități comerciale cu acela și profil de activitate:
Suprafața
commercial ă
(2m) 10 30 50 60 70 90 100 110 130 140
Încasările
medii lunare (mil.lei) 1 2 3 5 6 8 10 11 13 15 Eroarea standard a estimãrii este o mãsurã a varia ției neexplicate. Cu
cât aceastã statisticã are o va loare mai micã, cu atât propor ția
variației neexplicate este mai micã.
42Se cere:
a) Să se specifice modelul econometric ce descrie leg ătura dintre cele dou ă
variabile
b) Să se estimeze parametrii modelului și să se calculeze valorile estimate ale
variabilei endogene. S ă se estimeze valorile variabilei reziduale (eroarea),
eroarea standard a estim ării și abaterile standard ale celor doi estimatori a
și b
c) să se verifice validitat ea modelului econometric și semnifica ția statistic ă a
estimatorilor
d) să se estimeze și interprteze intensitatea leg ăturii dintre cele dou ă variabile
analizate. S ă se verifice liniaritatea leg ăturii
Rezolvare:
Primul pas este acela de a identifica variabila endogen ă, dependent ă a
modelului, și variabila exogen ă, independent ă. Analizând datele din table în raport
cu procesul economic descries vom avea urm ătoarea specificare a variabilelor:
– încasările medii lunare– reprezint ă variabila endogen ă a modelului,
valorile acesteia depinzând de o mul țime de factori (suprafa ța comercial ă,
amplasarea magazinului, reclama societ ății, investițiile efectuate, etc).
– suprafața comercial ă – este variabila exogen ă a modelului, considerat ă prin
ipoteza de lucru ca având cea mai mare influen ță asupra variabilei
endogene, încas ările medii lunare.
După ce am identificat corect variabila endogen ă și variabila exogen ă,
trebuie să optăm pentru func ția matematic ă cu ajutorul c ăreia putem descrie
legătura dintre cele dou ă variabile. În cazul modelului econometric liniar simplu,
cel mai des folosit procedeu este reprezentarea grafic ă a celor dou ă șiruri de valori
cu ajutorul corelogramei (Figura 1).
43Figura 1: Corelograma valorilor ) ,(i iyx .
Analizând graficul putem observa c ă distribuția punctelor empirice ) ,(i iyx
poate fi aproximat ă printr-o dreapt ă. Deci, modelul econometric ce descrie
legătura dintre cele dou ă variabile economice analizate este unul liniar simplu.
Avem: i i x x y
iεβα+⋅+= , n i ,…..2,1=
unde α și β sunt parametrii ce specific ă în mod unic modelul relativ la întreaga
populație statistic ă, ce are ca surs ă a datelor o ob servare exhaustiv ă.
Ecua ția determinat ă pe baza unui e șantion aleator va fi:
i i x exba Y
i+⋅+=, n i ,…..2,1=
unde
ixY reprezinta incasarile medii lunare estimate, a este un estimator al
parametrului α, b este un estimator al parametrului β și ie este un estimator al
erorii reziduale iε. Determinarea coeficien ților a, b și a erorii se realizeaz ă
totdeauna pe baza datelor din e șantionul analizat.
b) Pentru estimarea parametrilor modelului vom folosi metoda celor mai mici pătrate ( OLS). Potrivit acesteia, vom avea:
min ) ( min
2
1 12=−⇔=∑ ∑
= =n
ix in
ii
iYy e
44Adică min ) (2
1=−−∑
=n
ii i bxay . Așadar,
⎪⎪
⎩⎪⎪
⎨⎧
==
0),(0),(
bbafabaf
δδδδ
, unde
2
1) (∑
=−−=n
ii i bxay f
Formulată ca o problem ă de optimizare, determinarea estimatorilor a și b se face
apelând la condi țiile necesare de ordinul I:
⎪⎪
⎩⎪⎪
⎨⎧
+=+=
⇔
⎪⎪
⎩⎪⎪
⎨⎧
=−−−=−−−
⇔
⎪⎪
⎩⎪⎪
⎨⎧
==
∑∑ ∑∑∑
∑∑
== ===
==
n
in
in
iii iin
in
ii i
n
ii i in
ii i
xbxaxyxb nay
xbxaybxay
bbafabaf
11 1211
11
0 ) (20) (2
0),(0),(
δδδδ
Soluția sistemului este
⎩⎨⎧
=−=
111,0397,1
ba
Deoarece avem valorile estimatorilor a și b, putem calcula valorile estimate ale
variabilei endogene cu ajutorul ecua ției:
i x x Y
i⋅+−= 111,0 397,1
Valorile estimate ale variabilei endogene sunt prezentate în tabelul 1, coloana 3.
Tabelul 1: Valori observate și valori estimate
Suprafața
commercial ă
(2m) Încasările
medii lunare (mil.lei) ixY ixYiyie−= 2) (ixYiy−2) ( xix− 2) ( yiy−
1 2 3 4 5 6 7
10 1 -0,29 1,29 1,66 4761 40,96
30 2 1,93 0,07 0,00 2401 29,16
50 3 4,15 -1,15 1,33 841 19,36
60 5 5,26 -0,26 0,07 361 5,76
70 6 6,37 -0,37 0,14 81 1,96
90 8 8,59 -0,59 0,35 121 0,36
100 10 9,70 0,30 0,09 441 6,76
110 11 10,81 0,19 0,03 961 12,96
130 13 13,03 -0,03 0,00 2601 31,36
140 15 14,14 0,86 0,73 3721 57,76
45Valorile variabilei reziduale (eroarea) le determin ăm cu ajutorul rela ției:
ix i i Yy e−= Valorile calculate ale erorii sunt prezentate în tabelul 1 coloana 4.
Eroarea standard a estim ării este:
1) (
12
−−−
=∑
=
knYy
sn
ix i
ei
. Pentru c ă avem o variabil ă independenta în model, în cazul
nostru k=1. Deci
2 1041,4
1) (
12
−=−−−
=∑
=
knYy
sn
ix i
ei
=0,742
Dispersia estimatorului a este dată de relația:
]1629079
101[551,0]) (1[2
22
2 2+ =−+=∑ xxx
ns s
iea =0,266
Abaterea standard a estimatorului a este:
266,0=as =0,515
În cazul estimatorului b, dispersia acestuia este:
162901551,0) (1
22 2=−=∑ xxs s
ieb =0,0000338
Abaterea standard a estimatorului b este:
006,0 00581,0≈ =bs
Deci modelul econometric se poate scrie:
i x x Y
i⋅+−= 111,0 397,1, cu eroarea standard a estim ării 742 ,0=es
(0,515) (0,006)
c) Verificarea validit ății modelului de regresie
Verificarea verosimilit ății modelului econometric se realizeaz ă cu ajutorul
analizei dispersionale. Datele neces are sunt prezentate în tabelul 2.
46Tabelul 2: Analiza varian ței
Sursa
variației Suma pătratelor Grade
de libertateDispersii corectate Valoarea testului F
Explicată ∑
==−n
ixy Y
i
12202 ) (
k=1 ∑
=−n
ixy Y
i
121/) (
=202,00
1 F
calculat F tabelat
Reziduală
∑
=−n
ix iiY y
1) (
=4,399 n-k-
1=8
212
−=∑
=
ne
sn
ii
e =0,551 366,61 =)8;1;5,0(F
5,32
iar
26,11)8;1;01,0(= F
Totală 2
1) (∑
=−n
iiy y =206
,40 n-1=9
1) (
12
−−
=∑
=
nyy
sn
ii
y
∑∑
==
− −−
= =n
ix in
ix
n Yyy Y
reziduala Dispersialicata DispersiaF
ii
1212
)2 /() (1/) (exp
=366,61
Deoarece tabelat calculat F F> , testul Fisher ne arat ă faptul că rezultatele ob ținute sunt
semnificative la un prag de semnifica ție chiar de 1%.
Pentru testarea semnifica ție statistice a estimatorului a avem:
515,0397,1==−=
a a sa
satα=2,71
iar pentru b:
006,0111,0==−=
b b sb
sbtβ=18,5
Pentru un prag de semnifica ție 01,0=λ și n-k-1=8 grade de libertate valoarea
tabelata a lui t este 3,355. In cazul estimatorului b tabelat calculat t t> . Dar în cazul
estimatorului a, această relație nu se verific ă. Parametrul a este semnificativ la un
prag de 5%. Putem spune c ă, ne asum ăm un risc de 1% ca valoarea adev ărată a coeficientului
β să nu fie acoperit ă de intervalul ă0,098și 0,125î. Dac ă intervalul de încredere
pentru parametrul β ar conține valoarea 0, atunci s- ar respinge ipoteza nul ă, și am
concluziona c ă variabila exogen ă nu influen țează semnificativ variabila endogen ă.
47d) Pentru estimarea și interpretarea intensit ății legăturii dintre variabilele
analizate, deoarece știm sigur c ă forma norului de puncte este liniar ă, vom folosi
coeficientul de corela ție simplă liniară:
yxn
ii i
xynyyxx
rσσ∑
=−−
=1
/) )( (
=0,989. Deci, leg ătura dintre cele dou ă variabile este
directă, pozitivă și foarte intens ă.
Pentru a verifica liniaritatea leg ăturii vom calcula raportul de corela ție:
) () (
1(
112
∑∑
==
−−
−=n
iin
ix
yyy Y
Ri
=0,989. A șadar Rr=, deci testul liniarit ății se verific ă.
Coeficientul de determina ție 976 ,02=R . Așadar varia ția încasările medii lunare
(mil.lei) se datoreaz ă în propor ție de 97,6% suprafe ței comerciale a magazinului.
U3.7. Comenzi SPSS pentru modelul liniar simplu
Pentru realizarea unei utilizând modelul liniar simplu utilizind SPSS,
vom introduce mai întâi datele în foaia de lucru Data View , fiecare variabila în
coloană distinctă. Vom defini datele în foaia Variable View , precizând tipul
acesteia, num ărul de zecimale (dac ă este cazul), și forma de exprimare a acestora.
După ce am introdus cu mare aten ție datele, pentru realizarea corelogramei și în
vederea alegerii func ției statistico-matematice potrivite vom merge la meniul
Graphs , selectăm comanda Scatter care v-a deschide fereastra Scatterplot, Simple,
se acționează Define , pe axa OX vom reprezenta variabila exogen ă, iar pe axa OY
variabila endogen ă. Activând butonul OK se comanda ob ținerea output-ului.
Pentru estimarea coeficien ților de regresie cu aj utorul SPSS vom merge
la comanda Regression, opțiunea Linear, și vom deschide fereastra Linear
Regression . În câmpul Dependent vom specifica variabila dependent ă a
modelului, iar în casu ța Independent vom specifica variabila exogen ă,
independent ă a modelului. La câmpul Method vom alege ca metod ă de lucru
48opțiunea Enter. Vom activa comanda Statistics și vom opta aici pentru Estimates,
Confidence Intervals și Model fit , după care apas ăm Continue și OK, pentru a
obține output-ul. Se vor ob ține tabele asem ănătoare cu cele prezentate în
continuare:
Model Summary
Model R R Square Adjusted R
Square Std. Error of the
Estimate
1 ,930a ,866 ,856 5,749
a. Predictors: (Constant), capital
În tabelul Model Summary g ăsim valorile raportului de corela ție, a coeficientului
de determina ție, valoarea raportului de corela ție ajustat și a erorii standard a
estimației.
ANOVAb
Model Sum of Squares df Mean Square F Sig.
Regression 2772,140 1 2772,140 83,888 ,000a
Residual 429,593 13 33,046 1
Total 3201,733 14
a. Predictors: (Constant), capital
b. Dependent Variable: volum
Tabelul ANOVA ne arat ă semnifica ția general ă (verosimilitatea) modelului
specificat. Varia ția explicat ă=2772,140, Varia ția rezidual ă=429,593, statistica F
calculată are valoarea 83,888 iar Sig. ne arată semnifica ția statistic ă a modelului.
df simbolizeaz ă gradele de libertate (degree of freedom) Cu cât valorile Sig.
(significance) sunt mai apropi ate de 0,000 cu atât semnifica ția modelului este mai
ridicată. Dacă Sig.>0,05 atunci nu putem vorbim de semnifica ție statistic ă pentru
modelul specificat.
Coefficientsa
Unstandardized
Coefficients Standardized
Coefficients95,0% Confidence
Interval for B
Model B Std. Error Beta t Sig. Lower
Bound Upper
Bound
(Constant) 9,471 3,145 3,011 ,010 2,677 16,265 1
capital ,929 ,101 ,930 9,159 ,000 ,710 1,148
49Coefficientsa
Unstandardized
Coefficients Standardized
Coefficients95,0% Confidence
Interval for B
Model B Std. Error Beta t Sig. Lower
Bound Upper
Bound
(Constant) 9,471 3,145 3,011 ,010 2,677 16,265 1
capital ,929 ,101 ,930 9,159 ,000 ,710 1,148
a. Dependent Variable: volum
În tabelul Coefficients g ăsim valorile coeficien ților de regresie a și b, eroarea
standard a fiec ărui coeficient, valoarea statisticii t calculată pentru fiecare
coeficient de regresie , valoarea Sig. corespunz ătoare lui a și b precum și
intervalul de încredere pentru estimatorii calcula ți prin metoda celor mai mici
pătrate. Dac ă valoarea 0 este inclus ă într-un interval de încredere, atunci nu putem
vorbi de semnifica ție statistic ă pentru estimatorul respectiv.
Pentru a estima intensitatea leg ăturii dintre cele dou ă variabile analizate vom
merge la comanda Analyze, iar din fereastra deschis ă vom alege Correlate-
Bivariate, iar în fereastra nou deschis ă vom specifica variabilele analizate, vom
marca Flag significant correlations și apoi Ok.
Se obține tabelul urm ător, ce ne arat ă valoarea coeficientului de corela ție simpă
liniară Pearson și semnifica ția statistic ă a acestuia.
Correlations
capital volum
Pearson Correlation 1 ,930**
Sig. (2-tailed) ,000capital
N 15 15
Pearson Correlation ,930**1
Sig. (2-tailed) ,000 volum
N 15 15
**. Correlation is significant at the 0.01 level (2-tailed).
Testul liniarit ății legăturii: r=R
50
U3.8. Test de autoevaluare
1. Precizați care este deosebirea dintre analiza de regresie si analiza de corelatie.
2.
Dacă legătura dintre dou ă variabile este neliniar ă, pentru estimarea intensit ății
acesteia vom utiliza: a)
coeficientul de corela ție simplă liniară
b) raportul de corela ție
c) coeficientul de determina ție
d) nici un răspuns nu este corect.
3.
Explicati importanta calcul ării erorii standard a estim ării
4. Pentru verificarea validit ății unui model econometri c liniar simplu utiliz ăm:
a) testul z
b) testul t-Student
c) testul Fisher-Snedecor
d) testul Wald.
5.
Utilizând datele de la exemplu anterior, cursul 2, se cere:
a) să se verifice validitatea modelului econometric și semnificatia statistica a
estimatorilor
b) să se estimeze și să se caracterizeze intensitatea leg ăturii dintre cele dou ă
variabile analizate.
U3.9. Rezumat
În cadrul acestei unit ăți de învățare a fost prezentat ă metodologia de
calcul a covarian ței, a coeficientului de corela ție simplă liniară, aspecte
legate de testarea validit ății modelului de regresie și testarea
semnifica ției estimatorilor calcula ți, asump țiile regresiei precum și
determinarea și interpretarea erorii standard a estima ției.
Timp de lucru : 60min
Punctaj 100p
51Bibliografie minimal ă
1. Georgescu, V. (2005), Statistică descriptiv ă și inferen țială, Editura
Universitaria, Craiova 2. Gujarati (2004), Basic Econometrics, 4th Edition, McGraw −Hill New York
3. Hinton, P.R. (2004), Statistics Explained, 2nd Edition, Routledge New York.
4.http://www.youtube.com/results?searc h_query=simple+linia r+regression&sm=3
5. http://www.youtube.com/results ?search_query=ols+method&sm=1
52
TEMA DE CONTROL NR.1
Din Anuarul Statistic, anul 2011, am extras date statistice privind câ știgul salarial
nominal mediul net lunar pentru b ărbați (lei/salariat) și numărul. mediu de
salariați bărbați (mii persoane) ]nregistrate pentru toate jude țele României,
prezentate ]n tabelul al ăturat:
Județul Ca știgul salarial
nominal mediu net lunar pentru b ărbați
(lei/salariat) Nr. mediu de salaria ți
bărbați (mii persoane)
Bihor 694 76
Bistrița-Năsăud 679 28
Cluj 835 89
Maramure ș 611 49
Satu Mare 663 35
Sălaj 743 21
Alba 667 44
Brașov 707 84
Covasna 551 24
Harghita 654 28
Mureș 707 65
Sibiu 743 54
Bacău 773 63
Botoșani 622 26
Iași 734 81
Neamț 598 46
Suceava 664 52
Vaslui 608 28
Brăila 666 34
Buzău 679 44
Constanța 856 99
Galați 786 70
Tulcea 720 23
Vrancea 630 26
Argeș 801 74
Călărași 586 23
Dâmbovița 790 45
Giurgiu 685 18
Ialomița 643 23
Prahova 830 96
Teleorman 727 31
Ilfov 954 39
Municipiul Bucure ști 1041 408
Dolj 773 63
Gorj 975 49
53Mehedinți 844 26
Olt 790 37
Vâlcea 681 43
Arad 710 58
Caraș-Severin 664 32
Hunedoara 864 63
Timiș 805 96
Se cere:
a) să se identifice variabila endogen ă și variabila exogen ă. Să se construiasc ă
corelograma valorilor ) ,(i iyx utilizând SPSS.
b) să se estimeze efectul variabilei exogene asupra variabilei en dogene utilizând
modelul econometric adecvat. S ă se estimeze valorile variabilei reziduale
(eroarea), eroarea standard a estim ării și abaterile standard ale celor doi
estimatori a și b.
c) să se verifice validitatea modelului econometric și semnifica ția statistic ă a
estimatorilor
d) să se estimeze și interpreteze intensitatea leg ăturii dintre cele dou ă variabile
analizate. S ă se verifice liniaritatea leg ăturii
54
MODULUL 3
UNITATEA 4: MODELUL LINIAR
MULTIPLU – PARTEA I
UNITATEA 5: MODELUL LINIAR
MULTIPLU – PARTEA
a-II-a
55
Cuprins:
U4.1. Scopul și obiectivele unit ății
U4.2. Specificarea și definirea modelului liniar multiplu
U4.3. Estimarea parametrilor modelului liniar multiplu U4.4. Estimarea coeficientului de corela ție multipl ă
U4.5. Test de autoevaluare
U4.6. Rezumat
Bibliografie minimal ă
U4.1. Scopul și obiectivele unit ății
În cadrul acestei unit ăți de învățare sunt prezentate aspecte metodologice
și aplicative legate de modelul liniar multiplu. Modelul de regresie liniar ă simplă
studiat în unit ățile de înv ățare anterioare este uneori inadecvat în practica
econometric ă, datorită complexit ății fenomenelor economice și a faptului c ă
evoluția unei variabile identificat ă ca endogen ă este determinat ă de regulă de mai
mult de o variabil ă exogenă.
La finalul parcur gerii acestei unit ăți de învățare:
veți înțelege deosebirea dintre modelul liniar simplu și modelul liniar
multiplu și informația adițională adusă de către cel din urm ă UNITATEA 4
Modelul liniar multiplu – partea I
Durata medie de studiu individual – 2 ore
56 veți fi capabili s ă specifica ți și să definiți modelul liniar multiplu
veți fi capabili s ă estimați coeficien ții de regresie uti lizând metoda celor
mai mici p ătrate ( OLS)
veți înțelege importan ța verificării asumpțiilor regresiei
veți fi capabili s ă estimați intensitatea leg ăturii dintre variabila endogen ă
și variabilele exogene specificate în model
veți reuși să obțineți un scor de cel pu țin 80 % într-un interval de timp de
maximum 40 minute la testul de la sfâr șitul acestei unit ăți de învățare.
U4.2 . Specificarea și definirea modelului liniar multiplu
Modelul de regresie liniar ă simplă studiat în unit ățile de înv ățare
anterioare este uneori inadecvat în practica econometric ă, datorită complexit ății
fenomenelor economice și a faptului c ă evoluția unei variabile identificat ă ca
endogenă este determinat ă de regul ă de mai mult de o variabil ă exogenă. De
exemplu, consumul unui produs sau unei grupe de produse este func ție de venitul
unei familii/gospod ării, de pre țul produsului respectiv sau indicele pre țurilor
grupei de produse și de num ărul membrilor unei familii/gospod ării. Astfel vom
avea:
ε+ = ),,( NPVf C ,
unde cu C am notat consumul unui pr odus sau grupe de produse, V- este venitul
familiei/gospod ăriei, P este pre țul produsului respectiv, iar N este num ărul
membrilor gospod ăriei respective.
Sau, un alt exemplu din teoria economic ă, dependen ța dintre volumul
producției, capital și forța de munc ă (funcția Cobb-Douglas), descris ă de relația:
ε+ = ),(LKf Q
unde Q este volumul produc ției, K este capitalul și L este forța de munc ă.
Și exemplele pot continua. A șadar, într-un model liniar multiplu
variabilitatea variabilei endogene Y depinde de dou ă sau mai multe variabile
exogene. În func ție de num ărul acestora modelul poate fi bifactorial, trifactorial,
cvadruplu factorial, etc.
57 Dependen ța stochastic ă liniară dintre o variabil ă explicată, exogenă, Y, și
un set de variabile in dependente, exogene kX XX ,…….,,2 1 este descris ă de
relația:
i kik i i x x x x y
iεβ βββ +++++= ….22 11 0
unde kββββ ,…,,2 1 0 sunt parametrii de regresie ce specific ă legăturile dintre
variabilele independente la nivelul întregii popula ții statistice, iar iε este eroarea
aditivă ce dă caracterul stochastic al modelului.
Analog descrierii modelului de regresie liniar ă simplă, vom delimita
noțiunea de „ ecuație de regresie”, așa cum este descris ă de formula anterioar ă de
noțiunea de „ ecuație determinat ă pe baza unor e șantioane aleatoare”, descrisă de
formula:
i kik i i x e xb xb xbb Y
i+++++= …..22 11 0
unde
ixY reprezint ă valorile estimate ale va riabilei endogene analizate,
kb bbb ,…….,,,2 1 0 sunt estima ții ale parametrilor kββββ ,……,,2 1 0 , iar ie are
semnifica ția unui termen rezidual (eroare).
U4.3. Estimarea parametrilor modelului liniar multiplu
Estimarea parametrilor kββββ ,……,,2 1 0 cu ajutorul metodei celor mai
mici pătrate ordinare ( OLS) presupune satisfacerea simultan ă a următoarelor
ipoteze:
(i1): Termenii eroare iε sunt variabile aleatoare de medie nul ă.
0][=iEε
(i2): Matricea de covarian ță a vectorului eroril or este de forma:
I Ei ii2 '] [ σεεε =⋅=Ω , ceea ce presupune satisfacerea urm ătoarelor dou ă
proprietăți:
(i2.1) Homoscedasticitate:
i t cons E ii )( tan ][ ] var[2 2∀ === σεε
(i2.2) Absen ța autocorela ției erorilor:
ji Ej i j i ≠∀ =⋅=⋅ )( ,0] [ ] cov[ εεεε
58Dacă datele empirice sunt de natur ă să satisfacă ipotezele men ționate
anterior, atunci vom putea determina estimatorii kb bbb ,…….,,,2 1 0 ai parametrilor
kββββ ,……,,2 1 0 cu ajutorul metodei celor mai mici p ătrate ordinare. Condi ția
impusă de metoda celor mai mici p ătrate este ca suma p ătratelor reziduurilor
kik i i i i x x x y e β βββ −−−⋅−−= …….22 1 1 0 să fie minim ă, adică:
2
122 11 0 2 1 0 ) …….. ( minarg) ,…….,,,( minarg ∑
=−−−− =k
ikik i i i k xb xb xbby b bbbF
Condiția necesar ă de ordinul întâi pentru aceast ă problemă de minim este:
0)(=∂∂
bbF
și conduce la urm ătorul sistem de ecua ții normale:
Trebuie amintit aici faptul c ă parametrii ecua ției de regresie nu vor putea fi
calculați dacă:
a) mărimea eșantionului este mai mic ă sau egal ă cu num ărul variabilelor
independente
b) o variabil ă independent ă este perfect corelat ă cu o alt ă variabil ă
independent ă.1
1 Waserman W., Kutner H., Applied Linear Regression Models, Homewood, IL, 1983,
p.119-123. ⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪
⎩⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪
⎨⎧
+++=+++=+++=+++=++++=
∑∑ ∑ ∑∑∑∑ ∑ ∑∑∑∑ ∑ ∑∑∑∑ ∑∑ ∑∑
n
in
in
in
inn
n n nn
in ink
ik
ik
ik
iki k i ik
ii iik
ik
ik
ik
ik kk
iik
ik
ik
ik
ik
ik k ik
ikk i
xb xxbxxbxbyxxxb xxbxxbxbxyxxb xbxxbxbxyxxb xxbxbxbxyxb xbxbkby
………………………….
2 2 1 1 02 2 1 1 0222
2 21 1 2 0 21 21 212
1 1 0 122 11 0
59
U4.4. Estimarea coef icientului de corela ție multipl ă
Intensitatea leg ăturii dintre variabila dependent ă și grupul de variabile
independente, cuprinse în mode lul liniar multiplu este apreciat ă, de regul ă, cu
ajutorul a doi indicatori, coeficientul de determina ție, respectiv coeficientul de
corelație multipl ă. Calculul coeficientului de determina ție are la baz ă
descompunerea varia ției totale a variabilei dependente Y în variația explicat ă de
regresie și variația rezidual ă a variabilei dependente.
Avem:
Variația totală =
∑
=−n
iiyy
12) (.
Variația explicat ă a variabilei Y, datorată regresiei este= ∑
=−n
ixy Y
i
12) (
iar Varia ția rezidual ă =∑
=−n
ix iYy
12) (.
Analiza varian ței este prezentat ă într-o form ă sistematizat ă în tabelul 1.
Tabelul 1:
Analiza varian ței
Sursa varia ției Suma p ătratelor Grade de
libertate Pătratul mediu
Explicată ∑
=−n
ixy Y
i
12) ( k ∑
=−n
ix k y Y
i
12/) (
Reziduală ∑
=−n
ix iiYy
12) (=∑
=n
iie
12n-k-1
112
2
−−=∑
=
kne
sn
ii
e
Totală 2
1) (∑
=−n
iiyy n-1
1) (
12
2
−−
=∑
=
nyy
sn
ii
y
Ponderea varia ției explicate în varia ția totală a variabilei endogene,
dependente Y este dată de coeficientul de determina ție:
∑∑
−−
=22
2
) () (
yyy Y
R
ixi
60Se poate calcula și un coeficient de determina ție ajustat pentru un num ăr de
grade de libertate stabilit, luâ ndu-se astfel în considerare m ărimea eșantionului și
numărul de variabile independente. Ra țiunea ce st ă la baza calcul ării acestei
statistici este aceea c ă, dacă numărul de variabile indepe ndente este mare, în
raport cu dimensiunea e șantionului, valoarea coefic ientului de determina ție
multiplă 2R este nerealist ă. Acest inconvenient este eliminat prin calcularea
coeficientului de corela ție ajustat, dup ă relația:
∑∑
−−−− −
−=
)1 /() ()1 /() (
122
2
n yykn Yy
R
ix i
ajustati
Alături de coeficientul de determina ție și de coeficientul de corela ție
multiplă, aprecierea calit ății ajustării modelului de regresie se poate face și cu
ajutorul
erorii standard a estima ției ce se ob ține extrăgând rădăcină pătrată din
dispersia rezidual ă după relația:
1) (2
−−−
=∑
knYy
si
kx i
e
, unde iy reprezint ă valorile observate ale variabilei
dependente,
ixYreprezintă valorile estimate, ajustate cu ajutorul ecua ției de
regresie, n este volumul e șantionului iar k este num ărul de variabile independente
din model.
Numitorul acestei expresii ilustreaz ă faptul că în regresia liniar ă multiplă
cu k variabile independente, eroarea standard are (n-k-1) grade de libertate,
deoarece num ărul gradelor de libertate este redus cu ( k+1) constante care au fost Dacă dimensiunea e șantionului n este mult mai mare decât num ărul
variabilelor independente k, 2R și ajustatR2 vor fi similare. Dac ă
variația rezidual ă este diferit ă de zero și k este suficient de mare
comparativ cu n, 2R și ajustatR2 vor avea valori diferite, iar în acest
caz interpretarea valorilor celor 2 coeficien ți este dificil ă și
contradictorie.
61estimate prin model. M ărimea erorii standard de estimare nu este invers
proporțională cu numărul de variabile ad ăugate în modelul de regresie2.
Definit în raport cu variabila rezidual ă, 2R are valoarea:
∑∑
−−
−=22
2
) () (
1
yyYy
R
ix ii
.
Coeficientul de corela ție multipl ă se obține extrăgând radical din
coeficientul de determina ție:
∑∑
−−
−==22
2
) () (
1yyYy
R R
ix ii
.
]1,0[∈R . Cu cât valoarea coeficientului de corela ție multipl ă R este mai
apropiată de 1 cu atât intensitatea leg ăturii dintre variabila dependent ă Y și
variabilele factoriale X este mai mare, și reciproc, cu cât valoarea lui R tinde
către zero, cu atât leg ătura este de intensitate mic ă sau nu exist ă.
U4.5. Test de autoevaluare
1. Dacă avem un model liniar multiplu cu 8 variabile exogene specificate și 7
observații analizate, vom putea estima parame trii de regresie ai modelului?
Argumenta ți răspunsul.
2. Enunțați asumpțiile regresiei multiple liniare
3.
Se cunosc urm ătoarele date statistice privind un e șantion format din 10
studenți ai Facult ății de Științe Economice și Gestiunea Afacerilor,
Universitatea Constantin Brâncu și din Târgu-Jiu:
2 Bobko, P. (1995). Correlation and Regression: Principles and applications for
industrial organizational psycology and management. New York: Mc.Graw-Hill. Valoarea coeficientului de corela ție multipl ă crește odată cu creșterea
numărului variabilelor independente folosite pentru definirea
modelului liniar de regresie1.
Timp de lucru : 40 min
Punctaj 100p
62Student Scorul IQ Timpul alocat
studiului (ore-saptămână) Punctaj la
examinare
1 115 38 50
2 120 44 75
3 112 20 44
4 130 39 77
5 127 42 73
6 105 26 55
7 130 47 80
8 134 45 76
9 140 49 85
10 141 48 90
a. Precizați care este va riabila endogen ă și care sunt variab ilele exogene ale
modelului.
b. Valoarea coeficientului de determina ție pentru estimarea intensit ății
asocierii dintre punc tajul la examinare și scorul IQ respectiv timpul alocat
studiului pentru un student este de:
o 0,920
o 0,230
o 1
o 0.860
c. Interpreta ți rezultatul ob ținut
4. Se cunosc urm ătoarele date privind cons umul de carne (kg)/lun ă, venitul net
lunar (mii lei) și numărul membrilor din gospod ăria respectiv ă pentru 15
familii ce locuiesc în municipiul Târgu-Jiu:
Familia Consumul de
carne(kg)/lun ă Venitul net lunar
(mii lei) Număr de
membrii ai gospodăriei
1 12 3000 3
2 6 1200 5
3 20 4000 4
4 5 1500 3
5 9 2200 4
6 12 3200 4
7 50 5000 6
8 20 3400 2
9 17 2300 5
10 30 2100 6
11 6 1900 2
12 28 2400 6
13 35 3500 3
6314 20 4600 2
15 51 5000 4
a) Să se identifice variabila endogen ă și variabilele exogene ale
modelului
b) Să se estimeze influen ța variabilelor exogene asupra variabilit ății
variabilei dependente
c) Să se estimeze intensitatea leg ăturii dintre variabila endogen ă,
dependent ă, și variabilele exogene, independe nte, specificate în model.
U4.6. Rezumat
Bibliografie minimal ă
1. Georgescu, V. (2005), Statistică descriptiv ă și inferen țială, Editura
Universitaria, Craiova 2. Gujarati (2004),
Basic Econometrics, 4th Edition, McGraw −Hill New York
3. Hinton, P.R. (2004), Statistics Explained, 2nd Edition, Routledge New York.
4. http://www.youtube.com/watch?v=eLpfEml4Vak 5. http://www.youtube.com/resul ts?search_query=ols+method&sm=1
Modelul de regresie liniar ă simplă studiat în unit ățile de înv ățare anterioare
este uneori inadecvat în practica econometric ă, datorită complexit ății
fenomenelor economice și a faptului c ă evoluția unei variabile identificat ă ca
endogenă este determinat ă de regul ă de mai mult de o variabil ă exogenă. În
cadrul acestei unit ăți de învățare este prezentat modelul liniar multiplu, sunt
explicate asump țiile regresiei, estimarea coeficien ților de regresie în modelul
liniar multiplu precum și estimarea și interpretarea coeficientului de corela ție
multiplă.
64
Cuprins:
U5.1. Scopul și obiectivele unit ății
U5.2. Inferen ța statistică în cadrul modelului liniar multiplu
U5.3. Multicoliniaritatea
U5.4. Aplica ție rezolvat ă
U5.5. Comenzi SPSS pentru modelul liniar multiplu U5.6. Test de autoevaluare U5.7. Rezumat
Bibliografie minimal ă
U5.1. Scopul și obiectivele unit ății
În cadrul acestei unit ăți de învățare continu ăm prezentarea aspectelor
metodologice și aplicative legate de modelul liniar multiplu și ne vom opri aten ția
asupra test ării validit ății modelului, a semnifica ției statistice a estimatorilor
coeficienților modelului, a coef icientului de corela ție precum și asupra problemei
multicoliniarit ății.
La finalul parcur gerii acestei unit ăți de învățare: UNITATEA 5
Modelul liniar multiplu – partea a-II-a
Durata medie de studiu individual – 2 ore
65 veți înțelege importan ța testării validit ății modelului liniar multiplu, a
coeficienților de regresie, a coeficientului de corela ție
veți fi capabili s ă identifica ți prezența multicoliniarit ății în modelul liniar
multiplu și să găsiți soluții pentru atenuarea acesteia
veți reuși să obțineți un scor de cel pu țin 80 % într-un interval de timp de
maximum 40 minute la testul de la sfâr șitul acestei unit ăți de învățare.
U5.2. Inferen ța statistic ă în cadrul modelului liniar multiplu
Alături de condi țiile necesare și suficiente prezentate în unitatea 4, vom
adăuga o condi ție adițională ca punct de plecare în descrierea testelor de
semnifica ție cu privire la parametrii modelului, și anume condi ția de normalitate
a erorilor:
) ,0(~2I Nσε
Dacă eroarea standard a estima ției, coeficientul de determina ție,
respectiv coeficientul de corela ție multipl ă pot fi folosite pentru estimarea
modelului de regresie liniar ă multiplă, analiza varia ției poate fi folosit ă atât
pentru estimarea cât și pentru testarea semnifica ției modelului de regresie.
Testul ipotezei nule poate fi aplicat simultan mai multor coeficien ți de
regresie kβ sau unei combina ții liniare a acestora. Se urm ărește astfel testarea
simultană a semnifica ției tuturor parametrilor modelului cu rol de coeficien ți
unghiulari, cu excep ția termenului liber0β.
Vom considera ipotezele:
a) Ipoteza nul ă: 0 ….. :2 1 0 ===k H βββ
b) Ipoteza alternativ ă AH: cel puțin un coeficient 0 ≠kβ .
Testarea semnifica ției coeficien ților de regresie se realizeaz ă cu ajutorul
statisticii F, definită ca raport între dispersia explicat ă de regresie și dispersia
rezidualăș statistica F urmează o distribu ție Fisher cu (k) respectiv (n-k-1) grade
de libertate.
Vom avea: ),1 ,(
)1 /() (/) (
1212
λ−−≈
−− −−
=
∑∑
==knkF
kn Yyk y Y
Fn
ix in
ix
ii
66Se compar ă valoarea calculat ă a statisticii F cu valoarea tabelat ă a
acesteia, pentru (k), respectiv (n-k-1) grade de libertate și un prag de
semnifica ție λ stabilit. În func ție de rezultatel e acestei compara ții vom admite
sau vom respinge ipoteza nul ă 0H. O valoare a statisticii F mai mare decât
valoarea sa tabelat ă arată că cea mai mare parte a varia ției variabilei endogene,
dependente Y este explicat ă prin intermediul ecua ției de regresie, și deci modelul
este corect ales. Dac ă însă valoarea statisticii F este mai mic ă decât valoarea
tabelată a acesteia, atunci concluzion ăm că cea mai mare parte a varia ției lui Y a
rămas neexplicat ă. Aria de respingere a ipotezei 0H este dată de relația:
1 ;;−−>knkFFλ
Aria de respingere permite s ă se stabileasc ă dacă F este suficient de mare
pentru a justifica re spingerea ipotezei 0H.
Putem aplica testul t coeficien ților de regresie individuali, pentru a
determina existen ța sau nonexisten ța unei leg ături liniare între variabila
factorială specifică și variabila dependent ă Y, analog modului de prezentare din
cursul 2. Testul t se aplică pentru fiecare variabil ă independent ă, deci de k ori.
Testul Fisher-Snedecor es te o îmbinare a acestor k teste într-unul singur
oferind astfel posibilitatea test ării, tuturor coeficien ților de regresiekβ.
Concluzia eronat ă că modelul de regresie ar fi adecvat este mai pu țin probabil ă
în cazul testului F comparativ cu testul t. De asemenea, abaterea standard a
coeficienților de regresie multipl ă poate fi supraestimat ă datorită fenomenului de
multicoliniaritate, valoarea statisticii t fiind în acest caz mai mic ă decât în
realitate, ceea ce poate c onduce la concluzia eronat ă că unii coeficien ți kβ sunt
egali cu zero, în realitate ace știa fiind diferi ți de zero. Spre deosebire de testul t,
fenomenul de multicoliniaritate nu afecteaz ă testul F.
Pentru aprecierea semnifica ției coeficientului de determina ție folosim
același test F, statistica fiind descris ă de relația:
kkn
RRF1
122−−
−=
Analog, vom considera ipotezele:
a) Ipoteza nul ă 0:2
0=R H
b) Ipoteza alternativ ă 0:2
1≠RH .
67Dacă valoarea calculat ă a statisticii F este mai mare decât valoarea
tabelată a acesteia pentru (k) variabile independente, (n-k-1) grade de libertate și
un prag de semnifica ție λ dat, atunci ipoteza nul ă este respins ă, modelul fiind
considerat semnificativ.
U5.3. Multicoliniaritatea
Termenul de multicoliniaritate a fost introdus de c ătre econometricianul
Ragnar Frisch. Existen ța multicoliniarit ății presupune ca dou ă sau mai multe
variabile exogene ale unui model de regresie multipl ă să fie intens corelate.
Vom avea
multicoliniaritate perfect ă dacă coeficientul de corela ție calculat
pentru 2 variabile independente ia valo rile 1 sau -1. În practica statistic ă
multicoliniaritatea perfect ă este rareori întâlnit ă. În analiza leg ăturilor dintre
diferite variabile economice vom avea ap roape totdeauna coliniaritate între
acestea. Probleme vor ap ărea însă atunci când multicoliniaritatea este suficient
de severă pentru a afecta estimarea coeficien ților de regresie.
Există numeroase situa ții în practica statistic ă/econometric ă ce sunt
generatoare de multicoliniaritate. Potr ivit lui Montgomery and Peck (1982),
multicoliniaritatea poate fi generat ă de:
a) modalitatea de culegere a datelor, de exemplu e șantionarea este o
amplitudine maxim ă a valorilor luate de c ătre regresori în popula ția
studiată
b) constrângerile modelului sau ale popula ției asupra c ăreia se aplic ă
procedeul e șantionării. De exemplu, dac ă utilizăm analiza de regresie
pentru a estima influen ța consumului de electricitate și a dimensiunii casei
asupra venitului acestei familii, avem o constrângere fizic ă în cadrul Una din problemele majore ce trebuie avute în vedere atunci când sunt
utilizate modelele de regresie multipl ă este asigurarea stabilit ății
estimatorilor. Unul din principalii factori generatori de instabilitate este
prezența multicoliniarit ății, fenomen ce se manifest ă atunci când
variabilele independente sunt intens corelate între ele. Aceasta poate fi o
problemă pentru re gresia multi plă.
68populației analizate deoarece familiile cu un venit mare au în general case
cu o suprafa ță mai mare decât familiile cu venituri mai sc ăzute
c) specificarea modelului
d) un model supradimensionat. Aceast ă situație apare dac ă modelul are mai
multe variabile exogene decât num ărul de observa ții din eșantion. Este o
situație des întâlnit ă în cercetarea medical ă, când e șantionul analizat
conține un num ăr mic de pacien ță despre care sunt colectate informa ții cu
privire la un num ăr mare de variabile.
Existența multicoliniarit ății în modelul de regresie liniar ă multiplă poate
fi sugerată de:
a)
adăugarea sau înl ăturarea unei noi variabile in dependente în modelul de
regresie multipl ă conduce la cre șteri sau sc ăderi majore ale valorilor estima țiilor
coeficienților de regresie
b) testul F sugereaz ă lipsa de semnifica ție pentru coeficien ții variabilelor
coliniare, îns ă testarea semnifica ției coeficien ților ca și grup sugereaz ă
respingerea ipotezei nule
c) adăugarea sau înl ăturarea unei noi observa ții în cadrul e șantionului
determină schimbări majore ale valorilor estima țiilor pentru coeficien ții de
regresie ai modelului.
Dacă asumpțiile modelului clasic de regresie sunt satisf ăcute, estimatorii
parametrilor de regresie ob ținuți prin metoda celor mai mici p ătrate ( OLS) sunt
estimatori de dispersie minim ă în clasa estimatorilor liniari, BLUE ( BLUE= Best
Linear Unbiased Estimator ). Chiar dac ă multicoliniaritatea este ridicat ă,
estimatorii OLS tot își păstrează proprietățile estimatorilor BLUE.
În situația existen ței unei multicoliniarit ății ne vom izbi de urm ătoarele
consecințe:
a) deși BLUE, estimatorii OLS vor prezenta valori mari ale varian ței și ale
covarianței, făcând ca estimarea precis ă a acestora s ă fie dificil ă În cazul seriilor de date ( time series data ) o situație generatoare de
multicoliniaritate este existen ța unui trend comun pentru variabilele
exogene incluse în model (cresc sau descresc simultan în decursul
perioadei analizate).
69b) datorit ă consecin ței anterioare, intervalele de încredere tind s ă fie mult mai
deschise, ceea ce face ca concluzia „coeficientul de regresie este zero” s ă fie ușor
îmbrățișată
c) tot datorit ă prime consecin țe prezentat ă valorile testului t pentru unul sau mai
mulți coeficien ți tind să arată lipsa semnifica ției statistice
d) chiar dac ă valoarea testului t pentru unul sau mai mul ți coeficien ți sugereaz ă
lipsa semnifica ției statistice, coeficientul de determina ție 2R poate avea valori
foarte ridicate e) estimatorii
OLS și erorile lor standard de estima ție pot fi foarte senzitivi la
modificări minore în e șantionul de date analizat.
Pentru detectarea multicoliniarit ății cea mai uzitat ă metodă este studiul
matricei de corela ție dintre variab ilele factoriale iX. Astfel putem determina
perechile de variabile independente care sunt puternic corelate între ele. O
structură mai complex ă a intercorela țiilor poate fi detectat ă prin calcularea
determinantului acestei matrice de corela ție. O valoare apropiat ă de zero a
determinantului reflect ă o puternic ă corelație între anumite variabile, deci
existența multicoliniarit ății. În scopul detect ării multicoliniarit ății în cadrul
modelului de regresie multipl ă liniară unii autori sugereaz ă folosirea toleranței
sau a variance inflation factor (VIF). În astfel de situa ții se calculeaz ă statisticile
toleranței, considerându-se numai variabilele independente și excluzând
variabila dependent ă din model. Toleran ța fiecărei variabile este dat ă de relația:
iR toleranta21−=
unde iR2 este pătratul coeficientului de corela ție multipl ă a variabilei iX cu
toate celelalte variabile independente.
tolerantaVIF1=
]1,0[∈ toleranta . Cu cât valoarea toleran ței este mai mic ă, mai apropiat ă de
zero, cu atât variabila independent ă iX este explicat ă printr-o combina ție liniară
a celorlalte variabile independente. Consecin ța acestui fapt este c ă explicarea
variabilei dependente Y prin intermediul variabilei independente iX va avea o
acuratețe scăzută. O toleran ță mai mică de 0.20 și/sau o valoare VIF mai mare
sau egală cu 5 indic ă prezența în model a unei probleme legat ă de coliniaritatea
factorilor (O’Brien, 2007).
Alte modalit ăți de detectare a multicoliniarit ății sunt:
70a) prezența unei valori ridicate a co eficientului de determina ție 2R însoțită de
foarte puține valori ale testului t care să sugereze existen ța semnifica ției
statistice. În literatura de specialitate acesta este considerat un simptom clasic al multicoliniarit ății. Dacă valoarea coeficientului de determina ție
2R este mare (dac ă depășește 0,8) și dacă testul F arată că putem respinge
ipoteza conform c ăreia coeficien ții de regresie sunt nuli, dar testele t
pentru fiecare coeficient arat ă lipsă de semnifica ție statistic ă, este evident
că avem de-a face cu multicoliniaritatea.
b) coeficienți de corela ție între variabilele exogene cu valori ridicate. Dac ă
acești coeficien ți depășesc valoarea de 0,8, multicoliniaritatea este o
problemă serioasă pentru modelul respectiv.
c) examinarea coeficien ților de corela ție parțiali poate fi un indicator pentru
prezența multicoliniarit ății.
În prezen ța multicoliniarit ății, estimarea influen ței unei variabile
independente asupra variabilei dependente Y tinde să fie mai pu țin precisă decât
în cazul în care variabilele independent e ar fi necorelate una cu cealalt ă.
Coeficientul de corela ție oferă posibilitatea estim ării variabilit ății rezultativei Y
la modificarea cu o unitate a valorii variabilei independente 1X, considerând
celelalte variabile constante. Dac ă 1X este puternic corelat ă cu o altă variabilă
independent ă 2X, în eșantionul analizat nu avem decât observa ții
corespunz ătoare cazului în care între 1X și 2X există o legătură, fie pozitiv ă fie
negativă. Deoarece nu dispunem de observa ții pentru care 1X variază
independent de 2X, vom avea o estimare imprecis ă a coeficien ților și a
modelului de regresie. O alt ă problem ă generat ă de fenomenul de
multicoliniaritate este aceea c ă erorile standard ale coeficien ților variabilelor
coliniare tind s ă aibă valori ridicate. În acest caz, testarea ipotezei nule și a
ipotezei alternative conduce la e șecul respingerii ipotezei alternative. Datorit ă
prezenței multicoliniarit ății un cercet ător poate concluziona în mod eronat c ă
între variabila dependent ă Y și o variabil ă independent ă X nu exist ă legătură
liniară. Devine astfel absolut necesar ă determinarea nivelului de la care apari ția
multicoliniarit ății afecteaz ă calitatea estimatorilor și implicit rezultatele analizei
socio-economice bazate pe inte rpretarea acestora, precum și găsirea solu țiilor ce
ar putea diminua sau chiar elimina multicoliniaritatea.
71În literatura de specialitate sunt prezentate ca solu ții pentru atenuarea sau
chiar eliminarea efectelor multicoliniarit ății:
a) prelucrarea prealabil ă a datelor, în vederea atenu ării asemănărilor în
evoluție
b) reducerea num ărului variabilelor inde pendente. O variabil ă independent ă
poate fi exclus ă pentru a avea un model de regresie cu coeficien ți semnificativi,
totuși aceasta va conduce la o pierdere a informa ției oferite de aceea variabil ă
c) obținerea mai multor date de observa ție, deci implicit m ărirea eșantionului
analizat. Un num ăr mare de date de observa ție conduce la o acurate țe ridicată a
parametrilor estima ți, cu valori mici ale erorilor standard.
Multicoliniaritatea nu afecteaz ă acuratețea previziunii, ci mai degrab ă
influențează interpretarea variabilelor independente. Cât timp coliniaritatea între
variabilele independente ale modelului r ămâne stabil ă în timp,
multicoliniaritatea nu va afecta acurate țea previziunii. Dac ă însă coliniaritatea
nu rămâne stabil ă în timp, pentru analiza leg ăturii dintre o variabil ă dependent ă
Y și un set dat de variabile independente iX vom folosi, a șa cum sugereaz ă
literatura de specialitate, regresia Ridge .
U5.4. Aplica ție rezolvată
Se cunosc urm ătoarele date privind un e șantion format din 15 magazine
ce își desfășoară activitatea în raza muni cipiului Târgu-Jiu:
Magazinul Cifra de afaceri
(mil.lei) Număr familii
ce locuiesc in zona
respectivă Suprafata comerciala
a magazinului (2m)
1 198 70,00 21,00
2 209 35,00 26,00
3 197 55,00 14,00
4 156 25,00 10,00
5 85 28,00 12,00
6 187 43,00 20,00
7 43 15,00 5,00
8 211 33,00 28,00
9 120 23,00 9,00
10 62 4,00 6,00
11 176 45,00 10,00
12 117 20,00 8,00
13 273 56,00 36,00
14 270 60,00 30,00
15 300 62,00 41,00
72
Se cere: a)
să se estimeze efectul numarului de fa milii ce locuiesc în zona în care
magazinul î și desfășoară activitatea și a suprafetei comercia le asupra cifrei de
afaceri realizat ă de către fiecare unitate economic ă, utilizând modelul liniar
bifactorial și metoda celor mai mici p ătrate ( OLS)
b) să se calculeze valorile estimate ale cifrei de afaceri, s ă se estimeze
valorile variabilei reziduale (ero area), eroarea standard a estim ării și abaterile
standard ale estimatorilor parametrilor de regresie c)
să se verifice validitat ea modelului econometric și semnifica ția statistic ă a
estimatorilor. d)
să se estimeze și să se interpreteze intensitatea leg ăturii dintre cele
variabilele analizate. e)
putem vorbi de prezen ța multicoliniarit ății în cadrul acestui model?
Rezolvare
a) Este evident c ă variabila endogen ă, dependent ă a modelului este cifra de
afaceri realizat ă, iar variabilele exogene, independente sunt numarului de familii
ce locuiesc în zona magazinului (1X) și suprafața comercial ă a acestuia (2X).
Dependen ța stochastic ă liniară variabilă explicată, exogenă, Y, și cele dou ă
variabile independente, exogene 2 1,XX este descris ă de relația:
i x x x y
iεβββ +++=22 11 0
unde 2 1 0,,βββ sunt parametrii de regresie ce specific ă legăturile dintre
variabilele independente la nivelul întregii popula ții statistice, iar iε este eroarea
aditivă ce dă caracterul stochastic al modelului.
Vom delimita no țiunea de „ ecuație de regresie”, așa cum este descris ă de
formula anterioar ă de noțiunea de „ ecuație determinat ă pe baza unor e șantioane
aleatoare”, descrisă de formula:
i x exbxbb Y
i+++=22 11 0
unde 2 1 0,,bbb sunt estima ții ale parametrilor 2 1 0,,βββ , iar ie are semnifica ția
unui termen rezidual (eroare).
Pentru a determina estimatorii 2 1 0,,bbb ai parametrilor 2 1 0,,βββ vom
utiliza metoda celor mai mici p ătrate. Condi ția impusă de metoda celor mai mici
73pătrate este ca suma p ătratelor reziduurilor 22 1 1 0 x x y ei i βββ −⋅−−= să fie
minimă, adică:
2
122 11 0 2 1 0 ) ( minarg),,( minarg ∑
=−−− =k
ii xbxbby bbbF
Condiția necesar ă de ordinul întâi pentru aceast ă problemă de minim este:
0)(=∂∂
bbF
și conduce la urm ătorul sistem de ecua ții normale:
⎪⎪⎪
⎩⎪⎪⎪
⎨⎧
+ +=+ +=++=
∑∑ ∑∑∑∑ ∑∑∑∑ ∑
== = === = === =
n
in
in
in
iin
in
in
in
iin
in
in
ii
x bxx bx b xyxx b x bx bxyx bx b nby
11 122
2 21 1
12 0 211 121 212
1
11 0 111 12 2 1 1 0
a cărui soluție este:
⎪⎩⎪⎨⎧
===
4,2261,54836,608
210
bbb
Așadar, ecua ția ce ne arat ă interacțiunea dintre va riabilelor num ăr de familii ce
locuiesc în zona ma gazinului analizat și a suprafe ței comerciale a magazinului și
cifra de afaceri ob ținută este:
i x ex x Y
i+ ++=2 1 226,4 548,1 608,36
b) Valorile estimate ale vari abilei endogene sunt prezenta te în tabelul 1, coloana
5.
Tabelul 1.
Valori observate și valori estimate ale cifrei de afaceri
Magazinul Cifra de
afaceri (mil.lei) Număr
familii ce locuiesc in zona respectivă Suprafata
comerciala a magazinului
(
2m) ixY ixYiyie−= 2) (ixYiy−
1 2 3 4 5 6 7
1 198 70,00 21,00 233,71 -35,71 1275,20
2 209 35,00 26,00 200,66 8,34 69,49
3 197 55,00 14,00 180,91 16,09 258,82
4 156 25,00 10,00 117,57 38,43 1477,02
5 85 28,00 12,00 130,66 -45,66 2085,20
6 187 43,00 20,00 187,69 -0,69 0,48
7 43 15,00 5,00 80,96 -37,96 1440,81
8 211 33,00 28,00 206,02 4,98 24,80
749 120 23,00 9,00 110,25 9,75 95,14
10 62 4,00 6,00 68,16 -6,16 37,90
11 176 45,00 10,00 148,53 27,47 754,71
12 117 20,00 8,00 101,38 15,62 244,11
13 273 56,00 36,00 275,43 -2,43 5,91
14 270 60,00 30,00 256,27 13,73 188,57
15 300 62,00 41,00 195,97 104,03 10821,41
Valorile variabilei reziduale (eroarea) le determin ăm cu ajutorul rela ției:
ix i i Yy e−= Valorile calculate ale erorii sunt prezentate în tabelul 1 coloana 6.
Eroarea standard a estim ării este:
1) (
12
−−−
=∑
=
knYy
sn
ix i
ei
. Pentru c ă avem 2 variabile independente în model, în cazul
nostru k=2. Deci
=−−−
=∑
=
12) (
12
nYy
sn
ix i
ei
=25,808
Dispersia estimatorului 0b este: 074,232]) (1[2
12
1 2 2
0 =−+=∑ xxx
ns s
ieb
Abaterea standard a estimatorului 0b este:
074,232
0=bs =15,234
În cazul estimatorului 1b, dispersia acestuia este:
=12
bs 0,255
Abaterea standard a estimatorului 1b este:
505,0=bs
În cazul estimatorului 2b, dispersia acestuia este:
=22
bs 0,734
Abaterea standard a estimatorului 2b este:
857,03=bs
75c) Verificarea validit ății modelului de regresie
Verificarea verosimilit ății modelului econometric se realizeaz ă cu ajutorul
analizei dispersionale. Datele neces are sunt prezentate în tabelul 2.
Tabelul 2:
Analiza varian ței
Sursa
variației Suma pătratelor Grade
de
libertateDispersii corectate Valoarea testului F
Explicată
∑
==−n
ixy Y
i
12
74884,927) (
k=2 ∑
=−n
ixy Y
i
122/) (
=37442,464 F
calculat F tabelat
Reziduală
∑
=−n
ix iiY y
12) (
=
7992,673 n-k-
1=12
212
−=∑
=
ne
sn
ii
e =
666,056 56,215 )12;2;5,0(F
3,88
iar
93,612;2;01,0(F
Totală 2
1) (∑
=−n
iiy y =82877,60 n-1=14
1) (
12
−−
=∑
=
nyy
sn
ii
y
∑∑
==
− −−
= =n
ix in
ix
n Yyy Y
reziduala Dispersialicata DispersiaF
ii
1212
)2 /() (1/) (exp
=56,215
Deoarece tabelat calculat F F> , testul Fisher ne arat ă faptul că rezultatele ob ținute sunt
semnificative la un prag de semnifica ție chiar de 1%.
Pentru testarea semnifica ție statistice a estimatorului 0b avem:
==
00
bsbt 2,403
pentru 1b vom avea:
11
bsbt= =3,062
iar pentru estimatorul 2b avem:
22
bsbt= =4,931
76Pentru 05 ,0=λ și n-k-1 =12 grade de libertate va loarea tabelata a lui t este 2,179.
Toate valorile calculate ale statisticii t sunt mai mari decât valoarea tabelat ă, ceea
ce arată existența semnifica ției statistice pentru estimatorii calcula ți, la un prag de
semnifica ție de 5%.
Așadar, modelul de regresie ce descrie rela ția dintre variabilele economice
analizate este:
2 1 226,4 548,1 608,36 x x Y
ix ++= cu o eroare standard a estima ției =es25,808
(15,234) (0,505) (0,857)
d) Pentru estimarea și interpretarea intensit ății legăturii dintre variabilele analizate
vom folosi coeficientul de corela ție multipl ă
) () (
1(
112
∑∑
==
−−
−=n
iin
ix
yyy Y
Ri
=0,951 valoare ridicat ă, apropiat ă de 1, ceea ce arat ă că
impactul celor dou ă variabile independente specificat e în model asupra cifrei de
afaceri este ridicat. Valoarea coeficientului de determina ție 904 ,02=R .
e) iR toleranta21−= =0,491 iar tolerantaVIF1= =2,036
O toleranță mai mică de 0.20 și/sau o valoare VIF mai mare sau egal ă cu 5 indic ă
prezența în model a unei probleme legat ă de coliniaritatea fa ctorilor. În aplica ția
noastră nu sunt detectate probleme legate de coliniaritatea variabilelor exogene.
U5.5. Comenzi SPSS pentru modelul liniar multiplu
Pentru modelul liniar multiplu, vom merge la comanda Analize-
Regression-Linear , iar în fereastra nou creat ă vom introduce la Dependent
variabila endogen ă, dependent ă, a modelului, iar la Independent variabilele
exogene, independente ale m odelului. Din fereastra Statistics vom bifa casuta
pentru Estimates , Confidence Intervals , Model fit și Colniarity diagnostics, după
care vom ap ăsa OK.
În output vom g ăsi tabelele:
77Model Summary
Model R R Square Adjusted R
Square Std. Error of the
Estimate
1 ,670a ,449 ,358 67,386
a. Predictors: (Constant), suprafata, Numar_familii
Tabelul Model Summary ne prezint ă valoarea raportului corela ție, a coeficientului
de determina ție și a erorii standard a esima ției.
ANOVAb
Model Sum of Squares df Mean Square F Sig.
Regression 44473,206 2 22236,603 4,897 ,028a
Residual 54489,727 12 4540,811 1
Total 98962,933 14
a. Predictors: (Constant), suprafata, Numar_familii
b. Dependent Variable: cifra_afaceri
Tabelul ANOVA ne ofer ă informații legate de semnifica ția general ă a modelului
liniar multiplu. Varia ția explicat ă este egal ă, în acest exemplu cu 44473,206,
variația rezidual ă = 54489,727, gradele de libertat e sunt prezentate în coloana a
3-a a tabelului, în coloana a 4-a g ăsim dispersiile corectate, iar în coloana 5 și 6
avem valoarea calculat ă a statisticii F îi semnifica ția statistic ă a medelului
specificat.
Coefficientsa
Unstandardized
Coefficients Standardized
Coefficients95,0% Confidence
Interval for B Collinearity
Statistics
Model B Std.
Error Beta t Sig.Lower
Bound Upper
Bound Tolerance VIF
1 2 3 4 5 6 7 8 9 10
(Constant) 50,904 41,194 1,236 ,240 -38,849 140,658
Numar_familii 1,072 1,173 ,248 ,914 ,379 -1,483 3,627 ,622 1,6071
suprafata 4,260 2,368 ,489 1,799 ,097 -,900 9,420 ,622 1,607
a. Dependent Variable: cifra_afaceri
Tabelul Coefficients ne prezint ă:
– în coloana 1 avem variabilele exogene ale modelului
78- în coloana 2 avem valorile estimate ale coeficien ților de regresie
– în coloana 3 avem erorile standard calculate pentru fiecare variabil ă
exogenă a modelului
– în coloana 5 avem valorile calculate ale statisticii t pentru fiecare estimator
– în coloana 6 avem prezentat ă semnifica ția statistic ă a fiecărui estimator ale
coeficienților de regresie
– În coloana 7 și 8 avem intervalul de încred ere pentru fiecare estimator,
limita inferioar ă respectiv limita superioar ă a acestuia
– în coloana 9 avem valoarea calculat ă a toleranței
– în coloana 10 avem valoarea calculat ă a VIF, Variance inflation Factor.
toleranta șîi VIF sunt utilizate pentru diagnosticul coliniarit ății în modelul
liniar multiplu. Analog, informa ții despre coliniaritate ne ofer ă tabelul
Colliniarity Diagnostics
Collinearity Diagnosticsa
Variance Proportions
Model Dimensi
on Eigenvalue Condition Index(Constant) Numar_familii suprafata
1 2,791 1,000 ,02 ,01 ,02
2 ,129 4,645 ,84 ,03 ,411
3 ,080 5,914 ,14 ,96 ,57
a. Dependent Variable: cifra_afaceri
Verificarea asump țiilor regresiei, erorile sunt di stribuite normal, au media egal ă
cu zero, erorile au dispersia constant ă și sunt independente în tre ele, poate fi
verificată grafic utiliz ând graficul P-P plot și Scatterplot.
U5.6. Test de autoevaluare
1. Enumerați soluțiile prezentate de literatura de specialitate pentru atentuarea
efectelor multicoliniarit ății.
2. Precizați cauzele apari ției multicoliniarit ății
Timp de lucru : 40 min
Punctaj 100p
793. Se cunosc urm ătoarele date statistice privind un e șantion format din 10
studenți ai Facult ății de Științe Economice și Gestiunea Afacerilor,
Universitatea Constantin Brâncu și din Târgu-Jiu:
Student Scorul IQ Timpul alocat
studiului (ore-saptămână) Punctaj la
examinare
1 115 38 50
2 120 44 75
3 112 20 44
4 130 39 77
5 127 42 73
6 105 26 55
7 130 47 80
8 134 45 76
9 140 49 85
10 141 48 90
b. Valoarea calculat ă a statisticii F este:
o 21.585
o 15
o 10.30
o 1
b. Interpreta ți rezultatul ob ținut la punctul a
c. Determina ți eroarea standard a estima ției.
4.
Se cunosc urm ătoarele date privind cons umul de carne (kg)/lun ă, venitul net
lunar (mii lei) și numărul membrilor din gospod ăria respectiv ă pentru 15
familii ce locuiesc în municipiul Târgu-Jiu:
Familia Consumul de
carne(kg)/lun ă Venitul net lunar
(mii lei) Număr de membrii
ai gospod ăriei
1 12 3000 3
2 6 1200 5
3 20 4000 4
4 5 1500 3
5 9 2200 4
6 12 3200 4
7 50 5000 6
8 20 3400 2
9 17 2300 5
10 30 2100 6
11 6 1900 2
12 28 2400 6
13 35 3500 3
14 20 4600 2
15 51 5000 4
80
a. Să se testeze validitatea modelului construit
b. Să se testeze semnifica ția statistic ă a estimatorilor parametrilor de
regresie.
c. Putem vorbi de existen ța multicoliniarit ății în cadrul modelului construit
pentru variabilele analizate?
U5.7. Rezumat
Bibliografie minimal ă
1. Georgescu, V. (2005), Statistică descriptiv ă și inferen țială, Editura
Universitaria, Craiova 2. Gujarati (2004), Basic Econometrics, 4th Edition, McGraw −Hill New York
3. Hinton, P.R. (2004), Statistics Explained, 2nd Edition, Routledge New York.
4. http://www.youtube.com/watch?v=eLpfEml4Vak 5. http://www.youtube.com/watch?v=Ybzc3AB1E-E
Această unitate de înv ățare vine s ă completeze cuno ștințele despre
modelul liniar multiplu prezentate în cadrul unit ății 4. Este subliniat ă
importanța testării validit ății modelului econometric, a estimatorilor
determina ți, a coeficient ului de corela ție multipl ă pentru robuste țea
rezultatelor și acurate țea concluziilor formulate. Tot în cadrul acestei
unități de înv ățare sunt prezentate aspecte legate de fenomenul
multicoliniarit ății, detectarea aces teia, cauzele apari ției multicoliniarit ății,
soluții de atenuare a multicoliniarit ății.
81TEMA DE CONTROL NR.2
Se considerã urmãtoarele serii de date pent ru trei variabile aleatoare, dintre care
una este variabila endogenã, Y, iar celelalte douã sunt considerate exogene, 1X și
2X:
Y 1X 2X
1 120 3 43
2 112 5 40
3 108 7 20
4 90 8 19
5 97 8 17
6 96 10 16
7 89 9 18
8 84 15 15
9 75 19 14
10 70 22 12
11 63 27 11
12 60 34 9
13 55 30 6
14 49 40 5
15 30 42 3
a) Sã se estimeze coeficien ții de regresie ai modelului i i i i x x y εβββ +++=2 1 0
utilizând metoda celor mai mici pãtrate și sã se interpreteze rezultatele
obținute
b) Sã se calculeze valorile estimate ale variabilei endogene. Sã se estimeze
valorile variabilei reziduale (eroarea) precum și eroarea standard a estimãrii
c) Sunt estimatorii determina ți semnificativi din punct de cedere statistic?
d) Sã se verifice semnifica ția generalã a modelului econometric utilizat
e) Putem vorbi despre existen ța multicoliniaritã ții în acest model?
82
MODULUL 4
UNITATEA 6:
REGRESIA PARABOLIC Ă
UNITATEA 7: REGRESIA
HIPERBOLIC Ă
UNITATEA 8: REGRESIA
EXPONEN ȚIALĂ
UNITATEA 9: INFEREN ȚA STATISTIC Ă
ÎN CADRUL
MODELELOR
NELINIARE
83
Cuprins:
U6.1. Scopul și obiectivele unit ății
U6.2. Neliniaritatea unor rela ții de dependen ță dintre variabilele socio-economice
U6.3. Definirea și specificarea modelului de regresie porabolic
U6.4. Estimarea parametrilor mode lului de regresie porabolic
U6.5. Cuantificarea intensit ății legăturii dintre variabile în modelul parabolic
U6.6. Test de autoevaluare U6.7. Rezumat
Bibliografie minimal ă
U6.1. Scopul și obiectivele unit ății
Datorit ă complexit ății și a dinamismului ce le caracterizeaz ă, fenomenele
economico-sociale evolueaz ă în anumite situa ții urmând traiectorii neliniare.
Parcurgerea acestei unit ăți de învățare vă va oferi posibilitatea familiariz ării cu un
nou tip de mod econometric, de tip neliniar de aceast ă dată, și anume modelul
parabolic. La finalizarea parcurgerii acestei unit ăți de învățare:
veți fi capabili s ă specifica ți și să definiți un modelul parabolic UNITATEA 6
Regresia parabolicã
Durata medie de studiu individual – 2 ore
84 veți fi capabili s ă estimați coeficien ții de regresie utilizând metoda celor
mai mici p ătrate ( OLS)
veți putea estima intensitatea leg ăturii dintre variabilele analizate
veți reuși să obțineți un scor de cel pu țin 80 % într-un interval de timp de
maximum 40 minute la testul de la sfâr șitul acestei unit ăți de învățare.
U6.2. Neliniaritatea unor rela ții de dependen ță dintre variabilele
socio-economice
În foarte multe cazuri, fenomenel e socio-economice descrise prin
intermediul variabilelor specifice evolueaz ă după traiectorii neliniare. Datorit ă
simplității sale, modelul liniar este folosit deseori pentru aprecierea dependen ței
dintre diferite variabile economice, de și o funcție neliniar ă ar fi mult mai
potrivită. Teoria economic ă ne oferă numeroase exemple de variabile descrise
de legături de tip neliniar, precum:
a) dependen ța dintre pre ț și cantitatea cump ărată de către consumatori (curba
cererii)ș respectiv dependen ța dintre pre ț și cantitatea oferit ă de către
producători (curba ofertei);
b) dependen ța dintre salariu și cantitatea de munc ă cerută sau oferit ă (curba
cererii de munc ă respectiv curba ofertei de locuri de munc ă);
c) sporul relativ al salariului și rata șomajului (curba Philips);
d) dependen ța dintre veniturile bugetare și rata de impozitare (curba Laffer);
e) legătura dintre costul unitar și producția realizat ă, etc.
E. Pecican (2003) apreciaz ă că printre cauzele neliniarit ății unui num ăr
mare de fenomene economice analizate prin intermediul unei succesiuni de
combinații cauză-efect se num ără:
a) apropierea de anumite limite peste care “greu se poate trece”;
b) apariția nivelului de satura ție dincolo de care ac țiunea variabilei cauz ă nu
mai influen țează variabilitatea va riabilei endogene;
c) atingerea și depășirea unui anumit punct critic în raport cu care variabila
cauză imprimă variabilei efect un sens contrar celui declan șat inițial și menținut
până la atingerea punctului critic.
85În continuare vom prezenta modelul econometric de tip parabolic,
simplu, cu aplicabilitate în studierea dependen ței dintre variabilele socio-
economice. Varietatea rela țiilor de tip neliniar prezint ă importan ță atât din
perspectiva estim ării cât și privite prin prisma precizi ei prognozelor pe termen
mediu și lung. Unele modele neliniare pot fi transformate în modele liniare iar
parametrii pot fi estima ți prin intermediul metodei celor mai mici p ătrate
ordinare. De subliniat este faptul c ă, evoluția pe termen mediu și lung a unor
variabile economice prezint ă deseori riscul de a deveni neliniar ă, chiar și în
situațiile în care, pentru intervalul pentru care dispunem de observa ții, forma
liniară a modelului a fost acceptat ă.
U6.3. Definirea și specificarea modelului de regresie parabolic
Modelul parabolic se utilizeaz ă în cazul în care norul de puncte ) ,(i iyx
sunt dispuse în jurul unei curbe descris ă de o parabol ă.
În continuare ne vom opri aten ția asupra modelului parabolic
unifactorial, cu o singur ă variabilă exogenă X. Forma canonic ă a modelului de
regresie parabolic simplu este:
iii x x x y
iεβββ ++⋅+=2
2 1 0 , n i ,…..2,1=
unde 1 0,ββ și 2β sunt parametrii ce specific ă în mod unic modelul relativ la
întreaga popula ție statistic ă, ce are ca surs ă a datelor o observare exhaustiv ă.
Ecua ția determinat ă pe baza unui e șantion aleator va fi:
iii x e xbxbb Y
i++⋅+=2
2 1 0, n i ,…..2,1=
unde
ixY reprezinta valoarile estimate ale variabilei endogene, 0b este un
estimator al parametrului 0β, 1b este un estimator al parametrului 1β , 2b este un
estimator al parametrului 2β și ie este un estimator al erorii reziduale iε.
Determinarea valorilor 0b, 1b și 2b se realizeaz ă totdeauna pe baza datelor din
eșantionul analizat.
Termenul 0b este numit și termen liber și reprezint ă ordonata la origine,
adică 0b Y
ix= dacă ix=0. Termenul 1b ne arată cu cât se modific ă, în medie,
86variabila
ixY cazul în care variabila exogen ă X se modific ă cu o unitate, iar
parametrul 2b este cel care provoac ă inflexiunea parabolei. Dac ă coeficientul de
regresie 1b este pozitiv dac ă legătura dintre variabilele analizate este directa și
negativ dac ă legătura dintre variabile este invers ă. Coeficientul de regresie este
constanta sau coeficientul cu care se înmul țește variabila exogen ă pentru a genera
un efect asupra variabilei dependente. Termenul ie eroarea este efectul total,
efectul tuturor variabilelor ce ac ționează asupra variabilei en dogene minus efectul
variabilei identificat a in model ca exogena. Putem spune deci ca eroarea este
partea din efectul total pe care variabila exogena nu o explica.
U6.4. Estimarea parametrilor mode lului de regresie parabolic
Estimarea parametrilor modelului de regresie parabolic se realizeaz ă cu
ajutorul metodei celor mai mici p ătrate. Așa cum am explicat în unit ățile
precedente, utilizarea metodei celor mai mici p ătrate se bazeaz ă pe o serie de
asumții, și anume:
Asumpții generale:
• Variabilele analizate sunt numeric e. Putem utiliza în modelul de
regresie și variabile calitative, prin transformarea categoriilor
acestora în variabile dummy .
• Nu există erori de m ăsurare. Erorile de m ăsurare ale variabilelor
analizate pot s ă apară atunci când subiec ții cercetării nu ofer ă
răspunsurile adecvate sau când operatorii de teren nu înregistreaz ă
datele în mod corect sau când operatorii de calculator nu introduc în mod corect datele în calculator.
Asumpții cu privire la eroarea iε
• Speranța matematic ă a erorii iε este nulă:
0][=iEε , i=1,n
• Distribuția de probabilit ăți a erorii iε este independent ă de valorile
luate de variabila exogen ă X.
t cons E Vari i tan ][ ][2===σεε oricare ar fi i
87Această proprietate poart ă numele de homoscedasticitate . Cazul
contrar, când j j ii E E2 2 2][ ][ σεσε =≠= , pentru ji≠, este cunoscut
sub numele de heteroscedasticitate .
• Erorile reprezint ă o secven ță de variabile aleatoare necorelate între
ele (nu sunt autocorelate). Adic ă,0 ],[ ], cov[ = =j i j i Eεεεε oricare
ar fi ji≠
• Erorile urmeaz ă o lege de distribu ție normal ă, de medie nul ă și
dispersie 2σ, deci
),0(2σε Ni≈
• Valorile observate ale variabilei exogene X nu sunt corelate cu iε,
adică:
0 )( ],[ ], cov[ == =i i i i i i Ex xE x εε ε
• variabila endogen ă Y are un caracter stochastic, datorit ă prezenței
termenului eroare iε, în timp ce pentru variabila exogen ă X avem
ipoteza de non-stochasticitate.
Valorile variabilei endogene a modelului sunt valorile înregistrate de către cercet ător în timpul derul ării studiului s ău și se numesc
valori empirice,
observate . Valorile variabilei endo gene prezise cu ajutorul modelului de regresie
se numesc valori estimate (Y), (valori teoretice) . Nici o predic ție oferită de către
un model econometric nu este perfect ăș diferența dintre valoarea estimat ă și cea
observată, empirică, se nume ște eroare, și este dată de expresia:
ix i i Yye−=
Uneori valorile empirice sunt mai mari decât valorile estimate, diferen țele
dintre acestea fiind numere poz itive, iar alteori valorile empirice, observate sunt
mai mici decât valorile estimate, diferen țele fiind numere negative. A șadar,
parabola care aproximeaz ă cel mai bine leg ătura dintre cele dou ă variabile
analizate este aceea în func ție de care distan țele punctelor valorilor empirice la
parabola valorilor teoretice sunt minime. Adic ă,
min) ( min2
1 12=−⇔=∑ ∑
= =n
ix in
ii
iYy e. Este evident c ă ),,(2 1 0
12bbbF en
ii=∑
=.
88Vom avea:
2
12
2 1 0 2 1 0 ) ( minarg),,( minarg ∑
=−−− =k
iii i xbxbby bbbF
Formulată ca o problem ă de optimizare, determinarea estimatorilor 2 1 0,,bbb se
face apelând la condi țiile necesare de ordinul I:
Deci vom avea,
⎪⎪⎪⎪⎪⎪⎪
⎩⎪⎪⎪⎪⎪⎪⎪
⎨⎧
=⎪⎪⎪
⎩⎪⎪⎪
⎨⎧
+ + =+ +=++=
⇔==
∑∑ ∑∑∑∑ ∑∑∑∑ ∑
== = === = === =
0),,(0),,(0),,(
22 1 011 14
23
1
12
0211 13
22
1
1011 12
2 1 0
12 1 002 1 0
bbbbFx b x b x b xyx b x bx bxyx bx b nby
bbbbFbbbbF
n
in
in
ii in
ii iin
in
in
ii in
ii iin
in
in
iii i
δδδδδδ
,
Determinarea estimatorilor 2 1 0,,bbb se poate realiza cu ajutorul metodei
determinan ților.
U6.5. Cuantificarea intensit ății legăturii dintre variabile în
modelul parabolic
Cuantificarea intensit ății legăturii dintre va riabilele economice specificate
în modelul parabolic, ca de altfel în toate modelele neliniare, se realizeaz ă cu
ajutorul raportului de corela ție. Formula de calcul a raportului de corela ție este:
∑∑
∑∑
==
==
−−⋅−−
−=
−−
−=n
iin
iii i
n
iin
ix i
yyxbxbby
yyYy
Ri
1212 2
2 1 0
1212
) () (
1
) () (
1
89
U6.6. Test de autoevaluare
1. Pentru estimarea intensit ății legăturii de tip liniar dintre dou ă variabile
economice putem folosi atât raportul de corela ție cât și coeficientul de
corelație simplă liniară Pearson. Pentru estimarea intensit ății legăturii de tip
parabolic dintre dou ă variabile economice putem utiliza ambii coeficien ți?
Explicați răspunsul.
2. Dați exemple din teoria economic ă de variabileîntre care exist ă o legătură de
tip neliniar.
3. Se cunosc urm ătoarele date privind vechimea în munc ă (ani) și salariul (RON)
a 15 angaja ți cu vârsta mai mic ă de 35 ani
Angajat Vechimea în munc ă (ani) Salariul (RON)
A 1 700
B 1,5 850
C 2 910
D 3,3 1000
E 4 1400
F 4,1 1470
G 4,5 1500
H 5 1500
I 5,1 1440
J 5,5 1300
K 6 1270
L 6,2 1200
M 6,8 800
N 7 740
a) Valorile estimate ale coeficien ților de regresie sunt:
o 729,78 ,117,672 ,972,1722 1 0 −= = = b b b
o 70 ,620 ,02 1 0 −=== b b b Cu cât R este mai apropiat de valoarea 1, cu atât legãtura dintre
variabilele analizate este mai intensã. Cu cât R este mai apropiat de 0 cu
atât legãtura dintre variabilele analizate este mai slabã, sau chiar
inexistentã. Putem calcula și coeficientul de determina ție, ca pãtrat al
raportului de corela ție; valoarea acestuia ne aratã procentul din
variabilitatea variabilei endoge ne determinatã de influen ța variabilei
independente.
Timp de lucru : 40 min
Punctaj 100p
90b) Valoarea raportului de corela ție este:
o 705,0=R
o 1=R
o 907,0=R
o 1−=R
U6.7. Rezumat
Bibliografie minimal ă
1. Gujarati (2004), Basic Econometrics, 4th Edition, McGraw −Hill New York
2. Hinton, P.R. (2004), Statistics Explained, 2nd Edition, Routledge New York.
3. Rotariu T. (coord) (2006), Metode statistice aplicate în științele sociale, Editura
Polirom. 4. Sthephens, L. (2004), Advanced Statistics Demystified, McGraw-Hill. Fenomenele economice sunt caract erizate de un grad ridicat de
complexitate și dinamism, urmând deseori tr aiectorii neliniare. Adesea,
traiectoria ini țial liniarã a unui fenomen ec onomic se poate transforma
într-o traiectorie neliniara. În cadrul acestei unitã ți de învã‚are am facut
cunoștințã cu un prim model neliniar, modelul parabolic. Au fost
prezentate aspecte metodologice legate de specificarea și definirea
acestuia, estimarea parametrilor de regresie cu ajutorul metodei celor mai
mici pãtrate, precum și estimarea intensitã‚ii legãturii dintre variabilele
economice analizate cu ajutorul modelului parabolic.
91
Cuprins:
U7.1. Scopul și obiectivele unit ății
U7.2. Definirea și specificarea modelului de regresie hiperbolic
U7.3. Estimarea parametrilor mode lului de regresie hiperbolic
U7.4. Cuantificarea intensit ății legăturii dintre variabile în modelul hiperbolic
U7.5. Test de autoevaluare U7.6. Rezumat
Bibliografie minimal ă
U7.1. Scopul și obiectivele unit ății
În cadrul acestei unit ăți de învățare ne vom opri aten ția asupra modelului
hiperbolic simplu, numit și modelul reciproc de regres ie, cu panta curbei negativ ă.
Modelul hiperbolic este folosit pentru modelarea leg ăturii dintre variabilele
economice ale c ăror valori ()i iyx, urmeaz ă o funcție hiperbolic ă. Modelul de
regresie hiperbolic ă este utilizat în economie pentru a studia dependen ța dintre
rata șomajului și rata infla ției (curba Philips), leg ătura dintre câ știgul salarial real
și rata șomajului, dependen ța dintre dezvoltarea economic ă exprimat ă prin
intermediul produsului intern brut pe cap de locuitor și ponderea popula ției urbane UNITATEA 7
Regresia hiperbolicã
Durata medie de studiu individual – 2 ore
92sau dependen ța dintre consumul unui produs și veniturile dis ponibile pentru
consum. La finalul acestei unit ăți de învățare:
veți fi capabili s ă specifica ți și să definiți modelul hiperbolic
veți fi capabili s ă estimați coeficien ții de regresie utilizând metoda celor
mai mici p ătrate ( OLS)
veți putea estima intensitatea leg ăturii dintre variabilele analizate
veți reuși să obțineți un scor de cel pu țin 80 % într-un interval de timp de
maximum 60 minute la testul de la sfâr șitul acestei unit ăți de învățare.
U7.2. Definirea și specificarea modelului de regresie hiperbolic
Forma canonic ă a modelului hiperbolic simplu este:
n ixyi
ixi,1 ,1
1 0 =++= εββ
unde 1 0ββsi sunt parametrii de regresie ce specific ă legăturile dintre variabilele
analizate la nivelul întregii popula ții statistice, iar iε este eroarea aditiv ă
(reziduu) ce dă caracterul stochastic al modelului.
Analog descrierii modelului de regresie liniar ă simplă, vom delimita
noțiunea de „ ecuație de regresie”, așa cum este descris ă de formula anterioar ă de
noțiunea de „ ecuație determinat ă pe baza unor e șantioane aleatoare”, descrisă de
formula:
i
ix exbb Y
i++=1
1 0
unde 1 0,bb sunt estima ții ale parametrilor 1 0,ββ , iar ie are semnifica ția unui
termen rezidual (eroare). Termenul 0b este numit și termen liber și arată valoarea
variabilei endogene at unci când variabila X tinde la infinit. Termenul 1b ne arată
cu cât se modific ă, în medie, variabila
ixY cazul în care
ix1 se modific ă c u o
unitate. Termenul ie reprezint ă eroarea, adic ă efectul tuturor variabilelor ce
acționează asupra variabilei endogene minus efectul variabilei exogene. A șadar,
eroarea reprezint ă partea din efectul total pe care variabila exogen ă nu o explic ă.
93Dacă 01>b curba este descresc ătoare, adic ă o creștere a valorilor variabilei
exogene X determină o descre ștere a valorilor variabilei Y, iar dacă 01<b curba
este cresc ătoare, adic ă o creștere a valorilor variabilei X determin ă creșterea
valorilor variabilei Y.
U7.3. Estimarea parametrilor mode lului de regresie hiperbolic
Estimarea parametrilor modelului de regresie hiperbolic se realizeaz ă
utilizând metoda celor mai mici p ătrate. Presupunând c ă asumpțiile prezentate în
unitățile de învățare anterioare sunt verificate, vom avea:
2
11 02
1 12)1( min ) ( min ∑ ∑ ∑
= = =−−⇔=−⇔=n
i iin
ix in
iixbby Yy e
i.
Este evident c ă ),(1 0
12bbF en
ii=∑
=.
Vom avea:
2
11 0 1 0 )1( minarg),( minarg ∑
=−− =k
i iixbby bbF
Formulat ă ca o problem ă de optimizare, determinarea estimatorilor 1 0,bb
se face apelând la condi țiile necesare de ordinul I:
⎪⎪
⎩⎪⎪
⎨⎧
+=+=
⇔
⎪⎪
⎩⎪⎪
⎨⎧
==
∑∑∑∑∑
== ===
n
in
i in
i i iin
in
i ii
xbxbxyxb nby
bbbFbbbF
112
1
10111 0
11 001 0
)1(1 11
0),(0),(
δδδδ
Vom avea:
∑∑∑∑∑
==== =
−−
=ΔΔ=n
in
i i in
iin
i in
i ii
x xnyx xynbb
112 21 1 1 1
1
)1()1(1 1
94și
∑∑∑∑∑∑
==== ==
−−
=ΔΔ=n
in
i i in
i iin
i in
in
i ii
x xnxyx xybb
112 21 1 11 0
0
)1()1(1 1 1
U7.4. Cuantificarea intensit ății legăturii dintre variabile în
modelul hiperbolic
Cuantificarea intensit ății legăturii dintre va riabilele economice specificate
în modelul hiperbolic, ca de altfel în toate modelele neliniare, se realizeaz ă cu
ajutorul raportului de corela ție. Formula de calcul a raportului de corela ție este:
∑∑
∑∑
==
==
−⋅−−
−=
−−
−=n
iin
i ii
n
iin
ix i
yyxbby
yyYy
Ri
1212
1 0
1212
) ()1(
1
) () (
1
U7.5. Test de autoevaluare
1. În modelul de regres ie hiperbolic, dac ă estimatorul 01>b atunci o cre ștere
a variabilei exogene X va determina:
a) o descre ștere a variabilei endogene Y
b)o cre ștere a variabilei endogene Y
c) nici o modificare asupra variabilei Y Cu cât R este mai apropiat de valoarea 1, cu atât legãtura dintre variabilele
analizate este mai intensã. Cu cât R este mai apropiat de 0 cu atât legãtura
dintre variabilele analizate este mai slabã, sau chiar inexistentã. Putem
calcula și coeficientul de determina ție, ca pãtrat al raportului de corela ție;
valoarea acestuia ne arat ã procentul din variabilitatea va riabilei endogene
determinatã de influen ța variabilei independente.
Timp de lucru : 60 min
Punctaj 100p
952. Dacă coeficientul de determina ție 9820 ,02=R și testul F arată că modelul
hiperbolic specificat este valid, înseamn ă că:
a) 98,20% din varia ția totală a variabilei endogene este explicat ă de varia ția
variabilei exogene b) între cele dou ă variabile nu exist ă nici o leg ătură
c) 1,8% din varia ța totală a variabilei endogene este explicat ă de variația variabilei
exogene
3. O valoare a raportului de corela ție egală cu zero într-un model neliniar arat ă
că:
a) variabilele economice anal izate sunt independente
b) legătura dintre variabilele analizate este foarte intens ă
c) legătura dintre variab ile nu este liniar ă
4) Construi ți un eșantion format din 20 produs e pentru care se analizeaz ă
dependen ța dintre pretul produsului și consumul produsului re spectiv, cu ajutorul
modelului de regresie hiperbolic. Estima ți parametrii de regresie și intensitatea
legăturii dintre variab ilele analizate.
U7.6. Rezumat
În cadrul acestei unitã ți de învã țare este prezentat modelul de
regresie hiperbolic. Modelul hiperb olic este folosit pentru analiza
legãturii dintre variabilele economice ale cãror valori ()i iyx,
urmeazã o func ție hiperbolicã. Modelul de regresie hiperbolicã este
utilizat în economie pe ntru a studia dependen ța dintre rata șomajului
și rata infla ției (curba Philips), legãtura dintre câ știgul salarial real și
rata șomajului, sau dependen ța dintre consumul unui produs dat și
prețul produsului respectiv respectiv.
96
Bibliografie minimal ă
1. Gujarati (2004), Basic Econometrics, 4th Edition, McGraw −Hill New York
2. Hinton, P.R. (2004), Statistics Explained, 2nd Edition, Routledge New York.
3. Rotariu T. (coord) (2006), Metode statistice aplicate în științele sociale, Editura
Polirom. 4.Sthephens, L. (2004), Advanced Statistics Demystified, McGraw-Hill.
97
Cuprins:
U8.1. Scopul și obiectivele unit ății
U8.2. Definirea, specificarea modelului de regresie exponen țială și estimarea
parametrilor
U8.3. Cuantificarea intensit ății legăturii dintre variabile în modelul exponen țial
U8.4. Test de autoevaluare U8.5. Rezumat
Bibliografie minimal ă
U8.1. Scopul și obiectivele unit ății
În cadrul acestei unit ăți de învățare sunt prezentate aspecte metodologie
ale modelului de regresie exponen țial unifactorial. Modelul de regresie
exponențial poate fi utilizat pentru analiza unor fenomene ce urmeaz ă o lege
exponențială, precum leg ătura dintre popula ția unei țări și variabila timp,
dependen ța dintre presiunea atmosferic ă și înălțimea față de nivelul m ării, legătura
dintre vârsta unui individ și probabilitatea lui de reanga jare, etc. Cel mai frecvent
întâlnim modele exponen țiale utilizate pentru modelarea fenomenelor
demografice (cre șterea popula ției). UNITATEA 8
Regresia exponen țialã
Durata medie de studiu individual – 2 ore
98 La finalul acestei unit ăți de învățare:
veți fi capabili s ă specifica ți și să definiți modelul exponen țial unifactorial
veți fi capabili s ă estimați coeficien ții de regresie utilizând metoda celor
mai mici p ătrate ( OLS)
veți putea estima intensitatea leg ăturii dintre variabilele analizate
veți reuși să obțineți un scor de cel pu țin 80 % într-un interval de timp de
maximum 20 minute la testul de la sfâr șitul acestei unit ăți de învățare.
U8.2. Definirea, specificarea modelului de regresie exponen țială și
estimarea parametrilor
Există situații în practica econometric ă, când modelele cele mai potrivite
pentru a descrie rela ția de dependen ță dintre variabilele supuse observ ării nu sunt
cele de tip polinomial. Un astf el de model este cel exponen țial, ce se utilizeaz ă
atunci când norul de puncte r ezultat în urma reprezent ării grafice a seriei de valori
),(i iyx , n i,1= , urmează o curbă specifică unei func ții exponen țiale.
Forma canonic ă a modelului exponen țial unifactorial este:
ix
xi
iy εββ+=10
unde 1 0ββsi sunt parametrii de regresie ce specific ă legăturile dintre variabilele
analizate la nivelul întregii popula ții statistice, iar iε este eroarea aditiv ă
(reziduu) ce dă caracterul stochastic al modelului.
Analog descrierii modelelor anterioare, vom delimita no țiunea de „ ecuație
de regresie”, așa cum este descris ă de formula de mai sus de no țiunea de „ ecuație
determinat ă pe baza unor e șantioane aleatoare”, descrisă de formula:
ix
x e bb Yi
i+=10
unde
ixY reprezint ă valorile estimate ale vari abilei endogene analizate, 1 0,bb sunt
estimații ale parametrilor 1 0,ββ , iar ie are semnifica ția unui termen rezidual
(eroare). În general, parametrul 0b este reprezint ă nivelul mediu al variabilei
endogene Y atinci când 0 =ix . Parametrul 0b reprezint ă factorul de cre ștere
exponențială, indicând schimbarea în me dia variabilei endegone Y determinat ă de
creșterea cu o unitate a variabilei exogene X. Dacă 11>b , evoluția caracteristicii Y
99 Acest model este liniarizabil, liniarizare ce se ob ține prin logaritmarea
expresiei: ix
x e bb Yi
i+ = 10
Vom avea:
1 0 ln ln ln bx b Yi xi+=
Notăm:
ixY ylg=′
0lgb a=′
1lgb b=′ , și vom obține ecuația:
ixbay′+′='
Presupunând ca satisfacute condi țiile impuse de metoda celor mai mici
pătrate prezentate în unit ățile anterioare, ob ținem sistemul de ecua ții normale:
⎪⎪
⎩⎪⎪
⎨⎧
′+′=′′+′=′
∑∑∑∑∑
n
in
iiin
iin
in
ii
x bx axyx bany
2
Se rezolv ă sistemul, se determin ă parametrii a′ și b′și prin anti-
logaritmare se vor ob ține estimatorii ib0și 1b și implicit valorile ajustateiy.
Pentru interpretarea parametrului 1b vom tine seama de faptul ca:
xy
yb∂∂=1
1 . Se
observă că parametrul 1b defineșt e r a t a d e c r e ștere a variabilei dependente în
funcție de variabila independent ă X. Pentru modelul exponen țial avem
următoarele propriet ăți:
a) parametrul 1b reprezint ă rata de cre ștere sau sc ădere a variabilei endegene,
dependente Y în raport cu variabila exogen ă, independent ă Xș
b) dacă 1b>1 atunci evolu ția variabilei Y este cresc ătoareș
c) dacă )1,0(1∈b , variabila Y înregistreaz ă o scădere în raport cu variabila Xș
d) seria de valori pentru variabila Y conține numai valori pozitive, parametrul
ib0satisfăcând pentru modelul exponen țial proprietatea de pozitivitate.
100Analiza dependen țelor dintre variab ilele economice cu ajutorul modelului
exponențial necesit ă multă atenție, deoarece o variabil ă economic ă, în general, nu
poate să crească sau să descreasc ă exponențial decât pe o anumit ă perioadă
determinat ă de timp (Hinton, 2004).
U8.3. Cuantificarea intensit ății legăturii dintre variabile în
modelul hiperbolic
Cuantificarea intensit ății legăturii dintre va riabilele economice specificate
în modelul exponen țial, ca de altfel în toate modelele neliniare, se realizeaz ă cu
ajutorul raportului de corela ție. Formula de calcul a raportului de corela ție este:
∑∑
∑∑
==
==
−−
−=
−−
−=n
iin
ix
i
n
iin
ix i
yybby
yyYy
Ri
i
1212
10
1212
) () (
1
) () (
1
U8.4. Test de autoevaluare
1. Avem modelul de regresie ix
x e bb Yi
i+=10. O valoare a parametrului de regresie
40,11=b arată că:
a) legătura dintre cele dou ă variabile analizate este direct ă, pozitivă, iar la o Cu cât R este mai apropiat de valoarea 1, cu atât le gãtura dintre
variabilele analizate este mai intensã. Cu cât R este mai apropiat de 0 cu
atât legãtura dintre variabilele an alizate este mai slabã, sau chiar
inexistențã. Putem calcula și coeficientul de determina ție, ca pãtrat al
raportului de corela ție; valoarea acestuia ne aratã procentul din
variabilitatea variabilei endogene determinatã de influen’a variabilei
independente.
Timp de lucru: 20 min
Punctaj 100p
101modificare cu o unitate a variab ilei exogene, variabila endogen ă va crește, în medie,
cu ln(1,40). b) legătura dintre cele dou ă variabile este invers ă, negativă,iar la o modificare cu o
unitate a variabilei exogene, variabila endogen ă va scădea, în medie, cu ln(1,40).
c) nici unul dintre r ăspunsuri nu este cel corect
2. Dacă avem modelul
ix
x e bb Yi
i+=10, iar raportul de corela ție R=0,890 , iar
Sig=0,000 . între cele dou ă variabile X și Y :
a) nu exist ă nici o leg ătura
b) legătura dintre variabile este direct ă, pozitivă, și foarte intens ă
c) legătura dintre variabile este invers ă, negativă și de intensitate sc ăzută
3) Dacăestimatorul )1,0(1∈b , atunci:
a) variabila Y înregistreaz ă o scădere în raport cu variabila X
b) variabila Y înregistreaz ă o creștere în raport cu variabila Y
c) variabilele Y și X sunt independente
4) În urma analizei datelor statistice privind valoarea investi țiilor (mil.lei) și
valoarea produc ției (mild.lei) înregistrate pentru un e șantion format din 20 unit ăți
economice ce î și desfășoară activitatea în municipiul Bucure ști s-au obținut
următoarele rezultate:
Coeficien ți nestandardiza ți Coeficien ți
standardiza ți
B Std. Error Beta t Sig.
Constanta 1,769 0,103 17,118 0,000
ix 1,322 0,256 2,677
5,161 0,014
Să se scrie ecua ția ce arat ă interacțiunea dintre valoarea investi țiilor și valoarea
producției pentru e șantionul analizat. Interpreta ți valoarea estimatorului 1b.
102
U8.5. Rezumat
Bibliografie minimal ă
1. Gujarati (2004), Basic Econometrics, 4th Edition, McGraw −Hill New York
2. Hinton, P.R. (2004), Statistics Explained, 2nd Edition, Routledge New York.
3. Rotariu T. (coord) (2006), Metode statistice aplicate în științele sociale, Editura
Polirom. 4.Sthephens, L. (2004),
Advanced Statistics Demystified, McGraw-Hill. În cadrul acestei unitã ți de învã țare este prezentat modelul de
regresie exponen țial. Modelul de regresie exponen țial poate fi utilizat
pentru analiza unor fenomene ce urmeazã o lege exponen țialã, precum
legãtura dintre popula ția unei‚ țãri și variabila timp, dependen ța dintre
presiunea atmosfericã și înãlțimea fațã de nivelul mãrii, legãtura dintre
v\rsta unui individ și probabilitatea lui de reangajare, etc. Cel mai
frecvent întâlnim modele exponen țiale utilizate pentru modelarea
fenomenelor demografice (cre șterea popula ției).
103
Cuprins:
U9.1. Scopul și obiectivele unit ății
U9.2. Inferen ța statistică în cadrul modelului parabolic
U9.3. Inferen ța statistică în cadrul modelului hiperbolic
U9.4. Inferen ța statistică în cadrul modelului exponen țial
U9.5. Aplica ție rezolvat ă
U9.6. Comenzi SPSS pentru modelele neliniare U9.7. Test de autoevaluare U9.8. Rezumat
Bibliografie minimal ă
U9.1. Scopul și obiectivele unit ății
Scopul acestei unit ăți de înv ățare este acela de a prezenta aspecte
metodologice și aplicative legate de testarea semnifica ției ecuației de regresie în
intregime, precum și testarea individuala a semnifica ției statistice a fiecarui
parametru al modelului. La finalul acestei unit ăți de învățare: UNITATEA 9
Inferența statisticã în cadrul modelelor neliniare
Durata medie de studiu individual – 2 ore
104 veți înțelege importan ța testării semnifica ției generale a modelelor de
regresie neliniare, a semnifica ției estimatorilor parametrilor de regresie, a
semnifica ției raportului de corela ție precum și determinarea intervalelor de
încredere
veți reuși să obțineți un scor de cel pu țin 80 % într-un interval de timp de
maximum 40 minute la testul de la sfâr șitul acestei unit ăți de învățare.
U9.2. Inferen ța statistic ă în cadrul modelului parabolic
Fenomenele economice sunt caract erizate de un grad ridicat de
complexitate, de aceea în practica econometric ă este imposibil s ă analizăm efectul
acțiunii tuturor factorilor ce influen țează o variabil ă identificat ă ca fiind endogen ă.
De aceea vom lua în considerare numai leg ăturile semnificative dintre variabilele
endogene analizate. A șa cum am vazut pân ă acum, regresia este o metod ă
inferențială, ce opereaz ă pe un e șantion de observa ții, oferind posibilitatea
deducerii și generaliz ării concluziilor asupra întregii popula ții. De aceea este
absolut necesar ă testarea validit ății modelului ales, a semnifica ției statistice a
estimatorilor coeficien ților de regresie și determinarea intervalelor de încredere
corespunz ătoare pentru un nivel de semnifica ție λ dat. Dac ă prin predic ție vom
estima valorile unei variabile endogene pe baza valorilor vari abilei/variabilelor
exogene, cu ajutorul inferen ței statistice vom estima parametrii de regresiei pentru
întreaga popula ție analizat ă pe baza estimatorilor calcula ți pentru un e șantion
aleator. Știm că forma canonic ă a modelului de regresie pa rabolic unifactorial este:
iii x x x y
iεβββ ++⋅+=2
2 1 0 , n i ,…..2,1=
unde 1 0,ββ și 2β sunt parametrii ce specific ă în mod unic modelul
relativ la întreaga popula ție statistic ă, ce are ca surs ă a datelor o observare
exhaustiv ă. Iar ecuația determinat ă pe baza unui e șantion aleator va fi:
iii x e xb xb b Y
i++⋅+=2
2 1 0, n i ,…..2,1=
105 Fie statistica
00
bo
bsbt
oβ−= , ce urmeaz ă o distribu ție Student cu (n-k-1)
grade de libertate. ob este estimatorului parametrului 0β din modelul de regresie,
0β este parametrul de regresie ce specific ă în mod unic modelul relativ la întreaga
populație statistic ă, ce are ca surs ă a datelor o observare exhaustiv ă, iar
0bs este
eroarea standard a estimatorului ob. Analog pentru
111 1
bbsbtβ−= și
222 2
bbsbtβ−= .
Definim probabilitatea:
() λ ββ−=⋅+≤≤⋅−=⎟⎟
⎠⎞
⎜⎜
⎝⎛
≤−1
0 0
00 0 00 0
b tabelat b tabelat tabelat
bs tb s tbP tsbP pentru
parametrul ob
() λ ββ−=⋅+≤≤⋅−=⎟⎟
⎠⎞
⎜⎜
⎝⎛
≤−1
1 1
11 1 11 1
b tabelat b tabelat tabelat
bs tb s tbP tsbP pentru
parametrul 1b
() λ ββ−=⋅+≤≤⋅−=⎟⎟
⎠⎞
⎜⎜
⎝⎛≤−1
2 2 2 2 2
22 2
b tabelat b tabelat tabelat
bs tb s tbP tsbP pentru
parametrul 2b
unde tabelatt este valoarea critic ă tabelată a repartiției Student pentru pentru (n-k-1)
grade de libertate și riscul λ dat, 2 1, bsibbo sunt estimatorii parametrilor
2 1 0,,βββ din modelul de regresie, iar
2 1 0,,b b b sss reprezint ă eroarea standard a
coeficientuluiob, eroarea standard a coeficientului1b, respectiv eroarea standard
a coeficientului2b.
Vom considera ipotezele:
a) Ipoteza nul ă
⎪⎩⎪⎨⎧
===
000
:
210
βββ
oH , contra
106b) Ipoteza alternativ ă
⎪⎩⎪⎨⎧
≠≠≠
000
:
210
1
βββ
H .
Vom calcula statistica t pentru fiecare estimator:
00
bbsbt
o= ,
111
bbsbt= și
222
bbsbt= .
Dacă tabelat calculat t t> pentru fiecare estimator, atunci estimatorul parametrului de
regresie este semnificativ din punct de vedere statistic.
Pe lângă testarea utilit ății estimatorilor parametrilor de regresie ai modelului
parabolic, este necesar ă și testarea calit ății ajustării prin modelul parabolic a datelor
de observa ție. Aprecierea calit ății ajustării se realizeaz ă utilizând analiza de tip
dispersional. Vom descompune varia ția totală a variabilei endogene Y în raport cu
cele două surse de varia ție identificabile, varia ția datorat ă regresiei și variația
reziduală.
Valorilor ajustate sunt ii x xb xb b Y
i2
2 1 0 +⋅+= iar eroarea este
ii i x i i xbxbby Yy e
i2
2 1 0−⋅−−=−=. Abaterea valorilor empirice iy de la media
lor este:
) ( ) () ( y Y eyy y Y Yy yy
i i i x i i x x i i −+=−⇔−+−=−
Variația totală a variabilei endogene Y se obține ca sum ă a pătratelor abaterilor
valorilor individuale de la media lor, adic ă:
∑∑∑
== =−+−=−n
in
ix i xn
iii iYy y Y yy
112 2 2
1) ( ) ( ) (
Variația explicat ă a variabilei Y, datorată regresiei este:
2
12
2 1 0
12) ( ) ( y xbxbb y Yn
iiin
ixi∑∑
= =−+⋅+=−
Iar pentru varia ția rezidual ă a lui Y avem:
∑∑
===−n
in
iix i e Yy
i
112 2) (
Calculul varia ției totale 2
1) (∑
=−n
iiyy se bazeaz ă pe (n-1) grade de libertate,
calculul varia ției explicate ∑
=−n
ixy Y
i
12) ( se bazeaz ă pe 2=k grade de libertate,
107iar pentru varia ția rezidual ă ∑
=−n
ix iiYy
12) ( a v e m n-k-1 , adică n-3 grade de
libertate.
Analiza varian ței este prezentat ă într-o form ă sistematizat ă în tabelul 1.
Tabelul 1: Analiza varian ței
Sursa
variației Suma pătratelor Grade de
libertate Pătratul mediu
Explicată ∑
=−n
ixy Y
i
12) (
2 ∑
=−n
ixy Y
i
122/) (
Reziduală ∑
=−n
ix iiY y
12) (
=∑
=n
iie
12n-k-1
112
−−=∑
=
kne
sn
ii
e
Totală 2
1) (∑
=−n
iiyy n-1
1) (
12
−−
=∑
=
nyy
sn
ii
y
Calitatea ajust ării datelor de observa ție pe baza dreptei de regresie se poate
aprecia cu ajutorul testului F (Fisher- Snedecor). Statistica F are expresia:
∑∑
==
−− −−
= =n
ix in
ix
kn Yyy Y
reziduala Dispersialicata DispersiaF
ii
1212
)1 /() (2/) (exp
. F urmează o
distribuție Fisher-Snedecor cu 2 și n-k-1 grade de libertate.
Pentru aprecierea semnifica ției globale a modelului de regresie vom
compara valoarea calculat ă a statisticii F cu valoarea tabelat ă ) ,1 ,( λ−−knkF a
distribuției Fisher pentru cele dou ă grade de libertate și (n-k-1) asociate
estimațiilor de dispersie corespunz ătoare și pentru un prag de semnifica ție λ dat.
Dacă tabelat calculat F F> vom respinge ipoteza nul ă, variabilitatea celor dou ă
variabile exogene influențează semnificativ vari abilitatea endogenei Y, în caz
contrar se accept ă ipoteza nul ă, modelul de regresie nu este verosimil.
108U9.3. Inferen ța statistic ă în cadrul modelului hiperbolic
Forma canonic ă a modelului hiperbolic unifactorial este:
n ixyi
ixi,1 ,1
1 0 =++= εββ
unde 1 0ββsi sunt parametrii de regresie ce specific ă legăturile dintre variabilele
analizate la nivelul întregii popula ții statistice, iar iε este eroarea aditiv ă
(reziduu) ce dă caracterul stochastic al modelului.
Analog descrierii modelului de regresie liniar ă simplă, vom delimita
noțiunea de „ ecuație de regresie”, așa cum este descris ă de formula anterioar ă de
noțiunea de „ ecuație determinat ă pe baza unor e șantioane aleatoare”, descrisă de
formula:
i
ix exb b Y
i++=1
1 0
Pentru testarea semnifica ției statistice a estimatorilor 0b și 1b vom utilizat testul
t-Student. Valoarea calculat ă a statisticii t pentru estimatorul 0b este:
00
bo
bsbt
oβ−=
Pentru a calcula abaterea standard a estimatorului 0b vom determina mai întâi
eroarea standard a estim ării:
1) (
12
−−−
=∑
=
knYy
sn
ix i
ei
.
Analog pentru estimatorul 1b vom avea:
11 1
bbsbt
oβ−=
109Vom considera ipotezele:
c) Ipoteza nul ă
⎪⎩⎪⎨⎧
==
00
:10
ββ
oH , contra
d) Ipoteza alternativ ă
⎪⎩⎪⎨⎧
≠≠
00
:10
1ββ
H .
Dacă tabelat calculat t t> pentru fiecare estimator, atunci estimatorul parametrului de
regresie este semnificativ din punct de vedere statistic.
Pe lângă testarea utilit ății estimatorilor parametrilor de regresie ai modelului
hiperbolic, este necesar ă și testarea calit ății ajustării prin modelul hiperbolic a
datelor de observa ție. Aprecierea calit ății ajustării se realizeaz ă utilizând analiza de
tip dispersional. Vom descompune varia ția totală a variabilei endogene Y în raport
cu cele dou ă surse de varia ție identificabile, varia ția datorat ă regresiei și variația
reziduală.
Valorilor ajustate sunt
ixxbb Y
i1
1 0+= iar eroarea este
ii x i ixbby Yy e
i1
1 0−−=−=. Abaterea valorilor empirice iy de la media lor este:
) () ( y Y Yy yy
i i x x i i −+−=−
Variația totală a variabilei endogene Y se obține ca sum ă a pătratelor abaterilor
valorilor individuale de la media lor, adic ă:
∑∑∑
== =−+−=−n
in
ix i xn
iii iYy y Y yy
112 2 2
1) ( ) ( ) (
Variația explicat ă a variabilei Y, datorată regresiei este:
2
11 0
12)1( ) ( yxbb y Yn
i in
ixi∑∑
= =−+=−
Iar pentru varia ția rezidual ă a lui Y avem:
∑∑
===−n
in
iix i e Yy
i
112 2) (
110Calculul varia ției totale 2
1) (∑
=−n
iiyy se bazeaz ă pe (n-1) grade de libertate,
calculul varia ției explicate ∑
=−n
ixy Y
i
12) ( se bazeaz ă pe 1=k grade de libertate (o
singură variabilă exogenă în model), iar pentru varia ția rezidual ă ∑
=−n
ix iiYy
12) (
avem n-k-1 , adică n-2 grade de libertate.
Analiza varian ței este prezentat ă într-o form ă sistematizat ă în tabelul 1.
Tabelul 1: Analiza varian ței
Sursa
variației Suma pătratelor Grade de
libertate Pătratul mediu
Explicată ∑
=−n
ixy Y
i
12) ( 1 ∑
=−n
ixy Y
i
121/) (
Reziduală ∑
=−n
ix iiY y
12) (
=∑
=n
iie
12n-k-1
112
−−=∑
=
kne
sn
ii
e
Totală 2
1) (∑
=−n
iiyy n-1
1) (
12
−−
=∑
=
nyy
sn
ii
y
Calitatea ajust ării datelor de observa ție pe baza dreptei de regresie se poate
aprecia cu ajutorul testului F (Fisher- Snedecor). Statistica F are expresia:
∑∑
==
−− −−
= =n
ix in
ix
kn Yyy Y
reziduala Dispersialicata DispersiaF
ii
1212
)1 /() (1/) (exp
. F urmează o
distribuție Fisher-Snedecor cu 1 și n-k-1 grade de libertate.
Pentru aprecierea semnifica ției globale a modelului de regresie vom
compara valoarea calculat ă a statisticii F cu valoarea tabelat ă ),1 ,( λ−−knkF a
distribuției Fisher pentru k grade de libertate și (n-k-1) asociate estima țiilor de
dispersie corespunz ătoare și pentru un prag de semnifica ție λ dat. Dac ă
tabelat calculat F F> vom respinge ipoteza nul ă, variabilitatea celor dou ă variabile
exogene influențează semnificativ variabilitatea endogenei Y, în caz contrar se
acceptă ipoteza nul ă, modelul de regresie nu este verosimil.
111U9.4. Inferen ța statistic ă în cadrul modelului exponen țial
Așa cum am vazut anterior, forma canonic ă a modelului de regresie
exponențial unifactorial este:
ix
xi
iy εββ+=10
unde 1 0,ββ sunt parametrii ce specific ă în mod unic mode lul relativ la
întreaga popula ție statistic ă, ce are ca surs ă a datelor o observare exhaustiv ă. Iar
ecuația determinat ă pe baza unui e șantion aleator va fi:
ix
x e bb Yi
i+=10, n i ,…..2,1=
Fie statistica
00
bo
bsbt
oβ−= , ce urmeaz ă o distribu ție Student cu (n-k-1)
grade de libertate. ob este estimatorului parametrului 0β din modelul de regresie,
0β este parametrul de regresie ce specific ă în mod unic modelul relativ la întreaga
populație statistic ă, ce are ca surs ă a datelor o observare exhaustiv ă, iar
0bs este
eroarea standard a estimatorului ob. Analog pentru
111 1
bbsbtβ−= .
Definim probabilitatea:
() λ ββ−=⋅+≤≤⋅−=⎟⎟
⎠⎞
⎜⎜
⎝⎛
≤−1
0 0
00 0 00 0
b tabelat b tabelat tabelat
bs tb s tbP tsbP pentru
parametrul ob
() λ ββ−=⋅+≤≤⋅−=⎟⎟
⎠⎞
⎜⎜
⎝⎛
≤−1
1 1
11 1 11 1
b tabelat b tabelat tabelat
bs tb s tbP tsbP pentru
parametrul 1b
unde tabelatt este valoarea critic ă tabelată a repartiției Student pentru pentru (n-k-1)
grade de libertate și riscul λ dat, 1,bbo sunt estimatorii parametrilor 1 0,ββ din
modelul de regresie exponen țial, iar
1 0,b bss reprezint ă eroarea standard a
coeficientuluiob precum și eroarea standard a coeficientului1b.
112Vom considera ipotezele:
e) Ipoteza nul ă
⎪⎩⎪⎨⎧
==
00
:10
ββ
oH , contra
f) Ipoteza alternativ ă
⎪⎩⎪⎨⎧
≠≠
00
:10
1ββ
H .
Vom calcula statistica t pentru fiecare estimator:
00
bbsbt
o= și
111
bbsbt=
Dacă tabelat calculat t t> pentru fiecare estimator, atunci estimatorul parametrului de
regresie este semnificativ din punct de vedere statistic.
Verificarea semnifica ției generale a modelului de regresie exponen țial
unifactorial se realizeaz ă cu ajutorul analizei dispersionale.
Valorilor ajustate sunt i
ix
x bb Y⋅=10 iar eroarea este i
ix
i x i i bby Yy e10−=−=.
Abaterea valorilor empirice iy de la media lor este:
) () ( y Y Yy yy
i i x x i i −+−=−
Variația totală a variabilei endogene Y se obține ca sum ă a pătratelor abaterilor
valorilor individuale de la media lor, adic ă:
∑∑∑
== =−+−=−n
in
ix i xn
iii iYy y Y yy
112 2 2
1) ( ) ( ) (
Variația explicat ă a variabilei Y, datorată regresiei este ∑
=−n
ixy Y
i
12) (
Iar pentru varia ția rezidual ă a lui Y avem:
∑∑
===−n
in
iix i e Yy
i
112 2) (
Calculul varia ției totale 2
1) (∑
=−n
iiyy se bazeaz ă pe (n-1) grade de libertate,
calculul varia ției explicate ∑
=−n
ixy Y
i
12) ( se bazeaz ă pe 1=k grade de libertate,
113iar pentru varia ția rezidual ă ∑
=−n
ix iiYy
12) ( a v e m n-k-1 , adică n-2 grade de
libertate.
Analiza varian ței este prezentat ă într-o form ă sistematizat ă în tabelul 1.
Tabelul 1: Analiza varian ței
Sursa
variației Suma pătratelor Grade de
libertate Pătratul mediu
Explicată ∑
=−n
ixy Y
i
12) (
k=1 ∑
=−n
ixy Y
i
121/) (
Reziduală ∑
=−n
ix iiY y
12) (
=∑
=n
iie
12n-k-1
112
−−=∑
=
kne
sn
ii
e
Totală 2
1) (∑
=−n
iiyy n-1
1) (
12
−−
=∑
=
nyy
sn
ii
y
Calitatea ajust ării datelor de observa ție pe baza dreptei de regresie se poate
aprecia cu ajutorul testului F (Fisher- Snedecor). Statistica F are expresia:
∑∑
==
−− −−
= =n
ix in
ix
kn Yyy Y
reziduala Dispersialicata DispersiaF
ii
1212
)1 /() (1/) (exp
. F urmează o
distribuție Fisher-Snedecor cu 1 și n-k-1 grade de libertate.
Pentru aprecierea semnifica ției globale a modelului de regresie vom
compara valoarea calculat ă a statisticii F cu valoarea tabelat ă ) ,1 ,( λ−−knkF a
distribuției Fisher pentru cele dou ă grade de libertate și (n-k-1) asociate
estimațiilor de dispersie corespunz ătoare și pentru un prag de semnifica ție λ dat.
Dacă tabelat calculat F F> vom respinge ipoteza nul ă, variabilitatea celor dou ă
variabile exogene influențează semnificativ vari abilitatea endogenei Y, în caz
contrar se accept ă ipoteza nul ă, modelul de regresie nu este verosimil.
114U9.5. Aplica ție rezolvat ă
Se cunosc urm ătoarele date privind pre țul unui produs oarecare (u.m) și
cantitatea consumat ă pentru acel produs (mii buc):
Prețul produsului (u.m.) Cantitatea consumat ă (mii buc)
5 115
6 105
7 100
8 98
7 90
9 87
10 87
12 80
13 80
13 79
15 81
18 85
20 90
22 94
30 93
35 92
36 95
38 98
39 100
40 110
Se cere:
a) Să se estimeze efectul variabilei pre țul produsului asupra variabilei
cantitate consumat ă pentru acel produs utilizând modelul de regresie
parabolic
b) Să se calculeze valorile estimate ale cantita șii consumate și eroarea
standard a estima ției.
c) Să se verifice semnifica ția general ă a modelului și semnifica ția
estimatorilor parametrilor de regresie
115d) Să se estimeze intensitatea leg ăturii dintre cele dou ăa variabile analizate și
să se interpreteze rezultatul ob ținut
e) Utilizați modelul hiperbolic și respectiv exponen țial și parcurge ți aceleași
cerințe ca la punctele a, b și c. Care este cel mai potrivit model pentru a
estima efectul variabilei exoge ne asupra cele endogene?
Rezolvare:
a) Din teoria economic ă știm că un factor important ce ac ționaeză asupra
consumului unui produs este pre țul produsului respectiv. A șadar vom nota cu
X-variabila exogen ă, pretul produsului respectiv și cu Y –variabila endegen ă,
adică cantitatea consumat ă.
Forma canonic ă a modelului de regresie parabolic simplu este:
iii x x x y
iεβββ ++⋅+=2
2 1 0 , n i ,…..2,1=
unde 1 0,ββ și 2β sunt parametrii ce specific ă în mod unic modelul relativ la
întreaga popula ție statistic ă, ce are ca surs ă a datelor o observare exhaustiv ă.
Ecuația determinat ă pe baza unui e șantion aleator va fi:
iii x e xbxbb Y
i++⋅+=2
2 1 0, n i ,…..2,1=
unde 0b este un estimator al parametrului 0β, 1b este un estimator al parametrului
1β , 2b este un estimator al parametrului 2β și ie este un estimator al erorii
reziduale iε. Determinarea valorilor 0b, 1b și 2b se realizeaz ă pe baza datelor din
eșantionul analizat.
Presupunând ca verificate asump țiile regresiei, prezentate în unit ățile de
învățare anterioare, vom utiliza metoda celor mai mici p ătrate pentru determinarea
estimatorilor 2 1 0,,bbb .
Avem: min ) ( min2
1 12=−⇔=∑ ∑
= =n
ix in
ii
iYy e. Este evident c ă ),,(2 1 0
12bbbF en
ii=∑
=.
Vom avea:
2
12
2 1 0 2 1 0 ) ( minarg),,( minarg ∑
=−−− =k
iii i xbxbby bbbF
116
Formulat ă ca o problem ă de optimizare, determinarea estimatorilor
2 1 0,,bbb se face apelând la condi țiile necesare de ordinul I:
Deci vom avea,
⎪⎪⎪⎪⎪⎪⎪
⎩⎪⎪⎪⎪⎪⎪⎪
⎨⎧
=⎪⎪⎪
⎩⎪⎪⎪
⎨⎧
+ + =+ +=++=
⇔==
∑∑ ∑∑∑∑ ∑∑∑∑ ∑
== = === = === =
0),,(0),,(0),,(
22 1 011 14
23
1
12
0211 13
22
1
1011 12
2 1 0
12 1 002 1 0
bbbbFx b x b x b xyx b x bx bxyx bx b nby
bbbbFbbbbF
n
in
in
ii in
ii iin
in
in
ii in
ii iin
in
in
iii i
δδδδδδ
,
Tinând cont de nota țiile problemei vo m avea sistemul:
⎪⎩⎪⎨⎧
+ +=+ +=++=
⇔⎪⎪⎪
⎩⎪⎪⎪
⎨⎧
+ + =+ +=++=
∑∑ ∑∑∑∑ ∑∑∑∑ ∑
== = === = === =
2 1 02 1 02 1 011 14
23
1
12
0211 13
22
1
1011 12
2 1 0
11603913b 331967b 1030b 992768331967b 10305 383b 3606610305b 383 20 1859
bb bx b x b x b xyx b x bx bxyx bx b nby
n
in
in
ii in
ii iin
in
in
ii in
ii iin
in
in
iii i
Soluța sistemului este:
⎪⎩⎪⎨⎧
===
,071b-3,082115,150
210
bb
Așadar valorile estimate ale cantit ății consumate din produs ul respectiv se
determină pe baza ecua ției: iii x e x x Y
i+ +⋅−=2071,0 082,3 150,115.
b) Valorile estimate ale cantit ății consumate din produsul analizat, determinate
pe baza ecua ției iii x e x x Y
i+ +⋅−=2071,0 082,3 150,115 sunt prezentate în
tabelul 1, coloana 3.
117Tabelul 1: Valori obsevate și valori estimate
Prețul produsului
(u.m.) Cantitatea
consumat ă (mii
buc) ixY
ix i i Yy e−=
1 2 3 4
5 115 101,49 13,51
6 105 99,18 5,82
7 100 97,01 2,99
8 98 94,97 3,03
7 90 97,01 -7,01
9 87 93,08 -6,08
10 87 91,33 -4,33
12 80 88,25 -8,25
13 80 86,91 -6,91
13 79 86,91 -7,91
15 81 84,67 -3,67
18 85 82,35 2,65
20 90 81,51 8,49
22 94 81,23 12,77
30 93 85,69 7,31
35 92 93,03 -1,03
36 95 94,92 0,08
38 98 99,11 -1,11
39 100 101,42 -1,42
40 110 103,87 6,13
Eroarea
ix i i Yy e−= iar valorile acesteia sunt prezentate în tabelul 1 coloana 4
Eroarea standard a estima ției 1) (
12
−−−
=∑
=
knYy
sn
ix i
ei
046,7=
c)
Semnifica ția general ă a modelului specificat o vo m aprecia utilizând analiza
dispersional ă și testul F-Fisher Snedecor
118
În tabelul 2 este prezentat ă analiza ANOVA pentru da tele problemei noastre
Tabelul 2: ANOVA
Sursa
variației Suma pătratelor Grade
de
libertate Dispersii corectate Valoarea testului F
Explicată ∑
==−n
ixy Y
i
12982, 1058) (
k=2 ∑
=−n
ixy Y
i
122/) (
=529,491 F
calculat F tabelat
Reziduală ∑
=−n
ix iiYy
12) (
=843,968 n-k-
1=17
112
−−=∑
=
kne
sn
ii
e =49,645 10,666 =)17;2;5,0(F
3,59
iar
11,6)17;1;01,0( = F
Totală 2
1) (∑
=−n
iiy y =1902,950 n-1=19
1) (
12
−−
=∑
=
nyy
sn
ii
y
∑∑
==
−− −−
= =n
ix in
ix
kn Yyy Y
reziduala Dispersialicata DispersiaF
ii
1212
)1 /() (2/) (exp
=10,666
Deoarece tabelat calculat F F> , testul Fisher ne arat ă faptul că rezultatele ob ținute sunt
semnificative la un prag de semnifica ție chiar de 1%, a șadar modelul specificat
este verosimil.
Verificarea semnifica ția estimatorilor
2 1 0,,bbb se realizeaz ă cu ajutorul testului t-
Student.
Pentru parametrul 0b avem:
000
bbsbt=
Eroarea standard a parametrului 0b este
0bs=6,372. Deci vom avea
372,6115,150
0=bt =18,071
Analog, pentru parametrul 1b avem:
111
bbsbt= . Eroarea standard a parametrului 1b
este
1bs=0,738. Deci 175,4738,03,082-
1= =bt
119Pentru parametrul 2b avem:
222
bbsbt= . Eroarea standard a parametrului 2b este 2bs=0,016, și deci
016,00,071
1=bt =4,438
Valoarea tabelat ă a statisticii t pentru un prag de semnifica ție 05 ,0=λ și n-k-1
grade de libertate este 2,110 iar pentru 01 ,0=λ este de 2,898. Deoarce valorile
calculate ale statisticii t sunt mai mari decât valorile tabelate ale acestei statistici,
pentru toți cei trei estimatori 2 1 0,,bbb putem vorbi de existen ța unei semnifica ții
statistice ridicate.
d) Cuantificarea intensit ății legăturii dintre variabilele economice specificate în
modelul parabolic, ca de altfel în toate modelele neliniare, se realizeaz ă cu
ajutorul raportului de corela ție. Formula de calcul a raportului de corela ție este:
∑∑
∑∑
==
==
−−⋅−−
−=
−−
−=n
iin
iii i
n
iin
ix i
yyxbxbby
yyYy
Ri
1212 2
2 1 0
1212
) () (
1
) () (
1
iar în cazul aplica ției noastre R=0,746 ceea ce indic ă existența unei leg ături destul
de intensă între cele dou ă variabile analizate. Coeficientul de determina ție
556,02=R arată că 55,6% din varia șia totală a variabilei cantitatea consumat ă
din produsul analizat se datoreaz ă prețului produsului respectiv.
Deci modelul econometric este ce descrie dependen ța dintre pre țul produsului
analizat (u.m.) și cantitatea consumat ă din acel produs (mii buc.) este:
ii x x x Y
i2071,0 082,3 150,115ˆ +⋅−= R=0,746
(6,372) (0,738) (0,016) =es7,046
e) Forma canonic ă a modelului hiperbolic unifactorial este:
n ixyi
ixi,1 ,1
1 0 =++= εββ
120unde 1 0ββsi sunt parametrii de regresie ce specific ă legăturile dintre
variabilele analizate la nivelul întregii popula ții statistice, iar iε este eroarea
aditivă (reziduu) ce dă caracterul stochastic al modelului.
Analog descrierii modelului de regresie liniar ă simplă, vom delimita
noțiunea de „ ecuație de regresie”, așa cum este descris ă de formula anterioar ă de
noțiunea de „ ecuație determinat ă pe baza unor e șantioane aleatoare”, descrisă de
formula:
i
ix exbb Y
i++=1
1 0
unde 1 0,bb sunt estima ții ale parametrilor 1 0,ββ , iar ie are semnifica ția unui
termen rezidual (eroare).
Estimarea parametrilor modelului de regresie hiperbolic se realizeaz ă
utilizând metoda celor mai mici p ătrate. Presupunând c ă asumpțiile prezentate în
unitățile de învățare anterioare sunt verificate, vom avea:
2
11 02
1 12)1( min ) ( min ∑ ∑ ∑
= = =−−⇔=−⇔=n
i iin
ix in
iixbby Yy e
i.
Este evident c ă ),(1 0
12bbF en
ii=∑
=.
Vom avea:
2
11 0 1 0 )1( minarg),( minarg ∑
=−− =k
i iixbby bbF
Formulat ă ca o problem ă de optimizare, determinarea estimatorilor 1 0,bb
se face apelând la condi țiile necesare de ordinul I:
⎪⎪
⎩⎪⎪
⎨⎧
+=+=
⇔
⎪⎪
⎩⎪⎪
⎨⎧
==
∑∑∑∑∑
== ===
n
in
i in
i i iin
in
i ii
xbxbxyxb nby
bbbFbbbF
112
1
10111 0
11 001 0
)1(1 11
0),(0),(
δδδδ
Soluția acestui sistem este:
⎩⎨⎧
==
88,86650,733
10
bb
121Așadar vom avea: i
ix exY
i+ +=1866,88 733,50
Valorile estimate ale cantit ății consumate din produsul analizat, utilizând modelul
hiperbolic sunt prezentate în tabelul 3, coloana 3. Eroarea
ix i i Yy e−= , iar valorile
acesteia sunt prezentate în coloana 4 a tabelului 3.
Tabelul 3. Valori observate și valori estimate
Prețul produsului
(u.m.) Cantitatea
consumat ă (mii
buc) ixY
ix i i Yy e−=
1 2 3 4
5 115 68,51 46,49
6 105 65,54 39,46
7 100 63,43 36,57
8 98 61,84 36,16
7 90 63,43 26,57
9 87 60,61 26,39
10 87 59,62 27,38
12 80 58,14 21,86
13 80 57,57 22,43
13 79 57,57 21,43
15 81 56,66 24,34
18 85 55,67 29,33
20 90 55,18 34,82
22 94 54,77 39,23
30 93 53,70 39,30
35 92 53,27 38,73
36 95 53,20 41,80
38 98 53,07 44,93
39 100 53,01 46,99
40 110 52,95 57,05
122Eroarea standard a estima ției 1) (
12
−−−
=∑
=
knYy
sn
ix i
ei
9,910=
d)
Pentru testarea semnifica ției generale a modelului hiperbolic vom utiliza
analiza dispersional ă și testul F-Fisher Snedecor
În tabelul 4 este prezentat ă analiza ANOVA pentru modelul hiperbolic
specificat anterior
Tabelul 4:
ANOVA pentru modelul hiperbolic
Sursa
variației Suma pătratelor Grade de
libertate Dispersii corectate Valoarea testului F
Explicată
∑
==−n
ixy Y
i
12
135,156) (
k=1 ∑
=−n
ixy Y
i
121/) (
=135,1
56 F
calcula
t F tabelat
Reziduală ∑
=−n
ix iiYy
12) (
=1767,
794 n-k-1=18
112
−−=∑
=
kne
sn
ii
e =98,211 1,376 =)18;1;5,0(F
4,41
iar
28,8)18;1;01,0( = F
Totală 2
1) (∑
=−n
iiy y =1902,9
50 n-1=19
1) (
12
−−
=∑
=
nyy
sn
ii
y
∑∑
==
−− −−
= =n
ix in
ix
kn Yyy Y
reziduala Dispersialicata DispersiaF
ii
1212
)1 /() (2/) (exp
=1,376
Observăm că valoarea calculat ă a statisticii F este mai mic ă decât valoarea
tabelată a acesteia, ceea ce conduce la concluzia c ă modelul nu este semnificativ
din punct de vedere statistic, nu este valid, și nu poate fi utilizat pentru a descrie
dependen ța dintre cele dou ă variabile analizate. Accea și concluzie se desprinde si
din utilizarea testului t-Student pentru verificarea semnifica ției statistice a
estimatorilor. Estimatorul 1b nu este semnificativ, valoarea t calculat pentru acesta
este de 1,173, peste valoarea tabelat ă t=2.101 .
123Forma canonic ă a modelului exponențial unifactorial este:
ix
xi
iy εββ+=10
unde 1 0ββsi sunt parametrii de regresie ce specific ă legăturile dintre variabilele
analizate la nivelul întregii popula ții statistice, iar iε este eroarea aditiv ă
(reziduu) ce dă caracterul stochastic al modelului.
Analog descrierii modelelor anterioare, vom delimita no țiunea de „ ecuație
de regresie”, așa cum este descris ă de formula de mai sus de no țiunea de „ ecuație
determinat ă pe baza unor e șantioane aleatoare”, descrisă de formula:
ix
x e bb Yi
i+=10
unde
ixY reprezint ă valorile estimate ale vari abilei endogene analizate, 1 0,bb sunt
estimații ale parametrilor 1 0,ββ , iar ie are semnifica ția unui termen rezidual
(eroare).
Acest model este liniarizabil, liniarizare ce se ob ține prin logaritmarea
expresiei: ix
x e bb Yi
i+ = 10
Vom avea:
1 0 ln ln ln bx b Yi xi+=
Notăm:
ixY ylg=′
0lgb a=′
1lgb b=′ , și vom obține ecuația:
ixbay′+′='
Presupunând ca satisfacute condi țiile impuse de metoda celor mai mici
pătrate prezentate în unit ățile anterioare, ob ținem sistemul de ecua ții normale:
⎪⎪
⎩⎪⎪
⎨⎧
′+′=′′+′=′
∑∑∑∑∑
n
in
iiin
iin
in
ii
x bx axyx bany
2
124Se rezolv ă sistemul, se determin ă parametrii a′ și b′și prin anti-logaritmare se
vor obține estimatorii ib0și 1b și implicit valorile ajustateiy. Vom avea astfel:
89,2750=b și 0,0021=b . Valorile estimate ale cantit ății consumate se vor
determina pe baza ecua ției:
ix
x e Yi
i+ = 002,0*275,89
Eroarea standard a estima ției pentru modelul exponen țial specificat este:
1) (
12
−−−
=∑
=
knYy
sn
ix i
ei
=0,107
Pentru testarea semnifica ției generale a modelului hiperbolic vom utiliza analiza
dispersional ă și testul F-Fisher Snedecor
În tabelul 5 este prezentat ă analiza ANOVA pentru modelul exponen țial specificat
anterior Tabelul 5:
ANOVA pentru modelul exponen țial
Sursa
variației Suma pătratelor Grade
de
libertate Dispersii corectate Valoarea testului F
Explicată ∑
==−n
ixy Y
i
12,010) (
k=1 ∑
=−n
ixy Y
i
121/) (
=,010F
calculat F tabelat
Reziduală ∑
=−n
ix iiYy
12) (
=,204 n-k-
1=18
112
−−=∑
=
kne
sn
ii
e =,011 ,871 =)18;1;5,0(F
4,41
iar
28,8)18;1;01,0( = F
Totală 2
1) (∑
=−n
iiy y =,214 n-1=19
1) (
12
−−
=∑
=
nyy
sn
ii
y
∑∑
==
−− −−
= =n
ix in
ix
kn Yyy Y
reziduala Dispersialicata DispersiaF
ii
1212
)1 /() (2/) (exp
=0,871
Observăm că valoarea calculat ă a statisticii F este mai mic ă decât valoarea
tabelată a acesteia, ceea ce conduce la concluzia c ă modelul exponen țial specificat
nu este semnificativ din punct de ve dere statistic, nu este valid, și nu poate fi
utilizat pentru a descrie dependen ța dintre cele dou ă variabile analizate. Accea și
concluzie se desprinde si din utilizarea testului t-Student pentru verificarea
125semnifica ției statistice a estimatorilor. Estimatorul 1b nu este semnificativ,
valoarea t calculat pentru acesta este de 0,933, peste valoarea tabelat ă t=2.101 .
Cel mai potrivit model este cel pentru care ∑
=n
iie
12 este minim ă, adică, în
cazul problemei noastre, modelul parabolic. În figura al ăturată avem reprezentate
valorile observate, valorile estimate cu ajutorul modelului parabolic,valorile
estimate cu ajutorul mode lului hiperbolic (invers) și exponen țial
U9.6. Comenzi SPSS pentr u modelele neliniare
Pentru modelele neliniare, vom merge la comanda Analyze – Regression-
Curve Estimation. În fereastra deschis ă, vom specifica variabila endogen ă la
Dependent , și variabila/variab ilele exogene la Independent . Tipul de model pe
care dorim s ă îl utilizăm v a f i s e l e c t a t î n s e c țiunea Models . Astfel, vom bifa
Quadratic dacă utilizăm modelul parabolic, Inverse , dacă utilizăm modelul
hiperbolic, Exponențial, dacă folosim modelul exponen țial, etc, și vom bifa tot
aici Display Anova table și apoi OK. Dacă activăm opțiunea Plot Models SPSS
programul va afi șa curba de regresie pentru modelul utilizat. Vom ob ține
următoarele output-uri:
126Pentru modelul parabolic
Model Summary
R R Square Adjusted R
Square Std. Error of the
Estimate
1 2 3 4
,746 ,556 ,504 7,046
The independent variable is pret.
Tabelul Model Summary ne prezint ă valoarea raportului de corela ție (1), a
coeficientului de determina ție (2), a raportului de corela ție ajustat (3) și a erorii
standard a estima ției (4).
ANOVA
Sum of Squares df Mean Square F Sig.
1 2 3 4 5 6
Regression 1058,982 2 529,491 10,666 ,001
Residual 843,968 17 49,645
Total 1902,950 19
The independent variable is pret.
Semnifica ția general ă a modelul este prezentat ă în tabelul ANOVA. În coloana 2
avem varia ția explicat ă-1058,982, varia ția rezidual ă= 843,968, varia ția
totală=1902,950, în coloana 3 avem gradele de libertate, în coloana 4 avem
dispersiile corectate, în coloana 5 avem valoarea calculat ă a statisticii F, iar în
coloana 6 semnifica ția general ă a modelului.
Coefficients
Unstandardized Coefficients Standardized
Coefficients
B Std. Error Beta t Sig.
1 2 3 4 5 6
pret -3,082 ,738 -3,851 -4,175 ,001
pret ** 2 ,071 ,016 4,111 4,456 ,000
(Constant) 115,150 6,372 18,071 ,000
În tabelul Coefficients avem:
– coloana 1: variabilele exogene ale modelului
127- coloana 2: valorile estimate cu ajutorul metodei celor mai micci p ătrate ale
coeficienților de regresie parabolic ă
– în coloana 3: eroarea standard a fiec ărui estimator
– în coloana 5: valorile calculate ale statisticii t- Student pentru fiecare
estimator
– semnifica ția statistic ă a fiecărui estimator determinat cu metoda celor mai
mici pătrate
În figura urm ătoare avem graficul valorilor observate și a celor estimate cu
ajutorul modelului parabolic.
Pentru modelul hiperbolic ob ținem urm ătorul output:
Model Summary
R R Square Adjusted R
Square Std. Error of the
Estimate
,267 ,071 ,019 9,910
The independent variable is pret.
ANOVA
Sum of Squares df Mean Square F Sig.
Regression 135,156 1 135,156 1,376 ,256
Residual 1767,794 18 98,211
Total 1902,950 19
The independent variable is pret.
128
Coefficients
Unstandardized Coefficients Standardized
Coefficients
B Std. Error Beta t Sig.
1 / pret 50,733 43,247 ,267 1,173 ,256
(Constant) 88,866 4,127 21,534 ,000
Iar pentru modelul exponen țial avem:
Model Summary
R R Square Adjusted R
Square Std. Error of the
Estimate
,215 ,046 -,007 ,107
The independent variable is pret.
ANOVA
Sum of Squares df Mean Square F Sig.
Regression ,010 1 ,010 ,871 ,363
Residual ,204 18 ,011
Total ,214 19
The independent variable is pret.
129Coefficients
Unstandardized Coefficients Standardized
Coefficients
B Std. Error Beta t Sig.
pret ,002 ,002 ,215 ,933 ,363
(Constant) 89,275 3,961 22,538 ,000
The dependent variable is ln(cantitate_consumata).
Interpretarea rezultatelor oferite de SPSS pentru modelul hiperbolic și exponen țial
este similar ă modelului parabolic.
U9.7. Test de autoevaluare
1. Dacă valoarea statisticii F pentru un model exponen țial cu o singur ă variabilă
exogenă, utilizat pentru un e șantion format din 30 de observa ții, are valoarea 5,90,
atunci: a)
modelul este valid
b) semnifica ția general ă a modelului nu exist ă
c) nici un raspuns nu este corect
Timp de lucru : 40 min
Punctaj 100p
1302. Pentru un e șantion format din 32 observa ții utilizâm modelul parabolic pentru a
descrie dependen ța dintre 2 variabile economice oarecare. :tiind c ă valoarea
parametrului 79 ,20=β iar abaterea standard a acestuia este 93 ,0
0=βs , avem:
a) lipsă de semnifica ție pentru parametrul 0β
b) parametrul 0β este semnificativ din pu nct de vedere statistic
c) nici unul dintre r ăspunsuri nu este corect
3. Se cunosc urm ătoarele date privind valoarea investi țiilor (mld.lei) și valoarea
producției (mld.lei) înregistrate pentru un e șantion de unit ăți economice, in luna
februarie 2014:
Unitatea economic ă Valoare investi ții Valoare produc ție
1 1 9
2 2 8,5
3 3 8
4 4 7
5 5 7
6 6 7,5
7 7 8,5
8 9 10
a) Utilizați modelul parabolic unifactorial pentru analiza dependen ței dintre
valoarea investi țiilor și valoarea produc ției, pentru e șantionul analizat. Estima ți
coeficienții de regresie cu ajutorul metodei celor mai mici p ătrate.
b) Calculați valorile estimate ale produc ției și eroarile valorilor estimate.
Determina ți eroarea standard a estima ției
c) Testați semnifica ția general ă a modelului specificat și a coeficien ților
acestuia. d)
Estimați și interpreta ți intensitatea leg ăturii dintre cele dou ă variabile
economice analizate.
131U9.8. Rezumat
Bibliografie minimal ă
1. Gujarati (2004), Basic Econometrics, 4th Edition, McGraw −Hill New York
2. Hinton, P.R. (2004), Statistics Explained, 2nd Edition, Routledge New York.
3. Rotariu T. (coord) (2006), Metode statistice aplicate în științele sociale, Editura
Polirom. 4. Sthephens, L. (2004),
Advanced Statistics Demystified, McGraw-Hill
5. Tănăsoiu O., Iacob A.I. (1999), Econometrie aplicat ă, Editura Arteticart,
București În cadrul acestei unitã ți de învã țare am prezentat probleme
metodologice și aplicative ale testãrii semnifica ției generale a moelului
de regresie parabolic, hiperbolic și exponen țial precum și aspecte
metodologice și aplicative legate de testãrea semnifica ției statistice a
estimatorilor determina ți cu ajutorul metodei celor mai mici pãtrate. În
cadrul unitã ții de învã țare este prezentatã o aplica ție rezolvatã, prin
intermediul cãreia studen ții sunt familiariza ți cu latura practica a
modelerii utilizând regresia parabolicã, hiperbolicã și respectiv
exponențialã. Unitatea se încheie cu prezentarea unui test de
autoevaluare prin care este verificatã asimilarea cuno ștințelor
prezentate.
132
MODULUL 5
UNITATEA 10: ANALIZA DATELOR DE
SUPRAVIE ȚUIRE.
FUNCȚIA DE
SUPRAVIE ȚUIRE ȘI
FUNCȚIA DE HAZARD
UNITATEA 11: MODELUL DE REGRESIE
COX CU HAZARD
PROPOR ȚIONAL
133
Cuprins:
U10.1. Scopul și obiectivele unit ății
U10.2. No țiuni introductive privind analiza datelor de supravie țuire
U10.3. Funcția de supravie țuire și funcția de hazard
U10.4. Estimarea func ției de supraviețuire
U10.5. Test de autoevaluare U10.6. Rezumat
Bibliografie minimal ă
U10.1. Scopul și obiectivele unit ății
În cadrul acestei unit ăți de învățare veți fi familiariza ți cu aspecte de
bază ale analizei datelor de supravie țuire. Analiza datelor de supravie țuire a
fost utilizat ă inițial în cercetarea medical ă, în domeniul biostatisticii și în
analize specifice studiilor demografice. În ultima perioada analiza datelor de
supraviețuire a pătruns și în cercetarea economic ă, fiind deosebit de util ă în
investigarea unor fenomene complexe precum șomajul, ocuparea, infla ția, UNITATEA 10
Analiza datelor de supravie țuire. Func ția de supravie țuire și
funcția de hazard
Durata medie de studiu individual – 2 ore
134cererea și oferta de credite bancare, speran ța de via ță a produselor,
comportamentul produc ătorului și al consumatorului, etc.
Scopul acestei unit ăți de învățare este acela de a face o incursiune gentil ă
în analiza datelor de supravie țuire, și de a familiariza studen ții cu noțiuni precum
timp de supravie țuire, cenzurare, func ție de supravie țuire, func ție de hazard, curbe
de supravie țuire, etc.
La finalul acestei unit ăți de învățare:
veți înțelege cât de important ă este utilizarea analizei datelor de
supraviețuire pentru cercetarea economic ă
veți fi familiariza ți cu noțiunea de cenzurare, func ție de supravie țuire și
funcție de hazard
veți fi familiariza ți cu noțiunea de timp medie și mediană de supravie țuire,
curbă de supravie țuire
veți înțelege importan ța testării diferen țelor observate între duferite curbe
de supravie țuire
veți reuși să obțineți un scor de cel pu țin 80 % într-un interval de timp de
maximum 40 minute la testul de la sfâr șitul acestei unit ăți de învățare.
U10.2. No țiuni introductive priv ind analiza datelor de
supraviețuire
Studiile din vechime ce urm ăreau analiza tabelelor de mortalitate pot
fi considerate ca origine a analizei datelor de supravie țuire (Le, 1997). Analiza
datelor de supravie țuire este de fapt o no țiune ce reune ște o serie de tehnici și
modele statistice și econometrice utilizate pentru modelarea duratelor de timp,
de la momentul de origine și până la apariția unui eveniment a șteptat . Ea a
fost folosit ă pentru prima dat ă în cercetarea medical ă, ca analiz ă a timpului
scurs de la începerea urm ăririi unui subiect pân ă la apariția evenimentului
așteptat (time-to event data) , adică data când evenimentul se produce. Astfel
de evenimente sunt denumite în litera tura de specialitate folosind termenul
“eșec” și pot fi: moartea sau e șecul unei terapii, timpul scurs pân ă la apariția
unei tumori în cercetarea medical ă, sau poate îmbr ăca alte forme, în func ție de
domeniul studiat (ex. timpul de supravie țuire al unui animal într-un studiu
135experimental, timpul de func ționare al unui utilaj, timpul scurs pân ă la
reangajare, etc.).
Deși inițial analiza datelor de supravie țuire se utiliza în mod obi șnuit
în studierea decesului ca eveniment în biostatistic ă și în studii demografice,
începând cu anii ț70 a devenit tot mai des folosit ă în economie și științele
sociale.
Datele de supravie țuire necesit ă o abordare statistic ă diferită de cea a
datelor cantitative, datorit ă particularit ății acestora. O prim ă caracteristic ă a
datelor de supravie țuire este aceea c ă nu sunt normal distri buite, ci de cele mai
multe ori au o distribu ție asimetric ă. Așa cum o sa vedem și în capitolele
următoare, histograma construit ă pe baza duratelor de supravie țuire pentru un
grup de indivizi este de regul ă pozitiv asimetric ă (așa cum sunt toate
histogramele duratelor de șomaj analizate în capitolele urm ătoare). O astfel de
histogram ă are o coada (tail) mai lung ă la dreapta intervalelor ce con țin cel mai
mare num ăr de observa ții.
O altă particularitate a datelor de supravie țuire este aceea c ă prezintă
frecvent informa ții incomplete, subiec ți care la încheierea duratei de
observație nu realizeaz ă evenimentul prestabilit (e.g. la încheierea perioadei
de analiz ă subiecții nu se (re)angajeaz ă). Informa țiile incomplete în analiza
datelor de supravie țuire trebuie s ă fie cenzurate. Cenzurare a poate fi la stânga
sau la dreapta. Asimetria distribu ției datelor de supravie țuire și necesitatea
cenzurării informa țiilor incomplete ridic ă probleme metodologice specifice și
necesită tehnici statistice potrivite pent ru modelarea acestora. O prezentare
detaliată a analizei datelor de supravie țuire este realizat ă de către Altman
(1991), Hosmer și Lemeshow, (1999), Therneau și Grambsch, (2001), Collett,
(2003), Lee și Wang, (2003) precum și (Klein și Moeschberger (2005).
Analiza datelor de supravie țuire poate fi folosit ă în cercetarea socio-
economic ă pentru a investiga fenomene complexe precum șomajul, ocuparea,
inflația, cererea și oferta de credite bancare, speran ța de viață a produselor,
comportamentul produc ătorului și al consumatorului, etc.
Pentru a determina timpul de supravie țuire avem nevoie de trei ele-
mente principale: timpul la origine sau timpul ini țial, apariția evenimentului și
scara de m ăsurare pentru tr ecerea timpului. Dac ă un subiect nu realizeaz ă
evenimentul prestabilit pân ă la data stabilit ă de încheiere a perioadei de analiz ă,
atunci timpul de supravie țuire al acestui subiect se cenzureaz ă.
136În literatura de spec ialitate sunt descrise trei tipuri de cenzur ări:
a) cenzurarea la dreapta , ce apare atunci când subiectul nu realizeaz ă
evenimentul prestabilit (e.g. death sau failure) pân ă la momentul încheierii
studiului. În aceast ă situație nu putem stabili intervalul de timp trecut pân ă la
producerea evenimentului. Tot cenzura ți la dreapta vor fi și subiecții care sunt
pierduți din urm ărire, care scap ă la un moment dat observ ării statistice. De
exemplu, dup ă ce a fost selectat pentru a partic ipa la un studiu clinic de tip
trial, un subiect î și schimba domiciliul într-un alt ora ș, sau poate chiar într-o
altă țară și nu mai poate fi observat în cad rul studiului pentru care a fost
selectat (e.g. un subiect înregistrat în șomaj nu mai p ăstrează legătura cu
Agenția Județeană pentru Ocuparea For ței de Munc ă și nu se știe dacă a
realizat sau nu evenimentul –(re)angajarea – nici durata de supravie țuire până
la (re)angajare). O alt ă situație de cenzurare la dreapta apare atunci când
“death” , adică evenimentul prestabilit, se pr oduce din alte cauze, ce nu au
legătură cu procedurile stabilite în cadrul studiului. De pild ă, așa cum o s ă
vedem în capitolele urm ătoare, în situa ția în care evenimentul este
(re)angajarea, subiec ții care ies din șomaj, dar nu prin (re)angajare, ci datorit ă
expirării perioadei legale de primire a indemniza ției de șomaj sau datorit ă
pensionării, etc., vor fi cenzura ți la dreapta.
Cunoașterea și includerea în analiz ă a subiec ților cenzura ți este im-
portantă. Însă, un num ăr foarte mare de subiec ți pierduți din urm ărire poate
afecta acurate țea testelor statistice utilizate.
În figura 1 avem reprezentarea grafic ă a datelor de supravie țuire, cu
cenzurare la dreapta . Pe abscis ă este reprezentat ă perioada de urm ărire a
subiecților, măsurată în zile, iar pe ordonat ă sunt reprezenta ți subiecții supuși
observării statistice. Segmentele orizontale reprezint ă perioadele de urm ărire a
subiecților, iar cu un cerc alb este marcat ă producerea evenimentului
prestabilit. Presupunem c ă durata studiului a fost de 360 zile. Subiectul A
realizează evenimentul dup ă 120 zile de la începerea studiulu, iar subiectul D
după 270 zile. Se observ ă că subiecții B și C sunt cenzura ți la dreapta, ei nu
realizează evenimentul în decursul perioadei de 360 de zile stabilit ă ca
perioadă de observare.
137Figura 1: Reprezentare grafic ă a datelor de supravie țuire
0 40 80 120 160 200 240 280 320 360ABCD
subiecți
Timp de supravie țuire (zile)
b) cenzurarea la stânga, este necesar ă atunci când subiec ții nu intră în studiu
în același moment. În acest caz, timpul de supravie țuire al unui subiect este mai
mic decât timpul de supravie țuire observat. În practica statistic ă este frecvent ă
cenzurarea simultan ă a subiec ților, atât la stânga cât și la dreapta. Dac ă
momentul intr ării în studiu a subiec ților nu este simultan și dacă unii subiec ți nu
au realizat evenimentul prestab ilit în decursul perioadei supus ă observării
statistice, vom avea date pr ogresiv cenzurate (figura 2). Și în acest caz perioada
supusă observării statistice este tot de 360 zile. Studiul a început la momentul 0
cu subiec ții A, F și G. După 100 de zile de la începerea observ ării subiectul B
intră în eșantion, urmat de subiectul C la 150 de zile de la debutul studiului, și
subiecții D și E la 200 respectiv 220 zile de la începerea evenimentului.
Subiectul A realizeaz ă evenimentul la 120 de zile de la data începerii st udiului,
subiecții C și D la 280 de zile de la începe rea studiului, iar restul subiec ților nu
realizează evenimentul pân ă la finalul celor 360 de zile de observa ție, fiind
cenzurați la dreapta, dar și la stânga, intrarea lor în studiu fiind ulterioar ă
momentului de începere al acestuia.
138Figura 2: Reprezentare grafic ă a datelor de supravie țuire
0 40 80 120 160 200 240 280 320 360ABCDEFG
subiecti
Timp de supravie țuire (zile)
c) cenzurare de tip interval, este necesar ă atunci când un subiect realizeaz ă
evenimentul nu la un moment dat, ci înt r-un interval de timp.
U10.3 . Funcția de supravie țuire și funcția de hazard
Pentru analiza datelor de supravie țuire două funcții sunt de interes
major, func ția de supravie țuire și funcția de hazard.
Considerăm T o variabil ă aleatoare continu ă, de valori nenule,
reprezentând durata de supravie țuire a subiec ților unei popula ții supuse
observării statistice ( )0≥T . Notăm prin )(⋅F funcția distribu ției de
probabilitate a variabilei T. Distribu ția de probabilitate descrie probabilitatea
valorilor variabilei aleatoare T. Deoarece am presupus c ă T este variabil ă
continuă, distribu ția de probabilitate identific ă valorile posibile și
probabilitatea intervalelor de valori. Vom nota cu )(⋅ffuncția densității de
probabilitate a variabilei T. Funcția distribu ției de probabilitate a variabilei
aleatoare T este dată de:
∫=<=t
duuf tTPtF
0)( ) ( )( (1)
139și reprezint ă probabilitatea ca timpul de supravie țuire al subiec ților să fie mai
mic decât t. Deoarece T este o variabil ă aleatoare continu ă, funcția densității
de probabilitate poate fi calculat ă ca derivata de ordinul întâi a func ției )(⋅F.
Fie )(tSfuncția de supravie țuire (survival function ), ce reprezint ă
probabilitatea ca timpul de supravie țuire al subiec ților să fie mai mare sau egal
cu t. Vom avea:
)( 1) ( )( tF tTPtS −=≥= (2)
O altă semnifica ție pentru )(tSeste aceea de rat ă de supravie țuire. De
exemplu dac ă analizăm durata șomajului, iar studiul nostru se întinde pe o
durată de 1200 zile, )10(S este rata de supravie țuire a celei de a 10-a zile,
S(20) este rata de supravie țuire în ziua 20 iar S(1000) este rata de
supraviețuire în ziua 1000 de la începerea studiului. Graficul func ției
supraviețuire )(tS, poartă denumirea de curb ă de supravie țuire.
Funcția de supravie țuire oferă posibilitatea determin ării unor parametri
importanți pentru analiza în cauz ă, precum durata median ă de supravie țuire
(median survival time) și durata medie de supravie țuire (mean survival time).
Mediana 5.0T este momentul de timp pentru care 5.0)(5.0= TS . Durata medie
de supravie țuire este dat ă de aria suprafe ței aflată sub curba de supravie țuire.
Deoarece majoritatea curbelor de supravie țuire sunt pozitiv asimetrice datorit ă
anormalit ății distribu ției datelor de supravie țuire, valoarea duratei mediane de
supraviețuire este mai mic ă decât valoarea duratei medii de supravie țuire.
Funcția de hazard, notat ă prin )(tλeste descris ă de formula:
ttTttTtP
ttδδ
δλ) | (
lim0)(≥+<≤
→=
(3)
unde )(tλ reprezint ă riscul sau hazardul mor ții (death, failure , producerea
evenimentului) la momentul t. Funcția )(tλ, denumit ă în literatura de
specialitate rata de risc, rata de deces sau rata de risc instantaneu, for ța
mortalității măsoară rata instantanee de deces a unui subiect la momentul t,
condiționată de faptul c ă subiectul a supravie țuit până la acel moment t. Valori
ridicate ale func ției de hazard pot fi interpretate ca un risc ridicat ca
evenimentul s ă se produc ă pentru acel subiect. Func ția de hazard poate s ă fie
140crescătoare sau descresc ătoare în timp, în cazul în care riscurile sunt de lung ă
durată, sau chiar de scurt ă durată, poate să fie constant ă în timp, ori s ă aibă o
evoluție fluctuant ă. Dacă hazardul r ămâne constant, suntem în situa ția unui
model exponen țial, ceea ce ofer ă posibilitatea determin ării ratei hazardului
pentru diferite grupe de subiec ți analizați.
Din ecua ția (3) observ ăm că ttδλ)( este probabilitatea ca un subiect
să “moară” (se produce evenimentul) în intervalul ( tttδ+, ), condiționată de
supraviețuirea subiectului pân ă la momentul t. De exemplu, dac ă ne raport ăm
la studiul nostru, dac ă durata șomajului este m ăsurată în zile, )(tλarată
probabilitatea ca un subiect care este în via ță (este în șomaj) în ziua t să
“moară” (să se angajeze) în ziua urm ătoare.
Din defini ția funcției hazard descris ă de ecua ția (3) putem ob ține
relații folositoare între func ția de supravie țuire și funcția hazardului (Collett,
2003î). Din teoria probabilit ăților știm că probabilitatea unui eveniment A,
condiționată de apari ția unui eveniment B, este dat ă de rela ția:
)() ()|(BPBAPBAP∩= , unde ) ( BAP∩ este probabilitatea realiz ării simultane a
ambelor evenimente A și B. Pe baza acestui rezultat, probabilitatea
condiționată din defini ția funcției de hazard (3) este ) () (
tTPttTtP
≥+<≤δ, ceea ce
este egal cu )()( ) (
tStFttF−+δ, unde )(tF este func ția distribu ției de
probabilitate a variabilei T enunțată anterior. Vom avea deci:
)(1)( ) (
lim0)(tS ttFttF
tt
⎭⎬⎫
⎩⎨⎧ −+
→=δδ
δλ
(4)
⎭⎬⎫
⎩⎨⎧ −+
→ ttFttF
tδδ
δ)( ) (
lim0este derivata de ordinul I a funcției F(t) în
raport cu t, adică f(t) și deci vom avea:
)()()(tStft=λ (5)
Rezultă că )}( {log)()( tStddt−=λ (6)
și )}( exp{)( t tS Λ−= ,unde∫Λ=Λt
duu t
0)( )( (7)
141Funcția )(tΛ este denumit ă în analiza datelor de supravie țuire funcția
de hazard cumulat. Din ecua ția (7) observ ăm că funcția de hazard cumulat
poate fi ob ținută folosind func ția de supravie țuire, deoarece
)( log )( tS t−=Λ (8 )
U10.4. Estimarea func ției de supravie țuire
Un prim pas în folosirea analizei datelor de supravie țuire este acela de
a prezenta sumariz ări numerice sau grafice ale duratelor de supravie țuire a
subiecților din anumite grupuri de intere s. Acestea pot furniza informa ții de
interes pentru cercet ător, sau pot fi o analiz ă preliminar ă ce precede o analiz ă
econometric ă a datelor.
Pentru estimarea func ției de supravie țuire cele mai utilizate procedee
statistice sunt metoda actuarial ă (life-table estimator) și estimatorul Kaplan-
Meier (Kaplan-Meier product limit esti mator). Vom prezenta în cele ce
urmează metoda estimatorului Kaplan-Meier metod ă utilizată în analizele
prezentate în capitolele urm ătoare.
Metoda Kaplan-Meier este o metod ă neparametric ă de estimare a
supraviețuirii. Metoda Kaplan-Meier presupune un volum mai redus de
calcule decât metoda actuarial ă (life-table estimator) deoarece supravie țuirea
este estimat ă de fiecare dat ă când pentru un subiect se produce evenimentul
prestabilit, înregistr ările pierdute din vedere pe pa rcursul studiului fiind astfel
neglijate (Cadariu, 2004).
Fie )(tSprobabilitatea ca un subiect dintr-o popula ție dată, supusă
observării statistice, s ă aibă o durată de viață (de supravie țuire) ce dep ășește t.
Pentru un e șantion din aceast ă populație, de mărime N, timpul observat pân ă
la apariția “morții” (apari ția evenimentului), este: Nt ttt ≤≤≤≤ ….3 2 1 .
Corespunz ător durate it este in, numărul subiec ților cu riscul de producere a
“morții” chiar înaintea timpului it și idnumărul subiec ților “mor ți” la
momentul it. Intervalele dintre fiecare mo ment de producere a evenimentului
nu sunt neap ărat egale. De exemplu, pentru un e șantion de 10 subiec ți, un
142subiect poate avea producerea evenimentul în ziua a 2-a, altul poate fi
cenzurat dup ă 7 zile, iar altul poate av ea producerea evenimentului dup ă 15
zile. Deci vom avea 15 ,22 1== t t , 8 ,102 1 == n n și 1 ,102 1 == d d . Estima-
torul Kaplan-Meier este un produs de forma:
∏
<−=k
tt ii i
indntS)(ˆ (9)
Dacă nu exist ă intervale de timp cenzurate în e șantion, vom avea
k i n dni i i …..3,2,1 ,1==−+ iar estimatorul Kaplan -Meier va avea forma:
kk
nn
nn
nntS1
23
12……. )(ˆ +×××= (10)
Estimatorul Kaplan-Meier este dat de produsul unei serii de probabi-
lități estimate. Pentru a facilita în țelegerea diferen țelor dintre duratele de
supraviețuire a subpopula țiilor analizate, se poate utiliza ca vizualizare grafic ă
curba Kaplan-Meier. Curba Kaplan-Meier este un grafic unde pe abscisa sunt
reprezentate valorile corespunz ătoare timpul de observare iar pe ordonat ă sunt
reprezentate valorile estimate ale func ției supravie țuire. Fiecare observa ție
necenzurat ă este reprezentat ă printr-un punct iar reunirea acestor puncte
formează curba de supravie țuire.
Vom ilustra cele prezentate printr-o aplica ție rezolvat ă. Să
presupunem c ă avem urm ătoarele date statistice despre 20 indivizi cu vârsta
cuprinsă între 18 și 29 ani înregistra ți ca șomeri la Agen ția Națională pentru
Ocuparea For ței de Munc ă în perioada 2008-2010, prezentate în tabelul 1.
Evenimentul prestabilit în cazul nostru este ie șirea din șomaj datorit ă
reangajării.
Tabelul 1: Date statistice privind 10 șomeri înregistra ți
Subiecți Gen (1-
Masculin,
0-
Feminin) Vârstă Durata petrecut ă în
șomaj
(zile) Reangajat (DA,
NU)
1 1 20 19 DA
2 1 24 19 DA
3 1 25 159 DA
4 0 27 160 DA
5 0 21 247 DA
6 0 21 38 DA
7 1 19 2 DA
8 1 23 175 DA
1439 1 18 272 NU
10 1 19 264 NU
11 0 28 365 NU
12 1 28 357 NU
13 0 19 176 NU
14 0 25 168 NU
15 0 25 159 NU
16 1 28 155 NU
17 1 17 488 NU
18 1 22 43 NU
19 1 22 263 NU
20 1 22 52 NU
*Sursa datelor: ANOFM
Din cei 20 subiec ți analizați, 8 au realizat evenimentul, reangajarea,
iar restul sunt subiec ți cenzura ți la dreapta (pierdu ți din urm ărire sau ie șiți din
șomaj din alte cauze decât evenimentul prestabilit, (re)angajarea). Pentru
prelucrarea datelor și calculul statisticilor necesare vom utiliza SPSS 17.0 În
figura 3 este prezentat ă curba de supravie țuire (curba Kapla-Meier) pentru
datele prezentate.
Figura 3: Curba func ției de supravie țuire, când evenimentul este reangajarea
Așa după cum putem observa din fi gura 3, curba de supravie țuire
Kaplan-Meier este scalariform ă, frecven ța subiecților cu probabilitatea de a
continua s ă supravie țuiască fără producerea evenimentului prestabilit
modificându-se la fiecare moment de realizare a evenimentului. Rata de
144supraviețuire este de 100% de la originea curbei și până la momentul primei
apariții a evenimentului prestabilit, r eangajarea, din acest punct curba
prăbușindu-se pân ă la o nou ă valoare calculat ă a supravie țuirii, ce formeaz ă
un nou palier pe a c ărei durata rata supravie țuirii este constant ă (Cadariu,
2004). Un alt element util în astfel de analize este tabelul de supravie țuire. În
tabelul 2 este prezentat tabelul de supravie țuire. În coloana 1 este însiruit
numărul curent al fiecarui subiect analiz at, în coloana 2 este prezentat timpul
petrecut în șomaj pân ă la realizarea evenimentului, reangajarea, în coloana 3
este estimat ă procentul cumulat al subiec ților care inc ă supravie țuiesc la acel
moment (de ex. dupa dou ă zile avem un caz care realizeaz ă evenimentul,
adică 1/20=0,05 sau 5%. Cei care r ămân în continuare în studiupentru c ă
supraviețuiesc, adic ă nu se angajeaz ă), calculat dup ă ce o nou ă realizare a
evenimentului se produce în conformita te cu datele problemei noastre
reprezintă 0,95, sau 95%. Col oana 4 ne prezint ă eroarea standard pentru
fiecare propor ție de supravie țuire din coloana 4, iar în coloana 5 avem
numărul de cazuri r ămase în studiu
Tabelul 2:
Tabelul supravie țuirii pentru esantionul analizat
Cumulative Proportion Surviving at
the Time Timpul
Estimate Std. Error N of Remaining
Cases
1 2 3 4 5
1 2,000 ,950 ,049 19
2 19,000 . . 18
3 19,000 ,850 ,080 17
4 38,000 ,800 ,089 16
5 43,000 . . 15
6 52,000 . . 14
7 155,000 . . 13
8 159,000 ,738 ,102 12
9 159,000 . . 11
10 160,000 ,671 ,112 10
11 168,000 . . 9
12 175,000 ,597 ,122 8
13 176,000 . . 7
14 247,000 ,511 ,131 6
15 263,000 . . 5
16 264,000 . . 4
14517 272,000 . . 3
18 357,000 . . 2
19 365,000 . . 1
20 488,000 . . 0
Așa cum am precizat anterior, putem calcula media, mediana și alți
parametrii ai duratei de supravie țuire a subiec ților analiza ți. În cazul aplica ției
noastre timpul mediu de supravie țuire este de 308,14 2 zile, cu o eroare
standard a estima ției de 47,667 și un interval de încredere (214,715 ș401,569).
Durata medie de supravie țuire poate fi calculat ă și ca sum ă a ariilor
suprafețelor trapezoidale ce se formeaz ă dacă vom coborî perpendiculare din
punctele de pr ăbușire ale curbei pe axa abscisei. Deoarece media poate fi
calculată doar dac ă avem o curb ă de supravie țuire complet ă, care să coboare
la zero, nu este o statistic ă atât de folosit ă în analiza datelor de supravie țuire,
în compara ție cu durata median ă de supravie țuire. Pentru numeroase studii
este mult mai u șor a se utiliza, în locul medi ei, un alt indicator al tendin ței
centrale, și anume durata median ă de supravie țuire.
În cazul în care exist ă menționate variabile exogene ce pot influen ța
durata de supravie țuire, curbele aferente de supravie țuire se pot utiliza pentru
realizarea de compara ții între subiec ții analiza ți, încadra ți în grupe diferite în
funcție de variabilele factoriale existente. Pentru testarea semnifica ției
statistice a diferen țelor observate între curbele de supravie țuire a dou ă sau mai
multe grupuri nu putem utiliza testul statistic t, pe de o parte datorit ă
anormalit ății distribu ției datelor de supravie țuire, iar pe de alt ă parte deoarece
testul t evalueaz ă semnifica ția statistic ă a diferen ței dintre mediile a dou ă sau
mai multe popula ții studiate, în timp ce, în cadrul analizei datelor de
supraviețuire, distribu ția timpului de supravie țuire este cea investigat ă.
Dacă în studiul nostru nu exist ă subiecți cenzura ți, atunci pentru
stabilirea semnifica ției statistice a diferen țelor observate între dou ă sau mai
multe curbe de supravie țuire se pot folosi testele st andard, cum ar fi testul
Wilcoxon sau testul Mann-Whitney, în cazul compar ării a dou ă curbe de
supraviețuire, sau testul Kruskal-Wallis dac ă este vorba de mai multe grupuri
analizate și deci implicit mai multe curbe de supravie țuire. Testul Wilcoxon
presupune în șiruirea în ordine cresc ătoare a timpului de supravie țuire, fără a
se ține cont de grupul de pacien ți căruia îi apar țin datele și apoi aplicarea
testului statistic t. Însă absența subiecților cenzura ți presupune o a șteptare a
146producerii evenimentului prestabilit pentru to ți subiecții aflați în studiu și deci
o durată a cercetării foarte mare. De aceea, în practica statistic ă compararea a
două sau mai multe curbe de supravie țuire se realizeaz ă cu ajutorul testului
Logrank, testului Breslow (este o generalizare a testului Wilcoxon) și testului
Tarone-Ware.
Testul Logrank, denumit în literatura de specialitate și testul Mantel-
Cox, este un test nonparamet ric utilizat îndeosebi când e șantionul prezint ă
subiecți cenzura ți la dreapta. Testul Logrank a fost propus de c ătre Nathan
Mantel și denumit log-rank de c ătre Richard și Julian Peto. Testul Logrank
compară numărul realiz ării evenimentelor prestabilite din cadrul fiec ărei
subpopula ții analizate, cu num ărul evenimentelor prestabilite a șteptate a se
produce în toat ă colectivitatea de subiec ți, indiferent de apartenen ța acestora
la o anumit ă subpopula ție.
Testul Log-Rank poate fi u șor de interpretat dac ă diferența dintre
probabilitatea de supravie țuire a dou ă subpopula ții este întotdeauna de acela și
semn (Cadariu, 2004). Când curbele de supravie țuire se întretaie, interpretarea
acestora devine dificil ă.
Să consider ăm cu dorim s ă analizăm efectul variabilei exogene gen
asupra duratei șomajului pân ă la apariția evenimentului reangajarea, pentru
aplicația noastra. Din cele 20 de observa ții, 7 sunt femei și 13 sunt b ărbați. La
finalul încheierii studiului 3 femei s-au reangajat, reprezentând 42,9%, respectiv 5 b ărbați reangaja ți, reprezentând 38,5%.
Vom avea tabelul supravie țuirii:
Tabelul 3:
Tabelul supravie țuirii pentru esantionul analizat, variabila
exogenă gen
Cumulative Proportion Surviving
at the Time sex Time
Estimate Std. Error N of
Remaining
Cases
1 38,000 ,857 ,132 6
2 159,000 . . 5
3 160,000 ,686 ,186 4
4 168,000 . . 3
5 176,000 . . 2
6 247,000 ,343 ,260 1Femei
7 365,000 . . 0
1471 2,000 ,923 ,074 12
2 19,000 . . 11
3 19,000 ,769 ,117 10
4 43,000 . . 9
5 52,000 . . 8
6 155,000 . . 7
7 159,000 ,659 ,143 6
8 175,000 ,549 ,156 5
9 263,000 . . 4
10 264,000 . . 3
11 272,000 . . 2
12 357,000 . . 1Bărbați
13 488,000 . . 0
Valorile duratei medii și mediane de supravie țuire până la producerea
evenimentului pentru femei și bărbați, precum și erorile standard aferente și
intervalele de încredere sunt prezentate în tabelul 4. Observ ăm că timpul petrecut
în șomaj pân ă la reangajare este mai scurt, în medie, în cazul femeilor, 243 zile
decât în cazul b ărbaților, 307.142.
Tabelul 4: Durata medie și mediană de supravie țuire în șomaj până la apariția
reangajării
Means and Medians for Survival Time
Meana Median
95% Confidence
Interval 95% Confidence
Interval sex
Estimate Std.
Error
Lower
Bound Upper
Bound Estimate Std.
Error
Lower
Bound Upper
Bound
0 242,686 48,136 148,339 337,032 247,000 65,903 117,831 376,169
1 307,912 61,505 187,363 428,461 . . . .
Overall 308,142 47,667 214,715 401,569 . . . .
a. Estimation is limited to the largest survival time if it is censored.
În figura 4 avem prezentate curbele de supravie țuire pentru femei și bărbați,
cînd evenimentul este reangajarea. Graficul arat ă că pentru perioada de 0-250
zile de la intrarea în șomaj probabilitatea b ărbaților (linia verde) de a ie și din
șomaj prin reangajare este mai mare decât cea a femeilor. Dup ă acest prag
situația se inverseaz ă, probabilitatea de reangajare a femeilor fiind superioar ă
probabilit ății de reangajare a b ărbaților.
148Figura 4: Curbele de supravie țuire pentru femei și bărbați, eveniment
reangajare
Pentru a testa semnifica ția statistic ă a diferen țelor observate între duratele
de supravie țuire pentru b ărbați și femei vom utiliza testele statistice Log-Rank,
Breslow și Taron-Ware. În tabelul 5 sunt prezentate rezultatele acestor teste.
Observăm că toate cele trei teste sugereaz ă lipsa de semnifica ție statistic ă pentru
diferențele observate între femei și bărbați.
Tabelul 5: Rezultate teste statistice
Chi-Square df Sig.
Log Rank (Mantel-Cox) ,001 1 ,980
Breslow (Generalized Wilcoxon) ,193 1 ,660
Tarone-Ware ,066 1 ,798
U10.5. Test de autoevaluare
1. Momentul 0 al dezvolt ării analizei datelor de supravie țuire poate fi considerat
apariția:
a) calculatoarelor b) tabelelor multidimensionale c) tabelele de mortalitate 2. Explica ți ce presupune cenzurarea la dr eapta a datelor de supravie țuire.
Timp de lucru : 40 min
Punctaj 100p
149
3. Se cunosc urm ătoarele date privind un e șantion format din 20 subiec ți cu vârsta
cuprinsă între 18 și 29 ani, înregistra ți ca șomeri în eviden țele ANOFM în
perioada 2008-2010.
Subiecți Vârst ă Durata petrecut ă în șomaj
(zile) Reangajat (DA,
NU)
1 20 19 DA
2 24 19 DA
3 25 159 DA
4 27 160 DA
5 21 247 DA
6 21 38 DA
7 19 2 DA
8 23 175 DA
9 18 272 NU
10 19 264 NU
11 28 365 NU
12 28 357 NU
13 19 176 NU
14 25 168 NU
15 25 159 NU
16 28 155 NU
17 17 488 NU
18 22 43 NU
19 22 263 NU
20 22 52 NU
a) Precizați care este procentul cumulat al reangaj ărilor pentru indivizii cu
vîrsta de 20, 21 și 22 ani. Grupa ți variabila vârst ă în trei intervale de
grupare.
b) Să se construiac ă tabelul de supravie țuire pentru întregul e șantion și tabel
de supravie țuire în func ție de variabila exogen ă vârstă
c) Să se estimeze timpul mediu și timpul median de supravie țuire în șomaj
până la reangajare pentru fiecare grup ă de vârstă.
d) Să se reprezinte grafic curbele de supravie țuire pentru fiecare grup ă de
vârstă. Sunt diferen țele observate semnificative din punct de vedere
statistic?
150
U10.6. Rezumat
Bibliografie minimal ă
1. Cadariu, A. A. (2004), Methodology of Research in Medical Science,
disponibil la:
http://www.info.umfcluj.ro/resurse/ Laborator/Metodologie/LabStoma/Materia
le/CursMetodologie.pdf .
2. Collett, D. (2003), Modeling Survival Data in Medical Research, 2nd edition,
Taylor & Francis.
3. Cutler, S. J. & Ederer F. (1958), Maximum Utilization of the Life Table
Method in Analyzing Survival , Journal of Chronic Di seases, 8, pp. 699-712.
4. Greene, W. H. (2003), Econometric Analysis. New York: Prentice-Hall.
5. Hosmer, D. H., & S. Lemeshow (1999, 2003), Applied Survival Analysis:
Regression Modeling of Time to Event Data , New York: JohnWiley and Sons.
6. Le, C.T. (1997), Applied Survival Analysis, John Wiley & Sons, New York.
7. Lee, E.T. & J. Wang (2003), Statistical Methods for Survival Data Analysis,
3rd edition, NewYork:John Wiley & Sons. În cadrul acestei unitã ți de învã țare sunt prezentate aspecte de bazã ale
analizei datelor de supravietuire. Analiza datelor de supravietuire a fost
utilizatã initial în cercetarea me dicalã, în domeniul biostatisticii și în
analize specifice studiilor demografice. În ultima perioada analiza datelor
de supravietuire a pãtruns și în cercetarea economicã, fiind deosebit de
utilã în investigarea unor fenomene complexe precum șomajul, ocuparea,
inflația, cererea și oferta de credite bancare, speran ța de viață a produselor,
comportamentul produc ătorului și al consumatorului, etc.Scopul acestei
unitãți de învã țare este acela ca la finalul parcurgerii ei studentii sã fie
familiarizati cu notiuni precum timp de supravietuire, cenzurare, functie de
supravietuire, functie de hazard, curbe de supravietuire, etc.
151
Cuprins:
U11.1. Scopul și obiectivele unit ății
U11.2. Modelul de regresie Cox cu hazard propor țional
U11.3. Aplicație rezolvat ă
U11.4. Test de autoevaluare U11.5. Rezumat
Bibliografie minimal ă
U11.1. Scopul și obiectivele unit ății
În cadrul acestei unit ăți de învățare vom continua incursiunea în
analiza datelor de supravie țuire cu prezentarea modelului de regresie Cox cu
hazard propo țional. Modelul Cox cu hazard propor țional este o metod ă
semiparametric ă ce ofer ă posibilitatea determin ării influen ței diferitelor
variabile exogene asupra hazardului produ cerii evenimentului prestabilit. Este
un model foarte popular în cadrul modelelor de durat ă deoarece modelul poate UNITATEA 11
Modelul de regresie Cox cu hazard proportional
Durata medie de studiu individual – 2 ore
152funcționa în situa ția duratelor cenzurate, îns ă observa țiile trebuie s ă fie
independente iar rata hazardului trebuie s ă fie constant ă în timp.
La finalul acestei unit ăți de învățare:
veți înțelege cât de important ă este utilizarea regresiei Cox pentru
cercetarea economic ă
veți fi familiariza ți cu noțiunea de cenzurare, hazar d, rata de hazardului,
proporționalitatea hazardului
veți înțelege importan ța testării rezultatelor ob ținute pe baza modelului
Cox cu hazard propor țional
veți reuși să obțineți un scor de cel pu țin 80 % într-un interval de timp de
maximum 40 minute la testul de la sfâr șitul acestei unit ăți de învățare
U11.2. Modelul de regresi e Cox cu hazard propor țional
Modelul econometric standard utilizat în analiza datelor de supra-
viețuire este modelul propus de Cox (1972) și cunoscut în literatura de
specialitate sub denumirea de modelul Cox cu hazard propor țional ( Cox
proportional hazard model ). Modelul Cox cu hazard propor țional este o
metodă semiparametric ă ce ofer ă posibilitatea determin ării influen ței
diferitelor variabile exogene asupra hazardului producerii evenimentului prestabilit. Este un model foarte popul ar în cadrul modelelor de durat ă
deoarece modelul poate func ționa în situa ția duratelor cenzurate. Îns ă, pentru
utilizarea modelului Cox cu hazard propor țional, observa țiile trebuie s ă fie
independente iar rata hazardului trebuie s ă fie constant ă în timp.
Presupunând c ă avem „
n” unități individuale aflate sub observa ție,
atunci modelul are forma:
00 () () () , 1 , 2 , ,ix
iite tc t i nβλλ λ′=⋅ = ⋅ = … (11)
unde ()12,, ,ii i i kx xx x′= … reprezint ă vectorul valorilor variabilelor factoriale k
pentru unitatea i, ()12,,,k βββ β′=… este vectorul coeficien ților de regresie,
()itλ este hazardul calculat pentru fiecare unitate individual ă i, iar 0()tλ este
153hazardul de baz ă (baseline hazard ). Hazardul de baz ă corespunde unei
observații pentru care 0ix=. )(0tλ este componenta modelului Cox ce depinde
de factorul timp dar este independent ă în raport cu variabilele exogene, iar
βixe este componenta modelului Cox ce de pinde de variabilele exogene ale
modelului, dar nu depinde de factorul timp. Modelul nu necesit ă specificarea
unei forme a hazardului de baz ă )(0tλ . Influența variabilelor factoriale asupra
hazardului în modelul Cox cu hazard propor țional nu depinde de factorul
timp, deoarece raportul
0()
()it
tλ
λ este egal cu constanta ic.
Hazardul reprezint ă riscul producerii evenimentului prestabilit (death,
failure) pentru un subiect care a supravie țuit până la acel moment.
Rata de hazard a unui grup de subiec ți față de un alt grup de subiec ți
reprezintă diferența de hazard între cele dou ă grupuri de subiec ți. Rata de
hazard se calculeaz ă ca raport dintre ()
()i
jt
tλ
λ. Vom avea:
() 0
0() ()
() ()i
ij
jx
xx i
x
jte tetetβ
β
βλλ
λ λ′
′−
′⋅==
⋅ (12)
Rata de hazard ne arat ă cu cât este mai pr obabil ca subiectul 1 s ă
realizeze evenimentul prestabilit, în compara ție cu subiectul 2. De exemplu,
dacă rata calculat ă a hazardului de reangajare pentru b ărbați este egal ă cu 3,
iar categoria de referin ță sunt femeile, vom spune c ă bărbații au o șansă de
reangajare în orice moment al studiului de trei ori mai mare decât femeile.
Interpretarea coeficien ților de regresie în modelul Cox este
următoarea: un coeficient de regresie negativ indic ă o descre ștere a riscului
producerii evenimentului prestabilit determinat de variabila factorial ă în
cauză, pe când un coeficient mai mare decât zero indic ă o creștere a riscului
producerii evenimentului prestabilit. Dac ă avem 0=β , atunci rata de hazard
pentru variabila factorial ă analizată este egal ă cu 10=e , iar concluzia care se
desprinde este aceea c ă variabila factorial ă nu influen țează supraviețuirea.
Interpretarea ratei de hazard este similar ă interpret ării rației impare
(odd ratio ) pentru regresia logistic ă. O rată de hazard mai mare decât 1
determină o creștere a riscului producerii evenimentului prestabilit datorat ă
prezenței variabilei factoriale a c ărei influen ță este analizat ă în model, iar o
154rată de hazard mai mic ă decât 1 determin ă o reducere a riscului producerii
evenimentului prestabilit.
Pentru testarea ipotezei nule, potrivit c ăreia variabilele factoriale nu
au nici un efect asupra supravie țuirii, pentru modelul Cox cu hazard
proporțional se folosesc în mod uzual testul Wald si testul verosimilit ății
maxime LR (likelihood ratio test). Ipotezele verificate sunt:
0 :0 :
10
≠=
ββ
HH
Testul Wald are forma )ˆ(ˆ
)ˆ(ˆˆ2
22
2ββ
ββI
Vz == . Dacă 2zurmează o
repartiție Chi-pătrat atunci ipoteza nul ă este admis ă. Dacă în schimb2z ia
valori mari, atunci ipoteza alternativ ă este admis ă și ipoteza nul ă este respins ă.
Estimarea verosimilit ății maxime a parametrilor de regresie β și ai
ratei de hazard se realizeaz ă prin rezolvarea simultan ă a unei set de ecua ții
neliniare, folosind tehnica Newton-Raphs on sau diferite metode iterative
(Persson, 2002).
În modelul Cox cu hazard propor țional se porne ște de la premisa c ă
rata de hazard nu depinde de factorul timp (propor ționalitatea hazardului).
Variabilele exogene pot s ă fie staționare, sau dependente de factorul timp. O
variabilă exogenă este dependent ă de timp dac ă diferența dintre valorile
variabilei exogene pentru doi subiec ți diferiți variază în funcție de factorul
timp. Se întâmpl ă uneori, în practica statistic ă, ca ipoteza propor ționalității
hazardului s ă nu fie îndeplinit ă, caz în care rezultatele ob ținute cu ajutorul
modelului Cox cu hazard propor țional sunt invalide. De aceea, testarea
proporționalității hazardului în modelul Cox cu hazard propor țional este vital ă
pentru acurate țea rezultatelor ob ținute. Literatura de specialitate prezint ă
diferite modalit ăți de testarea a presupunerii hazardului propor țional, folosind
teste ale propor ționalității precum parti ționarea timpului de e șec, categorizarea
unor variabile exogene, folosirea func ției spline (spline function), testul
Hosmer și Lemenshow, sau verificarea grafic ă a propor ționalității hazardului.
O procedur ă des utilizat ă este testarea propor ționalității hazardului cu ajutorul
curbei log-minus-log (LML) . Curba log-minus-log este graficul
transform ărilor ln(-ln) a estim ărilor func ției supravie țuire. Dac ă liniile
corespunz ătoare straturilor individuale sunt paralele, deci implicit nu se
155intersecteaz ă, atunci hazardurile de baz ă sunt propor ționale, iar presupunerea
hazardului propor țional nu este înc ălcată.
O altă metodă grafică utilizată pentru verificarea propor ționalității
hazardului este analiza reziduurilor par țiale. Reziduurile par țiale sunt definite
doar pentru cazurile cenzurate. Reziduul par țial pentru o variabil ă exogenă
dată, pentru evenimentul X (ex. moartea, e șecul, ieșirea din șomaj, etc.) este
diferența dintre valoarea variabilei exogene observat ă pentru subiectul care
experimenteaz ă evenimentul X și așteptarea condi ționată a valorii variabilei
exogene bazat ă pe cazurile aflate înc ă sub observa ție, când evenimentul X nu
se produce. Presupunerea propor ționalității hazardului se verific ă cu ajutorul
desenării punctiforme a rezidurilor par țiale versus timp. Pentru ca hazardul s ă
fie propor țional, în acest grafic al reziduurilor par țiale nu trebuie observat nici
un pattern . În cazul în care ipoteza propor ționalității hazardului nu se verific ă
pentru o anumit ă variabilă exogenă, atunci literatura de specialitate propune
mai multe abord ări posibile. Astfel, o prim ă opțiune este aceea de a construi
hazardul nepropor țional în model, specificându-se interac țiunea dintre
variabila exogen ă respectiv ă și timp. Un astfel de model poart ă numele de
model de regresie Cox cu covariabile dependente de timp (Cox model with
time-dependent covariates). O alt ă opțiune este aceea de a ob ține un model cu
hazard nepropor țional prin stratificarea variabilelor exogene categoriale.
Există situații când nu avem doar un sing ur eveniment posibil (e.g.
moartea, e șecul), ci mai multe evenimente ce se pot produce (e.g. ie șirea din
șomaj datorit ă: (re)angaj ării, expirării perioadei de pr imire a indemniza țiilor de
șomaj, trecerii în inactivitate, etc.). În acest caz nu mai avem de a face cu un
model cu un singur risc, ci cu un model cu ri scuri multiple, denu mit în literatura
de specialitate comp eting-risks model . ă62, Jensen & Wester gaard – Nielsen,
1990î subliniaz ă că folosirea unui model de ti p competing-risks duce la
creșterea informa țiilor obținute în compara ție cu modelul cu un singur
eveniment și deci, pe cale de consecin ță, un model de tip comp eting-risks este o
opțiune mai bun ă.
În cazul unui model de tip competing-risks, probabilitatea producerii
evenimentului este suma a dou ă sau mai multe probabilit ății ale tranzi ției către
realizarea acelui eveniment. De ex emplu, în cazul studiului nostru,
probabilitatea ie șirii din șomaj este dat ă de suma a trei probabilit ății de
tranziție: ieșirea din șomaj prin (re)angajare, ie șirea din șomaj datorit ă
156expirării perioadei legale de primire a indemniza ției de șomaj și ieșirea din
șomaj prin trecerea în inactivitate . Fiecare probabilitate de tranzi ție este
estimată ca un singur eveniment, prin considerarea indivizilor care realizeaz ă
celelalte poten țiale evenimente ca cenzura ți la dreapta.
U11.3. Aplica ție rezolvat ă
Pentru un e șantion de tineri cu vârsta cuprins ă între 18-29 ani înregistra ți
ca șomeri în eviden ța ANOFM în perioada 2008-2010 se cunosc urm ătoarele date:
Perasoana Gen Vârstă Educație Cod
EducațieTimpul
petrecut
în șomaj
(zile) Reangajat
(DA, NU)
1 Masculin 20 Scoala generala 1 19 DA
2 Masculin 24 Necunoscut 10 19 DA
3 Masculin 25 Invatamant
superior 9 159 DA
4 Feminin 27 Invatamant
superior 9 160 DA
5 Feminin 21 Invatamant
superior 9 247 DA
6 Feminin 21 Necunoscut 10 38 DA
7 Masculin 19 Necunoscut 10 2 DA
8 Masculin 23 Liceu de
specialitate 4 175 DA
9 Masculin 18 Liceu de
specialitate 4 272 NU
10 Masculin 19 Liceu de
specialitate 4 264 NU
11 Feminin 28 Liceu de
specialitate 4 365 NU
12 Masculin 28 Scoala
profesionala 3 357 NU
13 Feminin 19 Liceu teoretic 4 176 NU
14 Feminin 25 Invatamant
superior 9 168 NU
15 Feminin 25 Liceu de
specialitate 4 159 NU
16 Masculin 28 Necunoscut 10 155 NU
17 Masculin 17 Necunoscut 10 488 NU
18 Masculin 22 Invatamant
superior 9 43 NU
19 Masculin 22 Liceu de
specialitate 4 263 NU
20 Masculin 22 Invatamant
superior 9 52 NU
157Presupunând c ă ipoteza privind propor ționalitatea hazardului este verificat ă, să se
estimeze efectul variabilelor gen, vârst ă și educație asupra hazardului reangaj ării
pentru subiec ții analiza ți. Sunt rezultatele ob ținute semnificative din punct de
vedere statistic?
Rezolvare:
Doar una dintre cele trei va riabile exogene este numeric ă, celelalte dou ă
fiind calitative. Variabila gen v-a fi introdus ă în model ca variabil ă dummy, cu
variantele 1- pentru b ărbați și 0- pentru femei. Pentru educa ție vom transforma
variabila utilizând codificarea prezentat ă în coloana 6 a tabelului anterior.
Modelul Cox cu hazard propor țional pentru aplica ția noastră va avea
forma:
)( )(33 22 11t etox x x
i λ λβββ⋅ =++
unde 3 2 1,,xxx sunt vectorii valorilor vari abilelor exogene gen, vârst ă,
respectiv educa ție
3 2 1 ,,βββ sunt coeficien ții de regresie corespunz ători fiecărei variabile
exogene, ce trebuie estima ți
Vom folosi SPSS 17.1 pentru a determina estima țiile coeficien ților de
regresie din modelul specificat. În tabelul 2 sunt prezentate în form ă sistemațizată
variabileie exogene anali zate (coloana 1) estima șiile coeficien ților de regresie ai
modelului (coloana 2), rezu ltatele testului Wald (col oana 4) pentru fiecare
coeficient estimat, gradele de li bertate (coloana 5), semnifica ția statistic ă a
coeficientului de re gresie estimat (coloa na 6), rata calculat ă a hazardului pentru
fiecare variabil ă exogenă (coloana 7) și intervalele de încredere ale estima ției ratei
hazardului (limita inferioar ă coloana 8, iar limita superioar ă coloana 9).
158Tabelul 2. Variabile în ecua ție
95,0% CI for
Exp(B) Variabile
exogene B SE Wald df Sig. Exp(B)
Lower Upper
1 2 3 4 5 6 7 8 9
Femei -,179 1,011 ,031 1 ,859 ,836 ,115 6,060
Bărbați Categorie de referin ță
Varsta ,145 ,121 1,429 1 ,232 1,156 ,912 1,466
Educație 6,574 4 ,160
Scoala
generală Categorie de referin ță
Scoala
profesionala –
17,774 1135,319 ,000 1 ,988 ,000 ,000 .
Liceu -4,568 1,837 6,184 1 ,013 ,010 ,000 ,380
Invatamant
superior -2,646 1,609 2,705 1 ,100 ,071 ,003 1,661
Necunoscut -1,735 1,327 1,711 1 ,191 ,176 ,013 2,374
Așadar
1,735}- 2,646;- 4,568;- 4,568;- -17,774;{ ,145,0 ,79,13 2 1 ∈ =−= β β β .
Observăm că hazardul reangaj ării pentru o femeie este mai sc ăzut decât hazardul
înregistrat pentru b ărbați. :tiim că un coeficient de regres ie negativ în modelul
Cox cu hazard propor țional indic ă o descre ștere a riscului producerii
evenimentului prestabilit pentru variabila exogen ă în cauza. Pentru datele noastre,
o femeie are o rat ă a hazardului de a se reangaja mai mic ă cu 1- Exp ( 1β), (adică
cu 16,4% mai mic ă) decât bărbații. Coeficientul de regresie corespunz ător vărstei
este pozitiv, indicând o cre ștere a șansei de angajare. Toat e cele patru valori ale
coeficientului 3β sunt negative, ceea ce arat ă că toate categoriile pentru care
acesta s-a calculat au o rat ă a hazardului de reangajare mai sc ăzută decât categoria
de referin ță, școala general ă.
Dac ă nalizăm valorile Sig. pentru fiecare coeficient estimat, observ ăm că
niciunul dintre coeficien ți nu este semnificativ din punc t de vedere statistic. Deci
vom concluziona c ă genul, vârsta și educația unui individ nu influen țează
semnificativ hazardul reangaj ării, pentru e șantionul analizat în aceast ă aplicație.
159
U11.4. Test de autoevaluare
1. Hazardul reprezint ă:
a) riscul producerii evenimentului pres tabilit pentru un subiect care a supravie țuit
până la acel moment.
b) o variabil ă exogenă
c) o variabil ă endogenă
d) procentul subiec ților care au supravie țuit până la acel moment
2. Dacă
Exp(β)=1,380, arat ă:
a) o creștere a hazardul producerii ev enimentului prestabilit în raport cu categoria
de referin ță
b) o scădere a hazardul producerii ev enimentului prestabilit în raport cu categoria
de referin ță
c) hazardul producerii evenimentului pres tabilit este constant în raport cu
categoria de referin ță
3.Testarea semnifica ției statistice a coeficien ților de regresie în modelul Cox cu
hazard propor țional se realizeaz ă cu ajutorul:
a) testului Wald
b) testului Fisher-Snedecor
c) testului t-Student
4. Presupunem c ă analizăm influen ța calităților unui produs asupra duratei de
viață a acestora. :tiind c ă rata de hazard pentru variabila exogen ă gust este
10=e ,
atunci: a) variabila gust nu influen țează durata de via ță a produsului
b) variabila gust determin ă creșterea duratei de via ță a produsului analizat
c) variabila gust determin ă creșterea duratei de via ță a produsului analizat
Timp de lucru : 40 min
Punctaj 100p
160
U11.5. Rezumat
Bibliografie minimal ă
1 Cadariu, A. A. (2004), Methodology of Research in Medical Science,
disponibil la:
http://www.info.umfcluj.ro/resurse/ Laborator/Metodologie/LabStoma/Materia
le/CursMetodologie.pdf .
2. Collett, D. (2003), Modeling Survival Data in Medical Research, 2nd edition,
Taylor & Francis.
3. Cutler, S. J. & Ederer F. (1958), Maximum Utilization of the Life Table
Method in Analyzing Survival , Journal of Chronic Di seases, 8, pp. 699-712.
4. Greene, W. H. (2003), Econometric Analysis. New York: Prentice-Hall.
5. Hosmer, D. H., & S. Lemeshow (1999, 2003), Applied Survival Analysis:
Regression Modeling of Time to Event Data , New York: JohnWiley and Sons.
6. Le, C.T. (1997), Applied Survival Analysis, John Wiley & Sons, New York.
7. Lee, E.T. & J. Wang (2003), Statistical Methods for Survival Data Analysis,
3rd edition, NewYork:John Wiley & Sons. În cadrul acestei unitã ți de învã țare am prezentat modelul Cox cu
hazard propor țional. Modelul Cox cu hazard propor țional este o
metodă semiparametric ă ce oferă posibilitatea determin ării influen ței
diferitelor variabile exogene asupra hazardului producerii
evenimentului prestabilit. Este un model foarte popular în cadrul
modelelor de durat ă deoarece modelul poate func ționa în situa ția
duratelor cenzurate, însã observa țiile trebuie s ă fie independente iar
rata hazardului trebuie s ă fie constant ă în timp. Sunt explicate
noțiunile de hazard, rata de hazardului, interpretarea coeficien ților de
regresie din modelul Cox cu hazard propor țional, testarea
semnifica ției statistice a estima țiilor obținute, testarea semnifica ției
generale a modelului specificat precum și testarea ipotezei
proporționalitãții hazardului.
161TEMA DE CONTROL NR. 3
Pentru un e șantion format din 20 subiec ți ]nregistra ți ca șomeri la ANOFM în
anul 2010 avem urmãtoarele informa ții:
Nr.crt Gen (0-
Feminin, 1- Masculin Vârstã Mediu
(Urban/Rural)Durata
șomajului
(zile) Reangajat
(DA, NU)
1. 0 37 urban 443 DA
2. 0 22 urban 181 DA
3. 0 23 urban 174 DA
4. 0 23 rural 245 DA
5. 1 25 urban 180 DA
6. 1 29 rural 166 DA
7. 0 22 urban 339 NU
8. 1 26 urban 354 NU
9. 0 37 urban 426 NU
10. 0 50 urban 434 NU
11. 0 57 urban 43 DA
12. 1 59 urban 23 DA
13. 0 21 urban 55 NU
14. 1 22 urban 78 NU
15. 0 22 urban 184 NU
16. 0 22 rural 180 NU
17. 0 22 urban 163 NU
18. 0 23 urban 26 NU
19. 1 23 rural 4 NU
20. 0 24 urban 267 NU
a) Precizați care este procentul de femei și bãrbați din eșantionul analizat.
Precizați procentul subiec ților angaja ți la sfârșitul perioadei de studiu
b) Determina ți durata medie si medianã de supravie țuire în șomaj pânã la
apariția evenimentului, reangajarea, pentru femei și bãrbați, utilizând
162SPSS. Sunt diferen țele înregistrate semnifi cative din punct de vedere
statistic?
c) Construiți curbele de supravie țuire pentru subiec ții din mediul urban și
respectiv rural cu ajutorul SPSS 17.0
d) Estimați efectul simultan al variabilelor gen, vârstã și mediu asupra duratei
șomajului subiec ților analiza ți, utilizând modelul Cox cu hazard
proporțional și SPSS.
163
Bibliografie
1. Andrei, T. (2004), Statistică și Econometrie, Editura Economic ă, București.
2. Andrei, T., Bourbonnais, R. (2004), Econometrie , Editura Economic ă
București.
3. Bourbonnais, R. (2008), Exercises pedagogiques d țeconometrie avec corriges
et rappels synthetiques de cours, Economica, Paris.
4. Cadariu, A. A. (2004), Methodology of Research in Medical Science,
disponibil la: http://www.info.umfcluj.ro/resurse/ Laborator/Metodologie/LabStoma/Materia
le/CursMetodologie.pdf
5. Collett, D. (2003), Modeling Survival Data in Medical Research, 2nd edition,
Taylor & Francis
6. Cutler, S. J. & Ederer F. (1958), Maximum Utilization of the Life Table
Method in Analyzing Survival , Journal of Chronic Diseases, 8, pp. 699-712
7. Dougherty, C. (2011), Introduction to Econometrics, Oxford University
Press..
8. Georgescu, V. (2005), Statistică descriptiv ă și inferențială, Editura
Universitaria, Craiova
9. Greene, W. H. (2003), Econometric Analysis. New York: Prentice-Hall
10. Greene, H.W. (2008), Econometrics analysis , Prentice Hall.
11. Greene, H.W. (2011), Econometrics analysis, 7th Edition, MacMillan
Publishing Company, New York
12. Gujarati (2004), Basic Econometrics, 4th Edition, McGraw −Hill New York
13. Hesbon, R.M. (2012), Understanding Econometrics Methods and
Applications: A Simplified version of Ec onometric Methods and Applications,
Kindle Edition.
14. Hinton, P.R. (2004), Statistics Explained, 2nd Edition, Routledge New York.
15. Hosmer, D. H., & S. Lemeshow (1999, 2003), Applied Survival Analysis:
Regression Modeling of Time to Event Data , New York: JohnWiley and Sonsâ
16. Koop, G. (2000), Analysis of Economic Data, New York, John Wiley &Sons.
17. Le, C.T. (1997), Applied Survival Analysis, John Wiley & Sons, New York
16418. Lee, E.T. & J. Wang (2003), Statistical Methods for Survival Data Analysis,
3rd edition, NewYork:John Wiley & Sons
19. Pecican, E. Ș. (2005), Econometrie pentru… economi ști , Ed. Economic ă,
București.
20. Peracchi, F. (2001), Econometrics, New York, John Wiley &Sons
21. Rotariu T. (coord) (2006), Metode statistice aplicate în științele sociale,
Editura Polirom
22. Sthephens, L. (2004), Advanced Statistics Demystified, McGraw-Hill
23. Tașnadi, Al. (2005), Econometrie, Editura ASE Bucure ști
24. Tănăsoiu O., Iacob A.I. (1999), Econometrie aplicat ă, Editura Arteticart,
București
25. Wooldridge, J. (2012), Introductory Econometrics: A Modern Approach,
South Western, Cengage Learning.
26. Vogelvang, B. (2005), Econometrics – Theory and Application with EViews,
Pearson Education Ltd., Harlow.
Copyright Notice
© Licențiada.org respectă drepturile de proprietate intelectuală și așteaptă ca toți utilizatorii să facă același lucru. Dacă consideri că un conținut de pe site încalcă drepturile tale de autor, te rugăm să trimiți o notificare DMCA.
Acest articol: 1UUNNIIVVEERRSSIITTAATTEEAA CCOONNSSTTAANNTTIINN BBRRAANNCCUUSSII DDIINN TTÂÂRRGGUU JJIIUU [602796] (ID: 602796)
Dacă considerați că acest conținut vă încalcă drepturile de autor, vă rugăm să depuneți o cerere pe pagina noastră Copyright Takedown.
