Str. Calea Mărășești, nr. 157, Bacău, 600115 [630126]

1
ROMÂNIA
MINISTERUL EDUCAȚIEI NAȚIONALE
UNIVERSITATEA „VASILE ALECSANDRI” DIN
BACĂU
Facultatea de Științe
Str. Calea Mărășești, nr. 157, Bacău, 600115
Tel. ++40 -234-542411, tel./ fax ++40 -234-571012
www.ub.ro ; e-mail: [anonimizat]

PROGRAM DE STUDII: MATEMATICĂ

REGRESIE ȘI CORELAȚIE

Coordonator științific: Student: [anonimizat].univ.dr. LUNGU OTILIA BĂDIC TEODOR

Bacău
2018 -2019

2

CUPRINS
Capitolul I. Analiza statistică a legăturilor dintre variabile
1. Conceptul de legătură statistică
2. Clasificări ale legăturilor dintre variabile
3. Metode elementare de caracterizare a legăturilor dintre
variabile

Capitolul II. Metoda regresiei
1. Concepte și no țiuni
2. Modelul liniar de regresie
3. Modele neliniare de regresie
4. Predic ție prin regresie

Capitolul III. Corelație
1. Coeficientul de corelație
2. Raportul de corelație
3. Coeficienți de corelație a rangurilor
4. Test statistic pentru coeficientul de corelație

3
Capitolul I
Analiza statistică a legăturilor dintre variabile
1. Conceptul de legătură statistică
Fenomenele și procesele social -economice nu sunt în general, fenomene independente,
ci ele se manifestă ca rezultat al acțiunii unor factori de influență și condiționează, la rândul
lor, manifestarea altora. Spunem, așadar, că între fenomenele de masă, colectivele s e
manifestă legături , dependențe. Cre șterea volumului v ânzărilor pe măsură ce sporesc
cheltuielile cu reclama si publicitatea, creșterea speran ței medii de viată ca efect al
îmbun ătățirii nivelului de trai al popula ției, sc ăderea temperaturii o dat ă cu cre șterea altitudini
sau chiar existenta unei min ți sănătoase într -un corp să nătos, sunt exemple de astfel de
legături.
Asupra acestor aspecte sunt de făcut trei remarci:
1. Legăturile dintre fenomenele de masă nu se supun acțiunii legilor dinamice,
deterministe, deci nu sunt legături rigide, univoc determinate. În cazul legăturilor de tip
dinamic, valorilor strict determinate ale factorului dependent, iar legea dinamica poat e fi pusă
în evidentă și verificată pentru fiecare caz individual.
Legăturile statistice sunt specifice fenomenelor de tip colectiv, sistemelor deschise,
complexe, caracterizate de relații suple, neunivoce, în care cauzele interacționează cu factorii
aleat orii. Așadar, unei valori a factorului cauzal îi corespunde o distribuție de valori ale
factorului dependent, cea ce ne îndreptățește să le tratăm ca variabile aleatoare și să le
analizăm utilizând metode statistice. Legea statistică nu poate fi pusă în evidentă la nivelul
fiecărui caz particular, fiecărui element in parte, ci numai la nivel unei mase de evenimente cu
structura completă.
Definiție : Leg ăturile statistice ( stohastice) sunt relații prin care se realizeaz ă procesul de
determinare, apariție si dezvoltare a fenomenelor de mas ă.
2. O alta observa ție, ce trebuie luat ă in considera ție înainte de efectuarea demersului
statistic este cea referitoare la existen ța unei leg ături reale intre fenomene. Dou ă variabile se
spune c ă sunt corelate dac ă se modifica, în acela și sens sau in sensuri contrare. Prin urmare,
aflarea unei corela ții între dou ă variabile nu implica, în mod necesar, ca schimb ările unei
variabile cauze ază schimbările celeilalte variabile. Este posibil ca o relație de cauzalitate să
existe, dar se poate că ambele variabile să se modifice in pas cu o a treia variabilă.
De asemenea, este posibil ca legătura, corelația dintre variabile să fie o pură
coincid ență, o simplă conversație numerică. Cele două cazuri prezentate sunt false corelații,
iar identificarea unor legături reale, veridice necesită o bună cunoaștere a domeniilor supuse
analizei statistice.

4
3. În final, trebuie subliniat că metodele si tehnici le statistice utilizate in studiul
legăturilor dintre fenomenele de masă sunt cuprinse într -o categorie numita ,,analiza
corelației’’. Trebuie să facem, însă, distincția dintre un model de corelație si un model de
regresie . Modelul de corelație ne arată cât de puternic sunt legate cele două variabile, cât de
mult tind să se modifice împreună. Iar modelul de regresie care examinează schimbările unei
variabile ca o funcție de schimbări sau nivelurile altor variabile, acesta permite și
previzionarea un eia dintre variabile pe baza informațiilor despre alte variabile.
Totodată, analiza corelației este specifică variabilelor cantitative, numerice, măsurate
pe scale de intervale și de rapoarte. Printr -o extensie a semnificației, putem efectua analiza
bivari ată și multivariată a caracteristicilor calitative prin studiul contingenței luând în
considerare distribuția simultană a unităților statistice după două sau mai multe variabile
calitative.

2. Clasificarea legăturilor statistice
Frecvent, atunci când cerc etăm legăturile statistice dintre fenomenele social –
economice, acestea pot fi clasificate, după mai multe criterii, astfel înc ât:
1. După tipul variabilelor luate in considerație și scala pe care sunt măsurate datele
bi(multi)variate.
2. După numărul variabilelor statistice luate în considerare .
3. După sensul legăturilor dintre variabile.
4. După forma ecuației menită să descrie relația dintre variabile .
5. După modul de manifestare in timp a legăturii dintre variabile.

1. După acest tip legăturile pot fi clasificate in asocieri și corelații statistice.
Distincția marcată de divizarea caracteristicilor în calitative si cantitative este, uneori,
estompată prin atribuirea de numere pentru clasele scalelor ordinale, dar prelucrarea statistică
a unor astfel de măsurători trebuie făcută in condiții restrictive. În sens opus, însă, trecerea de
la studiul corelației la studiul asocierii poate fi făcută mult mai ușor pe baza principiului că o
caracteristică de tip cantitativ, măsurată pe o scală de intervale sau de rapoarte poate fi
transpusă într -una de tip calitativ prin gruparea valorilor și atribuirea de nume intervalelor de
valori.
2. Acestea pot fi legături simple sau legături multiple.
2.1 legături simple, in cazul datelor bivariate, când se analizează dependenta dintre
exact două caracteristici;

5
2.2 legături multiple, in cazul datelor multivariate, când se studiază dependenta dintre
mai mult de doua caracteristici.
3. Putem avea legături directe si legături inverse.
3.1 au legăturile directe atunci când modificarea într -un sens a unui factor este însoțită
de modificarea în același sens a celuilalt factor;
3.2 au legături inverse atunci când variabilele se modifică în sensuri opuse, creșterea
unui factor fiind însoțită de scăderea celuilalt factor.
4. Legăturile sunt liniare si neliniare.
4.1 Legăturile liniare semnifică o schimbare uniformă a unei variabile sub influența
schimbării altor variabile;
4.2 Legătura neliniară este atunci când legătura dintre caract eristici este descrisă
printr -o funcție neliniară.
5. Leg ăturile sunt legături sincrone și legături asincrone.
5.1 Leg ăturile sincrone sunt cele în care modificarea unei variabile are loc aproximativ
o dată cu modificarea alteia;
5.2 Legăturile asincrone sunt cele în care efectul se manifestă după un interval de timp
de la producerea cauzei.
În continuare , în analiza statistică a legăturilor dintre variabilele social -economice cu
ajutorul metodelor regresiei si corelației, vom nota cu:
X- variabilă cauzal ă, numită exogenă sau explicativă, independentă;
Y- variabila efect, numită când se cunoaște variabila explicativă.
Metodele statistice de analiză a legăturilor dintre variabile sunt formate, pe de o parte,
din metode simple, care permit identificarea exis tenței, formei, sensului legăturii și chiar
aprecierea intensității legăturii. Pe de altă parte, ele cuprind metode analitice, care permit
stabilirea formei analitice a legăturii si măsurarea intensității legăturii dintre variabile.

6
3. Metode elementare de analiză a existentei, formei si sensului
legăturilor dintre variabile.
Tehnicile de prezentare si reprezentare grafic ă a datelor bivariate și multivariate,
precum și cele de sistematizare și prelucrare primară a acestora constituie principale le
metode care permit identificarea existenței, formei și sensului dependențelor statistice.
Dintre acestea, reprezentarea grafică prin intermediul diagramei de împrăștiere,
corelogramei, este cel mai frecvent utilizată și deosebit de utilă.
a) Diagrama de împrăștiere
Datele bivariate pot avea diferite structuri: unele sunt ușor de analizat și interpretat,
altele sunt mai dificil de studiat. Prin reprezentarea grafică a diagramei de împr ăștiere, se
pot obține informații noi dincolo de câțiva indicatori st atistici convenționali. Graficul
poate arăta existența unei legături liniare, a unor legături neliniare sau lipsa legăturii dintre
variabile. Mai precis, pe baza acestuia, vor fi identificate probleme care pot afecta
rezultatul și interpretarea indicatori lor de corelație și regresie.
Diagrama de împrăștiere indic ă, în sistemul de coordonate rectangulare, fiecare unitate
statistică printr -un punct. Variabila studiată drept factor cauzal, de influen ță (X) este
reprezentată pe axa orizontală. Variabila de răspuns, care poate fi influen țată (Y) define ște
axa verticală. Forma de distribuire a punctelor pe grafic ne dă informa ții privind:
1. Existenta legăturii dintre variabile.
2. Sensul legăturii dintre variabile.
3. Forma legăturii dintre variabile.
1. Existența legăturilor dintre variabile : cu cât punctele de pe grafic sunt mai grupate
in jurul unei diagonale, cu at ât legătura dintre variabile este mai puternică.

1.a)

7

1.b)

1.c)
a) Existența și b) c) inexistența klegăturii statistice între variabile

8
Dacă punctele de pe grafic sunt distribuite în mod uniform pe întregul plan
delimitat de axe ( figura 1.b), ori dacă ele se grupează în jurul unei linii paralele cu una
dintre axe ( figura 1.c), acest lucru indică inexistența legăturii statisti ce. De remarcat că
prin schimbarea scalelor de reprezentare pe una din axe, un nor de puncte împrăștiat în tot
graficul ( figura 1.b) poate părea ca fiind mai grupat în jurul unei linii ( figura 1.c). Dar,
atâta timp cât nu exista nici o pantă, graficul in dică lipsa legăturii statistice.
Aspectul de ,,nor de puncte’’ este determinat de faptul că legăturile sunt de tip
statistic și nu de tip funcțional.
2. Sensul legăturii dintre variabile: dacă punctele de pe grafic sunt grupate in
jurul diagonalei principa le ( figura 2.a) legătura se apreciază a fi directă, iar dacă
punctele se grupează în jurul diagonalei secundare (figura 2.b) astfel încât pe mătură ce
cresc valorile lui X, valorile lui Y descresc, atunci legătura este inversă.

2.a)

2.b)
Figura 2. a) leg ătură directa si b) leg ătură inversă

9

3. Forma legăturii dintre variabile: legătura dintre variabile nu este de tip liniar
dacă diagrama arat ă puncte adunate în jurul unei curbe ( figura 3) mai degrabă decât al
unei linii drepte. Deseori se va putea utiliza o transformare, pentru liniarizare a
variabilelor, ceea ce simplifică an aliza, pentru ca apoi rezultatele să fie transformate
înapoi la datele originale.

Figura 3. Legătura statistică neliniară
În paragrafele următoare vom vedea cum alte particularități ale legăturilor dintre
variabile pot fi puse in evidență prin analiza di agramei de împrăștiere.
b) Metoda seriilor paralele se utilizează atunci când avem la dispoziție date
bivariate sau multivariate privitoare la număr redus de unități statistice și constă în
ordonarea valorilor variabilei cauzale, pentru ca, prin analiza te ndinței de distribuție a
valorilor corespunzătoare ale variabilei efect să se poată identifica existența și sensul
dependenței de la cauză la efect între caracteristici.
c) Metoda grupării este utilizată în cazul în care sunt disponibile date privitoare la
un număr crescut de unități statistice, pentru care s -a realizat gruparea datelor după
caracteristica factorială . Calculul indicatorilor derivați pentru variabila efect, dă
posibilitatea identificării existenței și sensului legăturii dintre caracteristic i.
d) Metoda tabelului de corelație se utilizează în cazul grupării combinate după
două variabile numerice. Pentru similitudine cu reprezentarea grafică, uzual, valorile
variabilei cauzale (X) se trec în ordine crescătoare pe orizontală, iar valorile varia bilei
efect (Y) se trec in ordine descrescătoare pe verticală. Frecvențele din interiorul tabelului
permit, la fel ca și în cazul diagramei de împrăștiere, identificarea existenței, sensului și
chiar a formei dependenței statistice ( tabelul 1).

10

Tabel d e corelație

Tabelul 1
unde: ni.=Σn ij, cu j=1 până la m;
n.j=Σn ij, cu i=1 până la n;
n..=Σn i.=Σn. j=ΣΣn ij=n
Pentru prima sum ă cu i=1 până la r, a doua sumă cu j=1 până la m.
În cazul variabilelor nenumerice, calitative se alcătuiește tabelul de asociere ( de
contingență) . Pentru variabile dihotomice ( alternative) unitățile care formează populația
statistică se repartizează simultan în cele 4 categorii, date de X și non X, res pectiv de Y și non
Y, formând așa zisele tabele ,,2×2’’ (tabelul numărul 2).

11
Tabel de asociere ,,2×2’’
Tabel 2
Clasele lui X Clasele lui Y Total
Y(Y 1) non Y(Y 2)
0 1 2 3
X (X 1) n11 n12 n1.=n11+n12
non X (X2) n21 n22 n2.=n 21+n22
Total n.1=n11+n21 n.2=n12+n22 n..=n 11+n12+n21+n22

Identificarea existenței legăturii intre variabile nu este posibilă, însă, în mod imediat
prin analiza frecvențelor absolute, ci prin determinarea frecvențelor relative, raportând
frecvențele din interiorul tabelului, la frecvențele marginale ( tabelul 3 ș i tabelul 4), obținând
astfel probabilități condiționate.
Tabel cu frecvențe relative
Tabelul 3
Clasele lui X Clasele lui Y Total
Y non Y
0 1 2 3
X p11 p21 1
non X p21 p22 1
Total p.1 p.2 1

Tabelul 4
Clasele lui X Clasele lui Y Total
Y non Y
0 1 2 3
X q11 q12 q1.
non X q21 q22 q2.
Total 1 1 1

12

Probabilitățile condiționale s -au obținut ca:
pij=nij\ni. ; i=1,2 (1)
qij= n ij\n.j ; j=1,2 (2)
p.j=n. j\n.. ; (3)
qi.=n i.\n.. ; (4)
și arată șansa ca o unitate aflată într -o clasă a lui X să se afle în Y sau non
Y și respectiv, șansa ca o unitate dintr -o clasă a lui Y să se afle în X sau non X.
Evidențierea existenței legăturii statistice se realizează prin compararea
probabilităților de acela și tip (p 11 cu p 21 sau q 11 cu q 21).
În cazul variabilelor calitative nealternative, tabelul de asociere
(contingență) este de forma r x c ( r rânduri și c coloane)(tabelul 5).

Tabel de contingență
Tabelul 5
Clase pentru X Clase pentru Y Total
y1 y2 yi yc
x1
x2
.
.
xi
.
.
xr n11 n12 n1i n1c
n21 n22 n2j n2c
………………………………..

ni1 ni2 nij nic
……………………………….

nr1 nr2 nrj nrc n1.=Σn1j
n2.=Σn2j

ni.=Σnij
…………………………

nr .=Σnrj
cu j=1 la c;

Total n.1= n. 2= n. j= n. c=
=Σni1 =Σni2 =Σnij =Σnic
cu i=1 la c; n..=ΣΣnij
cu i=1 până la r, și cu
j=1 până la c

13
Acest tabel de contingență ne ajută să observăm o eventuală asociere între variabile,
dacă frecvențele nu sunt concentrate pe o linie sau pe o coloană, ori dacă ele nu sunt egal
distribuite în întregul tabel.
Dacă metodele elementare prezentate mai sus permit identificarea existenței, sensului
și chiar formei legăturii dintre variabile, în continuare, înainte a utilizării metodei regresiei și
corelației statistice putem testa, prin intermediul analizei dispersionale cât de semnificativă
este influența variabilei/ variabilelor independente asupra celei dependente.

14
Capitolul I
Metoda regresiei
1. Concepte și noțiuni
Unul din principalele capitole ale statisticii are în vedere posibilitatea de a face
predic ții. De și nu se g ăsesc rela ții perfecte în lumea real ă, prin intermediul regresiei se pot
face predic ții ale unei variabile, în func ție de valoar ea alteia. Predic ția este procesul de
estimare a valorii unei variabile cunoscând valoarea unei alte variabile.
În continuare, ne vom referi doar la situa ția regresiei simple (o variabil ă dependenta și
una independent ă) și liniare (rela ția dintre cele două variabile poate fi descris ă printr -o dreapt ă
în cadrul norului de puncte).
Regresia se leag ă foarte mult de conceptul de corela ție. O asociere puternic ă între dou ă
elemente conduce la cre șterea preciziei predic ției unei variabile pe seama alteia. Dac ă am
avea o corela ție perfecta (+1 sau –1) estimarea ar fi extrem de precis ă.
2. Modelul liniar de regresie
Regresie și corelație simplă liniară
Metoda regresiei presupune, așa cum am văzut în paragrafele precedente explicarea
unei variabile rezultative (Y) pe baza uneia sau mai multor variabile factoriale, utilizând
un model ( o funcție de regresie). Într -un astfel de model este, folosită noțiunea de
cauzalitate: schimbările în variabila indep endentă ( sau variabilele independente)
determină sau cauzează schimbări în variabila dependentă. Relații exacte între fenomene
și procese social -economice nu pot fi, însă, descrise, oricât de multe caracteristici
factoriale am lua în considerație, datorit ă fenomenelor aleatoare care nu pot fi modelate
sau explicate. Aceste variații neexplicate în model – cauzate de variabile neincluse sau
reziduale – formează eroarea aleatoare (reziduală). În cazul în care se ia în considerație
o singură variabilă cauzală, regresia se numește simplă, iar unul dintre modelele grafice
cel mai des utilizate pentru a explica comportamentul unei variabile efect in funcție de o
singură variabilă independentă este linia dreaptă. Vom vorbi atunci despre regresia
simplă liniară.
Regresie simplă liniară
Relația dintre variabila efect (Y) si variabila cauză (X) studiată de regresia simplă
liniară într -o populație statistică poate fi descrisă prin modelul liniar matematic general:
Yi=α+βXi+ εi
În care Yi si Xi reprezintă valorile unei unită ți (i) luate pentru variabila efect și
respectiv variabila cauză. Parametrii α și β sunt constan ți. Valoarea parametrului β arată

15
modificarea cu o unitate a variabilei cauză (X). Ea reprezintă panta liniei drepte. Valoarea
parametrului α arată punctul în care linia interceptează axa OY ( figura 4), iar εi
reprezintă eroarea aleatoare pentru fiecare unitate, adică partea din valoarea variabilei Y
care nu poate fi măsurată prin relația sistematică existentă cu variabila X.

Similar Posts