2 Cuprins: Regresia liniară simplă …………………………. pag. 3 A.Noțiuni teoretice ……………………………… pag. 3 Analiza distribuțională a ecuației de regresie… [623109]

MINISTERUL EDUCAȚIEI ȘI CERCETARII UNIVERSITATEA „BOGDAN VODĂ” DIN CLUJ-NAPOCA FACULTATEA DE ȘTIINȚE ECONOMICE STUDII UNIVERSITARE DE MASTERAT SPECIALIZAREA – MANAGEMENTUL RESURSELOR UMANE / MANAGEMENTUL AFACERILOR DISCIPLINA – MANAGEMNTUL RISCULUI IN AFACERI ESEU ARGUMENTATIV Predicția prin regresie COORDONATOR ȘTIINȚIFIC MASTERAND: [anonimizat] 2019-2020

2 Cuprins: Regresia liniară simplă …………………………. pag. 3 A.Noțiuni teoretice ……………………………… pag. 3 Analiza distribuțională a ecuației de regresie simple.. pag. 5 Teste de semnificație ……………………. … pag. 6 Valori estimate ………………………….. … pag. 6 Coeficientul de corelație (liniară) ……… …. pag. 6 B.Instrumente Excel, SPSS ………………….….pag. 7 Excel ……………………………………… . pag. 7 Observație ……………………………..… .. pag. 7 Add Trendline… (meniul Chart) ………… . pag. 8 Scatterplot ……………………….….….….. pag. 9 Dreapta de regresie …………..…….….… .. pag. 10 C. Lucrarea practică …….………..………..….. pag. 13 Bibliografie …………………………….… pag. 15

3
Regresia liniară simplă – Excel, SPSS A. Noțiuni teoretice Considerăm că, într-un eșantion de volum n s-au determinat perechile de valori (xi,yi), i=1,…,n, corespunzătoare celor două variabile pentru care dorim să studiem asocierea și relația dintre ele. O primă apreciere asupra distribuției comune o vom avea dacă realiză m diagrama de împrăștiere a valorilor, de fapt reprezentarea într-un sistem de axe a punctelor având coordonatele x ș i y. Analiza vizuală a organizării și formei norului de puncte obținut poate oferi indicii importante asupra relației dintre variabile. Datele de sondaj vor susține ipoteza asocierii între variabile dacă forma norului de puncte se apropie de o curbă funcțional ă. Astfel, se pot aprecia asocieri liniare, curbilinii etc. Dacă în norul de puncte nu se poate distinge o tendință, se va spune că variabilele nu sunt corelate. În figura următoare sunt ilustrate câteva tendințe identificabile direct. Cazul (a) ilustrează o asociere pozitivă, (b) – o asociere negativă, (c) – lipsă de asociere, (d) – asociere curbilinie. Relațiile de interes pentru discuția din continuare sunt cele ilustrate în cazurile (a) și (b), unde este identificabilă o tendință liniară în norul de puncte. Pentru a sintetiza modul în care schimbările lui Y sunt asociate cu schimbările lui X, metoda matematică utilizată este "metoda celor mai mici pătrate" (Legendre, 1806). Aplicat ă în cazul nostru, asocierea dintre X și Y este reprezentată printr-o dreaptă trasată printre punctele diagramei de împrăștiere. y0 x0

4 Linia estimată este "cea mai bună" în sensul că exprimă cel mai central drum printre puncte: linia pentru care suma pătratelor distanțelor (pe verticală) dintre puncte și dreaptă este minimă. Termenul comun pentru dreapta estimată este acela de dreapta de regresie.

5
Distanțele sunt referite ca erori (reziduuri). Deci dreapta de regresie realizează valoarea minimă a p ătratelor erorilor, în sensul că orice altă dreaptă produce o sumă de pătrate mai mare. Este de amintit că o proprietate a mediei aritmetice este aceea că suma pătratelor diferen țelor de la medie are o valoare minimă. Astfel se poate spune că după cum media reprezintă punctul de echilibru pentru o distribuție univariată de scoruri, la fel dreapta de regresie reprezintă punctul de echilibru într-o distribuție bivariată. Utilitatea dreptei de regresiei este aceea că servește ca bază pentru predicția valorilor lui Y asociate valorilor lui X. Astfel, dată o valoare x0, valoarea prognozată pentru Y este y0, ordonata pe dreapta de regresie corespunzătoare abscisei x0. Problema estimării erorilor de predicție va fi tratată o dată cu prezentarea modelului general. Problema prezentat ă poate fi formulată matematic drept determinarea cantităților a și b din ecuația Ye = a + b X, unde • Ye este valoarea prezisă (estimată) a variabilei dependente; • a este termenul liber al dreptei de regresie (valoarea pentru X=0); • b este coeficientul de regresie (cantitatea cu care se modifică Y atunci când X se modifică cu o unitate); • X este valoarea variabilei independente. Se demonstrează că, prin metoda celor mai mici pătrate, se obține: ∑(xi − )( yi − ) b = X Y și ∑(xi − X )2 a = − b ⋅ . Y X Valoarea estimată, totuși, este numai o medie care se poate aștepta. Acuratețea depinde de cât de bine se potrivește dreapta de regresie cu datele reale. Această potrivire este evaluată prin considerarea unei statistici: eroarea standard a estimației, definită ca abaterea standard a erorilor de estimare (a reziduurilor estimației): s = ∑( yi − yei )2 n − 2 unde yei reprezintă valoarea estimată (prin ecuația de regresie) pentru xi. O eroare standard mare arată că valorile observate sunt la distanță de dreapta de regresie și deci aceasta este mai puțin reprezentativă pentru datele reale. În consecință și valorile prognozate sunt afectate de erori mai mari. Analiza distribuțională a ecuației de regresie simple Deoarece coeficienții ecuației de regresie sunt calculați dintr-un eșantion, rezultă că au caracterul de statistici, se poate deci vorbi de repartiția lor de sondaj etc. Acest fapt permite analiza distribuțională a coeficienților, în sensul inferenței statistice: ecuația determinată prin formulele prezentate este doar o estimație a ecuației care are loc la nivel de populație. Prin urmare, ecuația de regresie calculată Ye = a + b X este estimația modelului general Ye = α + β X. O discuție mai amplă este prezentă la lucrarea cu tema "modelul liniar", aici se prezintă doar câteva elemente.

6
Analiza distribuțională este bazată pe ipoteza: pentru orice valoare fixată X (variabila independentă), Y (variabila dependentă) este distribuită normal, cu aceeași dispersie peste tot. Se demonstrează atunci că repartiția de sondaj a fiecărui coeficient de sondaj are ca medie valorile parametrilor: Exp(a) = α, Exp(b) = β. Teste de semnificație. Testul principal este acela al coeficientului lui X, deoarece acesta conține informația privind asocierea dintre Y și X. Ipotezele testului (un test t) sunt: H0:β=0 H1:β≠0 Dacă nu se respinge H0, atunci leg ătura liniară dintre Y și X nu este semnificativă, cea mai bună predicție este dată de media lui Y. Valorile estimate de dreapta de regresie trebuiesc gândite ca medii ale valorilor Y asociate cu un X particular. Altfel spus, dacă am dispune de eșantioane repetate, mediile valorilor Y (corespunzătoare valorii X) vor fi date de dreapta de regresie. Dacă notăm cu y 0 valoarea estimată corespunzătoare lui xo, adică y0 = a + b x0, atunci abaterea standard a lui y0 este s(y0) = s 1 + (x0 − x)2 n ∑(xi − x)2 , unde s este abaterea standard a estimației. Se poate construi atunci, pentru un prag de semnificație fixat α, intervalul de încredere pentru valoarea estimată: (y0-t1-α/2;n-2s(y0), y0+t1-α/2;n-2s(y0)) Atunci când valorile x0 sunt mai depărtate de media lui X, intervalul de încredere se mărește, prognoza este însoțită de erori mai mari. Predicțiile pentru valorile Y vor fi mai precise în apropiereas mediei lui X. Coeficientul de corelație (liniară) Analiza de regresie este, în esență, o metodă pentru a permite predicții, adică să estimă m o valoare a unei variabile Y atunci când dispunem de o valoare a variabilei asociate X. Totuși, de multe ori în aplicații, cercetătorii nu sunt interesați sau nu cunosc care variabilă este independentă, care dependentă în sensul cerut de practică. Ei sunt însă interesați ssă știe dacă două variabile sunt asociate și gradul de asociere. O asemenea măsură o furnizează coeficientul de corelație, notat r. Acesta are valori de la –1 la +1, o valoare nulă indică lipsa de asociere, +1 arată o asociere (corelație) pozitivă perfectă, o valoare de –1 arată o asociere negativă perfectă. Coeficientul de corelație este definit prin ∑(xi − )( yi − ) r = X Y )2), (∑(xi − )2 )(∑( yi − X Y existând, evident, și alte formule echivalente. Între cele două analize, de regresie și de corelație, legătura este dată de rezultatul: Dacă între Y și X există o relație liniară perfectă, adică Y = αX + β, atunci coeficientul de corelație este dat de ρ = αα

7
egalitate ce arată că ρ = 1, dacă α>0 și ρ = -1 dacă α<0. Rezultatul prezintă o bună concordanță cu aprecierile intuitive efectuate la începutul secțiunii despre asocieri pozitive, negative etc. B. Instrumente Excel, SPSS Excel Din uneltele Excel se prezintă Componenta Regression (din Tools > StatWork_8. Ca rezultat se va obține o orientative). doar cele care țin de reprezentările grafice. Data Analysis) va fi prezentat în lucrarea diagramă de tipul următor (formatările sunt Graficul funcției 20 15 10 5 y = 3,33x + 6,92 R 2 = 0,73 0 -4 -3 -2 -1 0 1 2 3 4 -5 XY (scatter) (Diagrama de împrăștiere, diagrama X-Y, grafic de funcție) O diagramă de împrăștiere reprezintă, într-un sistem ortogonal de axe de coor-donate, punctele determinate de perechile de valori (Xi,Yji), i = 1,…,n, j = 1,…,k. Cu alte cuvinte, se reprezintă k serii de numere Yj, j = 1,…,k, fiecare valoare fiind considerată drept ordonata unui A B punct. Abscisele punctelor, Xi, i = 1,…,n, sunt date ca o serie separată, dar sunt aceleași pentru toate seriile Y. Pentru a obține un asemenea grafic, în primul pas al utilitarului Insert > Chart (activat și din bara de unelte Standard), se alege tipul XY(Scatter). În figura alăturată sunt subtipurile disponibile de diagrame X-Y. Desenele din coloana A diferă de cele din coloana B prin aceea că sunt marcate punctele reprezentate. Desenele de pe linii diferă după modul de unire a punctelor care aparțin aceleeași serii de date. Linia a doua de desene unește punctele prin linii netezite (curbe), în timp ce desenele de pe ultima linie are punctele unite prin Diagrame X-Y. segmente. Observație. Punctele sunt unite în ordinea în care apar în seria numerică. Prin urmare, dacă perechile de puncte nu sunt în ordinea crescătoare a absciselor (X), ceea ce se obține la unirea punctelor este o linie haotică, fără nimic din graficul de funcție la care ne așteptăm. Pentru aceasta se vor sorta mai întâi datele în ordinea crescătoare a valorilor X.

8
Diagrama din primul subtip este utilizată pentru studiul asocierii dintre variabila X și variabilaY. Dispunerea ascendentă sau descendent ă a norului de puncte obținut oferă informații asupra existenței și formei asocierii între variabile. Interpretările reprezentărilor X-Y de forma puncte unite între ele sunt cele uzuale pentru graficele de funcție: maxime, minime, ritm de creștere, ritm de descreștere, care serie are valori mai mari, cine depășește pe cine etc. Observație. Trebuie să se facă distincție între diagramele de tip linie și cele de tip X-Y. Se poate însă considera că, pentru valori numerice, diagramele de tip linie au o variabilă X implicită: seria 1,2,… sau o serie temporală. Add Trendline… (meniul Chart) Permite figurarea pe grafic a trendului variabilei selectate. Există mai multe tipuri de modele pentru calcularea tendinței datelor, dar opțiunea nu este activă decât pentru anumite serii de date numerice. Opțiunea poate fi activată din meniul Chart (existent pe bara de meniuri doar dacă este selectată o diagramă) sau din meniul contextual asociat unei serii numerice. Dialogul inițiat este organizat pe două fișe, reprezentate în figurile următoare. Fișa Add Trendline Type permite selectarea modelului utilizat pentru determinarea tendinței generale a seriei numerice. Sunt disponibile principalele modele utilizate în calculele economice sau tehnice. Linear – modelul liniar (regresia simplă), y = a + bx. Polynomial – modelul polinomial de ordin 2, 3, 4, 5, sau 6, y = a0 + a1x1 + a2x2 + … + akxk. Logarithmic – modelul logaritmic: y = a + b ln x. Exponential – modelul exponențial: y = a ebx. Power – modelul putere: y = a xb. Moving Average – modelul de tip MA (medii glisante), în care se calculează o serie nouă cu valori obținute ca medie aritmetică a valorilor din seria inițială: yn = (xn + xn-1 + … + xn-k+1)/k, unde k este ordinul modelului. Este modelul prin care se elimină influențele pe termen foarte scurt sau scurt. Pentru o alegere corectă se poate utiliza informația cunoscută din cercetări anterioare sau cea furnizată vizual de aspectul norului de puncte. Zona Order este activă pentru modelul polinomial (stabilește ordinul modelului, maxim 6), iar zona Period este activă pentru modelul Moving Average

9
(stabilește ordinul modelului – câte elemente contribuie la calculul mediei aritmetice). În zona Based on series se indică seria (dintre cele reprezentate) pentru care se estimează prin metoda celor mai mici pătrate modelul selectat. Ca efect al procedurii de adăugare a liniei de trend, în grafic se va afișa, ca o linie separată, seria ipotetică obținută prin calcularea trendului. Această linie poate fi formatată ca orice alt obiect grafic (se selectează, se aplică meniul Format etc.). Fișa Add Trendline Options este prezentată în figura următoare și permite definirea altor atribute ale liniei de trend. În grupul de opțiuni Trendline name se poate atașa liniei o denumire proprie (butonul radio Custom și tastarea numelui în zona rezervată) sau se alege denumirea implicită (butonul radio Automatic). În grupul de opțiuni Forecast se poate indica numărul de perioade (valori) pentru care se efectuează prognoze, atât în viitor (Forward), cât și în trecut (Backward). Este suficient să se înscrie o valoare diferit ă de zero în zona contor alocată și seria de trend se va extinde corespunzător. Set intercept = – permite fixarea valorii termenului liber al modelului la o valoare cunoscută (opțiune utilă pentru anumite tipuri de regresii). Se va marca boxa de control și se va trece valoarea termenului liber. Display equation on chart – marcarea boxei de control are efectul trecerii pe grafic a ecuației estimate. Display R-squared value on chart – este utilă pentru afișarea coeficientului de determinare R2 (= pătratul coeficientului de corelație multiplă), interpretabil în analiza de regresie. SPSS Scatterplot Diagrama de împrăștiere (scatterplot după denumirea utilizată în SPSS) presupune, uzual, că variabila dependentă este pe axa verticală (Oy) iar variabila independentă este pe axa orizontală. Pentru a obține o diagramă de împrăștiere se utilizează comanda Graphs > Scatter… Se va afișa dialogul:

10
Pentru diagrama de împrăștiere (relația dintre două variabile) se alege varianta Simple. După acționarea butonului Define se afișează dialogul de fixare a variabilelor și a opțiunilor asociate. Se va trece variabila dependentă în zona Y Axis și variabila independentă în zona X Axis. Se pot diferenția (prin marcaje diferite) observațiile care aparțin la diverse grupuri dacă se trece variabila care face diferența în zona Set Markers by. Titlurile se pot adăuga prin deschiderea dialogului Titles. Acționarea butonului OK va produce trasarea graficului, obiect în fișierul de ieșire. Abia dup ă obținerea diagramei se pot fixa alte atribute de formatare prin inițierea editării diagramei. Prin urmare, dublu click pe diagrama va deschide fereastra de editare:

11
În această fereastră, prin dublu click pe un element se deschid dialoguri specializate de formatare. Comanda Chart > Options conduce la afișarea dialogului: În acest dialog, se pot marca casetele din grupul Fit Line, care vor produce trasarea dreptelor de regresie pe total sau/și pe grupuri.Opțiunile disponibile pentru trasarea dreptelor de regresie se găsesc în dialogul Fit Options: Pentru trasarea dreptelor de regresie se va selecta opțiunea Linear regression și se poate cere includerea sau nu a constantei în regresie, afișarea coeficientului de determinare etc. Dreapta de regresie Principalul dialog pentru estimarea unui model liniar se obține prin Analyze – Regression –Linear. In această lucrare se vor preciza doar acele elemente care sunt necesare pentru estimarea dreptei de regresie (ecuația de regresie simplă). Lucrarea următoare va conține explicațiile complete ale dialogurilor SPSS implicate în estimarea și analizarea modelului liniar.

12
În Dependent se va transfera variabila dependentă. Variabila independentă (unică în cazul regresiei simple) se transferă în Independent(s), în zona Method se fixează ca metodă Enter. Butonul Statistics deschide dialogul sinonim în care se pot preciza statisticile calculate. Unele opțiuni sunt selectate și în mod implicit. Estimates – coeficienții estima ți, Confidence intervals – intervalele de încredere ale coeficienților, Model fit – calcularea statisticilor R, R2 și a tabelului ANOVA, R squared change – modificărea coeficientului de determinare și testarea semnificaț iei schimbării la adăugarea fiecărui bloc de variabile, Descriptive – statisticile esențiale pentru fiecare variabilă, În zona Residuals se produce o analiza a reziduurilor pentru a putea decide asupra normalității acestora și a diagnostica valorile aberante. Dintre tabelele de rezultate sunt prezentate în continuare doar cele importante în cazul regresiei simple: Tabelul Model Summary conține informațiile care privesc coeficientul de corelație și eroarea standard a estimației. De remarcat coeficientul de determinare R2 care exprimă cât la sută din varianța variabilei dependente este explicată de ecuația de regresie. În tabelul ANOVA, informația importantă este statistica F cu ajutorul căreia se testează semnifica ția globală a variabilelor independente (doar una în cazul regresiei simple, procedura capătă substanță în cazul regresiei multiple). Pe coloana Sig. este afișată probabilitatea crritică a testului, astfel că dacă Sig < α se respinge ipoteza

13
lipsei de semnificație a variabilelor independente în favoarea ipotezei că modelul regresional este unul semnificativ. Se mai spune că testul este un test de semnificație asupra lui R2. Tabelul Coefficients conține informațiile privind coeficienții: coloana B – valoarea coeficientului, Std. Error – eroarea standard a coeficientului (abaterea standard în distribuția de sondaj a coeficientului), Beta – valoarea coeficientului standardizat (arată cu câte abateri standard se modifică Y dacă X se modifică cu o abatere standard), t – statistica testului de semnificație a coeficientului, Sig. – probabilitatea critică a testului. Prin urmare, un coeficient este semnificativ (diferit de zero în ecuația de regresie) dacă Sig < α. Pentru exemplul din tabel se poate scrie ecuația de regresie simplă Y = – 0.157 X + 39.855, toți coeficienții fiind semnificativi statistic. C. Lucrarea practică 1. Există o anumită evidență că prevenirea atacurilor de inimă este ajutată de un consum moderat de vin. În tabelul următor sunt prezentate date statistice din 1994 privind această problemă (consumul de alcool in litri/persoana, decesele sunt anuale/100000 locuitori). – Să se realizeze o diagramă de împrăștiere și să se descrie forma relației dintre cei doi indicatori. – Există asociere între cei doi indicatori? – Să se calculeze coeficientul de corelație dintre cei doi indicatori. Țara Alcool Decese datorate din vin afectiunilor cardiace Australia 2.5 211 Austria 3.9 167 Belgia 2.9 131 Canada 2.4 191 Danemarca 2.9 220 Finlanda 0.8 297 Franta 9.1 71 Islanda 0.8 211 Irlanda 0.7 300 Italia 7.9 107 Olanda 1.8 167 Noua Zeelanda 1.9 266 Norvegia 0.8 227 Spania 6.5 86 Suedia 1.6 207 Elvetia 5.8 115 Marea Britanie 1.3 285

14 Țara Alcool Decese datorate din vin afectiunilor cardiace SUA 1.2 199 Germania 2.7 172 2. Următorul tabel conține rezultatele dintr-o statistică oficială privind cheltuielile pentru băuturi alcoolice și produse de tutun în 11 regiuni ale Marii Britanii. – Să se realizeze o diagramă de împrăștiere și să se descrie forma relaței dintre cei doi indicatori. – Există asociere între cei doi indicatori? Să se calculeze coeficientul de corelație. – Să se recalculeze coeficientul de corelație doar pentru primele 10 regiuni și să se interpreteze rezultatul. regiunea alcool tutun North 6.47 4.03 Yorkshire 6.13 3.76 Northeast 6.19 3.77 East Midlands 4.89 3.34 West Midlands 5.63 3.47 East Anglia 4.52 2.92 Southeast 5.89 3.2 Southwest 4.79 2.71 Wales 5.27 3.53 Scotland 6.08 4.51 Northern Ireland 4.02 4.56 3. Un cercetător este interesant să specifice relația dintre indicele de inteligență (IQ) și rezultatul la un examen (măsurat pe o scală cu 100 de puncte). Datele obținute de la un număr de subiecți sunt: Student IQ Scor Student IQ Scor 1 110 42.5 7 127 70.5 2 112 53 8 130 60 3 118 46 9 132 81 4 119 61.75 10 134 70.5 5 122 70.5 11 136 77.5 6 125 56.5 12 138 88 – Să se studieze asocierea celor două variabile, IQ și scor. – Cât din varianța scorurilor poate fi atribuită variabilei IQ? – Să se estimeze și să se valideze dreapta de regresie care aproximează IQ ca o funcție de scor, IQ = a × scor + b. – Să se estimeze și să se valideze dreapta de regresie care aproximează scorul ca o funcție de IQ, scor = a’ × IQ + b’. – Ce relație este între cele două ecuații? – Se poate renunța la examen în sensul că nota se poate obține din ultima ecuație estimată știind IQ-ul studentului? 4. Se va deschide în SPSS fișierul Catalog.sav din fișierele de test (SPSS/Tutorial/Sample files/) sau prin descărcare din pagina cursului. Fișierul conține date privind rezultatele unor campanii publicitare. Se va estima relația liniară (sau una care poate fi liniarizată) dintre variabilele men, women și jewel ca variabile dependente și variabilele mail, page, phone, print și service ca variabile independente.

15 Bibliografie 1. www.revistadestatistica.ro/supliment 2. Lectii de econometrie (Elena Menciu si Mariana Gagea) 3. Statistica aplicata (Eugenia Lilea)

Similar Posts