Analiza Legaturilor Statistice Intre Variabile
Cuprins
I. Introducere 2
II. Descrierea bazei de date și a variabilelor analizate 2
Etapele în crearea variabilei calitative: 2
III. Analiza statistică univariată a datelor 5
3.1 Descrierea statistică a variabilelor calitative 5
Etape în realizarea analizei univariată a variabilelor nenumerice 5
3.2 Descrierea statistică a variabilelor cantitative 8
Etape în realizarea analizei univariată a variabilelor cantitative 8
IV. Analiza statistică bivariată a datelor 16
4.1 Analiza statistică a asocierii dintre două variabile. 16
Etape în realizarea analizei bivariată 16
4.2 Analiza de regresie și corelație. 18
Etape în realizarea analizei de regresie simplă 18
Etape în realizarea analizei de regresie multiplă 23
Etape în realizarea analizei de regresie neliniară 29
4.3 ANOVA 32
Etape : 32
V. Estimarea și testarea statistică 34
5.1 Estimarea unei medii prin interval de încredere. 34
5.1.1 Estimarea prin interval de încredere a unei medii 34
Etape în realizarea estimării prin interval de încredere a unei medii 34
5.1.2 Estimarea prin interval de încredere a diferenței dintre două medii 35
Etape în realizarea estimării prin interval de încredere a diferenței dintre două medii 35
5.2 Testarea statistică 37
5.2.1 Testarea unei medii și a unei proporții 37
Etape în realizarea testării unei medii 37
Etape în realizarea testării unei proporții 39
5.2.2 Testarea diferenței dintre două medii și două (sau mai multe) proporții 40
Etape în realizarea testării diferenței dintre două medii 40
Etape în realizarea testării diferenței dintre două (sau mai multe) proporții 41
Concluzii 42
Bibliografie 43
Introducere
În proiect sunt prezentate etapele în realizarea analizei univariate a datelor, analiza bivariată a datelor, estimarea și testarea statistică a acestora. Ne propunem sa aflăm influența unor variabile independente asupra altora dependente, si anume care este influenta salariului initial asupra salariului curent, precum si legaturile intre salariul curent si celelalte variabile precum genul salariatului si experienta anterioara.
Descrierea bazei de date și a variabilelor analizate
Baza de date aleasă conține informații culese de la un eșantion format din 474 de persoane, caracterizate cu ajutorul a 11 variabile calitative și cantitative.
Variabilele supuse analizei sunt variabilele calitative, genul persoanei și o variabila nenumerică nou creată, luni de angajare, și variabilele numerice – experiența anterioară, salariul de început și salariul curent.
Variabila nenumerică, Jobtime1 este creată folosind o variabilă numerică, Jobtime.Variabila creată are 4 categorii: perioada mica, medie, medie și foarte mare.
Etapele în crearea variabilei calitative:
Pasul1:
Pentru a putea stabili categoriile variabilei vom realiza un tabel de frecvență în care vom avea valoarea maximă și minimă a salariului curent. De asemenea vom calcula și quartile.
Din tabel rezultă faptul că valorea minimă a variabilei este egală cu 63 de luni, iar valoarea maximă 98 de luni.
Valoarea minimă și maximă impun condiții în stabilirea categoriilor variabilei ce va fi creată.
Pasul 2:
Pentru a crea o variabilă nenumerică pornind de la o variabilă numerică vom folosi meniul Transform-Recode into a different variables.
Pasul 3:
Variabila selectată este jobtime care se va numi jobtime1.
Pasul 4:
Vom transforma valorile vechii variabilei în valori pentru noua variabilă.
Pasul 5:
Vom denumi categoriile variabilei noi create.
Analiza statistică univariată a datelor
3.1 Descrierea statistică a variabilelor calitative
Variabiliele calitative supuse analizei sunt genul persoanei și lunile de angajare.
Etape în realizarea analizei univariată a variabilelor nenumerice
variabila calitativă, genul persoanei
Pasul 1:
Pentru analiza univariată a variabilelor vom intra în meniul Analyze-Descriptive Statistics-Frequencies, apoi vom trimite pentru analiză variabila numită Gender.
Pasul 2:
Următorul pas constă în alegerea mărimilor ce vor caracteriza variabila (pentru variabila nenumerică nu putem alege decât să fie afișat tabelul de frecvență)
Tabelul de frecvență ne arată că eșationul ales este compus din 216 femei și 258 de bărbați, însumând 474 de persoane.
Pasul 3:
Graficul pentru o variabilă nenumerică este de tip Pie.
variabila calitativă, lunile de când s-a angajat
Pasul 1:
Pentru analiza univariată a variabilelor vom intra în meniul Analyze-Descriptive Statistics-Frequencies, apoi vom trimite pentru analiză variabila numită jobtime1
Pasul 2:
Următorul pas constă în alegerea mărimilor ce vor caracteriza variabila (pentru variabila nenumerică nu putem alege decât să fie afișat tabelul de frecvență)
Tabelul de frecvență ne arată că 120 de persoane sunt angajate de o perioadă mică de timp, 124 de o perioadă mare de timp iar 230 de o perioadă foarte mare de timp.
Conform tabelului cele mai multe persoane sunt angajate de o perioadă foarte mare de timp.
Pasul 3:
Pentru variabila nenumerică jobtime1 graficul este de tip Bar.
3.2 Descrierea statistică a variabilelor cantitative
Variabilele cantitative supuse analizei sunt experiența anterioară, salariul de început și salariu curent.
Etape în realizarea analizei univariată a variabilelor cantitative
variabila cantitativă, eperiența anterioară
Pasul 1:
Pentru analiza univariată a variabilelor vom intra în meniul Analyze-Descriptive Statistics-Frequencies, apoi vom trimite pentru analiză variabila numită Prevexp
Pasul 2:
Următorul pas constă în alegerea mărimilor ce vor caracteriza variabila cantitativă
Pasul 3:
Conform datelor obținute în tabel, în medie, o persoană are o experiență de anterioară 96 de luni. 50% din persoane au până în 55 de luni de experiență, inclusiv, iar 50% au peste 55 de luni de experiență,inclusiv. Coeficientul de boltire ne indică o distribuție leptocurtică, iar coeficientul de simetrie ne arată o a distribuție asimetrică la dreapta. De asemenea putem adăuga faptul că 25% din salariați au până în 19 luni de experiență, inclusiv, 50% au până în 55 de luni de experiență, inclusiv, iar 75% au până în 140 de luni, inclusiv.
Pasul 4 :
Pentru variabila cantitativă Prevexp graficul este de tip Histogramă
variabila cantitativă, salariul de început
Pasul 1:
Pentru analiza univariată a variabilelor vom intra în meniul Analyze-Descriptive Statistics-Frequencies, apoi vom trimite pentru analiză variabila numită Salbegin
Pasul 2:
Următorul pas constă în alegerea mărimilor ce vor caracteriza variabila cantitativă
Pasul 3:
Conform datelor obținute, putem afirma că în medie, un angajat a început cu un salariu de 17,016.09 dolari. Cei mai mulți dintre ei au câștigat la început 15,000 de dolari. 50% dintre ei au avut un salariu de începu până în 15,000 de dolari inclusiv, iar 50% au avut peste 15,000 de dolari,inclusiv. Coeficientul de simetrie ne indică faptul că avem o distribuție asimetrică la dreapta, iar cel de boltire, o distribuție leptocurtică. Putem afirma și faptul că 25% din populație a avut un salariu de început de până în 12,450 de dolari inclusiv, 50% a avut un salariu de până în 15,000 de dolari inclusiv iar 75% până în 17,617,50 de dolari inclusiv.
Pasul 4 :
Pentru variabila cantitativă Salbegin graficul este de tip Histogramă
variabila cantitativă, lunile de la angajare
Pasul 1:
Pentru analiza univariată a variabilelor vom intra în meniul Analyze-Descriptive Statistics-Frequencies, apoi vom trimite pentru analiză variabila numită Current salary.
Pasul 2:
Următorul pas constă în alegerea mărimilor ce vor caracteriza variabila cantitativă
Pasul 3:
Conform datelor din tabel, în medie un salariat câștigă 34,419.57 dolari, 50% dintre ei au până în 28,875 de dolari, inclusiv, iar 50% au peste 28,875 de dolari inclusiv. Cei mai mulți angajați câștigă 30,750 de dolari. Coeficientul de simetrie indică o asimetrie la dreapta, salariile foarte mari sunt cazuri rare, iar coeficientul de boltire indică o distribuție leptocurtică. De asemenea, putem afirma că 25% dintre angajați au până în 24,000 de dolari inclusiv, 50% au până în 28,875 de dolari, inclusiv, iar 75% au până în 37,162.50 de dolari.
Pasul 4 :
Pentru variabila cantitativă Current salary graficul este de tip Histogramă
Analiza statistică bivariată a datelor
4.1 Analiza statistică a asocierii dintre două variabile.
Etape în realizarea analizei bivariată
Pasul1:
Variabilele supuse analizei sunt variabilele calitative gender și jobtime1. Pentru analiza bivariată utilizăm meniul Analyze-Descriptive Statistics- Crosstabs.
Pasul 2:
Pentru a verifica daca există o asociere semnificativă, bifăm Chi-square
Pasul 3:
Conform tabelului, 58 dintre femei lucrează de o perioadă mică de timp, 62 de femei de o perioadă mare de timp și 96 dintre femei de o perioadă foarte mare.De asemenea putem afirma și faptul că din cei 120 de angajați care lucrează de o perioadă mică de timp, 58 sunt femei iar 62 bărbați,din cei 124 care lucrează de o perioadă mare de timp, 62 sunt femei și 62 bărbați iar din cei 230 care lucrează de o perioadă foarte mare de timp, 96 sunt femei iar 134 sunt bărbați.
Analiza de regresie și corelație.
analiza de regresie simplă și corelație
Etape în realizarea analizei de regresie simplă și corelație
Pasul 1 :
Variabilele supuse analizei de regrei și corelație sunt Current salary și Beginning Salary. Pentru analiza de regresie utilizăm meniul Analyze-Regression-Linear.
Pasul 2 :
Alegerea marimilor ce vor caracterizarea variabilele alese.
.
Conform tabelului, valoarea medie a salariului curent este de 34,419.57 dolari, iar în medie salariul curent se abate de la nivelul mediu cu 17,075.661 de dolari. Valoarea medie a salariului de început este de 17,016,09 dolari, iar în medie salariul de început se abate de la nivelul mediu cu 7,870.638 dolari.
Pentru analiza de corelație: Analyze- Correlation- Bivariate
Coeficientul de corelație ne indică o legătură puternică, în sens pozitiv între variabila dependentă Current Salary și variabila independentă Beginning Salary ( Pearson Correlation=0,880).
Raportul de corelație ne arată o legătură puternică (R=0,880).
Raportul de determinație ne arată că 77,5% din variația variabilei dependente Current Salary este explicată de variația variabilei independente Beginning Salary ( R Square=0,775).
Ecuația estimată a modelului este:
=1928,206- pentru o valoare a salariului de început de 0 dolari, valoarea medie a salariului curent este de 1928,206 dolari.
=1,909- la o creștere a salariului de început cu 1 dolar ,salariul curent crește în medie cu 1,909 dolari.
De asemenea tabelul ne prezintă limitele intervalelor de încredere:
– : cu o probabilitate de 0,95, putem spune că nivelul mediu al salariului curent este acoperit de intervalul
– : cu o probabilitate de 0,95, putem spune că este acoperit de intervalul
Pasul 3 :
analiza de regresie multiplă
Etape în realizarea analizei de regresie multiplă
Pasul 1 :
Variabilele supuse analizei de regresie și corelație sunt variabila dependentă Current salary și variabilele independente Beginning Salary, Previous Experience (months) și Months since Hire. Pentru analiza de regresie utilizăm meniul Analyze-Regression-Linear.
Pasul 2 :
Alegerea marimilor ce vor caracterizarea variabilele alese.
Conform tabelului, valoarea medie a salariului curent este de 34,419.57 dolari, iar în medie salariul curent se abate de la nivelul mediu cu 17,075.661 de dolari. Valoarea medie a salariului de început este de 17,016,09 dolari, iar în medie salariul de început se abate de la nivelul mediu cu 7,870.638 dolari. Experiența anterioară înregistrează o valoare medie egală cu 95,86 luni, în medie experiența anterioară se abate de la nivelul mediu cu 104,586 luni ( acest lucru ne indică faptul ca variabila independentă Experiența anterioară nu este relevantă pentru studiul variației salariului curent). Valoarea medie a variabilei Months since Hire este de 81 luni, care se abate în medie, de la nivelul mediu cu 10 luni.
Coeficientul de corelație Pearson ne indică o legătură puternică și în același sens între salariul curent și salariu de început (Pearson Correlation=0,880). Între salariul curent și experiența anterioară există o legătură inversă dar slabă (Pearson Correlation= -0,097). Legătura dintre salariul curent și lunile de angajare este pozitivă, de intensitate slabă ( Pearson Correlation= 0,034).
Raportul de determinație ne indică faptul că 80,4% din variația variabilei dependente Current Salary este explicată de variația simultană a variabilelor independente Beginning Salary, Previous Experience și Months since Hire.
Ecuația estimată a modelului este: ++
= -10266,629- pentru o valoare a salariului de început de 0 dolari,experiența anterioară de 0 luni și 0 luni de angajare valoarea medie a salariului curent este de -10266,629 dolari.
= 1,927- la o creștere a salariului de început cu 1 dolar ,salariul curent crește în medie cu 1,927 dolari, experiența anterioară și lunile de angajare rămân constante.
= -22,509- la o creștere a experienței anterioare cu 1 lună, salariul curent scade în medie cu 22,509 dolari,salariul de început și luni de angajare rămân constante.
= 173,203- la o creștere a lunilor de angajare cu 1 lună, salariul curent crește în medie cu 173,203 luni, salariul de început și experiența anterioară rămân cosnstante.
De asemenea tabelul ne prezintă limitele intervalelor de încredere:
– : cu o probabilitate de 0,95, putem spune că nivelul mediu al salariului curent este acoperit de intervalul
– : cu o probabilitate de 0,95, putem spune că este acoperit de intervalul
– : cu o probabilitate de 0,95, putem spune că este acoperit de intervalul
– : cu o probabilitate de 0,95, putem spune că este acoperit de intervalul
În tabel sunt prezentați și coeficienții parțiali care ne indică faptul că între salariul curent și cel de început există o legătură puternică, pozitivă, pentru un nivel al experienței și vechimei rămas constant( , între salariul curent și experiența anterioară este o legătură de intensitate slabă și în sens invers cu salariul de început și vechimea rămase constante ( iar între salariul curent și vechime, legătura este slabă și pozitivă, pentru un salariu de început și o experiență anterioară care rămân constante (=0,225).
Pasul 3 :
Pentru modelul de regresie multiplu tipul de grafic ales este Histogram, putând bifa de data asta și opțiunea Produce all partial plots.
analiza de regresie neliniară
Etape în realizarea analizei de regresie neliniară
Pasul 1 :
Cel mai bun model de regresie neliniară este modelul Power, are puterea de explicare cea mai mare ( R Square= 0,786)
Pasul 2 :
Variabilele supuse analizei de regresie neliniară sunt Current salary și Beginning Salary. Pentru analiza de regresie utilizăm meniul Analyze-Regression-Linear.
Pasul 3:
Ecuația estimată a modelului:
Ecuația logaritmată :
= 2,025- pentru o valoare a salariului de început de 1 dolari, valoarea medie a salariului curent este de 2,025 dolari
= 0,998- la o creștere a salariului de început cu 1 unitate, salariul curent crește în medie cu 0,998 unități.
Conform tabelului Anova, modelul construit explică semnificativ variația variabilei dependente la variația variabilei independente .
Modelul explică 78,6% din variația variabilei dependente Current Salary sub influența variației variabilei independente Beginning Salary.
Pasul 4:
ANOVA
Etape în realizarea ANOVA
Pasul 1 :
Variabilele supuse analizei sunt variabilele Current Salary și luni de angajare . Pentru analiză utilizăm meniul Analyze- Compare Means- One way ANOVA.
Pasul 2 :
Pasul 3 :
Pasul 4:
Pe baza tabelului Anova, putem afirma faptul că vechimea nu influențează semnificativ variația salariului curent: () (sig= 0,294)
Estimarea și testarea statistică
5.1 Estimarea unei medii prin interval de încredere.
5.1.1 Estimarea prin interval de încredere a unei medii
Etape în realizarea estimării prin interval de încredere a unei medii
Pasul 1 :
În realizarea estimării unei medii prin interval de încredere se folosește meniul Analyze- Descriptive Statistics- Explore.
Variabila, a cărei medii este estimată prin interval de încredere este Beginning Salary.
Pasul 2 :
Conform tabelului, cu o probabilitate de 95% putem afirma că media este încadrată de intervalul [ 16,305.72; 17,726.45].
5.1.2 Estimarea prin interval de încredere a diferenței dintre două medii
Etape în realizarea estimării prin interval de încredere a diferenței dintre două medii
Pasul 1 :
În realizarea estimării prin interval de încredere a diferenței dintre două medii se folosește meniul Analyze- Descriptive Statistics- Explore.
Pasul 2 :
Pasul 3 :
Cu o probabilitate de 95% putem afirma faptul că valoarea medie a salariului current, pentru persoanele de gen feminine este încadrată de intervalul [25,018.29; 27,045.55]
Cu o probabilitate de 95% putem afirma faptul că valoarea medie a salariului current, pentru persoanele de gen masculin este încadrată de intervalul [39,051.19; 43,832.37]
5.2 Testarea statistică
5.2.1 Testarea unei medii și a unei proporții
a) testarea unei medii
Etape în realizarea testării unei medii
Pasul 1 :
Pentru testarea statistică: Analyze- Comapare Means- One Simple T Test
Pasul 2 :
Pasul 3 :
Cu o probabilitate de 95% putem afirma faptul că valoarea medie a salariului de început este semnificativ diferită de 0, (= 0,05) >(sig= 0,00)
testarea unei proporții
Etape în realizarea testării unei proporții
Pasul 1 :
Pentru testarea statistică: Analyze- Nonparametric Tests
Pasul 2 :
Cu o probabilitate de 95% putem afirma faptul că proporția angajaților de gen feminin și masculin nu diferă semnificativ de proporția 50% (0,05)< (sig= 0,06) .
5.2.2 Testarea diferenței dintre două medii și două (sau mai multe) proporții
a) testarea diferenței dintre două medii
Etape în realizarea testării diferenței dintre două medii
Pasul 1:
Pentru testarea diferenței dintre două medii: Analyze- Compare Means- Independent Sample T-Test.
Pasul 2:
Cu o probabilitate de 95% putem afirma că există diferențe semnificative între valoarea medie a salariului curent pentru angajații de gen feminin și valoarea medie a salariului curent pentru angajații de gen masculin (.
a) testarea diferenței dintre două (sau mai multe) proporții
Etape în realizarea testării diferenței dintre două (sau mai multe) proporții
Pasul 1:
Pentru testarea diferenței dintre două (sau mai multe) proporții: Analyze- Nonparametric Tests- Legacy Dialogs- Chi-square.
Pasul 2:
Cu o probabilitate de 95% putem afirma că proporția angajaților de gen feminin și proporția angajaților de gen masculin diferă semnificativ de proporțiile 40%,60%, (
Concluzii
În urma analizei efectuate putem spune că cel mai important factor de influență asupra variației salariului curent este salariul de început, influența celorlate variabile independente este mai mică, dar asta nu exclude faptul că intre variabilele independente și cea dependentă nu există legătură.
Bibliografie
Asandului, L., Metode statistice de analiza a datelor categoriale, WoltersKluwer, 2010
Jaba, E., Statistică, Editura Economică, București, 2002
Jaba, E., Grama, A., Analiza statistică cu SPSS sub Windows, Editura Polirom, Iași, 2005
Pintilescu, C., Analiza statistica multivariata, Editura Universitatii „Alexandru Ioan Cuza”, Iasi, 2007
Copyright Notice
© Licențiada.org respectă drepturile de proprietate intelectuală și așteaptă ca toți utilizatorii să facă același lucru. Dacă consideri că un conținut de pe site încalcă drepturile tale de autor, te rugăm să trimiți o notificare DMCA.
Acest articol: Analiza Legaturilor Statistice Intre Variabile (ID: 135824)
Dacă considerați că acest conținut vă încalcă drepturile de autor, vă rugăm să depuneți o cerere pe pagina noastră Copyright Takedown.
