Bs Partea1 Statistica Descriptiva (1) [619465]
3
PARTEA 1: STATISTICA DESCRIPTIVĂ
US1 – NOȚIUNI INTRODUCTIVE
Cuprins
1.1. Populație statistică
1.2. Eșantion
1.3. Unitate statistică
1.4. Variabilă statistică
1.5. Obiectivele statisticii descriptive
Rezumat
Acest capitol prezintă cele mai importante concepte folosite în analiza statistică:
populație, eșantion, variabile statistice, unități statistice. Pentru variabilele statistice sunt
prezentate criteriile de clasificare și tipurile acestora. Metodele de analiză statistică a datelor
diferă în funcție de natura variabilelor (cantitative sau calitative) și de tipul acestora (discrete
sau continue; nominale sau ordinale).
Bibliografie
1. Andrei, T., Statistică și econometrie, Ed. Economică, 2003.
2. Biji, E.M., Lilea, E., Roșca, E., Vătui, M., Statistică aplicată în economie, Editura
Universal Dalsi, 2000.
3. Jaba, E., Statistica, ed. a 3-a, Ed. Economică, București, 2002.
4
US1. NOȚIUNI INTRODUCTIVE
Termenul de “statistică” a evoluat din momentul în care a apărut pentru prima oară în
lucrarea lui Gottfried Achenwall, publicată în 1746, până în zilele noastre. În acea perioadă,
prin termenul de statistică se înțelegea un ansamblu de informații despre lucrurile remarcabile
cu privire la colectivitatea numită stat, expuse într-o anumită ordine. În prezent, prin statistică
se înțelege un ansamblu de metode folosite pentru culegerea, prezentarea și analiza datelor
înregistrate pentru o colectivitate statistică.
Principalele concepte fundamentale din statistică sunt populația statistică, eșantionul,
unitatea statistică și variabila statistică.
1.1. Populație statistică
DEFINIȚIE Populația statistică este obiectul studiului statisticii și reprezintă un
ansamblu de elemente omogene.
Omogenitatea este definită prin specificarea naturii calitative a elementelor, a timpului
și a spațiului de manifestare a acestora. Definirea corectă și completă a populației este
esențială pentru identificarea elementelor eligibile pentru observarea și analiza statistică.
Elementele componente ale unei populații statistice pot fi ființe, obiecte sau evenimente.
Volumul unei populații se notează cu N.
Exemplul 1.1. Definirea unei populații statistice
Populația României la 20 octombrie 2011, ora 0.00 este o populație statistică definită
prin cele trei dimensiuni: natura calitativă (persoane), spațiul de manifestare (România) și
timpul de manifestare (20 octombrie 2011, ora 0.00).
1.2. Eșantion
DEFINIȚIE Eșantionul este un sub -ansamblu de elemente extrase, după principii de
reprezentativitate, dintr -o populație statistică supusă studiului.
Volumul unui eșantion se notează cu n.
5
6
1.3 Unitate statistică
DEFINIȚIE Unitățile statistice reprezintă elementele componente ale unei populații
statistice de interes.
Aceste unități sunt purtătoare de informații care vor fi observate si înregistrate cu scopul
de a caracteriza populația din care provin.
Exemplul 1.2. Identificarea unităților statistice
Considerând populația României la 20 octombrie 2011, ora 0.00, unitatea statistică este
reprezentată de un locuitor.
1.4 Variabilă statistică
DEFINIȚIE Variabila statistică este o caracteristică, o însușire a unor unități statistice,
care înregistrează o anumită valoare, pentru fiecare unitate statistică
observată.
Exemplul 1.3. Variabile statistice
Dacă se consideră ansamblul firmelor din județul Iași care desfășoară activitate de
producție, variabilele statistice care pot reprezenta un interes pentru cercetarea statistică sunt:
valoarea vânzărilor, numărul de salariați, cifra de afaceri, mărimea firmei etc. Dacă se
consideră ansamblul studenților unei serii, variabilele statistice care pot fi supuse analizei
statistice sunt: vârsta studenților, sexul persoanei etc.
O variabilă statistică este notată cu X. Valorile sau variantele variabilei X se notează cu
xi. Din punct de vedere formal, avem:
m icux Xi , 1),( : .
Variabilele statistice pot fi clasificate, după modul de exprimare, în variabile numerice
și variabile nenumerice.
a. Variabile numerice sau cantitative
DEFINIȚIE Variabilele numerice sunt acele variabile pentru care valorile sunt
7
exprimate numeric.
Exemplul 1.4. Variabile numerice
Variabile numerice sunt: vârsta persoanelor, câștigul salarial, înălțimea etc.
După modul de manifestare a variației valorilor, variabilele numerice pot fi discrete sau
continue.
Variabilele discrete sunt acele variabile care nu pot lua decât valori finite din domeniul
de valori al variabilei.
Exemplul 1.5. Variabile discrete
Variabile discrete sunt: Numărul de angajați, Numărul de șomeri, Numărul de copii pe
familie etc.
Variabile continue sunt acele variabile care pot lua o infinitate de valori din domeniul
de
valori al variabilei.
Exemplul 1.6. Variabile continue
Variabile continue sunt: Înălțimea, Greutatea, Viteza etc.
b. Variabile nenumerice, calitative sau categoriale
DEFINIȚIE Variabilele nenumerice sunt acele variabile pentru care valorile sunt
exprimate prin cuvinte.
Exemplul 1.7. Variabile nenumerice
Variabile nenumerice sunt: sexul persoanei (masculin și feminin), starea civilă
(celibatar, căsătorit, văduv, divorțat), mediul de rezidență (urban, rural) etc.
Pentru analiza statistică, valorilor variabilei categoriale li se atribuie un cod numeric. De
exemplu, pentru variabila X, sexul persoanei , se pot atribui codurile: 1 pentru persoanele de
sex masculin și 2 pentru persoanele de sex feminin.
Variabilele categoriale pot fi nominale sau ordinale.
Variabilele nominale sunt acele variabile pentru care ordinea acordării codurilor nu are
un sens.
8
9
Exemplul 1.8. Variabile nominale
Pentru variabila X, mediul de rezidență , se pot acorda codurile 1 pentru varianta Urban
și 2 pentru varianta Rural, fără să se poată stabili o relație de ordine între aceste două valori.
Un caz particular al variabilelor nominale este reprezentat de variabilele alternative
(dichotomice sau dummy). Variabile le dichotomice sunt acele variabile care înregistrează
două valori.
Exemplul 1.9. Variabile alternative
Dacă se înregistrează rata șomajului în diferite țări ale Uniunii Europene se pot defini
două categorii de țări: o categorie formată din țările cu o rată a șomajului mai mică decât
nivelul mediu înregistrat pentru ansamblul țărilor UE și o categorie formată din țările cu o rată
a șomajului mai mare.
Variabilele ordinale sunt acele variabile pentru care există o relație de ordine între
unitățile din categoriile variabilei. Ordinea acordării codurilor diferitelor categorii ale
variabilei X are, în acest caz, un sens.
Exemplul 1.10. Variabile ordinale
Pentru variabila X, preferința pentru un produs , cu variantele Foarte bun , Bun, Nici
bun-nici rău , Foarte rău, R ău, ordinea acordării codurilor are un sens. Valorile variabilei X
sunt 1- Foarte bun, 2- Bun, 3- Nici bun-nici rău, 4 – Foarte rău, 5-Rău.
1.5. Obiectivele statisticii descriptive
Datele obținute în urma observării statistice sunt prelucrate cu ajutorul metodelor
statisticii descriptive și a statisticii inferențiale.
Statistica descriptivă are ca obiectiv prezentarea sintetică a datelor statistice, folosind
metode de reprezentare grafică și prin calculul diferiților indicatori statistici (indicatori ai
tendinței centrale, indicatori ai dispersiei, indicatori ai asimetriei și boltirii).
Statistica inferențială are ca obiectiv caracterizarea unei populații prin prelucrarea
datelor înregistrate pentru un eșantion extras din aceasta. Problemele statisticii inferențiale
sunt, astfel, estimarea parametrilor populației (a mediei, varianței și proporției) și testarea
ipotezelor statistice.
10
US2. ANALIZA UNEI SERII STATISTICE UNIVARIATE
Cuprins
2.1. Variabile cantitative
2.2. Variabile calitative
Rezumat
În acest capitol sunt prezentate metodele de analiză statistică univariată a datelor.
Analiza statistică univariată a datelor presupune caracterizarea unor unități statistice după
variația unei variabile statistice (cantitative sau calitative). Caracterizarea sintetică a acestor
unități statistice se poate realiza prin calculul indicatorilor statisticii descriptive (indicatori ai
tendinței centrale, indicatori ai dispersiei și indicatori ai formei) și prin reprezentarea grafică a
seriei de date. Prezentarea acestor metode de analiză descriptivă a datelor este realizată pe
tipuri de variabile (cantitative sau calitative).
Bibliografie
Andrei, T., Statistică și econometrie, Ed. Economică, 2003.
Jaba, E., Statistica, ed. a 3-a, Ed. Economică, București, 2002.
James T. McClave, P. George Benson, Terry Sincich, Statistics for Business and Economics ,
Pearson, Education New Jersey , 2008
Weiss, N, A., Elementary Statistics , Pearson, 2012
Wonnacott, H., Wonnacott, T., Statistiques, Economica, Paris, 1991.
11
Analiza statistică descriptivă a unei variabile cantitative sau calitative poate fi realizată
grafic și numeric, prin calculul indicatorilor statisticii descriptive. Graficele care pot fi folosite
pentru un set de date și indicatorii statistici care pot fi calculați depind de natura variabilelor
(cantitative sau calitative).
2.1. Variabile cantitative
Variabilele cantitative pot fi variabile cantitative discrete și continue.
2.1.1 Variabile cantitative discrete
O prezentare sintetică a valorilor unei variabile statistice discrete poate fi realizată prin
structurarea datelor într-o serie (distribuție) statistică, prin calculul indicatorilor statisticii
descriptive și prin reprezentarea grafică a seriei.
a. Structurarea datelor statistice
Structurarea datelor corespunzătoare unei variabile statistice discrete presupune
gruparea observațiilor sau unităților statistice pe valori ale variabilei statistice X într-un tabel
de date. Acest tabel prezintă valorile xi ale variabilei statistice și frecvența de apariție a
fiecărei valori (de câte ori apare o valoare distinctă xi). Tabelul acestor date grupate
reprezintă o serie statistică sau distribuția de frecvență a unităților statistice observate pe
valori ale variabilei X.
Pentru formarea unei serii statistice se pot folosi frecvențe absolute (n i) sau frecvențe
relative (f i).
a.1. Distribuția de frecvență
DEFINIȚIE Distribuția de frecvență este reprezentată de tabelul valorilor variabilei X și
a frecvenței de apariție a acestor valori (n i)
Pentru formarea distribuției de frecvențe, se parcurg următoarele etape :
1. Se ordonează crescător valorile xi ale variabilei X și se trec în această ordine în prima
coloană a tabelului.
12
2. Pentru fiecare valoare xi, se determină frecvența de apariție (se numără de câte ori
apare această valoare în setul de date). Rezultatul acestor numărări se trec în a doua
coloană a tabelului.
Forma generală a distribuției de frecvențe este prezentată în tabelul de mai jos :
Tabelul 2.1. Distribuția de frecvență a unei variabile cantitative discrete
Valori ale variabilei (x i) Frecvența de apariție a fiecărei valori (n i)
x1 n1
x2 n2
xi ni
xm nm
TOTAL
Frecvența de apariție a unei valori a variabilei X se mai numește frecvență absolută de
apariție (n i). Suma acestor frecvențe absolute este volumul eșantionului (n).
Exemplul 2.1. Distribuția de frecvență a unei variabile cantitative discrete
În urma Recensământului populației și al locuințelor din România care a avut loc în
anul 2011, Institutul Național de Statistică a publicat rezultatele numărului de persoane dintr- o
gospodărie (sau familie). Pentru un eșantion de familii din orașul Iași, s-au obținut
următoarele rezultate privind numărul de membri/familie:
3 4 2 3 3 2 4
2 3 3 3 4 6 4
5 4 4 3 3 4 5
4 4 4 2 3 3 3
Să se grupeze datele de mai sus într-o distribuție de frecvență.
Rezolvare
Pentru formarea distribuției de frecvență, se parcurg următoarele etape:
1. Se ordonează crescător valorile variabilei X : 2, 3, 4, 5, 6.
2. Aceste valori se trec în prima coloană a unui tabel (Tabelul 2.2).
13
3. Pentru fiecare valoare a numărului de membri dintr-o familie, se numără familiile care
înregistrează acest număr de membri. De exemplu, numărul de familii care au 2
membri ( x1=2) este 4 ( n1=4). Aceste rezultate se trec în a doua coloană a Tabelului
2.2.
Tabelul 2.2. Distribuția familiilor după numărul de membri
Număr membri (x i) Numărarea familiilor în funcție de
numărul de membri Număr familii (n i)
2 …. 4
3 ………… 11
4 ………. 10
5 .. 2
6 . 1
TOTAL n=28
Interpretare: Din cele 28 de familii observate, 4 familii au câte 2 membri, 11 familii au 3
membri etc.
a.2. Distribuția frecvențelor relative
Formarea distribuției frecvențelor relative presupune calculul ponderii unităților
statistice pe valori xi ale variabilei X. Frecvența relativă, notată cu fi, reprezintă raportul dintre
frecvența absolută și numărul total de observații (suma frecvențelor absolute). Aceasta se
calculează astfel :
nn
nnfi
iii
i
Frecvența relativă poate fi exprimată în procente și, în acest caz, aceasta se calculeaz ă
astfel :
100 100 nn
nnfi
iii
i
DEFINIȚIE Distribuția frecvențelor relative este reprezentată de tabelul valorilor
variabilei X și a frecvenței relative de apariție a acestor valori (f i).
Pentru formarea distribuției frecvențelor relative, se parcurg următoarele etape :
1. Se formează distribuția de frecvență a variabilei X (folosind frecvențele absolute).
14
2. Se împarte fiecare frecvență absolută la numărul total de observații (se calculează
frecvențele relative pentru fiecare valoare xi).
Forma generală a distribuției frecvențelor relative este prezentată în tabelul de mai jos :
Tabelul 2.3. Distribuția frecvențelor relative ale unei variabile cantitative discrete
Valori ale variabilei (x i) Frecvența relativă (f i)
x1 f1
x2 f2
xi fi
xm fm
TOTAL
Suma frecvențelor relative este 1 sau 100, atunci când datele se exprimă în procente.
Exemplul 2.2. Distribuția frecvențelor relative ale unei variabile cantitative discrete
Să se formeze distribuția frecvențelor relative pentru datele prezentate în Tabelul 2.2 .
Rezolvare
1. Distribuția de frecvență a numărului de familii în funcție de numărul de membri pe
familie este cea prezentată în Tabelul 2.2 .
2. Se calculează frecvențele relative prin împărțirea fiecărei frecvențe absolute (din
coloana a doua a Tabelului 2.4 ) la suma lor. Rezultatele obținute se prezintă astfel :
Tabelul 2.4. Distribuția ponderii familiilor după numărul de membri
Număr membri (x i) Frecvențe absolute (n i) Frecvențe relative (f i) Mod de calul
2 4 0.143 4/28
3 11 0.393 11/28
4 10 0.357 10/28
5 2 0.071 2/28
6 1 0.036 1/28
TOTAL 28 1
15
Interpretare: Din cele 28 de familii observate, 14,3% dintre familii au câte 2 membri, 39,3%
familii au 3 membri etc.
Observații:
– Pentru compararea mai multor distribuții de frecvență, se recomandă folosirea
frecvențelor relative. Frecvențele relative variază între 0 și 1 (sau 100) și oferă o
măsură similară de comparație (fac datele comparabile).
– Distribuția de frecvență a unei variabile folosind frecvențe relative este similară
distribuției de frecvență folosind frecvențe absolute. Distribuția frecvențelor relative
reflectă însă mai bine structura unui eșantion pe valori ale unei variabile. În exemplul
dat, distribuția eșantionului de familii din orașul Iași folosind frecvențe absolute și
relative poate fi prezentată astfel :
Tabelul 2.5. Distribuția familiilor după numărul de membri, folosind frecvențe absolute și relative
Număr membri (x i) Număr familii (n i) Ponderea familiilor (f i)
2 4 14,3
3 11 39,3
4 10 35,7
5 2 7,1
6 1 3,6
TOTAL n=28 100
Rezultatele din tabelul de mai sus arată că 4 familii, care reprezintă 14,3% din numărul
total de familii, înregistrează 2 membri. Cele 11 familii, care reprezintă 39,3% dintre familii,
au câte 3 membri ș.a.m.d.
a.3. Distribuția frecvențelor absolute cumulate
Folosind frecvențele absolute, ni, se pot afla unitățile statistice (efectivele) care
înregistrează valori mai mici sau egale decât un anumit nivel xi al variabilei (care au valori cel
mult egale cu valoarea xi) sau care înregistrează valori mai mari sau egale decât un nivel xi al
variabilei (care au valori cel puțin egale cu valoarea xi). Aceste frecvențe sunt frecvențele
absolute cumulate crescător ( Ni↓) sau descrescător ( Ni↑).
a.3.1 Frecvențele absolute cumulate crescător (N i↓)
16
DEFINIȚIE Frecvențele absolute cumulate crescător (N i↓) arată numărul de unități
statistice (efectivele) care înregistrează valori mai mici sau egale decât un
anumit nivel x i al variabilei X.
Frecvențele absolute cumulate crescător ( Ni↓) se calculează după relația :
i
hh i i i n n N N
11
Exemplul 2.3. Calculul frecvențelor absolute cumulate crescător
Se consideră distribuția familiilor după numărul de membri pe familie prezentată
astfel :
Tabelul 2.6. Distribuția familiilor după numărul de membri
Număr membri (x i) Număr familii (n i)
2 4
3 11
4 10
5 2
6 1
TOTAL n=28
Să se calculeze frecvențele absolute cumulate crescător.
Rezolvare
– prima frecvență N1↓ este reprezentată de numărul de familii care au 2 membri,
respectiv de frecvența absolută n 1. Deci, N1↓=4.
– a doua frecvență cumulată presupune însumarea la cele 4 familii care au 2 membri pe
cele care au 3 membri, adică 11 familii. Obținem astfel : N2↓=4+11=15 familii.
– a treia frecvență cumulată presupune însumarea la cele 15 familii care au 2 și 3
membri pe cele care au 4 membri, respectiv : N3↓=15+10=25 familii sau
N3↓=4+11+10=25 familii.
Acest demers continuă până se cumulează toate efectivele din eșantion.
Rezultatele obținute pot fi centralizate într-un tabel de forma :
17
Tabelul 2.7. Distribuția familiilor după numărul de membri
Număr membri (x i) Număr familii (n i) Ni↓ Mod de calcul
2 4 4 4
3 11 15 4+11
4 10 25 15+10 sau 4+11+10
5 2 27 25+2 sau 4+11+10+2
6 1 28 27+1 sau 4+11+10+2+1
TOTAL n=28 –
Interpretare: Din numărul total de familii observate, 4 familii au 2 membri, 15 familii au cel
mult 3 membri, 25 de familii au cel mult 4 membri etc.
Observație: Frecvențele absolute cumulate crescător arată efectivele care înregistrează valori
mai mici sau egale decât un anumit nivel xi al variabilei. De exemplu, 15 familii au cel mult 3
membri (inclusiv 3 membri), 25 de familii au cel mult 4 membri (inclusiv 4 membri) etc.
a.3.2. Frecvențele absolute cumulate descrescător (N i↑)
DEFINIȚIE Frecvențele absolute cumulate descrescător (N i↑) arată numărul de u nități
statistice (efectivele) care înregistrează valori mai mari sau egale decât un
anumit nivel x i al variabilei X.
Frecvențele absolute cumulate descrescător ( Ni↑) se calculează după relația :
m
i hh i i i n n N N1
Exemplul 2.4. Calculul frecvențelor absolute cumulate descrescător
Se consideră distribuția familiilor după numărul de membri pe familie prezentată astfel :
18
Tabelul 2.8. Distribuția familiilor după numărul de membri
Număr membri
(xi) Număr familii
(ni)
2 4
3 11
4 10
5 2
6 1
TOTAL n=28
Să se calculeze frecvențele absolute cumulate descrescător.
Rezolvare
În cazul frecvențelor cumulate descrescător, însumarea frecvențelor se face « de jos în
sus», adică de la ultima frecvență până la prima frecvență.
Frecvențele absolute cumulate descrescător se calculează astfel :
– ultima frecvență N5↑ este reprezentată de numărul de familii care au 6 membri. Deci,
N5↑=6.
– următoarea frecvență, N4↑, presupune însumarea la cele 6 familii, care au 1 membru,
pe cele 2 familii care au 5 membri. Obținem astfel : N4↑=1+2=3 familii.
– a treia frecvență cumulată presupune însumarea la cele 3 familii care au 5 și 6 membri
pe cele care au 4 membri, respectiv : N3↓=1+2+10=13 familii.
Acest demers continuă până se cumulează toate efectivele din eșantion.
Rezultatele obținute pot fi centralizate într-un tabel de forma :
Tabelul 2.9. Distribuția familiilor după numărul de membri
Număr membri (x i) Număr familii (n i) Ni↑ Mod de calcul
2 4 28 24+4 sau 1+2+10+11+4
3 11 24 13+11 sau 1+2+10+11
4 10 13 3+10 sau 1+2+10
5 2 3 1+2
6 1 1 1
TOTAL n=28 –
19
Interpretare: Din numărul total de familii observate, o familie are cel puțin 6 membri, 3
familii au cel puțin 5 membri, 13 de familii au cel puțin 4 membri etc.
Observații:
– Frecvențele absolute cumulate descrescător arată efectivele care înregistrează valori
mai mari sau egale decât un anumit nivel xi al variabilei. De exemplu, 3 familii au cel
puțin 5 membri (inclusiv 5 membri), 13 familii au cel puțin 4 membri (inclusiv 4
membri) etc.
– Frecvențele absolute cumulate descrescător pot fi calculate și scăzând din numărul
total de familii pe cele care au 2 membri, apoi pe cele care au 3 membri ș.a.m.d. De
exemplu, din cele 28 de familii care au 2 membri, 24 de familii (adică 28 – 4 = 24) au
c
el puțin 3 membri, 13 familii (adică 24-11=13) au cel puțin 4 membri etc.
a.3.3. Distribuția frecvențelor absolute cumulate crescător (N i↓) și descrescător (Ni↑)
Folosind frecvențele absolute cumulate crescător și descrescător se poate forma
distribuția frecvențelor cumulate.
DEFINIȚI E Distribuția frecvențelor cumulate este formată din valorile x i ale variabilei X
și frecvențele absolute cumulate crescător și descrescător asociate acestora.
Forma generală a distribuției frecvențelor absolute cumulate crescător și descrescător se
prezintă astfel:
Tabelul 2.10. Distribuția frecvențelor absolute cumulate crescător și descrescător
ale unei variabile cantitative discrete
Valori ale
variabilei (xi) Frecvența
absolută (ni) Frecvența absolută
cumulată crescător (Ni↓) Frecvența absolută cumul ată
descrescător (Ni↑)
x1 n1 N1↓ N1↑= N2↑+n1=n
x2 n2 N2↓= N1↓+n2 N2↑=N3↑+n2
xi ni Ni↓ =Ni-1↓+ni Ni↑= Ni+1↑+ni
xm nm Nm↓=Nm-1↓+nm=n Nm↑=nm
TOTAL
a.4. Distribuția frecvențelor relative cumulate
20
În mod similar, folosind frecvențele relative ( fi), se poate afla ponderea unităților
statistice (ponderea efectivelor) care înregistrează valori mai mici sau egale decât un anumit
nivel xi al variabilei, respectiv valori mai mari sau egale decât un nivel xi al variabilei X.
Aceste frecvențe sunt frecvențele relative cumulate crescător ( Fi↓) sau descrescător ( Fi↑).
a.4.1. Frecvențele relative cumulate crescător (F i↓) și descrescător (F i↑)
DEFINIȚIE Frecvențele relative cumulate crescător (F i↓) și descrescător (F i↑) arată
ponderea unități lor statistice (ponderea efectivelor) care înregistrează valori
mai mici sau egale decât un anumit nivel x i al variabilei X, respectiv mai
mari sau egale decât un anumit nivel x i al variabilei X.
Frecvențele relative cumulate crescător (F i↓) se calculează după relația :
i
hh i i i f f F F
11
, cu
nnfi
i sau
100 nnfi
i .
Frecvențele relative cumulate descrescător (F i↑) se calculează după relația :
m
i hh i i i f f F F1
Exemplul 2.5. Calculul frecvențelor relative cumulate crescător și descrescător
Se consideră distribuția familiilor după numărul de membri pe familie prezentată astfel :
Tabelul 2.11. Distribuția familiilor după numărul de membri
Număr membri (x i) Număr familii (n i) Ponderea familiilor (f i)
2 4 14,3
3 11 39,3
4 10 35,7
5 2 7,1
6 1 3,6
TOTAL n=28 100
Să se calculeze frecvențele relative cumulate crescător și descrescător.
21
Rezolvare
Frecvențele relative cumulate crescător se află astfel:
– prima frecvență F1↓ este reprezentată de ponderea familiilor care au 2 membri,
respectiv de frecvența relativă f1. Deci, F1↓=14,3%.
– a doua frecvență relativă cumulată presupune însumarea ponderii familiilor care au 2
membri (14,3%) cu cele care au 3 membri (39,3%). Obținem astfel :
F2↓=14,3%+39,3%=53,6%.
Acest demers continuă până se cumulează toate frecvențele relative din eșantion.
Rezultatele obținute pot fi centralizate într-un tabel de forma :
Tabelul 2.12. Distribuția ponderii familiilor după numărul de membri
Număr membri (x i) Ponderea familiilor (f i) Fi↓ Mod de calc ul
2 14,3 14,3 14,3
3 39,3 53,6 14,3+39,3
4 35,7 89,3 53,6+35,7 sau 14,3+39,3+35,7
5 7,1 96,4 89,3+7,1 sau 14,3+39,3+35,7+7,1
6 3,6 100,0 96,4+3,6 sau 14,3+39,3+35,7+7,1+3,6
TOTAL 100 –
Interpretare: Din numărul total de familii observate, 14,3% au 2 membri, 53,6% au cel mult
3 membri, 89,3% au cel mult 4 membri etc.
Frecvențele relative cumulate descrescător se află astfel:
– ultima frecvență F5↑ este reprezentată de ponderea familiilor care au 6 membri. Deci,
F5↑=3,6%.
– următoarea frecvență, F4↑, presupune însumarea ponderii familiilor care au 6 membri
(3,6%) și 5 membri (7,1%). Obținem astfel : F4↑=3,6+7,1=10,7%.
Acest demers continuă până se cumulează toate frecvențele relative din eșantion.
Rezultatele obținute pot fi centralizate într-un tabel de forma :
22
Tabelul 2.13. Distribuția familiilor după numărul de membri
Număr membri (x i) Ponderea familiilor (f i) Fi↑ Mod de calul
2 14,3 100 85,7+14,3 sau 3,6+7,1+35,7+39,3+14,3
3 39,3 85,7 46,4+39,3 sau 3,6+7,1+35,7+39,3
4 35,7 46,4 10,7+35,7 sau 3, 6+7,1+35,7
5 7,1 10,7 3,6+7,1
6 3,6 3,6 3,6
TOTAL 100 –
Interpretare: Din numărul total de familii observate, 3,6% au cel puțin 6 membri, 10,7% au
cel puțin 5 membri, 46,4% au cel puțin 4 membri etc.
a.4.2. Distribuția frecvențelor relative cumulate crescător (F i↓) și descrescător (Fi↑)
Folosind frecvențele relative cumulate crescător și descrescător se poate forma
distribuția frecvențelor relative cumulate.
DEFINIȚIE Distribuția frecvențelor relative cumulate este formată din valorile x i ale
variabilei X și frecvențele relative cumulate crescător (F i↓) și descrescător
(Fi↑) asociate acestora.
Forma generală a distribuției frecvențelor relative cumulate crescător și descrescător se
prezintă astfel :
23
Tabelul 2.14. Distribuția frecvențelor relative cumulate crescător și descrescător ale unei variabile
cantitative discrete
Valori ale
variabilei
(xi) Frecvența
absolută
(ni) Frecvența relativă
(fi) Frecvența relativă
cumulată crescător
(Fi↓) Frecvența relativă
cumulată descrescător
(Fi↑)
x1 n1 f1 F1↓ F1↑= F2↑+f1=1
x2 n2 f2 F2↓= F1↓+f2 F2↑=F3↑+f2
xi ni fi Fi↓ =Fi-1↓+fi Fi↑= Fi+1↑+fi
xm nm fm Fm↓=Fm-1↓+fm=1 sau
100 Fm↑=fm
TOTAL
m
iisau f
1100 1
Observații:
– În mod similar distribuțiilor de frecvențe, pentru a înțelege repartizarea efectivelor pe
valori ale unei variabile, se recomandă folosirea frecvențelor relative. Pentru exemplul
anterior, prezentarea frecvențelor absolute și relative cumulate este realizată astfel :
Tabelul 2.15. Distribuția familiilor după numărul de membri
Număr membri (x i) Număr familii (n i) Ponderea familiilor (f i) Ni↓ Ni↑ Fi↓ Fi↑
2 4 14,3 4 28 14,3 100
3 11 39,3 15 24 53,6 85,7
4 10 35,7 25 13 89,3 46,4
5 2 7,1 27 3 96,4 10,7
6 1 3,6 28 1 100,0 3,6
TOTAL n=28 100 – – – –
Rezultatele din tabelul de mai sus arată că 15 familii ( N2↓), care reprezintă 53,6% din
numărul total de familii ( F2↓), au cel mult 3 membri. În același timp, 13 familii ( N3↑), care
reprezintă 46,4% din numărul total de familii ( F3↑), au cel puțin 4 membri.
24
b. Indicatori ai statististicii descriptive
Analiza unei variabile cantitative discrete poate fi realizată prin calculul unor indicatori
statistici sintetici, care pot fi grupați în indicatori ai tendinței centrale (mărimi medii),
indicatori ai dispersiei și indicatori ai formei (asimetriei și boltirii).
b.1. Indicatori ai tendinței centrale (mărimi medii)
Mediile sunt acele valori în jurul cărora se repartizează efectivele unui eșantion. Cele
mai importante mărimi medii sunt media (
x ), modul ( Mo) și mediana ( Me).
b.1.1. Media
Cel mai cunoscut indicator al tendinței centrale este reprezentat de media aritmetică a
unei variabile (
x ).
DEFINIȚIE Media unei variabile reprezintă media aritmetică a valorilor x i ale
variabilei, respectiv suma valorilor x i împărțită la numărul de observații.
Media se calculează astfel:
nx
xii
.
Exemplu 2.6. Media simplă a unei variabile cantitative discrete
Salariile lunare (sute lei) înregistrate pentru un eșantion format din 10 salariați ai unei
firme se prezintă astfel:
10 12 15 20 15
23 28 18 19 10
Să se calculeze media.
Rezolvare
Media variabilei este
171010…15 12 10
nx
xii sute lei.
25
Interpretare: Salariul mediu lunar înregistrat de angajații firmei este de 17 sute lei.
În cazul unor date prezentate într-o distribuție de frecvență, media se calculează ca o
medie ponderată, după relația :
nn x
nn x
xii i
iiii i
Folosind frecvențe relative, media se calculează astfel:
ii if x x
, cu
nn
nnfi
iii
i
Exemplul 2.7. Media ponderată a unei variabile cantitative discrete folosind frecvențe
absolute
Distribuția unor familii din municipiul Iași după numărul de membri se prezintă astfel :
Tabelul 2.16. Distribuția familiilor după numărul de membri
Număr mem bri (xi) Număr familii (n i)
2 4
3 11
4 10
5 2
6 1
TOTAL n=28
Să se calculeze numărul mediu de membri pe familie.
Rezolvare
Pentru aflarea mediei, trebuie parcurse următoarele etape :
– se calculează produsele
i in x . Aceste produse sunt prezentate în tabelul de mai jos :
Tabelul 2.17. Calculul produselor
i in x
Număr membri (x i) Număr familii (n i)
i in x
2 4 8
3 11 33
4 10 40
5 2 10
6 1 6
26
TOTAL n=28
– se calculează suma acestor produse:
ii in x =8+33+40+10+6=97;
– se calculează media ca raport între suma acestor produse și numărul total de
observații:
464, 32897
28610 40 33 8
281 6…113 4 2
iiii i
nn x
x
Interpretare: Numărul mediu de membri pe familie este de 3,464 ~ 3 membri.
Exemplul 2.8. Media ponderată a unei variabile cantitative discrete folosind frecvențe
relative
Managerul unei firme înregistrează vechimea în muncă pentru angajații săi și obține
următoarele rezultate :
Tabelul 2.18. Distribuția angajaților unei firme după vechimea în muncă
Vechime în muncă (ani) Ponderea angajaților (%)
1 15
2 10
3 29
4 16
5 20
6 10
TOTAL 100
Să se calculeze vechimea medie a angajaților firmei.
Rezolvare
Pentru aflarea mediei folosind frecvențele relative, trebuie parcurse următoarele etape :
– se calculează produsele
i if x , cu
iii
innf . Aceste produse sunt prezentate în
tabelul de mai jos :
27
Tabelul 2.19. Calculul produselor
i if x
Vechime în muncă (ani) Ponderea angajaților fi
i if x
1 15 0,15 0,15
2 10 0,10 0,20
3 29 0,29 0,87
4 16 0,16 0,64
5 20 0,20 1,00
6 10 0,10 0,60
TOTAL 100 1 3,46
– media este reprezentată de suma produselor
i if x :
46, 360, 0 164, 087, 020, 015, 0
ii if x x
;
Interpretare: Vechimea medie în muncă pentru angajații firmei este de e 3,46 ~ 3 ani.
Observație: Media este sensibilă la prezența valorilor extreme ( outliers). Valorile extreme
sunt valori diferite (foarte mari sau foarte mici) față de ansamblul tuturor celorlalte valori. Dat
fiind modul de calcul al mediei, aceste valori pot influența în mod semnificativ media.
Exemplu 2.9. Media în cazul unei serii cu valori extreme
Pentru un eșantion de persoane, se înregistrează venitul anual (mii lei) și se obțin
următoarele rezultate: 24, 30, 29, 32, 5000.
Venitul mediu anual este
102355000 32 29 30 24
nx
xii mii lei. Se observă
că valoarea extremă, x5=5000, are o influență importantă asupra mediei.
În această situație, se recomandă fie calculul mediei fără această valoare, fie folosirea
altei mărimi medii pentru aprecierea tendinței centrale. Pentru exemplul dat, venitul mediu
anual calculat fără includerea acestei valori extreme este :
75,28432 29 30 24
nx
xii
mii lei.
Această medie este mai reprezentativă pentru eșantionul observat.
28
b.1.2. Modul
A doua mărime medie prin care poate fi apreciată tendința centrală este modul ( Mo).
DEFINIȚIE Modul este acea valoare a variabilei cel mai frecvent observată într -o
distribuție.
Pentru aflarea modului, trebuie identificată frecvența de apariție a fiecărei valori:
– dacă nicio valoare xi nu are o frecvență mai mare decât unu, atunci seria nu prezintă mod.
– dacă frecvențele de apariție sunt diferite, atunci valoarea care corespunde frecvenței
maxime este modul. Dacă sunt mai multe valori care corespund acestei frecvențe maxime,
atunci seria are mai multe valori modale (este o serie pluri-modală).
Exemplul 2.10. Modul în cazul unei serii simple
Se consideră numărul de zile de absență de la locul de muncă înregistrate într-un an
pentru un eșantion de persoane și se obțin următoarele rezultate: 3, 5, 3, 6, 1, 4. Să se afle
modul.
Rezolvare
Pentru aflarea modului, se parcurg următoarele etape:
– se află frecvența de apariție a fiecărei valori: valoarea xi=3 apare de 2 ori în șirul de
date, deci frecvența de apariție este ni=2. Pentru toate celelalte valori, frecvența de
apariție este egală cu unu.
– valoarea care corespunde frecvenței celei mai mari, adică xi=3, este modul. Deci,
Mo=3 zile.
Interpretare: Cei mai mulți salariați din eșantionul observat au lipsit 3 zile de la locul de
muncă.
Exemplul 2.11. Modul în cazul unei serii bimodale
Se consideră numărul de ore alocate zilnic studiului pentru un eșantion de persoane și se
obțin următoarele rezultate: 2, 3, 4, 3, 4, 5. Să se afle modul.
29
Rezolvare
Se observă că valorile 3 și 4 apar fiecare de 2 ori în șirul de date, aceasta fiind frecvența
de apariție cea mai mare. Seria dată are deci 2 valori modale: x1=3 și x2=4.
Interpretare: Cele mai multe persoane din eșantionul observat alocă pentru studiu 3 și 4 ore
în fiecare zi.
Exemplul 2.12. Modul pentru o distribuție de frecvențe
Distribuția unor familii din orașul Iași după numărul de membri se prezintă astfel :
Tabelul 2.20. Distribuția familiilor după numărul de membri
Număr membri (x i) Număr familii (n i)
2 4
3 11
4 10
5 2
6 1
TOTAL n=28
Să se afle modul.
Rezolvare
Frecvența cea mai mare pentru distribuția dată este ni=11. În dreptul acestei valori, se
citește valoarea xi corespunzătoare, respectiv xi=3, iar această valoare este modul. Deci,
Mo=3 membri.
Interpretare: Cele mai multe familii din eșantionul observat au câte 3 membri.
Exemplul 2.13. Modul pentru o distribuție de frecvențe relative
Managerul unei firme înregistrează vechimea în muncă pentru angajații săi și obține
următoarele rezultate :
30
Tabelul 2.21. Distribuția angajaților unei firme după vechimea în muncă
Vechime în muncă (ani) Ponderea angajaților (%)
1 15
2 10
3 29
4 16
5 20
6 10
TOTAL 100
Să se afle modul.
Rezolvare
Frecvența cea mai mare pentru distribuția dată este fi=29%. În dreptul acestei valori se
citește valoarea modului : Mo=3 ani.
Interpretare: Cei mai mulți salariați au o vechime de 3 ani.
b.1.3. Mediana
Cea de-a treia mărime medie prin care poate fi apreciată tendința centrală este mediana
(Me).
DEFINIȚIE Mediana este valoarea unei variabi le care împarte efectivele unui eșantion
în 2 părți: 50% din efective au valori mai mici sau egale decât mediana, iar
50% au valori mai mari sau egale decât mediana. Mediana corespunde
locului unității medianei dintr -un set de date, și anume:
.21nUMe
Pentru aflarea medianei, șirul de date se ordonează în sens crescător. După aceasta, în
funcție de tipul seriei mediana se află astfel:
– dacă seria are un număr impar de termeni, mediana este termenul central al seriei;
– dacă seria are un număr par de termeni, mediana este media aritmetică a celor 2
termeni centrali ai seriei;
31
– dacă seria este prezentată sub forma unei distribuții de frecvențe, atunci mediana este
valoarea xi care se citește în dreptul primei valori
Me
iU N .
Exemplul 2.14. Mediana pentru o serie cu număr impar de termeni
Se consideră numărul de zile de absență de la locul de muncă înregistrate într-un an
pentru un eșantion de persoane și se obțin următoarele rezultate: 3, 5, 4, 2, 1. Să se afle
mediana.
Rezolvare
Pentru aflarea medianei, se parcurg următoarele etape:
– se ordonează seria în sens crescător: 1, 2, 3, 4, 5.
– mediana este termenul central al acestei serii ordonate crescător, și anume: Me=3.
– mediana corespunde astfel locului unității mediane,
321 5MeU , adică este a treia
valoare a șirului de date ordonat crescător: 1, 2, 3, 4, 5.
Interpretare: 50% dintre salariații din eșantionul observat au lipsit cel mult 3 zile de la locul
de muncă, iar 50% au lipsit cel puțin 3 zile.
Exemplul 2.15. Mediana pentru o serie cu număr par de termeni
Se consideră salariul (euro/oră) înregistrat pentru un eșantion de persoane și se obțin
următoarele rezultate: 5, 7, 6, 5, 8, 4. Să se afle mediana.
Rezolvare
Pentru aflarea medianei, se parcurg următoarele etape:
– se ordonează seria în sens crescător: 4, 5, 5, 6, 7, 8.
– mediana este media celor 2 termeni centrali al acestei serii ordonate crescător, și
anume:
5 , 526 5Me euro/oră.
– mediana corespunde astfel locului unității mediane,
5 , 321 6MeU , adică este între
a treia și a patra valoare a șirului de date ordonat crescător: 4, 5, 5, 6, 7, 8.
Interpretare: 50% dintre salariații din eșantionul observat au un salariu de cel mult 5,5
euro/oră, iar 50% au cel puțin 5,5 euro/oră.
32
Exemplul 2.16. Mediana pentru o distribuție de frecvență
Distribuția unor familii după numărul de membri se prezintă astfel :
Tabelul 2.22. Distribuția familiilor după numărul de membri
Număr membri (x i) Număr familii (n i)
2 4
3 11
4 10
5 2
6 1
TOTAL n=28
Să se afle mediana.
Rezolvare
Pentru aflarea medianei, trebuie parcurse următoarele etape:
– se calculează unitatea mediană:
5 ,142128MeU ;
– se calculează frecvențele absolute cumulate crescător, Ni↓. Acestea sunt prezentate în
tabelul de mai jos:
Tabelul 2.23. Distribuția familiilor după numărul de membri
Număr membri (x i) Număr familii (n i) Ni↓
2 4 4
3 11 15
4 10 25
5 2 27
6 1 28
TOTAL n=28 –
– prima valoare
Me
iU N este
) 5 ,14( )15( Me
i U N . În dreptul acestei valori se
citește mediana : Me=3.
Interpretare: 50% dintre familiile din eșantionul observat au cel mult 3 membri, iar 50% au
cel puțin 3 membri.
33
Observație: Mediana este o mărime medie care nu este influențată de valorile extreme (este o
mărime medie „stabilă” față de influența unor valori extreme).
Exemplul 2.17. Mediana în cazul unei serii cu valori extreme
În exemplul 2.9, am considerat venitul anual (mii lei) pentru un eșantion de persoane și
am obținut următoarele rezultate: 24, 30, 29, 32, 5000.
Pentru această serie de date, media este
1023x mii lei, iar mediana este Me=30 mii
lei. Se observă astfel că mediana nu este influențată de valoarea extremă, x5=5000. În această
situație, se recomandă folosirea medianei ca indicator al tendinței centrale, în locul mediei.
b.1.4. Compararea celor 3 mărimi medii
Cele 3 mărimi medii, media, modul și mediana, au de cele mai multe ori valori diferite
pentru aceeași distribuție. Analiza lor comparativă permite cunoașterea eșantionului observat
și aprecierea omogenității sale.
De exemplu, analiza PIB real al țărilor din Uniunea Europeană înregistrat în anul 2013
(euro/locuitor) duce la obținerea următoarelor rezultate:
21292x euro/loc., Me=15750
euro/loc. Diferențele mari între nivelurile mediei și medianei evidențiază disparități
importante între țările UE din punctul de vedere al PIB/loc.
În general, cu cât diferențele dintre medie, mod și mediană sunt mai mari, cu atât
diferențele dintre unitățile statistice sunt mai mari, din punctul de vedere al variabilelor
înregistrate.
b.1.5. Quantile
Quantilele sunt valori ale variabilei care împart efectivele unui eșantion în mai multe
părți egale. Cele mai importante quantile sunt quartilele și decilele.
1. Quartilele
Quartilele sunt valori ale variabilei care împart efectivele din eșantion în 4 părți egale. O
distribuție are 3 quartile:
34
– Quartila una ( Q1) este valoarea pentru care 25% dintre unități înregistrează valori mai
mici decât Q1 și 75% înregistrează valori mai mari decât Q1. Quartila unu corespunde
locului unității quartilice unu calculate astfel:
411nUQ .
– Quartila doi ( Q2) este mediana și arată valoarea pentru care 50% din efective
înregistrează valori mai mici decât mediana și 50% înregistrează valori mai mari decât
mediana.
– Quartila trei ( Q3) este valoarea pentru care 75% dintre unități înregistrează valori mai
mici decât Q3 și 25% înregistrează valori mai mari decât Q3. Quartila trei corespunde
locului unității quartilice trei calculate astfel:
4) 1 ( 33nUQ .
Exemplul 2.18. Aflarea quartilelor pentru o serie cu număr impar de termeni
Se consideră numărul de zile de absență de la locul de muncă înregistrate într-un an
pentru un eșantion de persoane și se obțin următoarele rezultate: 3, 5, 4, 2, 1. Să se afle cele 3
quartile.
Rezolvare
Quartila unu
Pentru aflarea quartilei unu, se parcurg următoarele etape:
– se ordonează seria în sens crescător: 1, 2, 3, 4, 5.
– quartila unu corespunde locului unității quartilice unu,
5 , 141 51QU , adică este
între prima și a treia valoare a șirului de date ordonat crescător: 1, 2, 3, 4, 5. Quartila
unu este deci media primilor 2 termeni ai seriei :
5 , 122 1
1Q .
Interpretare: 25% dintre salariații din eșantionul observat au lipsit cel mult 1,5~2 zile de la
locul de muncă, iar 75% au lipsit cel puțin 1,5~2 zile.
Quartila doi
Quartila doi este mediana, întrucât
Me QUn nU 21
4) 1 ( 22 . Quartila doi este deci
Q2=3.
Interpretare: 50% dintre salariații din eșantionul observat au lipsit cel mult 3 zile de la locul
de muncă, iar 50% au lipsit cel puțin 3 zile.
35
Quartila trei
Quartila trei corespunde locului unității quartilice trei,
5 , 44) 1 5 ( 33 QU , adică este
între a patra și a cincea valoare a șirului de date ordonat crescător: 1, 2, 3, 4, 5. Quartila trei
este deci media ultimilor 2 termeni ai seriei :
5 , 425 4
3Q .
Interpretare: 75% dintre salariații din eșantionul observat au lipsit cel mult 4,5~5 zile de la
locul de muncă, iar 25% au lipsit cel puțin 4,5~5 zile.
Exemplul 2.19. Quartilele pentru o distribuție de frecvență
Distribuția unor familii după numărul de membri se prezintă astfel :
Tabelul 2.24. Distribuția familiilor după numărul de membri
Număr membri (x i) Număr familii (n i)
2 4
3 11
4 10
5 2
6 1
TOTAL n=28
Să se afle quartilele unu și trei.
Rezolvare
Quartila unu
Pentru aflarea quartilei unu, trebuie parcurse următoarele etape:
– se calculează unitatea quartilică unu:
25, 741281QU ;
– se calculează frecvențele absolute cumulate crescător, Ni↓. Acestea sunt prezentate în
tabelul de mai jos:
36
Tabelul 2.25. Distribuția familiilor dintr-un bloc după numărul de membri
Număr membri (x i) Număr familii (n i) Ni↓
2 4 4
3 11 15
4 10 25
5 2 27
6 1 28
TOTAL n=28 –
– prima valoare
1Q
iU N este
)25, 7 ( ) 15(1 Q
i U N . În dreptul acestei valori se
citește quartila unu: Q 1=3.
Interpretare: 25% dintre familiile din eșantionul observat au cel mult 3 membri, iar 75% au
cel puțin 3 membri. În acest caz, quartila unu coincide cu mediana.
Quartila trei
Pentru aflarea quartilei trei, se calculează unitatea quartilică trei:
75,214) 128( 33QU
. Se observă că prima valoare
3Q
iU N este
)75,21( )25(3 Q
i U N
. În dreptul acestei valori se citește quartila trei: Q 3=4.
Interpretare: 75% dintre familiile din eșantionul observat au cel mult 4 membri, iar 25% au
cel puțin 4 membri.
2. Decilele
Decilele sunt valori ale variabilei care împart efectivele din eșantion în 10 părți egale. O
distribuție are 9 decile. Cele mai importante decile sunt decila unu și decila nouă.
– Decila unu ( D1) este valoarea pentru care 10% dintre efective înregistrează valori mai
mici decât D1 și 90% înregistrează valori mai mari decât D1. Decila unu corespunde
locului unității decilice unu, calculate astfel:
1011nUD .
– Decila nouă ( D9) este valoarea pentru care 90% dintre efective înregistrează valori mai
mici decât D9 și 10% înregistrează valori mai mari decât D9. Decila nouă corespunde
locului unității decilice nouă, calculate astfel:
10) 1 ( 99nUD .
37
Exemplul 2.20. Decilele pentru o distribuție de frecvență
Distribuția unor familii după numărul de membri se prezintă astfel :
Tabelul 2.26. Distribuția familiilor după numărul de membri
Număr membri (x i) Număr familii (n i)
iN
2 4 4
3 11 15
4 10 25
5 2 27
6 1 28
TOTAL n=28 –
Să se afle decilele unu și nouă.
Rezolvare
Decila unu
Pentru aflarea decilei unu, trebuie parcurse următoarele etape:
– se calculează unitatea decilică unu:
9 , 2101281DU ;
– se află prima valoare
1D
iU N este
) 9 , 2 ( ) 4 (1 D
iU N . În dreptul acestei valori
se citește decila unu: D 1=2.
Interpretare: 10% dintre familiile din eșantionul observat au cel mult 2 membri, iar 90% au
cel puțin 2 membri.
Decila nouă
Pentru aflarea decilei nouă, se calculează unitatea decilică nouă:
1 ,2610) 128( 99DU .
Se observă că prima valoare
3Q
iU N este
) 1 ,26( )27(9 D
i U N . În dreptul acestei
valori se citește decila nouă: D 9=5.
Interpretare: 90% dintre familiile din eșantionul observat au cel mult 5 membri, iar 10% au
cel puțin 5 membri.
38
b.2. Indicatori ai dispersiei (variației)
Dispersia măsoară variația valorilor unei variabile în jurul tendinței centrale. Aprecierea
dispersiei este importantă într-o analiză statistică întrucât mai multe distribuții pot avea
aceleași mărimi medii, dar pot să difere din punctul de vedere al variației valorilor variabilei.
De exemplu, să considerăm următoarele serii de date:
Seria 1: 4, 4, 4, 4, 4
Seria 2: 2, 3, 4, 4, 7
Seria 3: 1, 2, 4, 4, 9
Toate aceste serii de date au media, mediana și modul egale cu 4, însă cele 3 serii de
date diferă din punctul de vedere al variației celor 5 valori: seria 3 se caracterizează printr- o
variație mai mare a celor 5 valori față de tendința centrală, măsurată prin medie, mod sau
mediană.
Măsurarea acestei variații se realizează prin calculul indicatorilor dispersiei sau
variației. Acești indicatori ai dispersiei măsoară variația valorilor unei variabile față de media
lor sau față de mediană.
b.2.1. Indicatori ai dispersiei față de medie
Cei mai importanți indicatori ai dispersiei sunt:
– varianța (
2s );
– abaterea standard (
s );
39
– coeficientul de variație ( v).
1. Varianța (s2)
Varianța măsoară variația medie a pătratelor diferențelor valorilor unei variabile de la
nivelul mediu.
Pentru calculul varianței, se parcurg următoarele etape:
– Se calculează diferențele valorilor unei variabile față de nivelul mediu:
x xi ;
– Se calculează pătratele diferențelor valorilor unei variabile față de nivelul mediu:
; ) (2x xi
– Se află suma acestor pătrate:
; ) (2
iix x
– Se calculează media acestor diferențe (variații):
nx x
sii
2
2) ( .
Observație: În cazul unei distribuții de frecvență, pătratele diferențelor valorilor unei variabile
față de nivelul mediu trebuie înmulțite cu frecvența de apariție (absolută sau relativă) a
fiecărei valori xi.
Relațiile de calcul ale varianței sunt:
– folosind frecvențe absolute:
nn x x
sii i
2
2) (
– folosind frecvențe relative:
ii if x x s2 2) ( , cu
nnfi
i .
Se poate demonstra că varianța poate fi calculată și ca diferență între media pătratelor
valorilor xi și pătratul mediei. Relațiile de calcul în acest caz sunt:
– folosind frecvențe absolute:
2 2
2
nn x
nn x
sii i
ii i
– folosind frecvențe relative:
2
2 2
ii i
ii i f x f x s
Exemplu 2.21. Măsurarea variației valorilor unei variabile față de nivelul mediu
Să considerăm seria 3 de date prezentată mai sus, compusă din valorile: 1, 2, 4, 4, 9.
Media acestor valori este:
459 4 4 2 1 x .
40
Pentru a afla variația fiecărei valori a acestei serii de date față de media lor, se
calculează diferențele :
x xi. Pentru prima valoare, obținem astfel :
3 ) 4 1 ( ) (1 x x .
Aceste diferențe sunt prezentate în coloana a doua a tabelului de mai jos :
Tabelul 2.27. Calculul diferențelor valorilor seriei față de nivelul mediu
Valori ale variabilei ( xi) Diferențe față de medie
) (x xi
1 -3
2 -2
4 0
4 0
9 5
Aceste diferențe sunt reprezentate grafic în figura de mai jos.
Pentru a măsura variația tuturor valorilor față de medie, putem calcula suma acestor
variații :
. ) (
iix x Această sumă este însă întotdeauna egală cu zero. Pentru a obține o
valoare diferită de zero, se calculează pătratele acestor diferențe:
. ) (2
iix x Pentru seria de
mai sus, aceste pătrate sunt calculate în tabelul de mai jos:
41
Tabelul 2.28. Calculul pătratelor diferențelor valorilor seriei față de nivelul mediu
Valori ale variabilei ( xi) Diferențe față de medie
) (x xi Pătrate ale diferențelor
2) (x xi
1 -3 9
2 -2 4
4 0 0
4 0 0
9 5 25
TOTAL 0 38
În exemplul dat, suma pătratelor diferențelor valorilor xi față de media lor este egală cu
38:
.38) (2
iix x
Pentru a calcula media acestor pătrate, se împarte această sumă la numărul de observații
ș
i se obține indicatorul dispersiei, varianța:
6 , 7538) (2
2
nx x
sii .
Această valoare arată variația pătratelor valorilor unei variabile față de media lor. Pentru
a exprima aceste variații în aceeași unitate de măsură cu a variabilei, se calculează rădăcina
acestei valori, respectiv
76, 2538) (2
nx x
sii . Acest indicator este abaterea
(deviația) standard.
Exemplu 2.22. Calculul varianței pentru o distribuție de frecvență, folosind frecvențe
absolute
Pentru a arăta modul de calcul al varianței pentru o distribuție de frecvență folosind
frecvențe absolute, se consideră distribuția unor familii din orașul Iași după numărul de
membri, prezentată în tabelul de mai jos.
Tabelul 2.29. Distribuția familiilor după numărul de membri
Număr membri (x i) Număr familii (n i)
2 4
3 11
4 10
5 2
6 1
42
TOTAL n=28
Pentru această distribuție, media a fost calculată și este egală cu 3,464.
Pentru calculul varianței, se parcurg următoarele etape:
– Se calculează diferențele valorilor xi față de nivelul mediu:
x xi . Aceste diferențe
sunt prezentate în coloana a treia a tabelului 2.30;
– S
e calculează pătratele diferențelor valorilor unei variabile față de nivelul mediu:
; ) (2x xi
– Se înmulțesc aceste pătrate cu frecvențele absolute ni:
; ) (2
i in x x
– Se calculează varianța:
27, 528652,147) (2
2
nn x x
sii i .
Tabelul 2.30. Calculul varianței folosind frecvențele absolute
Număr
membri (x i) Număr
familii
(ni) Diferențe
(
x xi) Pătrate ale
diferențelor
2) (x xi Ponderarea pătratelor
diferențelor cu frecvențele
absolute
i in x x 2) (
2 4 -1.464 2.143 8.573
3 11 -0.464 0.215 2.368
4 10 -3.464 11.999 119.993
5 2 1.536 2.359 4.719
6 1 -3.464 11.999 11.999
TOTAL n=28 – – 147.652
Exemplu 2.23. Calculul varianței pentru o distribuție de frecvență, folosind frecvențe relative
Pentru aceeași distribuție, se consideră frecvențele relative ( fi) și se ponderează pătratele
diferențelor cu frecvențele relative,
i if x x 2) ( . Suma acestor pătrate este varianța.
Elementele pentru calculul varianței sunt prezentate în tabelul de mai jos:
43
Tabelul 2.31. Calculul varianței folosind frecvențele relative
Număr
membri (xi) Ponderea
familiilor ( fi) Diferențe
(
x xi) Pătrate ale
diferențelor
2) (x xi Ponderarea pătratelor
diferențelor cu
frecvențele
relative
i if x x 2) (
2 0.143 -1.464 2.143 0.306
3 0.393 -0.464 0.215 0.085
4 0.357 -3.464 11.999 4.284
5 0.071 1.536 2.359 0.168
6 0.036 -3.464 11.999 0.432
TOTAL 1 – – 5,274
Varianța este deci:
.
Observație: Întrucât pentru aflarea varianței s-au ridicat la pătrat diferențele
, pentru a acorda o importanță mai mare abaterilor de la medie, varianța nu se interpretează și
nu are unitate de măsură.
2. Abaterea standard
Abaterea standard arată variația medie a valorilor unei variabile față de nivelul mediu
(arată cât de mult se „îndepărtează” valorile unei variabile de la media lor).
Exemplul 2.24. Abaterea standard pentru o serie simplă
Pentru seria valorilor: 1, 2, 4, 4, 9, am calculat următorii indicatori:
76, 2 , 4 s x
.
Interpretare: Abaterea standard arată că valorile șirului de date prezentat variază, în medie,
de la media lor cu 2,76 (în sens pozitiv și negativ).
Observație: Măsurarea dispersiei permite aprecierea omogenității unei distribuții și a
reprezentativității unei medii. O distribuție caracterizată printr-o dispersie mare a valorilor xi
44
față de media lor este o distribuție eterogenă. Media calculată poate astfel să nu fie
reprezentativă pentru acea distribuție.
De exemplu, să considerăm seriile de date:
Seria 1: 2, 3, 4, 4, 7
Seria 2: 1, 2, 4, 4, 9
Pentru aceste serii de date, mediile și abaterile standard se prezintă astfel:
Seria 1 Seria 2
67, 14
11
sx
76, 24
22
sx
Se observă că aceste serii au aceeași medie și dispersii diferite. Seria 1 se caracterizează
printr-o variație mai mică a valorilor xi față de media lor:
.2 1s s Aceasta arată că seria 1 este
o serie mai omogenă față de seria 2.
Pentru a aprecia reprezentativitatea mediei pentru fiecare din aceste serii de date, se
compară abaterea standard față de media seriei respective. În acest sens, se poate calcula un
coeficient de variație care măsoară în procente cât de mare este dispersia valorilor xi față de
media lor.
3. Coeficientul de variație (v)
Relația de calcul a acestui indicator este:
100 xsv
.
Pentru cele două serii de date de mai sus, valorile coeficienților de variație sunt:
Seria 1:
%75,41 100467, 1100
11
1 xsv
Seria 2:
%69100476, 2100
22
2 xsv
45
Interpretare: Valori ridicate ale coeficientului de variație (mai mari de 50%) arată că o
distribuție se caracterizează printr-o dispersie mare a valorilor xi față de media lor. Aceasta
este deci o distribuție eterogenă, iar media nu este reprezentativă pentru seria valorilor date.
În exemplul dat, seria 2 se caracterizează printr-o dispersie mare a celor 5 valori față de
media lor ( v2>50%), ceea ce arată că media calculată (
) 4x nu este reprezentativă pentru
această serie.
Observație: Aprecierea variației valorilor unei variabile este importantă în analiza seriilor de
date financiare. Variabilitatea randamentelor unui activ financiar este cunoscută în finanțe sub
denumirea de volatilitate, iar studiul volatilității este important în analizele de risc financiar.
Cu cât volatilitatea unui activ financiar este mai mare, cu atât riscul investitorului este mai
mare. Măsurarea volatilității se poate realiza prin calculul abaterii standard a randamentelor
activelor financiare.
b.2.2. Indicatori ai dispersiei față de mediană
Măsurarea dispersiei valorilor xi ale unei variabile față de mediana lor se realizează prin
calculul amplitudinii intervalului interquartilic.
1. Amplitudinea intervalului interquartilic
Amplitudinea intervalului interquartilic ( IQ) măsoară dispersia celor 50% dintre valorile
centrale ale unei distribuții.
DEFINIȚIE Amplitudinea intervalului interquartilic (I Q) este diferen ța dintre quartila
trei (Q 3) și quartila unu (Q 1). Relația de calcul este: I Q=Q3-Q1.
Exemplul 2.25. Amplitudinea intervalului interquartilic
Pentru distribuția unor familii după numărul de membri, prezentată în Tabelul 2.28,
valorile quartilelor sunt: Q 1=3 și Q 3=4. Intervalul interquartilic este: IQ=Q3-Q1=4-3=1.
Interpretare: Amplitudinea intervalului interquartilic arată că, pentru 50% dintre familii,
diferența maximă de membri ai familiei între oricare două familii este de un membru.
46
b.3. Indicatori ai formei (asimetriei și boltirii)
Forma unei distribuții poate fi apreciată prin măsurarea asimetriei și boltirii distribuției.
b.3.1. Indicatori ai asimetriei
Asimetria unei distribuții poate fi măsurată prin coeficientul de asimetrie Fisher
(skewness). Acest coeficient se calculează astfel:
33
ssw
unde:
–
nx x
ii
3
3) (
și reprezintă momentul centrat de ordinul 3 ;
– s3 este abaterea standard la puterea a treia.
În funcție de gradul de simetrie al unei distribuții, putem distinge:
– distribuții asimetrice la stânga (asimetrie negativă), pentru care sw<0.
– distribuții simetrice, pentru care sw=0;
– distribuții asimetrice la dreapta (asimetrie pozitivă), pentru care sw>0;
Reprezentarea grafică a acestor tipuri de distribuții este realizată în figura de mai jos:
Asimetrie la stânga Simetrie Asimetrie la dreapta
Figura 2.1. Reprezentarea grafică a simetriei unei distribuții
b.3.2. Indicatori ai boltirii
Boltirea unei distribuții poate fi măsurată prin coeficientul de boltire Fisher ( kurtosis).
Acest coeficient se calculează astfel:
47
344 sk
unde:
–
nx x
ii
4
4) (
și reprezintă momentul centrat de ordinul 4.
În funcție de gradul de boltire al unei distribuții, putem distinge:
– distribuții simetrice (mezocurtice), pentru care k=0;
– distribuții leptocurtice, pentru care k>0;
– distribuții platicurtice (aplatizate), pentru care k<0.
Boltirea poate fi apreciată pe cale grafică prin reprezentarea curbei frecvențelor. Alura
curbei frecvențelor în cazul unei distribuții normale (mezocurtice) sau care prezintă un
accentuat fenomen de boltire este reprezentată în figura de mai jos:
Figura 2.2. Reprezentarea grafică a b oltirii unei distribuții
În cazul unei distribuții leptocurtice, se înregistrează o variație mică a valorilor
variabilei X și o variație mare a frecvențelor absolute, ni. În cazul unei distribuții platicurtice,
se înregistrează o variație mare a variabilei X și o variație mică a frecvențelor absolute, ni.
Observație: Aprecierea boltirii unui distribuții este importantă în analiza seriilor de date
financiare. O distribuție leptocurtică ( fat tails) este o distribuție care arată că valorile extreme
(mari sau mici) sunt mai „frecvente” față de o distribuție „normală”.
c. Reprezentare grafică
48
După cum am precizat, o reprezentare sintetică a unei variabile se poate realiza prin
gruparea valorilor unei variabile într-o distribuție de frecvență, prin calculul indicatorilor
statisticii descriptive sau prin reprezentarea grafică.
Reprezentarea grafică a unei distribuții după o variabilă cantitativă discretă se poate
realiza folosind poligonul frecvențelor, curba frecvențelor, histograma și diagrama box-plot.
c.1. Poligonul frecvențelor
Construirea poligonului frecvențelor presupune găsirea locului geometric al punctelor
Ai de coordonate ( xi , ni) sau (xi , fi) și unirea acestora prin segmente de dreaptă. Poligonul
frecvențelor aproximează forma unei distribuții.
Alura poligonului frecvențelor este reprezentată în figura de mai jos:
Figura 2.3. Poligonul frecvențelor
c.2. Curba frecvențelor
Construirea curbei frecvențelor presupune ajustarea printr-o linie curbă, continuă a
poligonului frecvențelor. Curba frecvențelor aproximează mai bine forma de distribuție a unei
variabile.
Alura curbei frecvențelor este reprezentată în figura de mai jos:
49
Figura 2.4. Curba frecvențelor
Interpretare: Curba frecvențelor pentru distribuția dată se compară cu forma curbei
frecvențelor pentru o distribuție normală, reprezentată în figura de mai sus, cunoscută sub
denumirea de Clopotul lui Gauss . Această curbă este o curbă simetrică față de nivelul mediu:
jumătate din unități au valori mai mici decât nivelul mediu, iar jumătate au valori mai mari
decât nivelul mediu.
Orice deviere de la forma unei distribuții simetrice arată că distribuția empirică este o
distribuție asimetrică. Formele asimetriei unei distribuții sunt :
– Asimetrie la dreapta (pozitivă) este forma unei distribuții în care frecvențele mai mari
sunt înregistrate pentru valorile mici ale variabilei;
– Asimetrie la stânga (negativă) este forma unei distribuții în care frecvențele mai mari
sunt înregistrate pentru valorile mari ale variabilei.
Exemplul 2.26. Poligonul și curba frecvențelor pentru o distribuție de frecvență a unei
variabile cantitative discrete
Se consideră distribuția din Tabelul 2.31. Aceasta se prezintă astfel:
Tabelul 2.32. Distribuția familiilor după numărul de membri
Număr membri
(xi) Număr familii
(ni)
2 4
3 11
4 10
5 2
6 1
TOTAL n=28
50
Să se reprezinte poligonul și curba frecvențelor folosind frecvențe le absolute.
Rezolvare
Pentru construirea poligonului și curbei frecvențelor, pe axa absciselor reprezentăm
numărul de membri pe familii (variabila X), iar pe axa ordonatelor reprezentăm numărul
familiilor ( ni). Reprezentarea grafică a distribuției date este realizată în figura de mai jos.
Figura 2.5 . Distribuția unui eșantion de familii după numărul de membri/familie
Interpretare: Se observă că distribuția eșantionului de familii după numărul de membri
prezintă o asimetrie la dreapta. Aceasta arată că se înregistrează frecvențe mai mari pentru
valorile mici ale variabilei (este o distribuție în care predomină familiile cu un număr mic de
copii).
c.3. Histograma
Pentru construirea histogramei, pe axa absciselor se reprezintă valorile variabile i X și pe
axa ordonatelor frecvența de apariție (absolută, ni, sau relativă, fi) a fiecărei valori xi.
Construirea histogramei presupune ridicarea de pe axa absciselor a unor dreptunghiuri de
înălțime ni sau fi.
Exemplul 2.26. Histograma pentru o distribuție de frecvență a unei variabile cantitative
discrete
Pentru reprezentarea histogramei, să considerăm distribuția din Tabelul 2.32. Aceasta se
pr
ezintă astfel:
Tabelul 2.32. Distribuția familiilor după numărul de membri
51
Număr membri
(xi) Numărarea familii lor în
funcție de numărul de membri Număr familii
(ni) Frecvențe relative
(fi)
2 …. 4 0.143
3 ………… 11 0.393
4 ………. 10 0.357
5 .. 2 0.071
6 . 1 0.036
TOTAL n=28 1
Să se reprezinte histograma folosind frecvențe absolute și relative.
Rezolvare
Pentru construirea histogramei, pe axa absciselor reprezentăm numărul de membri pe
familii, iar pe axa ordonatelor reprezentăm numărul familiilor ( ni), respectiv ponderea
acestora ( fi). Graficele obținute sunt de forma:
Figura 2.6 . Distribuția unui eșantion de familii după numărul de membri/familie
*Notă : Histograma este obținută realizând o rotație de 900 a primelor 2 coloane ale Tabelului 2.32.
Se observă că forma distribuției este aceeași folosind frecvențe absolute sau relative. Se
recomandă reprezentarea histogramei folosind frecvențele relative atunci când se compară
mai multe distribuții de frecvență.
Interpretare: Ca și în cazul poligonului și curbei frecvențelor, histograma evidențiază o
asimetrie la dreapta a distribuției familiilor după numărul de membri.
c.4. Diagrama “box-plot”
52
Diagrama box-plot, numită și diagrama “box-and-whiskers”, este o diagramă care
reprezintă cinci valori ale unei distribuții: x minim și xmaxim, quartila unu, mediana, quartila trei,
decila unu și nouă.
c.4.1. Construirea diagramei “box-plot”
Forma generală a unei diagrame “box -plot” este reprezentată în figura de mai jos:
Figura 2.7. Diagrama box-plot
Diagrama “box-plot” permite aprecierea principalelor caracteristici ale unei distribuții,
și anume:
– tendința centrală: prin reprezentarea medianei (quartilei doi) se poate interpreta grafic
t
endința centrală a unei distribuții;
– dispersia: prin reprezentarea intervalului interquartilic ( IQ=Q3-Q1) se poate aprecia
dispersia celor 50% din efectivele unei distribuții. Variația primelor 25% din efective
se măsoară prin diferența (
min 1x Q ), iar variația ultimelor 25% din efective se
măsoară prin diferența (
3 maxQ x );
– asimetria : prin reprezentarea quartilelor se apreciază simetria distribuției. În tr-o
distribuție normală, quartila unu și quartila trei se găsesc la aceeași distanță față de
mediană.
Reprezentarea grafică a simetriei unei distribuții, folosind diagrama box-plot, este
realizată în figura de mai jos.
53
Nota
10,00 9,00 8,00 7,00 6,00 5,00 4,00
1
10,00 9,00 8,00 7,00 6,00 5,00 4,00
Nota
10,00 9,00 8,00 7,00 6,00 5,00 4,00
Asimetrie la stânga Simetrie Asimetrie la dreapta
Figura 2.8. Reprezentarea grafică a simetriei unei distribuții folosind diagrama box-plot
Observație: Diagrama “box-plot” permite identificarea punctelor extreme ( outliers). Pentru
aceasta, se definesc intervalele:
Q Q I Q I Q 5 , 1 ; 5 , 13 1 . Valorile situate în afara acestui
interval pot fi considerate valori extreme.
c.4.2. Folosirea diagramei “box-plot” pentru analiza comparativă a mai multor distribuții
Reprezentarea diagramei “box-plot” pentru mai multe distribuții în mod simultan
permite realizarea unei analize comparative a acestor distribuții.
De exemplu, să considerăm distribuția regiunilor României în funcție de câștigul
salarial nominal mediu net lunar (lei) înregistrat în anul 2015. Reprezentarea grafică a acestei
distribuții pe cele 8 regiuni de dezvoltare (Nord-Vest, Centru, Nord-Est, Sud-Est, Sud-
Muntenia, București-Ilfov, Sud-Vest Oltenia, Vest) este realizată în figura de mai jos:
Figura 2.9. Distribuția regiunilor României în funcție de câștigul salarial nominal mediu net lunar
Aceste diagrame evidențiază diferențe inter-regionale importante din punctul de vedere
al câștigului salarial nominal mediu net înregistrat în anul 2015. Regiunea București-Ilfov se
54
caracterizează prin cel mai ridicat nivel al câștigului salarial față de ansamblul tuturor
celorlalte regiuni.
Regiunea cea mai omogenă din punctul de vedere al câștigului salarial este Regiunea
Nord-Vest, care se distinge totuși prin prezența unei valori extreme, reprezentate de județul
Cluj. Câștigul salarial nominal mediu net din acest județ este mult mai ridicat față de cel al
celorlalte județe din această regiune.
Diagramele din figura de mai sus au evidențiat astfel și diferențe intra-regionale
importante din punctul de vedere al câștigului salarial nominal mediu net înregistrat în anul
2015.
55
2.1.2. Variabile cantitative continue
O prezentare sintetică a valorilor unei variabile statistice continue poate fi realizată prin
structurarea datelor într-o serie (distribuție) statistică pe intervale de variație, prin calculul
indicatorilor statisticii descriptive și prin reprezentarea grafică a seriei.
a. Structurarea datelor statistice
Structurarea datelor corespunzătoare unei variabile statistice continue presupune
gruparea observațiilor sau unităților statistice pe intervale de variație ale variabilei statistice X.
Intervalele de variație au o limită inferioară xi-1 (reprezentată de cea mai mică valoare) și o
limită superioară xi (reprezentată de cea mai mare valoare).
Pentru gruparea datelor pe intervale egale de variație se parcurg următoarele etape:
– Se calculează mărimea intervalelor de variație ( l) în care se grupează datele:
,min max
kx xl
unde k este numărul intervalelor de variație;
– Primul interval se construiește plecând de la cea mai mică valoare a variabilei X la
care se adaugă mărimea intervalului calculată anterior.
Exemplul 2.27. Construirea unei distribuții de frecvență cu gruparea valorilor variabilei pe
intervale egale de variație
Se consideră distribuția unui eșantion de firme din municipiul Iași după numărul de
angajați. Valorile variabilei numărul de angajați pentru cele 28 de firme din eșantion sunt
prezentate mai jos.
49, 52, 68, 38, 42, 44, 45, 48, 58, 61, 20, 49, 53, 54,
48, 22, 30, 32, 53, 41, 42, 55, 57, 45, 47, 57, 64, 32
Să se construiască distribuția de frecvențe a celor 28 de firme din eșantion după numărul
de angajați, prin gruparea valorilor variabilei pe cinci intervale egale de variație.
Rezolvare
Etapele pentru construirea distribuției de frecvențe în cazul grupării valorilor variabilei
pe intervale egale de variație sunt:
56
1. Se stabilește numărul de intervale de variație dorit pentru gruparea valorilor
variabilei. În cazul nostru, vom grupa valorile în k=5 intervale de variație de tipul (xi-1,xi+1), cu
xi-1 limita inferioară a intervalului și xi+1 limita superioară a intervalului.
2. Se calculează mărimea intervalelor de variație ( l) în care se grupează datele.
.106 , 9520 68min max kx xl
Vom grupa valorile variabilei în 5 egale de variație, cu o lungime de 10 unități.
3. Construirea distribuției de frecvență presupune numărarea observațiilor care apar în
fiecare interval de variație. Intervalele de variație pot fi închise, deschise sau semi-închise.
Am optat, pentru acest exemplu, pentru varianta semi-închisă a intervalului de forma [xi-
1,xi+1).
Distribuția de frecvență construită este prezentată în Tabelul 2.33.
Tabelul 2.33. Distribuția firmelor după numărul de angajați, cu valorile grupate pe cinci intervale
egale de variație
Număr angajați
[xi-1,xi+1) Număr firme
(ni)
20-30 2
30-40 4
40-50 11
50-60 8
60-70 3
TOTAL 28
Observații
– Numărul intervalelor de variație ( k) trebuie să fie ales astfel încât să realizeze o
grupare sintetică a datelor, dar să evidențieze și caracteristicile datelor. În funcție de
numărul observațiilor și de obiectivul grupării, numărul intervalelor de variație poate
varia între 5 și 20 de intervale;
– O unitate statistică trebuie să aparțină unui singur interval de variație.
57
b. Indicatori ai statisticii descriptive
Indicatorii statisticii descriptive se calculează în mod identic ca în cazul variabilelor
discrete, luând în considerare în locul valorilor xi ale variabilelor, centrul intervalelor de
variație
) ('
ix , calculat ca medie a celor două limite ale intervalelor:
21 ' i i
ix xx .
Exemplul 2.28. Calculul mediei aritmetice și a abaterii standard pentru o distribuție de
frecvențe cu valori grupate pe intervale egale de variație
Se consideră distribuția firmelor după numărul de angajați, prezentată în Tabelul 2.33 .
Să se calculeze media aritmetică și abaterea standard a numărului de angajați.
Rezolvare
Pentru distribuția firmelor după numărul de angajați, cu valorile grupate pe cinci
intervale de variație, am prezentat, în Tabelul 2.34, e lementele de calcul necesare pentru
aflarea mediei și abaterii standard.
Tabelul 2.34. Calculul mediei și a abaterii standard în cazul unei serii cu valori grupate pe intervale
egale de variație
Număr
angajați
[xi-1,xi+1) Număr
firme
(ni) Mijlocul
intervalului
de variație
'
ix
Produsele
i in x'
Diferențe le
(
x xi') Pătratele
diferențelor
2 ') (x xi
Ponderarea
pătratelor
diferențelor cu
frecvențele
absolute
i in x x 2 ') (
20-30 2 25 50 -22,14 490,1796 980,3592
30-40 4 35 140 -12,14 147,3796 589,5184
40-50 11 45 495 -2,14 4,5796 50,3756
50-60 8 55 440 7,86 61,7796 494,2368
60-70 3 65 195 1,.86 318,9796 956,9388
TOTAL n=28 – 1320 – – 3071,429
Media aritmetică se află aplicând formula:
58
47 14.47281320'
iiii i
nn x
x angajați.
Interpretare: În medie, o firmă are 47 de angajați.
Abaterea standard se calculează aplicând formula:
10 47.1028429.30712'
iiii i
nn x x
s
angajați.
Interpretare: În medie, numărul de angajați ai unei firme variază de la media grupului cu 10
angajați.
c. Reprezentare grafică
O distribuție după o variabilă cantitativă continuă poate fi reprezentată grafic folosind
histograma, curba frecvențelor și diagrama box-plot.
2.2. Variabile calitative
Variabilele calitative pot fi variabile nominale și variabile ordinale. Ca și în cazul
variabilelor cantitative, prezentarea sintetică a valorilor unei variabile statistice calitative
poate fi realizată prin structurarea datelor într-o serie (distribuție) statistică, prin calculul
indicatorilor statisticii descriptive și prin reprezentarea grafică a seriei.
a. Structurarea datelor statistice
Structurarea datelor corespunzătoare unei variabile statistice calitative presupune
gruparea observațiilor sau unităților statistice pe valori (categorii) ale variabilei statistice X
într-un tabel de date.
Distribuția de frecvență este reprezentată de tabelul valorilor variabilei X și a frecvenței
de apariție a acestor valori.
Exemplul 2.29. Distribuția de frecvență a unei variabile calitative nominale
Pentru un eșantion format din 10 persoane, se înregistrează genul persoanei (masculin,
feminin) și se obțin următoarele rezultate : M, M, F, F, F, F, M, M, F, F.
Să se formeze distribuția frecvențelor absolute și relative.
59
60
Rezolvare
Distribuția frecvențelor absolute presupune numărarea persoanelor pentru fiecare gen în
parte (masculin și feminin), respectiv aflarea frecvențelor de apariție a fiecărei categorii. În
tabelul de date, în prima coloană se trec cele 2 categorii (masculin și feminin), iar în a doua
coloană se trec aceste frecvențe. Tabelul de date obținut se prezintă astfel :
Tabelul 2.35. Distribuția persoanelor după gen, folosind frecvențe absolute
Genul persoanei (x i) Numărarea persoanelor în funcție de gen Număr persoane (n i)
Masculin …. 4
Feminin …… 6
TOTAL n=10
Interpretare: Din cele 10 persoane înregistrate, 4 persoane sunt de genul masculin, iar 6 sunt
persoane de genul feminin.
Distribuția frecvențelor relative presupune aflarea ponderii persoanelor de gen masculin
și feminin, respectiv aflarea frecvențelor relative,
. 100 nnfi
i
Tabelul de date obținut se prezintă astfel :
Tabelul 2.36. Distribuția persoanelor după gen, folosind frecvențe relative
Genul persoanei (x i) Pondere persoane (f i)
Masculin 40
100104
1 f
Feminin 60
100106
2 f
TOTAL 100
Interpretare: Din cele 10 persoane înregistrate, 40% sunt persoane sunt de genul masculin, iar
60% sunt persoane de genul feminin.
Exemplul 2.30. Distribuția de frecvență a unei variabile calitative ordinale
Pentru un eșantion format din 20 persoane, se înregistrează nivelul de studii absolvite
(studii liceale, studii universitare, studii post-universitare și doctorat) și se obțin următoarele
rezultate:
61
Universitar, Universitar, Post-universitar, Liceal, Post-universitar, Post-
universitar, Post-universitar, Universitar, Universitar, Universitar, Liceal, Liceal,
Liceal, Liceal, Universitar, Universitar, Universitar, Liceal, Doctorat, Doctorat.
Să se formeze distribuția frecvențelor absolute și relative.
Rezolvare
Distribuția frecvențelor absolute presupune numărarea persoanelor pentru fiecare nivel
de studii absolvite (studii liceale, studii universitare, studii post-universitare și doctorat) și
gruparea acestor rezultate într-un tabel de forma :
Tabelul 2.37. Distribuția persoanelor după nivelul de studii absolvite
Nivel studii (x i) Număr persoane (n i)
Studii liceale 6
Studii universitare 8
Studii post -universitare 4
Doctorat 2
TOTAL n=20
Interpretare: Din cele 20 persoane înregistrate, 6 persoane au absolvit studii liceale, 8
persoane au absolvit studii universitare, 4 persoane au studii post-universitare și 2 persoane au
doctorat.
Distribuția frecvențelor relative presupune aflarea ponderii persoanelor pentru fiecare
nivel de studii absolvite.
Tabelul de date obținut se prezintă astf el :
Tabelul 2.38. Distribuția persoanelor după nivelul de studii absolvite, folosind frecvențe relative
Nivel studii (x i) Pondere persoane (f i)
Studii liceale 30
100206
1 f
Studii universitare 40
1002014
2 f
Studii post -universitare 20
1002018
3 f
Doctorat 10
1002010
4 f
TOTAL 100
62
Interpretare: Din cele 20 persoane înregistrate, 30% au absolvit studii liceale, 40% au
absolvit studii universitare, 20% au studii post-universitare și 10% au doctorat.
Observație: Formarea distribuției de frecvență pentru variabilele ordinale presupune
ordonarea categoriilor variabilei de la inferior la superior.
b. Reprezentare grafică
O distribuție după o variabilă calitativă nominală sau ordinală poate fi reprezentată
grafic folosind diagramele cercul de structură (Pie chart) sau diagrama prin coloane (Bar
chart).
Exemplul 2.31. Reprezentarea grafică a variabilelor calitative
Să se reprezinte grafic distribuțiile de frecvență prezentate în tabelele 2.34 și 2.35.
Rezolvare
Reprezentarea grafică a distribuției frecvențelor absolute și relative se poate realiza
folosind diagramele Pie Chart sau Bar Chart .
Figura 2.10. Distribuția persoanelor după nivelul de studii absolvite
63
Figura 2.11. Distribuția persoanelor după nivelul de studii absolvite
c. Indicatori ai statisticii descriptive
Pentru o variabilă calitativă nominală se poate afla modul, iar pentru o variabilă
calitativă ordinală se pot afla modul, mediana și quartilele.
Exemplul 2.32. Modul pentru o variabilă calitativă nominală
Pentru distribuția persoanelor după gen (masculin și feminin) prezentată în Tabelul
2.33, să se afle valoarea modului.
Rezolvare
Distribuția persoanelor după gen se prezintă astfel:
Tabelul 2.39. Distribuția persoanelor după gen
Genul persoanei (x i) Număr persoane (n i) Pondere persoane (f i)
Masculin 4 40
Feminin 6 60
TOTAL n=10 100
Aflarea modului presupune identificarea categoriei care corespunde frecvenței celei mai
mari. Frecvența absolută cea mai mare este 6, iar frecvența relativă cea mai mare este 60%.
Categoria asociată acesteia este genul « feminin ». Modul este reprezentat de această categorie
(feminin).
64
Interpretare: În eșantionul observat, cele mai multe persoane (6 persoane sau 60%) sunt de
genul feminin.
Exemplul 2.3 3. Mediana și quartilele pentru o variabilă calitativă ordinală
Pentru distribuția persoanelor după nivelul de studii absolvite, prezentată în Tabelul
2.38, să se afle valoarea mediană și quartila 3.
Rezolvare
Mediana
Pentru aflarea medianei, se parcurg etapele prezentate pentru o variabilă cantitativă
discretă, și anume:
– se calculează unitatea mediană:
5 ,102120MeU ;
– se calculează frecvențele absolute cumulate crescător, Ni↓. Acestea sunt prezentate în
tabelul de mai jos:
Tabelul 2.40. Distribuția persoanelor după nivelul de studii absolvite
Nivel studii (x i) Număr persoane (n i) Ni↓
Studii liceale 6 6
Studii universitare 8 14
Studii post -universitare 4 18
Doctorat 2 20
TOTAL n=20
– prima valoare
Me
iU N este
) 5 ,10( )14( Me
i U N . În dreptul acestei valori se
citește mediana : Me este reprezentată de categoria Studii universitare .
Interpretare: 50% din numărul total de persoane au cel mult studiile universitare absolvite.
Quartila 3
Pentru aflarea quartilei 3, se parcurg etapele prezentate pentru o variabilă cantitativă
discretă, și anume:
– se calculează unitatea mediană:
75,154) 120( 3MeU ;
65
– se află prima valoare
Me
iU N , și anume :
)75,15( )17( Me
i U N . În dreptul
acestei valori se citește mediana : Me este reprezentată de categoria Studii post-
universitare.
Interpretare: 75% din numărul total de persoane au cel mult studiile post-universitare
absolvite.
66
US 3. ANALIZA UNEI SERII STATISTICE BIVARIATE
Cuprins
3.1. Structurarea datelor
3.2. Distribuția după o variabilă cantitativă ( X) și o variabilă calitativă ( Y)
3.3. Analiza statistică descriptivă a distribuției bivariate
Rezumat
În acest capitol sunt prezentate metodele de analiză statistică bivariată a datelor. Analiza
bivariată a datelor presupune analiza unor unități statistice după variația simultană a două
variabile. Pentru realizarea acestei analize, este necesară gruparea acestora într-un tabel cu
dubă intrare și calculul frecvențelor absolute și relative marginale, parțiale și condiționate .
Analiza statistică descriptivă a unui tabel cu dublă intrare (a unei distribuții bivariate) se poate
realiza prin calculul mediilor și varianțelor de grupă, a mediei și varianței pe total eșantion (în
cazul în care o variabilă dintre cele două este cantitativă).
Bibliografie
1. Andrei, T., Statistică și econometrie, Ed. Economică, 2003
2. Jaba, E., Statistica, ed. a 3-a, Ed. Economică, București, 2002
3. James T. McClave, P. George Benson, Terry Sincich, Statistics for Business and
Economics , Pearson, Education New Jersey, 2008
4. Weiss, N, A., Elementary Statistics , Pearson, 2012
5. Wonnacott, H., Wonnacott, T., Statistiques, Economica, Paris, 1991.
67
US 3. ANALIZA UNEI SERII STATISTICE BIVARIATE
Analiza bivariată presupune analiza statistică a distribuției unor efective după variația
valorilor a două variabile în mod simultan.
3.1. Structurarea datelor
Structurarea datelor înregistrate pentru două variabile statistice, X și Y, presupune
gruparea observațiilor sau unităților statistice după variația simultană a valorilor xi și yj ale
celor două variabile. Efectivele care înregistrează simultan valorile xi și yj ale variabilelor X și
Y sunt notate cu nij.
3.1.1. Tabelul cu dublă intrare
Tabelul de date care prezintă aceste valori poartă denumirea de tabel cu dublă intrare.
Distribuția obținută este o distribuție bivariată definită de :
– variabila
),( :ix X cu i=1,m;
– variabila
),( :jy Y cu j=1,p;
– frecvențele absolute nij, cu i=1,m și j=1,p.
Exemplul 3.1. Distribuția de frecvență a unităților statistice după 2 variabile
Se înregistrează pentru un eșantion format din 10 persoane salariul lunar (sute lei) și
nivelul de studii absolvite (studii liceale, studii universitare și studii post-universitare) și se
obțin următoarele rezultate:
Nivel de s tudii Salariu
Liceale 10
Universitare 19
Liceale 12
Liceale 12
Universitare 22
Post-universitare 25
Universitare 22
Universitare 19
Universitare 22
68
Post-universitare 27
Să se formeze distribuția de frecvență.
Rezolvare
Pentru aceasta, se consideră variabilele:
X : Salariul , cu xi, i=1,6 (valorile 10, 12, 19,22,25,27 );
Y : Nivelul de studii , cu yj, j=1,3 (valorile Liceale, Universitare, Post-universitare)
Formarea distribuției bivariate presupune parcurgerea următoarelor etape:
– se ordonează în sens crescător valorile variabilei X și se trec în prima coloană a unui
tabel;
– se ordonează categoriile variabilei Y;
– se numără persoanele care au un anumit nivel de studii și un anumit salariu. De
exemplu, numărul de persoane care au studii liceale și obțin un salariu lunar de 12 sute
lei este egal cu 2.
Rezultatele centralizate pentru toate valorile celor 2 variabile se prezintă astfel :
Tabelul 3.1. Distribuția bivariată de frecvență
Salariu/Nivel de studii Liceale Universitare Post-universitare
10 1 0 0
12 2 0 0
19 0 2 0
22 0 2 0
25 0 0 1
27 0 0 2
Interpretare: O persoană are studii liceale și un salariu lunar de 10 sute lei, 2 persoane cu
studii liceale au un salariu de 12 sute lei etc.
3.1.2. Tipuri de variabile
Variabilele X și Y pot fi diferite din punctul de vedere al naturii lor și putem întâlni
următoarele situații:
– o variabilă cantitativă (discretă sau continuă) și o variabilă calitativă.
– ambele variabile cantitative, discrete și/sau continue;
– ambele variabile calitative, nominale și/sau ordinale;
69
Vom prezenta în continuare modul de analiză statistică pentru o variabilă cantitativă și o
variabilă calitativă.
3.2. Distribuția după o variabilă cantitativă (X) și o variabilă calitativă (Y)
Distribuția după o variabilă cantitativă discretă,
),( :ix X cu i=1,m, și o variabilă
calitativă (nominală sau ordinală),
),( :jy Y cu j=1,p, prezintă repartiția efectivelor sau
frecvențelor absolute nij după variația simultană a valorilor xi și yj. În cazul variabilelor
cantitative continue (grupate pe intervale de variație
) (1i ix x ) se consideră ca valori ale
variabilei X centrul intervalelor de variabile, respectiv valorile
.21 ' i i
ix xx
În cele ce urmează, vom prezenta doar cazul variabilelor cantitative discrete. Pentru o
distribuție bivariată, se pot afla frecvențe absolute și relative, marginale, parțiale și
condiționate.
3.2.1. Frecvențe absolute marginale, parțiale și condiționate
a. Frecvențe absolute marginale
Frecvențele absolute marginale pot fi calculate pentru fiecare dintre variabilele X și Y.
Frecvențele absolute marginale pentru variabila X, notate
in , reprezintă numărul total de
unități pentru fiecare valoare xi a variabilei X. Se află adunând unitățile totale care
înregistrează valoarea xi, astfel:
jij in n.
Frecvențele absolute marginale pentru variabila Y, notate
jn , reprezintă numărul total
de unități pe valori yj ale variabilei Y. Se află adunând unitățile totale care înregistrează
valoarea yj, astfel:
iij jn n.
Exemplul 3.2. Frecvențe absolute marginale pentru variabilele X și Y
Se consideră distribuția unui eșantion de persoane după salariul lunar ( X, sute lei ) și
nivelul de studii absolvite ( Y), prezentată astfel:
70
Tabelul 3.2. Distribuția unui eșantion de persoane după salariul lunar obținut, pe nivele de studii
Salariu/Nivel de studii Liceale Universitare Post-universitare
10 1 0 0
12 2 0 0
19 0 2 0
22 0 2 0
25 0 0 1
27 0 0 2
Să se afle frecvențele absolute marginale pentru variabila X și variabila Y.
Rezolvare
Frecvențele absolute marginale pentru variabila X (
)in
Frecvențele absolute marginale pentru variabila X: Salariu se află adunând numărul de
persoane pentru fiecare valoare a salariului, după cum urmează:
– Salariul lunar x1=10 sute lei este obținut de (1+0+0) persoane, deci
1 0 0 11 n
persoană;
– Salariul lunar x2=12 sute lei este obținut de (2+0+0) persoane, deci
2 0 0 22 n
persoane;
– ș.a.m.d.
Interpretare: Din numărul total de persoane din eșantion, o persoană are un salariu lunar de
10 sute lei, 2 persoane au 12 sute lei etc.
Frecvențele absolute marginale pentru variabila Y (
)jn
Frecvențele absolute marginale pentru variabila Y: Nivel de studii se află adunând
numărul de persoane pentru fiecare nivel de studii absolvite, după cum urmează:
– Pentru nivelul de studii liceale, y1, avem (1+2+0+…+0) persoane, deci
3 0…0 2 11 n
persoane;
– Pentru nivelul de studii universitare , y2, avem (0+0+2+2+…+0) persoane, deci
4 0 0 2 2 0 02 n
persoane ;
– Pentru nivelul de studii post-universitare, y3, avem 3 persoane, deci
3 2 1 0 0 0 03 n
persoane.
71
Interpretare: Din numărul total de persoane din eșantion, 3 persoane au studii liceale, 4
persoane au studii universitare și 3 persoane au studii post-universitare.
Observație: Frecvențele marginale sunt folosite pentru a construi distribuțiile marginale în X,
respectiv Y (prezentate în paragraful 3.2.3).
b. Frecvențe absolute parțiale
Frecvențele absolute parțiale sunt efectivele nij care înregistrează în mod simultan
valorile xi pentru variabila X și yj pentru variabila Y.
Exemplul 3.3. Frecvențe absolute parțiale
Se consideră distribuția unui eșantion de persoane după salariul lunar ( X, sute lei)
nivelul de studii absolvite ( Y) și prezentată astfel:
Tabelul 3.3. Distribuția unui eșantion de persoane după salariul lunar obținut, pe nivele de studii
Salariu/Nivel de studii Liceale Universitare Post-universitare
10 1 0 0
12 2 0 0
19 0 2 0
22 0 2 0
25 0 0 1
27 0 0 2
Să se afle frecvența absolută parțială n32.
Rezolvare
Frecvența absolută parțială n32 este reprezentată de numărul de persoane care au un
salariu lunar egal cu x3=19 sute lei și au un nivel de studii universitare ( y2). Această frecvență
este n32=2.
Interpretare: Din numărul total de persoane din eșantion, 2 persoane au un salariu de 19 sute
lei și au studiile universitare absolvite.
72
c. Frecvențe absolute condiționate
Frecvențele absolute condiționate pot fi aflate pentru fiecare valoare xi a variabilei X,
respectiv pentru fiecare valoare yj a variabilei Y.
Frecvențele absolute condiționate de o valoare fixă xi a variabilei X sunt frecvențele
absolute nij înregistrate pe valori yj (condiționate de un nivel fix al variabilei X : X=xi).
Frecvențele absolute condiționate de o valoare fixă yj a variabilei Y sunt frecvențele
absolute nij înregistrate pe valori xi (condiționate de un nivel fix al variabilei Y: Y= yj).
Exemplul 3.4. Frecvențe absolute condiționate
Pentru distribuția prezentată în tabelul 3.1, să se precizeze frecvențele absolute
condiționate de nivelul X=x2 și frecvențele absolute condiționate de nivelul Y=y3.
Rezolvare
Frecvențele absolute condiționate de nivelul X=x 2
Nivelul de salariu corespunzător valorii x2 este 12 sute lei. Pentru această valoare,
frecvențele absolute condiționate sunt: 2, 0, 0.
Interpretare: Din numărul total de persoane care au un salariu lunar de 12 sute lei, 2 persoane
au studii liceale și nicio persoană nu are studii universitare sau post-universitare.
Frecvențele absolute condiționate de nivelul Y=y 3
Nivelul de studii corespunzător valorii y3 este nivelul post-universitar. Pentru această
valoare, frecvențele absolute condiționate sunt: 0,0,0,0,1,2.
Interpretare: Din numărul total de persoane care au studii post-universitare, nicio persoană nu
are un salariu lunar de 10, 12, 19 sau 22 sute lei, o persoană are 25 sute lei și 2 persoane au 27
sute lei.
Observație: Frecvențele condiționate sunt folosite pentru a forma distribuția condiționată în X,
respectiv Y (prezentate în paragraful 3.2.4).
73
3.2.2. Frecvențe relative marginale, parțiale și condiționate
a. Frecvențe relative marginale
Frecvențele relative marginale pentru variabila X, notate
if , reprezintă ponderea
unităților (frecvențelor absolute marginale ale variabilei X) pe valori xi ale variabilei X. Se
calculează astfel:
nnfi
i
.
Frecvențele relative marginale pentru variabila Y, notate
jf , reprezintă ponderea
unităților (frecvențelor absolute marginale ale variabilei Y) pe valori yj ale variabilei Y. Se
calculează astfel:
nnfj
j
.
Exemplul 3.5. Frecvențe relative marginale
Se consideră distribuția unui eșantion de persoane după salariul lunar ( X, sute lei ) și
nivelul de studii absolvite ( Y), prezentată astfel:
Tabelul 3.4. Distribuția unui eșantion de persoane după salariul lunar obținut, pe nivele de studii
Salariu/Nivel de studii Liceale Universitare Post-universitare
10 1 0 0
12 2 0 0
19 0 2 0
22 0 2 0
25 0 0 1
27 0 0 2
Să se afle frecvențele relative marginale pentru variabila X și variabila Y.
Rezolvare
Frecvențele relative marginale pentru variabila X (
)if
Frecvențele relative marginale pentru variabila X: Salariu se află împărțind frecvența
absolută marginală ( ni.) la numărul total de persoane din eșantion, după cum urmează:
– Salariul lunar x1=10 sute lei este obținut de 1 persoană din cele 10 persoane din
eșantion, deci
10, 01011
1
nnf sau 10%;
74
– Salariul lunar x2=12 sute lei este obținut de 2 persoane dintr-un total de 10, deci
20, 01022
1
nnf
sau 20%;
– ș.a.m.d.
Interpretare: Din numărul total de persoane din eșantion, 10% au un salariu lunar de 10 sute
lei, 20% au 12 sute lei etc.
Frecvențele absolute marginale pentru variabila Y (
)jf
Frecvențele absolute marginale pentru variabila Y: Nivel de studii se află împărțind
frecvența absolută marginală ( n.j) la numărul total de persoane din eșantion, după cum
urmează:
– Pentru nivelul de studii liceale, y1, avem 3 persoane dintr-un total de 10, deci
30, 01031
1
nnf
sau 30%;
– Pentru nivelul de studii universitare , y2, avem 4 persoane din 10, deci
40, 01042
2
nnf
sau 40%;
– Pentru nivelul de studii post-universitare, y2, avem 3 persoane din 10, deci
30, 01033
3
nnf
sau 30%.
Interpretare: Din numărul total de persoane din eșantion, 30% au studii liceale, 40% au studii
universitare și 30% au studii post-universitare.
b. Frecvențele relative parțiale (f ij)
Frecvențele relative parțiale reprezintă ponderea efectivelor nij care înregistrează în mod
simultan valorile xi pentru variabila X și yj pentru variabila Y. Se calculează după relația:
nnfij
ij
.
Exemplul 3.6. Frecvențe relative parțiale
Se consideră distribuția unui eșantion de persoane după salariul lunar ( X, sute lei ) și
nivelul de studii absolvite ( Y), prezentată astfel:
75
Tabelul 3.5. Distribuția unui eșantion de persoane după salariul lunar obținut, pe nivele de studii
Salariu/Nivel de studii Liceale Universitare Post-universitare
10 1 0 0
12 2 0 0
19 0 2 0
22 0 2 0
25 0 0 1
27 0 0 2
Să se afle frecvența relativă parțială f32.
Rezolvare
Frecvența relativă parțială f32 este reprezentată de ponderea persoanelor care au un
salariu lunar egal cu x3=19 sute lei și au un nivel de studii universitare ( y2). Această frecvență
este
20, 010232
32 nnf sau 20%.
Interpretare: Din numărul total de persoane din eșantion, 20% au un salariu de 19 sute lei și
au studiile universitare absolvite.
c. Frecvențe relative condiționate
Frecvențele relative condiționate pot fi aflate pentru fiecare valoare xi a variabilei X,
respectiv pentru fiecare valoare yj a variabilei Y.
Frecvențele relative condiționate de o valoare fixă xi a variabilei X sunt frecvențele
relative:
iij
i jnnf/ , cu i valoare fixă.
Frecvențele relative condiționate de o valoare fixă yj a variabilei Y sunt frecvențele
relative:
jij
j innf
/ , cu j valoare fixă.
Exemplul 3.7. Frecvențe relative condiționate
Pentru distribuția prezentată în tabelul 3.1, să se precizeze frecvențele relative
condiționate de nivelul X=x2 și frecvențele relative condiționate de nivelul Y=y3.
76
Rezolvare
Frecvențele relative condiționate de nivelul X=x 2
Nivelul de salariu corespunzător valorii x2 este 12 sute lei. Pentru această valoare,
frecvențele absolute condiționate sunt: 2, 0, 0. Numărul total de persoane cu salariul de 12
sute lei (
2n ) este deci 2+0+0=2 persoane.
Ponderea persoanelor care au un salariu de 12 sute lei pe diferite nivele de studii
absolvite este:
– Pentru nivelul de studii liceale:
122
11
1 /
nnfj
j sau 100%;
– Pentru nivelul de studii universitare:
020
22
2 /
nnfj
j ;
– Pentru nivelul de studii post-universitare:
020
33
3 /
nnfj
j .
Interpretare: Din numărul total de persoane care au un salariu lunar de 12 sute lei, toate
persoanele (100%) au studii liceale (nicio persoană nu are studii universitare sau post-
universitare).
Frecvențe relative condiționate de nivelul Y=y 3
Nivelul de studii corespunzător valorii y3 este nivelul post-universitar. Pentru această
valoare, frecvențele absolute condiționate sunt: 0,0,0,0,1,2. Număarul total de persoane cu
studii post-universitare (
3n ) este deci 0+0+..+1+2=3 persoane.
Ponderea persoanelor care au studii post-universitare pe nivele de salariu se calculează
astfel:
– Pentru salariul de 10 sute lei:
030
33
3 /
nnfi
i ;
– Pentru salariul de 12 sute lei:
030
33
3 /
nnfi
i ;
– Pentru salariul de 25 sute lei:
33, 031
33
3 /
nnfi
i ;
– Pentru salariul de 27 sute lei:
67, 032
33
3 /
nnfi
i .
77
Interpretare: Din numărul total de persoane care au studii post-universitare, nicio persoană nu
are un salariu lunar de 10, 12, 19 sau 22 sute lei, 33% au 25 sute lei și 67% au 27 sute lei.
3.2.3. Distribuții marginale
Folosind frecvențele absolute sau relative marginale, plecând de la o distribuție bivariată
se pot forma două distribuții marginale în X, respectiv în Y.
a. Distribuția marginală în X
Distribuția marginală în X este formată din valorile xi ale variabilei X și frecvențele
absolute sau relative marginale,
in , respectiv
if .
Forma generală a acestei distribuții este:
Tabelul 3.6. Distribuția marginală în X
Valori ale variabilei X ( xi) Frecvențe absolute marginale (
in ) Frecvențe relative marginale (
if )
x1
1n
1f
x2
2n
2f
xi
in
if
xm
mn
mf
TOTAL n 1
Exemplul 3.8. Distribuția marginală în X
Pentru distribuția persoanelor după salariul lunar ( X, sute lei ) și nivelul de studii ( Y),
prezentată în tabelul 3.1, să se formeze distribuția marginală în X.
Rezolvare
Pentru formarea distribuției marginale, se calculează frecvențele absolute și relative
marginale
in , respectiv
if .
Aceste valori sunt prezentate în ultimele coloane ale tabelelor de mai jos :
78
Tabelul 3.7. Distribuția frecvențelor absolute marginale în X
Salariu/ Nivel de studii Liceale Universitare Post-universitare TOTAL (
in)
10 1 0 0 1
12 2 0 0 2
19 0 2 0 2
22 0 2 0 2
25 0 0 1 1
27 0 0 2 2
TOTAL 10
Tabelul 3.8. Distribuția frecvențelor relative marginale în Y
Salariu/ Nivel de studii Liceale Universitare Post-universitare TOTAL (
if)
10 1 0 0 0,10
12 2 0 0 0,20
19 0 2 0 0,20
22 0 2 0 0,20
25 0 0 1 0,10
27 0 0 2 0,20
TOTAL 1
Distribuția marginală în X se prezintă astfel:
Tabelul 3.9. Distribuția marginală în X
Salariu Frecvențe absolute (
in ) Frecvențe relative (
if )
10 1 0,10
12 2 0,20
19 2 0,20
22 2 0,20
25 1 0,10
27 2 0,20
TOTAL 10 1
Interpretare: Din numărul total de persoane, o persoană, care reprezintă 10% din numărul
total de persoane din eșantion, are un salariu lunar de 10 sute lei; 2 persoane, care reprezintă
20% din total, au un salariu de 12 sute lei etc.
79
b. Distribuția marginală în Y
Distribuția marginală în Y este formată din valorile yj ale variabilei Y și frecvențele
absolute sau relative marginale,
jn , respectiv
jf .
Forma generală a acestei distribuții este:
Tabelul 3.10. Distribuția marginală în Y
Valori ale variabilei Y ( yj) Frecvențe absolute marginale (
jn ) Frecvențe r elative marginale (
jf )
y1
1n
1f
y2
2n
2f
yi
jn
jf
yp
pn
pf
TOTAL n 1
Exemplul 3.9. Distribuția marginală în Y
Pentru distribuția persoanelor după salariul lunar ( X, sute lei ) și nivelul de studii ( Y),
prezentată în tabelul 3.1, să se formeze distribuția marginală în Y.
Rezolvare
Pentru formarea distribuției marginale, se calculează frecvențele absolute și relative
marginale
jn , respectiv
jf . Aceste valori sunt prezentate în ultimele coloane ale tabelelor
de mai jos :
Tabelul 3.11. Distribuția frecvențelor absolute marginale în Y
Salariu/ Nivel de studii Liceale Universitare Post-universitare
10 1 0 0
12 2 0 0
19 0 2 0
22 0 2 0
25 0 0 1
27 0 0 2
80
TOTAL (
jn ) 3 4 3 10
Tabelul 3.12. Distribuția frecvențelor relative marginale în Y
Salariu/Nivel de studii Liceale Universitare Post-universitare
10 1 0 0
12 2 0 0
19 0 2 0
22 0 2 0
25 0 0 1
27 0 0 2
TOTAL (
jf) 0,30 0,40 0,30 1
Distribuția marginală în Y se prezintă astfel :
Tabelul 3.13. Distribuția marginală în Y
Nivel de studii Frecvențe absolute (
in ) Frecvențe relative (
if )
Liceale 3 0,30
Universitare 4 0,40
Post-universitare 3 0,30
TOTAL 10 1
Interpretare: Din numărul total de persoane, 3 persoane, care reprezintă 30% din numărul
total de persoane din eșantion, au studii liceale; 4 persoane, care reprezintă 40% din total, au
studii universitare și 3 persoane, care reprezintă 30% au studii post-universitare.
Observație: Distribuția marginală în X prezintă structura efectivelor pe nivele de salarizare,
iar distribuția marginală în Y prezintă structura pe nivele de studii absolvite.
3.2.4. Distribuții condiționate
Folosind frecvențele absolute sau relative condiționate, plecând de la o distribuție
bivariată se pot forma ( m+p) distribuții condiționate.
Distribuția condiționată a variabilei X este definită de valorile xi și frecvențele absolute
(nij) sau relative ( fi/j) condiționate de un nivel fix al lui Y: Y=yj.
Distribuția condiționată a variabilei Y este definită de valorile yj și frecvențele absolute
(nij) sau relative ( fj/i) condiționate de un nivel fix al lui X: X= xi.
81
Exemplul 3.10 . Distribuții condiționate în X și Y
Pentru distribuția prezentată în tabelul 3.1, să se formeze distribuția variabilei X
condiționată de nivelul Y=y3 și distribuția variabilei Y condiționată de nivelul X=x2 .
Rezolvare
Distribuția condiționată X/ Y=y 3
Nivelul de studii corespunzător valorii y3 este nivelul post-universitar. Distribuția pe
nivele de salarii pentru persoanele cu studii post-universitare, folosind frecvențe absolute și
relative condiționate, se prezintă astfel:
Tabelul 3.14. Distribuția persoanelor cu studii post-universitare pe nivele de salarii
Salariu Număr persoane Ponderea persoanelor
10 0 0
12 0 0
19 0 0
22 0 0
25 1 0,33
27 2 0,67
Total (
jn ) 3 1
Interpretare: Din numărul total de persoane care au studii po st-universitare, nicio persoană nu
are un salariu lunar de 10, 12, 19 sau 22 sute lei; o persoană, care reprezintă 33% din numărul
total de persoane, are 25 sute lei și 2 persoan3, care reprezintă 67% din numărul total de
persoane are 67%, au 27 sute lei.
Distribuția condiționată Y/ X=x 2
Nivelul de salariu corespunzător valorii x2 este 12 sute lei. Distribuția pe nivele de studii
absolvite pentru persoanele care au un salariu de 12 sute lei, folosind frecvențe absolute și
relative condiționate, se prezintă astfel:
Tabelul 3.15. Distribuția pe nivele de studii a persoanelor care au un salariu de 12 sute lei
Nivel de studii Număr persoane Ponderea persoanelor
Liceale 2 1
Universitare 0 0
Post-universitare 0 0
82
Total 2 1
Interpretare: Din numărul total de persoane care au un salariu lunar de 12 sute lei, toate
persoanele (100%) au studii liceale (nicio persoană nu are studii universitare sau post-
universitare).
3.3. Analiza statistică descriptivă a distribuției bivariate
Analiza statistică descriptivă a unei distribuții bivariate după o variabilă cantitativă ( X)
și o variabilă calitativă ( Y) presupune, ca și în cazul analizei univariate, aprecierea tendinței
centrale (mediei variabilei X) și dispersiei valorilor variabilei X față de nivelul mediu. În
acest caz, însă, analiza descriptivă (calculul mediei și varianței variabilei X) se realizează pe
grupe (categorii) ale variabilei Y.
3.3.1. Media pe total eșantion (
x )
Aprecierea tendinței centrale a variabilei cantitative se realizează prin calculul mediei
variabilei X sau mediei pe total eșantion.
Media variabilei X poate fi calculată atât ca medie a valorilor xi, considerând distribuția
marginală a variabilei X, cât și ca medie a mediilor calculate pentru fiecare grupă (categorie) a
variabilei calitative Y.
a. Media pe total calculată pe baza distribuției marginale (
x )
Ca și în cazul unei distribuții univariate, considerând frecvențele absolute și relative
marginale,
in și
if, media se calculează după relațiile:
ii iii i
f xnn x
x
.
83
Exemplul 3.11. Media pe total eșantion
Se consideră distribuția marginală prezentată în tabelul de mai jos:
Tabelul 3.16. Distribuția marginală în X
Salariu Frecvențe absolute (
in ) Frecvențe relative (
if )
10 1 0,10
12 2 0,20
19 2 0,20
22 2 0,20
25 1 0,10
27 2 0,20
Total 10 1
Să se calculeze salariul mediu pe total eșantion.
Rezolvare
Salariul mediu pe total eșantion se calculează astfel :
– folosind frecvențe absolute marginale :
50,1910227… 212110
nn x
xii i
sute lei
– folosind frecvențe absolute marginale :
50,19 20, 027…20, 012 10, 010
ii if x x
sute lei
Interpretare: Salariul mediu al persoanelor din eșantionul observat este de 19,5 sute lei.
b. Media pe total calculată pe baza mediilor condiționate (pe grupe) (
jx )
Pentru o variabilă cantitativă, X, se pot calcula medii pentru fiecare categorie (grupă) a
variabilei Y. Mediile pe categorii ale variabilei Y se calculează astfel:
jiiji
jnn x
x
, cu i=1, m și j=1, p.
Folosind mediile condiționate pe grupe, se poate calcula media pe total ca o medie a
mediilor condiționate, astfel:
84
nn x
xjj j
.
Exemplul 3.12. Medii condiționate (pe grupe)
Pentru distribuția din tabelul 3.1, să se calculeze salariile medii pentru persoanele cu
studii liceale, universitare și post-universitare.
Rezolvare
Distribuțiile condiționate pentru cele 3 nivele de studii se prezintă astfel:
Tabelul 3.17. Distribuțiile condiționate de valorile variabilei Y
Studii liceale
Salariu Nr. persoane
10 1
12 2
19 0
22 0
25 0
27 0
Total 3
Studii universitare
Salariu Nr. persoane
10 0
12 0
19 2
22 2
25 0
27 0
Total 4
Studii post -universitare
Salariu Nr. persoane
10 0
12 0
19 0
22 0
25 1
27 2
Total 3
Salariile medii pentru fiecare nivel de studii se calculează astfel :
– pentru nivelul de studii liceale:
333,113027…019212110
1 x
sute lei;
– pentru nivelul de studii universitare:
50,204027…222219012010
2 x
sute lei;
– pentru nivelul de studii post-universitare:
333,263227125…012010
3 x
sute lei.
Interpretare: Salariul mediu al persoanelor cu studii liceale este de 11,333 sute lei, al
persoanelor cu studii universitare este de 20,5 sute lei iar al persoanelor cu studii post-
universitare este de 26,333 sute lei.
85
Exemplul 3.13. Calculul mediei pe total folosind mediile condiționate
Pentru distribuția din tabelul 3.17, să se calculeze salariul mediu pentru eșantionul
observat, știind că :
333,111x sute lei,
50,202x sute lei și
333,263x sute lei.
Rezolvare
Media pe total se calculează ca o medie ponderată astfel :
5 ,19103 333 ,26450,203 333 ,11 x
sute lei.
Interpretare: Salariul mediu al persoanelor din eșantionul observat este de 19,5 sute lei.
Observație: Media pe total (19,5 sute lei) este aceiași folosind distribuția marginală în X sau
mediile condiționate oe grupe ale variabilei Y.
3.3.2. Varianța pe total eșantion (
2s )
Aprecierea dispersiei la nivelul eșantionului se realizează prin calculul varianței. În
cazul observării unei variabile cantitative ( X) pe grupe sau categorii ale unei variabile
calitative Y, pentru a explica variația valorilor xi față de media lor, variația totală se
descompune în următoarele componente:
– Variația intra-grupe sau variația în interiorul fiecărei grupe a variabilei calitative.
Măsurarea variației intra-grupe se realizează prin calculul varianței intra-grupe. Pentru
a aprecia varianța intra-grupe la nivelul întregului eșantion, se calculează media
acestor varianțe de grupă. Acest indicator măsoară influența factorilor aleatori asupra
variației totale.
– Variația inter-grupe sau variația mediei fiecărei grupe față de media totală. Măsurarea
variației inter-grupe se realizează prin calculul varianței inter-grupe. Această varianță
măsoară influența factorilor esențiali (de grupare) asupra variației totale.
Relația de descompunere a varianței totale poate fi scrisă astfel:
Varianța totală = Varianța intra-grupe + Varianța inter-grupe
86
a. Varianța intra-grupe
Varianța intra-grupe la nivelul întregului eșantion se calculează ca medie a varianțelor
calculate la nivelul fiecărei grupe a variabilei calitative Y. Varianța calculată pe fiecare grupă
se numește și varianță condiționată (pe grupe).
a.1. Varianța condiționată (pe grupe) (
2
js )
Varianța condiționată (pe grupe) măsoară variația valorilor unei variabile X pe categorii
(grupe) ale unei variabile Y. Considerând variabila cantitativă X, varianțele condiționate,
pentru fiecare grupă j a variabilei Y, se calculează astfel :
jiij j i
jnn x x
s
2
2) (
.
Aceste varianțe măsoară omogenitatea unei grupe și permit aprecierea reprezentativității
mediei pe fiecare grupă a variabilei Y.
Exemplul 3.14. Calculul varianțelor condiționate (pe grupe)
Pentru distribuția din tabelul 3.1, să se calculeze varianțele condiționate pentru cele 3
categorii de nivel de studii absolvite, știind că :
333,111x sute lei,
50,202x sute lei și
333,263x
sute lei.
Rezolvare
Distribuțiile condiționate pentru cele 3 nivele de studii se prezintă astfel :
Tabelul 3.18. Distribuțiile condiționate de valorile variabilei Y
Studii liceale
Salariu Nr. persoane
10 1
12 2
19 0
22 0
25 0
27 0 Studii universitare
Salariu Nr. persoane
10 0
12 0
19 2
22 2
25 0
27 0 Studii post -universitare
Salariu Nr. persoane
10 0
12 0
19 0
22 0
25 1
27 2
87
Total 3
Total 4
Total 3
Varianțele condiționate pe grupe se calculează astfel :
– pentru nivelul de studii liceale:
8889, 030 )333,11 27(…2 )333,11 12( 1 ) 333,11 10(2 2 2
2
1 s
;
– pentru nivelul de studii universitare:
25, 240 )50,20 27(…2 )50,20 19( 0 )50,20 12( 0 )50,20 10(2 2 2 2
2
2 s
;
– pentru nivelul de studii post-universitare:
8889, 032 )333,26 27( 1 ) 333,26 25(…0 )333,26 10(2 2 2
2
3 s
.
Interpretare: Varianțele condiționate nu se interpretează. Pentru aprecierea variației trebuie
calculate abaterile standard.
Exemplul 3.15. Aprecierea omogenității grupelor
Se cunosc mediile și varianțele pentru 3 nivele de studii absolvite, prezentate astfel:
Studii liceale
333,111x
sute lei
8889 , 02
1s
Studii universitare
50,202x
sute lei
25, 22
2s
Studii post -universitare
333,263x
sute lei
8889 , 02
3s
Se cere să se aprecieze omogenitatea fiecărei grupe.
Rezolvare
Pentru aprecierea omogenității fiecărei grupe, se calculează coeficientul de variație
astfel:
– pentru nivelul de studii liceale:
%32, 8100333,118889 , 0100
11
1 xsv
– pentru nivelul de studii universitare:
%31, 710050,2025, 2100
22
2 xsv
– pentru nivelul de studii post-universitare:
88
%58, 3100333,268889, 0100
33
3 xsv
Interpretare: Valorile coeficienților de variație (mai mici decât 50%) evidențiază faptul că
toate cele 3 grupe de studii absolvite sunt omogene din punctul de vedere al salariului lunar,
iar mediile calculate sunt reprezentative pentru fiecare grupă.
a.2. Media varianțelor de grupă (
2s )
Pentru a măsura variația intra-grupe la nivelul eșantionului observat, se calculează
media varianțelor de grupă. Considerând varianțele condiționate calculate pentru fiecare grupă
j a variabilei Y (
2
js), media varianțelor de grupă se calculează astfel :
nn s
sjj j
2
2
.
Media varianțelor de grupă arată influența factorilor aleatori asupra variației salariului.
Exemplul 3.16. Media varianțelor de grupă
Se cunosc mediile și varianțele pentru cele 3 nivele de studii absolvite, prezentate astfel :
Studii liceale
333,111x
sute lei
8889 , 02
1s
31n
Studii universitare
50,202x
sute lei
25, 22
2s
42n
Studii post -universitare
333,263x
sute lei
8889 , 02
3s
33n
Se cere să se măsoare influența factorilor aleatori asupra variației salariului.
Rezolvare
Pentru aprecierea influenței factorilor aleatori asupra variației salariului se calculează
media varianțelor de grupă astfel :
433, 11038889, 0 425, 2 3 8889, 02 s
89
b. Varianța inter-grupe (
2
jxs )
Varianța inter-grupe se calculează ca varianța mediilor de grupă (
jx )față de media lor
(
x), astfel:
nn x x
sjj j
xj
2
2) (
.
Varianța mediilor de grupă față de media lor arată influența factorilor esențiali, de
grupare asupra variației salariului (variația inter-grupe).
Exemplul 3.17. Varianța inter-grupe
Se cunosc mediile și varianțele pentru cele 3 nivele de studii absolvite, prezentate astfel:
Studii liceale
333,111x
sute lei
8889, 02
1s
31n
Studii universitare
50,202x
sute lei
25, 22
2s
42n
Studii post -universitare
333,263x
sute lei
8889, 02
3s
33n
Se cunoaște că media pe total este 19,5 sute lei.
Se cere să se măsoare influența factorilor esențiali asupra variației salariului.
Rezolvare
Pentru aprecierea influenței factorilor esențiali asupra variației salariului se calculează
varianța mediilor de grupă față de media lor astfel:
44, 3103 ) 5 ,19 333,26( 4 ) 5 , 19 50,20( 3 ) 5 , 19 333,11(2 2 2
2
jxs
.
c. Varianța totală (
2s )
Varianța totală este suma varianței intra-grupe și a varianței inter-grupe.
2 2 2
jxs s s
.
Plecând de la această relație, se pot calcula 2 coeficienți, k1 și k2, după cum urmează:
90
– Coeficientul
10022
1 ss
kjx măsoară influența factorilor esențiali asupra variației
variabilei X;
– Coeficientul
10022
2 ssk măsoară influența factorilor aleatori asupra variației
variabilei X.
Suma acestor 2 coeficienți este 100, astfel încât se poate considera că atunci când k1>k2,
factorii esențiali au o influență mai mare asupra variației variabilei X față de factorii aleatori.
Exemplul 3.18. Măsurarea influenței factorilor esențiali și aleatori asupra variației
Pentru distribuția unui eșantion de persoane după salariul obținut și nivelul de studii, se
cunosc următoarele rezultate :
433, 12s
;
44, 32
jxs .
Se cere să se aprecieze care factori (esențiali sau aleatori) au o influență mai mare
asupra variației salariului.
Rezolvare
Pentru a măsura influența factorilor esențiali și aleatori asupra variației unei variabile, se
află varianța totală :
873, 4433, 144, 32 2 2 s s s
jx
.
Coeficientul care măsoară influența factorilor esențiali asupra variației salariului este:
%59,70100873 , 444, 310022
1
ss
kjx
;
Coeficientul care măsoară influența factorilor aleatori asupra variației salariului este:
%41,29 100873, 4433, 110022
2
ss
k
.
Interpretare: Coeficientul ( k1=70,59%)>(k 2=29,41%) ceea ce arată că factorii esențiali au o
influență mai mare asupra variației variabilei X față de factorii aleatori.
Copyright Notice
© Licențiada.org respectă drepturile de proprietate intelectuală și așteaptă ca toți utilizatorii să facă același lucru. Dacă consideri că un conținut de pe site încalcă drepturile tale de autor, te rugăm să trimiți o notificare DMCA.
Acest articol: Bs Partea1 Statistica Descriptiva (1) [619465] (ID: 619465)
Dacă considerați că acest conținut vă încalcă drepturile de autor, vă rugăm să depuneți o cerere pe pagina noastră Copyright Takedown.
