Statistic a Aplicat a [625399]
Statistic ˘a Aplicat ˘a
Iulian Stoleriu
Copyright © 2019 Iulian Stoleriu
Cuprins
1 No¸ tiuni recapitulative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1 Popula¸ tie statistic ˘a 5
1.2 Variabile aleatoare 7
1.3 Func¸ tia de reparti¸ tie (sau func¸ tia de reparti¸ tie cumulat ˘a) 9
1.4 Parametrii popula¸ tiei 9
1.5 Statistici 14
1.5.1 Exemple de statistici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.6 Legi limit ˘a în Teoria Probabilit ˘a¸ tilor 16
1.6.1 Legea tare a numerelor mari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.6.2 Teorema limit ˘a central ˘a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2 Generarea în MATLAB a datelor statistice . . . . . 19
2.1 Generarea de numere aleatoare în MATLAB 19
2.1.1 Func¸ tia rand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1.2 Func¸ tia randn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.1.3 Generarea de numere aleatoare de o reparti¸ tie cunoscut ˘a . . . . . . . . . 21
2.2 Simularea unui experiment aleator 23
2.2.1 Simularea arunc ˘arii unei monede . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2.2 Simularea în MATLAB a unei variabile aleatoare de tip discret . . . . . . . . 23
2.3 Reparti¸ tii probabilistice în MATLAB 25
2.4 Exerci¸ tii rezolvate 26
2.5 Exerci¸ tii propuse 30
3 Elemente de Statistic ˘a descriptiv ˘a. . . . . . . . . . . . . . . . . . . . . . 33
3.1 Organizarea ¸ si descrierea datelor 33
3.1.1 Gruparea datelor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2 Reprezentarea datelor statistice 37
3.2.1 Reprezentare prin puncte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2.2 Reprezentarea stem-and-leaf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2.3 Reprezentarea cu bare (bar charts) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2.4 Histograme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.2.5 Reprezentare prin sectoare de disc (pie charts) . . . . . . . . . . . . . . . . . . . . 41
3.2.6 Ogive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.2.7 Diagrama Q-Q sau diagrama P-P . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.3 M ˘asuri descriptive ale datelor negrupate 43
3.4 M ˘asuri descriptive ale datelor grupate 47
3.5 Transform ˘ari de date 48
3.5.1 Func¸ tii MATLAB specifice pentru m ˘asurile descriptive. . . . . . . . . . . . . . . . 50
3.6 Exerci¸ tii rezolvate 50
3.7 Exerci¸ tii propuse 53
4 No¸ tiuni de Teoria selec¸ tiei statistice . . . . . . . . . . . . . . . . . . . . . 55
4.1 Considera¸ tii generale 55
4.2 Exemple de statistici 57
4.3 Statistici de ordine 60
4.4 Selec¸ tii aleatoare pentru caracteristici normale 61
4.5 Exerci¸ tii rezolvate 66
4.6 Exerci¸ tii propuse 70
5 Estimatori. Intervale de incredere . . . . . . . . . . . . . . . . . . . . . . . 73
5.1 Defini¸ tii 73
5.2 Metode folosite pentru estimarea parametrilor 76
5.2.1 Metoda verosimilit ˘a¸ tii maxime . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.2.2 Metoda momentelor (K. Pearson) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.3 Estimarea parametrilor prin intervale de încredere 79
5.3.1 Interval de încredere pentru medie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.3.2 Interval de încredere pentru dispersie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
5.3.3 Interval de încredere pentru propor¸ tie . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
5.3.4 Interval de încredere pentru diferen¸ ta mediilor . . . . . . . . . . . . . . . . . . . . . 85
5.3.5 Interval de încredere pentru raportul dispersiilor . . . . . . . . . . . . . . . . . . . . 86
5.3.6 Interval de încredere pentru diferen¸ ta propor¸ tiilor . . . . . . . . . . . . . . . . . . 86
5.4 Tabel cu intervale de încredere 87
5.5 Estima¸ tii prin M ATLAB 88
5.6 Exerci¸ tii rezolvate 89
5.7 Exerci¸ tii propuse 97
6 Testarea ipotezelor statistice . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
6.1 Punerea problemei 101
6.2 Tipuri de teste statistice 103
6.2.1 Etapele unei test ˘ari parametrice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
6.3 Teste parametrice 105
6.3.1 Testul tpentru medie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
6.3.2 Test pentru dispersie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
6.3.3 Test pentru propor¸ tie într-o popula¸ tie binomial ˘a . . . . . . . . . . . . . . . . . . . 107
6.4 Teste parametrice pentru dou ˘a popula¸ tii 107
6.4.1 Testul tpentru diferen¸ ta mediilor a dou ˘a selec¸ tii . . . . . . . . . . . . . . . . . . 107
6.4.2 Testul Fpentru raportul a dou ˘a dispersii . . . . . . . . . . . . . . . . . . . . . . . . . 108
6.4.3 Testul pentru egalitatea a dou ˘a propor¸ tii . . . . . . . . . . . . . . . . . . . . . . . . . 109
6.5 Teste parametrice în MATLAB 110
6.5.1 Testul tpentru o selec¸ tie în MATLAB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
6.5.2 Testul tpentru dou ˘a selec¸ tii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
6.5.3 Test pentru dispersie în MATLAB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
6.5.4 Testul Fîn M ATLAB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
6.6 Exerci¸ tii rezolvate 113
6.7 Exerci¸ tii propuse 117
7 Teste de concordan¸ t ˘a. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
7.1 Testul c2de concordan¸ t ˘a 119
7.1.1 Cazul neparametric . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
7.1.2 Cazul parametric . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
7.2 Testul de concordan¸ t ˘a Kolmogorov-Smirnov 122
7.2.1 Testul K-S pentru o selec¸ tie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
7.2.2 Testul K-S pentru dou ˘a selec¸ tii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
7.3 Teste de concordan¸ t ˘a în M ATLAB 124
7.4 Testarea tipului de date experimentale 124
7.5 Test de independen¸ t ˘a folosind tabele de contingen¸ t ˘a 127
7.5.1 Testul exact al lui Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
7.6 Exerci¸ tii rezolvate 133
7.7 Exerci¸ tii propuse 141
8 Teste neparametrice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
8.1 Testul semnelor 148
8.1.1 Testul semnelor pentru date perechi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
8.2 Testul seriilor pentru caracterul aleator 150
8.3 Testul Wald-Wolfowitz (Wald-Wolfowitz two-sample runs test) 152
8.4 Testul Wilcoxon bazat pe ranguri cu semn ( Wilcoxon Signed-Rank Test )
154
8.5 Testul tpentru date perechi 155
8.6 Testul Wilcoxon pentru date perechi 156
8.7 Testul Wilcoxon bazat pe suma rangurilor ( Wilcoxon rank-sum test ) 157
8.8 Teste neparametrice în MATLAB 158
8.8.1 Testul semnelor în MATLAB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
8.8.2 Testul seriilor în MATLAB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
8.8.3 Testele Wilcoxon in MATLAB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
8.9 Exerci¸ tii rezolvate 162
8.10 Exerci¸ tii propuse 164
9 Teste de ree¸ santionare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
9.1 Teste de permutari 168
9.2 Bootstrapping 170
9.3 Metoda Monte Carlo 172
9.4 Exerci¸ tii rezolvate 179
9.5 Exerci¸ tii propuse 183
10 Corela¸ tie ¸ si regresie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
10.1 Introducere 185
10.2 Corela¸ tie ¸ si coeficient de corela¸ tie 186
10.2.1 Test statistic pentru coeficientul de corela¸ tie . . . . . . . . . . . . . . . . . . . . . . 188
10.3 Coeficientul de corela¸ tie Spearman 190
10.4 Probleme rezolvate 191
10.5 Probleme propuse 192
11 Regresie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
11.1 Punerea problemei 195
11.2 Regresie liniar ˘a simpl ˘a 197
11.2.1 Intervale de încredere pentru parametrii de regresie . . . . . . . . . . . . . . . 201
11.2.2 Test statistic pentru b1(panta dreptei de regresie) . . . . . . . . . . . . . . . . . 202
11.2.3 Test statistic pentru b0. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
11.3 Predic¸ tie prin regresie 203
11.4 Validitatea modelului de regresie liniara simpla 205
11.5 Regresie liniara multipla 207
11.5.1 Test statistic pentru semnifica¸ tia coeficien¸ tilor de regresie multipl ˘a,bi. 208
7
11.6 Validitatea modelului de regresie liniar ˘a multipl ˘a 209
11.7 Alte tipuri de regresie 210
11.8 Regresie logistic ˘a 210
11.9 Func¸ tii MATLAB specifice corela¸ tiei ¸ si regresiei 214
11.10 Probleme rezolvate 215
11.11 Probleme propuse 226
12 ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
12.1 One-way ANOVA 232
12.2 Two-way ANOVA 236
12.3 Exerci¸ tii rezolvate 241
12.3.1 Exemplu numeric pentru one-way ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . 241
12.3.2 Exemplu numeric pentru two-way ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . 244
12.4 Probleme propuse 247
13 Anexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249
13.1 Scurt ˘a introducere în MATLAB 249
13.2 Reparti¸ tii probabilistice uzuale 255
13.2.1 Reparti¸ tii discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255
13.2.2 Reparti¸ tii continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257
13.3 Tabele de valori critice 262
Bibliografie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 268
Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269
8
1.No¸ tiuni recapitulative
. Statistics is the art of never having to say that you are wrong
1.1 Popula¸ tie statistic ˘a
Opopula¸ tie (colectivitate) statistic˘ a este o mul¸ time de elemente ce posed ˘a o trasatur ˘a
comun ˘a ce urmeaz ˘a a fi studiat ˘a. Aceasta poate fi finit ˘a sau infinit ˘a, real ˘a sau imaginar ˘a. In
acest material vom nota populatia statistica cu W. Din punct de vedere matematic, Weste
o multime nevida. Elementele ce constituie o colectivitate statistic ˘a se vor numi unit˘ a¸ ti
statistice sauindivizi . V om nota cu wo unitate statistic ˘a. Dac ˘a popula¸ tia este finit ˘a, atunci
num˘arulNal unit ˘a¸ tilor statistice ce o compun (i.e., jWj) îl vom numi volumul colectivit˘ a¸ tii
(sau volumul popula¸ tiei ).
Caracteristica (variabila ) unei popula¸ tii statistice este o anumit ˘a proprietate urm ˘arit˘a la
indivizii ei în procesul prelucr ˘arii statistice ¸ si care constituie obiectul m ˘asur˘arii. Spre
exemplu, inaltimea barbatilor dintr-o anumita tara, rata infiltrarii apei in solul urban, media
la Bacalaureat, altitudinea, culoarea frunzelor, nationalitatea participantilor la un congres
international etc. Din punct de vedere matematic, caracteristica este reprezentata printr-o
variabila aleatoare definita pe W. Spre exemplu, daca populatia statistica este mul¸ timea
tuturor studen¸ tilor dintr-o universitate înrola¸ ti în anul întâi de master, atunci o caracteristica
a sa ar fi media la licen¸ t ˘a ob¸ tinut ˘a de fiecare dintre ace¸ sti studen¸ ti. Teoretic, mul¸ timea
valorilor acestei caracteristici este intervalul [6;10], iar aceasta variabila poate lua orice
valoare din acest interval. Caracteristicile pot fi: cantitative (sau m˘ asurabile saunumerice )
(e.g., 2;3;5:75;1=3; :::) sau calitative (categoriale sauatribute ) (e.g., albastru, foarte
bine, german etc). La rândul lor, variabilele cantitative pot fi discrete (num ˘arul de sosiri
ale unui tramvai în sta¸ tie) sau continue (timpul de a¸ steptare între dou ˘a sosiri ale tramvaiului
în sta¸ tie). Caracteristicile pot depinde de unul sau mai multi parametri, parametrii fiind
10 Capitolul 1. No¸ tiuni recapitulative
astfel caracteristici numerice ale colectivit ˘a¸ tii.
V om numi date (sau date statistice ) informa¸ tiile ob¸ tinute în urma observa¸ tiei valorilor unei
caracteristici a unei populatii statistice. In cazul mentionat mai sus, datele sunt mediile
la licen¸ t ˘a observate. În general, datele pot fi calitative (se mai numesc ¸ si categoriale )
saucantitative , dup ˘a cum caracteristica (sau variabila) observat ˘a este calitativ ˘a (exprima
o calitate sau o categorie) sau, respectiv, cantitativ ˘a (are o valoare numerica). Totodata,
aceste date pot fi date de tip discret , dac ˘a sunt ob¸ tinute în urma observ ˘arii unei caracteristici
discrete (o variabila aleatoare discret ˘a, sau o variabila ale carei posibile valori sunt in
numar finit sau cel mult numarabil), sau date continue , dac ˘a aceast ˘a caracteristic ˘a este
continu ˘a (o variabil ˘a aleatoare de tip continuu, sau o variabila ce poate lua orice valoare
dintr-un interval sau chiar de pe axa reala). În cazul din exemplul de mai sus, datele vor
fi cantitative ¸ si continue. Datele calitative mai pot fi nominale sauordinale . Variabilele
nominale au nivele distincte, fara a avea o anumita ordine. De exemplu, culoarea parului,
sau genul unei persoane. Pe de alta parte, valorile ordinale fac referinta la ordinea lor.
De exemplu: schimbarea starii unui pacient dupa un anumit tratamen (aceasta poate fi:
imbunatatire semnificativa, imbunatatire moderata, nicio schimbare, inrautatire moderata,
inrautatire semnificativa).
În Statistic ˘a, se obisnuieste a se nota variabilele (caracteristicile) cu litere mari, X;Y;X; :::,
si valorile lor cu litere mici, x;y;x; :::.
In general, volumul colectivitatii poate fi foarte mare sau chiar infinit, astfel ca efectuarea
unui recensamant (i.e., observarea caracteristicii de interes pentru toate elementele ce
compun colectivitatea) este fie foarte costisitoare sau imposibila. Pentru a efectua o analiza
a caracteristicii de interes sau chiar a repartitiei datelor observate, este suficienta analiza
unei selectii de volum suficient de mare formata din observatii ale caracteristicii, urmand
ca aceasta analiza sa fie extrapolata (folosind metode statistice specifice) pentru intreaga
populatie.
Oselec¸ tie (sau e¸ santion ) este o colectivitate par¸ tial ˘a de elemente extrase (la întâmplare
sau nu) din colectivitatea general ˘a, în scopul cercet ˘arii lor din punctul de vedere al unei
caracteristici. Dac ˘a extragerea se face la întâmplare, atunci spunem c ˘a am facut o selec¸ tie
întâmpl˘ atoare . Num ˘arul indivizilor din selec¸ tia aleas ˘a se va numi volumul selec¸ tiei . Dac ˘a
se face o enumerare sau o listare a fiec ˘arui element component al unei a popula¸ tii statistice,
atunci spunem c ˘a am facut un recens˘ amânt . Selec¸ tia ar trebui s ˘a fie reprezentativ ˘a pentru
popula¸ tia din care face parte. Numim o selec¸ tie repetat˘ a (sau cu repeti¸ tie ) o selec¸ tie în
urma c ˘areia individul ales a fost reintrodus din nou în colectivitate. Altfel, avem o selec¸ tie
nerepetat˘ a . Selec¸ tia nerepetat ˘a nu prezint ˘a interes dac ˘a volumul colectivit ˘a¸ tii este finit,
deoarece în acest caz probabilitatea ca un alt individ s ˘a fie ales într-o extragere nu este
aceea¸ si pentru to¸ ti indivizii colectivit ˘a¸ tii. Pe de alt ˘a parte, dac ˘a volumul întregii popula¸ tii
statistice este mult mai mare decât cel al e¸ santionului extras, atunci putem presupune c ˘a
selec¸ tia efectuat ˘a este repetat ˘a, chiar dac ˘a în mod practic ea este nerepetat ˘a.
Selec¸ tiile aleatoare se pot realiza prin diverse metode, în func¸ tie de urm ˘atorii factori:
disponibilitatea informa¸ tiilor necesare, costul opera¸ tiunii, nivelul de precizie al informa¸ ti-
ilor etc. Câteva metode de selec¸ tie: selec¸ tie simpl ˘a, selec¸ tie sistematic ˘a, selec¸ tie stratificat ˘a,
selec¸ tie ciorchine, selec¸ tia de tip experien¸ t ˘a, selec¸ tie de convenien¸ t ˘a, selec¸ tie de cot ˘a etc.
Parametrii sunt masuri descriptive numerice ce reprezinta populatia. Deoarece nu avem
acces la intreaga populatie, parametrii sunt niste constante necunoscute, ce urmeaza a fi
explicate sau estimate pe baza datelor. Spre exemplu, pentru variabilele cantitative ale
1.2 Variabile aleatoare 11
populatiei, putem avea: parametri care sa descrie tendinta centrala a populatiei (e.g., media,
mediana, momente), parametri care sa descrie dispersia datelor (e.g., dispersia, deviatia
standard, coeficient de variatie), parametri de pozitie (e.g., cuantile), parametri ce descriu
forma (e.g., skewness, kurtosis). Pentru date bidimensionale, datele pot fi descrise de
parametrii ce descriu legatura intre variabile: corelatia sau coeficientul de corelatie. Pentru
date calitative (categoriale), cei mai des utilizati parametri sunt: p proportia din populatie
ce are caracteristica de interes (e.g., numarul de fumatori din tara), cote (sanse teoretica
pentru observarea caracteristicii de interes la intreaga populatie) (e.g., exista 70% sanse sa
ploua maine).
Pe baza unei selectii, putem construi diversi indicatori statistici care sa estimeze parametrii
necunoscuti, obtinand descrieri numerice pentru populatie. Astfel de indicatori se numesc
statistici . Prin intermediul statisticilor putem trage concluzii despre popula¸ tia W, din care
a provenit e¸ santionul observat. Teoria probabilit ˘a¸ tilor ne ofer ˘a procedee de determinare
a reparti¸ tiei asimptotice a unei statistici, sau chiar, in anumite cazuri, a statisticii exacte.
Reparti¸ tia exact˘ a este acea reparti¸ tie ce poate fi determinat ˘a pentru orice volum al selec¸ tiei.
În general, dac ˘a se lucreaz ˘a cu selec¸ tii de volum redus ( n<30), atunci reparti¸ tia exact ˘a ar
trebui s ˘a fie cunoscut ˘aa priori , dac ˘a se dore¸ ste luarea de decizii prin inferen¸ t ˘a.Reparti¸ tia
asimptotic˘ a este reparti¸ tia limit ˘a a statisticii când n!¥, iar utilizarea acesteia conduce la
rezultate bune doar pentru n30.
In concluzie, plecand de la o multime de date, Statistica isi propune sa extraga informatii
din acestea. Mai concret, detine metodele necesare de a realiza urmatoarele cerinte:
sa descrie cat mai fidel si sugestiv acele date (prin grafice sau indicatori statistici), sa
estimeze anumiti parametri de interes (e.g., media teoretica, deviatia standard, asimetria
ale caracteristicii), sa verifice prin inferenta ipotezele ce se pot face referitoare la anumiti
parametri ai caracteristicii sau chiar la forma acesteia.
1.2 Variabile aleatoare
În general, rezultatul posibil al unui experiment aleator poate fi asociat unei valori reale,
precizând regula de asociere. O astfel de regul ˘a de asociere se nume¸ ste variabil˘ a aleatoare
(prescurtat, v.a.). Se nume¸ ste ”variabil ˘a” deoarece poate lua valori diferite, se nume¸ ste
”aleatoare” deoarece valorile observate depind de rezultatele experimentului aleator, ¸ si
este "real ˘a" deoarece valoarea numeric ˘a este un num ˘ar real. A¸ sadar, din punct de vedere
euristic, o variabil˘ a aleatoare este o cantitate ce poate avea orice valoare dintr-o multime
data, fiecarei valori atribuindu-se o anumita pondere (frecventa relativa). În via¸ t ˘a de
zi cu zi întâlnim numeroase astfel de func¸ tii, e.g., numerele ce apar la extragerea loto,
rezultatul masurarii fertilitatii solului in diverse locatii, num ˘arul clien¸ tilor deservi¸ ti la un
anumit ghi¸ seu într-o anumit ˘a perioad ˘a, timpul de a¸ steptare a unei persoane într-o sta¸ tie
de autobuz pân ˘a la sosirea acestuia, calificativele ob¸ tinute de elevii de clasa a IV-a la un
test de matematic ˘a etc. De regula, variabilele aleatoare sunt notate cu litere de la sfâr¸ situl
alfabetului, X;Y;Zsaux;h;zetc.
Exemplu 1.1 Un exemplu simplu de variabila aleatoare este urm ˘atorul. Consider ˘am
experimentul aleator al arunc ˘arii unei monede. Acest experiment poate avea doar dou ˘a
rezultate posibile, notate S(stema) ¸ si B(banul). A¸ sadar, spa¸ tiul selec¸ tiilor este W=fS;Bg.
Acestui experiment aleator îi putem ata¸ sa variabila aleatoare real ˘aX, care asociaz ˘a fe¸ tei S
12 Capitolul 1. No¸ tiuni recapitulative
valoarea 1¸ si fe¸ tei Bvaloarea 0. Matematic, scriem astfel: X:W!R;X(S) =1;X(B) =0.
Astfel, valorile 1¸ si0pentru Xvor indica fa¸ ta ap ˘arut˘a la aruncarea monedei. O astfel de
variabil ˘a aleatoare se nume¸ ste variabil˘ a aleatoare Bernoulli ¸ si poate fi ata¸ sat ˘a oric ˘arui
eveniment aleator ce are doar dou ˘a rezultate posibile, numite generic succes ¸ sie¸ sec.
Variabilele aleatoare (prescurtat v.a.) pot fi discrete sau continue. Variabilele aleatoare
discrete sunt cele care pot lua o mul¸ time finit ˘a sau cel mult num ˘arabil ˘a (adica, o multime
care poate fi numarata) de valori. O variabil ˘a aleatoare se nume¸ ste variabil˘ a aleatoare
continu˘ a (saude tip continuu ) dac ˘a mul¸ timea tuturor valorilor sale este totalitatea numerelor
dintr-un interval real (posibil infinit) sau toate numerele dintr-o reuniune disjunct ˘a de astfel
de intervale, cu precizarea c ˘a pentru orice posibil ˘a valoare c,P(X=c) =0.
Exemple de v.a. discrete: num ˘arul fe¸ tei ap ˘arute la aruncarea unui zar, num ˘arul de apari¸ tii
ale unui tramvai într-o sta¸ tie într-un anumit interval, num ˘arul de insuccese ap ˘arute pân ˘a la
primul succes etc. Din clasa v.a. de tip continuu amintim: timpul de a¸ steptare la un ghi¸ seu
pân˘a la servire, pre¸ tul unui activ financiar într-o perioad ˘a bine determinat ˘a.
Pentru a specifica o v.a. discret ˘a, va trebui s ˘a enumer ˘am toate valorile posibile pe care
aceasta le poate lua, împreun ˘a cu probabilit ˘a¸ tile corespunzatoare. Suma tuturor acestor
probabilit ˘a¸ ti va fi întotdeauna egal ˘a cu 1, care este probabilitatea realizarii evenimentului
sigur. Când se face referire la reparti¸ tia unei v.a. discrete, se în¸ telege modul în care
probabilitatea total ˘a1este distribuit ˘a între toate posibilele valori ale variabilei aleatoare.
Pentru o scriere compact ˘a, adeseori unei v.a. discrete i se atribuie urm ˘atoarea reprezentare
schematica:
tabelul de reparti¸ tie
X x1x2x3::: xn
pkp1p2p3::: xn(1.2.1)
unde pkeste probabilitatea cu care variabila Xia valoarea xk(matematic, scriem pk=
P(X=xk)) ¸ si suma tuturor probabilit ˘a¸ tilor corespunz ˘atoare variabilei discrete este egal ˘a
cu 1, i.e.n
å
i=1pi=1.
Exemplu 1.2
Presupunem c ˘aXeste v.a. ce reprezint ˘a
num˘arul de puncte ce apare la aruncarea
unui zar ideal. Aceast ˘a variabila o putem
reprezenta schematic ca in tabelul alaturat.tabelul de reparti¸ tie
X 1 2 3 4 5 6
pk1=6 1 =6 1 =6 1 =6 1 =6 1 =6
Dac˘aXeste o v.a. discret ˘a de forma (1.2.1), atunci definim func¸ tia de probabilitate (de
frecven¸ t˘ a ) (en.,probability mass function) ata¸ sat ˘a variabilei aleatoare discrete Xca fiind
o func¸ tie ce ataseaza fiecarei realizari ale unei variabile probabilitatea cu care aceasta
realizare este observata. Matematic, scriem ca
f(xi) =pi;i2f1;2; :::; ng:
În cuvinte, pentru fiecare posibil ˘a valoare a unei v.a. discrete, func¸ tia de probabilitate
ata¸ seaz ˘a probabilitatea cu care Xia aceast ˘a valoare. Func¸ tia de probabilitate este pentru o
v.a. discreta ceea ce o densitate de reparti¸ tie este pentru o variabil ˘a aleatoare continu ˘a.
Dupa cum am mentionat anterior, o variabila aleatoare continua poate lua orice valoare
intr-un interval, sau chiar din R. Deoarece in aceste multimi exista o infinitate de valori,
1.3 Func¸ tia de reparti¸ tie (sau func¸ tia de reparti¸ tie cumulat ˘a) 13
nu mai putem defini o variabila aleatoare continua la fel ca in cazul discret, precizandu-i
fiecare valoare pe care o ia si ponderea corespunzatoare. In schimb, pentru o variabila
aleatoare continua, putem preciza multimea in care aceasta ia valori si o functie care sa
descrie repartizarea acestor valori. O astfel de functie se numeste functie de densitate a
repartitiei, sau simplu, densitate de reparti¸ tie (en.,probability density function).
Exemplu 1.3 V om spune c ˘a o variabila aleatoare Xare o repartitie ( sau distributie)
normala de medie m¸ si deviatie standard s(notam aceasta prin XN(m;s)) dac ˘aX
poate lua orice valoare reala si are densitatea de repartitie data de:
f(x;m;s) =1
sp
2pe (x m)2
2s2;pentro orice x2R:
Aceasta repartitie se mai nume¸ ste ¸ si reparti¸ tia gaussian˘ a saudistribu¸ tia gaussian˘ a .
Func¸ tia de probabilitate sau densitatea de reparti¸ tie poate depinde de unul sau mai mul¸ ti
parametri reali. Spre exemplu, repartitia normala are doi parametri, msis.
1.3 Func¸ tia de reparti¸ tie (sau func¸ tia de reparti¸ tie cumulat ˘a)
Numim func¸ tie de reparti¸ tie ata¸ sat ˘a v.a reale Xo func¸ tie F:R![0;1], definit ˘a prin
F(x) =P(Xx);pentru orice x2R:
Termenul din englez ˘a pentru func¸ tia de reparti¸ tie este cumulative distribution function
(cdf). Functia de repartitie asociaza fiecarei valori reale xprobabilitatea cu care variabila
Xia valori mai mici sau egale cu x. Ea este o functie crescatoare, care ia valori intre 0si1.
În cazul unei variabile aleatoare discrete, cu tabelul de reparti¸ tie dat de (1.2.1), func¸ tia de
reparti¸ tie este:
F(x) =å
fi;xixgpi; (1.3.2)
adic˘a suma tuturor probabilit ˘a¸ tilor corespunz ˘atoare valorilor lui Xcare nu-l dep ˘a¸ sesc pe x.
Dac˘aXeste o variabil ˘a aleatoare continu ˘a ¸ si feste densitatea sa de reparti¸ tie, atunci
func¸ tia de reparti¸ tie este dat ˘a de formula:
F(x) =xZ
¥f(t)dt;x2R: (1.3.3)
Mai mult, F0(x) =f(x), pentru orice x2R.
1.4 Parametrii popula¸ tiei
O colectivitate statistica poate fi descrisa folosind una sau mai multe variabile. Pentru
fiecare dintre aceste variabile se pot determina anumite cantitati sau calitati specifice,
numite parametri . Astfel, acesti parametri sunt niste trasaturi caracteristice colectivitatii,
ce pot fi determinate sau estimate pe baza unor masuratori (observatii) ale variabilelor. In
continuare vom prezenta cativa parametri numerici importanti pentru o variabila aleatoare,
14 Capitolul 1. No¸ tiuni recapitulative
folositi in analiza statistica. V om denumi acesti parametri caracteristici numerice ale unei
variabile aleatoare.
Media (sauvaloarea a¸ steptat˘ a) (en.,expected value; fr.,espérance; ger., Erwartungswert)
Pentru o variabila, media este o masura a tendintei centrale a valorilor sale. De remarcat
faptul ca exista variabile (atat discrete cat si continue) care nu admit o valoare medie.
•Dac˘aXeste o v.a. discret ˘a având tabelul de reparti¸ tie (1.2.1), atunci media acestei
v.a. (dac ˘a exist ˘a!) se define¸ ste prin:
m=n
å
i=1xipi: (1.4.4)
Daca U(x)este o functie, atunci media pentru variabila aleatoare U(X)se defineste
prin
E(U(X)) =n
å
i=1U(xi)pi:
•Dac˘aXeste o v.a. de tip continuu, cu densitatea de reparti¸ tie f(x), atunci media
(teoretic˘ a) acestei v.a., dac ˘a exist ˘a (!), se define¸ ste astfel:
m=Z¥
¥x f(x)dz: (1.4.5)
Daca U(x)este o functie, atunci media pentru variabila aleatoare U(X)(dac˘a exist ˘a!)
se defineste prin
E(U(X)) =Z¥
¥U(x)f(x)dz:
Nota¸ tia 1.1 În cazul în care poate fi pericol de confuzie (spre exemplu, atunci când lucr ˘am
cu mai multe variabile în acela¸ si timp), vom folosi nota¸ tia mX. Pentru media teoretic ˘a a
unei variabile aleatoare se mai folosesc ¸ si nota¸ tiile: m,M(X)sauE(X).
Dispersia (sau varian¸ ta ) (en.,variance) ¸ si abaterea standard (en.,standard deviation)
Consideram Xo variabil ˘a aleatoare care admite medie finita m. Dorim sa stim in ce
masura valorile aceste variabile sunt imprastiate in jurul valorii medii. Variabila aleatoare
X0=X m(numit ˘aabaterea luiXde la media sa), atunci E(X0) =0. A¸ sadar, nu putem
m˘asur˘a gradul de împr ˘a¸ stiere a valorilor lui Xîn jurul mediei sale doar calculând X m.
Avem nevoie de o alt ˘a m˘asur˘a. Aceasta este dispersia variabilei aleatoare, notat ˘a prin
s2sauVar(X), definit ˘a prin Var(X) =E[(X m)2]. În cazul în care poate fi pericol de
confuzie (spre exemplu, atunci când lucr ˘am cu mai multe variabile în acela¸ si timp), vom
folosi nota¸ tia s2
X.
s2=n
å
i=1(xi m)2pi
(in cazul unei v.a. discrete ):s2=Z¥
¥(x m)2f(x)dx
(in cazul unei v.a. continue ):
1.4 Parametrii popula¸ tiei 15
Alte formule pentru dispersie:
s2=E[X2] m2=8
>><
>>:n
å
i=1×2
ipi m2;în cazul discret
Z¥
¥x2f(x)dz m2;în cazul continuu
Numim abatere standard (sau devia¸ tie standard ) cantitatea s=p
s2. Are avantajul ca
unitatea sa de masura este aceeasi cu a variabilei X.
În conformitate cu teorema lui Ceb⸠sev1, pentru orice variabila aleatoare Xce admite
medie si orice a>0, are loc inegalitatea:
P(fjX mjksg)1
k2: (1.4.6)
În cuvinte, probabilitatea ca valorile variabilei Xsa devieze de la medie cu mai mult de k
deviatii standard este mai mica decat1
k2. În cazul particular k=3, ob¸ tinem regula celor
3s:
P(fjX mj3sg)1
90:1:
sau
P(fm 3s<X<m+3sg)8
9; (1.4.7)
semnificând c ˘a o mare parte din valorile posibile pentru Xse afl ˘a în intervalul [m 3s;m+
3s].
Coeficientul de varia¸ tie
Este definit prin CV=s
msau, sub forma de procente, CV=100s
m%. Este util in com-
pararea variatiilor a doua sau mai multe seturi de date ce tin de aceeasi variabila. Daca
variatiile sunt egale, atunci vom spune ca setul de observatii ce are media mai mica este
mai variabil decat cel cu media mai mare.
Standardizarea unei variabile aleatoare
Pentru o variabila aleatoare Xde medie m¸ si dispersie s2, variabila aleatoare Y=X m
sse nume¸ ste variabila aleatoare standardizat˘ a (sau normat ˘a). Astfel, prin standardizarea
unei variabile, vom obtine urmatoarele proprietati ale sale: E(Y) =0;Var(Y) =1:
Daca Xeste o variabila normala (scriem asta prin XN(m;s)), atunci standardizarea sa
este o variabila normala standard, adicaX m
sN(0;1).
Momente centrate
Pentru o v.a. X(discret ˘a sau continu ˘a), ce admite medie, momentele centrate sunt valorile
a¸ steptate ale puterilor lui X m. Definim astfel mk(X) =E((X m)k). In particular,
1Pafnuty Lvovich Chebyshev (1821 1894), matematician rus
16 Capitolul 1. No¸ tiuni recapitulative
mk(X) =n
å
i=1(xi m)kpi;
(in cazul unei v.a. discrete ):mk(X) =Z¥
¥(x m)kf(x)dx;
(in cazul unei v.a. continue ):
Momente speciale:
•m2(X) =s2. Se observa ca al doilea moment centrat este chiar dispersia.
•g1=m3(X)
s3estecoeficientul de asimetrie (en., skewness );
Coeficientul g1este al treilea moment centrat standardizat. O reparti¸ tie este simetric ˘a
dac˘ag1=0. V om spune c ˘a asimetria este pozitiv ˘a (sau la dreapta) dac ˘ag1>0¸ si
negativ ˘a (sau la stânga) dac ˘ag1<0.
•K=m4(X)
s4 3 este excesul (coeficientul de aplatizare sauboltire ) (en., kurtosis ).
Este o m ˘asur˘a a boltirii distribu¸ tiei (al patrulea moment standardizat). Termenul ( 3)
apare pentru c ˘a indicele kurtosis al distribu¸ tiei normale s ˘a fie egal cu 0. V om avea
o reparti¸ tie mezocurtic˘ a pentru K=0,leptocurtic˘ a pentru K>0sauplatocurtic˘ a
pentru K<0. Un indice K>0semnific ˘a faptul c ˘a, în vecin ˘atatea modului, curba
densit ˘a¸ tii de reparti¸ tie are o boltire (ascu¸ tire) mai mare decât clopotul lui Gauss.
Pentru K<0, în acea vecin ˘atate curba densit ˘a¸ tii de reparti¸ tie este mai plat ˘a decât
curba lui Gauss.
Cuantile
FieXo variabil ˘a aleatoare cu func¸ tia de reparti¸ tie F(x) =P(Xx).
Defini¸ tia 1.4.1 Pentru a2(0;1), definim cuantila de ordin avaloarea xa2Rastfel încât:
xa=inffx2R;F(x)ag: (1.4.8)
Dac˘aXeste o variabil ˘a aleatoare de tip continuu ¸ si F(x)este strict cresc ˘atoare pe R, atunci
xaeste unica valoare pentru care
F(xa) =a: (1.4.9)
Observa¸ tia 1.1 (1) Cuantilele sunt m ˘asuri de pozi¸ tie, ce m ˘asoar ˘a loca¸ tia unei anumite
valori fa¸ t ˘a de restul valorilor. Ele sunt unice doar dac ˘a variabila aleatoare este continu ˘a ¸ si
F(x)este strict cresc ˘atoare.
(2) În cazul în care Xeste o variabil ˘a aleatoare discret ˘a, este posibil s ˘a avem mai mult
de o cuantil ˘a de ordin apentru X. În acest caz, exist ˘a o infinitate de solu¸ tii, ¸ si anume
valorile dintr-un interval (vezi Figura 1.2, unde toate valorile din intervalul [x1;x2]sunt
a cuantile).
(3) A¸ sa cum se poate observa din Figura 1.1, valoarea xapentru o reparti¸ tie continu ˘a este
acel num ˘ar real pentru care aria ha¸ surat ˘a este chiar a.
1.4 Parametrii popula¸ tiei 17
Figura 1.1: Cuantila de ordin apentru o
reparti¸ tie continu˘ a
Figura 1.2: Cuantile de ordin apentru o
reparti¸ tie discret˘ a
(4) Cazuri particulare de cuantile:
•pentru a=1=2, obtinem mediana . Astfel, F(Me) =0:5. Mediana (notata Me)
este valoarea care imparte repartitia in doua parti in care variabila Xia valori cu
probabilitati egale. Scriem asta astfel:
P(XMe) =P(XMe) =0:5:
Pentru o variabila care nu este simetrica, mediana este un indicator mai bun decat
media pentru tendinta centrala a valorilor variabilei.
•pentru a=i=4;i2f1;2;3g, obtinem cuartilele. Prima cuartila, Q1, este acea
valoare pentru care probabilitatea ca Xsa ia o valoare la stanga ei este 0:25. Scriem
asta astfel: P(XQ1) =0:25. Cuartila a doua este chiar mediana, deci Q2=Me.
Cuartila a treia, Q3, este acea valoare pentru care probabilitatea ca Xsa ia o valoare
la stanga ei este 0 :75. Scriem asta astfel: P(XQ3) =0:75.
•pentru a=j=10;j2f1;2; :::; 9g, obtinem decilele. Prima decila este acea valoare
pentru care probabilitatea ca Xsa ia o valoare la stanga ei este 0 :1. S.a.m.d.
•pentru a=j=100;j2f1;2; :::; 99g, obtinem centilele. Prima centila este acea
valoare pentru care probabilitatea ca Xsa ia o valoare la stanga ei este 0:01. S.a.m.d.
(5) Dac ˘aXN(0;1), atunci cuantilele de ordin ale vom nota prin za.
Modul (valoarea cea mai probabil ˘a)
Este valoarea cea mai probabila pe care o lua variabila aleatoare X. Cu alte cuvinte,
este acea valoare xpentru care f(x)(densitatea de reparti¸ tie sau func¸ tia de probabilitate)
este maxim ˘a. O reparti¸ tie poate s ˘a nu aib ˘a niciun mod, sau poate avea mai multe module.
Covarian¸ ta ¸ si coeficientul de corela¸ tie
Conceptul de corela¸ tie (sau covarian¸ t ˘a) este legat de modul în care dou ˘a variabile aleatoare
tind s ˘a se modifice una fa¸ t ˘a de cealalt ˘a; ele se pot modifica fie în aceea¸ si direc¸ tie (caz în
care vom spune c ˘aX1¸ siX2sunt direct <sau pozitiv >corelate) sau în direc¸ tii opuse ( X1¸ si
X2sunt invers <sau negativ >corelate).
Consideram variabilele X1;X2ce admit mediile, respectiv, m1;m2.
18 Capitolul 1. No¸ tiuni recapitulative
Definim corela¸ tia (saucovarian¸ ta ) variabilelor X1¸ siX2, notat ˘a prin cov(X1;X2), cantitatea
cov(X1;X2) =E[(X1 m1)(X2 m2)]:
Daca X1siX2coincid, sa spunem ca X1=X2=X, atunci cov (X;X) =s2
X.
Orela¸ tie liniar˘ a între dou ˘a variabile este acea rela¸ tie ce poate fi reprezentat ˘a cel mai bine
printr-o linie. Corela¸ tia detecteaz ˘a doar dependen¸ te liniare între dou ˘a variabile aleatoare.
Putem avea o corela¸ tie pozitiv˘ a , însemnând c ˘aX1¸ siX2cresc sau descresc împreun ˘a (vezi
cazurile in care r=0:85saur=1in Figura 10.2), sau o corela¸ tie negativ˘ a , însemnând
c˘aX1¸ siX2se modific ˘a în direc¸ tii opuse (vezi cazul r= 0:98in Figura 10.2). In cazul
r= 0:16din Figura 10.2, nu se observa nicio tendinta, caz in car putem banui ca
variabilele nu sunt corelate.
O m˘asur˘a a corela¸ tiei dintre dou ˘a variabile este coeficientul de corela¸ tie. Acesta este foarte
utilizat în ¸ stiin¸ te ca fiind o m ˘asur˘a a dependen¸ tei liniare între dou ˘a variabile. Se nume¸ ste
coeficient de corela¸ tie al v.a. X1¸ siX2cantitatea
r=cov(X1;X2)
s1s2;
unde s1sis2sunt deviatiile standard pentru X1, respectiv, X2. Uneori se mai noteaza prin
r(X1;X2)saurX1;X2. Coeficientul de corelatie ia valori intre 1(perfect negativ corelate)
si 1 (perfect pozitiv corelate) si masoara gradul de corelatie liniara dintre doua variabile.
Figura 1.3: Reprezentare de date bidimensionale.
1.5 Statistici
Consider ˘am o caracteristic ˘a de interes Xa unei popula¸ tii statistice ¸ si fie x1;x2; :::; xnun
set de date observate pentru aceast ˘a caracteristic ˘a. Fiec ˘arei date observate xii se poate
asocia o variabil ˘a aleatoare Xi, astfel încât xidevine o posibil ˘a valoarea a variabilei Xi.
Variabilele aleatoare X1;X2; :::; Xnse numesc variabile aleatoare de selec¸ tie ¸ si pot fi
interpretate ca fiind un set de observa¸ tii independente asupra variabilei X. Toate aceste
1.5 Statistici 19
variabile de selectie sunt identic repartizate, reparti¸ tia comun ˘a fiind reparti¸ tia variabilei X.
A¸ sadar, Xieste o observa¸ tie a variabilei X¸ sixieste valoarea corespunz ˘atoare observat ˘a.
Se nume¸ ste statistic˘ a (sau func¸ tie de selec¸ tie ) o func¸ tie de aceste variabile aleatoare de
selec¸ tie, i.e., o variabil ˘a aleatoare de forma
Sn(X) =g(X1;X2; :::; Xn);
unde geste o func¸ tie g:Rn!Rm˘asurabil ˘a.
Ca o observa¸ tie, numele de statistic˘ a este folosit în literatura de specialitate atât pentru
variabila aleatoare de mai sus, cât ¸ si pentru valoarea ei, în¸ telesul exact desprinzându-se din
context. Reparti¸ tia unei statistici se mai nume¸ ste ¸ si reparti¸ tia (distribu¸ tia) de selec¸ tie .
În literatur ˘a, statistica este notat ˘a cu una dintre urm ˘atoarele:
Sn(X);S(X;n);S(X1;X2; :::; Xn):
Valoarea numeric ˘a
Sn(x) =g(x1;x2; :::; xn)
se nume¸ ste valoarea func¸ tiei de selec¸ tie pentru un set dat de observa¸ tii x1;x2; :::; xn.
Prin intermediul statisticilor putem trage concluzii despre popula¸ tia din care a provenit
e¸ santionul observat. Teoria probabilit ˘a¸ tilor ne ofer ˘a procedee de determinare atât a repar-
ti¸ tiei exacte a lui Sn(X), cât ¸ si a reparti¸ tiei asimptotice a lui Sn(X).Reparti¸ tia exact˘ a este
acea reparti¸ tie ce poate fi determinat ˘a pentru orice volum al selec¸ tiei. În general, dac ˘a
se lucreaz ˘a cu selec¸ tii de volum redus ( n<30), atunci reparti¸ tia exact ˘a ar trebui s ˘a fie
cunoscut ˘aa priori , dac ˘a se dore¸ ste luarea de decizii prin inferen¸ t ˘a.Reparti¸ tia asimptotic˘ a
este reparti¸ tia limit ˘a aSn(X)când n!¥, iar utilizarea acesteia conduce la rezultate bune
doar pentru n30.
De cele mai multe ori, o statistic ˘a este utilizat ˘a în urm ˘atoarele cazuri:
• în probleme de estimare punctual ˘a a parametrilor popula¸ tiei;
• în ob¸ tinerea intervalelor de încredere pentru un parametru necunoscut;
• ca o statistic ˘a test pentru verificarea ipotezelor statistice.
1.5.1 Exemple de statistici
Media de selec¸ tie Numim medie de selec¸ tie (de volum n) statistica X=1
nn
å
i=1Xi:
Valoarea mediei de selec¸ tie pentru valori ale acestor variabile aleatoare este media empiric ˘a:
x=1
nn
å
i=1xi:
Dispersia de selec¸ tie (sau varian¸ ta selec¸ tiei ) Numim dispersie de selec¸ tie (de volum n)
statistica S2(sauS2
X, dac ˘a avem mai multe variabile) definit ˘a prin: S2=1
n 1n
å
i=1[Xi X]2:
Valoarea dispersiei de selec¸ tie pentru valori ale acestor variabile aleatoare este dispersia
(sau varia¸ tia) empiric ˘a: simplitate, o vom nota cu s2(sau s2
X, dac ˘a avem mai multe
variabile), iar valoarea acesteia pentru o selec¸ tie fixat ˘a este:
s2=1
n 1n
å
i=1[xi x]2:
20 Capitolul 1. No¸ tiuni recapitulative
în anumite situa¸ tii, în locul lui S2se mai utilizeaz ˘a statistica S2
(X), definit ˘a prin:
S2
(X) =1
nn
å
i=1[Xi X]2:
Motiva¸ tia pentru considerarea statisticii S2în detrimentul lui S2
este dat ˘a de faptul c ˘a prima
statistic ˘a estimeaz ˘a varia¸ tia teoretic ˘as2mai bine decât cea de-a doua.
Devia¸ tia standard de selec¸ tie Numim devia¸ tie standard de selec¸ tie (de volum n)statis-
ticaS(sauSX, dac ˘a avem mai multe variabile) definit ˘a prin: S=p
S2=s
1
n 1n
å
i=1[Xi X]2.
Valoarea devia¸ tiei standard de selec¸ tie este notat ˘a cu s(sau sX, dac ˘a avem mai multe vari-
abile), iar valoarea acesteia pentru o selec¸ tie fixat ˘a este:
s=s
1
n 1n
å
i=1[xi x]2:
Func¸ tia de reparti¸ tie de selec¸ tie FieX1;X2; :::; Xnvariabile aleatoare de selec¸ tie
repetat ˘a de volum n. Numim func¸ tie de reparti¸ tie de selec¸ tie (de volum n)func¸ tia F
n(x) =
n(x)
n;8x2R;unde n(x) =cardfi;Xixgreprezint ˘a num ˘arul de elemente din selec¸ tie
mai mici sau egale cu x.
Rela¸ tia din defini¸ tie poate fi scris ˘a ¸ si sub forma:
F
n(x) =1
nn
å
i=1c( ¥;x](Xi);8x2R; (1.5.10)
unde cAeste func¸ tia indicatoare a mul¸ timii A.
Pentru un x2Rfixat, F
neste o variabil ˘a aleatoare repartizat ˘a binomial B(n;F(x)).
Pentru o selec¸ tie fixat ˘a,F
n(x)este func¸ tia de reparti¸ tie empiric ˘a, i.e.,
F
n(x) =cardfi;xixg
n:
1.6 Legi limit ˘a în Teoria Probabilit ˘a¸ tilor
1.6.1 Legea tare a numerelor mari
Teoremele limit ˘a clasice descriu comportarea asimptotic ˘a a sumei Sn, potrivit normalizat ˘a.
Legea numerelor mari descrie comportamentul asimptotic al unui sir de variabile aleatoare.
În cazul cel mai simplu (si cel mai utilizat in Statistica), in care variabilele aleatoare
fXkgk1sunt independente stochastic ¸ si identic repartizate, cu E(Xn) =m<¥;8n2
N, atunci legea tare a numerelor mari spune ca sirul fSngn1, cu Sn=n
å
k=1Xksatisface
convergenta:Sn
na:s: !m:
Astfel, de¸ si variabilele aleatoare independente fXkgk1pot lua valori dep ˘artate de mediile
lor, media aritmetic ˘a a unui num ˘ar suficient de mare de astfel de variabile aleatoare ia
valori în vecin ˘atatea lui m, cu o probabilitate foarte mare.
1.6 Legi limit ˘a în Teoria Probabilit ˘a¸ tilor 21
In Statistica, acest ¸ sir de v.a. poate fi privit ca fiind un model pentru repeti¸ tii independente
ale unui experiment aleator, efectuate în aceleasi condi¸ tii. De¸ si avem de-a face cu un ¸ sir
de func¸ tii ce iau valori întâmpl ˘atoare, suma unui num ˘ar suficient de mare de variabile
aleatoare î¸ si pierde caracterul aleator.
Legea tare a numerelor mari e foarte util ˘a în metode de simulare tip Monte Carlo.
1.6.2 Teorema limit ˘a central ˘a
Teorema limita centrala este un rezultat foarte important in Statistica. Ea ne permite s ˘a
aproxim ˘am sume de variabile aleatoare identic repartizate, avînd orice tip de reparti¸ tii (atât
timp cât varia¸ tia lor e finit ˘a), cu o variabila aleatoare normal ˘a.
Presupunem ca in urma unor masuratori am obtinut datele x1;x2; :::; xnsi ca aceste date
sunt realizarile unor variabile X1;X2; :::; Xn. Daca aceste variabile sunt normale, atunci
suma acestora ( Sn=n
å
i=1Xi) cat si media lor ( X=1
nn
å
i=1Xi) sunt tot variabile normale, pentru
orice volum al selectiei, n.
Matematic, teorema TLC ne spune c ˘a, dac ˘a avem un ¸ sir de v.a. independente stochastic ¸ si
identic repartizate, atunci, pentru nsuficient de mare, reparti¸ tia asimptotic ˘a a sumei Sneste
o variabil ˘aN(m;spn). Acest fapt este echivalent cu a spune c ˘a variabila aleatoare sum ˘a
standardizat ˘a
Sn=Sn nm
spn=Sn mSn
sSn(1.6.11)
este o v.a. de reparti¸ tie N(0;1).
Totodat ˘a, mai avem c ˘a distribu¸ tia variabilei aleatoare medie de selec¸ tie X=Sn
n=1
nn
å
k=1Xk
este aproximativ normal ˘aN(m;spn).
A¸ sadar, Teorema limita centrala spune ca, dac ˘a variabilele X1;X2; :::; Xnnu sunt neap ˘arat
normal repartizate, atunci, pentru un volum neste suficient de mare, repartitiile pentru Sn
siXtind sa fie tot normale. Spunem astfel ca repartitiile asimptotice (la limita) pentru Sn
siXsunt normale. Cu cat volumul observatiilor este mai mare, cu atat suma sau media lor
sunt mai aproape de repartitia normala.
Mai mult, daca variabilele Xiau aceeasi medie ( m) si aceeasi deviatie standard s, atunci
media Xeste o variabila normala de medie mX=msi deviatie standard sX=spn. Se
observa ca, daca neste foarte mare, atunci deviatia standard a lui Xscade, astfel ca valorile
sale vor deveni foarte apropiate de m.
RSe pune problema: Cât de mare ar trebui s˘ a fie npentru ca, în practic˘ a, teorema
limit˘ a central˘ a s˘ a fie aplicabil˘ a? Se pare c ˘a un num ˘arnastfel încât n30ar fi sufi-
cicient pentru aproximarea cu reparti¸ tia normal ˘a de¸ si, dac ˘a variabilele sunt simetrice,
aproximarea ar putea fi bun ˘a ¸ si pentru un num ˘arnmai mic de 30.
22 Capitolul 1. No¸ tiuni recapitulative
2.Generarea în MATLAB a datelor statistice
. [Did you hear about the statistician that couldn’t get laid?
. He decided that a simulation was good enough.]
Numerele generate de MATLAB sunt rezultatul compil ˘arii unui program deja existent în
MATLAB , a¸ sadar el vor fi pseudo-aleatoare . Putem face abstrac¸ tie de modul programat de
generare ale acestor numere ¸ si s ˘a consider ˘am c ˘a acestea sunt numere aleatoare.
2.1 Generarea de numere aleatoare în MATLAB
2.1.1 Func¸ tia rand
• Func¸ tia rand genereaz ˘a un num ˘ar aleator repartizat uniform în [0;1].
De exemplu, comanda
X = (rand < 0.5)
simuleaz ˘a aruncarea unei monede ideale. Mai putem spune ca num ˘arul Xastfel
generat este un num ˘ar aleator repartizat B(1;0:5).
• De asemenea, num ˘arul
Y = sum(rand(10,1) < 0.5)
urmeaz ˘a reparti¸ tia B(10;0:5)(simularea a 10 arunc ˘ari ale unei monede ideale).
• rand(m;n)genereaz ˘a o matrice aleatoare cu mncomponente repartizate U(0;1).
•Comanda a+(b a) rand genereaz ˘a un num ˘ar pseudo-aleator repartizat uniform
în[a;b].
24Capitolul 2. Generarea în MATLAB a datelor statistice
Figura 2.1: Reprezentarea cu histograme a datelor uniforme.
•Folosind comanda s = rand('state') , i se atribuie variabilei sun vector de 35de
elemente, reprezentând starea actual ˘a a generatorului de numere aleatoare uniform
(distribuite). Pentru a schimba starea curent ˘a a generatorului sau ini¸ tializarea lui,
putem folosi comanda
rand(method, s)
unde method este metoda prin care numerele aleatoare sunt generate (aceasta poate
fi 'state' , 'seed' sau 'twister' ), iar seste un num ˘ar natural între 0¸ si232 1,
reprezentând starea ini¸ tializatorului. De exemplu, func¸ tia rand('state', 125) fix-
eaz˘a generatorul la starea 125.
Observa¸ tia 2.1 Printr-o generare de numere aleatoare uniform distribuite în intervalul
(a;b)în¸ telegem numere aleatoare care au aceea¸ si ¸ sans ˘a de a fi oriunde în (a;b), ¸ si nu
numere la intervale egale. Figura 2.1 reprezint ˘a cu histograme date uniform distribuite în
intervalul [ 2;3], produse de comanda M ATLAB :
hist(5*rand(1e4,1)-2,100)
2.1.2 Func¸ tia randn
• Func¸ tia randn genereaz ˘a un num ˘ar aleator repartizat normal N(0;1).
• randn (m;n)genereaz ˘a o matrice aleatoare cu mncomponente repartizate N(0;1).
•Pentru a schimba metoda prin care sunt generate numerele aleatoare normale sau
starea generatorului, folosim comanda:
randn(method, s)
un num ˘ar natural între 0 ¸ si 232 1, reprezentând starea ini¸ tializatorului.
•Comanda m+s randn genereaz ˘a un num ˘ar aleator repartizat normal N(m;s).
De exemplu, codul urm ˘ator produce Figura 2.2:
x = 0:0.05:10;
y = 5 + 1.1*randn(1e5,1); % date distribuite N(5;1:1)
hist(y,x)
2.1 Generarea de numere aleatoare în MATLAB 25
2.1.3 Generarea de numere aleatoare de o reparti¸ tie cunoscut ˘a
Comenzile M ATLAB
lege rnd(<param>, m, n)
¸ si
random (’lege’, <param>, m, n).
Oricare dintre cele dou ˘a comenzi genereaz ˘a o matrice aleatoare, cu mlinii ¸ si ncoloane,
având componente numere aleatoare ce urmeaz ˘a reparti¸ tia lege. În loc de lege putem scrie
oricare dintre expresiile din Tabelul 2.1. De exemplu,
normrnd (5, 0.2, 100, 10);
genereaz ˘a o matrice aleatoare cu 100 10 componente repartizate N(5;0:2).
random (’ poiss ’,0.01, 200, 50);
genereaz ˘a o matrice aleatoare cu 200 50 componente repartizate P(0:01).
Utilizând comanda
randtool
putem reprezenta interactiv selec¸ tii aleatoare pentru diverse reparti¸ tii. Comanda deschide
o interfa¸ t ˘a grafic ˘a ce reprezint ˘a prin histograme selec¸ tiile dorite, pentru parametrii dori¸ ti
(vezi Figura 2.3). Datele generate de MATLAB pot fi exportate în fi¸ sierul Workspace cu
numele dorit. De exemplu, folosind datele din Figura 2.3, am generat o selec¸ tie aleatoare
de10000 de numere ce urmeaz ˘a reparti¸ tia lognormal ˘a de parametri m=2¸ sis=0:5¸ si
am salvat-o (folosind butonul Export ) într-un vector L.
Tabelul 2.1 con¸ tine câteva reparti¸ tii uzuale ¸ si func¸ tiile corespunz ˘atoare în M ATLAB .
0 2 4 6 8 10050100150200250
Figura 2.2: Reprezentarea cu histograme a datelor normale.
26Capitolul 2. Generarea în MATLAB a datelor statistice
Figura 2.3: Interfa¸ t ˘a pentru generarea de numere aleatoare de o reparti¸ tie dat ˘a.
reparti¸ tii probabilistice discrete reparti¸ tii probabilistice continue
norm : reparti¸ tia normal ˘aN(m;s)
bino : reparti¸ tia binomial ˘aB(n;p) unif : reparti¸ tia uniform ˘a continu ˘aU(a;b)
nbin : reparti¸ tia binomial ˘a negativ ˘aBN(n;p) exp: reparti¸ tia exponen¸ tial ˘aexp(l)
poiss : reparti¸ tia Poisson P(l) gam: reparti¸ tia Gamma G(a;l)
unid : reparti¸ tia uniform ˘a discret ˘aU(n) beta : reparti¸ tia Beta b(m;n)
geo: reparti¸ tia geometric ˘aGeo(p) logn : reparti¸ tia lognormal ˘alogN(m;s)
hyge : reparti¸ tia hipergeometric ˘aH(n;a;b) chi2 : reparti¸ tia c2(n)
t: reparti¸ tia student t(n)
f: reparti¸ tia Fisher F(m;n)
wbl: reparti¸ tia Weibull Wbl(k;l)
Tabela 2.1: Reparti¸ tii uzuale în M ATLAB
2.2 Simularea unui experiment aleator 27
2.2 Simularea unui experiment aleator
2.2.1 Simularea arunc ˘arii unei monede
Pentru a simula aruncarea unei monede ideale (fiecare fa¸ t ˘a are ¸ sanse egale de apari¸ tie)
înMATLAB , vom genera un num ˘ar aleator uniform în (0;1)¸ si vom verifica dac ˘a acest
num˘ar este mai mic decât 0:5. Dac ˘a este, putem presupune c ˘a a ap ˘arut fa¸ ta cu stema, altfel
a ap˘arut banul. Astfel, comanda M ATLAB
X = ( rand < 0.5)
simuleaz ˘a aruncarea unei monede ideale. Parantezele rotunde verific ˘a valoarea de adev ˘ar
a propozi¸ tiei din interior. Rezultatul comenzii va fi ori X=0(fals) ori X=1(adev ˘arat),
ceea ce putem presupune c ˘a va corespunde apari¸ tiei unei anumite fe¸ te a monedei. Dac ˘a
X=1, atunci num ˘arul ales aleator este mai mic decât 0:5, deci a ap ˘arut stema, iar dac ˘a
X=0, atunci num ˘arul ales aleator este mai mare decât 0 :5, deci a ap ˘arut banul.
Num ˘arulXastfel generat este un num ˘ar aleator repartizat Bernoulli B(1;0:5)(similar
cu schema bilei revenite, în cazul în care o urn ˘a are bile albe ¸ si negre în num ˘ar egal ¸ si
extragem o bil ˘a la întâmplare). Dac ˘a dorim s ˘a repet ˘am experien¸ ta de un num ˘arnde ori,
atunci scriem
X = sum( rand (n,1)<0.5)
Comanda aceasta va afi¸ sa un num ˘ar natural între 0 ¸ si n, care reprezint ˘a num ˘arul de steme
ap˘arute la aruncarea repetat ˘a, în mod independent, a unei monede ideale. Num ˘arulXastfel
generat este un num ˘ar aleator repartizat binomial B(n;0:5). Aceast ˘a variabil ˘a aleatoare
mai poate fi simulat ˘a ¸ si prin comada
X = binornd(n,0.5,1,1) sau X = random('bino',n,0.5,1,1)
Exerci¸ tiu 2.1 Dac˘a experimentul aleator este aruncarea unei monede ideale de n=30de
ori, atunci putem simula variabila aleatoare ce reprezint ˘a num ˘arul de steme ap ˘arute astfel
Y = sum( rand (30,1)<0.5)
Aceasta urmeaz ˘a reparti¸ tia B(30;0:5)(simularea a 30arunc ˘ari independente ale unei
monede ideale).
Observa¸ tia 2.2 Acela¸ si experiment poate fi modelat ¸ si prin comanda
round(rand(30,1))
Pentru a num ˘ara câte fe¸ te de un anumit tip au ap ˘arut, folosim
sum(round(rand(30,1)))
2.2.2 Simularea în MATLAB a unei variabile aleatoare de tip discret
S˘a consider ˘am o variabil ˘a aleatoare ce poate avea doar 3rezultate posibile, a;b¸ sic, cu
probabilit ˘a¸ tile de realizare 0 :5;0:2 ¸ si, respectiv, 0 :3. Tabloul de reparti¸ tie asociat este:
X:a b c
0:5 0:2 0:3
;
28Capitolul 2. Generarea în MATLAB a datelor statistice
Pentru a modela aceast ˘a variabil ˘a aleatoare în MATLAB , proced ˘am astfel: alegem uniform
la întâmplare un num ˘arxdin intervalul [0;1]. Dac ˘ax<0:5, atunci convenim c ˘a rezultatul
as-a realizat, dac ˘a0:5<x<0:7, atunci rezultatul bs-a realizat. Altfel, rezultatul variabilei
aleatoare Xestec. Dac ˘a acest experiment se repet ˘a de multe ori, atunci rezultatele pot fi
folosite în estimarea probabilit ˘a¸ tilor de realizare a variabilei aleatoare. Cu cât vom face mai
multe experimente, cu atât vom aproxima mai bine valorile teoretice ale probabilit ˘a¸ tilor,
deci putem spune c ˘a am aproximat variabila aleatoare X.
În M ATLAB , scriem:
syms a b c % declaram a, b si c ca variabile simbolice
r = rand;
X = a*(r<0.5) + b*(0.5<r & r<0.7) + c*(r>0.7)
Folosind aceast ˘a metod ˘a, putem simula aruncarea unui zar ideal. Avem 6rezultate posibile,
¸ si anume, apari¸ tia unei fe¸ te cu 1;2;3;4;5sau6puncte. Pentru a simula acest experiment,
modific ˘am în mod convenabil problema. V om considera c ˘a punctele din intervalul [0;1]
formeaz ˘a mul¸ timea tuturor cazurilor posibile ¸ si împ ˘ar¸ tim intervalul [0;1]în6subintervale
de lungimi egale:
(0;1
6);(1
6;2
6);(2
6;3
6);(3
6;4
6);(4
6;5
6);(5
6;1)
:
corespunz ˘atoare, respectiv, celor ¸ sase fe¸ te, s ˘a zicem în ordinea cresc ˘atoare a punctelor de
pe ele. V om vedea mai târziu (vezi metoda Monte Carlo) ca alegerea acestor intervale
cu capete închise, deschise sau mixte nu are efect practic asupra calculului probabilit ˘a¸ tii
dorite. Acum, dac ˘a dorim s ˘a simul ˘am în MATLAB apari¸ tia fe¸ tei cu 3puncte la aruncarea
unui zar ideal, vom alege (comanda rand ) un num ˘ar "la întâmplare" din intervalul [0;1]¸ si
verific ˘am dac ˘a acesta se afl ˘a în intervalul (2
6;3
6). A¸ sadar, comanda M ATLAB
u = rand; (u < 3/6 & u > 2/6)
simuleaz ˘a aruncarea unui zar ideal. Ca o observa¸ tie, deoarece cele 6fe¸ te sunt identice,
putem simplifica aceast ˘a comanda ¸ si scrie
(rand < 1/6) :
Func¸ tiile floor, ceil, round, fix
Sunt func¸ tii folosite pentru generarea de numere aleatoare întregi. De exemplu, func¸ tia
floor (x)este partea întreag ˘a a lui x. Astfel, comenzile
floor (11* rand (20,1));
ceil (11* rand (20,1));
genereaz ˘a fiecare câte 20de numere întregi între 0¸ si10, distribuite uniform discret.
Diferen¸ ta dintre cele dou ˘a func¸ tii este ca floor (x)face rotunjirea la num ˘arul întreg aflat
la stânga lui x, pe când ceil(x)face rotunjirea la num ˘arul întreg aflat la dreapta lui x.
Func¸ tiile round (x)¸ si fix(x)rotunjesc num ˘arul real xla cel mai apropiat num ˘ar întreg, în
direc¸ tia lui¥, respectiv, în direc¸ tia lui zero.
Pentru generarea de numere întregi în M ATLAB , mai putem folosi urm ˘atoarele comenzi:
2.3 Reparti¸ tii probabilistice în MATLAB 29
randsample(populatie, k)
randsample(n, k)
randsample(populatie, k, replace)
Prima comand ˘a genereaz ˘a o selec¸ tie uniform ˘a (discret ˘a) nerepetat ˘a de knumere natu-
rale alese aleator din vectorul populatie . Dac ˘a în locul vectorului populatie este n
(comanda a doua), atunci se realizeaz ˘a o selec¸ tie uniform ˘a nerepetat ˘a de knumere din
mul¸ timeaf1;2; :::; ng. A treia comand ˘a ne d ˘a posibilitatea s ˘a control ˘am dac ˘a selec¸ tia
este sau nu este repetat ˘a. Dac ˘a variabila replace este true sau 1, atunci selec¸ tia ob¸ tinut ˘a
este una repetat ˘a, iar dac ˘a variabila replace este false sau 0, atunci selec¸ tia ob¸ tinut ˘a
este una nerepetat ˘a.
De exemplu, comanda
randsample([50:2:100], 10, 0)
genereaz ˘a o selec¸ tie nerepetat ˘a de 10 numere pare între 50 ¸ si 100:
66 72 50 68 88 74 82 80 94 76
Vectorul Xdat de
X = randperm(n)
este o permutare aleatoare a elementelor mul¸ timii f1;2; :::; ng.
2.3 Reparti¸ tii probabilistice în MATLAB
Func¸ tia de probabilitate (pentru v.a. discrete) ¸ si densitatea de reparti¸ tie (pentru v.a. con-
tinue) (ambele notate anterior prin f(x)) se introduc în MATLAB cu ajutorul comenzii pdf,
astfel:
pdf('LEGE', x, <param>) sau LEGEpdf(x, <param>)
Func¸ tia de reparti¸ tie F(x)a unei variabile aleatoare se poate introduce în MATLAB cu
ajutorul comenzii cdf, astfel:
cdf('LEGE', x, <param>) sau LEGEcdf(x, <param>)
Inversa func¸ tiei de reparti¸ tie pentru reparti¸ tii continue, F 1(y), se introduce cu comanda
icdf , astfel:
icdf('LEGE', y, <param>) sau LEGEinv(y, <param>)
În comenzile de mai sus, LEGE poate fi oricare dintre legile de reparti¸ tie din Tabelul 2.1, x
este un scalar sau vector pentru care se calculeaz ˘af(x)sauF(x), yeste un scalar sau vector
pentru care se calculeaz ˘aF 1(y), iar <param> este un scalar sau un vector ce reprezint ˘a
parametrul (parametrii) reparti¸ tiei considerate.
30Capitolul 2. Generarea în MATLAB a datelor statistice
Observa¸ tia 2.3 FieXo variabil ˘a aleatoare ¸ si F(x;q)func¸ tia sa de reparti¸ tie, qfiind
parametrul reparti¸ tiei. Pentru un x2R, rela¸ tia matematic ˘a
P(Xx) =F(x)
o putem scrie astfel în M ATLAB :
cdf('numele repartiµiei lui X',x, q): (2.3.1)
Problema poate aparea la evaluarea în MATLAB a probabilit ˘a¸ tiiP(X<x). Dac ˘a reparti¸ tia
considerat ˘a este una continu ˘a, atunci corespondentul în MATLAB este tot (2.3.1), deoarece
în acest caz
P(Xx) =P(X<x)+P(X=x) =P(X<x):
De exemplu, dac ˘aXN(5;2), atunci
P(X<4) = cdf('norm', 4, 5, 2) :
Dac˘aXeste de tip discret, atunci
P(X<x) =(
P(X[x]) ;xnu e întreg
P(Xm 1);x=m2Z;
unde [x]este partea întreag ˘a a lui x.
De exemplu, dac ˘aXB(10;0:3), atunci
P(X<5) = P(X4)
= cdf('bino', 4, 10, 0.3) =0:8497 :
2.4 Exerci¸ tii rezolvate
Exerci¸ tiu 2.2 Un sondaj preliminar a determinat c ˘a42% dintre persoanele cu drept de vot
dintr-o anumit ˘a ¸ tar˘a ar vota candidatul Cpentru pre¸ sedin¸ tie. Alegem la întâmplare 200de
votan¸ ti. Care este probabilitatea ca un procent dintre ace¸ stia, situat între 40% ¸ si50%, îl
vor vota pe Cla pre¸ sedin¸ tie?
Solu¸ tie: S˘a not ˘am cu p=0:42¸ si cu Xvariabila aleatoare ce reprezint ˘a num ˘arul de votan¸ ti
ce au ales candidatul C, din selec¸ tia aleatoare de volum n=200considerat ˘a. Este clar c ˘a
XB(n;p). Se cere probabilitatea P(80X100)(deoarece 40% din200înseamn ˘a
80 etc). Deoarece Xeste o variabil ˘a aleatoare discret ˘a, avem c ˘a:
P=P(80X100) =P(X100) P(X<80) =FX(100) FX(79);
unde FXeste func¸ tia de reparti¸ tie a lui X.
În M ATLAB scriem astfel:
P = binocdf(100, 200, 0.42) – binocdf(79, 200, 0.42) = 0.7303.
2.4 Exerci¸ tii rezolvate 31
Exerci¸ tiu 2.3 Dintre spectatorii prezen¸ ti pe un anumit stadion la un meci de fotbal, un
procent de 20% sunt femei. La o tombola organizat ˘a pentru spectatori, un computer alege
la întâmplare numerele a 7 bilete de intrare ¸ si se premiaz ˘a posesorii.
(i) Care este probabilitatea ca m ˘acar 3 dintre spectatorii premia¸ ti s ˘a fie femei?
(ii) Care este probabilitatea ca nicio femeie s ˘a nu c⸠stige la tombol ˘a?
(iii) Dac ˘a selec¸ tia biletelor c⸠stig ˘atoare ar fi fost realizat ˘a prin alegerea a 7 spectatori ce
erau a¸ seza¸ ti în ¸ sir, pe un acela¸ si rând ales la întâmplare, argumenta¸ ti dac ˘a probabilit ˘a¸ tile
g˘asite la (i) si (ii) r ˘amân acelea¸ si.
Solu¸ tie: Experimentul aleator considerat este alegerea unui bilet de intrare. Acest ex-
periment se repeta in aceleasi conditii, in mod independent, de 7 ori. Desi extragerile se
fac fara ca biletul ales sa fie reintrodus in urna, putem considera ca extragerile se fac cu
repetitie, datorita faptului ca numarul de extrageri (7) este mult mai mic decat numarul
de spectatori de pe stadion (necunoscut in problema, dar cu siguranta este mult mai mare
decat 7).
Aceasta conventie este des intalnita in Statistica, atunci cand volumul esantionului con-
siderat ( n) este mult mai mic decat volumul populatiei din care se extrage esantionul, N.
Scriem in acest caz ca n N. In practica, aceasta are loc atunci cand n <0:05N.
Asadar, convenind ca extragerile se fac cu repetitie, putem considera ca suntem in cazul
schemei bilei revenite. Evenimentul aleator de interes (legat de experimentul aleator) este
ca biletul ales la intamplare sa fie in posesia unei femei. Din ipoteza, probabilitatea ca
intr-o proba evenimentul sa se realizeze intr-o singura proba este p=0:2. Notam cu X
variabila ce reprezint ˘a num ˘arul de femei ce apar la alegerea la întâmplare a 7 spectatori.
(i) In limbajul cu bile si urna, evenimentul compus m˘ acar 3dintre spectatorii premia¸ ti
s˘ a fie femei este echivalent cu aparitia a cel putin 3 bile albe din 7 extrageri cu repetitie,
stiind ca probabilitatea de a aparitie a unei bile albe la o singura extragere este p=0:2.
Astfel, probabilitatea exenimentului este:
P(X3) =1 P(X<3) =1 P(X2) =0:1480 🙁 binocdf(3,7,0.2) )
(ii) Evenimentul cerut este scris simbolic fX=0gsi are probabilitatea
P(X=0) =C0
7p0(1 p)7=0:2097 : ( binopdf(0,7,0.2) )
(iii) În acest caz, probabil ca probabilitatile de mai sus nu mai sunt aceleasi, deoarece
alegerea spectatorilor nu mai este aleatorie (spectatorii a¸ seza¸ ti al ˘aturi pot fi cuno¸ stinte,
prieteni etc.).p
Exerci¸ tiu 2.4 O companie independent ˘a de evalu ˘ari statistice a estimat ca un anumit
candidat are 25% ¸ sanse s ˘a c⸠stige alegerile locale. Dorim s ˘a efectu ˘am un alt sondaj de
opinie care s ˘a verifice rezultatul companiei. Determina¸ ti care ar trebui s ˘a fie volumul
minim de selec¸ tie pentru ca, cu o probabilitate de cel pu¸ tin 0:97, procentul de aleg ˘atori ce
inten¸ tioneaz ˘a s˘a-l voteze pe respectivul candidat se încadreaz ˘a între valorile 20% ¸ si30%.
Determina¸ ti volumul minim folosind dou ˘a metode: teorema lui Ceb⸠sev ¸ si teorema limit ˘a
central ˘a.
Solu¸ tie: S˘a not ˘am cu nnnum˘arul de votan¸ ti (din nale¸ si aleator) care voteaz ˘a cu re-
spectivul candidat. Se cere cel mai mic n2Npentru care
P
0:2nn
n0:3
0:97;
32Capitolul 2. Generarea în MATLAB a datelor statistice
echivalent cu
Pnn
n 0:250:05
0:97:
(i) Observ ˘am c ˘a variabila aleatoare nnB(n;0:25), de unde E(nn) =n
4¸ siVar(nn) =3n
16.
A¸ sadar,
E(nn
n) =0:25;Var(nn
n) =3
16n:
Folosim inegalitatea lui Ceb⸠sev pentru X=nn
n,a=0:05. G ˘asim c ˘a:
Pnn
n 0:250:05
1 Var nn
n
0:052=1 75
n:
Impunem condi¸ tia
1 75
n0:97;
de unde ob¸ tinem c ˘an2500 .
(ii) C ˘aut˘amnastfel încât
P
0:05nn
n 0:250:05
=0:97: (2.4.2)
Ne a¸ stept ˘am ca valoarea lui ns˘a fie mare, deci putem aplica Teorema limit ˘a central ˘a.
Aplicând TLC, scriem c ˘a variabila aleatoare standardizat ˘a
nn E(nn)
s(nn)=4nn 0:25np
3nN(0;1):
Folosind aceasta, rescriem egalitatea (2.4.2) astfel:
0:97=P
0:05nn
n 0:250:05
=P
0:054rn
34nn 0:25np
3n0:054rn
3
=Q
0:2rn
3
Q
0:2rn
3
=Q
0:2rn
3
1 Q
0:2rn
3
=2Q
0:2rn
3
1
de unde Q
0:2pn
3
=0:985¸ si0:2pn
3=z0:9852:17(cuantila de ordin 0:985pentru
reparti¸ tia normal ˘a standard). Din ultima egalitate g ˘asim c ˘an353:1969 . ÎnMATLAB ,
calcul ˘am astfel:
n = 3*(norminv(0.985,0,1)/0.2)^2
A¸ sadar, pentru ca rela¸ tia din enun¸ t s ˘a aib ˘a loc, va trebui ca n354.
Observ ˘am, din nou, c ˘a aceast ˘a valoare este mult mai mic ˘a decât cea g ˘asit˘a anterior.p
2.4 Exerci¸ tii rezolvate 33
Exerci¸ tiu 2.5 Un cet ˘a¸ tean turmentat pleac ˘a de la bar spre cas ˘a. S˘a presupunem c ˘a punctul
de plecare este punctul Ode pe axa orizontal ˘a ¸ si se mi¸ sc ˘a doar pe aceast ˘a ax˘a astfel: în
fiecare unitate de timp, acesta ori face un pas la stânga, cu probabilitatea 0:5, ori face un
pas la dreapta, cu probabilitatea 0:5, independent de pa¸ sii anteriori. Folosind Teorema
limit ˘a central ˘a, estima¸ ti probabilitatea ca, dup ˘a100de pa¸ si, acesta nu a ajuns la mai mult
de doi pa¸ si de punctul de plecare.
Solu¸ tie: FieXivariabila aleatoare ce reprezint ˘a pasul pe care cet ˘a¸ teanul îl face la
momentul i(i2N). S˘a atribuim X= 1, dac ˘a face un pas la stânga, ¸ si X=1, dac ˘a
face un pas la dreapta. A¸ sadar, Xeste o variabil ˘a aleatoare discret ˘a ce poate lua doar
dou˘a valori, 1¸ si1, ambele cu probabilitatea 0:5. Se calculeaz ˘a cu u¸ surin¸ t ˘a,E(X) =0¸ si
D2(X) =1. Suntem interesa¸ ti s ˘a afl˘am ce se întâmpl ˘a dup ˘a100de pa¸ si. Consider ˘am mai
întâi Sn=n
å
i=1Xi. Atunci,
E(Sn) =n
å
i=1E(Xi) =0 ¸ si D2(Sn) =n
å
i=1D2(Xi) =n;
deoarecefXigi=1;nsunt independente.
Pentru n30, Teorema limit ˘a central ˘a spune c ˘aSnN(0;pn). Pentru n=100,S100
N(0;10). Probabilitatea cerut ˘a este:
P(jS100j2) =P( 2S1002) = FS100(2) FS100( 2) =0:1583 :
( normcdf(2,0,10)-normcdf(-2,0,10) )
Folosind urm ˘atorul cod, putem simula în M ATLAB mi¸ scarea aleatorie (vezi Figura 2.4):
N = input('N = '); % numar de pasi
X = 2*(rand(N,1)<0.5)-1; % simuleaza pasii la fiecare moment
S = cumsum(X); % simuleaza unde a ajuns dupa fiecare pas
plot(1:N, S, '-') % reprezinta miscarea
Z=length(find(S == 0)) % numarul de reintoarceri la barp
Figura 2.4: Mi¸ scare aleatoare (brownian˘ a) 1D.
34Capitolul 2. Generarea în MATLAB a datelor statistice
2.5 Exerci¸ tii propuse
Exerci¸ tiu 2.6 Temperatura T(0C)dintr-un anumit proces chimic are reparti¸ tia U( 5;5).
Calcula¸ ti P(T<0);P( 2:5<T<2:5);P( 2T3).
Exerci¸ tiu 2.7 Temperatura de topire a unui anumit material este o v.a. cu media de 120oC
¸ si devia¸ tia standard de 2oC. Determina¸ ti temperatura medie ¸ si devia¸ tia standard înoF,
¸ stiind c ˘aoF=1:8oC+32.
Exerci¸ tiu 2.8 Dac˘aZN(0;1), calcula¸ ti:
P(Z1:35);P(0Z1);P(1Z);P(jZj>1:5):
Exerci¸ tiu 2.9 Calcula¸ ti cuartilele reparti¸ tiei N(0;1). De asemenea, calcula¸ ti z0:95¸ si
z0:975.
Exerci¸ tiu 2.10 O pereche de zaruri ideale este aruncat ˘a de200de ori. Care este probabili-
tatea s ˘a ob¸ tinem o sum ˘a de 7 în cel pu¸ tin 20% dintre cazuri?
Exerci¸ tiu 2.11 Simula¸ ti în MATLAB variabila aleatoare discret ˘aXce are tabloul de dis-
tribu¸ tie:
X: 2 0 2
1
41
21
4!
:
G˘asi¸ ti ¸ si reprezenta¸ ti grafic func¸ tia de reparti¸ tie FX(x). Calcula¸ ti FX(1
2).
Exerci¸ tiu 2.12 O companie de asigur ˘ari ofer ˘a angaja¸ tilor s ˘ai diverse poli¸ te de asigurare.
Pentru un asigurat ales aleator, not ˘am cu Xnum˘arul de luni scurs între dou ˘a pl˘a¸ ti succesive.
Func¸ tia de reparti¸ tie a lui Xeste:
F(x) =8
>>>>>>>><
>>>>>>>>:0;x<1;
0:3;1x<3;
0:4;3x<4;
0:45;4x<6;
0:65;6x<12;
1;12x:
(a) Determina¸ ti func¸ tia de probabilitate a lui X.
(b) Calcula¸ ti P(3X6)¸ siP(4X).
Exerci¸ tiu 2.13 Pentru evaluarea rezultatelor obtinute la teza de Matematica de catre elevii
unei anumite scoli, se face un sondaj de volum 35printre elevii scolii, iar notele lor sunt
sumarizate in Tabelul 2.2.
note 4 5 6 7 8 9 10
frecventa 3 6 7 8 5 4 2
Tabela 2.2: Medii generale ¸ si frecven¸ te
(i) Sa se scrie si sa se reprezinte grafic functia de repartitie pentru aceasta selectie;
(ii) Notam cu Xvariabila aleatoare care guverneaza populatia. Utilizand selectia de mai
sus, sa se aproximeze probabilitatea P(6X8).
2.5 Exerci¸ tii propuse 35
Exerci¸ tiu 2.14 Datele din tabelul de mai jos reprezint ˘a procentul de ¸ someri dintr-o anumit ˘a
regiune a ¸ t ˘arii, pentru anumite categorii de vârst ˘a.
Vârsta [18;25) [25;35) [35;45) [45;55) [55;65)
Procent 8 12 22 23 35
Folosind MATLAB , genera¸ ti o selec¸ tie aleatoare de volum 275, ¸ tinând cont de reparti¸ tia
datelor.
3. Elemente de Statistic ˘a descriptiv ˘a
. [Statistics is like a bikini; what is revealed
. is interesting, but what is concealed is crucial.]
Statistica descriptiv ˘a este acea ramur ˘a a Statisticii care se preocup ˘a de descrierea datelor
statistice, prin gruparea, reprezentarea grafic ˘a ¸ si calcularea unor m ˘asuri empirice ale formei
sau tendin¸ tei datelor. Este primul pas pe care il face un statistician ce urmareste sa extrag ˘a
informatii dintr-un set de date.
Daca datele statistice sunt negrupate, atunci se prefera o grupare a lor in clase, pentru o
mai buna observare a lor. Dupa gruparea in clase (care este la latitudinea statisticianului),
datele sunt asezate in tabele de frecvente. Aceste tabele pot contine, pe langa clasele
construite, frecvente absolute, frecvente relative, frecvente cumulate, frontierele claselor,
valorile de mijloc. Uneori doar un singur tip de frecvente este suficient pentru a continua
analiza datelor. Un exemplu de tabel de frecvente este Tabelul 5.2.
Exista mai multe optiuni pentru reprezentarea grafica a datelor, in functie de tipul de date
pe care le avem. Spre exemplu, pentru date discrete sunt preferate reprezentarile cu bare
sau cu sectoare de disc. Dupa caz, mai pot fi folosite reprezentari cu puncte sau stem&leaf.
Pentru date continue se folosesc histograme sau sectoare de disc.
3.1 Organizarea ¸ si descrierea datelor
Presupunem c ˘a avem o colectivitate statistic ˘a, c˘areia i se urm ˘are¸ ste o anumit ˘a caracteristic ˘a
(sau variabila). Spre exemplu, colectivitatea este mul¸ timea tuturor studen¸ tilor dintr-o
universitate înrola¸ ti în anul întâi de master, iar caracteristica este media la licen¸ t ˘a ob¸ tinut ˘a
de fiecare dintre ace¸ sti studen¸ ti. Teoretic, mul¸ timea valorilor acestei caracteristici este
intervalul [6;10], iar aceasta variabila poate lua orice valoare din acest interval.
38 Capitolul 3. Elemente de Statistic ˘a descriptiv ˘a
V om numi date (sau date statistice ) informa¸ tiile ob¸ tinute în urma observarii valorilor
acestei caracteristici. In cazul mentionat mai sus, datele sunt mediile la licen¸ t ˘a observate.
În general, datele pot fi calitative (se mai numesc ¸ si categoriale ) sau cantitative , dup ˘a cum
caracteristica (sau variabila) observat ˘a este calitativ ˘a (exprima o calitate sau o categorie)
sau, respectiv, cantitativ ˘a (are o valoare numerica). Totodata, aceste date pot fi date de
tip discret , dac ˘a sunt ob¸ tinute în urma observ ˘arii unei caracteristici discrete (o variabila
aleatoare discret ˘a, sau o variabila ale carei posibile valori sunt in numar finit sau cel
mult numarabil), sau date continue , dac ˘a aceast ˘a caracteristic ˘a este continu ˘a (o variabil ˘a
aleatoare de tip continuu, sau o variabila ce poate lua orice valoare dintr-un interval sau
chiar de pe axa reala). În cazul din exemplul de mai sus, datele vor fi cantitative ¸ si continue.
În Statistic ˘a se obisnuieste a se nota variabilele (caracteristicile) cu litere mari, X;Y;Z; :::,
si valorile lor cu litere mici, x;y;z; :::. In mare parte din acest curs vom folosi notatia Z
pentru variabila aleatoare si cu zo posibila valoare (sau realizare) a sa. Daca in exemplul
de mai sus notam cu Zvariabila medie la licenta , atunci un anume zobservat va fi media
la licenta pentru un student din colectivitate ales aleator.
Primul pas în analiza datelor empirice observate este o analiza descriptiva, ce consta in
ordonarea ¸ si reprezentarea grafica a datelor, dar ¸ si în calcularea anumitor caracteristici
numerice pentru acestea. Datele înainte de prelucrare, adic ˘a exact a¸ sa cum au fost culese,
se numesc date negrupate . Un exemplu de date negrupate (de tip continuu) sunt cele
observate in Tabelul 3.1, reprezentând timpi (în min.sec ) de a¸ steptare pentru primii 100
de clien¸ ti care au a¸ steptat la un ghi¸ seu pân ˘a au fost servi¸ ti.
1.02 2.01 2.08 3.78 2.03 0.92 4.08 2.35 1.30 4.50 4.06 3.55 2.63 1.76
0.13 5.32 3.97 3.36 4.31 3.58 5.64 1.95 0.91 1.26 0.74 3.64 4.77 2.14
2.98 4.33 5.08 4.67 0.79 3.14 0.99 0.78 2.34 4.51 3.53 4.55 1.89 3.28
0.94 3.44 1.35 3.64 2.92 2.67 2.86 2.41 3.19 5.41 5.14 2.75 1.67 3.89
1.12 4.75 2.88 4.30 4.55 5.87 0.70 5.04 5.33 2.40 1.50 0.83 3.74 4.85
3.79 1.48 2.65 1.55 3.95 5.88 1.58 5.49 0.48 2.77 3.20 2.51 5.80 4.12
3.12 0.71 2.76 1.95 0.10 4.22 5.69 5.41 1.68 2.46 1.40 2.16 4.98 0.88
5.36 1.32
Tabela 3.1: Date statistice negrupate
De cele mai multe ori, enumerarea tuturor datelor culese este dificil de realizat, de aceea se
urm˘are¸ ste a se grupa datele, pentru o mai u¸ soar ˘a gestionare. Imagina¸ ti-v ˘a c˘a enumer ˘am
toate voturile unei selec¸ tii întâmpl ˘atoare de 15000 de votan¸ ti, abia ie¸ si¸ ti de la vot. Mai
degrab ˘a, ar fi mai util ¸ si practic s ˘a grup ˘am datele dup ˘a numele candida¸ tilor, precizând
num˘arul de voturi ce l-a primit fiecare. Asadar, pentru o mai buna descriere a datelor, este
necesara gruparea lor in clase de interes.
3.1.1 Gruparea datelor
Datele prezentate sub form ˘a de tabel (sau tablou) de frecven¸ te se numesc date grupate .
Datele de selec¸ tie ob¸ tinute pot fi date discrete sau date continue, dup ˘a cum caracteristicile
studiate sunt variabile aleatoare discrete sau, respectiv, continue.
(1) Date de tip discret: Dac˘a datele de selec¸ tie sunt discrete (e.g., fz1;z2; :::; zng), este
posibil ca multe dintre ele sa se repete. Presupunem ca valorile distincte ale acestor date
sunt z0
1;z0
2; :::; z0
r,rn. Atunci, putem grupa datele într-un a¸ sa-numit tabel de frecven¸ te
(vezi exemplul din Tabelul 6.4). Alternativ, putem organiza datele negrupate într-un tabel
3.1 Organizarea ¸ si descrierea datelor 39
nota frecven¸ ta absolut ˘afrecven¸ ta cumulat ˘afrecven¸ ta relativ ˘afrecven¸ ta relativ ˘a cumulat ˘a
2 2 2 2.22% 2.22%
3 4 6 4.44% 6.66%
4 8 14 8.89% 15.55%
5 15 29 16.67% 32.22%
6 18 47 20.00% 52.22%
7 17 64 18.89% 71.11%
8 15 79 16.67% 87.78%
9 7 86 7.78% 95.56%
10 4 90 4.44% 100%
Total 90 – 100% –
Tabela 3.2: Tabel cu frecven¸ te pentru date discrete.
de frecven¸ te , dup ˘a cum urmeaz ˘a:
data z0
1z0
2::: z0
r
frecventa f1f2::: fr(3.1.1)
unde fieste frecven¸ ta apari¸ tiei valorii z0
i, (i=1;2; :::; r), ¸ si se va numi distribu¸ tia empiric˘ a
de selec¸ tie a lui Z. Aceste frecven¸ te pot fi absolute sau de relative. Un tabel de frecven¸ te
(sau o distribu¸ tie de frecven¸ te ) con¸ tine cel pu¸ tin dou ˘a coloane: o coloan ˘a ce reprezint ˘a
datele observate (grupate în clase) ¸ si o coloan ˘a de frecven¸ te. În prima coloan ˘a apar clasele,
adic˘a toate valorile distincte observate. Datele din aceast ˘a coloan ˘a nu se repet ˘a. Prin
frecven¸ ta absolut˘ a a clasei în¸ telegem num ˘arul de elemente ce apar¸ tine fiec ˘arei clase în
parte. De asemenea, un tabel de frecven¸ te mai poate con¸ tine frecven¸ te relative sau cumulate.
Ofrecven¸ t˘ a relativ˘ a se ob¸ tine prin împ ˘ar¸ tirea frecven¸ tei absolute a unei categorii la suma
tuturor frecven¸ telor din tabel. Astfel, suma tuturor frecven¸ telor relative este egal ˘a cu 1.
Frecven¸ ta (absolut˘ a) cumulat˘ a a unei clase se ob¸ tine prin cumularea tuturor frecven¸ telor
absolute pân ˘a la (inclusiv) clasa respectiv ˘a.Frecven¸ ta relativ˘ a cumulat˘ a a unei clase se
ob¸ tine prin cumularea tuturor frecven¸ telor relative pân ˘a la (inclusiv) clasa respectiv ˘a.
A¸ sadar, elementele unui tabel de frecven¸ te pot fi: clasele (ce con¸ tin valori pentru variabile),
frecven¸ te absolute, frecven¸ te relative sau cumulate. Într-un tabel, nu este obligatoriu s ˘a
apar˘a toate coloanele cu frecven¸ te sau ele s ˘a apar ˘a în aceast ˘a ordine.
V om numi o serie de timpi (sau serie dinamic ˘a ori cronologic ˘a) un set de date culese la
momente diferite de timp. O putem reprezenta sub forma unui tablou de forma
data :z1z2::: zn
t1t2::: tn
;
unde zisunt valorile caracteristicii, iar timomente de timp (e.g., r ˘aspunsurile citite de un
electrocardiograf).
În Tabelul 6.4, sunt prezentate notele studen¸ tilor din anul al III-lea la examenul de
Statistic ˘a. Acesta este exemplu de tabel ce reprezent ˘a o caracteristic ˘a discret ˘a.
(2) Date de tip continuu: Dac˘a datele statistice sunt realiz ˘ari ale unei variabile Zde tip
continuu, atunci se obi¸ snuieste s ˘a se fac ˘a o grupare a datelor de selec¸ tie în clase. Datele
40 Capitolul 3. Elemente de Statistic ˘a descriptiv ˘a
de tip continuu pot fi grupate într-un tablou de distribu¸ tie sau sub forma unui tabel de
distribu¸ tie, dupa cum urmeaza:
data [a0;a1) [a1;a2)::: [ar 1;ar)
frecventa f1 f2 ::: frclasa frecven¸ ta valoare medie
[a0;a1) f1 z0
1
[a1;a2) f2 z0
2………
[ar 1;ar) fr z0
r
Tabela 3.3: Tabel cu frecven¸ te pentru
date de tip continuu.
În particular, putem grupa datele de tip continuu din Tabelul 3.1 în tabloul de distribu¸ tie
urm˘ator:
data [0;1) [1;2) [2;3) [3;4) [4;5) [5;6)
frecventa 14 17 21 18 16 14
Aceasta grupare nu este unica; intervalele ce reprezinta clasele pot fi modificate dupa cum
doreste utilizatorul. Uneori, tabelul de distribu¸ tie pentru o caracteristic ˘a de tip continuu
mai poate fi scris ¸ si sub forma unui tabel ca in (3.1.1), unde
•z0
i=ai 1+ai
2este elementul de mijloc al clasei [ai 1;ai);
•fieste frecven¸ ta apari¸ tiei valorilor din [ai 1;ai), (i=1;2; :::; r),r
å
i=1fi=n.
Pentru definirea clas elor unui tabel de frecven¸ te, nu exist ˘a o regul ˘a precis ˘a. Fiecare
utilizator de date î¸ si poate crea propriul tabel de frecven¸ te. Scopul final este ca acest
tabel s ˘a scoat ˘a în eviden¸ t ˘a caracteristicele datelor, cum ar fi: existen¸ ta unor grupe (clase)
naturale, variabilitatea datelor într-un anumit grup (clas ˘a), informa¸ tii legate de existen¸ ta
unor anumite date statistice care nu au fost observate in selec¸ tia dat ˘a etc. În general, aceste
caracteristici nu ar putea fi observate privind direct setul de date negrupate. Totu¸ si, pentru
crearea tabelelor de frecven¸ te, se recomand ˘a urm ˘atorii pa¸ si:
1.Determinarea num ˘arului de clase (disjuncte). Este recomandat ca num ˘arul claselor
s˘a fie între 5 ¸ si 20. Dac ˘a volumul datelor este mic (e.g., n<30), se recomand ˘a
constituirea a 5 sau 6 clase. De asemenea, dac ˘a este posibil, ar fi util ca fiecare
clas˘a s˘a fie reprezentat ˘a de cel pu¸ tin 5valori (pentru un num ˘ar mic de clase). Dac ˘a
num˘arul claselor este mai mare, putem avea ¸ si mai pu¸ tine date într-o clas ˘a, dar nu mai
pu¸ tin de 3. O clas ˘a cu prea pu¸ tine valori (0, 1 sau 2) poate s ˘a nu fie reprezentativ ˘a.
2.Determinarea l ˘a¸ timii claselor. Dac ˘a este posibil, ar fi bine dac ˘a toate clasele ar avea
aceea¸ si l ˘a¸ time. Acest pas depinde, în mare m ˘asur˘a, de alegerea din pasul anterior.
3.Determinarea frontierelor claselor. Frontierele claselor sunt construite astfel încât
fiecare dat ˘a statistic ˘a s˘a apar¸ tine unei singure clase.
În practic ˘a, un tabel de frecven¸ te se realizeaz ˘a prin încerc ˘ari, pân ˘a avem convingerea c ˘a
gruparea f ˘acut˘a poate surprinde cât mai fidel datele observate.
A¸ sadar, dac ˘a ne este dat ˘a o în¸ siruire de date ale unei caracteristici discrete sau continue,
atunci le putem grupa imediat în tabele sau tablouri de frecven¸ te. Invers (avem tabelul
sau tabloul de reparti¸ tie ¸ si vrem s ˘a enumer ˘am datele) nu este posibil, decât doar în cazul
unei caracteristici de tip discret. De exemplu, dac ˘a ni se d ˘a Tabelul 5.2, ce reprezint ˘a rata
3.2 Reprezentarea datelor statistice 41
somajului într-o anumit ˘a regiune a ¸ t ˘arii pe categorii de vârste, nu am putea ¸ sti cu exactitate
vârsta exact ˘a a persoanelor care au fost selec¸ tionate pentru studiu.
vârsta frecven¸ ta frecven¸ ta relativ ˘afrecven¸ ta cumulat ˘avârsta medie
[18;25) 34 8.83% 8.83% 21.5
[25;35) 76 19.74% 28.57% 30
[35;45) 124 32.21% 60.78% 40
[45;55) 87 22.60% 83.38% 50
[55;65) 64 16.62% 100.00% 60
Total 385 100% – –
Tabela 3.4: Tabel cu frecven¸ te pentru rata somajului.
Observ ˘am c ˘a acest tabel are 5clase: [18;25);[25;35);[35;45);[45;55);[55;65). V om
numi valoare de mijloc pentru o clas ˘a, valoarea ob¸ tinut ˘a prin media valorilor extreme ale
clasei. În cazul Tabelului 5.2, valorile de mijloc sunt scrise în coloana cu vârsta medie.
Frecven¸ ta cumulat˘ a a unei clase este suma frecven¸ telor tuturor claselor cu valori mai mici.
3.2 Reprezentarea datelor statistice
Un tabel de frecven¸ te sau o distribu¸ tie de frecven¸ te (absolute sau relative) sunt de cele mai
multe ori baza unor reprezent ˘ari grafice, pentru o mai bun ˘a vizualizare a datelor. Aceste
reprezent ˘ari pot fi f ˘acute în diferite moduri, dintre care amintim pe cele mai uzuale.
3.2.1 Reprezentare prin puncte
Reprezentarea prin puncte ( en.,dot plot) este
folosit ˘a, de regula, pentru selec¸ tii de date de tip
discret de dimensiuni mici. Sunt reprezentate
puncte a¸ sezate unul peste celalalt, reprezentând
num˘arul de apari¸ tii ale unei valori pentru
caracteristica dat ˘a. Un astfel de grafic este
reprezentat în Figura 3.1. Aceste reprezent ˘ari
sunt utile atunci când se dore¸ ste scoaterea
în eviden¸ t ˘a a anumitor pâlcuri de date ( en.,
clusters) sau chiar lipsa unor date (goluri). Au
avantajul de a conserva valoarea numeric ˘a a
datelor reprezentate.
Figura 3.1: Reprezentarea cu puncte.
3.2.2 Reprezentarea stem-and-leaf
Este folosita, de asemenea, pentru date de tip discret, de selectii de volum relativ mic.
Urm ˘atorul set de date negrupate reprezinta punctajele (din 100de puncte) ob¸ tinute de cei
20 de elevi ai unui an de studiu la o testare semestrial ˘a:
50 34 55 41 59 61 62 64 68 18 68 73 75 77
44 77 62 77 53 79 81 48 85 96 88 92 39 96
42 Capitolul 3. Elemente de Statistic ˘a descriptiv ˘a
Tabelul 3.3 reprezint ˘a aceste date sub forma stem-and-leaf (ramur ˘a-frunz ˘a). Se observ ˘a
c˘a acest tabel arat ˘a atât cum sunt repartizate datele, cât ¸ si forma reparti¸ tiei lor (a se privi
graficul c ˘a având pe OYdrept axa absciselor ¸ si OXpe cea a ordonatelor). A¸ sadar, 7j5
semnific ˘a un punctaj de 75. Pentru un volum prea mare de date, aceast ˘a reprezentare nu
este cea mai bun ˘a metod ˘a de vizualizare a datelor. În sec¸ tiunile urm ˘atoare vom prezenta ¸ si
alte metode utile.
Figura 3.2: Reprezentarea datelor discrete.stem leaf
10
9 2 6
8 1 5 6 8
7 3 5 7 7 7 9
6 1 2 2 4 8 8
5 0 3 5 9
4 1 4 8
3 4 9
2
1 8
0
Figura 3.3: Tabel stem-and-leaf
reprezentând punctajele studen¸ tilor.
3.2.3 Reprezentarea cu bare (bar charts)
Este util ˘a pentru reprezentarea variabilelor discrete cu un num ˘ar mic de valori diferite.
Barele sunt dreptunghiuri ce reprezint ˘a frecven¸ tele ¸ si nu sunt unite între ele. Fiecare
dreptunghi reprezint ˘a o singur ˘a valoare. Într-o reprezentare cu bare, categoriile sunt plasate,
de regul ˘a, pe orizontal ˘a iar frecven¸ tele pe vertical ˘a. În Figura 3.4 1sunt reprezentate datele
din tabelul cu note. Se poate schimba orientarea categoriilor ¸ si a claselor; în acest caz
barele vor ap ˘area pe orizontal ˘a (vezi Figura 3.4 2).
Figura 3.4: Reprezent˘ ari cu bare verticale sau orizontale.
3.2 Reprezentarea datelor statistice 43
Figura 3.5 contine o reprezentare de date folosind bare 3D.
Figura 3.5: Reprezentare 3D prin bare.
3.2.4 Histograme
Cuvântul "histogram ˘a" a fost introdus pentru prima oar ˘a de Karl Pearson1în1895 . Acesta
deriv ˘a din cuvintele grece¸ sti histos (gr., ridicat în sus) ¸ si gramma (gr., desen, înregistrare).
Ohistogram˘ a este o form ˘a pictorial ˘a a unui tabel de frecven¸ te, foarte util ˘a pentru selec¸ tii
mari de date de tip continuu. Se aseam ˘an˘a cu reprezentarea prin bare, cu urm ˘atoarele dou ˘a
diferen¸ te: nu exist ˘a spa¸ tii între bare (de¸ si, pot ap ˘area bare de înal¸ time zero ce arat ˘a a fi
spa¸ tiu liber) ¸ si ariile barelor sunt propor¸ tionale cu frecven¸ tele corespunz ˘atoare. Num ˘arul
de dreptunghiuri este egal cu num ˘arul de clase, l ˘a¸ timea dreptunghiului este intervalul
clasei, iar în ˘al¸ timea este a¸ sa încât aria fiec ˘arui dreptunghi reprezint ˘a frecven¸ ta. Aria total ˘a
a tuturor dreptunghiurilor este egal ˘a cu num ˘arul total de observa¸ tii. Dac ˘a barele unei
histograme au toate aceea¸ si l ˘a¸ time, atunci în ˘al¸ timile lor sunt propor¸ tionale cu frecven¸ tele.
În˘al¸ timile barelor unei histogramei se mai numesc ¸ si densit˘ a¸ ti de frecven¸ t˘ a . În cazul în
care l ˘a¸ timile barelor nu sunt toate egale, atunci în ˘al¸ timile lor satisfac:
în˘al¸ timea =kfrecven¸ ta
l˘a¸ timea clasei; k=factor de propor¸ tionalitate :
1Karl Pearson (1857 1936), statistician, avocat ¸ si eugenist britanic
44 Capitolul 3. Elemente de Statistic ˘a descriptiv ˘a
În˘al¸ timea (în cm) frecven¸ ta
[0;5) 5
[5;10) 13
[10;15) 23
[15;20) 17
[20;25) 10
[25;30) 2
Tabela 3.5: Tabel cu în˘ al¸ timile plantelor
Tabela 3.6: Histograme pentru datele din Tabelul 3.5
S˘a presupunem c ˘a am fi grupat datele din Tabelul 3.5 într-o alt ˘a manier ˘a, în care clasele nu
sunt echidistante (vezi Tabelul 3.7). În Tabelul 3.7, datele din ultimele dou ˘a clase au fost
cumulate într-o singur ˘a clas ˘a, de l ˘a¸ time mai mare decât celelalte, deoarece ultima clas ˘a din
Tabelul 3.5 nu avea suficiente date. Histograma ce reprezint ˘a datele din Tabelul 3.7 este
cea din Figura 3.8. Conform cu regula propor¸ tionalit ˘a¸ tii ariilor cu frecven¸ tele, se poate
observa c ˘a primele patru bare au în ˘al¸ timi egale cu frecven¸ tele corespunz ˘atoare, pe când
în˘al¸ timea ultimei bare este jum ˘atate din valoarea frecven¸ tei corespunz ˘atoare, deoarece
l˘a¸ timea acesteia este dublul l ˘a¸ timii celorlalte.
În general, pentru a construi o histogram ˘a, vom
avea în vedere urm ˘atoarele:
datele vor fi împ ˘ar¸ tite (unde este posibil) în
clase de lungimi egale. Uneori aceste diviz ˘ari
sunt naturale, alteori va trebui s ˘a le fabric ˘am.
num˘arul de clase este, în general, între 5¸ si
20.
înregistra¸ ti num ˘arul de date ce cad în fiecare
clas˘a (numite frecven¸ te ).
figura ce con¸ tine histograma va avea clasele
pe orizontal ˘a ¸ si frecven¸ tele pe vertical ˘a.
Figura 3.6: Histogram˘ a 3D
În˘al¸ timea (în cm) frecven¸ ta
[0;5) 5
[5;10) 13
[10;15) 23
[15;20) 17
[20;30) 12
Tabela 3.7: Tabel cu în˘ al¸ timile plantelor
Tabela 3.8: Histograme pentru datele din Tabelul 3.7
3.2 Reprezentarea datelor statistice 45
în˘al¸ timea (în cm) frontierele l˘a¸ timea frecven¸ ta densitatea de frecven¸ t ˘a
[18;25) 17:5 25:5 8 34 4:25
[25;35) 24:5 35:5 11 76 6:91
[35;45) 34:5 45:5 11 124 11:27
[45;55) 44:5 55:5 11 87 7:91
[55;65) 54:5 65:5 11 64 5:82
Tabela 3.9: Tabel cu frontierele claselor.
Observa¸ tia 3.1 (1) Dac ˘a lungimea unei clase este infinit ˘a (e.g., ultima clas ˘a din Tabelul
3.7 este [20;¥)), atunci se obi¸ snuie¸ ste ca l ˘a¸ timea ultimului interval s ˘a fie luat ˘a drept dublul
l˘a¸ timii intervalului precedent.
(2) În multe situa¸ tii, capetele intervalelor claselor sunt ni¸ ste aproxim ˘ari, iar în locul
acestora vom putea utiliza alte valori. Spre exemplu, s ˘a consider ˘am clasa [15;20). Aceast ˘a
clas˘a reprezint ˘a clasa acelor plante ce au în ˘al¸ timea cuprins ˘a între 15cm ¸ si 20cm. Deoarece
valorile în ˘al¸ timilor sunt valori reale, valorile 15¸ si20sunt, de fapt, aproxim ˘arile acestor
valori la cel mai apropiat întreg. A¸ sadar, este posibil ca aceast ˘a clas ˘a s˘a con¸ tin ˘a acele plante
ce au în ˘al¸ timile situate între 14:5cm (inclusiv) ¸ si 20:5cm (exclusiv). Am putea face referire
la aceste valori ca fiind valorile reale ale clasei, numite frontierele clasei . În cazul în care
am determinat frontierele clasei, l ˘a¸ timea unei clase se define¸ ste ca fiind diferen¸ ta între
frontierele ce-i corespund. În concluzie, în cazul clasei [15;20), aceasta are frontierele
14:5-20:5, l˘a¸ timea 6¸ si frecven¸ ta17
6. Pentru exemplificare, în Tabelul 3.9 am prezentat
frontierele claselor, l ˘a¸ timile lor ¸ si densit ˘a¸ tile de frecven¸ t ˘a pentru datele din Tabelul 5.2.
3.2.5 Reprezentare prin sectoare de disc (pie charts)
Se poate reprezenta distribu¸ tia unei caracteristici ¸ si folosind sectoare de disc (diagrame
circulare) ( en., pie charts ), fiecare sector de disc reprezentând câte o frecven¸ t ˘a relativ ˘a.
Aceast ˘a variant ˘a este util ˘a în special la reprezentarea datelor calitative. Exist ˘a ¸ si
posibilitatea de a reprezenta datele prin sectoare 3 dimensionale. În Figura 3.8 am
reprezentat datele din Tabelul 5.2.
Figura 3.7: Reprezentarea pe disc a
frecven¸ telor relative ale notelor din tabelul
cu note
Figura 3.8: Reprezentare pe disc 3D
46 Capitolul 3. Elemente de Statistic ˘a descriptiv ˘a
3.2.6 Ogive
Pentru frecventele cumulate pot fi folosite
ogive . O ogiv˘ a reprezint ˘a graficul unei
frecven¸ te cumulate (absolut ˘a sau relativ ˘a).
X = [2 4 8 15 18 17 15 7 4];
plot(2:10, cumsum(X), '*-')
Figura 3.9: Ogiva pentru frecven¸ tele absolute
cumulate din Tabelul 6.4
3.2.7 Diagrama Q-Q sau diagrama P-P
Q-Q plot (diagrama cuantila-cuantila) si P-P plot (diagrama probabilitate-probabilitate)
sunt utilizate in a determina apropierea dintre doua seturi de date (repartitii). Daca datele
provin dintr-o acceasi repartitie, atunci ele se aliniaza dupa o dreapta desenata in figura.
Diagrama Q-Q este bazata pe rangurile valorilor, iar diagrama P-P este bazata pe functiile
de repartitie empirice.
Figura 3.10: Exemplu de diagrama Q-Q plot
S˘a consider ˘am o popula¸ tie statistic ˘a de volum N¸ si o caracteristic ˘a a sa, X, ce are func¸ tia
de reparti¸ tie F. Asupra acestei caracteristici facem nobserva¸ tii, în urma c ˘arora culegem
un set de date statistice. Dup ˘a cum am v ˘azut anterior, datele statistice pot fi prezentate
într-o form ˘a grupat ˘a (descrise prin tabele de frecven¸ te) sau pot fi negrupate, exact a¸ sa
cum au fost culese în urma observ ˘arilor. Pentru analiza acestora, pot fi utilizate diverse
tehnici de organizare ¸ si reprezentare grafic ˘a a datelor statistice îns ˘a, de cele mai multe
ori, aceste metode nu sunt suficiente pentru o analiz ˘a detaliat ˘a. Suntem interesa¸ ti în a
atribui acestor date anumite valori numerice reprezentative. Pot fi definite mai multe tipuri
3.3 M ˘asuri descriptive ale datelor negrupate 47
de astfel de valori numerice, e.g., m ˘asuri ale tendin¸ tei centrale (media, modul, mediana),
m˘asuri ale dispersiei (dispersia, devia¸ tia standard), m ˘asuri de pozi¸ tie (cuantile, distan¸ ta
intercuantilic ˘a) etc. În acest capitol, vom introduce diverse m ˘asuri descriptive numerice,
atât pentru datele grupate, cât ¸ si pentru cele negrupate.
3.3 M ˘asuri descriptive ale datelor negrupate
Consider ˘am un set de date statistice negrupate, x1;x2; :::; xn(xi2R;i=1;2:::;n;n
N), ce corespund unor observa¸ tii f ˘acute asupra variabilei X. Pe baza acestor observatii,
definim urm ˘atoarele m ˘asuri descriptive ale datelor, in scopul de a estima parametrii reali
ai caracteristicilor populatiei. Deoarece ele se bazeaza doar pe observatiile culese, aceste
masuri se mai numesc si masuri empirice .
•Valoarea medie
Este o m ˘asur˘a a tendin¸ tei centrale a datelor. Pentru o selec¸ tie fx1;x2; :::; xng,
definim:
¯x=1
nn
å
i=1xi;
ca fiind media datelor observate. Aceasta medie empirica este un estimator pentru
media teoretica, m=EX, daca aceasta exista.
•Pentru fiecare i, cantitatea di=xi xse nume¸ ste devia¸ tia valorii xide la medie .
Aceasta nu poate fi definit ˘a ca o m ˘asur˘a a gradului de împr ˘a¸ stiere a datelor, deoarece
n
å
i=1(xi x) =0:
•Momentele
Pentru k2N,momentele de ordin k se definesc astfel:
ak=1
nn
å
i=1xk
i:
Pentru fiecare k2N,momentele centrate de ordin k se definesc astfel:
mk=1
nn
å
i=1(xi x)k:
•Dispersia
Aceasta este o m ˘asur˘a a gradului de împr ˘a¸ stiere a datelor în jurul valorii medii.
Pentru o selec¸ tiefx1;x2; :::; xng, definim dispersia astfel:
s2=m2=1
n 1n
å
i=1(xi ¯x)2
=1
n 1[n
å
i=1×2
i n(¯x)2]!
:
•Devia¸ tia standard
Este tot o m ˘asur˘a a împr ˘a¸ stierii datelor în jurul valorii medii. Pentru o selec¸ tie
fx1;x2; :::; xng, definim devia¸ tia standard:
s=s
1
n 1n
å
i=1(xi ¯x)2:
48 Capitolul 3. Elemente de Statistic ˘a descriptiv ˘a
•Coeficientul de varia¸ tie (sau de dispersie)
Acest coeficient (de obicei, exprimat în procente) este util atunci când compar ˘am
dou˘a reparti¸ tii având unit ˘a¸ ti de m ˘asur˘a diferite. Nu este folosit atunci când xsaum
este foarte mic. Pentru doua populatii care au aceeasi deviatie standard, gradul de
variatie a datelor este mai mare pentru populatie ce are media mai mica.
CV=s
x; coeficient de varia¸ tie ;
•Amplitudinea (plaja de valori, range)
Pentru un set de date, amplitudinea (en.,range) este definit ˘a ca fiind diferen¸ ta dintre
valoarea cea mai mare ¸ si valoarea cea mai mic ˘a a datelor, i.e., xmax xmin.
•Scorul z
Este num ˘arul devia¸ tiilor standard pe care o anumit ˘a observa¸ tie, x, le are sub sau
deasupra mediei. Pentru o selec¸ tie fx1;x2; :::; xng,scorul X este definit astfel:
x=x ¯x
s:
•Corela¸ tia (covarian¸ ta)
Dac˘a avem nperechi de observa¸ tii, (x1;y1);(x2;y2); :::;(xn;yn), definim corela¸ tia
(covarian¸ ta):
cov sel=1
n 1n
å
i=1(xi ¯x)(yi ¯y): (3.3.2)
•Coeficientul de corela¸ tie
rsel=cov sel
sxsy; coeficient de corela¸ tie ;
•Func¸ tia de reparti¸ tie empiric˘ a
Se nume¸ ste func¸ tie de reparti¸ tie empiric˘ a asociat ˘a unei variabile aleatoare X¸ si unei
selec¸ tiifx1;x2; :::; xng, func¸ tia F
n:R ![0;1], definit ˘a prin
F
n(x) =cardfi;xixg
n: (3.3.3)
Propozi¸ tia de mai jos arat ˘a c˘a func¸ tia de reparti¸ tie empiric ˘a aproximeaz ˘a func¸ tia de
reparti¸ tie teoretic ˘a (vezi Figura 3.11).
Propozi¸ tie 3.3.1 FieWo colectivitate statistic ˘a ¸ siXo caracteristic ˘a a sa, ce se
dore¸ ste a fi studiat ˘a. Notez cu F(x)func¸ tia de reparti¸ tie (teoretica) a lui X. Pentru o
selec¸ tie de valori ale lui X,fx1;x2; :::; xng, construim func¸ tia de reparti¸ tie empiric ˘a,
F
n(x). Atunci:
F
n(x)prob !F(x);când n!¥;8x2R:
3.3 M ˘asuri descriptive ale datelor negrupate 49
Figura 3.11: Func¸ tia de reparti¸ tie empiric˘ a ¸ si func¸ tia de reparti¸ tie teoretic˘ a pentru distribu¸ tia
normal˘ a
•Coeficientul de asimetrie (en., skewness ) este al treilea moment standardizat, care se
define¸ ste prin
g1=m3
m3=2
2=m3
s3=1
nn
å
i=1(xi x)3
"
1
n 1n
å
i=1(xi x)2#3=2:
O reparti¸ tie este simetric ˘a dac ˘ag1=0. V om spune c ˘a asimetria este pozitiv ˘a (sau la
dreapta) dac ˘ag1>0 ¸ si negativ ˘a (sau la stânga) dac ˘ag1<0.
•Excesul (coeficientul de aplatizare sau boltire) (en., kurtosis ) se define¸ ste prin
K=m4
m2
2 3=m4
s4 3=1
nn
å
i=1(xi x)4
1
nn
å
i=1(xi x)2!2 3:
Este o m ˘asur˘a a boltirii distribu¸ tiei (al patrulea moment standardizat). Termenul ( 3)
apare pentru c ˘a indicele kurtosis al distribu¸ tiei normale s ˘a fie egal cu 0. V om avea
o reparti¸ tie mezocurtic˘ a pentru K=0,leptocurtic˘ a pentru K>0sauplatocurtic˘ a
pentru K<0. Un indice K>0semnific ˘a faptul c ˘a, în vecin ˘atatea modului, curba
densit ˘a¸ tii de reparti¸ tie are o boltire (ascu¸ tire) mai mare decât clopotul lui Gauss.
Pentru K<0, în acea vecin ˘atate curba densit ˘a¸ tii de reparti¸ tie este mai plat ˘a decât
curba lui Gauss.
•Cuantile
Cuantilele (de ordin q)sunt valori ale unei variabile aleatoare care separ ˘a reparti¸ tia
ordonat ˘a înqp˘ar¸ ti egale.
Pentru q=2, cuantila xqse nume¸ ste median˘ a , notat ˘a prin x0:5sauMe.
Presupunem c ˘a observa¸ tiile sunt ordonate, x1<x2<<xn. Pentru aceast ˘a ordine,
50 Capitolul 3. Elemente de Statistic ˘a descriptiv ˘a
definim valoarea median ˘a:
x0:5=(
x(n+1)=2 , dac ˘an=impar;
(xn=2+xn=2+1)=2 , dac ˘an=par;
Pentru q=4, cuantilele se numesc cuartile (sunt în num ˘ar de 3). Prima cuartil ˘a,
notat ˘ax0:25sauQ1, se nume¸ ste cuartila inferioar˘ a , a doua cuartil ˘a este mediana,
iar ultima cuartil ˘a, notat ˘ax0:75sauQ3, se nume¸ ste cuartila superioar˘ a . Diferen¸ ta
Q3 Q1se nume¸ ste distan¸ ta intercuartilic˘ a .
Pentru q=10se numesc decile (sunt în num ˘ar de 9), pentru q=100se numesc
percentile (sunt în num ˘ar de 99), pentru q=1000 se numesc permile (sunt în num ˘ar
de999). Sunt m ˘asuri de pozi¸ tie, ce m ˘asoar ˘a loca¸ tia unei anumite observa¸ tii fa¸ t ˘a de
restul datelor.
•Modul
Modul (sau valoarea modal˘ a ) este acea valoare xdin setul de date care apare cel
mai des. Un set de date poate avea mai multe module. Dac ˘a apar dou ˘a astfel de
valori, atunci vom spune c ˘a setul de date este bimodal , pentru trei astfel de valori
avem un set de date trimodal etc. În cazul în care toate valorile au aceea¸ si frecven¸ t ˘a
de apari¸ tie, atunci spunem c ˘a nu exist ˘a mod. De exemplu, setul de date
1 3 5 6 3 2 1 4 4 6 2 5
nu admite valoare modal ˘a. Nu exist ˘a un simbol care s ˘a noteze distinctiv modul unui
set de date.
•Valori aberante (en. outliers)
Valorile aberante sunt valori statistice observate care sunt îndep ˘artate de marea ma-
joritate a celorlalte observa¸ tii. Ele pot ap ˘area din cauza unor m ˘asur˘atori defectuoase
sau în urma unor erori de m ˘asurare. De cele mai multe ori, ele vor fi excluse din
analiza statistic ˘a. Din punct de vedere matematic, valorile aberante sunt valorile ce
nu apar¸ tin intervalului urm ˘ator.
[Q1 1:5(Q3 Q1);Q3+1:5(Q3 Q1)]
•Sinteza prin cele cinci valori statistice (five number summary)
Reprezint ˘a cinci m ˘asuri statistice empirice caracteristice unui set de date statistice.
Acestea sunt (în ordine cresc ˘atoare): cea mai mic ˘a valoare observat ˘a (min
ifxig),
prima cuartil ˘a (Q1), mediana ( Me), a treia cuartil ˘a (Q3) ¸ si cea mai mare valoare
observat ˘a(max
ifxig). Aceste cinci numere pot fi reprezentate grafic într-o diagram ˘a
numit ˘abox-and-whisker plot .
În figurile de mai jos sunt desenate astfel de diagrame. Datele din Tabelul 5.2 sunt
reprezentate în prima figur ˘a de mai jos prin dou ˘a diagrame box-and-whiskers. În
prima diagram ˘a (numerotat ˘a cu 1) am generat uniform datele din tabel, p ˘astrând
clasele; în a doua diagram ˘a am folosit reprezentarea datelor din acela¸ si tabel prin
centrele claselor. Reprezent ˘arile sunt cele clasice, cu dreptunghiuri. Valorile aberante
sunt reprezentate prin puncte în diagrama box-and-whisker plot .
3.4 M ˘asuri descriptive ale datelor grupate 51
vârsta f. abs. f. rel. f. cum. mijlocul clasei
[18;25) 34 8.83% 8.83% 21.5
[25;35) 76 19.74% 28.57% 30
[35;45) 124 32.21% 60.78% 40
[45;55) 87 22.60% 83.38% 50
[55;65) 64 16.62% 100.00% 60
Total 385 100% – –
Tabela 3.10: Tabel cu frecven¸ te.
Figura 3.12: Box-an-whisker plot pentru datele din Tabelul 5.2
În Figura 3.13, am reprezentat cu box-and-
whisker un set de date discrete ce con¸ tine
dou˘a valori aberante. Aici dreptunghiul a
fost crestat ( notched box-and whisker plot );
lungimea crest ˘aturii oferind un interval de
încredere pentru median ˘a. Valorile aberante
sunt reprezentate in figura prin puncte in
afata range-ului datelor.
Figura 3.13: Box-an-whisker plot pentru
un set de date discrete
. Q: What did the box-an-whisker plot say to the outlier?
. A:"Don’t you dare get close to my whisker!!"
3.4 M ˘asuri descriptive ale datelor grupate
Consider ˘am un set de date statistice grupate (de volum n), ce reprezinta observa¸ tii asupra
variabilei X. Pentru o selec¸ tie cu valorile de mijloc fx1;x2; :::; xrg¸ si frecven¸ tele absolute
corespunz ˘atoare,ff1,f2,:::,frg, cur
å
i=1fi=n, definim:
52 Capitolul 3. Elemente de Statistic ˘a descriptiv ˘a
¯xf=1
nr
å
i=1xifi;media (empiric ˘a) de selec¸ tie, (sau, media ponderat ˘a)
s2=1
n 1r
å
i=1fi(xi ¯xf)2=1
n 1
r
å
i=1×2
ifi n¯x2
f!
;dispersia (varian¸ ta) empiric ˘a,
s=p
s2;devia¸ tia empiric ˘a standard.
Formule similare se pot da ¸ si pentru m ˘asurile descriptive ale întregii popula¸ tii.
Mediana pentru un set de date grupate este acea valoare ce separ ˘a toate datele în dou ˘a
p˘ar¸ ti egale. Se determin ˘a mai întâi clasa ce con¸ tine mediana (numit ˘aclas˘ a median˘ a ), apoi
presupunem c ˘a în interiorul fiec ˘arei clase datele sunt uniform distribuite. O formul ˘a dup ˘a
care se calculeaz ˘a mediana este:
Me=l+n
2 FMe
fMec;
unde: leste limita inferioar ˘a a clasei mediane, neste volumul selec¸ tiei, FMeeste suma
frecven¸ telor pân ˘a la (exclusiv) clasa median ˘a,fMeeste frecven¸ ta clasei mediane ¸ si ceste
l˘a¸ timea clasei.
Similar, formulele pentru cuartile sunt:
Q1=l1+n
4 FQ1
fQ1c¸ siQ3=l3+3n
4 FQ3
fQ3;
unde l1sil3sunt valorile inferioare ale intervalelor in care se gasesc cuartilele respective,
iarFQeste suma frecven¸ telor pân ˘a la (exclusiv) clasa ce contine cuartila, fQeste frecven¸ ta
clasei unde se gaseste cuartila.
Pentru a afla modul unui set de date grupate, determin ˘am mai întâi clasa ce con¸ tine aceast ˘a
valoare (clas ˘a modal ˘a), iar modul va fi calculat dup ˘a formula:
Mod=l+d1
d1+d2c;
unde d1¸ sid2sunt frecven¸ ta clasei modale minus frecven¸ ta clasei anterioare ¸ si, respectiv,
frecven¸ ta clasei modale minus frecven¸ ta clasei posterioare, leste limita inferioar ˘a a clasei
modale ¸ si ceste l ˘a¸ timea clasei modale.
3.5 Transform ˘ari de date
Uneori valorile masurate nu sunt normale si este necesara o transformare a lor pentru a
obtine valori apropiate de normalitate. Transformarile uzuale sunt: logaritmarea valorilor
observate (folosind functiile lnsaulog10, daca valorile sunt toate pozitive), radacina patrata
a valorilor, transformarea logit, radacini de ordin superior etc. In Tabelul 3.11 am sugerat
tipul de transformare ce poate fi utilizat in functie de coeficientul de skewness g1.
3.5 Transform ˘ari de date 53
În ce condi¸ tii ::: skewness formula
date aproape simetrice 0:5<g1<0:5 nicio transformare
skewness moderat pozitiv, date nenegative 0 :5g1<1 yi=pxi
skewness moderat pozitiv, exista date <0 0 :5g1<1 yi=pxi+C
skewness moderat negativ 1<g10:5 yi=pC xi
skewness mare negativ g1 1 yi=ln(C xi)
skewness mare pozitiv, date pozitive g11 yi=lnxi
skewness mare pozitiv, exista date 0 g11 yi=ln(xi+C)
Tabela 3.11: Exemple de transformari de date statistice
Aici, C>0este o constanta ce poate fi determinata astfel incat datele transformate sa aiba
un skewness cat mai aproape de 0. Aceasta constanta va fi aleasa astfel incat functia ce
face transformarea este definita. În loc de func¸ tia lnse poate folosi ¸ si logaritmul în alt ˘a
baz˘a, e.g., func¸ tia log10.
De exemplu, presupunem ca datele observate sunt x1;x2; :::; xnsi acestea nu sunt toate
pozitive, cu un coeficient de asimetrie (skewness) g1=1:3495 . Ne uitam la valoarea
minima a datelor; aceasta este xmin= 0:8464 . Pentru a obtine un set de valori pozitive,
vom adauga valoarea 1la toate datele observate. Apoi, logaritmam valorile obtinute.
Cele doua procedee cumulate sunt echivalente cu folosirea directa a formulei ln(1+xi)
(adunand valoarea 1, am facut toate argumentele logaritmului pozitive). Obtinem astfel
un nou set de date, si anume y1;y2; :::; yn, unde yi=ln(1+xi). Un exemplu este cel din
Figura 3.14. Se observa ca datele logaritmate sunt aproape normale. O analiza statistica
poate fi condusa pentru datele yi, urmand ca, eventual, la final sa aplicam transformarea
inversa xi=eyi 1 pentru a transforma rezultatele pentru datele initiale.
Figura 3.14: Datele intiale si datele logaritmate
Dupa transformarea datelor si analiza datelor transformate (de exemplu, prezicerea valorilor
in punctele neselectate), de multe ori este necesara transformarea inversa a datelor, pentru
a determina proprietatile datelor originale. De aceea, ar fi potrivit de a exprima indicatorii
statistici atat pentru datele transformate, cat si pentru datele originale. Un exemplu este cel
din Tabelul 3.12.
54 Capitolul 3. Elemente de Statistic ˘a descriptiv ˘a
Indicatorul datele originale datele tranformate
xi yi=ln(1+xi)
Minimum 0:8464 1:8734
Maximum 14 :1107 2 :7154
Media 6 :02142 1 :51
Cuartila Q1 3:1152 0 :6532
Mediana 6 :5200 1 :2512
Cuartila Q3 8:7548 1 :5785
Deviatia standard 5 :2511 0 :7524
Dispersia 27 :5741 0 :5661
Skewness 6 :2322 0 :0233
Kurtosis 78 :6077 2 :9786
Numarul de observatii 100 100
c2pentru testul de normalitate (cu 7 grade de libertate) 7:1445
Tabela 3.12: Exemplu de indicatori pentru datele originale si pentru datele transformate
3.5.1 Func¸ tii MATLAB specifice pentru m ˘asurile descriptive.
mean(x) % media valorilor elementelor lui x;
geomean(x) % media geometric ˘a a elementelor lui x;
harmmean(x) % media armonic ˘a a elementelor lui x;
quantile(x,alpha) % cuantila de ordin aa vectorului x;
iqr(x) % distan¸ ta intercuantilic ˘a,x0:75 x0:25;
median(x) % valoarea median ˘a a lui x;
std(x), var(x) % devia¸ tia standard ¸ si dispersia valorilor lui x;
range(x) % amplitudinea (range) vectorului x;
mode(x) % modul lui x;
zscore(x) % realizeaz ˘a scorul elementelor lui x;
moment(x,k) % momentul de ordin kal lui x;
sort(x) % sorteaza crescator elementele vectorului x;
max(x), min(x) % maximum ¸ si minimum pentru elementele lui x;
skewness(x) % skewness pentru elementele lui x;
kurtosis(x) % kurtosis pentru elementele lui x;
prctile(x,p) % percentilele de ordin pale lui x;
cdfplot(x) % reprezint ˘a grafic func¸ tia de reparti¸ tie empiric ˘a a lui x;
cov(x,y) % covarian¸ ta dintre x¸ siy;
corrcoef(x,y) % coeficientul de corela¸ tie dintre x¸ siy;
LEGEstat(<param>) % afi¸ seaz ˘a media ¸ si dispersia pentru LEGE( <param> );
Tabela 3.13: Func¸ tii MATLAB specifice pentru m˘ asuri descriptive.
3.6 Exerci¸ tii rezolvate
Exerci¸ tiu 3.1 Urm ˘atorul set de date reprezint ˘a pre¸ turile (în mii de euro) a 20de case,
vândute într-o anumit ˘a regiune a unui ora¸ s:
113 60.5 340.5 130 79 475.5 90 100 175.5 100
3.6 Exerci¸ tii rezolvate 55
111.5 525 50 122.5 125.5 75 150 89 100 70
(a) Determina¸ ti amplitudinea, media, mediana, modul, deviatia standard, cuartilele ¸ si
distan¸ ta intercuartilic ˘a pentru aceste date. Care valoare este cea mai reprezentativ ˘a?
(b) Desena¸ ti diagrama box-and-whiskers ¸ si comenta¸ ti-o. Exista valori aberante?
(c) Calcula¸ ti coeficientii de asimetrie si de aplatizare.
Solu¸ tie: Rearanj ˘am datele în ordine cresc ˘atoare:
50 60.5 70 75 79 89 90 100 100 100 111.5
113.5 122.5 125.5 130 150 175.5 340.5 475.5 525
Amplitudinea este 525 50=475,
media lor este 154:15, mediana este
100+111:5
2=105:75, modul este 100, cuartila
inferioar ˘a este Q1=79+89
2=84,Q2=Me,
cuartila superioar ˘a este Q3=130+150
2=140
¸ si distan¸ ta intercuartilic ˘a este d=Q3 Q1=56.
Mediana este valoarea cea mai reprezentativ ˘a în
acest caz, deoarece cele mai mari trei pre¸ turi,
anume 340:5,475:5,525, m˘aresc media ¸ si o fac
mai pu¸ tin reprezentativ ˘a pentru celelalte date.
În cazul în care setul de date nu este simetric,
valoarea median ˘a este cea mai reprezentativ ˘a
valoare a datelor.
Figura 3.15: Box-an-whisker plot pentru
datele din Exerci¸ tiul 3.1
Deviatia standard este s=s
1
n 1n
å
i=1(xi ¯x)2=133:3141 . Folosind formulele,
gasim ca g1=1:9598 (asimetrie la dreapta) si K=5:4684 (boltire pronuntata). Valorile
aberante sunt cele ce se afla in afara intervalului
[Q1 1:5(Q3 Q1);Q3+1:5(Q3 Q1)] = [ 0;178]:
Se observa ca valorile 340:5;475:5¸ si525sunt valori aberante, reprezentate prin puncte in
figura. În M ATLAB ,
X = [113; 60.5; 340.5; 130; 79; 475.5; 90; 100; 175.5; 100; …
111.5; 525; 50; 122.5; 125.5; 75; 150; 89; 100; 70];
a = range(X); m = mean(X); Me = median(X); Mo = mode(X); boxplot(X)
Q1 = quantile(X,0.25); Q2 = quantile(X,0.5);Q3 = quantile(X,0.75);
d = Q3 – Q1; g1 = skewness(X); K = kurtosis(X);
Exerci¸ tiu 3.2 Consider ˘am datele din Tabelul 3.5.
(a) Determina¸ ti amplitudinea, media, mediana, modul, dispersia si distanta intercuartilic ˘a
56 Capitolul 3. Elemente de Statistic ˘a descriptiv ˘a
pentru aceste date.
(b) Desena¸ ti diagrama box-and-whiskers ¸ si comenta¸ ti-o. Exista valori aberante?
Solu¸ tie: Amplitudinea este a=30. Folosind centrele claselor, media este
¯x=å(xf)
n=1
70(2:55+7:513+12:523+17:517+22:510+27:52) =13:93:
Dispersia este:
s2=1
n 1(å(x2f) n¯x2)
=1
69(2:525+7:5213+12:5223+17:5217+22:5210+27:522 7013:932)
37:06:
Clasa median ˘a este clasa [10;15). Deoarece în clasele anterioare ( [0;5)¸ si[5;10)) se afl ˘a
deja 5 +13=18 date mai mici decât mediana, pentru a afla valoarea median ˘a a plantelor
(i.e., acea valoare care este mai mare decât alte 35de valori la stanga ei ¸ si mai mic ˘a decât
alte35de plante de la dreapta sa), va trebui s ˘a determin ˘am acea valoare din clasa median ˘a
ce este mai mare decât alte 17valori din aceast ˘a clas ˘a. A¸ sadar, avem nevoie de a determina
o frac¸ tie17
23dintre valorile clasei mediane. În concluzie, valoarea median ˘a este
Me=10+35 18
235=13:6957 :
Clasa modal ˘a este [10;15), iar modul este Mo=10+10
10+65=13:125.
Calcul ˘am acum prima cuartil ˘a dupa formula Q1=l1+n
4 FQ1
fQ1. Clasa in care se gaseste
prima cuartila este [5;10)(o valoare din acest interval va avea la stanga sa 70=4dintre
valorile observate). Avem: FQ1=5;fQ1=13;c=5, de unde Q1=9:8077.
Similar, clasa in care se gaseste a treia cuartila este [15;20)(o valoare din acest interval
va avea la dreapta sa 70=4dintre valori. Avem: FQ3=41;fQ3=10;c=5, de unde
Q3=18:3824.
Folosind M ATLAB :
X = [5*rand(1,5), 5+5*rand(1,13),10+5*rand(1,23), 15+5*rand(1,17), …
20+5*rand(1,10), 25+5*rand(1,2)]; % datele
x = [2.5; 7.5; 12.5; 17.5; 22.5; 27.5]; % centrele claselor
f = [5; 13; 23; 17; 10; 2]; % frecventele
n = 70; m = sum(x.*f)/n; s2 = (sum(x.^2.*f) – n*m^2)/(n-1);
Q1 = quantile(X,0.25); Me = median(X); Q2 = quantile(X,0.75);
Exerci¸ tiu 3.3 O companie de asigur ˘ari a înregistrat num ˘arul de accidente pe s ˘apt˘amân ˘a
ce au avut loc într-un anumit sat, în decurs de un an ( 52de s˘apt˘amâni). Acestea sunt, în
ordine:
1, 0, 2, 3, 4, 1, 4, 0, 4, 2, 3, 0, 3, 3, 1, 2, 3, 0, 1, 2, 3, 1, 3, 2, 3, 2
4, 3, 4, 2, 3, 4, 4, 3, 2, 4, 1, 2, 0, 1, 3, 2, 0, 4, 1, 0, 2, 2, 4, 1, 2, 2
3.7 Exerci¸ tii propuse 57
(a)Construi¸ ti un tabel de frecven¸ te care s ˘a con¸ tin ˘a num ˘arul de accidente, frecven¸ tele
absolute ¸ si relative.
(b)G˘asi¸ ti media empiric ˘a, mediana ¸ si devia¸ tia standard empiric ˘a.
(c)Reprezenta¸ ti prin bare rezultatele din tabelul de frecven¸ te.
(d)G˘asi¸ ti ¸ si reprezenta¸ ti grafic ( cdfplot ) func¸ tia de reparti¸ tie empiric ˘a a num ˘arului de
accidente.
Solu¸ tie: (a) Tabelul de frecven¸ te este Tabelul 3.14. (b) Avem:
num˘arul 0 1 2 3 4
frecv. abs. 7 9 14 12 10
frecv. rel. 0:1346 0 :1731 0 :2692 0 :2308 0 :1923
Tabela 3.14: Tabel de frecven¸ te pentru Exerci¸ tiu 3.3
x=1
5252
å
i=1xi=2:1731 ;s=vuut1
5152
å
i=1(xi ¯x)2=1:3094 ;Me=2:
(c) Reprezentarea prin bare a num ˘arului de accidente ¸ si graficul lui F
n(x)sunt reprezentate
în Figura 3.16.
(d) Func¸ tia de reparti¸ tie empiric ˘a
este:
F
n(x) =8
>>>>>>>><
>>>>>>>>:0;dac˘ax<0;
7
52;dac˘ax2[0;1);
16
52;dac˘ax2[1;2);
30
52;dac˘ax2[2;3);
42
52;dac˘ax2[3;4);
1;dac˘ax4:
Figura 3.16: Reprezentarea num˘ arului de accidente
Codul M ATLAB pentru calcule ¸ si grafice este:
Y = [zeros(7,1);ones(9,1);2*ones(14,1);3*ones(12,1);4*ones(10,1)];
m = mean(Y); s = std(Y); Me = median(Y);
subplot(1,2,1); bar(0:4,[7,9,14,12,10]) % graficul cu bare
subplot(1,2,2); cdfplot(Y) % graficul functiei de repartitie empirice
3.7 Exerci¸ tii propuse
Exerci¸ tiu 3.4 Pentru un set de 5 valori, media empiric ˘a este x=50¸ si dispersia empiric ˘a
58 Capitolul 3. Elemente de Statistic ˘a descriptiv ˘a
estes2=4. Dac ˘a trei dintre valori sunt 48 ;51;52, determina¸ ti ¸ si celelalte dou ˘a valori.
Exerci¸ tiu 3.5 Se consider ˘a urm ˘atoarea selec¸ tie de note ob¸ tinute de elevii unei ¸ scoli la teza
de Matematic ˘a.
5, 7, 8, 6, 9, 7, 10, 4, 7, 9, 6, 5, 7, 8, 7
6, 10, 8, 6, 9, 4, 7, 5, 8, 8, 7, 5, 4, 8, 6
(a) Determina¸ ti media, devia¸ tia standard ¸ si mediana pentru aceast ˘a selec¸ tie.
(b) Grupa¸ ti datele ¸ si scrie¸ ti func¸ tia de reparti¸ tie empiric ˘a.
(c) Reprezenta¸ ti un box-and-whisker plot pentru date.
Exerci¸ tiu 3.6 Pentru evaluarea rezultatelor ob¸ tinute la proba de Matematic ˘a a examenului
de Bacalaureat de c ˘atre elevii unei ¸ scoli, s-a f ˘acut un sondaj de volum 30printre elevii
¸ scolii, notele fiind urm ˘atoarele:
3.72 7.45 4.65 6.95 5.00 4.30 8.93 7.14 8.24 6.67
9.33 9.05 5.86 6.75 7.20 7.28 6.65 5.90 7.75 4.33
7.18 8.00 5.50 7.70 4.12 8.40 7.00 6.90 5.00 7.80
(a) Descrie¸ ti datele folosind o reprezentare stem &leaf.
(b) Calcula¸ ti media, dispersia ¸ si mediana pentru selec¸ tia considerat ˘a, precizând formulele
folosite.
(c) Determina¸ ti cele cinci m ˘asuri statistice din five number summary
(d) Reprezenta¸ ti un box-and-whisker plot pentru date.
(e) Ionel a ob¸ tinut nota 8 :45 la examen. Determina¸ ti scorul s ˘au.
Exerci¸ tiu 3.7 Tabelul de mai jos con¸ tine notele la Matematic ˘a a10elevi dintr-o anumit ˘a
¸ scoal ˘a ob¸ tinute la: testul de simulare a examenului de Bacalaureat (T) ¸ si la examenul
Bacalaureat (B).
T 6:15 5 :75 8 :45 8 :90 7 :83 6 :50 10 4 :50 9 :25 7 :65
B 7:23 6 :00 7 :76 9 :63 6 :90 6 :33 9 :90 3 :24 8 :67 7 :90
(a) Reprezenta¸ ti cele dou ˘a seturi de date prin câte un box-and-whisker plot, în aceea¸ si
figur ˘a.
(b) Reprezenta¸ ti datele din tabel printr-o diagram ˘a scatter .
(c) Calcula¸ ti coeficientul de corela¸ tie empiric ˘a între notele la cele dou ˘a teste.
4. No¸ tiuni de Teoria selec¸ tiei statistice
. [A statistical fact: 50% of marriages end in divorce.
. Thus, if you don’t file for divorce, your wife will.]
4.1 Considera¸ tii generale
Defini¸ tia 4.1.1 Numim colectivitate statistic˘ a (sau popula¸ tie ) o mul¸ time nevid ˘aWde
elemente care este cercetat ˘a din punct de vedere al uneia sau mai multor caracteristici.
Elementele colectivit ˘a¸ tii le vom numi indivizi (sau unit˘ a¸ ti statistice ). V om nota cu
wo unitate statistic ˘a. Dac ˘a popula¸ tia este finit ˘a, atunci num ˘arul nal unit ˘a¸ tilor statis-
tice ce o compun (i.e., card( W)) îl vom numi volumul colectivit˘ a¸ tii (sauvolumul popula¸ tiei ).
Consider ˘am o popula¸ tie (colectivitate statistic ˘a)W. Studiem popula¸ tia Wdin punctul de
vedere al unei caracteristici a sale, X. Aceast ˘a caracteristic ˘a este o anumit ˘a proprietate
urm˘arit˘a la indivizii ei în procesul prelucr ˘arii statistice ¸ si o vom asimila cu o variabil ˘a
aleatoare definit ˘a peW. Problema esen¸ tial ˘a a Statisticii Matematice este de a stabili
legea de probabilitate pe care o urmeaz ˘a caracteristica X. Pentru a g ˘asi aceast ˘a lege
(reparti¸ tie), avem nevoie mai întâi de un num ˘ar reprezentativ de observa¸ tii (o selec¸ tie)
asupra colectivit ˘a¸ tiiW. Pe baza acestor observa¸ tii, vom determina prin inferen¸ t ˘a o lege
care s ˘a reprezinte variabila X.
Defini¸ tia 4.1.2 V om numi selec¸ tie (sau sondaj ) o subcolectivitate a colectivit ˘a¸ tii cercetate
W. Num ˘arul elementelor selec¸ tiei poart ˘a numele de volumul selec¸ tiei (sondajului) . Se-
lec¸ tiile pot fi repetate sau nerepetate. O selec¸ tie se nume¸ ste repetat˘ a (sau bernoullian˘ a )
dac˘a dup ˘a examinarea individului acesta se reintroduce în colectivitate; în caz contrar
avem o selec¸ tie nerepetat˘ a . În practic ˘a, volumul colectivit ˘a¸ tiiWeste mult mai mare decât
60 Capitolul 4. No¸ tiuni de Teoria selec¸ tiei statistice
volumul selec¸ tiei. În aceste cazuri, selec¸ tia nerepetat ˘a poate fi considerat ˘a ca fiind selec¸ tie
repetat ˘a. Selec¸ tiile pe care le vom considera în continuare sunt numai selec¸ tii repetate din
colectivitatea statistic ˘a.
Dorim acum s ˘a introducem un cadru matematic abstract pentru aceste selec¸ tii repetate
(pentru o abordare mai detaliat ˘a, se poate consulta [ nenciu ]).
Consider ˘am spa¸ tiul m ˘asurabil (W;F), undeFeste un corp borelian de p ˘ar¸ ti ale lui W.
Caracteristica Xurm˘arit˘a poate fi reprezentat ˘a de o variabil ˘a aleatoare definit ˘a pe(W;F).
Dorim s ˘a definim matematic o selec¸ tie repetat ˘a de volum n. Euristic, ideea este urm ˘atoarea:
a efectua nsondaje repetate dintr-o mul¸ time W, este echivalent cu a considera o singur ˘a
selec¸ tie dintr-o popula¸ tie de genul " Wmultiplicat de n ori ". Construim astfel:
W(n)=WW W;F(n)=FFF;
produs cartezian de nori. Un element al lui W(n)va fi
w(n)= (w1;w2; :::; wn);
numit ˘aselec¸ tie repetat˘ a de volum n. Cuplul (W(n);F(n))se nume¸ ste spa¸ tiul selec¸ tiilor
repetate de volum n . Consider ˘am variabilele aleatoare
Xi:W(n)!R;Xi(w(n)) =X(wi);8i=1;n:
Acestea sunt variabile aleatoare definite pe (W(n);F(n)), sunt independente stochastic
(pentru c ˘a v.a.fX(wi)gi=1;nsunt independente) ¸ si sunt identic repartizate, cu func¸ tia
de reparti¸ tie comun ˘aFX(se verific ˘a usor c ˘aFXi=FX;8i=1;n). V om numi Xi;i=1;n,
variabile aleatoare de selec¸ tie repetat˘ a de volum n. V om numi vector de selec¸ tie repetat˘ a
de volum n , vectorul Y, astfel încât:
Y:W(n)!R;Y(w(n)) = ( X1(w(n));X2(w(n)); :::; Xn(w(n))):
Pentru un w(n)fixat, componentele vectorului Y(w(n))se numesc valori de selec¸ tie repetat˘ a
de volum n . V om nota cu
Ln=Y(W(n))Rn;
¸ si-l vom numi spa¸ tiul valorilor de selec¸ tie repetat˘ a de volum n . Elementele lui Lnle vom
nota prin
x= (x1;x2; :::; xn);
(xi=Xi(w(n));pentru w(n)fixat, i=1;2; :::; n):
Defini¸ tia 4.1.3 V om numi statistic˘ a (sau func¸ tie de selec¸ tie ) variabila aleatoare
Sn(X) =g(X1;X2; :::; Xn);
unde geste o func¸ tie g:Rn!Rm˘asurabil ˘a.
Ca o observa¸ tie, numele de "statistic ˘a" este folosit în literatura de specialitate atât pentru
variabila aleatoare de mai sus, cât ¸ si pentru valoarea ei, în¸ telesul exact desprinzându-
se din context. Reparti¸ tia unei statistici se mai nume¸ ste ¸ si reparti¸ tia (distribu¸ tia) de selec¸ tie .
4.2 Exemple de statistici 61
Nota¸ tia 4.1 În literatur ˘a, statistica este notat ˘a cu una dintre urm ˘atoarele:
Sn(X);S(X;w(n));S(X;n);S(X1;X2; :::; Xn):
Statisticile medie de selec¸ tie ¸ si varian¸ ta selec¸ tiei au nota¸ tii aparte, ¸ si anume X, respectiv
S2
X(sau, dac ˘a nu este pericol de confuzie, S2).
Valoarea numeric ˘a
Sn(x) =g(x1;x2; :::; xn)
se nume¸ ste valoarea func¸ tiei de selec¸ tie pentru un w(n)fixat.
Observa¸ tia 4.1 A¸ sadar, o statistic ˘a este o func¸ tie de variabilele aleatoare de selec¸ tie. Prin
intermeniul statisticilor putem trage concluzii despre popula¸ tia W, din care a provenit
e¸ santionul w(n). Teoria probabilit ˘a¸ tilor ne ofer ˘a procedee de determinare atât a reparti¸ tiei
exacte a lui Sn(X)(dac˘a este posibil), cât ¸ si a reparti¸ tiei asimptotice a lui Sn(X).Reparti¸ tia
exact˘ a este acea reparti¸ tie ce poate fi determinat ˘a pentru orice volum al selec¸ tiei. În general,
dac˘a se lucreaz ˘a cu selec¸ tii de volum redus ( n<30), atunci reparti¸ tia exact ˘a ar trebui s ˘a fie
cunoscut ˘aa priori , dac ˘a se dore¸ ste luarea de decizii prin inferen¸ t ˘a.Reparti¸ tia asimptotic˘ a
este reparti¸ tia limit ˘a aSn(X)când n!¥, iar utilizarea acesteia conduce la rezultate bune
doar pentru n30.
De cele mai multe ori, o statistic ˘a este utilizat ˘a în urm ˘atoarele cazuri:
• în probleme de estimare punctual ˘a a parametrilor;
• în ob¸ tinerea intervalelor de încredere pentru un parametru necunoscut;
• ca o statistic ˘a test pentru verificarea ipotezelor statistice.
4.2 Exemple de statistici
Fie(W;F)o colectivitate statistic ˘a ¸ siXo caracteristic ˘a cercetat ˘a a sa. S ˘a not ˘am cu f(x)
¸ siF(x)densitatea de reparti¸ tie (sau func¸ tia de probabilitate), respectiv, func¸ tia de reparti¸ tie
pentru X. Acestea pot fi cunoscute sau necunoscute a priori ¸ si le vom numi func¸ tii teoretice
(densitate de reparti¸ tie teoretic˘ a saufunc¸ tie de probabilitate teoretic˘ a pentru f¸ sifunc¸ tie
de reparti¸ tie teoretic˘ a pentu F). Dac ˘a se cunoa¸ ste f(x), atunci putem determina m=E(X)
¸ sis2=Var(X), dac ˘a acestea exist ˘a, ¸ si le vom numi medie teoretic˘ a ¸ sidispersie teoretic˘ a .
În cazul în care una sau mai multe caracteristici teoretice corespunz ˘atoare lui Xnu ne
sunt a priori cunoscute, vom c ˘auta s ˘a le determin ˘am prin inferen¸ t ˘a, adic ˘a prin extragerea
unor selec¸ tii de date din colectivitate, calculând caracteristicile respective pentru selec¸ tiile
considerate ¸ si apoi extrapolând (în anumite condi¸ tii ¸ si dup ˘a anumite criterii) la întreaga
colectivitate.
S˘a consider ˘amw(n)o selec¸ tie repetat ˘a de volum ndin colectivitatea dat ˘a ¸ siXi;i=1;n,
variabilele aleatoare de selec¸ tie. Cu ajutorul acestora, putem construi diverse func¸ tii de
selec¸ tie. Mai jos discut ˘am câteva dintre acestea.
Defini¸ tia 4.2.1 Media de selec¸ tie : Numim medie de selec¸ tie (de volum n) , statistica
X=1
nn
å
i=1Xi:
Valoarea mediei de selec¸ tie pentru valori ale acestor variabile aleatoare este media empiric ˘a
(media valorilor observate):
x=1
nn
å
i=1xi:
62 Capitolul 4. No¸ tiuni de Teoria selec¸ tiei statistice
Propozi¸ tie 4.2.1 Pentru o variabil ˘a aleatoare de medie m¸ si devia¸ tie standard s, media de
selec¸ tie Xcorespunz ˘atoare lui Xsatisface urm ˘atoarele propriet ˘a¸ ti:
[1]E(X) =m; Var(X) =s2
n; s(X) =spn
[2]Xa:s: !m (n!¥):
Convergen¸ ta de la [2] spune c ˘a media de selec¸ tie Xse apropie mult de media teoretic ˘a a
popula¸ tiei atunci când volumul selec¸ tiei este mare.
Observa¸ tia 4.2 (1) În unele situa¸ tii vom nota prin mX¸ si prin sXmedia de selec¸ tie,
respectiv, devia¸ tia standard de selec¸ tie a lui X.
(2) Propozi¸ tia 4.4.2 precizeaz ˘a care este reparti¸ tia mediei de selec¸ tie pentru variabile
aleatoare de selec¸ tie dintr-o colectivitate normal ˘a, iar Propozi¸ tia 4.4.4 precizeaz ˘a care
este reparti¸ tia asimptotic ˘a a mediei de selec¸ tie pentru variabile de selec¸ tie de volum mare
selectate dintr-o colectivitate oarecare.
(3) Dac ˘a selec¸ tia se face f ˘ar˘a revenire dintr-o popula¸ tie de volum mic, cu volumul selec¸ tiei
ncomparativ cu volumul popula¸ tiei N(n>0:05N) ¸ siXnu este neap ˘arat normal repartizat ˘a,
atunci putem spune doar c ˘a
E(X) =m¸ sis(X) =spnr
N n
N 1;
f˘ar˘a a putea preciza care este reparti¸ tia asimptotic ˘a a lui X.
Defini¸ tia 4.2.2 Dispersie de selec¸ tie (sau varian¸ ta selec¸ tiei ):
Numim dispersie de selec¸ tie (de volum n), statistica S2(sau S2
X, dac ˘a avem mai multe
variabile) definit ˘a prin:
S2=1
n 1n
å
i=1[Xi X]2:
Valoarea dispersiei de selec¸ tie pentru valori ale variabilelor aleatoare de selec¸ tie este
dispersia (sau varia¸ tia) empiric ˘a, pe care o vom nota cu s2(sau s2
X, dac ˘a avem mai multe
variabile). Aceasta este
s2=1
n 1n
å
i=1[xi x]2:
În anumite situa¸ tii, în locul lui S2se mai utilizeaz ˘a statistica S2
(X), definit ˘a prin:
S2
=1
nn
å
i=1[Xi X]2:
Motiva¸ tia pentru considerarea statisticii S2în detrimentul lui S2
este dat ˘a de faptul c ˘a prima
statistic ˘a estimeaz ˘a varia¸ tia teoretic ˘as2mai bine decât cea de-a doua. Aceste statistici
satisfac urm ˘atoarele propriet ˘a¸ ti:
Propozi¸ tie 4.2.2 Pentru o variabil ˘a aleatoare de medie m¸ si devia¸ tie standard s, dispersiile
de selec¸ tie S2¸ siS2
corespunz ˘atoare lui Xsatisface urm ˘atoarele propriet ˘a¸ ti:
[1]E(S2) =s2E(S2
) =n 1
ns2;
[2]S2prob !s2(n!¥)
4.2 Exemple de statistici 63
Observa¸ tia 4.3 (1) Dac ˘a media teoretic ˘a a colectivit ˘a¸ tii este cunoscut ˘aa priori ,E(X) =
m2R, atunci se mai poate defini dispersia de selec¸ tie d2)prin formula:
d2=1
nn
å
i=1[Xi m]2: (4.2.1)
(2) Dup ˘a cum vom vedea în capitolul urm ˘ator, primele dou ˘a rela¸ tii arat ˘a c˘a statistica
S2este un estimator nedeplasat pentru dispersia teoretic ˘as2, pe când S2
este estimator
deplasat pentru s2. Propozi¸ tiile 4.4.6 ¸ si 4.4.7 precizeaz ˘a reparti¸ tiilor dispersiilor de
selec¸ tie pentru colectivit ˘a¸ ti normale.
Defini¸ tia 4.2.3 Func¸ tia de reparti¸ tie de selec¸ tie
FieX1;X2; :::; Xnvariabile aleatoare de selec¸ tie repetat ˘a de volum npentru caracteristica
Xce are func¸ tia de reparti¸ tie F(x). Numim func¸ tie de reparti¸ tie de selec¸ tie (de volum n),
func¸ tia F
n:RW(n)![0;1]definit ˘a prin
F
n(x;w(n)) =n(x)
n;8x2R;
unde n(x) =cardfi;Xi(w(n))xgreprezint ˘a num ˘arul de elemente din selec¸ tie mai mici
sau egale cu x. Rela¸ tia din defini¸ tie poate fi scris ˘a ¸ si sub forma:
F
n(x) =1
nn
å
i=1c( ¥;x](Xi);8x2R; (4.2.2)
unde cAeste func¸ tia indicatoare a mul¸ timii A.
Pentru un x2Rfixat, F
neste o variabil ˘a aleatoare repartizat ˘a binomial B(n;F(x)).
Pentru o selec¸ tie w(n)fixat˘a,F
n(x)ia valorile:
F
n(x) =cardfi;xixg
n;
(i.e., este func¸ tia de reparti¸ tie empiric ˘a).
Propozi¸ tie 4.2.3 Func¸ tia de reparti¸ tie de selec¸ tie satisface urm ˘atoarele propriet ˘a¸ ti:
[1]E(F
n(x)) = F(x);8x2R;
[2]Var(F
n(x)) =1
nF(x)(1 F(x));8x2R:
Observa¸ tia 4.4 În Statistic ˘a, exist ˘a o serie de criterii care permit s ˘a se aprecieze
apropierea lui F
n(x)deF(x). Mai jos, amintim doar dou ˘a dintre ele.
(1) Func¸ tia de reparti¸ tie de selec¸ tie satisface convergen¸ ta
F
n(x)a:s: !n!¥F(x);xfixat în R:
Acest rezultat este o consecin¸ t ˘a direct ˘a a legii tari a numerelor mari. Într-adev ˘ar, deoarece
F
n(x)se poate scrie sub forma (4.2.2) (i.e., o sum ˘a de variabile aleatoare identic repartizate
¸ si independente stochastic), LTNM implic ˘a
F
n(x)a:s: !n!¥E(c( ¥;x](X)) = P(Xx) =F(x);xfixat în R:
(2) Pentru n2Nsuficient de mare, func¸ tia de reparti¸ tie de selec¸ tie satisface proprietatea
pn(F
n(x) F(x))N(0;p
F(x)(1 F(x)));xfixat în R:
64 Capitolul 4. No¸ tiuni de Teoria selec¸ tiei statistice
4.3 Statistici de ordine
Defini¸ tia 4.3.1 Dac˘a variabilele aleatoare din selec¸ tia fX1;X2; :::; Xngle rearanj ˘am în
ordinea m ˘arimii lor ¸ si scriem
X(1)X(2) X(n);
atunci vom numi variabila aleatoare X(i)statistica de ordine de ordin i, pentru orice
i=1;2; :::; n. Pentru o selec¸ tie dat ˘a, valoarea statisticii de ordine de ordin io vom nota
prinx(i), pentru orice i=1;2; :::; n.
Statistica X(1)se nume¸ ste prima statistic˘ a de ordine ¸ si este întotdeauna minimumul selec¸ tiei,
i.e.,
X(1)=minfX1;X2; :::; Xng:
Statistica X(n)se nume¸ ste ultima statistic˘ a de ordine ¸ si este întotdeauna maximumul
selec¸ tiei, i.e.,
X(n)=maxfX1;X2; :::; Xng:
De exemplu, dac ˘a avem valorile de selec¸ tie
x1=8;x2=7;x3=9;x4=5;x5=3;
atunci
x(1)=3;x(2)=5;x(3)=7;x(4)=8;x(5)=9:
Dac˘an=2m+1, atunci X(m+1)=X(n+1
2)=MeX, adic ˘amediana de selec¸ tie este o statistic ˘a
de ordine în acest caz. Dac ˘an=2m, atunci avem dou ˘a valori de mijloc, X(m)¸ siX(m+1).
Deoarece MeX=1
2(X(m)+X(m+1)), mediana de selec¸ tie nu este statistic ˘a de ordine pentru
npar.
Definim amplitudinea (range) selec¸ tiei ca fiind statistica A=X(n) X(1). Statisticile
X(n) MeX¸ siX(1) MeXse numesc devia¸ tiile extreme ale selec¸ tiei .
De¸ si variabilele aleatoare de selec¸ tie sunt independente, totu¸ si statisticile de ordine sunt
dependente.
S˘a presupunem c ˘aF(x)este func¸ tia de reparti¸ tie a selec¸ tiei date ¸ si f(x)densitatea de
reparti¸ tie. Urm ˘atoarea propozi¸ tie stabile¸ ste func¸ tiile de reparti¸ tie pentru statisticile de
ordine.
Propozi¸ tie 4.3.1 Pentru un k21;nfixat, func¸ tia de reparti¸ tie pentru X(k)este:
FX(k)(x) =n
å
j=kCj
nF(x)j[1 F(x)]n j;pentru orice x2R:
Demonstra¸ tie. Avem succesiv:
FX(k)(x) = P(X(k)x)
=P({cel pu¸ tin kv.a. din cele nnu dep ˘a¸ sesc pe xg)
=P({cel pu¸ tin ksuccese în nîncerc ˘arig)
=n
å
j=kCj
n[P(Xx)]j[1 P(Xx)]n j
=n
å
j=kCj
nF(x)j[1 F(x)]n j;pentru orice x2R:
4.4 Selec¸ tii aleatoare pentru caracteristici normale 65
În particular, pentru k=1, ob¸ tinem c ˘a func¸ tia de reparti¸ tie a celui mai mic element al
selec¸ tiei:
FX(1)(x) =1 [1 F(x)]n;pentru orice x2R:
Func¸ tia de reparti¸ tie a celui mai mare element al selec¸ tiei este:
FX(n)(x) = [ F(x)]n;pentru orice x2R:
Exemplu 4.1 La finala de 100mvitez ˘a masculin din cadrul campionatelor mondiale de
atletism în aer liber, timpii de sosire ai celor 8sportivi califica¸ ti sunt variabile aleatoare
independente stochastic, identic repartizate U(9:5s;10:5s). Calcula¸ ti urm ˘atoarele
probabilit ˘a¸ ti:
(1) Probabilitatea ca recordul mondial de 9 :58ss˘a cad ˘a;
(2) Probabilitatea ca to¸ ti candida¸ tii s ˘a termine cursa cu timpi de sosire pân ˘a în 10 s.
(3) Probabilitatea ca m ˘acar 3 atle¸ ti s ˘a termine cursa sub 9 :7s.
Solu¸ tie: Deoarece TU(9:5s;10:5s), atunci FT(x) =8
><
>:0; dac˘ax9:5
x 9:5;dac˘a 9:5<x<10:5
1; dac˘ax10:5
Atunci:
P1=P(T(1)9:58) =FT(1)(9:58) =1 [1 F(9:58)]8=1 0:928=0:4868 :
P2=P(T(8)10) =FT(8)(10) = [ F(10)]8=0:58=0:004:
P3=P(T(3)9:7) =FT(3)(9:7) =8
å
j=3Cj
8F(9:7)j[1 F(9:7)]8 j=0:4049 :
p
4.4 Selec¸ tii aleatoare pentru caracteristici normale
S˘a consider ˘amWo colectivitate statistic ˘a ¸ siXo caracteristic ˘a a sa, ce urmeaz ˘a a fi studiat ˘a
din punct de vedere statistic. Fie fX1;X2; :::; Xngvariabile aleatoare de selec¸ tie repetat ˘a
de volum n. În cele mai multe cazuri practice, Xurmeaz ˘a o reparti¸ tie normal ˘a (gaussian ˘a).
De regul ˘a, dac ˘a volumul popula¸ tiei este mic ( n<30), atunci consider ˘am doar caracteristici
normale, iar pentru o reparti¸ tie aproape simetric ˘a cu n>30putem considera orice tip de
reparti¸ tie pentru caracteristic ˘a. Prezent ˘am în continuare câteva rezultate utile referitoare la
selec¸ tii aleatoare pentru caracteristici normale (gaussiene).
Propozi¸ tie 4.4.1 Dac˘axiN(mi;si)sunt variabile aleatoare independente stochastic ¸ si
ai2R;i=1;n, atunci variabila aleatoare x=n
å
i=1aixisatisface proprietatea:
xN
n
å
i=1aimi;s
n
å
i=1a2
is2
i!
:
66 Capitolul 4. No¸ tiuni de Teoria selec¸ tiei statistice
Propozi¸ tie 4.4.2 (reparti¸ tia mediei de selec¸ tie pentru o variabil˘ a gaussian˘ a )
Dac˘aXN(m;s)¸ siXi;i=1;2; :::; n, sunt variabilele aleatoare de selec¸ tie, atunci
statistica Xsatisface:
XN
m;spn
: (n2N)
O consecin¸ t ˘a direct ˘a a acestei propozi¸ tii este urm ˘atoarea:
Propozi¸ tie 4.4.3 Dac˘aXiN(m;s);8i=1;2; :::; n, sunt variabile aleatoare de selec¸ tie,
atunci
Z=X m
spnN(0;1):
Observa¸ tia 4.5 Aceasta propozi¸ tie va fi folosit ˘a pentru verificarea ipotezelor statistice, în
problema test ˘arii mediei teoretice m(testul Z) când dispersia teoretic ˘a este cunoscut ˘aa
priori .
Propozi¸ tie 4.4.4 (reparti¸ tia mediei de selec¸ tie pentru o variabil˘ a oarecare)
Dac˘afX1;X2; :::; Xng, variabile aleatoare de selec¸ tie repetat ˘a de volum n, ce urmeaz ˘a o
reparti¸ tie dat ˘a, atunci pentru un volum nsuficient de mare, statistica Xsatisface:
XN
m;spn
: (n>30)
Observa¸ tia 4.6 (1) Dac ˘aneste suficient de mare, atunci concluzia Propozi¸ tiei 4.4.3
ramâne valabil ˘a ¸ si în cazul în care avem o selec¸ tie repetat ˘a de volum npentru o caracteris-
tic˘a ce nu este neap ˘arat gaussian ˘a.
(2) Când selec¸ tia se face f ˘ar˘a revenire dintr-o popula¸ tie de volum mic ¸ si Xnu este neap ˘arat
normal repartizat ˘a, atunci putem spune doar c ˘a
E(X) =m¸ siVar(X) =spnr
N n
N 1;
f˘ar˘a a putea preciza care este reparti¸ tia lui X. Aici Neste volumul popula¸ tiei W,n>0:05N.
Propozi¸ tie 4.4.5 Dac˘aXN(0;1)¸ sifX1;X2; :::; Xng, variabile aleatoare de selec¸ tie
repetat ˘a de volum n, atunci variabila aleatoare
H2=n
å
i=1X2
ic2(n):
Observa¸ tia 4.7 O consecin¸ t ˘a imediat ˘a a acestei propozi¸ tii este c ˘a, dac ˘aXN(0;1),
atunci v.a. X2c2(1). Urm ˘atoarea propozi¸ tie este tot o consecin¸ t ˘a direct ˘a a Propozi¸ tiei
4.4.5.
Propozi¸ tie 4.4.6 (reparti¸ tia dispersiei de selec¸ tie când media caracteristicii este cunos-
cut˘ a)
Dac˘aXN(m;s), atunci variabila aleatoare
H2=1
s2n
å
i=1(Xi m)2c2(n):
4.4 Selec¸ tii aleatoare pentru caracteristici normale 67
Propozi¸ tie 4.4.7 FieXN(m;s)caracteristica unei popula¸ tii statistice. Atunci statistica
c2=1
s2n
å
i=1(Xi X)2c2(n 1):
Observa¸ tia 4.8 Concluzia propozi¸ tiei 4.4.7 se poate rescrie astfel:
n 1
s2S2c2(n 1); (4.4.3)
unde S2este dispersia de selec¸ tie. Acest rezultat stabile¸ ste reparti¸ tia dispersiei de selec¸ tie
S2pentru o caracteristic ˘a normal ˘a, atunci când media caracteristicii nu este cunoscut ˘a.
Propozi¸ tie 4.4.8 Dac˘aXN(m;s)este caracteristica unei colectivit ˘a¸ ti statistice, atunci
statistica
t=X m
Spn 1 t(n 1):
(Aici, t(n 1)este reparti¸ tia Student cu (n 1)grade de libertate).
Observa¸ tia 4.9 Aceasta propozi¸ tie va fi folosit ˘a pentru verificarea ipotezelor statistice, în
problema test ˘arii mediei teoretice m(testul t) când dispersia teoretic ˘a este necunoscut ˘aa
priori .
Propozi¸ tie 4.4.9 FiexiN(mi;si)variabile aleatoare independente stochastic ¸ si ai2
R;i=1;n. Pentru fiecare caracteristic ˘axiconsider ˘am câte o selec¸ tie repetat ˘a de volum
ni, ¸ si not ˘am cu ximedia de selec¸ tie corespunz ˘atoare fiec ˘arei selec¸ tii. Atunci statistica
Y=a1x1+a2x2+:::+anxnsatisface proprietatea:
YN
n
å
i=1aimi;s
n
å
i=1a2
is2
i
ni!
:
Urm˘atoarea propozi¸ tie este un caz particular al Propozi¸ tiei 4.4.9, cu n=2,×1=X;x2=Y
¸ sia1=1,a2= 1.
Propozi¸ tie 4.4.10 (reparti¸ tia diferen¸ tei mediilor de selec¸ tie pentru caracteristici gaussiene,
când dispersiile sunt cunoscute )
Consider ˘am o selec¸ tie de volum n1pentu o variabil ˘a normal ˘aXN(m1;s1)¸ si o selec¸ tie
de volum n2pentru o variabil ˘a normal ˘aYN(m2;s2), cele dou ˘a selec¸ tii fiind alese inde-
pendent una de cealalt ˘a. Not ˘am cu X¸ si, respectiv, Ymediile de selec¸ tie corespunz ˘atoare
selec¸ tiilor alese. Atunci statistica
X YN0
@m1 m2;s
s2
1
n1+s2
2
n21
A:
Observa¸ tia 4.10 (1) Concluzia propozi¸ tiei anterioare se mai poate scrie astfel:
Z=(X Y) (m1 m2)q
s2
1
n1+s2
2
n2N(0;1):
68 Capitolul 4. No¸ tiuni de Teoria selec¸ tiei statistice
(2) S ˘a consider ˘am dou ˘a variabile normale X¸ siY, ce urmeaz ˘a a fi studiate. De exemplu, X
¸ siYsunt masele pieselor produse de dou ˘a strunguri într-o zi de lucru. S ˘a mai presupunem
c˘a devia¸ tiile standard ale variabilelor considerate ( sX¸ sisY) sunt cunoscute (i.e., devia¸ tiile
sunt date deja în cartea tehnic ˘a a celor dou ˘a strunguri). Pentru fiecare dintre cele dou ˘a
caracteristici, consider ˘am câte o selec¸ tie repetat ˘a, de volume n1, respectiv, n2(adic ˘a, vom
selecta n1dintre piesele produse de strungul întâi ¸ si n2piese produse de cel de-al doilea
strung). S ˘a not ˘am cu X1, respectiv, Y2mediile de selec¸ tie corespunz ˘atoare. Propozi¸ tia
anterioar ˘a precizeaz ˘a care este reparti¸ tia diferen¸ tei standardizate a celor dou ˘a medii de
selec¸ tie. Aceasta ne va fi deosebit de util ˘a, spre exemplu, în verificarea ipotezei c ˘a masele
medii m1¸ sim2ale pieselor produse de cele dou ˘a strunguri coincid.
Propozi¸ tie 4.4.11 (reparti¸ tia diferen¸ tei mediilor de selec¸ tie când dispersiile sunt necunos-
cute, egale ) Consider ˘am o selec¸ tie de volum n1pentu o variabil ˘a normal ˘aXN(m1;s1)
¸ si o selec¸ tie de volum n2pentru o variabil ˘a normal ˘aYN(m2;s2), cele dou ˘a selec¸ tii
fiind alese independent una de cealalt ˘a. Not ˘am cu X;Y¸ siS2
1=S2(X),S2
2=S(Y)mediile
de selec¸ tie ¸ si, respectiv, dispersiile de selec¸ tie corespunz ˘atoare selec¸ tiilor alese. În plus,
presupunem c ˘a dispersiile teoretice pentru X¸ siYsunt egale, i.e., s2
1=s2
2=s2. Atunci
statistica
T=(X Y) (m1 m2)q
(n1 1)S2
1+(n2 1)S2
2s
n1+n2 2
1
n1+1
n2 t(n1+n2 2):
Propozi¸ tie 4.4.12 (reparti¸ tia diferen¸ tei mediilor de selec¸ tie când dispersiile sunt ne-
cunoscute ¸ si diferite ) Consider ˘am o selec¸ tie de volum n1pentu o variabil ˘a normal ˘a
XN(m1;s1)¸ si o selec¸ tie de volum n2pentru o variabil ˘a normal ˘aYN(m2;s2),
cele dou ˘a selec¸ tii fiind alese independent una de cealalt ˘a. Not ˘am cu X;Y¸ siS2
1=S2(X),
S2
2=S2(Y)mediile de selec¸ tie ¸ si, respectiv, dispersiile de selec¸ tie corespunz ˘atoare selec¸ ti-
ilor alese. Presupunem c ˘a dispersiile teoretice pentru X¸ siYsunt diferite, i.e., s2
16=s2
2.
Atunci statistica
T=(X Y) (m1 m2)s
S2
1
n1+S2
2
n2 t(N); (4.4.4)
unde
N=S2
1
n1+S2
2
n22
S2
1
n121
n1 1+S2
2
n221
n2 1 2: (4.4.5)
Observa¸ tia 4.11 În practic ˘a, înainte de a testa egalitatea mediilor teoretice a dou ˘a
caracteristici, se folose¸ ste mai întâi un test statistic pentru testarea egalit ˘a¸ tii varia¸ tiilor
(dispersiilor) celor dou ˘a caracteristici. În func¸ tie de rezultatul acestui test, se va alege
statistica potrivit ˘a pentru a testa egalitatea mediilor.
4.4 Selec¸ tii aleatoare pentru caracteristici normale 69
Urm ˘atoarele dou ˘a propozi¸ tii vor fi folosite pentru verificarea ipotezelor statistice, în
problema test ˘arii egalit ˘a¸ tii varia¸ tiilor teoretice s2
1=s2
2(testul F) când mediile teoretice
corespunz ˘atoare sunt necunoscute a priori (Propozi¸ tia 4.4.13) sau cunoscute a priori
(Propozi¸ tia 4.4.14).
Propozi¸ tie 4.4.13 (reparti¸ tia raportului dispersiilor pentru caracteristici gaussiene )
FieXN(m1;s1)¸ siYN(m2;s2)dou˘a caracteristici ale unei popula¸ tii statistice.
Pentru fiecare caracteristic ˘a consider ˘am câte o selec¸ tie repetat ˘a, de volum n1, respectiv, n2.
FieS2
1=S2(X)¸ siS2
2=S2(Y)dispersiile de selec¸ tie corespunz ˘atoare celor dou ˘a selec¸ tii
repetate. Atunci statistica
F=s2
2
s2
1S2
1
S2
2F(n1 1;n2 1):
Propozi¸ tie 4.4.14 (reparti¸ tia raportului dispersiilor pentru caracteristici gaussiene )
Suntem în condi¸ tiile Propozi¸ tiei 4.4.13, cu men¸ tiunea c ˘a mediile teoretice m1¸ sim2sunt
cunoscute a priori . Atunci
F1=s2
2
s2
1d2
1
d2
2F(n1;n2);
unde d2
1¸ sid2
2sunt date de:
c2
1=1
s2
1n1
å
i=1(X1i m1)2c2(n1);c2
2=1
s2
2n2
å
j=1(X2j m2)2c2(n2):
70 Capitolul 4. No¸ tiuni de Teoria selec¸ tiei statistice
4.5 Exerci¸ tii rezolvate
Exerci¸ tiu 4.1 Presupunem c ˘a masa medie a unor batoane de ciocolat ˘a produse de o ma¸ sin ˘a
este o caracteristic ˘aXN(100;0:65). În vederea verific ˘arii parametrilor ma¸ sinii, dintre
batoanele primite într-un depozit s-au ales la întâmplare 1000 de buc ˘a¸ ti.
(i) Calcula¸ ti media ¸ si devia¸ tia standard ale mediei de selec¸ tie, X.
(ii) Calcula¸ ti P(98<X<102).
(iii) Un baton este declarat rebut dac ˘a masa sa este sub 98de grame sau peste 102de
grame. Calcula¸ ti procentul de rebuturi avute.
R:(i) ¸ Stim c ˘a media de selec¸ tie Xurmeaz ˘a reparti¸ tia N(100;0:65=p
1000). A¸ sadar,
mX=100;sX0:02:
(ii) Probabilitatea P1=P(98<X<102)este
P1=P(X<102) P(X98) =FX(102) FX(98)1:
(iii) Probabilitatea de a avea un rebut este:
P2=P
fX<98g[
fX>102g
=P(X<98)+P(X>102)
=FX(98)+1 FX(102);
de unde, procentul de rebuturi este
r=P2100%0:2091% ;
adic˘a aproximativ 2 rebuturi la 1000 de batoane.
În M ATLAB , acestea pot fi calculate astfel:
mu = 100; sigma = 0.65; n=1000; % n = volumul selectiei
X = normrnd(mu, sigma, n,n); % am generat selectia de volum n
Xbar = mean(X); S = sigma/sqrt(n); % Xbar = media de selectie
m = mean(Xbar); s = std(Xbar); % media si deviatia standard
P1 = normcdf(102, mu, S) – normdf(98, mu, S);
P2 = normcdf(98,mu,sigma) + 1 – normcdf(102,mu,sigma);
rebut = P2*100;
Exerci¸ tiu 4.2 ¸ Samponul marca FAIRHAIR se vinde acum în supermarket în trei m ˘arimi
(volume): 250ml,500ml ¸ si 1litru. Treizeci la sut ˘a dintre cump ˘ar˘atorii acestui produs
cump ˘ar˘a flaconul de 250ml,50% pe cel de 500ml, iar restul pe cel de 1litru. Not ˘am cu X
volumul unui flacon de FAIRHAIR . Fie X1¸ siX2volumele flacoanelor cump ˘arate de doi
dintre clien¸ ti, ale¸ si la întâmplare.
(a) Determina¸ ti reparti¸ tia mediei de selec¸ tie X. Calcula¸ ti media E(X)¸ si compara¸ ti-o cu
m=E(X).
(b) Calcula¸ ti D(X)¸ si compara¸ ti-o cu s=D(X).
(c) Calcula¸ ti probabilitatea P(X500).
4.5 Exerci¸ tii rezolvate 71
(d) Care ar trebui s ˘a fie volumul minim de cump ˘ar˘atori pentru ca media de selec¸ tie s ˘a
satisfac ˘a rela¸ tia P(X500)>0:75?
R: Fie v.a. Xce reprezint ˘a volumul ales de un cump ˘ar˘ator. Atunci distribu¸ tia lui Xeste:
x 250 500 1000
p(x)0:3 0 :5 0 :2.
Deoarece X1¸ siX2sunt variabile aleatoare de selec¸ tie, ele sunt independente ac si au aceea¸ si
reparti¸ tie ca X. Avem c ˘am=E(X) =525 ¸ si s=D(X) =25p
109.
(a) Media de selec¸ tie este X= (X1+X2)=2. Reparti¸ tia sa este:
x 250 375 500 625 750 1000
p(x)0:09 0 :3 0 :25 0 :12 0 :2 0 :04
Media este mX=E(X) =E(X) =m=525.
(b)sX=sp
2=25r
109
2<s.
(c) P(X500) =0:25+0:12+0:2+0:04=0:61:
(d) În general, XN
m;spn
, de unde g ˘asim c ˘aX m
spnN(0;1)A¸ sadar,
0:75<P(X500) = 1 P(X500) =1 P
X m
spn500 m
spn!
=1 Q
500 m
spn!
=1 Q
rn
109
;
de unde
Q
rn
109
<0:25 ¸ si rn
109<Q 1(0:25) =z0:25= 0:6745 ;
¸ si astfel n>109z2
0:2550.
Exerci¸ tiu 4.3 În vederea studierii unei caracteristici Xce are densitatea de reparti¸ tie
f(x) =(
2x;x2(0;1);
0;x62(0;1):
s-a efectuat o selec¸ tie repetat ˘a de volum n=100. Se cere s ˘a se determine probabilitatea
P(X<0:65), unde Xeste media de selec¸ tie.
R:Se observ ˘a cu u¸ surin¸ t ˘a c˘af(x)îndepline¸ ste condi¸ tiile unei func¸ tii de reparti¸ tie, adic ˘a
este m ˘asurabil ˘a, nenegativ ˘a ¸ si
Z
Rf(x)dx=Z1
02xdx=1:
Pentru a calcula probabilitatea cerut ˘a, avem nevoie de E(X)¸ siD2(X). Avem:
E(X) =Z
Rx f(x)dx=Z1
02x2dx=2
3;
72 Capitolul 4. No¸ tiuni de Teoria selec¸ tiei statistice
D2(X) =E(X2) (E(X))2=Z
Rx2f(x)dx 4
9=1
18:
A¸ sadar, reparti¸ tia mediei de selec¸ tie Xeste
XN2
3;1p
18p
100
:
Putem acum calcula probabilitatea cerut ˘a. Ea este:
P(X<0:65) =FX(0:65) = normcdf(0.65, 2/3, 1/(30*sqrt(2))) =0:2398 :
Exerci¸ tiu 4.4 Not˘am cu P1;P2; :::; P9pre¸ turile oferite de 9ofertan¸ ti la o licita¸ tie public ˘a
pentru vinderea unui anumit tablou. Presupunem c ˘a acestea sunt variabile aleatoare
repartizate uniform U(1000 ;2000). Obiectul se va vinde celui care vine cu oferta cea mai
mare. Determina¸ ti valoarea a¸ steptat ˘a a pre¸ tului ob¸ tinut pentru acest tablou.
R: Deoarece PU(1000 ;2000), atunci
f(x) =8
<
:1
1000;dac˘a 1000 <x<2000
0; dac˘ax62(1000 ;2000)F(x) =8
>><
>>:0; dac˘ax1000
x 1000
1000;dac˘a 1000 <x<2000
1; dac˘ax2000
Func¸ tia de reparti¸ tie a statisticii de ordine M=P(9)=maxfP1;P2; :::; P9geste
FT(9)(x) = [ F(x)]9;x2R:
Densitatea de reparti¸ tie a statisticii de ordine Meste
fT(9)(x) =F0
T(9)(x) =9[F(x)]8f(x);x2R:
Pre¸ tul de vânzare a¸ steptat este media variabilei aleatoare M,
E(M) =¥Z
¥x fY(x)dx=9
10002000Z
1000xx 1000
10008
dx=1900 :
Exerci¸ tiu 4.5 Dou˘a avioane zboar ˘a în aceea¸ si direc¸ tie pe dou ˘a coridoare paralele. La
momentul t=0, primul avion are un avans de 6km în fa¸ ta celui de-al doilea. Presupunem
c˘a viteza primului avion (m ˘asurat ˘a în km/h ) este o v.a. repartizat ˘a normal, cu media 510¸ si
devia¸ tia standard 10, iar viteza celui de-al doilea avion este normal repartizat ˘a, cu media
500 ¸ si devia¸ tia standard 10.
(a) Care este probabilitatea ca, dup ˘a4ore de zbor, al doilea avion s ˘a nu îl fi ajuns pe
primul?
(b) Determina¸ ti probabilitatea ca, dup ˘a4ore de zbor, distan¸ ta dintre cele dou ˘a avioane s ˘a
fie de cel mult 5km.
4.5 Exerci¸ tii rezolvate 73
R: Not˘am cu v1¸ siv2cele dou ˘a viteze. Avem c ˘a
v1N(510;10)¸ siv2N(500;10):
Dup˘a4ore de zbor (adic ˘a avem câte o selec¸ tie de volum 4pentru fiecare v.a.), mediile de
selec¸ tie for satisface:
v1N(510;5)¸ siv2N(500;5):
Diferen¸ ta mediilor de selec¸ tie este o v.a. repartizat ˘a astfel:
v1 v2N(10;5p
2):
(a) Evenimentul ca, dup ˘a4ore de zbor, al doilea avion s ˘a nu îl fi ajuns pe primul este
f4v1 4v2+6>0g. Probabilitatea acestui eveniment este:
P(f4v1 4v2+6>0g) = P(fv1 v2>
