Statistic a Aplicat a [625399]

Statistic ˘a Aplicat ˘a
Iulian Stoleriu

Copyright © 2019 Iulian Stoleriu

Cuprins
1 No¸ tiuni recapitulative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1 Popula¸ tie statistic ˘a 5
1.2 Variabile aleatoare 7
1.3 Func¸ tia de reparti¸ tie (sau func¸ tia de reparti¸ tie cumulat ˘a) 9
1.4 Parametrii popula¸ tiei 9
1.5 Statistici 14
1.5.1 Exemple de statistici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.6 Legi limit ˘a în Teoria Probabilit ˘a¸ tilor 16
1.6.1 Legea tare a numerelor mari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.6.2 Teorema limit ˘a central ˘a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2 Generarea în MATLAB a datelor statistice . . . . . 19
2.1 Generarea de numere aleatoare în MATLAB 19
2.1.1 Func¸ tia rand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1.2 Func¸ tia randn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.1.3 Generarea de numere aleatoare de o reparti¸ tie cunoscut ˘a . . . . . . . . . 21
2.2 Simularea unui experiment aleator 23
2.2.1 Simularea arunc ˘arii unei monede . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2.2 Simularea în MATLAB a unei variabile aleatoare de tip discret . . . . . . . . 23
2.3 Reparti¸ tii probabilistice în MATLAB 25
2.4 Exerci¸ tii rezolvate 26
2.5 Exerci¸ tii propuse 30

3 Elemente de Statistic ˘a descriptiv ˘a. . . . . . . . . . . . . . . . . . . . . . 33
3.1 Organizarea ¸ si descrierea datelor 33
3.1.1 Gruparea datelor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2 Reprezentarea datelor statistice 37
3.2.1 Reprezentare prin puncte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2.2 Reprezentarea stem-and-leaf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2.3 Reprezentarea cu bare (bar charts) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2.4 Histograme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.2.5 Reprezentare prin sectoare de disc (pie charts) . . . . . . . . . . . . . . . . . . . . 41
3.2.6 Ogive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.2.7 Diagrama Q-Q sau diagrama P-P . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.3 M ˘asuri descriptive ale datelor negrupate 43
3.4 M ˘asuri descriptive ale datelor grupate 47
3.5 Transform ˘ari de date 48
3.5.1 Func¸ tii MATLAB specifice pentru m ˘asurile descriptive. . . . . . . . . . . . . . . . 50
3.6 Exerci¸ tii rezolvate 50
3.7 Exerci¸ tii propuse 53
4 No¸ tiuni de Teoria selec¸ tiei statistice . . . . . . . . . . . . . . . . . . . . . 55
4.1 Considera¸ tii generale 55
4.2 Exemple de statistici 57
4.3 Statistici de ordine 60
4.4 Selec¸ tii aleatoare pentru caracteristici normale 61
4.5 Exerci¸ tii rezolvate 66
4.6 Exerci¸ tii propuse 70
5 Estimatori. Intervale de incredere . . . . . . . . . . . . . . . . . . . . . . . 73
5.1 Defini¸ tii 73
5.2 Metode folosite pentru estimarea parametrilor 76
5.2.1 Metoda verosimilit ˘a¸ tii maxime . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.2.2 Metoda momentelor (K. Pearson) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.3 Estimarea parametrilor prin intervale de încredere 79
5.3.1 Interval de încredere pentru medie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.3.2 Interval de încredere pentru dispersie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
5.3.3 Interval de încredere pentru propor¸ tie . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
5.3.4 Interval de încredere pentru diferen¸ ta mediilor . . . . . . . . . . . . . . . . . . . . . 85
5.3.5 Interval de încredere pentru raportul dispersiilor . . . . . . . . . . . . . . . . . . . . 86
5.3.6 Interval de încredere pentru diferen¸ ta propor¸ tiilor . . . . . . . . . . . . . . . . . . 86
5.4 Tabel cu intervale de încredere 87
5.5 Estima¸ tii prin M ATLAB 88
5.6 Exerci¸ tii rezolvate 89

5.7 Exerci¸ tii propuse 97
6 Testarea ipotezelor statistice . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
6.1 Punerea problemei 101
6.2 Tipuri de teste statistice 103
6.2.1 Etapele unei test ˘ari parametrice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
6.3 Teste parametrice 105
6.3.1 Testul tpentru medie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
6.3.2 Test pentru dispersie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
6.3.3 Test pentru propor¸ tie într-o popula¸ tie binomial ˘a . . . . . . . . . . . . . . . . . . . 107
6.4 Teste parametrice pentru dou ˘a popula¸ tii 107
6.4.1 Testul tpentru diferen¸ ta mediilor a dou ˘a selec¸ tii . . . . . . . . . . . . . . . . . . 107
6.4.2 Testul Fpentru raportul a dou ˘a dispersii . . . . . . . . . . . . . . . . . . . . . . . . . 108
6.4.3 Testul pentru egalitatea a dou ˘a propor¸ tii . . . . . . . . . . . . . . . . . . . . . . . . . 109
6.5 Teste parametrice în MATLAB 110
6.5.1 Testul tpentru o selec¸ tie în MATLAB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
6.5.2 Testul tpentru dou ˘a selec¸ tii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
6.5.3 Test pentru dispersie în MATLAB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
6.5.4 Testul Fîn M ATLAB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
6.6 Exerci¸ tii rezolvate 113
6.7 Exerci¸ tii propuse 117
7 Teste de concordan¸ t ˘a. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
7.1 Testul c2de concordan¸ t ˘a 119
7.1.1 Cazul neparametric . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
7.1.2 Cazul parametric . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
7.2 Testul de concordan¸ t ˘a Kolmogorov-Smirnov 122
7.2.1 Testul K-S pentru o selec¸ tie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
7.2.2 Testul K-S pentru dou ˘a selec¸ tii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
7.3 Teste de concordan¸ t ˘a în M ATLAB 124
7.4 Testarea tipului de date experimentale 124
7.5 Test de independen¸ t ˘a folosind tabele de contingen¸ t ˘a 127
7.5.1 Testul exact al lui Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
7.6 Exerci¸ tii rezolvate 133
7.7 Exerci¸ tii propuse 141
8 Teste neparametrice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
8.1 Testul semnelor 148
8.1.1 Testul semnelor pentru date perechi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150

8.2 Testul seriilor pentru caracterul aleator 150
8.3 Testul Wald-Wolfowitz (Wald-Wolfowitz two-sample runs test) 152
8.4 Testul Wilcoxon bazat pe ranguri cu semn ( Wilcoxon Signed-Rank Test )
154
8.5 Testul tpentru date perechi 155
8.6 Testul Wilcoxon pentru date perechi 156
8.7 Testul Wilcoxon bazat pe suma rangurilor ( Wilcoxon rank-sum test ) 157
8.8 Teste neparametrice în MATLAB 158
8.8.1 Testul semnelor în MATLAB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
8.8.2 Testul seriilor în MATLAB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
8.8.3 Testele Wilcoxon in MATLAB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
8.9 Exerci¸ tii rezolvate 162
8.10 Exerci¸ tii propuse 164
9 Teste de ree¸ santionare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
9.1 Teste de permutari 168
9.2 Bootstrapping 170
9.3 Metoda Monte Carlo 172
9.4 Exerci¸ tii rezolvate 179
9.5 Exerci¸ tii propuse 183
10 Corela¸ tie ¸ si regresie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
10.1 Introducere 185
10.2 Corela¸ tie ¸ si coeficient de corela¸ tie 186
10.2.1 Test statistic pentru coeficientul de corela¸ tie . . . . . . . . . . . . . . . . . . . . . . 188
10.3 Coeficientul de corela¸ tie Spearman 190
10.4 Probleme rezolvate 191
10.5 Probleme propuse 192
11 Regresie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
11.1 Punerea problemei 195
11.2 Regresie liniar ˘a simpl ˘a 197
11.2.1 Intervale de încredere pentru parametrii de regresie . . . . . . . . . . . . . . . 201
11.2.2 Test statistic pentru b1(panta dreptei de regresie) . . . . . . . . . . . . . . . . . 202
11.2.3 Test statistic pentru b0. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
11.3 Predic¸ tie prin regresie 203
11.4 Validitatea modelului de regresie liniara simpla 205
11.5 Regresie liniara multipla 207
11.5.1 Test statistic pentru semnifica¸ tia coeficien¸ tilor de regresie multipl ˘a,bi. 208

7
11.6 Validitatea modelului de regresie liniar ˘a multipl ˘a 209
11.7 Alte tipuri de regresie 210
11.8 Regresie logistic ˘a 210
11.9 Func¸ tii MATLAB specifice corela¸ tiei ¸ si regresiei 214
11.10 Probleme rezolvate 215
11.11 Probleme propuse 226
12 ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
12.1 One-way ANOVA 232
12.2 Two-way ANOVA 236
12.3 Exerci¸ tii rezolvate 241
12.3.1 Exemplu numeric pentru one-way ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . 241
12.3.2 Exemplu numeric pentru two-way ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . 244
12.4 Probleme propuse 247
13 Anexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249
13.1 Scurt ˘a introducere în MATLAB 249
13.2 Reparti¸ tii probabilistice uzuale 255
13.2.1 Reparti¸ tii discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255
13.2.2 Reparti¸ tii continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257
13.3 Tabele de valori critice 262
Bibliografie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 268
Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269

8

1.No¸ tiuni recapitulative
. Statistics is the art of never having to say that you are wrong
1.1 Popula¸ tie statistic ˘a
Opopula¸ tie (colectivitate) statistic˘ a este o mul¸ time de elemente ce posed ˘a o trasatur ˘a
comun ˘a ce urmeaz ˘a a fi studiat ˘a. Aceasta poate fi finit ˘a sau infinit ˘a, real ˘a sau imaginar ˘a. In
acest material vom nota populatia statistica cu W. Din punct de vedere matematic, Weste
o multime nevida. Elementele ce constituie o colectivitate statistic ˘a se vor numi unit˘ a¸ ti
statistice sauindivizi . V om nota cu wo unitate statistic ˘a. Dac ˘a popula¸ tia este finit ˘a, atunci
num˘arulNal unit ˘a¸ tilor statistice ce o compun (i.e., jWj) îl vom numi volumul colectivit˘ a¸ tii
(sau volumul popula¸ tiei ).
Caracteristica (variabila ) unei popula¸ tii statistice este o anumit ˘a proprietate urm ˘arit˘a la
indivizii ei în procesul prelucr ˘arii statistice ¸ si care constituie obiectul m ˘asur˘arii. Spre
exemplu, inaltimea barbatilor dintr-o anumita tara, rata infiltrarii apei in solul urban, media
la Bacalaureat, altitudinea, culoarea frunzelor, nationalitatea participantilor la un congres
international etc. Din punct de vedere matematic, caracteristica este reprezentata printr-o
variabila aleatoare definita pe W. Spre exemplu, daca populatia statistica este mul¸ timea
tuturor studen¸ tilor dintr-o universitate înrola¸ ti în anul întâi de master, atunci o caracteristica
a sa ar fi media la licen¸ t ˘a ob¸ tinut ˘a de fiecare dintre ace¸ sti studen¸ ti. Teoretic, mul¸ timea
valorilor acestei caracteristici este intervalul [6;10], iar aceasta variabila poate lua orice
valoare din acest interval. Caracteristicile pot fi: cantitative (sau m˘ asurabile saunumerice )
(e.g., 2;3;5:75;1=3; :::) sau calitative (categoriale sauatribute ) (e.g., albastru, foarte
bine, german etc). La rândul lor, variabilele cantitative pot fi discrete (num ˘arul de sosiri
ale unui tramvai în sta¸ tie) sau continue (timpul de a¸ steptare între dou ˘a sosiri ale tramvaiului
în sta¸ tie). Caracteristicile pot depinde de unul sau mai multi parametri, parametrii fiind

10 Capitolul 1. No¸ tiuni recapitulative
astfel caracteristici numerice ale colectivit ˘a¸ tii.
V om numi date (sau date statistice ) informa¸ tiile ob¸ tinute în urma observa¸ tiei valorilor unei
caracteristici a unei populatii statistice. In cazul mentionat mai sus, datele sunt mediile
la licen¸ t ˘a observate. În general, datele pot fi calitative (se mai numesc ¸ si categoriale )
saucantitative , dup ˘a cum caracteristica (sau variabila) observat ˘a este calitativ ˘a (exprima
o calitate sau o categorie) sau, respectiv, cantitativ ˘a (are o valoare numerica). Totodata,
aceste date pot fi date de tip discret , dac ˘a sunt ob¸ tinute în urma observ ˘arii unei caracteristici
discrete (o variabila aleatoare discret ˘a, sau o variabila ale carei posibile valori sunt in
numar finit sau cel mult numarabil), sau date continue , dac ˘a aceast ˘a caracteristic ˘a este
continu ˘a (o variabil ˘a aleatoare de tip continuu, sau o variabila ce poate lua orice valoare
dintr-un interval sau chiar de pe axa reala). În cazul din exemplul de mai sus, datele vor
fi cantitative ¸ si continue. Datele calitative mai pot fi nominale sauordinale . Variabilele
nominale au nivele distincte, fara a avea o anumita ordine. De exemplu, culoarea parului,
sau genul unei persoane. Pe de alta parte, valorile ordinale fac referinta la ordinea lor.
De exemplu: schimbarea starii unui pacient dupa un anumit tratamen (aceasta poate fi:
imbunatatire semnificativa, imbunatatire moderata, nicio schimbare, inrautatire moderata,
inrautatire semnificativa).
În Statistic ˘a, se obisnuieste a se nota variabilele (caracteristicile) cu litere mari, X;Y;X; :::,
si valorile lor cu litere mici, x;y;x; :::.
In general, volumul colectivitatii poate fi foarte mare sau chiar infinit, astfel ca efectuarea
unui recensamant (i.e., observarea caracteristicii de interes pentru toate elementele ce
compun colectivitatea) este fie foarte costisitoare sau imposibila. Pentru a efectua o analiza
a caracteristicii de interes sau chiar a repartitiei datelor observate, este suficienta analiza
unei selectii de volum suficient de mare formata din observatii ale caracteristicii, urmand
ca aceasta analiza sa fie extrapolata (folosind metode statistice specifice) pentru intreaga
populatie.
Oselec¸ tie (sau e¸ santion ) este o colectivitate par¸ tial ˘a de elemente extrase (la întâmplare
sau nu) din colectivitatea general ˘a, în scopul cercet ˘arii lor din punctul de vedere al unei
caracteristici. Dac ˘a extragerea se face la întâmplare, atunci spunem c ˘a am facut o selec¸ tie
întâmpl˘ atoare . Num ˘arul indivizilor din selec¸ tia aleas ˘a se va numi volumul selec¸ tiei . Dac ˘a
se face o enumerare sau o listare a fiec ˘arui element component al unei a popula¸ tii statistice,
atunci spunem c ˘a am facut un recens˘ amânt . Selec¸ tia ar trebui s ˘a fie reprezentativ ˘a pentru
popula¸ tia din care face parte. Numim o selec¸ tie repetat˘ a (sau cu repeti¸ tie ) o selec¸ tie în
urma c ˘areia individul ales a fost reintrodus din nou în colectivitate. Altfel, avem o selec¸ tie
nerepetat˘ a . Selec¸ tia nerepetat ˘a nu prezint ˘a interes dac ˘a volumul colectivit ˘a¸ tii este finit,
deoarece în acest caz probabilitatea ca un alt individ s ˘a fie ales într-o extragere nu este
aceea¸ si pentru to¸ ti indivizii colectivit ˘a¸ tii. Pe de alt ˘a parte, dac ˘a volumul întregii popula¸ tii
statistice este mult mai mare decât cel al e¸ santionului extras, atunci putem presupune c ˘a
selec¸ tia efectuat ˘a este repetat ˘a, chiar dac ˘a în mod practic ea este nerepetat ˘a.
Selec¸ tiile aleatoare se pot realiza prin diverse metode, în func¸ tie de urm ˘atorii factori:
disponibilitatea informa¸ tiilor necesare, costul opera¸ tiunii, nivelul de precizie al informa¸ ti-
ilor etc. Câteva metode de selec¸ tie: selec¸ tie simpl ˘a, selec¸ tie sistematic ˘a, selec¸ tie stratificat ˘a,
selec¸ tie ciorchine, selec¸ tia de tip experien¸ t ˘a, selec¸ tie de convenien¸ t ˘a, selec¸ tie de cot ˘a etc.
Parametrii sunt masuri descriptive numerice ce reprezinta populatia. Deoarece nu avem
acces la intreaga populatie, parametrii sunt niste constante necunoscute, ce urmeaza a fi
explicate sau estimate pe baza datelor. Spre exemplu, pentru variabilele cantitative ale

1.2 Variabile aleatoare 11
populatiei, putem avea: parametri care sa descrie tendinta centrala a populatiei (e.g., media,
mediana, momente), parametri care sa descrie dispersia datelor (e.g., dispersia, deviatia
standard, coeficient de variatie), parametri de pozitie (e.g., cuantile), parametri ce descriu
forma (e.g., skewness, kurtosis). Pentru date bidimensionale, datele pot fi descrise de
parametrii ce descriu legatura intre variabile: corelatia sau coeficientul de corelatie. Pentru
date calitative (categoriale), cei mai des utilizati parametri sunt: pproportia din populatie
ce are caracteristica de interes (e.g., numarul de fumatori din tara), cote (sanse teoretica
pentru observarea caracteristicii de interes la intreaga populatie) (e.g., exista 70% sanse sa
ploua maine).
Pe baza unei selectii, putem construi diversi indicatori statistici care sa estimeze parametrii
necunoscuti, obtinand descrieri numerice pentru populatie. Astfel de indicatori se numesc
statistici . Prin intermediul statisticilor putem trage concluzii despre popula¸ tia W, din care
a provenit e¸ santionul observat. Teoria probabilit ˘a¸ tilor ne ofer ˘a procedee de determinare
a reparti¸ tiei asimptotice a unei statistici, sau chiar, in anumite cazuri, a statisticii exacte.
Reparti¸ tia exact˘ a este acea reparti¸ tie ce poate fi determinat ˘a pentru orice volum al selec¸ tiei.
În general, dac ˘a se lucreaz ˘a cu selec¸ tii de volum redus ( n<30), atunci reparti¸ tia exact ˘a ar
trebui s ˘a fie cunoscut ˘aa priori , dac ˘a se dore¸ ste luarea de decizii prin inferen¸ t ˘a.Reparti¸ tia
asimptotic˘ a este reparti¸ tia limit ˘a a statisticii când n!¥, iar utilizarea acesteia conduce la
rezultate bune doar pentru n30.
In concluzie, plecand de la o multime de date, Statistica isi propune sa extraga informatii
din acestea. Mai concret, detine metodele necesare de a realiza urmatoarele cerinte:
sa descrie cat mai fidel si sugestiv acele date (prin grafice sau indicatori statistici), sa
estimeze anumiti parametri de interes (e.g., media teoretica, deviatia standard, asimetria
ale caracteristicii), sa verifice prin inferenta ipotezele ce se pot face referitoare la anumiti
parametri ai caracteristicii sau chiar la forma acesteia.
1.2 Variabile aleatoare
În general, rezultatul posibil al unui experiment aleator poate fi asociat unei valori reale,
precizând regula de asociere. O astfel de regul ˘a de asociere se nume¸ ste variabil˘ a aleatoare
(prescurtat, v.a.). Se nume¸ ste ”variabil ˘a” deoarece poate lua valori diferite, se nume¸ ste
”aleatoare” deoarece valorile observate depind de rezultatele experimentului aleator, ¸ si
este "real ˘a" deoarece valoarea numeric ˘a este un num ˘ar real. A¸ sadar, din punct de vedere
euristic, o variabil˘ a aleatoare este o cantitate ce poate avea orice valoare dintr-o multime
data, fiecarei valori atribuindu-se o anumita pondere (frecventa relativa). În via¸ t ˘a de
zi cu zi întâlnim numeroase astfel de func¸ tii, e.g., numerele ce apar la extragerea loto,
rezultatul masurarii fertilitatii solului in diverse locatii, num ˘arul clien¸ tilor deservi¸ ti la un
anumit ghi¸ seu într-o anumit ˘a perioad ˘a, timpul de a¸ steptare a unei persoane într-o sta¸ tie
de autobuz pân ˘a la sosirea acestuia, calificativele ob¸ tinute de elevii de clasa a IV-a la un
test de matematic ˘a etc. De regula, variabilele aleatoare sunt notate cu litere de la sfâr¸ situl
alfabetului, X;Y;Zsaux;h;zetc.
Exemplu 1.1 Un exemplu simplu de variabila aleatoare este urm ˘atorul. Consider ˘am
experimentul aleator al arunc ˘arii unei monede. Acest experiment poate avea doar dou ˘a
rezultate posibile, notate S(stema) ¸ si B(banul). A¸ sadar, spa¸ tiul selec¸ tiilor este W=fS;Bg.
Acestui experiment aleator îi putem ata¸ sa variabila aleatoare real ˘aX, care asociaz ˘a fe¸ tei S

12 Capitolul 1. No¸ tiuni recapitulative
valoarea 1¸ si fe¸ tei Bvaloarea 0. Matematic, scriem astfel: X:W!R;X(S) =1;X(B) =0.
Astfel, valorile 1¸ si0pentru Xvor indica fa¸ ta ap ˘arut˘a la aruncarea monedei. O astfel de
variabil ˘a aleatoare se nume¸ ste variabil˘ a aleatoare Bernoulli ¸ si poate fi ata¸ sat ˘a oric ˘arui
eveniment aleator ce are doar dou ˘a rezultate posibile, numite generic succes ¸ sie¸ sec.
Variabilele aleatoare (prescurtat v.a.) pot fi discrete sau continue. Variabilele aleatoare
discrete sunt cele care pot lua o mul¸ time finit ˘a sau cel mult num ˘arabil ˘a (adica, o multime
care poate fi numarata) de valori. O variabil ˘a aleatoare se nume¸ ste variabil˘ a aleatoare
continu˘ a (saude tip continuu ) dac ˘a mul¸ timea tuturor valorilor sale este totalitatea numerelor
dintr-un interval real (posibil infinit) sau toate numerele dintr-o reuniune disjunct ˘a de astfel
de intervale, cu precizarea c ˘a pentru orice posibil ˘a valoare c,P(X=c) =0.
Exemple de v.a. discrete: num ˘arul fe¸ tei ap ˘arute la aruncarea unui zar, num ˘arul de apari¸ tii
ale unui tramvai într-o sta¸ tie într-un anumit interval, num ˘arul de insuccese ap ˘arute pân ˘a la
primul succes etc. Din clasa v.a. de tip continuu amintim: timpul de a¸ steptare la un ghi¸ seu
pân˘a la servire, pre¸ tul unui activ financiar într-o perioad ˘a bine determinat ˘a.
Pentru a specifica o v.a. discret ˘a, va trebui s ˘a enumer ˘am toate valorile posibile pe care
aceasta le poate lua, împreun ˘a cu probabilit ˘a¸ tile corespunzatoare. Suma tuturor acestor
probabilit ˘a¸ ti va fi întotdeauna egal ˘a cu 1, care este probabilitatea realizarii evenimentului
sigur. Când se face referire la reparti¸ tia unei v.a. discrete, se în¸ telege modul în care
probabilitatea total ˘a1este distribuit ˘a între toate posibilele valori ale variabilei aleatoare.
Pentru o scriere compact ˘a, adeseori unei v.a. discrete i se atribuie urm ˘atoarea reprezentare
schematica:
tabelul de reparti¸ tie
X x1x2x3::: xn
pkp1p2p3::: xn(1.2.1)
unde pkeste probabilitatea cu care variabila Xia valoarea xk(matematic, scriem pk=
P(X=xk)) ¸ si suma tuturor probabilit ˘a¸ tilor corespunz ˘atoare variabilei discrete este egal ˘a
cu 1, i.e.n
å
i=1pi=1.
Exemplu 1.2
Presupunem c ˘aXeste v.a. ce reprezint ˘a
num˘arul de puncte ce apare la aruncarea
unui zar ideal. Aceast ˘a variabila o putem
reprezenta schematic ca in tabelul alaturat.tabelul de reparti¸ tie
X 1 2 3 4 5 6
pk1=6 1 =6 1 =6 1 =6 1 =6 1 =6
Dac˘aXeste o v.a. discret ˘a de forma (1.2.1), atunci definim func¸ tia de probabilitate (de
frecven¸ t˘ a ) (en.,probability mass function) ata¸ sat ˘a variabilei aleatoare discrete Xca fiind
o func¸ tie ce ataseaza fiecarei realizari ale unei variabile probabilitatea cu care aceasta
realizare este observata. Matematic, scriem ca
f(xi) =pi;i2f1;2; :::; ng:
În cuvinte, pentru fiecare posibil ˘a valoare a unei v.a. discrete, func¸ tia de probabilitate
ata¸ seaz ˘a probabilitatea cu care Xia aceast ˘a valoare. Func¸ tia de probabilitate este pentru o
v.a. discreta ceea ce o densitate de reparti¸ tie este pentru o variabil ˘a aleatoare continu ˘a.
Dupa cum am mentionat anterior, o variabila aleatoare continua poate lua orice valoare
intr-un interval, sau chiar din R. Deoarece in aceste multimi exista o infinitate de valori,

1.3 Func¸ tia de reparti¸ tie (sau func¸ tia de reparti¸ tie cumulat ˘a) 13
nu mai putem defini o variabila aleatoare continua la fel ca in cazul discret, precizandu-i
fiecare valoare pe care o ia si ponderea corespunzatoare. In schimb, pentru o variabila
aleatoare continua, putem preciza multimea in care aceasta ia valori si o functie care sa
descrie repartizarea acestor valori. O astfel de functie se numeste functie de densitate a
repartitiei, sau simplu, densitate de reparti¸ tie (en.,probability density function).
Exemplu 1.3 V om spune c ˘a o variabila aleatoare Xare o repartitie ( sau distributie)
normala de medie m¸ si deviatie standard s(notam aceasta prin XN(m;s)) dac ˘aX
poate lua orice valoare reala si are densitatea de repartitie data de:
f(x;m;s) =1
sp
2pe(xm)2
2s2;pentro orice x2R:
Aceasta repartitie se mai nume¸ ste ¸ si reparti¸ tia gaussian˘ a saudistribu¸ tia gaussian˘ a .
Func¸ tia de probabilitate sau densitatea de reparti¸ tie poate depinde de unul sau mai mul¸ ti
parametri reali. Spre exemplu, repartitia normala are doi parametri, msis.
1.3 Func¸ tia de reparti¸ tie (sau func¸ tia de reparti¸ tie cumulat ˘a)
Numim func¸ tie de reparti¸ tie ata¸ sat ˘a v.a reale Xo func¸ tie F:R![0;1], definit ˘a prin
F(x) =P(Xx);pentru orice x2R:
Termenul din englez ˘a pentru func¸ tia de reparti¸ tie este cumulative distribution function
(cdf). Functia de repartitie asociaza fiecarei valori reale xprobabilitatea cu care variabila
Xia valori mai mici sau egale cu x. Ea este o functie crescatoare, care ia valori intre 0si1.
În cazul unei variabile aleatoare discrete, cu tabelul de reparti¸ tie dat de (1.2.1), func¸ tia de
reparti¸ tie este:
F(x) =å
fi;xixgpi; (1.3.2)
adic˘a suma tuturor probabilit ˘a¸ tilor corespunz ˘atoare valorilor lui Xcare nu-l dep ˘a¸ sesc pe x.
Dac˘aXeste o variabil ˘a aleatoare continu ˘a ¸ si feste densitatea sa de reparti¸ tie, atunci
func¸ tia de reparti¸ tie este dat ˘a de formula:
F(x) =xZ
¥f(t)dt;x2R: (1.3.3)
Mai mult, F0(x) =f(x), pentru orice x2R.
1.4 Parametrii popula¸ tiei
O colectivitate statistica poate fi descrisa folosind una sau mai multe variabile. Pentru
fiecare dintre aceste variabile se pot determina anumite cantitati sau calitati specifice,
numite parametri . Astfel, acesti parametri sunt niste trasaturi caracteristice colectivitatii,
ce pot fi determinate sau estimate pe baza unor masuratori (observatii) ale variabilelor. In
continuare vom prezenta cativa parametri numerici importanti pentru o variabila aleatoare,

14 Capitolul 1. No¸ tiuni recapitulative
folositi in analiza statistica. V om denumi acesti parametri caracteristici numerice ale unei
variabile aleatoare.
Media (sauvaloarea a¸ steptat˘ a) (en.,expected value; fr.,espérance; ger., Erwartungswert)
Pentru o variabila, media este o masura a tendintei centrale a valorilor sale. De remarcat
faptul ca exista variabile (atat discrete cat si continue) care nu admit o valoare medie.
•Dac˘aXeste o v.a. discret ˘a având tabelul de reparti¸ tie (1.2.1), atunci media acestei
v.a. (dac ˘a exist ˘a!) se define¸ ste prin:
m=n
å
i=1xipi: (1.4.4)
Daca U(x)este o functie, atunci media pentru variabila aleatoare U(X)se defineste
prin
E(U(X)) =n
å
i=1U(xi)pi:
•Dac˘aXeste o v.a. de tip continuu, cu densitatea de reparti¸ tie f(x), atunci media
(teoretic˘ a) acestei v.a., dac ˘a exist ˘a (!), se define¸ ste astfel:
m=Z¥
¥x f(x)dz: (1.4.5)
Daca U(x)este o functie, atunci media pentru variabila aleatoare U(X)(dac˘a exist ˘a!)
se defineste prin
E(U(X)) =Z¥
¥U(x)f(x)dz:
Nota¸ tia 1.1 În cazul în care poate fi pericol de confuzie (spre exemplu, atunci când lucr ˘am
cu mai multe variabile în acela¸ si timp), vom folosi nota¸ tia mX. Pentru media teoretic ˘a a
unei variabile aleatoare se mai folosesc ¸ si nota¸ tiile: m,M(X)sauE(X).
Dispersia (sau varian¸ ta ) (en.,variance) ¸ si abaterea standard (en.,standard deviation)
Consideram Xo variabil ˘a aleatoare care admite medie finita m. Dorim sa stim in ce
masura valorile aceste variabile sunt imprastiate in jurul valorii medii. Variabila aleatoare
X0=Xm(numit ˘aabaterea luiXde la media sa), atunci E(X0) =0. A¸ sadar, nu putem
m˘asur˘a gradul de împr ˘a¸ stiere a valorilor lui Xîn jurul mediei sale doar calculând Xm.
Avem nevoie de o alt ˘a m˘asur˘a. Aceasta este dispersia variabilei aleatoare, notat ˘a prin
s2sauVar(X), definit ˘a prin Var(X) =E[(Xm)2]. În cazul în care poate fi pericol de
confuzie (spre exemplu, atunci când lucr ˘am cu mai multe variabile în acela¸ si timp), vom
folosi nota¸ tia s2
X.
s2=n
å
i=1(xim)2pi
(in cazul unei v.a. discrete ):s2=Z¥
¥(xm)2f(x)dx
(in cazul unei v.a. continue ):

1.4 Parametrii popula¸ tiei 15
Alte formule pentru dispersie:
s2=E[X2]m2=8
>><
>>:n
å
i=1×2
ipim2;în cazul discret

¥x2f(x)dzm2;în cazul continuu
Numim abatere standard (sau devia¸ tie standard ) cantitatea s=p
s2. Are avantajul ca
unitatea sa de masura este aceeasi cu a variabilei X.
În conformitate cu teorema lui Ceb⸠sev1, pentru orice variabila aleatoare Xce admite
medie si orice a>0, are loc inegalitatea:
P(fjXmjksg)1
k2: (1.4.6)
În cuvinte, probabilitatea ca valorile variabilei Xsa devieze de la medie cu mai mult de k
deviatii standard este mai mica decat1
k2. În cazul particular k=3, ob¸ tinem regula celor
3s:
P(fjXmj3sg)1
90:1:
sau
P(fm3s<X<m+3sg)8
9; (1.4.7)
semnificând c ˘a o mare parte din valorile posibile pentru Xse afl ˘a în intervalul [m3s;m+
3s].
Coeficientul de varia¸ tie
Este definit prin CV=s
msau, sub forma de procente, CV=100s
m%. Este util in com-
pararea variatiilor a doua sau mai multe seturi de date ce tin de aceeasi variabila. Daca
variatiile sunt egale, atunci vom spune ca setul de observatii ce are media mai mica este
mai variabil decat cel cu media mai mare.
Standardizarea unei variabile aleatoare
Pentru o variabila aleatoare Xde medie m¸ si dispersie s2, variabila aleatoare Y=Xm
sse nume¸ ste variabila aleatoare standardizat˘ a (sau normat ˘a). Astfel, prin standardizarea
unei variabile, vom obtine urmatoarele proprietati ale sale: E(Y) =0;Var(Y) =1:
Daca Xeste o variabila normala (scriem asta prin XN(m;s)), atunci standardizarea sa
este o variabila normala standard, adicaXm
sN(0;1).
Momente centrate
Pentru o v.a. X(discret ˘a sau continu ˘a), ce admite medie, momentele centrate sunt valorile
a¸ steptate ale puterilor lui Xm. Definim astfel mk(X) =E((Xm)k). In particular,
1Pafnuty Lvovich Chebyshev (1821 1894), matematician rus

16 Capitolul 1. No¸ tiuni recapitulative
mk(X) =n
å
i=1(xim)kpi;
(in cazul unei v.a. discrete ):mk(X) =Z¥
¥(xm)kf(x)dx;
(in cazul unei v.a. continue ):
Momente speciale:
•m2(X) =s2. Se observa ca al doilea moment centrat este chiar dispersia.
•g1=m3(X)
s3estecoeficientul de asimetrie (en., skewness );
Coeficientul g1este al treilea moment centrat standardizat. O reparti¸ tie este simetric ˘a
dac˘ag1=0. V om spune c ˘a asimetria este pozitiv ˘a (sau la dreapta) dac ˘ag1>0¸ si
negativ ˘a (sau la stânga) dac ˘ag1<0.
•K=m4(X)
s43 este excesul (coeficientul de aplatizare sauboltire ) (en., kurtosis ).
Este o m ˘asur˘a a boltirii distribu¸ tiei (al patrulea moment standardizat). Termenul (3)
apare pentru c ˘a indicele kurtosis al distribu¸ tiei normale s ˘a fie egal cu 0. V om avea
o reparti¸ tie mezocurtic˘ a pentru K=0,leptocurtic˘ a pentru K>0sauplatocurtic˘ a
pentru K<0. Un indice K>0semnific ˘a faptul c ˘a, în vecin ˘atatea modului, curba
densit ˘a¸ tii de reparti¸ tie are o boltire (ascu¸ tire) mai mare decât clopotul lui Gauss.
Pentru K<0, în acea vecin ˘atate curba densit ˘a¸ tii de reparti¸ tie este mai plat ˘a decât
curba lui Gauss.
Cuantile
FieXo variabil ˘a aleatoare cu func¸ tia de reparti¸ tie F(x) =P(Xx).
Defini¸ tia 1.4.1 Pentru a2(0;1), definim cuantila de ordin avaloarea xa2Rastfel încât:
xa=inffx2R;F(x)ag: (1.4.8)
Dac˘aXeste o variabil ˘a aleatoare de tip continuu ¸ si F(x)este strict cresc ˘atoare pe R, atunci
xaeste unica valoare pentru care
F(xa) =a: (1.4.9)
Observa¸ tia 1.1 (1) Cuantilele sunt m ˘asuri de pozi¸ tie, ce m ˘asoar ˘a loca¸ tia unei anumite
valori fa¸ t ˘a de restul valorilor. Ele sunt unice doar dac ˘a variabila aleatoare este continu ˘a ¸ si
F(x)este strict cresc ˘atoare.
(2) În cazul în care Xeste o variabil ˘a aleatoare discret ˘a, este posibil s ˘a avem mai mult
de o cuantil ˘a de ordin apentru X. În acest caz, exist ˘a o infinitate de solu¸ tii, ¸ si anume
valorile dintr-un interval (vezi Figura 1.2, unde toate valorile din intervalul [x1;x2]sunt
acuantile).
(3) A¸ sa cum se poate observa din Figura 1.1, valoarea xapentru o reparti¸ tie continu ˘a este
acel num ˘ar real pentru care aria ha¸ surat ˘a este chiar a.

1.4 Parametrii popula¸ tiei 17
Figura 1.1: Cuantila de ordin apentru o
reparti¸ tie continu˘ a
Figura 1.2: Cuantile de ordin apentru o
reparti¸ tie discret˘ a
(4) Cazuri particulare de cuantile:
•pentru a=1=2, obtinem mediana . Astfel, F(Me) =0:5. Mediana (notata Me)
este valoarea care imparte repartitia in doua parti in care variabila Xia valori cu
probabilitati egale. Scriem asta astfel:
P(XMe) =P(XMe) =0:5:
Pentru o variabila care nu este simetrica, mediana este un indicator mai bun decat
media pentru tendinta centrala a valorilor variabilei.
•pentru a=i=4;i2f1;2;3g, obtinem cuartilele. Prima cuartila, Q1, este acea
valoare pentru care probabilitatea ca Xsa ia o valoare la stanga ei este 0:25. Scriem
asta astfel: P(XQ1) =0:25. Cuartila a doua este chiar mediana, deci Q2=Me.
Cuartila a treia, Q3, este acea valoare pentru care probabilitatea ca Xsa ia o valoare
la stanga ei este 0 :75. Scriem asta astfel: P(XQ3) =0:75.
•pentru a=j=10;j2f1;2; :::; 9g, obtinem decilele. Prima decila este acea valoare
pentru care probabilitatea ca Xsa ia o valoare la stanga ei este 0 :1. S.a.m.d.
•pentru a=j=100;j2f1;2; :::; 99g, obtinem centilele. Prima centila este acea
valoare pentru care probabilitatea ca Xsa ia o valoare la stanga ei este 0:01. S.a.m.d.
(5) Dac ˘aXN(0;1), atunci cuantilele de ordin ale vom nota prin za.
Modul (valoarea cea mai probabil ˘a)
Este valoarea cea mai probabila pe care o lua variabila aleatoare X. Cu alte cuvinte,
este acea valoare xpentru care f(x)(densitatea de reparti¸ tie sau func¸ tia de probabilitate)
este maxim ˘a. O reparti¸ tie poate s ˘a nu aib ˘a niciun mod, sau poate avea mai multe module.
Covarian¸ ta ¸ si coeficientul de corela¸ tie
Conceptul de corela¸ tie (sau covarian¸ t ˘a) este legat de modul în care dou ˘a variabile aleatoare
tind s ˘a se modifice una fa¸ t ˘a de cealalt ˘a; ele se pot modifica fie în aceea¸ si direc¸ tie (caz în
care vom spune c ˘aX1¸ siX2sunt direct <sau pozitiv >corelate) sau în direc¸ tii opuse ( X1¸ si
X2sunt invers <sau negativ >corelate).
Consideram variabilele X1;X2ce admit mediile, respectiv, m1;m2.

18 Capitolul 1. No¸ tiuni recapitulative
Definim corela¸ tia (saucovarian¸ ta ) variabilelor X1¸ siX2, notat ˘a prin cov(X1;X2), cantitatea
cov(X1;X2) =E[(X1m1)(X2m2)]:
Daca X1siX2coincid, sa spunem ca X1=X2=X, atunci cov (X;X) =s2
X.
Orela¸ tie liniar˘ a între dou ˘a variabile este acea rela¸ tie ce poate fi reprezentat ˘a cel mai bine
printr-o linie. Corela¸ tia detecteaz ˘a doar dependen¸ te liniare între dou ˘a variabile aleatoare.
Putem avea o corela¸ tie pozitiv˘ a , însemnând c ˘aX1¸ siX2cresc sau descresc împreun ˘a (vezi
cazurile in care r=0:85saur=1in Figura 10.2), sau o corela¸ tie negativ˘ a , însemnând
c˘aX1¸ siX2se modific ˘a în direc¸ tii opuse (vezi cazul r=0:98in Figura 10.2). In cazul
r=0:16din Figura 10.2, nu se observa nicio tendinta, caz in car putem banui ca
variabilele nu sunt corelate.
O m˘asur˘a a corela¸ tiei dintre dou ˘a variabile este coeficientul de corela¸ tie. Acesta este foarte
utilizat în ¸ stiin¸ te ca fiind o m ˘asur˘a a dependen¸ tei liniare între dou ˘a variabile. Se nume¸ ste
coeficient de corela¸ tie al v.a. X1¸ siX2cantitatea
r=cov(X1;X2)
s1s2;
unde s1sis2sunt deviatiile standard pentru X1, respectiv, X2. Uneori se mai noteaza prin
r(X1;X2)saurX1;X2. Coeficientul de corelatie ia valori intre 1(perfect negativ corelate)
si 1 (perfect pozitiv corelate) si masoara gradul de corelatie liniara dintre doua variabile.
Figura 1.3: Reprezentare de date bidimensionale.
1.5 Statistici
Consider ˘am o caracteristic ˘a de interes Xa unei popula¸ tii statistice ¸ si fie x1;x2; :::; xnun
set de date observate pentru aceast ˘a caracteristic ˘a. Fiec ˘arei date observate xii se poate
asocia o variabil ˘a aleatoare Xi, astfel încât xidevine o posibil ˘a valoarea a variabilei Xi.
Variabilele aleatoare X1;X2; :::; Xnse numesc variabile aleatoare de selec¸ tie ¸ si pot fi
interpretate ca fiind un set de observa¸ tii independente asupra variabilei X. Toate aceste

1.5 Statistici 19
variabile de selectie sunt identic repartizate, reparti¸ tia comun ˘a fiind reparti¸ tia variabilei X.
A¸ sadar, Xieste o observa¸ tie a variabilei X¸ sixieste valoarea corespunz ˘atoare observat ˘a.
Se nume¸ ste statistic˘ a (sau func¸ tie de selec¸ tie ) o func¸ tie de aceste variabile aleatoare de
selec¸ tie, i.e., o variabil ˘a aleatoare de forma
Sn(X) =g(X1;X2; :::; Xn);
unde geste o func¸ tie g:Rn!Rm˘asurabil ˘a.
Ca o observa¸ tie, numele de statistic˘ a este folosit în literatura de specialitate atât pentru
variabila aleatoare de mai sus, cât ¸ si pentru valoarea ei, în¸ telesul exact desprinzându-se din
context. Reparti¸ tia unei statistici se mai nume¸ ste ¸ si reparti¸ tia (distribu¸ tia) de selec¸ tie .
În literatur ˘a, statistica este notat ˘a cu una dintre urm ˘atoarele:
Sn(X);S(X;n);S(X1;X2; :::; Xn):
Valoarea numeric ˘a
Sn(x) =g(x1;x2; :::; xn)
se nume¸ ste valoarea func¸ tiei de selec¸ tie pentru un set dat de observa¸ tii x1;x2; :::; xn.
Prin intermediul statisticilor putem trage concluzii despre popula¸ tia din care a provenit
e¸ santionul observat. Teoria probabilit ˘a¸ tilor ne ofer ˘a procedee de determinare atât a repar-
ti¸ tiei exacte a lui Sn(X), cât ¸ si a reparti¸ tiei asimptotice a lui Sn(X).Reparti¸ tia exact˘ a este
acea reparti¸ tie ce poate fi determinat ˘a pentru orice volum al selec¸ tiei. În general, dac ˘a
se lucreaz ˘a cu selec¸ tii de volum redus ( n<30), atunci reparti¸ tia exact ˘a ar trebui s ˘a fie
cunoscut ˘aa priori , dac ˘a se dore¸ ste luarea de decizii prin inferen¸ t ˘a.Reparti¸ tia asimptotic˘ a
este reparti¸ tia limit ˘a aSn(X)când n!¥, iar utilizarea acesteia conduce la rezultate bune
doar pentru n30.
De cele mai multe ori, o statistic ˘a este utilizat ˘a în urm ˘atoarele cazuri:
• în probleme de estimare punctual ˘a a parametrilor popula¸ tiei;
• în ob¸ tinerea intervalelor de încredere pentru un parametru necunoscut;
• ca o statistic ˘a test pentru verificarea ipotezelor statistice.
1.5.1 Exemple de statistici
Media de selec¸ tie Numim medie de selec¸ tie (de volum n) statistica X=1
nn
å
i=1Xi:
Valoarea mediei de selec¸ tie pentru valori ale acestor variabile aleatoare este media empiric ˘a:
x=1
nn
å
i=1xi:
Dispersia de selec¸ tie (sau varian¸ ta selec¸ tiei ) Numim dispersie de selec¸ tie (de volum n)
statistica S2(sauS2
X, dac ˘a avem mai multe variabile) definit ˘a prin: S2=1
n1n
å
i=1[XiX]2:
Valoarea dispersiei de selec¸ tie pentru valori ale acestor variabile aleatoare este dispersia
(sau varia¸ tia) empiric ˘a: simplitate, o vom nota cu s2(sau s2
X, dac ˘a avem mai multe
variabile), iar valoarea acesteia pentru o selec¸ tie fixat ˘a este:
s2=1
n1n
å
i=1[xix]2:

20 Capitolul 1. No¸ tiuni recapitulative
în anumite situa¸ tii, în locul lui S2se mai utilizeaz ˘a statistica S2
(X), definit ˘a prin:
S2
(X) =1
nn
å
i=1[XiX]2:
Motiva¸ tia pentru considerarea statisticii S2în detrimentul lui S2
este dat ˘a de faptul c ˘a prima
statistic ˘a estimeaz ˘a varia¸ tia teoretic ˘as2mai bine decât cea de-a doua.
Devia¸ tia standard de selec¸ tie Numim devia¸ tie standard de selec¸ tie (de volum n)statis-
ticaS(sauSX, dac ˘a avem mai multe variabile) definit ˘a prin: S=p
S2=s
1
n1n
å
i=1[XiX]2.
Valoarea devia¸ tiei standard de selec¸ tie este notat ˘a cu s(sau sX, dac ˘a avem mai multe vari-
abile), iar valoarea acesteia pentru o selec¸ tie fixat ˘a este:
s=s
1
n1n
å
i=1[xix]2:
Func¸ tia de reparti¸ tie de selec¸ tie FieX1;X2; :::; Xnvariabile aleatoare de selec¸ tie
repetat ˘a de volum n. Numim func¸ tie de reparti¸ tie de selec¸ tie (de volum n)func¸ tia F
n(x) =
n(x)
n;8x2R;unde n(x) =cardfi;Xixgreprezint ˘a num ˘arul de elemente din selec¸ tie
mai mici sau egale cu x.
Rela¸ tia din defini¸ tie poate fi scris ˘a ¸ si sub forma:
F
n(x) =1
nn
å
i=1c(¥;x](Xi);8x2R; (1.5.10)
unde cAeste func¸ tia indicatoare a mul¸ timii A.
Pentru un x2Rfixat, F
neste o variabil ˘a aleatoare repartizat ˘a binomial B(n;F(x)).
Pentru o selec¸ tie fixat ˘a,F
n(x)este func¸ tia de reparti¸ tie empiric ˘a, i.e.,
F
n(x) =cardfi;xixg
n:
1.6 Legi limit ˘a în Teoria Probabilit ˘a¸ tilor
1.6.1 Legea tare a numerelor mari
Teoremele limit ˘a clasice descriu comportarea asimptotic ˘a a sumei Sn, potrivit normalizat ˘a.
Legea numerelor mari descrie comportamentul asimptotic al unui sir de variabile aleatoare.
În cazul cel mai simplu (si cel mai utilizat in Statistica), in care variabilele aleatoare
fXkgk1sunt independente stochastic ¸ si identic repartizate, cu E(Xn) =m<¥;8n2
N, atunci legea tare a numerelor mari spune ca sirul fSngn1, cu Sn=n
å
k=1Xksatisface
convergenta:Sn
na:s:!m:
Astfel, de¸ si variabilele aleatoare independente fXkgk1pot lua valori dep ˘artate de mediile
lor, media aritmetic ˘a a unui num ˘ar suficient de mare de astfel de variabile aleatoare ia
valori în vecin ˘atatea lui m, cu o probabilitate foarte mare.

1.6 Legi limit ˘a în Teoria Probabilit ˘a¸ tilor 21
In Statistica, acest ¸ sir de v.a. poate fi privit ca fiind un model pentru repeti¸ tii independente
ale unui experiment aleator, efectuate în aceleasi condi¸ tii. De¸ si avem de-a face cu un ¸ sir
de func¸ tii ce iau valori întâmpl ˘atoare, suma unui num ˘ar suficient de mare de variabile
aleatoare î¸ si pierde caracterul aleator.
Legea tare a numerelor mari e foarte util ˘a în metode de simulare tip Monte Carlo.
1.6.2 Teorema limit ˘a central ˘a
Teorema limita centrala este un rezultat foarte important in Statistica. Ea ne permite s ˘a
aproxim ˘am sume de variabile aleatoare identic repartizate, avînd orice tip de reparti¸ tii (atât
timp cât varia¸ tia lor e finit ˘a), cu o variabila aleatoare normal ˘a.
Presupunem ca in urma unor masuratori am obtinut datele x1;x2; :::; xnsi ca aceste date
sunt realizarile unor variabile X1;X2; :::; Xn. Daca aceste variabile sunt normale, atunci
suma acestora ( Sn=n
å
i=1Xi) cat si media lor ( X=1
nn
å
i=1Xi) sunt tot variabile normale, pentru
orice volum al selectiei, n.
Matematic, teorema TLC ne spune c ˘a, dac ˘a avem un ¸ sir de v.a. independente stochastic ¸ si
identic repartizate, atunci, pentru nsuficient de mare, reparti¸ tia asimptotic ˘a a sumei Sneste
o variabil ˘aN(m;spn). Acest fapt este echivalent cu a spune c ˘a variabila aleatoare sum ˘a
standardizat ˘a
Sn=Snnm
spn=SnmSn
sSn(1.6.11)
este o v.a. de reparti¸ tie N(0;1).
Totodat ˘a, mai avem c ˘a distribu¸ tia variabilei aleatoare medie de selec¸ tie X=Sn
n=1
nn
å
k=1Xk
este aproximativ normal ˘aN(m;spn).
A¸ sadar, Teorema limita centrala spune ca, dac ˘a variabilele X1;X2; :::; Xnnu sunt neap ˘arat
normal repartizate, atunci, pentru un volum neste suficient de mare, repartitiile pentru Sn
siXtind sa fie tot normale. Spunem astfel ca repartitiile asimptotice (la limita) pentru Sn
siXsunt normale. Cu cat volumul observatiilor este mai mare, cu atat suma sau media lor
sunt mai aproape de repartitia normala.
Mai mult, daca variabilele Xiau aceeasi medie ( m) si aceeasi deviatie standard s, atunci
media Xeste o variabila normala de medie mX=msi deviatie standard sX=spn. Se
observa ca, daca neste foarte mare, atunci deviatia standard a lui Xscade, astfel ca valorile
sale vor deveni foarte apropiate de m.
RSe pune problema: Cât de mare ar trebui s˘ a fie npentru ca, în practic˘ a, teorema
limit˘ a central˘ a s˘ a fie aplicabil˘ a? Se pare c ˘a un num ˘arnastfel încât n30ar fi sufi-
cicient pentru aproximarea cu reparti¸ tia normal ˘a de¸ si, dac ˘a variabilele sunt simetrice,
aproximarea ar putea fi bun ˘a ¸ si pentru un num ˘arnmai mic de 30.

22 Capitolul 1. No¸ tiuni recapitulative

2.Generarea în MATLAB a datelor statistice
. [Did you hear about the statistician that couldn’t get laid?
. He decided that a simulation was good enough.]
Numerele generate de MATLAB sunt rezultatul compil ˘arii unui program deja existent în
MATLAB , a¸ sadar el vor fi pseudo-aleatoare . Putem face abstrac¸ tie de modul programat de
generare ale acestor numere ¸ si s ˘a consider ˘am c ˘a acestea sunt numere aleatoare.
2.1 Generarea de numere aleatoare în MATLAB
2.1.1 Func¸ tia rand
• Func¸ tia rand genereaz ˘a un num ˘ar aleator repartizat uniform în [0;1].
De exemplu, comanda
X = (rand < 0.5)
simuleaz ˘a aruncarea unei monede ideale. Mai putem spune ca num ˘arul Xastfel
generat este un num ˘ar aleator repartizat B(1;0:5).
• De asemenea, num ˘arul
Y = sum(rand(10,1) < 0.5)
urmeaz ˘a reparti¸ tia B(10;0:5)(simularea a 10 arunc ˘ari ale unei monede ideale).
• rand(m;n)genereaz ˘a o matrice aleatoare cu mncomponente repartizate U(0;1).
•Comanda a+(ba) rand genereaz ˘a un num ˘ar pseudo-aleator repartizat uniform
în[a;b].

24Capitolul 2. Generarea în MATLAB a datelor statistice
Figura 2.1: Reprezentarea cu histograme a datelor uniforme.
•Folosind comanda s = rand('state') , i se atribuie variabilei sun vector de 35de
elemente, reprezentând starea actual ˘a a generatorului de numere aleatoare uniform
(distribuite). Pentru a schimba starea curent ˘a a generatorului sau ini¸ tializarea lui,
putem folosi comanda
rand(method, s)
unde method este metoda prin care numerele aleatoare sunt generate (aceasta poate
fi 'state' , 'seed' sau 'twister' ), iar seste un num ˘ar natural între 0¸ si2321,
reprezentând starea ini¸ tializatorului. De exemplu, func¸ tia rand('state', 125) fix-
eaz˘a generatorul la starea 125.
Observa¸ tia 2.1 Printr-o generare de numere aleatoare uniform distribuite în intervalul
(a;b)în¸ telegem numere aleatoare care au aceea¸ si ¸ sans ˘a de a fi oriunde în (a;b), ¸ si nu
numere la intervale egale. Figura 2.1 reprezint ˘a cu histograme date uniform distribuite în
intervalul [2;3], produse de comanda M ATLAB :
hist(5*rand(1e4,1)-2,100)
2.1.2 Func¸ tia randn
• Func¸ tia randn genereaz ˘a un num ˘ar aleator repartizat normal N(0;1).
• randn (m;n)genereaz ˘a o matrice aleatoare cu mncomponente repartizate N(0;1).
•Pentru a schimba metoda prin care sunt generate numerele aleatoare normale sau
starea generatorului, folosim comanda:
randn(method, s)
un num ˘ar natural între 0 ¸ si 2321, reprezentând starea ini¸ tializatorului.
•Comanda m+s randn genereaz ˘a un num ˘ar aleator repartizat normal N(m;s).
De exemplu, codul urm ˘ator produce Figura 2.2:
x = 0:0.05:10;
y = 5 + 1.1*randn(1e5,1); % date distribuite N(5;1:1)
hist(y,x)

2.1 Generarea de numere aleatoare în MATLAB 25
2.1.3 Generarea de numere aleatoare de o reparti¸ tie cunoscut ˘a
Comenzile M ATLAB
lege rnd(<param>, m, n)
¸ si
random (’lege’, <param>, m, n).
Oricare dintre cele dou ˘a comenzi genereaz ˘a o matrice aleatoare, cu mlinii ¸ si ncoloane,
având componente numere aleatoare ce urmeaz ˘a reparti¸ tia lege. În loc de lege putem scrie
oricare dintre expresiile din Tabelul 2.1. De exemplu,
normrnd (5, 0.2, 100, 10);
genereaz ˘a o matrice aleatoare cu 100 10 componente repartizate N(5;0:2).
random (’ poiss ’,0.01, 200, 50);
genereaz ˘a o matrice aleatoare cu 200 50 componente repartizate P(0:01).
Utilizând comanda
randtool
putem reprezenta interactiv selec¸ tii aleatoare pentru diverse reparti¸ tii. Comanda deschide
o interfa¸ t ˘a grafic ˘a ce reprezint ˘a prin histograme selec¸ tiile dorite, pentru parametrii dori¸ ti
(vezi Figura 2.3). Datele generate de MATLAB pot fi exportate în fi¸ sierul Workspace cu
numele dorit. De exemplu, folosind datele din Figura 2.3, am generat o selec¸ tie aleatoare
de10000 de numere ce urmeaz ˘a reparti¸ tia lognormal ˘a de parametri m=2¸ sis=0:5¸ si
am salvat-o (folosind butonul Export ) într-un vector L.
Tabelul 2.1 con¸ tine câteva reparti¸ tii uzuale ¸ si func¸ tiile corespunz ˘atoare în M ATLAB .
0 2 4 6 8 10050100150200250
Figura 2.2: Reprezentarea cu histograme a datelor normale.

26Capitolul 2. Generarea în MATLAB a datelor statistice
Figura 2.3: Interfa¸ t ˘a pentru generarea de numere aleatoare de o reparti¸ tie dat ˘a.
reparti¸ tii probabilistice discrete reparti¸ tii probabilistice continue
norm : reparti¸ tia normal ˘aN(m;s)
bino : reparti¸ tia binomial ˘aB(n;p) unif : reparti¸ tia uniform ˘a continu ˘aU(a;b)
nbin : reparti¸ tia binomial ˘a negativ ˘aBN(n;p) exp: reparti¸ tia exponen¸ tial ˘aexp(l)
poiss : reparti¸ tia Poisson P(l) gam: reparti¸ tia Gamma G(a;l)
unid : reparti¸ tia uniform ˘a discret ˘aU(n) beta : reparti¸ tia Beta b(m;n)
geo: reparti¸ tia geometric ˘aGeo(p) logn : reparti¸ tia lognormal ˘alogN(m;s)
hyge : reparti¸ tia hipergeometric ˘aH(n;a;b) chi2 : reparti¸ tia c2(n)
t: reparti¸ tia student t(n)
f: reparti¸ tia Fisher F(m;n)
wbl: reparti¸ tia Weibull Wbl(k;l)
Tabela 2.1: Reparti¸ tii uzuale în M ATLAB

2.2 Simularea unui experiment aleator 27
2.2 Simularea unui experiment aleator
2.2.1 Simularea arunc ˘arii unei monede
Pentru a simula aruncarea unei monede ideale (fiecare fa¸ t ˘a are ¸ sanse egale de apari¸ tie)
înMATLAB , vom genera un num ˘ar aleator uniform în (0;1)¸ si vom verifica dac ˘a acest
num˘ar este mai mic decât 0:5. Dac ˘a este, putem presupune c ˘a a ap ˘arut fa¸ ta cu stema, altfel
a ap˘arut banul. Astfel, comanda M ATLAB
X = ( rand < 0.5)
simuleaz ˘a aruncarea unei monede ideale. Parantezele rotunde verific ˘a valoarea de adev ˘ar
a propozi¸ tiei din interior. Rezultatul comenzii va fi ori X=0(fals) ori X=1(adev ˘arat),
ceea ce putem presupune c ˘a va corespunde apari¸ tiei unei anumite fe¸ te a monedei. Dac ˘a
X=1, atunci num ˘arul ales aleator este mai mic decât 0:5, deci a ap ˘arut stema, iar dac ˘a
X=0, atunci num ˘arul ales aleator este mai mare decât 0 :5, deci a ap ˘arut banul.
Num ˘arulXastfel generat este un num ˘ar aleator repartizat Bernoulli B(1;0:5)(similar
cu schema bilei revenite, în cazul în care o urn ˘a are bile albe ¸ si negre în num ˘ar egal ¸ si
extragem o bil ˘a la întâmplare). Dac ˘a dorim s ˘a repet ˘am experien¸ ta de un num ˘arnde ori,
atunci scriem
X = sum( rand (n,1)<0.5)
Comanda aceasta va afi¸ sa un num ˘ar natural între 0 ¸ si n, care reprezint ˘a num ˘arul de steme
ap˘arute la aruncarea repetat ˘a, în mod independent, a unei monede ideale. Num ˘arulXastfel
generat este un num ˘ar aleator repartizat binomial B(n;0:5). Aceast ˘a variabil ˘a aleatoare
mai poate fi simulat ˘a ¸ si prin comada
X = binornd(n,0.5,1,1) sau X = random('bino',n,0.5,1,1)
Exerci¸ tiu 2.1 Dac˘a experimentul aleator este aruncarea unei monede ideale de n=30de
ori, atunci putem simula variabila aleatoare ce reprezint ˘a num ˘arul de steme ap ˘arute astfel
Y = sum( rand (30,1)<0.5)
Aceasta urmeaz ˘a reparti¸ tia B(30;0:5)(simularea a 30arunc ˘ari independente ale unei
monede ideale).
Observa¸ tia 2.2 Acela¸ si experiment poate fi modelat ¸ si prin comanda
round(rand(30,1))
Pentru a num ˘ara câte fe¸ te de un anumit tip au ap ˘arut, folosim
sum(round(rand(30,1)))
2.2.2 Simularea în MATLAB a unei variabile aleatoare de tip discret
S˘a consider ˘am o variabil ˘a aleatoare ce poate avea doar 3rezultate posibile, a;b¸ sic, cu
probabilit ˘a¸ tile de realizare 0 :5;0:2 ¸ si, respectiv, 0 :3. Tabloul de reparti¸ tie asociat este:
X:a b c
0:5 0:2 0:3
;

28Capitolul 2. Generarea în MATLAB a datelor statistice
Pentru a modela aceast ˘a variabil ˘a aleatoare în MATLAB , proced ˘am astfel: alegem uniform
la întâmplare un num ˘arxdin intervalul [0;1]. Dac ˘ax<0:5, atunci convenim c ˘a rezultatul
as-a realizat, dac ˘a0:5<x<0:7, atunci rezultatul bs-a realizat. Altfel, rezultatul variabilei
aleatoare Xestec. Dac ˘a acest experiment se repet ˘a de multe ori, atunci rezultatele pot fi
folosite în estimarea probabilit ˘a¸ tilor de realizare a variabilei aleatoare. Cu cât vom face mai
multe experimente, cu atât vom aproxima mai bine valorile teoretice ale probabilit ˘a¸ tilor,
deci putem spune c ˘a am aproximat variabila aleatoare X.
În M ATLAB , scriem:
syms a b c % declaram a, b si c ca variabile simbolice
r = rand;
X = a*(r<0.5) + b*(0.5<r & r<0.7) + c*(r>0.7)
Folosind aceast ˘a metod ˘a, putem simula aruncarea unui zar ideal. Avem 6rezultate posibile,
¸ si anume, apari¸ tia unei fe¸ te cu 1;2;3;4;5sau6puncte. Pentru a simula acest experiment,
modific ˘am în mod convenabil problema. V om considera c ˘a punctele din intervalul [0;1]
formeaz ˘a mul¸ timea tuturor cazurilor posibile ¸ si împ ˘ar¸ tim intervalul [0;1]în6subintervale
de lungimi egale:

(0;1
6);(1
6;2
6);(2
6;3
6);(3
6;4
6);(4
6;5
6);(5
6;1)
:
corespunz ˘atoare, respectiv, celor ¸ sase fe¸ te, s ˘a zicem în ordinea cresc ˘atoare a punctelor de
pe ele. V om vedea mai târziu (vezi metoda Monte Carlo) ca alegerea acestor intervale
cu capete închise, deschise sau mixte nu are efect practic asupra calculului probabilit ˘a¸ tii
dorite. Acum, dac ˘a dorim s ˘a simul ˘am în MATLAB apari¸ tia fe¸ tei cu 3puncte la aruncarea
unui zar ideal, vom alege (comanda rand ) un num ˘ar "la întâmplare" din intervalul [0;1]¸ si
verific ˘am dac ˘a acesta se afl ˘a în intervalul (2
6;3
6). A¸ sadar, comanda M ATLAB
u = rand; (u < 3/6 & u > 2/6)
simuleaz ˘a aruncarea unui zar ideal. Ca o observa¸ tie, deoarece cele 6fe¸ te sunt identice,
putem simplifica aceast ˘a comanda ¸ si scrie
(rand < 1/6) :
Func¸ tiile floor, ceil, round, fix
Sunt func¸ tii folosite pentru generarea de numere aleatoare întregi. De exemplu, func¸ tia
floor (x)este partea întreag ˘a a lui x. Astfel, comenzile
floor (11* rand (20,1));
ceil (11* rand (20,1));
genereaz ˘a fiecare câte 20de numere întregi între 0¸ si10, distribuite uniform discret.
Diferen¸ ta dintre cele dou ˘a func¸ tii este ca floor (x)face rotunjirea la num ˘arul întreg aflat
la stânga lui x, pe când ceil(x)face rotunjirea la num ˘arul întreg aflat la dreapta lui x.
Func¸ tiile round (x)¸ si fix(x)rotunjesc num ˘arul real xla cel mai apropiat num ˘ar întreg, în
direc¸ tia lui¥, respectiv, în direc¸ tia lui zero.
Pentru generarea de numere întregi în M ATLAB , mai putem folosi urm ˘atoarele comenzi:

2.3 Reparti¸ tii probabilistice în MATLAB 29
randsample(populatie, k)
randsample(n, k)
randsample(populatie, k, replace)
Prima comand ˘a genereaz ˘a o selec¸ tie uniform ˘a (discret ˘a) nerepetat ˘a de knumere natu-
rale alese aleator din vectorul populatie . Dac ˘a în locul vectorului populatie este n
(comanda a doua), atunci se realizeaz ˘a o selec¸ tie uniform ˘a nerepetat ˘a de knumere din
mul¸ timeaf1;2; :::; ng. A treia comand ˘a ne d ˘a posibilitatea s ˘a control ˘am dac ˘a selec¸ tia
este sau nu este repetat ˘a. Dac ˘a variabila replace este true sau 1, atunci selec¸ tia ob¸ tinut ˘a
este una repetat ˘a, iar dac ˘a variabila replace este false sau 0, atunci selec¸ tia ob¸ tinut ˘a
este una nerepetat ˘a.
De exemplu, comanda
randsample([50:2:100], 10, 0)
genereaz ˘a o selec¸ tie nerepetat ˘a de 10 numere pare între 50 ¸ si 100:
66 72 50 68 88 74 82 80 94 76
Vectorul Xdat de
X = randperm(n)
este o permutare aleatoare a elementelor mul¸ timii f1;2; :::; ng.
2.3 Reparti¸ tii probabilistice în MATLAB
Func¸ tia de probabilitate (pentru v.a. discrete) ¸ si densitatea de reparti¸ tie (pentru v.a. con-
tinue) (ambele notate anterior prin f(x)) se introduc în MATLAB cu ajutorul comenzii pdf,
astfel:
pdf('LEGE', x, <param>) sau LEGEpdf(x, <param>)
Func¸ tia de reparti¸ tie F(x)a unei variabile aleatoare se poate introduce în MATLAB cu
ajutorul comenzii cdf, astfel:
cdf('LEGE', x, <param>) sau LEGEcdf(x, <param>)
Inversa func¸ tiei de reparti¸ tie pentru reparti¸ tii continue, F1(y), se introduce cu comanda
icdf , astfel:
icdf('LEGE', y, <param>) sau LEGEinv(y, <param>)
În comenzile de mai sus, LEGE poate fi oricare dintre legile de reparti¸ tie din Tabelul 2.1, x
este un scalar sau vector pentru care se calculeaz ˘af(x)sauF(x), yeste un scalar sau vector
pentru care se calculeaz ˘aF1(y), iar <param> este un scalar sau un vector ce reprezint ˘a
parametrul (parametrii) reparti¸ tiei considerate.

30Capitolul 2. Generarea în MATLAB a datelor statistice
Observa¸ tia 2.3 FieXo variabil ˘a aleatoare ¸ si F(x;q)func¸ tia sa de reparti¸ tie, qfiind
parametrul reparti¸ tiei. Pentru un x2R, rela¸ tia matematic ˘a
P(Xx) =F(x)
o putem scrie astfel în M ATLAB :
cdf('numele repartiµiei lui X',x, q): (2.3.1)
Problema poate aparea la evaluarea în MATLAB a probabilit ˘a¸ tiiP(X<x). Dac ˘a reparti¸ tia
considerat ˘a este una continu ˘a, atunci corespondentul în MATLAB este tot (2.3.1), deoarece
în acest caz
P(Xx) =P(X<x)+P(X=x) =P(X<x):
De exemplu, dac ˘aXN(5;2), atunci
P(X<4) = cdf('norm', 4, 5, 2) :
Dac˘aXeste de tip discret, atunci
P(X<x) =(
P(X[x]) ;xnu e întreg
P(Xm1);x=m2Z;
unde [x]este partea întreag ˘a a lui x.
De exemplu, dac ˘aXB(10;0:3), atunci
P(X<5) = P(X4)
= cdf('bino', 4, 10, 0.3) =0:8497 :
2.4 Exerci¸ tii rezolvate
Exerci¸ tiu 2.2 Un sondaj preliminar a determinat c ˘a42% dintre persoanele cu drept de vot
dintr-o anumit ˘a ¸ tar˘a ar vota candidatul Cpentru pre¸ sedin¸ tie. Alegem la întâmplare 200de
votan¸ ti. Care este probabilitatea ca un procent dintre ace¸ stia, situat între 40% ¸ si50%, îl
vor vota pe Cla pre¸ sedin¸ tie?
Solu¸ tie: S˘a not ˘am cu p=0:42¸ si cu Xvariabila aleatoare ce reprezint ˘a num ˘arul de votan¸ ti
ce au ales candidatul C, din selec¸ tia aleatoare de volum n=200considerat ˘a. Este clar c ˘a
XB(n;p). Se cere probabilitatea P(80X100)(deoarece 40% din200înseamn ˘a
80 etc). Deoarece Xeste o variabil ˘a aleatoare discret ˘a, avem c ˘a:
P=P(80X100) =P(X100)P(X<80) =FX(100)FX(79);
unde FXeste func¸ tia de reparti¸ tie a lui X.
În M ATLAB scriem astfel:
P = binocdf(100, 200, 0.42) – binocdf(79, 200, 0.42) = 0.7303.

2.4 Exerci¸ tii rezolvate 31
Exerci¸ tiu 2.3 Dintre spectatorii prezen¸ ti pe un anumit stadion la un meci de fotbal, un
procent de 20% sunt femei. La o tombola organizat ˘a pentru spectatori, un computer alege
la întâmplare numerele a 7 bilete de intrare ¸ si se premiaz ˘a posesorii.
(i) Care este probabilitatea ca m ˘acar 3 dintre spectatorii premia¸ ti s ˘a fie femei?
(ii) Care este probabilitatea ca nicio femeie s ˘a nu c⸠stige la tombol ˘a?
(iii) Dac ˘a selec¸ tia biletelor c⸠stig ˘atoare ar fi fost realizat ˘a prin alegerea a 7 spectatori ce
erau a¸ seza¸ ti în ¸ sir, pe un acela¸ si rând ales la întâmplare, argumenta¸ ti dac ˘a probabilit ˘a¸ tile
g˘asite la (i) si (ii) r ˘amân acelea¸ si.
Solu¸ tie: Experimentul aleator considerat este alegerea unui bilet de intrare. Acest ex-
periment se repeta in aceleasi conditii, in mod independent, de 7 ori. Desi extragerile se
fac fara ca biletul ales sa fie reintrodus in urna, putem considera ca extragerile se fac cu
repetitie, datorita faptului ca numarul de extrageri (7) este mult mai mic decat numarul
de spectatori de pe stadion (necunoscut in problema, dar cu siguranta este mult mai mare
decat 7).
Aceasta conventie este des intalnita in Statistica, atunci cand volumul esantionului con-
siderat ( n) este mult mai mic decat volumul populatiei din care se extrage esantionul, N.
Scriem in acest caz ca n N. In practica, aceasta are loc atunci cand n <0:05N.
Asadar, convenind ca extragerile se fac cu repetitie, putem considera ca suntem in cazul
schemei bilei revenite. Evenimentul aleator de interes (legat de experimentul aleator) este
ca biletul ales la intamplare sa fie in posesia unei femei. Din ipoteza, probabilitatea ca
intr-o proba evenimentul sa se realizeze intr-o singura proba este p=0:2. Notam cu X
variabila ce reprezint ˘a num ˘arul de femei ce apar la alegerea la întâmplare a 7 spectatori.
(i) In limbajul cu bile si urna, evenimentul compus m˘ acar 3dintre spectatorii premia¸ ti
s˘ a fie femei este echivalent cu aparitia a cel putin 3 bile albe din 7 extrageri cu repetitie,
stiind ca probabilitatea de a aparitie a unei bile albe la o singura extragere este p=0:2.
Astfel, probabilitatea exenimentului este:
P(X3) =1P(X<3) =1P(X2) =0:1480 🙁 binocdf(3,7,0.2) )
(ii) Evenimentul cerut este scris simbolic fX=0gsi are probabilitatea
P(X=0) =C0
7p0(1p)7=0:2097 : ( binopdf(0,7,0.2) )
(iii) În acest caz, probabil ca probabilitatile de mai sus nu mai sunt aceleasi, deoarece
alegerea spectatorilor nu mai este aleatorie (spectatorii a¸ seza¸ ti al ˘aturi pot fi cuno¸ stinte,
prieteni etc.).p
Exerci¸ tiu 2.4 O companie independent ˘a de evalu ˘ari statistice a estimat ca un anumit
candidat are 25% ¸ sanse s ˘a c⸠stige alegerile locale. Dorim s ˘a efectu ˘am un alt sondaj de
opinie care s ˘a verifice rezultatul companiei. Determina¸ ti care ar trebui s ˘a fie volumul
minim de selec¸ tie pentru ca, cu o probabilitate de cel pu¸ tin 0:97, procentul de aleg ˘atori ce
inten¸ tioneaz ˘a s˘a-l voteze pe respectivul candidat se încadreaz ˘a între valorile 20% ¸ si30%.
Determina¸ ti volumul minim folosind dou ˘a metode: teorema lui Ceb⸠sev ¸ si teorema limit ˘a
central ˘a.
Solu¸ tie: S˘a not ˘am cu nnnum˘arul de votan¸ ti (din nale¸ si aleator) care voteaz ˘a cu re-
spectivul candidat. Se cere cel mai mic n2Npentru care
P
0:2nn
n0:3
0:97;

32Capitolul 2. Generarea în MATLAB a datelor statistice
echivalent cu
P nn
n0:25 0:05
0:97:
(i) Observ ˘am c ˘a variabila aleatoare nnB(n;0:25), de unde E(nn) =n
4¸ siVar(nn) =3n
16.
A¸ sadar,
E(nn
n) =0:25;Var(nn
n) =3
16n:
Folosim inegalitatea lui Ceb⸠sev pentru X=nn
n,a=0:05. G ˘asim c ˘a:
P nn
n0:25 0:05
1Varnn
n
0:052=175
n:
Impunem condi¸ tia
175
n0:97;
de unde ob¸ tinem c ˘an2500 .
(ii) C ˘aut˘amnastfel încât
P
0:05nn
n0:250:05
=0:97: (2.4.2)
Ne a¸ stept ˘am ca valoarea lui ns˘a fie mare, deci putem aplica Teorema limit ˘a central ˘a.
Aplicând TLC, scriem c ˘a variabila aleatoare standardizat ˘a
nnE(nn)
s(nn)=4nn0:25np
3nN(0;1):
Folosind aceasta, rescriem egalitatea (2.4.2) astfel:
0:97=P
0:05nn
n0:250:05
=P
0:054rn
34nn0:25np
3n0:054rn
3
=Q
0:2rn
3
Q
0:2rn
3
=Q
0:2rn
3

1Q
0:2rn
3
=2Q
0:2rn
3
1
de unde Q
0:2pn
3
=0:985¸ si0:2pn
3=z0:9852:17(cuantila de ordin 0:985pentru
reparti¸ tia normal ˘a standard). Din ultima egalitate g ˘asim c ˘an353:1969 . ÎnMATLAB ,
calcul ˘am astfel:
n = 3*(norminv(0.985,0,1)/0.2)^2
A¸ sadar, pentru ca rela¸ tia din enun¸ t s ˘a aib ˘a loc, va trebui ca n354.
Observ ˘am, din nou, c ˘a aceast ˘a valoare este mult mai mic ˘a decât cea g ˘asit˘a anterior.p

2.4 Exerci¸ tii rezolvate 33
Exerci¸ tiu 2.5 Un cet ˘a¸ tean turmentat pleac ˘a de la bar spre cas ˘a. S˘a presupunem c ˘a punctul
de plecare este punctul Ode pe axa orizontal ˘a ¸ si se mi¸ sc ˘a doar pe aceast ˘a ax˘a astfel: în
fiecare unitate de timp, acesta ori face un pas la stânga, cu probabilitatea 0:5, ori face un
pas la dreapta, cu probabilitatea 0:5, independent de pa¸ sii anteriori. Folosind Teorema
limit ˘a central ˘a, estima¸ ti probabilitatea ca, dup ˘a100de pa¸ si, acesta nu a ajuns la mai mult
de doi pa¸ si de punctul de plecare.
Solu¸ tie: FieXivariabila aleatoare ce reprezint ˘a pasul pe care cet ˘a¸ teanul îl face la
momentul i(i2N). S˘a atribuim X=1, dac ˘a face un pas la stânga, ¸ si X=1, dac ˘a
face un pas la dreapta. A¸ sadar, Xeste o variabil ˘a aleatoare discret ˘a ce poate lua doar
dou˘a valori,1¸ si1, ambele cu probabilitatea 0:5. Se calculeaz ˘a cu u¸ surin¸ t ˘a,E(X) =0¸ si
D2(X) =1. Suntem interesa¸ ti s ˘a afl˘am ce se întâmpl ˘a dup ˘a100de pa¸ si. Consider ˘am mai
întâi Sn=n
å
i=1Xi. Atunci,
E(Sn) =n
å
i=1E(Xi) =0 ¸ si D2(Sn) =n
å
i=1D2(Xi) =n;
deoarecefXigi=1;nsunt independente.
Pentru n30, Teorema limit ˘a central ˘a spune c ˘aSnN(0;pn). Pentru n=100,S100
N(0;10). Probabilitatea cerut ˘a este:
P(jS100j2) =P(2S1002) = FS100(2)FS100(2) =0:1583 :
( normcdf(2,0,10)-normcdf(-2,0,10) )
Folosind urm ˘atorul cod, putem simula în M ATLAB mi¸ scarea aleatorie (vezi Figura 2.4):
N = input('N = '); % numar de pasi
X = 2*(rand(N,1)<0.5)-1; % simuleaza pasii la fiecare moment
S = cumsum(X); % simuleaza unde a ajuns dupa fiecare pas
plot(1:N, S, '-') % reprezinta miscarea
Z=length(find(S == 0)) % numarul de reintoarceri la barp
Figura 2.4: Mi¸ scare aleatoare (brownian˘ a) 1D.

34Capitolul 2. Generarea în MATLAB a datelor statistice
2.5 Exerci¸ tii propuse
Exerci¸ tiu 2.6 Temperatura T(0C)dintr-un anumit proces chimic are reparti¸ tia U(5;5).
Calcula¸ ti P(T<0);P(2:5<T<2:5);P(2T3).
Exerci¸ tiu 2.7 Temperatura de topire a unui anumit material este o v.a. cu media de 120oC
¸ si devia¸ tia standard de 2oC. Determina¸ ti temperatura medie ¸ si devia¸ tia standard înoF,
¸ stiind c ˘aoF=1:8oC+32.
Exerci¸ tiu 2.8 Dac˘aZN(0;1), calcula¸ ti:
P(Z1:35);P(0Z1);P(1Z);P(jZj>1:5):
Exerci¸ tiu 2.9 Calcula¸ ti cuartilele reparti¸ tiei N(0;1). De asemenea, calcula¸ ti z0:95¸ si
z0:975.
Exerci¸ tiu 2.10 O pereche de zaruri ideale este aruncat ˘a de200de ori. Care este probabili-
tatea s ˘a ob¸ tinem o sum ˘a de 7 în cel pu¸ tin 20% dintre cazuri?
Exerci¸ tiu 2.11 Simula¸ ti în MATLAB variabila aleatoare discret ˘aXce are tabloul de dis-
tribu¸ tie:
X: 2 0 2
1
41
21
4!
:
G˘asi¸ ti ¸ si reprezenta¸ ti grafic func¸ tia de reparti¸ tie FX(x). Calcula¸ ti FX(1
2).
Exerci¸ tiu 2.12 O companie de asigur ˘ari ofer ˘a angaja¸ tilor s ˘ai diverse poli¸ te de asigurare.
Pentru un asigurat ales aleator, not ˘am cu Xnum˘arul de luni scurs între dou ˘a pl˘a¸ ti succesive.
Func¸ tia de reparti¸ tie a lui Xeste:
F(x) =8
>>>>>>>><
>>>>>>>>:0;x<1;
0:3;1x<3;
0:4;3x<4;
0:45;4x<6;
0:65;6x<12;
1;12x:
(a) Determina¸ ti func¸ tia de probabilitate a lui X.
(b) Calcula¸ ti P(3X6)¸ siP(4X).
Exerci¸ tiu 2.13 Pentru evaluarea rezultatelor obtinute la teza de Matematica de catre elevii
unei anumite scoli, se face un sondaj de volum 35printre elevii scolii, iar notele lor sunt
sumarizate in Tabelul 2.2.
note 4 5 6 7 8 9 10
frecventa 3 6 7 8 5 4 2
Tabela 2.2: Medii generale ¸ si frecven¸ te
(i) Sa se scrie si sa se reprezinte grafic functia de repartitie pentru aceasta selectie;
(ii) Notam cu Xvariabila aleatoare care guverneaza populatia. Utilizand selectia de mai
sus, sa se aproximeze probabilitatea P(6X8).

2.5 Exerci¸ tii propuse 35
Exerci¸ tiu 2.14 Datele din tabelul de mai jos reprezint ˘a procentul de ¸ someri dintr-o anumit ˘a
regiune a ¸ t ˘arii, pentru anumite categorii de vârst ˘a.
Vârsta [18;25) [25;35) [35;45) [45;55) [55;65)
Procent 8 12 22 23 35
Folosind MATLAB , genera¸ ti o selec¸ tie aleatoare de volum 275, ¸ tinând cont de reparti¸ tia
datelor.

3. Elemente de Statistic ˘a descriptiv ˘a
. [Statistics is like a bikini; what is revealed
. is interesting, but what is concealed is crucial.]
Statistica descriptiv ˘a este acea ramur ˘a a Statisticii care se preocup ˘a de descrierea datelor
statistice, prin gruparea, reprezentarea grafic ˘a ¸ si calcularea unor m ˘asuri empirice ale formei
sau tendin¸ tei datelor. Este primul pas pe care il face un statistician ce urmareste sa extrag ˘a
informatii dintr-un set de date.
Daca datele statistice sunt negrupate, atunci se prefera o grupare a lor in clase, pentru o
mai buna observare a lor. Dupa gruparea in clase (care este la latitudinea statisticianului),
datele sunt asezate in tabele de frecvente. Aceste tabele pot contine, pe langa clasele
construite, frecvente absolute, frecvente relative, frecvente cumulate, frontierele claselor,
valorile de mijloc. Uneori doar un singur tip de frecvente este suficient pentru a continua
analiza datelor. Un exemplu de tabel de frecvente este Tabelul 5.2.
Exista mai multe optiuni pentru reprezentarea grafica a datelor, in functie de tipul de date
pe care le avem. Spre exemplu, pentru date discrete sunt preferate reprezentarile cu bare
sau cu sectoare de disc. Dupa caz, mai pot fi folosite reprezentari cu puncte sau stem&leaf.
Pentru date continue se folosesc histograme sau sectoare de disc.
3.1 Organizarea ¸ si descrierea datelor
Presupunem c ˘a avem o colectivitate statistic ˘a, c˘areia i se urm ˘are¸ ste o anumit ˘a caracteristic ˘a
(sau variabila). Spre exemplu, colectivitatea este mul¸ timea tuturor studen¸ tilor dintr-o
universitate înrola¸ ti în anul întâi de master, iar caracteristica este media la licen¸ t ˘a ob¸ tinut ˘a
de fiecare dintre ace¸ sti studen¸ ti. Teoretic, mul¸ timea valorilor acestei caracteristici este
intervalul [6;10], iar aceasta variabila poate lua orice valoare din acest interval.

38 Capitolul 3. Elemente de Statistic ˘a descriptiv ˘a
V om numi date (sau date statistice ) informa¸ tiile ob¸ tinute în urma observarii valorilor
acestei caracteristici. In cazul mentionat mai sus, datele sunt mediile la licen¸ t ˘a observate.
În general, datele pot fi calitative (se mai numesc ¸ si categoriale ) sau cantitative , dup ˘a cum
caracteristica (sau variabila) observat ˘a este calitativ ˘a (exprima o calitate sau o categorie)
sau, respectiv, cantitativ ˘a (are o valoare numerica). Totodata, aceste date pot fi date de
tip discret , dac ˘a sunt ob¸ tinute în urma observ ˘arii unei caracteristici discrete (o variabila
aleatoare discret ˘a, sau o variabila ale carei posibile valori sunt in numar finit sau cel
mult numarabil), sau date continue , dac ˘a aceast ˘a caracteristic ˘a este continu ˘a (o variabil ˘a
aleatoare de tip continuu, sau o variabila ce poate lua orice valoare dintr-un interval sau
chiar de pe axa reala). În cazul din exemplul de mai sus, datele vor fi cantitative ¸ si continue.
În Statistic ˘a se obisnuieste a se nota variabilele (caracteristicile) cu litere mari, X;Y;Z; :::,
si valorile lor cu litere mici, x;y;z; :::. In mare parte din acest curs vom folosi notatia Z
pentru variabila aleatoare si cu zo posibila valoare (sau realizare) a sa. Daca in exemplul
de mai sus notam cu Zvariabila medie la licenta , atunci un anume zobservat va fi media
la licenta pentru un student din colectivitate ales aleator.
Primul pas în analiza datelor empirice observate este o analiza descriptiva, ce consta in
ordonarea ¸ si reprezentarea grafica a datelor, dar ¸ si în calcularea anumitor caracteristici
numerice pentru acestea. Datele înainte de prelucrare, adic ˘a exact a¸ sa cum au fost culese,
se numesc date negrupate . Un exemplu de date negrupate (de tip continuu) sunt cele
observate in Tabelul 3.1, reprezentând timpi (în min.sec ) de a¸ steptare pentru primii 100
de clien¸ ti care au a¸ steptat la un ghi¸ seu pân ˘a au fost servi¸ ti.
1.02 2.01 2.08 3.78 2.03 0.92 4.08 2.35 1.30 4.50 4.06 3.55 2.63 1.76
0.13 5.32 3.97 3.36 4.31 3.58 5.64 1.95 0.91 1.26 0.74 3.64 4.77 2.14
2.98 4.33 5.08 4.67 0.79 3.14 0.99 0.78 2.34 4.51 3.53 4.55 1.89 3.28
0.94 3.44 1.35 3.64 2.92 2.67 2.86 2.41 3.19 5.41 5.14 2.75 1.67 3.89
1.12 4.75 2.88 4.30 4.55 5.87 0.70 5.04 5.33 2.40 1.50 0.83 3.74 4.85
3.79 1.48 2.65 1.55 3.95 5.88 1.58 5.49 0.48 2.77 3.20 2.51 5.80 4.12
3.12 0.71 2.76 1.95 0.10 4.22 5.69 5.41 1.68 2.46 1.40 2.16 4.98 0.88
5.36 1.32
Tabela 3.1: Date statistice negrupate
De cele mai multe ori, enumerarea tuturor datelor culese este dificil de realizat, de aceea se
urm˘are¸ ste a se grupa datele, pentru o mai u¸ soar ˘a gestionare. Imagina¸ ti-v ˘a c˘a enumer ˘am
toate voturile unei selec¸ tii întâmpl ˘atoare de 15000 de votan¸ ti, abia ie¸ si¸ ti de la vot. Mai
degrab ˘a, ar fi mai util ¸ si practic s ˘a grup ˘am datele dup ˘a numele candida¸ tilor, precizând
num˘arul de voturi ce l-a primit fiecare. Asadar, pentru o mai buna descriere a datelor, este
necesara gruparea lor in clase de interes.
3.1.1 Gruparea datelor
Datele prezentate sub form ˘a de tabel (sau tablou) de frecven¸ te se numesc date grupate .
Datele de selec¸ tie ob¸ tinute pot fi date discrete sau date continue, dup ˘a cum caracteristicile
studiate sunt variabile aleatoare discrete sau, respectiv, continue.
(1) Date de tip discret: Dac˘a datele de selec¸ tie sunt discrete (e.g., fz1;z2; :::; zng), este
posibil ca multe dintre ele sa se repete. Presupunem ca valorile distincte ale acestor date
sunt z0
1;z0
2; :::; z0
r,rn. Atunci, putem grupa datele într-un a¸ sa-numit tabel de frecven¸ te
(vezi exemplul din Tabelul 6.4). Alternativ, putem organiza datele negrupate într-un tabel

3.1 Organizarea ¸ si descrierea datelor 39
nota frecven¸ ta absolut ˘afrecven¸ ta cumulat ˘afrecven¸ ta relativ ˘afrecven¸ ta relativ ˘a cumulat ˘a
2 2 2 2.22% 2.22%
3 4 6 4.44% 6.66%
4 8 14 8.89% 15.55%
5 15 29 16.67% 32.22%
6 18 47 20.00% 52.22%
7 17 64 18.89% 71.11%
8 15 79 16.67% 87.78%
9 7 86 7.78% 95.56%
10 4 90 4.44% 100%
Total 90 – 100% –
Tabela 3.2: Tabel cu frecven¸ te pentru date discrete.
de frecven¸ te , dup ˘a cum urmeaz ˘a:
data z0
1z0
2::: z0
r
frecventa f1f2::: fr(3.1.1)
unde fieste frecven¸ ta apari¸ tiei valorii z0
i, (i=1;2; :::; r), ¸ si se va numi distribu¸ tia empiric˘ a
de selec¸ tie a lui Z. Aceste frecven¸ te pot fi absolute sau de relative. Un tabel de frecven¸ te
(sau o distribu¸ tie de frecven¸ te ) con¸ tine cel pu¸ tin dou ˘a coloane: o coloan ˘a ce reprezint ˘a
datele observate (grupate în clase) ¸ si o coloan ˘a de frecven¸ te. În prima coloan ˘a apar clasele,
adic˘a toate valorile distincte observate. Datele din aceast ˘a coloan ˘a nu se repet ˘a. Prin
frecven¸ ta absolut˘ a a clasei în¸ telegem num ˘arul de elemente ce apar¸ tine fiec ˘arei clase în
parte. De asemenea, un tabel de frecven¸ te mai poate con¸ tine frecven¸ te relative sau cumulate.
Ofrecven¸ t˘ a relativ˘ a se ob¸ tine prin împ ˘ar¸ tirea frecven¸ tei absolute a unei categorii la suma
tuturor frecven¸ telor din tabel. Astfel, suma tuturor frecven¸ telor relative este egal ˘a cu 1.
Frecven¸ ta (absolut˘ a) cumulat˘ a a unei clase se ob¸ tine prin cumularea tuturor frecven¸ telor
absolute pân ˘a la (inclusiv) clasa respectiv ˘a.Frecven¸ ta relativ˘ a cumulat˘ a a unei clase se
ob¸ tine prin cumularea tuturor frecven¸ telor relative pân ˘a la (inclusiv) clasa respectiv ˘a.
A¸ sadar, elementele unui tabel de frecven¸ te pot fi: clasele (ce con¸ tin valori pentru variabile),
frecven¸ te absolute, frecven¸ te relative sau cumulate. Într-un tabel, nu este obligatoriu s ˘a
apar˘a toate coloanele cu frecven¸ te sau ele s ˘a apar ˘a în aceast ˘a ordine.
V om numi o serie de timpi (sau serie dinamic ˘a ori cronologic ˘a) un set de date culese la
momente diferite de timp. O putem reprezenta sub forma unui tablou de forma
data :z1z2::: zn
t1t2::: tn
;
unde zisunt valorile caracteristicii, iar timomente de timp (e.g., r ˘aspunsurile citite de un
electrocardiograf).
În Tabelul 6.4, sunt prezentate notele studen¸ tilor din anul al III-lea la examenul de
Statistic ˘a. Acesta este exemplu de tabel ce reprezent ˘a o caracteristic ˘a discret ˘a.
(2) Date de tip continuu: Dac˘a datele statistice sunt realiz ˘ari ale unei variabile Zde tip
continuu, atunci se obi¸ snuieste s ˘a se fac ˘a o grupare a datelor de selec¸ tie în clase. Datele

40 Capitolul 3. Elemente de Statistic ˘a descriptiv ˘a
de tip continuu pot fi grupate într-un tablou de distribu¸ tie sau sub forma unui tabel de
distribu¸ tie, dupa cum urmeaza:
data [a0;a1) [a1;a2)::: [ar1;ar)
frecventa f1 f2 ::: frclasa frecven¸ ta valoare medie
[a0;a1) f1 z0
1
[a1;a2) f2 z0
2………
[ar1;ar) fr z0
r
Tabela 3.3: Tabel cu frecven¸ te pentru
date de tip continuu.
În particular, putem grupa datele de tip continuu din Tabelul 3.1 în tabloul de distribu¸ tie
urm˘ator:
data [0;1) [1;2) [2;3) [3;4) [4;5) [5;6)
frecventa 14 17 21 18 16 14
Aceasta grupare nu este unica; intervalele ce reprezinta clasele pot fi modificate dupa cum
doreste utilizatorul. Uneori, tabelul de distribu¸ tie pentru o caracteristic ˘a de tip continuu
mai poate fi scris ¸ si sub forma unui tabel ca in (3.1.1), unde
•z0
i=ai1+ai
2este elementul de mijloc al clasei [ai1;ai);
•fieste frecven¸ ta apari¸ tiei valorilor din [ai1;ai), (i=1;2; :::; r),r
å
i=1fi=n.
Pentru definirea clas elor unui tabel de frecven¸ te, nu exist ˘a o regul ˘a precis ˘a. Fiecare
utilizator de date î¸ si poate crea propriul tabel de frecven¸ te. Scopul final este ca acest
tabel s ˘a scoat ˘a în eviden¸ t ˘a caracteristicele datelor, cum ar fi: existen¸ ta unor grupe (clase)
naturale, variabilitatea datelor într-un anumit grup (clas ˘a), informa¸ tii legate de existen¸ ta
unor anumite date statistice care nu au fost observate in selec¸ tia dat ˘a etc. În general, aceste
caracteristici nu ar putea fi observate privind direct setul de date negrupate. Totu¸ si, pentru
crearea tabelelor de frecven¸ te, se recomand ˘a urm ˘atorii pa¸ si:
1.Determinarea num ˘arului de clase (disjuncte). Este recomandat ca num ˘arul claselor
s˘a fie între 5 ¸ si 20. Dac ˘a volumul datelor este mic (e.g., n<30), se recomand ˘a
constituirea a 5 sau 6 clase. De asemenea, dac ˘a este posibil, ar fi util ca fiecare
clas˘a s˘a fie reprezentat ˘a de cel pu¸ tin 5valori (pentru un num ˘ar mic de clase). Dac ˘a
num˘arul claselor este mai mare, putem avea ¸ si mai pu¸ tine date într-o clas ˘a, dar nu mai
pu¸ tin de 3. O clas ˘a cu prea pu¸ tine valori (0, 1 sau 2) poate s ˘a nu fie reprezentativ ˘a.
2.Determinarea l ˘a¸ timii claselor. Dac ˘a este posibil, ar fi bine dac ˘a toate clasele ar avea
aceea¸ si l ˘a¸ time. Acest pas depinde, în mare m ˘asur˘a, de alegerea din pasul anterior.
3.Determinarea frontierelor claselor. Frontierele claselor sunt construite astfel încât
fiecare dat ˘a statistic ˘a s˘a apar¸ tine unei singure clase.
În practic ˘a, un tabel de frecven¸ te se realizeaz ˘a prin încerc ˘ari, pân ˘a avem convingerea c ˘a
gruparea f ˘acut˘a poate surprinde cât mai fidel datele observate.
A¸ sadar, dac ˘a ne este dat ˘a o în¸ siruire de date ale unei caracteristici discrete sau continue,
atunci le putem grupa imediat în tabele sau tablouri de frecven¸ te. Invers (avem tabelul
sau tabloul de reparti¸ tie ¸ si vrem s ˘a enumer ˘am datele) nu este posibil, decât doar în cazul
unei caracteristici de tip discret. De exemplu, dac ˘a ni se d ˘a Tabelul 5.2, ce reprezint ˘a rata

3.2 Reprezentarea datelor statistice 41
somajului într-o anumit ˘a regiune a ¸ t ˘arii pe categorii de vârste, nu am putea ¸ sti cu exactitate
vârsta exact ˘a a persoanelor care au fost selec¸ tionate pentru studiu.
vârsta frecven¸ ta frecven¸ ta relativ ˘afrecven¸ ta cumulat ˘avârsta medie
[18;25) 34 8.83% 8.83% 21.5
[25;35) 76 19.74% 28.57% 30
[35;45) 124 32.21% 60.78% 40
[45;55) 87 22.60% 83.38% 50
[55;65) 64 16.62% 100.00% 60
Total 385 100% – –
Tabela 3.4: Tabel cu frecven¸ te pentru rata somajului.
Observ ˘am c ˘a acest tabel are 5clase: [18;25);[25;35);[35;45);[45;55);[55;65). V om
numi valoare de mijloc pentru o clas ˘a, valoarea ob¸ tinut ˘a prin media valorilor extreme ale
clasei. În cazul Tabelului 5.2, valorile de mijloc sunt scrise în coloana cu vârsta medie.
Frecven¸ ta cumulat˘ a a unei clase este suma frecven¸ telor tuturor claselor cu valori mai mici.
3.2 Reprezentarea datelor statistice
Un tabel de frecven¸ te sau o distribu¸ tie de frecven¸ te (absolute sau relative) sunt de cele mai
multe ori baza unor reprezent ˘ari grafice, pentru o mai bun ˘a vizualizare a datelor. Aceste
reprezent ˘ari pot fi f ˘acute în diferite moduri, dintre care amintim pe cele mai uzuale.
3.2.1 Reprezentare prin puncte
Reprezentarea prin puncte ( en.,dot plot) este
folosit ˘a, de regula, pentru selec¸ tii de date de tip
discret de dimensiuni mici. Sunt reprezentate
puncte a¸ sezate unul peste celalalt, reprezentând
num˘arul de apari¸ tii ale unei valori pentru
caracteristica dat ˘a. Un astfel de grafic este
reprezentat în Figura 3.1. Aceste reprezent ˘ari
sunt utile atunci când se dore¸ ste scoaterea
în eviden¸ t ˘a a anumitor pâlcuri de date ( en.,
clusters) sau chiar lipsa unor date (goluri). Au
avantajul de a conserva valoarea numeric ˘a a
datelor reprezentate.
Figura 3.1: Reprezentarea cu puncte.
3.2.2 Reprezentarea stem-and-leaf
Este folosita, de asemenea, pentru date de tip discret, de selectii de volum relativ mic.
Urm ˘atorul set de date negrupate reprezinta punctajele (din 100de puncte) ob¸ tinute de cei
20 de elevi ai unui an de studiu la o testare semestrial ˘a:
50 34 55 41 59 61 62 64 68 18 68 73 75 77
44 77 62 77 53 79 81 48 85 96 88 92 39 96

42 Capitolul 3. Elemente de Statistic ˘a descriptiv ˘a
Tabelul 3.3 reprezint ˘a aceste date sub forma stem-and-leaf (ramur ˘a-frunz ˘a). Se observ ˘a
c˘a acest tabel arat ˘a atât cum sunt repartizate datele, cât ¸ si forma reparti¸ tiei lor (a se privi
graficul c ˘a având pe OYdrept axa absciselor ¸ si OXpe cea a ordonatelor). A¸ sadar, 7j5
semnific ˘a un punctaj de 75. Pentru un volum prea mare de date, aceast ˘a reprezentare nu
este cea mai bun ˘a metod ˘a de vizualizare a datelor. În sec¸ tiunile urm ˘atoare vom prezenta ¸ si
alte metode utile.
Figura 3.2: Reprezentarea datelor discrete.stem leaf
10
9 2 6
8 1 5 6 8
7 3 5 7 7 7 9
6 1 2 2 4 8 8
5 0 3 5 9
4 1 4 8
3 4 9
2
1 8
0
Figura 3.3: Tabel stem-and-leaf
reprezentând punctajele studen¸ tilor.
3.2.3 Reprezentarea cu bare (bar charts)
Este util ˘a pentru reprezentarea variabilelor discrete cu un num ˘ar mic de valori diferite.
Barele sunt dreptunghiuri ce reprezint ˘a frecven¸ tele ¸ si nu sunt unite între ele. Fiecare
dreptunghi reprezint ˘a o singur ˘a valoare. Într-o reprezentare cu bare, categoriile sunt plasate,
de regul ˘a, pe orizontal ˘a iar frecven¸ tele pe vertical ˘a. În Figura 3.4 1sunt reprezentate datele
din tabelul cu note. Se poate schimba orientarea categoriilor ¸ si a claselor; în acest caz
barele vor ap ˘area pe orizontal ˘a (vezi Figura 3.4 2).
Figura 3.4: Reprezent˘ ari cu bare verticale sau orizontale.

3.2 Reprezentarea datelor statistice 43
Figura 3.5 contine o reprezentare de date folosind bare 3D.
Figura 3.5: Reprezentare 3D prin bare.
3.2.4 Histograme
Cuvântul "histogram ˘a" a fost introdus pentru prima oar ˘a de Karl Pearson1în1895 . Acesta
deriv ˘a din cuvintele grece¸ sti histos (gr., ridicat în sus) ¸ si gramma (gr., desen, înregistrare).
Ohistogram˘ a este o form ˘a pictorial ˘a a unui tabel de frecven¸ te, foarte util ˘a pentru selec¸ tii
mari de date de tip continuu. Se aseam ˘an˘a cu reprezentarea prin bare, cu urm ˘atoarele dou ˘a
diferen¸ te: nu exist ˘a spa¸ tii între bare (de¸ si, pot ap ˘area bare de înal¸ time zero ce arat ˘a a fi
spa¸ tiu liber) ¸ si ariile barelor sunt propor¸ tionale cu frecven¸ tele corespunz ˘atoare. Num ˘arul
de dreptunghiuri este egal cu num ˘arul de clase, l ˘a¸ timea dreptunghiului este intervalul
clasei, iar în ˘al¸ timea este a¸ sa încât aria fiec ˘arui dreptunghi reprezint ˘a frecven¸ ta. Aria total ˘a
a tuturor dreptunghiurilor este egal ˘a cu num ˘arul total de observa¸ tii. Dac ˘a barele unei
histograme au toate aceea¸ si l ˘a¸ time, atunci în ˘al¸ timile lor sunt propor¸ tionale cu frecven¸ tele.
În˘al¸ timile barelor unei histogramei se mai numesc ¸ si densit˘ a¸ ti de frecven¸ t˘ a . În cazul în
care l ˘a¸ timile barelor nu sunt toate egale, atunci în ˘al¸ timile lor satisfac:
în˘al¸ timea =kfrecven¸ ta
l˘a¸ timea clasei; k=factor de propor¸ tionalitate :
1Karl Pearson (1857 1936), statistician, avocat ¸ si eugenist britanic

44 Capitolul 3. Elemente de Statistic ˘a descriptiv ˘a
În˘al¸ timea (în cm) frecven¸ ta
[0;5) 5
[5;10) 13
[10;15) 23
[15;20) 17
[20;25) 10
[25;30) 2
Tabela 3.5: Tabel cu în˘ al¸ timile plantelor
Tabela 3.6: Histograme pentru datele din Tabelul 3.5
S˘a presupunem c ˘a am fi grupat datele din Tabelul 3.5 într-o alt ˘a manier ˘a, în care clasele nu
sunt echidistante (vezi Tabelul 3.7). În Tabelul 3.7, datele din ultimele dou ˘a clase au fost
cumulate într-o singur ˘a clas ˘a, de l ˘a¸ time mai mare decât celelalte, deoarece ultima clas ˘a din
Tabelul 3.5 nu avea suficiente date. Histograma ce reprezint ˘a datele din Tabelul 3.7 este
cea din Figura 3.8. Conform cu regula propor¸ tionalit ˘a¸ tii ariilor cu frecven¸ tele, se poate
observa c ˘a primele patru bare au în ˘al¸ timi egale cu frecven¸ tele corespunz ˘atoare, pe când
în˘al¸ timea ultimei bare este jum ˘atate din valoarea frecven¸ tei corespunz ˘atoare, deoarece
l˘a¸ timea acesteia este dublul l ˘a¸ timii celorlalte.
În general, pentru a construi o histogram ˘a, vom
avea în vedere urm ˘atoarele:
datele vor fi împ ˘ar¸ tite (unde este posibil) în
clase de lungimi egale. Uneori aceste diviz ˘ari
sunt naturale, alteori va trebui s ˘a le fabric ˘am.
num˘arul de clase este, în general, între 5¸ si
20.
înregistra¸ ti num ˘arul de date ce cad în fiecare
clas˘a (numite frecven¸ te ).
figura ce con¸ tine histograma va avea clasele
pe orizontal ˘a ¸ si frecven¸ tele pe vertical ˘a.
Figura 3.6: Histogram˘ a 3D
În˘al¸ timea (în cm) frecven¸ ta
[0;5) 5
[5;10) 13
[10;15) 23
[15;20) 17
[20;30) 12
Tabela 3.7: Tabel cu în˘ al¸ timile plantelor
Tabela 3.8: Histograme pentru datele din Tabelul 3.7

3.2 Reprezentarea datelor statistice 45
în˘al¸ timea (în cm) frontierele l˘a¸ timea frecven¸ ta densitatea de frecven¸ t ˘a
[18;25) 17:525:5 8 34 4:25
[25;35) 24:535:5 11 76 6:91
[35;45) 34:545:5 11 124 11:27
[45;55) 44:555:5 11 87 7:91
[55;65) 54:565:5 11 64 5:82
Tabela 3.9: Tabel cu frontierele claselor.
Observa¸ tia 3.1 (1) Dac ˘a lungimea unei clase este infinit ˘a (e.g., ultima clas ˘a din Tabelul
3.7 este [20;¥)), atunci se obi¸ snuie¸ ste ca l ˘a¸ timea ultimului interval s ˘a fie luat ˘a drept dublul
l˘a¸ timii intervalului precedent.
(2) În multe situa¸ tii, capetele intervalelor claselor sunt ni¸ ste aproxim ˘ari, iar în locul
acestora vom putea utiliza alte valori. Spre exemplu, s ˘a consider ˘am clasa [15;20). Aceast ˘a
clas˘a reprezint ˘a clasa acelor plante ce au în ˘al¸ timea cuprins ˘a între 15cm ¸ si 20cm. Deoarece
valorile în ˘al¸ timilor sunt valori reale, valorile 15¸ si20sunt, de fapt, aproxim ˘arile acestor
valori la cel mai apropiat întreg. A¸ sadar, este posibil ca aceast ˘a clas ˘a s˘a con¸ tin ˘a acele plante
ce au în ˘al¸ timile situate între 14:5cm (inclusiv) ¸ si 20:5cm (exclusiv). Am putea face referire
la aceste valori ca fiind valorile reale ale clasei, numite frontierele clasei . În cazul în care
am determinat frontierele clasei, l ˘a¸ timea unei clase se define¸ ste ca fiind diferen¸ ta între
frontierele ce-i corespund. În concluzie, în cazul clasei [15;20), aceasta are frontierele
14:5-20:5, l˘a¸ timea 6¸ si frecven¸ ta17
6. Pentru exemplificare, în Tabelul 3.9 am prezentat
frontierele claselor, l ˘a¸ timile lor ¸ si densit ˘a¸ tile de frecven¸ t ˘a pentru datele din Tabelul 5.2.
3.2.5 Reprezentare prin sectoare de disc (pie charts)
Se poate reprezenta distribu¸ tia unei caracteristici ¸ si folosind sectoare de disc (diagrame
circulare) ( en., pie charts ), fiecare sector de disc reprezentând câte o frecven¸ t ˘a relativ ˘a.
Aceast ˘a variant ˘a este util ˘a în special la reprezentarea datelor calitative. Exist ˘a ¸ si
posibilitatea de a reprezenta datele prin sectoare 3 dimensionale. În Figura 3.8 am
reprezentat datele din Tabelul 5.2.
Figura 3.7: Reprezentarea pe disc a
frecven¸ telor relative ale notelor din tabelul
cu note
Figura 3.8: Reprezentare pe disc 3D

46 Capitolul 3. Elemente de Statistic ˘a descriptiv ˘a
3.2.6 Ogive
Pentru frecventele cumulate pot fi folosite
ogive . O ogiv˘ a reprezint ˘a graficul unei
frecven¸ te cumulate (absolut ˘a sau relativ ˘a).
X = [2 4 8 15 18 17 15 7 4];
plot(2:10, cumsum(X), '*-')
Figura 3.9: Ogiva pentru frecven¸ tele absolute
cumulate din Tabelul 6.4
3.2.7 Diagrama Q-Q sau diagrama P-P
Q-Q plot (diagrama cuantila-cuantila) si P-P plot (diagrama probabilitate-probabilitate)
sunt utilizate in a determina apropierea dintre doua seturi de date (repartitii). Daca datele
provin dintr-o acceasi repartitie, atunci ele se aliniaza dupa o dreapta desenata in figura.
Diagrama Q-Q este bazata pe rangurile valorilor, iar diagrama P-P este bazata pe functiile
de repartitie empirice.
Figura 3.10: Exemplu de diagrama Q-Q plot
S˘a consider ˘am o popula¸ tie statistic ˘a de volum N¸ si o caracteristic ˘a a sa, X, ce are func¸ tia
de reparti¸ tie F. Asupra acestei caracteristici facem nobserva¸ tii, în urma c ˘arora culegem
un set de date statistice. Dup ˘a cum am v ˘azut anterior, datele statistice pot fi prezentate
într-o form ˘a grupat ˘a (descrise prin tabele de frecven¸ te) sau pot fi negrupate, exact a¸ sa
cum au fost culese în urma observ ˘arilor. Pentru analiza acestora, pot fi utilizate diverse
tehnici de organizare ¸ si reprezentare grafic ˘a a datelor statistice îns ˘a, de cele mai multe
ori, aceste metode nu sunt suficiente pentru o analiz ˘a detaliat ˘a. Suntem interesa¸ ti în a
atribui acestor date anumite valori numerice reprezentative. Pot fi definite mai multe tipuri

3.3 M ˘asuri descriptive ale datelor negrupate 47
de astfel de valori numerice, e.g., m ˘asuri ale tendin¸ tei centrale (media, modul, mediana),
m˘asuri ale dispersiei (dispersia, devia¸ tia standard), m ˘asuri de pozi¸ tie (cuantile, distan¸ ta
intercuantilic ˘a) etc. În acest capitol, vom introduce diverse m ˘asuri descriptive numerice,
atât pentru datele grupate, cât ¸ si pentru cele negrupate.
3.3 M ˘asuri descriptive ale datelor negrupate
Consider ˘am un set de date statistice negrupate, x1;x2; :::; xn(xi2R;i=1;2:::;n;n
N), ce corespund unor observa¸ tii f ˘acute asupra variabilei X. Pe baza acestor observatii,
definim urm ˘atoarele m ˘asuri descriptive ale datelor, in scopul de a estima parametrii reali
ai caracteristicilor populatiei. Deoarece ele se bazeaza doar pe observatiile culese, aceste
masuri se mai numesc si masuri empirice .
•Valoarea medie
Este o m ˘asur˘a a tendin¸ tei centrale a datelor. Pentru o selec¸ tie fx1;x2; :::; xng,
definim:
¯x=1
nn
å
i=1xi;
ca fiind media datelor observate. Aceasta medie empirica este un estimator pentru
media teoretica, m=EX, daca aceasta exista.
•Pentru fiecare i, cantitatea di=xixse nume¸ ste devia¸ tia valorii xide la medie .
Aceasta nu poate fi definit ˘a ca o m ˘asur˘a a gradului de împr ˘a¸ stiere a datelor, deoarece
n
å
i=1(xix) =0:
•Momentele
Pentru k2N,momentele de ordin k se definesc astfel:
ak=1
nn
å
i=1xk
i:
Pentru fiecare k2N,momentele centrate de ordin k se definesc astfel:
mk=1
nn
å
i=1(xix)k:
•Dispersia
Aceasta este o m ˘asur˘a a gradului de împr ˘a¸ stiere a datelor în jurul valorii medii.
Pentru o selec¸ tiefx1;x2; :::; xng, definim dispersia astfel:
s2=m2=1
n1n
å
i=1(xi¯x)2
=1
n1[n
å
i=1×2
in(¯x)2]!
:
•Devia¸ tia standard
Este tot o m ˘asur˘a a împr ˘a¸ stierii datelor în jurul valorii medii. Pentru o selec¸ tie
fx1;x2; :::; xng, definim devia¸ tia standard:
s=s
1
n1n
å
i=1(xi¯x)2:

48 Capitolul 3. Elemente de Statistic ˘a descriptiv ˘a
•Coeficientul de varia¸ tie (sau de dispersie)
Acest coeficient (de obicei, exprimat în procente) este util atunci când compar ˘am
dou˘a reparti¸ tii având unit ˘a¸ ti de m ˘asur˘a diferite. Nu este folosit atunci când xsaum
este foarte mic. Pentru doua populatii care au aceeasi deviatie standard, gradul de
variatie a datelor este mai mare pentru populatie ce are media mai mica.
CV=s
x; coeficient de varia¸ tie ;
•Amplitudinea (plaja de valori, range)
Pentru un set de date, amplitudinea (en.,range) este definit ˘a ca fiind diferen¸ ta dintre
valoarea cea mai mare ¸ si valoarea cea mai mic ˘a a datelor, i.e., xmaxxmin.
•Scorul z
Este num ˘arul devia¸ tiilor standard pe care o anumit ˘a observa¸ tie, x, le are sub sau
deasupra mediei. Pentru o selec¸ tie fx1;x2; :::; xng,scorul X este definit astfel:
x=x¯x
s:
•Corela¸ tia (covarian¸ ta)
Dac˘a avem nperechi de observa¸ tii, (x1;y1);(x2;y2); :::;(xn;yn), definim corela¸ tia
(covarian¸ ta):
cov sel=1
n1n
å
i=1(xi¯x)(yi¯y): (3.3.2)
•Coeficientul de corela¸ tie
rsel=cov sel
sxsy; coeficient de corela¸ tie ;
•Func¸ tia de reparti¸ tie empiric˘ a
Se nume¸ ste func¸ tie de reparti¸ tie empiric˘ a asociat ˘a unei variabile aleatoare X¸ si unei
selec¸ tiifx1;x2; :::; xng, func¸ tia F
n:R![0;1], definit ˘a prin
F
n(x) =cardfi;xixg
n: (3.3.3)
Propozi¸ tia de mai jos arat ˘a c˘a func¸ tia de reparti¸ tie empiric ˘a aproximeaz ˘a func¸ tia de
reparti¸ tie teoretic ˘a (vezi Figura 3.11).
Propozi¸ tie 3.3.1 FieWo colectivitate statistic ˘a ¸ siXo caracteristic ˘a a sa, ce se
dore¸ ste a fi studiat ˘a. Notez cu F(x)func¸ tia de reparti¸ tie (teoretica) a lui X. Pentru o
selec¸ tie de valori ale lui X,fx1;x2; :::; xng, construim func¸ tia de reparti¸ tie empiric ˘a,
F
n(x). Atunci:
F
n(x)prob!F(x);când n!¥;8x2R:

3.3 M ˘asuri descriptive ale datelor negrupate 49
Figura 3.11: Func¸ tia de reparti¸ tie empiric˘ a ¸ si func¸ tia de reparti¸ tie teoretic˘ a pentru distribu¸ tia
normal˘ a
•Coeficientul de asimetrie (en., skewness ) este al treilea moment standardizat, care se
define¸ ste prin
g1=m3
m3=2
2=m3
s3=1
nn
å
i=1(xix)3
"
1
n1n
å
i=1(xix)2#3=2:
O reparti¸ tie este simetric ˘a dac ˘ag1=0. V om spune c ˘a asimetria este pozitiv ˘a (sau la
dreapta) dac ˘ag1>0 ¸ si negativ ˘a (sau la stânga) dac ˘ag1<0.
•Excesul (coeficientul de aplatizare sau boltire) (en., kurtosis ) se define¸ ste prin
K=m4
m2
23=m4
s43=1
nn
å
i=1(xix)4

1
nn
å
i=1(xix)2!23:
Este o m ˘asur˘a a boltirii distribu¸ tiei (al patrulea moment standardizat). Termenul (3)
apare pentru c ˘a indicele kurtosis al distribu¸ tiei normale s ˘a fie egal cu 0. V om avea
o reparti¸ tie mezocurtic˘ a pentru K=0,leptocurtic˘ a pentru K>0sauplatocurtic˘ a
pentru K<0. Un indice K>0semnific ˘a faptul c ˘a, în vecin ˘atatea modului, curba
densit ˘a¸ tii de reparti¸ tie are o boltire (ascu¸ tire) mai mare decât clopotul lui Gauss.
Pentru K<0, în acea vecin ˘atate curba densit ˘a¸ tii de reparti¸ tie este mai plat ˘a decât
curba lui Gauss.
•Cuantile
Cuantilele (de ordin q)sunt valori ale unei variabile aleatoare care separ ˘a reparti¸ tia
ordonat ˘a înqp˘ar¸ ti egale.
Pentru q=2, cuantila xqse nume¸ ste median˘ a , notat ˘a prin x0:5sauMe.
Presupunem c ˘a observa¸ tiile sunt ordonate, x1<x2<<xn. Pentru aceast ˘a ordine,

50 Capitolul 3. Elemente de Statistic ˘a descriptiv ˘a
definim valoarea median ˘a:
x0:5=(
x(n+1)=2 , dac ˘an=impar;
(xn=2+xn=2+1)=2 , dac ˘an=par;
Pentru q=4, cuantilele se numesc cuartile (sunt în num ˘ar de 3). Prima cuartil ˘a,
notat ˘ax0:25sauQ1, se nume¸ ste cuartila inferioar˘ a , a doua cuartil ˘a este mediana,
iar ultima cuartil ˘a, notat ˘ax0:75sauQ3, se nume¸ ste cuartila superioar˘ a . Diferen¸ ta
Q3Q1se nume¸ ste distan¸ ta intercuartilic˘ a .
Pentru q=10se numesc decile (sunt în num ˘ar de 9), pentru q=100se numesc
percentile (sunt în num ˘ar de 99), pentru q=1000 se numesc permile (sunt în num ˘ar
de999). Sunt m ˘asuri de pozi¸ tie, ce m ˘asoar ˘a loca¸ tia unei anumite observa¸ tii fa¸ t ˘a de
restul datelor.
•Modul
Modul (sau valoarea modal˘ a ) este acea valoare xdin setul de date care apare cel
mai des. Un set de date poate avea mai multe module. Dac ˘a apar dou ˘a astfel de
valori, atunci vom spune c ˘a setul de date este bimodal , pentru trei astfel de valori
avem un set de date trimodal etc. În cazul în care toate valorile au aceea¸ si frecven¸ t ˘a
de apari¸ tie, atunci spunem c ˘a nu exist ˘a mod. De exemplu, setul de date
1 3 5 6 3 2 1 4 4 6 2 5
nu admite valoare modal ˘a. Nu exist ˘a un simbol care s ˘a noteze distinctiv modul unui
set de date.
•Valori aberante (en. outliers)
Valorile aberante sunt valori statistice observate care sunt îndep ˘artate de marea ma-
joritate a celorlalte observa¸ tii. Ele pot ap ˘area din cauza unor m ˘asur˘atori defectuoase
sau în urma unor erori de m ˘asurare. De cele mai multe ori, ele vor fi excluse din
analiza statistic ˘a. Din punct de vedere matematic, valorile aberante sunt valorile ce
nu apar¸ tin intervalului urm ˘ator.
[Q11:5(Q3Q1);Q3+1:5(Q3Q1)]
•Sinteza prin cele cinci valori statistice (five number summary)
Reprezint ˘a cinci m ˘asuri statistice empirice caracteristice unui set de date statistice.
Acestea sunt (în ordine cresc ˘atoare): cea mai mic ˘a valoare observat ˘a (min
ifxig),
prima cuartil ˘a (Q1), mediana ( Me), a treia cuartil ˘a (Q3) ¸ si cea mai mare valoare
observat ˘a(max
ifxig). Aceste cinci numere pot fi reprezentate grafic într-o diagram ˘a
numit ˘abox-and-whisker plot .
În figurile de mai jos sunt desenate astfel de diagrame. Datele din Tabelul 5.2 sunt
reprezentate în prima figur ˘a de mai jos prin dou ˘a diagrame box-and-whiskers. În
prima diagram ˘a (numerotat ˘a cu 1) am generat uniform datele din tabel, p ˘astrând
clasele; în a doua diagram ˘a am folosit reprezentarea datelor din acela¸ si tabel prin
centrele claselor. Reprezent ˘arile sunt cele clasice, cu dreptunghiuri. Valorile aberante
sunt reprezentate prin puncte în diagrama box-and-whisker plot .

3.4 M ˘asuri descriptive ale datelor grupate 51
vârsta f. abs. f. rel. f. cum. mijlocul clasei
[18;25) 34 8.83% 8.83% 21.5
[25;35) 76 19.74% 28.57% 30
[35;45) 124 32.21% 60.78% 40
[45;55) 87 22.60% 83.38% 50
[55;65) 64 16.62% 100.00% 60
Total 385 100% – –
Tabela 3.10: Tabel cu frecven¸ te.
Figura 3.12: Box-an-whisker plot pentru datele din Tabelul 5.2
În Figura 3.13, am reprezentat cu box-and-
whisker un set de date discrete ce con¸ tine
dou˘a valori aberante. Aici dreptunghiul a
fost crestat ( notched box-and whisker plot );
lungimea crest ˘aturii oferind un interval de
încredere pentru median ˘a. Valorile aberante
sunt reprezentate in figura prin puncte in
afata range-ului datelor.
Figura 3.13: Box-an-whisker plot pentru
un set de date discrete
. Q: What did the box-an-whisker plot say to the outlier?
. A:"Don’t you dare get close to my whisker!!"
3.4 M ˘asuri descriptive ale datelor grupate
Consider ˘am un set de date statistice grupate (de volum n), ce reprezinta observa¸ tii asupra
variabilei X. Pentru o selec¸ tie cu valorile de mijloc fx1;x2; :::; xrg¸ si frecven¸ tele absolute
corespunz ˘atoare,ff1,f2,:::,frg, cur
å
i=1fi=n, definim:

52 Capitolul 3. Elemente de Statistic ˘a descriptiv ˘a
¯xf=1
nr
å
i=1xifi;media (empiric ˘a) de selec¸ tie, (sau, media ponderat ˘a)
s2=1
n1r
å
i=1fi(xi¯xf)2=1
n1
r
å
i=1×2
ifin¯x2
f!
;dispersia (varian¸ ta) empiric ˘a,
s=p
s2;devia¸ tia empiric ˘a standard.
Formule similare se pot da ¸ si pentru m ˘asurile descriptive ale întregii popula¸ tii.
Mediana pentru un set de date grupate este acea valoare ce separ ˘a toate datele în dou ˘a
p˘ar¸ ti egale. Se determin ˘a mai întâi clasa ce con¸ tine mediana (numit ˘aclas˘ a median˘ a ), apoi
presupunem c ˘a în interiorul fiec ˘arei clase datele sunt uniform distribuite. O formul ˘a dup ˘a
care se calculeaz ˘a mediana este:
Me=l+n
2FMe
fMec;
unde: leste limita inferioar ˘a a clasei mediane, neste volumul selec¸ tiei, FMeeste suma
frecven¸ telor pân ˘a la (exclusiv) clasa median ˘a,fMeeste frecven¸ ta clasei mediane ¸ si ceste
l˘a¸ timea clasei.
Similar, formulele pentru cuartile sunt:
Q1=l1+n
4FQ1
fQ1c¸ siQ3=l3+3n
4FQ3
fQ3;
unde l1sil3sunt valorile inferioare ale intervalelor in care se gasesc cuartilele respective,
iarFQeste suma frecven¸ telor pân ˘a la (exclusiv) clasa ce contine cuartila, fQeste frecven¸ ta
clasei unde se gaseste cuartila.
Pentru a afla modul unui set de date grupate, determin ˘am mai întâi clasa ce con¸ tine aceast ˘a
valoare (clas ˘a modal ˘a), iar modul va fi calculat dup ˘a formula:
Mod=l+d1
d1+d2c;
unde d1¸ sid2sunt frecven¸ ta clasei modale minus frecven¸ ta clasei anterioare ¸ si, respectiv,
frecven¸ ta clasei modale minus frecven¸ ta clasei posterioare, leste limita inferioar ˘a a clasei
modale ¸ si ceste l ˘a¸ timea clasei modale.
3.5 Transform ˘ari de date
Uneori valorile masurate nu sunt normale si este necesara o transformare a lor pentru a
obtine valori apropiate de normalitate. Transformarile uzuale sunt: logaritmarea valorilor
observate (folosind functiile lnsaulog10, daca valorile sunt toate pozitive), radacina patrata
a valorilor, transformarea logit, radacini de ordin superior etc. In Tabelul 3.11 am sugerat
tipul de transformare ce poate fi utilizat in functie de coeficientul de skewness g1.

3.5 Transform ˘ari de date 53
În ce condi¸ tii ::: skewness formula
date aproape simetrice 0:5<g1<0:5 nicio transformare
skewness moderat pozitiv, date nenegative 0 :5g1<1 yi=pxi
skewness moderat pozitiv, exista date <0 0 :5g1<1 yi=pxi+C
skewness moderat negativ 1<g10:5 yi=pCxi
skewness mare negativ g11 yi=ln(Cxi)
skewness mare pozitiv, date pozitive g11 yi=lnxi
skewness mare pozitiv, exista date 0 g11 yi=ln(xi+C)
Tabela 3.11: Exemple de transformari de date statistice
Aici, C>0este o constanta ce poate fi determinata astfel incat datele transformate sa aiba
un skewness cat mai aproape de 0. Aceasta constanta va fi aleasa astfel incat functia ce
face transformarea este definita. În loc de func¸ tia lnse poate folosi ¸ si logaritmul în alt ˘a
baz˘a, e.g., func¸ tia log10.
De exemplu, presupunem ca datele observate sunt x1;x2; :::; xnsi acestea nu sunt toate
pozitive, cu un coeficient de asimetrie (skewness) g1=1:3495 . Ne uitam la valoarea
minima a datelor; aceasta este xmin=0:8464 . Pentru a obtine un set de valori pozitive,
vom adauga valoarea 1la toate datele observate. Apoi, logaritmam valorile obtinute.
Cele doua procedee cumulate sunt echivalente cu folosirea directa a formulei ln(1+xi)
(adunand valoarea 1, am facut toate argumentele logaritmului pozitive). Obtinem astfel
un nou set de date, si anume y1;y2; :::; yn, unde yi=ln(1+xi). Un exemplu este cel din
Figura 3.14. Se observa ca datele logaritmate sunt aproape normale. O analiza statistica
poate fi condusa pentru datele yi, urmand ca, eventual, la final sa aplicam transformarea
inversa xi=eyi1 pentru a transforma rezultatele pentru datele initiale.
Figura 3.14: Datele intiale si datele logaritmate
Dupa transformarea datelor si analiza datelor transformate (de exemplu, prezicerea valorilor
in punctele neselectate), de multe ori este necesara transformarea inversa a datelor, pentru
a determina proprietatile datelor originale. De aceea, ar fi potrivit de a exprima indicatorii
statistici atat pentru datele transformate, cat si pentru datele originale. Un exemplu este cel
din Tabelul 3.12.

54 Capitolul 3. Elemente de Statistic ˘a descriptiv ˘a
Indicatorul datele originale datele tranformate
xi yi=ln(1+xi)
Minimum 0:84641:8734
Maximum 14 :1107 2 :7154
Media 6 :02142 1 :51
Cuartila Q1 3:1152 0 :6532
Mediana 6 :5200 1 :2512
Cuartila Q3 8:7548 1 :5785
Deviatia standard 5 :2511 0 :7524
Dispersia 27 :5741 0 :5661
Skewness 6 :2322 0 :0233
Kurtosis 78 :6077 2 :9786
Numarul de observatii 100 100
c2pentru testul de normalitate (cu 7 grade de libertate) 7:1445
Tabela 3.12: Exemplu de indicatori pentru datele originale si pentru datele transformate
3.5.1 Func¸ tii MATLAB specifice pentru m ˘asurile descriptive.
mean(x) % media valorilor elementelor lui x;
geomean(x) % media geometric ˘a a elementelor lui x;
harmmean(x) % media armonic ˘a a elementelor lui x;
quantile(x,alpha) % cuantila de ordin aa vectorului x;
iqr(x) % distan¸ ta intercuantilic ˘a,x0:75x0:25;
median(x) % valoarea median ˘a a lui x;
std(x), var(x) % devia¸ tia standard ¸ si dispersia valorilor lui x;
range(x) % amplitudinea (range) vectorului x;
mode(x) % modul lui x;
zscore(x) % realizeaz ˘a scorul elementelor lui x;
moment(x,k) % momentul de ordin kal lui x;
sort(x) % sorteaza crescator elementele vectorului x;
max(x), min(x) % maximum ¸ si minimum pentru elementele lui x;
skewness(x) % skewness pentru elementele lui x;
kurtosis(x) % kurtosis pentru elementele lui x;
prctile(x,p) % percentilele de ordin pale lui x;
cdfplot(x) % reprezint ˘a grafic func¸ tia de reparti¸ tie empiric ˘a a lui x;
cov(x,y) % covarian¸ ta dintre x¸ siy;
corrcoef(x,y) % coeficientul de corela¸ tie dintre x¸ siy;
LEGEstat(<param>) % afi¸ seaz ˘a media ¸ si dispersia pentru LEGE( <param> );
Tabela 3.13: Func¸ tii MATLAB specifice pentru m˘ asuri descriptive.
3.6 Exerci¸ tii rezolvate
Exerci¸ tiu 3.1 Urm ˘atorul set de date reprezint ˘a pre¸ turile (în mii de euro) a 20de case,
vândute într-o anumit ˘a regiune a unui ora¸ s:
113 60.5 340.5 130 79 475.5 90 100 175.5 100

3.6 Exerci¸ tii rezolvate 55
111.5 525 50 122.5 125.5 75 150 89 100 70
(a) Determina¸ ti amplitudinea, media, mediana, modul, deviatia standard, cuartilele ¸ si
distan¸ ta intercuartilic ˘a pentru aceste date. Care valoare este cea mai reprezentativ ˘a?
(b) Desena¸ ti diagrama box-and-whiskers ¸ si comenta¸ ti-o. Exista valori aberante?
(c) Calcula¸ ti coeficientii de asimetrie si de aplatizare.
Solu¸ tie: Rearanj ˘am datele în ordine cresc ˘atoare:
50 60.5 70 75 79 89 90 100 100 100 111.5
113.5 122.5 125.5 130 150 175.5 340.5 475.5 525
Amplitudinea este 52550=475,
media lor este 154:15, mediana este
100+111:5
2=105:75, modul este 100, cuartila
inferioar ˘a este Q1=79+89
2=84,Q2=Me,
cuartila superioar ˘a este Q3=130+150
2=140
¸ si distan¸ ta intercuartilic ˘a este d=Q3Q1=56.
Mediana este valoarea cea mai reprezentativ ˘a în
acest caz, deoarece cele mai mari trei pre¸ turi,
anume 340:5,475:5,525, m˘aresc media ¸ si o fac
mai pu¸ tin reprezentativ ˘a pentru celelalte date.
În cazul în care setul de date nu este simetric,
valoarea median ˘a este cea mai reprezentativ ˘a
valoare a datelor.
Figura 3.15: Box-an-whisker plot pentru
datele din Exerci¸ tiul 3.1
Deviatia standard este s=s
1
n1n
å
i=1(xi¯x)2=133:3141 . Folosind formulele,
gasim ca g1=1:9598 (asimetrie la dreapta) si K=5:4684 (boltire pronuntata). Valorile
aberante sunt cele ce se afla in afara intervalului
[Q11:5(Q3Q1);Q3+1:5(Q3Q1)] = [ 0;178]:
Se observa ca valorile 340:5;475:5¸ si525sunt valori aberante, reprezentate prin puncte in
figura. În M ATLAB ,
X = [113; 60.5; 340.5; 130; 79; 475.5; 90; 100; 175.5; 100; …
111.5; 525; 50; 122.5; 125.5; 75; 150; 89; 100; 70];
a = range(X); m = mean(X); Me = median(X); Mo = mode(X); boxplot(X)
Q1 = quantile(X,0.25); Q2 = quantile(X,0.5);Q3 = quantile(X,0.75);
d = Q3 – Q1; g1 = skewness(X); K = kurtosis(X);
Exerci¸ tiu 3.2 Consider ˘am datele din Tabelul 3.5.
(a) Determina¸ ti amplitudinea, media, mediana, modul, dispersia si distanta intercuartilic ˘a

56 Capitolul 3. Elemente de Statistic ˘a descriptiv ˘a
pentru aceste date.
(b) Desena¸ ti diagrama box-and-whiskers ¸ si comenta¸ ti-o. Exista valori aberante?
Solu¸ tie: Amplitudinea este a=30. Folosind centrele claselor, media este
¯x=å(xf)
n=1
70(2:55+7:513+12:523+17:517+22:510+27:52) =13:93:
Dispersia este:
s2=1
n1(å(x2f)n¯x2)
=1
69(2:525+7:5213+12:5223+17:5217+22:5210+27:5227013:932)
37:06:
Clasa median ˘a este clasa [10;15). Deoarece în clasele anterioare ( [0;5)¸ si[5;10)) se afl ˘a
deja 5 +13=18 date mai mici decât mediana, pentru a afla valoarea median ˘a a plantelor
(i.e., acea valoare care este mai mare decât alte 35de valori la stanga ei ¸ si mai mic ˘a decât
alte35de plante de la dreapta sa), va trebui s ˘a determin ˘am acea valoare din clasa median ˘a
ce este mai mare decât alte 17valori din aceast ˘a clas ˘a. A¸ sadar, avem nevoie de a determina
o frac¸ tie17
23dintre valorile clasei mediane. În concluzie, valoarea median ˘a este
Me=10+3518
235=13:6957 :
Clasa modal ˘a este [10;15), iar modul este Mo=10+10
10+65=13:125.
Calcul ˘am acum prima cuartil ˘a dupa formula Q1=l1+n
4FQ1
fQ1. Clasa in care se gaseste
prima cuartila este [5;10)(o valoare din acest interval va avea la stanga sa 70=4dintre
valorile observate). Avem: FQ1=5;fQ1=13;c=5, de unde Q1=9:8077.
Similar, clasa in care se gaseste a treia cuartila este [15;20)(o valoare din acest interval
va avea la dreapta sa 70=4dintre valori. Avem: FQ3=41;fQ3=10;c=5, de unde
Q3=18:3824.
Folosind M ATLAB :
X = [5*rand(1,5), 5+5*rand(1,13),10+5*rand(1,23), 15+5*rand(1,17), …
20+5*rand(1,10), 25+5*rand(1,2)]; % datele
x = [2.5; 7.5; 12.5; 17.5; 22.5; 27.5]; % centrele claselor
f = [5; 13; 23; 17; 10; 2]; % frecventele
n = 70; m = sum(x.*f)/n; s2 = (sum(x.^2.*f) – n*m^2)/(n-1);
Q1 = quantile(X,0.25); Me = median(X); Q2 = quantile(X,0.75);
Exerci¸ tiu 3.3 O companie de asigur ˘ari a înregistrat num ˘arul de accidente pe s ˘apt˘amân ˘a
ce au avut loc într-un anumit sat, în decurs de un an ( 52de s˘apt˘amâni). Acestea sunt, în
ordine:
1, 0, 2, 3, 4, 1, 4, 0, 4, 2, 3, 0, 3, 3, 1, 2, 3, 0, 1, 2, 3, 1, 3, 2, 3, 2
4, 3, 4, 2, 3, 4, 4, 3, 2, 4, 1, 2, 0, 1, 3, 2, 0, 4, 1, 0, 2, 2, 4, 1, 2, 2

3.7 Exerci¸ tii propuse 57
(a)Construi¸ ti un tabel de frecven¸ te care s ˘a con¸ tin ˘a num ˘arul de accidente, frecven¸ tele
absolute ¸ si relative.
(b)G˘asi¸ ti media empiric ˘a, mediana ¸ si devia¸ tia standard empiric ˘a.
(c)Reprezenta¸ ti prin bare rezultatele din tabelul de frecven¸ te.
(d)G˘asi¸ ti ¸ si reprezenta¸ ti grafic ( cdfplot ) func¸ tia de reparti¸ tie empiric ˘a a num ˘arului de
accidente.
Solu¸ tie: (a) Tabelul de frecven¸ te este Tabelul 3.14. (b) Avem:
num˘arul 0 1 2 3 4
frecv. abs. 7 9 14 12 10
frecv. rel. 0:1346 0 :1731 0 :2692 0 :2308 0 :1923
Tabela 3.14: Tabel de frecven¸ te pentru Exerci¸ tiu 3.3
x=1
5252
å
i=1xi=2:1731 ;s=vuut1
5152
å
i=1(xi¯x)2=1:3094 ;Me=2:
(c) Reprezentarea prin bare a num ˘arului de accidente ¸ si graficul lui F
n(x)sunt reprezentate
în Figura 3.16.
(d) Func¸ tia de reparti¸ tie empiric ˘a
este:
F
n(x) =8
>>>>>>>><
>>>>>>>>:0;dac˘ax<0;
7
52;dac˘ax2[0;1);
16
52;dac˘ax2[1;2);
30
52;dac˘ax2[2;3);
42
52;dac˘ax2[3;4);
1;dac˘ax4:
Figura 3.16: Reprezentarea num˘ arului de accidente
Codul M ATLAB pentru calcule ¸ si grafice este:
Y = [zeros(7,1);ones(9,1);2*ones(14,1);3*ones(12,1);4*ones(10,1)];
m = mean(Y); s = std(Y); Me = median(Y);
subplot(1,2,1); bar(0:4,[7,9,14,12,10]) % graficul cu bare
subplot(1,2,2); cdfplot(Y) % graficul functiei de repartitie empirice
3.7 Exerci¸ tii propuse
Exerci¸ tiu 3.4 Pentru un set de 5 valori, media empiric ˘a este x=50¸ si dispersia empiric ˘a

58 Capitolul 3. Elemente de Statistic ˘a descriptiv ˘a
estes2=4. Dac ˘a trei dintre valori sunt 48 ;51;52, determina¸ ti ¸ si celelalte dou ˘a valori.
Exerci¸ tiu 3.5 Se consider ˘a urm ˘atoarea selec¸ tie de note ob¸ tinute de elevii unei ¸ scoli la teza
de Matematic ˘a.
5, 7, 8, 6, 9, 7, 10, 4, 7, 9, 6, 5, 7, 8, 7
6, 10, 8, 6, 9, 4, 7, 5, 8, 8, 7, 5, 4, 8, 6
(a) Determina¸ ti media, devia¸ tia standard ¸ si mediana pentru aceast ˘a selec¸ tie.
(b) Grupa¸ ti datele ¸ si scrie¸ ti func¸ tia de reparti¸ tie empiric ˘a.
(c) Reprezenta¸ ti un box-and-whisker plot pentru date.
Exerci¸ tiu 3.6 Pentru evaluarea rezultatelor ob¸ tinute la proba de Matematic ˘a a examenului
de Bacalaureat de c ˘atre elevii unei ¸ scoli, s-a f ˘acut un sondaj de volum 30printre elevii
¸ scolii, notele fiind urm ˘atoarele:
3.72 7.45 4.65 6.95 5.00 4.30 8.93 7.14 8.24 6.67
9.33 9.05 5.86 6.75 7.20 7.28 6.65 5.90 7.75 4.33
7.18 8.00 5.50 7.70 4.12 8.40 7.00 6.90 5.00 7.80
(a) Descrie¸ ti datele folosind o reprezentare stem &leaf.
(b) Calcula¸ ti media, dispersia ¸ si mediana pentru selec¸ tia considerat ˘a, precizând formulele
folosite.
(c) Determina¸ ti cele cinci m ˘asuri statistice din five number summary
(d) Reprezenta¸ ti un box-and-whisker plot pentru date.
(e) Ionel a ob¸ tinut nota 8 :45 la examen. Determina¸ ti scorul s ˘au.
Exerci¸ tiu 3.7 Tabelul de mai jos con¸ tine notele la Matematic ˘a a10elevi dintr-o anumit ˘a
¸ scoal ˘a ob¸ tinute la: testul de simulare a examenului de Bacalaureat (T) ¸ si la examenul
Bacalaureat (B).
T 6:15 5 :75 8 :45 8 :90 7 :83 6 :50 10 4 :50 9 :25 7 :65
B 7:23 6 :00 7 :76 9 :63 6 :90 6 :33 9 :90 3 :24 8 :67 7 :90
(a) Reprezenta¸ ti cele dou ˘a seturi de date prin câte un box-and-whisker plot, în aceea¸ si
figur ˘a.
(b) Reprezenta¸ ti datele din tabel printr-o diagram ˘a scatter .
(c) Calcula¸ ti coeficientul de corela¸ tie empiric ˘a între notele la cele dou ˘a teste.

4. No¸ tiuni de Teoria selec¸ tiei statistice
. [A statistical fact: 50% of marriages end in divorce.
. Thus, if you don’t file for divorce, your wife will.]
4.1 Considera¸ tii generale
Defini¸ tia 4.1.1 Numim colectivitate statistic˘ a (sau popula¸ tie ) o mul¸ time nevid ˘aWde
elemente care este cercetat ˘a din punct de vedere al uneia sau mai multor caracteristici.
Elementele colectivit ˘a¸ tii le vom numi indivizi (sau unit˘ a¸ ti statistice ). V om nota cu
wo unitate statistic ˘a. Dac ˘a popula¸ tia este finit ˘a, atunci num ˘arul nal unit ˘a¸ tilor statis-
tice ce o compun (i.e., card( W)) îl vom numi volumul colectivit˘ a¸ tii (sauvolumul popula¸ tiei ).
Consider ˘am o popula¸ tie (colectivitate statistic ˘a)W. Studiem popula¸ tia Wdin punctul de
vedere al unei caracteristici a sale, X. Aceast ˘a caracteristic ˘a este o anumit ˘a proprietate
urm˘arit˘a la indivizii ei în procesul prelucr ˘arii statistice ¸ si o vom asimila cu o variabil ˘a
aleatoare definit ˘a peW. Problema esen¸ tial ˘a a Statisticii Matematice este de a stabili
legea de probabilitate pe care o urmeaz ˘a caracteristica X. Pentru a g ˘asi aceast ˘a lege
(reparti¸ tie), avem nevoie mai întâi de un num ˘ar reprezentativ de observa¸ tii (o selec¸ tie)
asupra colectivit ˘a¸ tiiW. Pe baza acestor observa¸ tii, vom determina prin inferen¸ t ˘a o lege
care s ˘a reprezinte variabila X.
Defini¸ tia 4.1.2 V om numi selec¸ tie (sau sondaj ) o subcolectivitate a colectivit ˘a¸ tii cercetate
W. Num ˘arul elementelor selec¸ tiei poart ˘a numele de volumul selec¸ tiei (sondajului) . Se-
lec¸ tiile pot fi repetate sau nerepetate. O selec¸ tie se nume¸ ste repetat˘ a (sau bernoullian˘ a )
dac˘a dup ˘a examinarea individului acesta se reintroduce în colectivitate; în caz contrar
avem o selec¸ tie nerepetat˘ a . În practic ˘a, volumul colectivit ˘a¸ tiiWeste mult mai mare decât

60 Capitolul 4. No¸ tiuni de Teoria selec¸ tiei statistice
volumul selec¸ tiei. În aceste cazuri, selec¸ tia nerepetat ˘a poate fi considerat ˘a ca fiind selec¸ tie
repetat ˘a. Selec¸ tiile pe care le vom considera în continuare sunt numai selec¸ tii repetate din
colectivitatea statistic ˘a.
Dorim acum s ˘a introducem un cadru matematic abstract pentru aceste selec¸ tii repetate
(pentru o abordare mai detaliat ˘a, se poate consulta [ nenciu ]).
Consider ˘am spa¸ tiul m ˘asurabil (W;F), undeFeste un corp borelian de p ˘ar¸ ti ale lui W.
Caracteristica Xurm˘arit˘a poate fi reprezentat ˘a de o variabil ˘a aleatoare definit ˘a pe(W;F).
Dorim s ˘a definim matematic o selec¸ tie repetat ˘a de volum n. Euristic, ideea este urm ˘atoarea:
a efectua nsondaje repetate dintr-o mul¸ time W, este echivalent cu a considera o singur ˘a
selec¸ tie dintr-o popula¸ tie de genul " Wmultiplicat de n ori ". Construim astfel:
W(n)=WW W;F(n)=FFF;
produs cartezian de nori. Un element al lui W(n)va fi
w(n)= (w1;w2; :::; wn);
numit ˘aselec¸ tie repetat˘ a de volum n. Cuplul (W(n);F(n))se nume¸ ste spa¸ tiul selec¸ tiilor
repetate de volum n . Consider ˘am variabilele aleatoare
Xi:W(n)!R;Xi(w(n)) =X(wi);8i=1;n:
Acestea sunt variabile aleatoare definite pe (W(n);F(n)), sunt independente stochastic
(pentru c ˘a v.a.fX(wi)gi=1;nsunt independente) ¸ si sunt identic repartizate, cu func¸ tia
de reparti¸ tie comun ˘aFX(se verific ˘a usor c ˘aFXi=FX;8i=1;n). V om numi Xi;i=1;n,
variabile aleatoare de selec¸ tie repetat˘ a de volum n. V om numi vector de selec¸ tie repetat˘ a
de volum n , vectorul Y, astfel încât:
Y:W(n)!R;Y(w(n)) = ( X1(w(n));X2(w(n)); :::; Xn(w(n))):
Pentru un w(n)fixat, componentele vectorului Y(w(n))se numesc valori de selec¸ tie repetat˘ a
de volum n . V om nota cu
Ln=Y(W(n))Rn;
¸ si-l vom numi spa¸ tiul valorilor de selec¸ tie repetat˘ a de volum n . Elementele lui Lnle vom
nota prin
x= (x1;x2; :::; xn);
(xi=Xi(w(n));pentru w(n)fixat, i=1;2; :::; n):
Defini¸ tia 4.1.3 V om numi statistic˘ a (sau func¸ tie de selec¸ tie ) variabila aleatoare
Sn(X) =g(X1;X2; :::; Xn);
unde geste o func¸ tie g:Rn!Rm˘asurabil ˘a.
Ca o observa¸ tie, numele de "statistic ˘a" este folosit în literatura de specialitate atât pentru
variabila aleatoare de mai sus, cât ¸ si pentru valoarea ei, în¸ telesul exact desprinzându-
se din context. Reparti¸ tia unei statistici se mai nume¸ ste ¸ si reparti¸ tia (distribu¸ tia) de selec¸ tie .

4.2 Exemple de statistici 61
Nota¸ tia 4.1 În literatur ˘a, statistica este notat ˘a cu una dintre urm ˘atoarele:
Sn(X);S(X;w(n));S(X;n);S(X1;X2; :::; Xn):
Statisticile medie de selec¸ tie ¸ si varian¸ ta selec¸ tiei au nota¸ tii aparte, ¸ si anume X, respectiv
S2
X(sau, dac ˘a nu este pericol de confuzie, S2).
Valoarea numeric ˘a
Sn(x) =g(x1;x2; :::; xn)
se nume¸ ste valoarea func¸ tiei de selec¸ tie pentru un w(n)fixat.
Observa¸ tia 4.1 A¸ sadar, o statistic ˘a este o func¸ tie de variabilele aleatoare de selec¸ tie. Prin
intermeniul statisticilor putem trage concluzii despre popula¸ tia W, din care a provenit
e¸ santionul w(n). Teoria probabilit ˘a¸ tilor ne ofer ˘a procedee de determinare atât a reparti¸ tiei
exacte a lui Sn(X)(dac˘a este posibil), cât ¸ si a reparti¸ tiei asimptotice a lui Sn(X).Reparti¸ tia
exact˘ a este acea reparti¸ tie ce poate fi determinat ˘a pentru orice volum al selec¸ tiei. În general,
dac˘a se lucreaz ˘a cu selec¸ tii de volum redus ( n<30), atunci reparti¸ tia exact ˘a ar trebui s ˘a fie
cunoscut ˘aa priori , dac ˘a se dore¸ ste luarea de decizii prin inferen¸ t ˘a.Reparti¸ tia asimptotic˘ a
este reparti¸ tia limit ˘a aSn(X)când n!¥, iar utilizarea acesteia conduce la rezultate bune
doar pentru n30.
De cele mai multe ori, o statistic ˘a este utilizat ˘a în urm ˘atoarele cazuri:
• în probleme de estimare punctual ˘a a parametrilor;
• în ob¸ tinerea intervalelor de încredere pentru un parametru necunoscut;
• ca o statistic ˘a test pentru verificarea ipotezelor statistice.
4.2 Exemple de statistici
Fie(W;F)o colectivitate statistic ˘a ¸ siXo caracteristic ˘a cercetat ˘a a sa. S ˘a not ˘am cu f(x)
¸ siF(x)densitatea de reparti¸ tie (sau func¸ tia de probabilitate), respectiv, func¸ tia de reparti¸ tie
pentru X. Acestea pot fi cunoscute sau necunoscute a priori ¸ si le vom numi func¸ tii teoretice
(densitate de reparti¸ tie teoretic˘ a saufunc¸ tie de probabilitate teoretic˘ a pentru f¸ sifunc¸ tie
de reparti¸ tie teoretic˘ a pentu F). Dac ˘a se cunoa¸ ste f(x), atunci putem determina m=E(X)
¸ sis2=Var(X), dac ˘a acestea exist ˘a, ¸ si le vom numi medie teoretic˘ a ¸ sidispersie teoretic˘ a .
În cazul în care una sau mai multe caracteristici teoretice corespunz ˘atoare lui Xnu ne
sunt a priori cunoscute, vom c ˘auta s ˘a le determin ˘am prin inferen¸ t ˘a, adic ˘a prin extragerea
unor selec¸ tii de date din colectivitate, calculând caracteristicile respective pentru selec¸ tiile
considerate ¸ si apoi extrapolând (în anumite condi¸ tii ¸ si dup ˘a anumite criterii) la întreaga
colectivitate.
S˘a consider ˘amw(n)o selec¸ tie repetat ˘a de volum ndin colectivitatea dat ˘a ¸ siXi;i=1;n,
variabilele aleatoare de selec¸ tie. Cu ajutorul acestora, putem construi diverse func¸ tii de
selec¸ tie. Mai jos discut ˘am câteva dintre acestea.
Defini¸ tia 4.2.1 Media de selec¸ tie : Numim medie de selec¸ tie (de volum n) , statistica
X=1
nn
å
i=1Xi:
Valoarea mediei de selec¸ tie pentru valori ale acestor variabile aleatoare este media empiric ˘a
(media valorilor observate):
x=1
nn
å
i=1xi:

62 Capitolul 4. No¸ tiuni de Teoria selec¸ tiei statistice
Propozi¸ tie 4.2.1 Pentru o variabil ˘a aleatoare de medie m¸ si devia¸ tie standard s, media de
selec¸ tie Xcorespunz ˘atoare lui Xsatisface urm ˘atoarele propriet ˘a¸ ti:
[1]E(X) =m; Var(X) =s2
n; s(X) =spn
[2]Xa:s:!m (n!¥):
Convergen¸ ta de la [2] spune c ˘a media de selec¸ tie Xse apropie mult de media teoretic ˘a a
popula¸ tiei atunci când volumul selec¸ tiei este mare.
Observa¸ tia 4.2 (1) În unele situa¸ tii vom nota prin mX¸ si prin sXmedia de selec¸ tie,
respectiv, devia¸ tia standard de selec¸ tie a lui X.
(2) Propozi¸ tia 4.4.2 precizeaz ˘a care este reparti¸ tia mediei de selec¸ tie pentru variabile
aleatoare de selec¸ tie dintr-o colectivitate normal ˘a, iar Propozi¸ tia 4.4.4 precizeaz ˘a care
este reparti¸ tia asimptotic ˘a a mediei de selec¸ tie pentru variabile de selec¸ tie de volum mare
selectate dintr-o colectivitate oarecare.
(3) Dac ˘a selec¸ tia se face f ˘ar˘a revenire dintr-o popula¸ tie de volum mic, cu volumul selec¸ tiei
ncomparativ cu volumul popula¸ tiei N(n>0:05N) ¸ siXnu este neap ˘arat normal repartizat ˘a,
atunci putem spune doar c ˘a
E(X) =m¸ sis(X) =spnr
Nn
N1;
f˘ar˘a a putea preciza care este reparti¸ tia asimptotic ˘a a lui X.
Defini¸ tia 4.2.2 Dispersie de selec¸ tie (sau varian¸ ta selec¸ tiei ):
Numim dispersie de selec¸ tie (de volum n), statistica S2(sau S2
X, dac ˘a avem mai multe
variabile) definit ˘a prin:
S2=1
n1n
å
i=1[XiX]2:
Valoarea dispersiei de selec¸ tie pentru valori ale variabilelor aleatoare de selec¸ tie este
dispersia (sau varia¸ tia) empiric ˘a, pe care o vom nota cu s2(sau s2
X, dac ˘a avem mai multe
variabile). Aceasta este
s2=1
n1n
å
i=1[xix]2:
În anumite situa¸ tii, în locul lui S2se mai utilizeaz ˘a statistica S2
(X), definit ˘a prin:
S2
=1
nn
å
i=1[XiX]2:
Motiva¸ tia pentru considerarea statisticii S2în detrimentul lui S2
este dat ˘a de faptul c ˘a prima
statistic ˘a estimeaz ˘a varia¸ tia teoretic ˘as2mai bine decât cea de-a doua. Aceste statistici
satisfac urm ˘atoarele propriet ˘a¸ ti:
Propozi¸ tie 4.2.2 Pentru o variabil ˘a aleatoare de medie m¸ si devia¸ tie standard s, dispersiile
de selec¸ tie S2¸ siS2
corespunz ˘atoare lui Xsatisface urm ˘atoarele propriet ˘a¸ ti:
[1]E(S2) =s2E(S2
) =n1
ns2;
[2]S2prob!s2(n!¥)

4.2 Exemple de statistici 63
Observa¸ tia 4.3 (1) Dac ˘a media teoretic ˘a a colectivit ˘a¸ tii este cunoscut ˘aa priori ,E(X) =
m2R, atunci se mai poate defini dispersia de selec¸ tie d2)prin formula:
d2=1
nn
å
i=1[Xim]2: (4.2.1)
(2) Dup ˘a cum vom vedea în capitolul urm ˘ator, primele dou ˘a rela¸ tii arat ˘a c˘a statistica
S2este un estimator nedeplasat pentru dispersia teoretic ˘as2, pe când S2
este estimator
deplasat pentru s2. Propozi¸ tiile 4.4.6 ¸ si 4.4.7 precizeaz ˘a reparti¸ tiilor dispersiilor de
selec¸ tie pentru colectivit ˘a¸ ti normale.
Defini¸ tia 4.2.3 Func¸ tia de reparti¸ tie de selec¸ tie
FieX1;X2; :::; Xnvariabile aleatoare de selec¸ tie repetat ˘a de volum npentru caracteristica
Xce are func¸ tia de reparti¸ tie F(x). Numim func¸ tie de reparti¸ tie de selec¸ tie (de volum n),
func¸ tia F
n:RW(n)![0;1]definit ˘a prin
F
n(x;w(n)) =n(x)
n;8x2R;
unde n(x) =cardfi;Xi(w(n))xgreprezint ˘a num ˘arul de elemente din selec¸ tie mai mici
sau egale cu x. Rela¸ tia din defini¸ tie poate fi scris ˘a ¸ si sub forma:
F
n(x) =1
nn
å
i=1c(¥;x](Xi);8x2R; (4.2.2)
unde cAeste func¸ tia indicatoare a mul¸ timii A.
Pentru un x2Rfixat, F
neste o variabil ˘a aleatoare repartizat ˘a binomial B(n;F(x)).
Pentru o selec¸ tie w(n)fixat˘a,F
n(x)ia valorile:
F
n(x) =cardfi;xixg
n;
(i.e., este func¸ tia de reparti¸ tie empiric ˘a).
Propozi¸ tie 4.2.3 Func¸ tia de reparti¸ tie de selec¸ tie satisface urm ˘atoarele propriet ˘a¸ ti:
[1]E(F
n(x)) = F(x);8x2R;
[2]Var(F
n(x)) =1
nF(x)(1F(x));8x2R:
Observa¸ tia 4.4 În Statistic ˘a, exist ˘a o serie de criterii care permit s ˘a se aprecieze
apropierea lui F
n(x)deF(x). Mai jos, amintim doar dou ˘a dintre ele.
(1) Func¸ tia de reparti¸ tie de selec¸ tie satisface convergen¸ ta
F
n(x)a:s:!n!¥F(x);xfixat în R:
Acest rezultat este o consecin¸ t ˘a direct ˘a a legii tari a numerelor mari. Într-adev ˘ar, deoarece
F
n(x)se poate scrie sub forma (4.2.2) (i.e., o sum ˘a de variabile aleatoare identic repartizate
¸ si independente stochastic), LTNM implic ˘a
F
n(x)a:s:!n!¥E(c(¥;x](X)) = P(Xx) =F(x);xfixat în R:
(2) Pentru n2Nsuficient de mare, func¸ tia de reparti¸ tie de selec¸ tie satisface proprietatea
pn(F
n(x)F(x))N(0;p
F(x)(1F(x)));xfixat în R:

64 Capitolul 4. No¸ tiuni de Teoria selec¸ tiei statistice
4.3 Statistici de ordine
Defini¸ tia 4.3.1 Dac˘a variabilele aleatoare din selec¸ tia fX1;X2; :::; Xngle rearanj ˘am în
ordinea m ˘arimii lor ¸ si scriem
X(1)X(2) X(n);
atunci vom numi variabila aleatoare X(i)statistica de ordine de ordin i, pentru orice
i=1;2; :::; n. Pentru o selec¸ tie dat ˘a, valoarea statisticii de ordine de ordin io vom nota
prinx(i), pentru orice i=1;2; :::; n.
Statistica X(1)se nume¸ ste prima statistic˘ a de ordine ¸ si este întotdeauna minimumul selec¸ tiei,
i.e.,
X(1)=minfX1;X2; :::; Xng:
Statistica X(n)se nume¸ ste ultima statistic˘ a de ordine ¸ si este întotdeauna maximumul
selec¸ tiei, i.e.,
X(n)=maxfX1;X2; :::; Xng:
De exemplu, dac ˘a avem valorile de selec¸ tie
x1=8;x2=7;x3=9;x4=5;x5=3;
atunci
x(1)=3;x(2)=5;x(3)=7;x(4)=8;x(5)=9:
Dac˘an=2m+1, atunci X(m+1)=X(n+1
2)=MeX, adic ˘amediana de selec¸ tie este o statistic ˘a
de ordine în acest caz. Dac ˘an=2m, atunci avem dou ˘a valori de mijloc, X(m)¸ siX(m+1).
Deoarece MeX=1
2(X(m)+X(m+1)), mediana de selec¸ tie nu este statistic ˘a de ordine pentru
npar.
Definim amplitudinea (range) selec¸ tiei ca fiind statistica A=X(n)X(1). Statisticile
X(n)MeX¸ siX(1)MeXse numesc devia¸ tiile extreme ale selec¸ tiei .
De¸ si variabilele aleatoare de selec¸ tie sunt independente, totu¸ si statisticile de ordine sunt
dependente.
S˘a presupunem c ˘aF(x)este func¸ tia de reparti¸ tie a selec¸ tiei date ¸ si f(x)densitatea de
reparti¸ tie. Urm ˘atoarea propozi¸ tie stabile¸ ste func¸ tiile de reparti¸ tie pentru statisticile de
ordine.
Propozi¸ tie 4.3.1 Pentru un k21;nfixat, func¸ tia de reparti¸ tie pentru X(k)este:
FX(k)(x) =n
å
j=kCj
nF(x)j[1F(x)]nj;pentru orice x2R:
Demonstra¸ tie. Avem succesiv:
FX(k)(x) = P(X(k)x)
=P({cel pu¸ tin kv.a. din cele nnu dep ˘a¸ sesc pe xg)
=P({cel pu¸ tin ksuccese în nîncerc ˘arig)
=n
å
j=kCj
n[P(Xx)]j[1P(Xx)]nj
=n
å
j=kCj
nF(x)j[1F(x)]nj;pentru orice x2R:

4.4 Selec¸ tii aleatoare pentru caracteristici normale 65

În particular, pentru k=1, ob¸ tinem c ˘a func¸ tia de reparti¸ tie a celui mai mic element al
selec¸ tiei:
FX(1)(x) =1[1F(x)]n;pentru orice x2R:
Func¸ tia de reparti¸ tie a celui mai mare element al selec¸ tiei este:
FX(n)(x) = [ F(x)]n;pentru orice x2R:
Exemplu 4.1 La finala de 100mvitez ˘a masculin din cadrul campionatelor mondiale de
atletism în aer liber, timpii de sosire ai celor 8sportivi califica¸ ti sunt variabile aleatoare
independente stochastic, identic repartizate U(9:5s;10:5s). Calcula¸ ti urm ˘atoarele
probabilit ˘a¸ ti:
(1) Probabilitatea ca recordul mondial de 9 :58ss˘a cad ˘a;
(2) Probabilitatea ca to¸ ti candida¸ tii s ˘a termine cursa cu timpi de sosire pân ˘a în 10 s.
(3) Probabilitatea ca m ˘acar 3 atle¸ ti s ˘a termine cursa sub 9 :7s.
Solu¸ tie: Deoarece TU(9:5s;10:5s), atunci FT(x) =8
><
>:0; dac˘ax9:5
x9:5;dac˘a 9:5<x<10:5
1; dac˘ax10:5
Atunci:
P1=P(T(1)9:58) =FT(1)(9:58) =1[1F(9:58)]8=10:928=0:4868 :
P2=P(T(8)10) =FT(8)(10) = [ F(10)]8=0:58=0:004:
P3=P(T(3)9:7) =FT(3)(9:7) =8
å
j=3Cj
8F(9:7)j[1F(9:7)]8j=0:4049 :
p
4.4 Selec¸ tii aleatoare pentru caracteristici normale
S˘a consider ˘amWo colectivitate statistic ˘a ¸ siXo caracteristic ˘a a sa, ce urmeaz ˘a a fi studiat ˘a
din punct de vedere statistic. Fie fX1;X2; :::; Xngvariabile aleatoare de selec¸ tie repetat ˘a
de volum n. În cele mai multe cazuri practice, Xurmeaz ˘a o reparti¸ tie normal ˘a (gaussian ˘a).
De regul ˘a, dac ˘a volumul popula¸ tiei este mic ( n<30), atunci consider ˘am doar caracteristici
normale, iar pentru o reparti¸ tie aproape simetric ˘a cu n>30putem considera orice tip de
reparti¸ tie pentru caracteristic ˘a. Prezent ˘am în continuare câteva rezultate utile referitoare la
selec¸ tii aleatoare pentru caracteristici normale (gaussiene).
Propozi¸ tie 4.4.1 Dac˘axiN(mi;si)sunt variabile aleatoare independente stochastic ¸ si
ai2R;i=1;n, atunci variabila aleatoare x=n
å
i=1aixisatisface proprietatea:
xN
n
å
i=1aimi;s
n
å
i=1a2
is2
i!
:

66 Capitolul 4. No¸ tiuni de Teoria selec¸ tiei statistice
Propozi¸ tie 4.4.2 (reparti¸ tia mediei de selec¸ tie pentru o variabil˘ a gaussian˘ a )
Dac˘aXN(m;s)¸ siXi;i=1;2; :::; n, sunt variabilele aleatoare de selec¸ tie, atunci
statistica Xsatisface:
XN
m;spn
: (n2N)
O consecin¸ t ˘a direct ˘a a acestei propozi¸ tii este urm ˘atoarea:
Propozi¸ tie 4.4.3 Dac˘aXiN(m;s);8i=1;2; :::; n, sunt variabile aleatoare de selec¸ tie,
atunci
Z=Xm
spnN(0;1):
Observa¸ tia 4.5 Aceasta propozi¸ tie va fi folosit ˘a pentru verificarea ipotezelor statistice, în
problema test ˘arii mediei teoretice m(testul Z) când dispersia teoretic ˘a este cunoscut ˘aa
priori .
Propozi¸ tie 4.4.4 (reparti¸ tia mediei de selec¸ tie pentru o variabil˘ a oarecare)
Dac˘afX1;X2; :::; Xng, variabile aleatoare de selec¸ tie repetat ˘a de volum n, ce urmeaz ˘a o
reparti¸ tie dat ˘a, atunci pentru un volum nsuficient de mare, statistica Xsatisface:
XN
m;spn
: (n>30)
Observa¸ tia 4.6 (1) Dac ˘aneste suficient de mare, atunci concluzia Propozi¸ tiei 4.4.3
ramâne valabil ˘a ¸ si în cazul în care avem o selec¸ tie repetat ˘a de volum npentru o caracteris-
tic˘a ce nu este neap ˘arat gaussian ˘a.
(2) Când selec¸ tia se face f ˘ar˘a revenire dintr-o popula¸ tie de volum mic ¸ si Xnu este neap ˘arat
normal repartizat ˘a, atunci putem spune doar c ˘a
E(X) =m¸ siVar(X) =spnr
Nn
N1;
f˘ar˘a a putea preciza care este reparti¸ tia lui X. Aici Neste volumul popula¸ tiei W,n>0:05N.
Propozi¸ tie 4.4.5 Dac˘aXN(0;1)¸ sifX1;X2; :::; Xng, variabile aleatoare de selec¸ tie
repetat ˘a de volum n, atunci variabila aleatoare
H2=n
å
i=1X2
ic2(n):
Observa¸ tia 4.7 O consecin¸ t ˘a imediat ˘a a acestei propozi¸ tii este c ˘a, dac ˘aXN(0;1),
atunci v.a. X2c2(1). Urm ˘atoarea propozi¸ tie este tot o consecin¸ t ˘a direct ˘a a Propozi¸ tiei
4.4.5.
Propozi¸ tie 4.4.6 (reparti¸ tia dispersiei de selec¸ tie când media caracteristicii este cunos-
cut˘ a)
Dac˘aXN(m;s), atunci variabila aleatoare
H2=1
s2n
å
i=1(Xim)2c2(n):

4.4 Selec¸ tii aleatoare pentru caracteristici normale 67
Propozi¸ tie 4.4.7 FieXN(m;s)caracteristica unei popula¸ tii statistice. Atunci statistica
c2=1
s2n
å
i=1(XiX)2c2(n1):
Observa¸ tia 4.8 Concluzia propozi¸ tiei 4.4.7 se poate rescrie astfel:
n1
s2S2c2(n1); (4.4.3)
unde S2este dispersia de selec¸ tie. Acest rezultat stabile¸ ste reparti¸ tia dispersiei de selec¸ tie
S2pentru o caracteristic ˘a normal ˘a, atunci când media caracteristicii nu este cunoscut ˘a.
Propozi¸ tie 4.4.8 Dac˘aXN(m;s)este caracteristica unei colectivit ˘a¸ ti statistice, atunci
statistica
t=Xm
Spn1 t(n1):
(Aici, t(n1)este reparti¸ tia Student cu (n1)grade de libertate).
Observa¸ tia 4.9 Aceasta propozi¸ tie va fi folosit ˘a pentru verificarea ipotezelor statistice, în
problema test ˘arii mediei teoretice m(testul t) când dispersia teoretic ˘a este necunoscut ˘aa
priori .
Propozi¸ tie 4.4.9 FiexiN(mi;si)variabile aleatoare independente stochastic ¸ si ai2
R;i=1;n. Pentru fiecare caracteristic ˘axiconsider ˘am câte o selec¸ tie repetat ˘a de volum
ni, ¸ si not ˘am cu ximedia de selec¸ tie corespunz ˘atoare fiec ˘arei selec¸ tii. Atunci statistica
Y=a1x1+a2x2+:::+anxnsatisface proprietatea:
YN
n
å
i=1aimi;s
n
å
i=1a2
is2
i
ni!
:
Urm˘atoarea propozi¸ tie este un caz particular al Propozi¸ tiei 4.4.9, cu n=2,×1=X;x2=Y
¸ sia1=1,a2=1.
Propozi¸ tie 4.4.10 (reparti¸ tia diferen¸ tei mediilor de selec¸ tie pentru caracteristici gaussiene,
când dispersiile sunt cunoscute )
Consider ˘am o selec¸ tie de volum n1pentu o variabil ˘a normal ˘aXN(m1;s1)¸ si o selec¸ tie
de volum n2pentru o variabil ˘a normal ˘aYN(m2;s2), cele dou ˘a selec¸ tii fiind alese inde-
pendent una de cealalt ˘a. Not ˘am cu X¸ si, respectiv, Ymediile de selec¸ tie corespunz ˘atoare
selec¸ tiilor alese. Atunci statistica
XYN0
@m1m2;s
s2
1
n1+s2
2
n21
A:
Observa¸ tia 4.10 (1) Concluzia propozi¸ tiei anterioare se mai poate scrie astfel:
Z=(XY)(m1m2)q
s2
1
n1+s2
2
n2N(0;1):

68 Capitolul 4. No¸ tiuni de Teoria selec¸ tiei statistice
(2) S ˘a consider ˘am dou ˘a variabile normale X¸ siY, ce urmeaz ˘a a fi studiate. De exemplu, X
¸ siYsunt masele pieselor produse de dou ˘a strunguri într-o zi de lucru. S ˘a mai presupunem
c˘a devia¸ tiile standard ale variabilelor considerate ( sX¸ sisY) sunt cunoscute (i.e., devia¸ tiile
sunt date deja în cartea tehnic ˘a a celor dou ˘a strunguri). Pentru fiecare dintre cele dou ˘a
caracteristici, consider ˘am câte o selec¸ tie repetat ˘a, de volume n1, respectiv, n2(adic ˘a, vom
selecta n1dintre piesele produse de strungul întâi ¸ si n2piese produse de cel de-al doilea
strung). S ˘a not ˘am cu X1, respectiv, Y2mediile de selec¸ tie corespunz ˘atoare. Propozi¸ tia
anterioar ˘a precizeaz ˘a care este reparti¸ tia diferen¸ tei standardizate a celor dou ˘a medii de
selec¸ tie. Aceasta ne va fi deosebit de util ˘a, spre exemplu, în verificarea ipotezei c ˘a masele
medii m1¸ sim2ale pieselor produse de cele dou ˘a strunguri coincid.
Propozi¸ tie 4.4.11 (reparti¸ tia diferen¸ tei mediilor de selec¸ tie când dispersiile sunt necunos-
cute, egale ) Consider ˘am o selec¸ tie de volum n1pentu o variabil ˘a normal ˘aXN(m1;s1)
¸ si o selec¸ tie de volum n2pentru o variabil ˘a normal ˘aYN(m2;s2), cele dou ˘a selec¸ tii
fiind alese independent una de cealalt ˘a. Not ˘am cu X;Y¸ siS2
1=S2(X),S2
2=S(Y)mediile
de selec¸ tie ¸ si, respectiv, dispersiile de selec¸ tie corespunz ˘atoare selec¸ tiilor alese. În plus,
presupunem c ˘a dispersiile teoretice pentru X¸ siYsunt egale, i.e., s2
1=s2
2=s2. Atunci
statistica
T=(XY)(m1m2)q
(n11)S2
1+(n21)S2
2s
n1+n22
1
n1+1
n2 t(n1+n22):
Propozi¸ tie 4.4.12 (reparti¸ tia diferen¸ tei mediilor de selec¸ tie când dispersiile sunt ne-
cunoscute ¸ si diferite ) Consider ˘am o selec¸ tie de volum n1pentu o variabil ˘a normal ˘a
XN(m1;s1)¸ si o selec¸ tie de volum n2pentru o variabil ˘a normal ˘aYN(m2;s2),
cele dou ˘a selec¸ tii fiind alese independent una de cealalt ˘a. Not ˘am cu X;Y¸ siS2
1=S2(X),
S2
2=S2(Y)mediile de selec¸ tie ¸ si, respectiv, dispersiile de selec¸ tie corespunz ˘atoare selec¸ ti-
ilor alese. Presupunem c ˘a dispersiile teoretice pentru X¸ siYsunt diferite, i.e., s2
16=s2
2.
Atunci statistica
T=(XY)(m1m2)s
S2
1
n1+S2
2
n2 t(N); (4.4.4)
unde
N=S2
1
n1+S2
2
n22
S2
1
n121
n11+S2
2
n221
n212: (4.4.5)
Observa¸ tia 4.11 În practic ˘a, înainte de a testa egalitatea mediilor teoretice a dou ˘a
caracteristici, se folose¸ ste mai întâi un test statistic pentru testarea egalit ˘a¸ tii varia¸ tiilor
(dispersiilor) celor dou ˘a caracteristici. În func¸ tie de rezultatul acestui test, se va alege
statistica potrivit ˘a pentru a testa egalitatea mediilor.

4.4 Selec¸ tii aleatoare pentru caracteristici normale 69
Urm ˘atoarele dou ˘a propozi¸ tii vor fi folosite pentru verificarea ipotezelor statistice, în
problema test ˘arii egalit ˘a¸ tii varia¸ tiilor teoretice s2
1=s2
2(testul F) când mediile teoretice
corespunz ˘atoare sunt necunoscute a priori (Propozi¸ tia 4.4.13) sau cunoscute a priori
(Propozi¸ tia 4.4.14).
Propozi¸ tie 4.4.13 (reparti¸ tia raportului dispersiilor pentru caracteristici gaussiene )
FieXN(m1;s1)¸ siYN(m2;s2)dou˘a caracteristici ale unei popula¸ tii statistice.
Pentru fiecare caracteristic ˘a consider ˘am câte o selec¸ tie repetat ˘a, de volum n1, respectiv, n2.
FieS2
1=S2(X)¸ siS2
2=S2(Y)dispersiile de selec¸ tie corespunz ˘atoare celor dou ˘a selec¸ tii
repetate. Atunci statistica
F=s2
2
s2
1S2
1
S2
2F(n11;n21):
Propozi¸ tie 4.4.14 (reparti¸ tia raportului dispersiilor pentru caracteristici gaussiene )
Suntem în condi¸ tiile Propozi¸ tiei 4.4.13, cu men¸ tiunea c ˘a mediile teoretice m1¸ sim2sunt
cunoscute a priori . Atunci
F1=s2
2
s2
1d2
1
d2
2F(n1;n2);
unde d2
1¸ sid2
2sunt date de:
c2
1=1
s2
1n1
å
i=1(X1im1)2c2(n1);c2
2=1
s2
2n2
å
j=1(X2jm2)2c2(n2):

70 Capitolul 4. No¸ tiuni de Teoria selec¸ tiei statistice
4.5 Exerci¸ tii rezolvate
Exerci¸ tiu 4.1 Presupunem c ˘a masa medie a unor batoane de ciocolat ˘a produse de o ma¸ sin ˘a
este o caracteristic ˘aXN(100;0:65). În vederea verific ˘arii parametrilor ma¸ sinii, dintre
batoanele primite într-un depozit s-au ales la întâmplare 1000 de buc ˘a¸ ti.
(i) Calcula¸ ti media ¸ si devia¸ tia standard ale mediei de selec¸ tie, X.
(ii) Calcula¸ ti P(98<X<102).
(iii) Un baton este declarat rebut dac ˘a masa sa este sub 98de grame sau peste 102de
grame. Calcula¸ ti procentul de rebuturi avute.
R:(i) ¸ Stim c ˘a media de selec¸ tie Xurmeaz ˘a reparti¸ tia N(100;0:65=p
1000). A¸ sadar,
mX=100;sX0:02:
(ii) Probabilitatea P1=P(98<X<102)este
P1=P(X<102)P(X98) =FX(102)FX(98)1:
(iii) Probabilitatea de a avea un rebut este:
P2=P
fX<98g[
fX>102g
=P(X<98)+P(X>102)
=FX(98)+1FX(102);
de unde, procentul de rebuturi este
r=P2100%0:2091% ;
adic˘a aproximativ 2 rebuturi la 1000 de batoane.
În M ATLAB , acestea pot fi calculate astfel:
mu = 100; sigma = 0.65; n=1000; % n = volumul selectiei
X = normrnd(mu, sigma, n,n); % am generat selectia de volum n
Xbar = mean(X); S = sigma/sqrt(n); % Xbar = media de selectie
m = mean(Xbar); s = std(Xbar); % media si deviatia standard
P1 = normcdf(102, mu, S) – normdf(98, mu, S);
P2 = normcdf(98,mu,sigma) + 1 – normcdf(102,mu,sigma);
rebut = P2*100;
Exerci¸ tiu 4.2 ¸ Samponul marca FAIRHAIR se vinde acum în supermarket în trei m ˘arimi
(volume): 250ml,500ml ¸ si 1litru. Treizeci la sut ˘a dintre cump ˘ar˘atorii acestui produs
cump ˘ar˘a flaconul de 250ml,50% pe cel de 500ml, iar restul pe cel de 1litru. Not ˘am cu X
volumul unui flacon de FAIRHAIR . Fie X1¸ siX2volumele flacoanelor cump ˘arate de doi
dintre clien¸ ti, ale¸ si la întâmplare.
(a) Determina¸ ti reparti¸ tia mediei de selec¸ tie X. Calcula¸ ti media E(X)¸ si compara¸ ti-o cu
m=E(X).
(b) Calcula¸ ti D(X)¸ si compara¸ ti-o cu s=D(X).
(c) Calcula¸ ti probabilitatea P(X500).

4.5 Exerci¸ tii rezolvate 71
(d) Care ar trebui s ˘a fie volumul minim de cump ˘ar˘atori pentru ca media de selec¸ tie s ˘a
satisfac ˘a rela¸ tia P(X500)>0:75?
R: Fie v.a. Xce reprezint ˘a volumul ales de un cump ˘ar˘ator. Atunci distribu¸ tia lui Xeste:
x 250 500 1000
p(x)0:3 0 :5 0 :2.
Deoarece X1¸ siX2sunt variabile aleatoare de selec¸ tie, ele sunt independente ac si au aceea¸ si
reparti¸ tie ca X. Avem c ˘am=E(X) =525 ¸ si s=D(X) =25p
109.
(a) Media de selec¸ tie este X= (X1+X2)=2. Reparti¸ tia sa este:
x 250 375 500 625 750 1000
p(x)0:09 0 :3 0 :25 0 :12 0 :2 0 :04
Media este mX=E(X) =E(X) =m=525.
(b)sX=sp
2=25r
109
2<s.
(c) P(X500) =0:25+0:12+0:2+0:04=0:61:
(d) În general, XN
m;spn
, de unde g ˘asim c ˘aXm
spnN(0;1)A¸ sadar,
0:75<P(X500) = 1P(X500) =1P
Xm
spn500m
spn!
=1Q
500m
spn!
=1Q
rn
109
;
de unde
Q
rn
109
<0:25 ¸ sirn
109<Q1(0:25) =z0:25=0:6745 ;
¸ si astfel n>109z2
0:2550.
Exerci¸ tiu 4.3 În vederea studierii unei caracteristici Xce are densitatea de reparti¸ tie
f(x) =(
2x;x2(0;1);
0;x62(0;1):
s-a efectuat o selec¸ tie repetat ˘a de volum n=100. Se cere s ˘a se determine probabilitatea
P(X<0:65), unde Xeste media de selec¸ tie.
R:Se observ ˘a cu u¸ surin¸ t ˘a c˘af(x)îndepline¸ ste condi¸ tiile unei func¸ tii de reparti¸ tie, adic ˘a
este m ˘asurabil ˘a, nenegativ ˘a ¸ si
Z
Rf(x)dx=Z1
02xdx=1:
Pentru a calcula probabilitatea cerut ˘a, avem nevoie de E(X)¸ siD2(X). Avem:
E(X) =Z
Rx f(x)dx=Z1
02x2dx=2
3;

72 Capitolul 4. No¸ tiuni de Teoria selec¸ tiei statistice
D2(X) =E(X2)(E(X))2=Z
Rx2f(x)dx4
9=1
18:
A¸ sadar, reparti¸ tia mediei de selec¸ tie Xeste
XN2
3;1p
18p
100
:
Putem acum calcula probabilitatea cerut ˘a. Ea este:
P(X<0:65) =FX(0:65) = normcdf(0.65, 2/3, 1/(30*sqrt(2))) =0:2398 :
Exerci¸ tiu 4.4 Not˘am cu P1;P2; :::; P9pre¸ turile oferite de 9ofertan¸ ti la o licita¸ tie public ˘a
pentru vinderea unui anumit tablou. Presupunem c ˘a acestea sunt variabile aleatoare
repartizate uniform U(1000 ;2000). Obiectul se va vinde celui care vine cu oferta cea mai
mare. Determina¸ ti valoarea a¸ steptat ˘a a pre¸ tului ob¸ tinut pentru acest tablou.
R: Deoarece PU(1000 ;2000), atunci
f(x) =8
<
:1
1000;dac˘a 1000 <x<2000
0; dac˘ax62(1000 ;2000)F(x) =8
>><
>>:0; dac˘ax1000
x1000
1000;dac˘a 1000 <x<2000
1; dac˘ax2000
Func¸ tia de reparti¸ tie a statisticii de ordine M=P(9)=maxfP1;P2; :::; P9geste
FT(9)(x) = [ F(x)]9;x2R:
Densitatea de reparti¸ tie a statisticii de ordine Meste
fT(9)(x) =F0
T(9)(x) =9[F(x)]8f(x);x2R:
Pre¸ tul de vânzare a¸ steptat este media variabilei aleatoare M,
E(M) =¥Z
¥x fY(x)dx=9
10002000Z
1000xx1000
10008
dx=1900 :
Exerci¸ tiu 4.5 Dou˘a avioane zboar ˘a în aceea¸ si direc¸ tie pe dou ˘a coridoare paralele. La
momentul t=0, primul avion are un avans de 6km în fa¸ ta celui de-al doilea. Presupunem
c˘a viteza primului avion (m ˘asurat ˘a în km/h ) este o v.a. repartizat ˘a normal, cu media 510¸ si
devia¸ tia standard 10, iar viteza celui de-al doilea avion este normal repartizat ˘a, cu media
500 ¸ si devia¸ tia standard 10.
(a) Care este probabilitatea ca, dup ˘a4ore de zbor, al doilea avion s ˘a nu îl fi ajuns pe
primul?
(b) Determina¸ ti probabilitatea ca, dup ˘a4ore de zbor, distan¸ ta dintre cele dou ˘a avioane s ˘a
fie de cel mult 5km.

4.5 Exerci¸ tii rezolvate 73
R: Not˘am cu v1¸ siv2cele dou ˘a viteze. Avem c ˘a
v1N(510;10)¸ siv2N(500;10):
Dup˘a4ore de zbor (adic ˘a avem câte o selec¸ tie de volum 4pentru fiecare v.a.), mediile de
selec¸ tie for satisface:
v1N(510;5)¸ siv2N(500;5):
Diferen¸ ta mediilor de selec¸ tie este o v.a. repartizat ˘a astfel:
v1v2N(10;5p
2):
(a) Evenimentul ca, dup ˘a4ore de zbor, al doilea avion s ˘a nu îl fi ajuns pe primul este
f4v14v2+6>0g. Probabilitatea acestui eveniment este:
P(f4v14v2+6>0g) = P(fv1v2>3
2g) =1P(fv1v23
2g)
=1Fv1v2(3
2)
= 1 – normcdf(-3/2,10,5*sqrt(2)) =0:9994 :
(b) Evenimentul ca, dup ˘a4ore de zbor, distan¸ ta dintre cele dou ˘a avioane s ˘a fie de cel
mult 5km estefj4v14v2+6j5g. Probabilitatea acestui eveniment este:
P(fj4v14v2+6j5g) = P
11
4v1v21
4
=Fv1v2
1
4
Fv1v2
11
4
=0:0017 :
În M ATLAB , putem calcula astfel:
normcdf(-1/4,10,5*sqrt(2)) – normcdf(-11/4,10,5*sqrt(2)) :
Exerci¸ tiu 4.6 Becurile produse de un manufacturier Aau timpul mediu de func¸ tionare
de1400 ore, cu devia¸ tia standard de 200ore, în timp ce timpul mediu de func¸ tionare ale
becurilor produse de un manufacturier Bau timpul mediu de func¸ tionare de 1200 ore, cu
devia¸ tia standard de 100 ore. Se face o selec¸ tie de 125 becuri din fiecare tip ¸ si se testeaz ˘a
becurile alese. Pentru selec¸ tiile date, care este probabilitatea ca becurile produse de Aau
un timp mediu de via¸ t ˘a mai mare cu
(a) 160 de ore;
(b) 250 de ore;
mai mare decât timpul mediu de func¸ tionare ale becurilor produse de B?
(c) Care este probabilitatea ca timpul mediu de func¸ tionare al becurilor selectate din tipul
As˘a fie cuprins între 1375 de ore ¸ si 1425 de ore?
(d) Presupunem c ˘a timpul mediu de func¸ tionare ale becurilor produse de Aeste o v.a.
normal ˘a. Alegem la întâmplare un bec de tipul A. Care este probabilitatea ca timpul s ˘a
mediu de func¸ tionare s ˘a fie cuprins între 1375 de ore ¸ si 1425 de ore?

74 Capitolul 4. No¸ tiuni de Teoria selec¸ tiei statistice
R: Not˘am cu T1¸ siT2cele dou ˘a timpuri de func¸ tionare. Avem c ˘a
mT1=1400 ;sT1=200 ¸ si mT2=1200 ;sT2=100:
Pentru o selec¸ tie de volum n=125(vom considera c ˘a selec¸ tia este repetat ˘a, deoarece volu-
mul selec¸ tiei este mult mai mic decât num ˘arul becurilor produse de fiecare manufacturir),
avem c ˘a:
T1N(1400 ;200
5p
5)¸ siT2N(1200 ;100
5p
5):
Diferen¸ ta mediilor de selec¸ tie este o v.a. repartizat ˘a astfel:
T1T2N(200;20):
(a) Probabilitatea cerut ˘a este:
P(T1T2>160) = 1FT1T2(160)
= 1 – normcdf(160,200,20) =0:9772 :
(b) Probabilitatea cerut ˘a este:
P(T1T2>250) = 1FT1T2(250)
= 1 – normcdf(250,200,20) =0:0062 :
(c) Probabilitatea cerut ˘a este:
P(1375T11425) = FT1(1425)FT1(1375)
= normcdf(1425,1400,8*sqrt(5))-normcdf(1375,1400,8*sqrt(5))
=0:8377 :
(d) Probabilitatea cerut ˘a este:
P(1375T11425) = FT1(1425)FT1(1375)
= normcdf(1425,1400,200) – normcdf(1375,1400,200)
=0:0995 :
4.6 Exerci¸ tii propuse
Exerci¸ tiu 4.7 Cantitatea de ap ˘a consumat ˘a de Ana în fiecare zi se presupune a fi o v.a.
normal ˘a cu media 2l¸ si devia¸ tia standard 300ml, independent ˘a de zi. Ana a cump ˘arat
azi un bax de 6sticle a câte 2:5litri de ap ˘a fiecare. Presupunând c ˘a Ana bea doar din
apa cump ˘arat˘a azi, care este probabilitatea ca ea s ˘a mai aib ˘a ap˘a din acest stoc ¸ si dup ˘a o
s˘apt˘amân ˘a (7 zile, inclusiv cea de azi)?
Exerci¸ tiu 4.8 Masa medie a unui bagaj ce trece pe la serviciul de check-in al aeroportului
din Ia¸ si pentru cursa de Viena este o v.a. cu media 21kg¸ si devia¸ tia standard 3:5kgpentru
pasagerii de la clasa economic ¸ si o v.a. cu media 12kg¸ si devia¸ tia standard 4:5kgpentru
pasagerii de la clasa business. Presupunem c ˘a aceste valori sunt ale unor variabile aleatoare
independente de la un pasager la altul, indiferent de clas ˘a.

4.6 Exerci¸ tii propuse 75
(a) Într-o anumit ˘a curs ˘a se afl ˘a16pasageri la clasa business ¸ si 81pasageri la clasa
economic. Care este valoarea a¸ steptat ˘a ¸ si devia¸ tia standard a masei totale de bagaje ale
pasagerilor din acel avion?
(b) Care este probabilitatea ca masa total ˘a de bagaje ale celor 97de pasageri pentru
aceast ˘a curs ˘a s˘a nu dep ˘a¸ seasc ˘a 2000 kg?
(c) Se aleg la întâmplare bagajele a 6pasageri de la clasa economic ¸ si a 10pasageri de
la clasa business ¸ si se cânt ˘aresc. Care este probabilitatea ca diferen¸ ta maselor bagajelor
dintre cele dou ˘a clase s ˘a fie mai mic ˘a de 20 kg?
Exerci¸ tiu 4.9 Batoanele de ciocolat ˘a produse de o anumit ˘a firm ˘a cânt ˘aresc fiecare 50g, cu
devia¸ tia standard 0:02g. Se aleg la întâmplare dou ˘a loturi de batoane de ciocolat ˘a, fiecare
având 100de buc ˘a¸ ti. Care este probabilitatea ca diferen¸ ta dintre masele totale ale celor
dou˘a loturi s ˘a nu fie mai mare de 5 g?
Exerci¸ tiu 4.10 Presupunem c ˘a timpul de a¸ steptare a autobuzului în sta¸ tie este o v.a. repar-
tizat˘aU(0;10)pentru orele dimine¸ tii, iar timpul de a¸ steptare a autobuzului în sta¸ tie la
orele serii este o v.a. repartizat ˘aU(0;8). To¸ ti timpii sunt independen¸ ti între ei.
(a) Dac ˘a într-o anumit ˘a s˘apt˘amân ˘a lua¸ ti autobuzul în fiecare zi ( 5zile lucr ˘atoare), care
este timpul total mediu pe care v ˘a a¸ stepta¸ ti s ˘a-l petrece¸ ti în sta¸ tia de autobuz în întreaga
s˘apt˘amân ˘a?
(b) Care este abaterea standard a timpului total petrecut în sta¸ tia de autobuz în întreaga
s˘apt˘amân ˘a?
(c) Determina¸ ti valoarea medie ¸ si abaterea standard a diferen¸ tei dintre timpul total petrecut
diminea¸ ta ¸ si timpul total petrecut seara în sta¸ tia de autobuz în întreaga s ˘apt˘amân ˘a?
Exerci¸ tiu 4.11 Presupunem c ˘a timpul necesar pescuirii unui pe¸ ste dintr-un anumit iaz este
o variabil ˘a aleatoare repartizat ˘aexp(10min). La un concurs, ¸ sapte pescari se întrec în a
prinde câte un pe¸ ste, c⸠stigând cel care l-a prins primul.
(i) Care este probabilitatea ca primul pe¸ ste s ˘a fie prins în mai pu¸ tin de 7 minute?
(ii) Care este probabilitatea ca to¸ ti cei 7pescari s ˘a fi prins câte un pe¸ ste în mai pu¸ tin de
15 minute?
Exerci¸ tiu 4.12 Un anumit component electric, care este strict necesar pe un satelit ce
orbiteaz ˘a P˘amântul, are durata medie de func¸ tionare continu ˘a de 10 zile.
(a) Care este probabilitatea ca durata de func¸ tionare continu ˘a a unui astfel de component
s˘a dep ˘a¸ seasc ˘a 10 zile? (se consider ˘a c˘a timpul de func¸ tionare este o v.a. exponen¸ tial ˘a).
(b) De îndat ˘a ce se defecteaz ˘a, acest component va trebui înlocuit imediat cu unul nou,
identic. Care este num ˘arul minim de componente de acest tip ce trebuie luate la plecarea
într-o misiune de un an, pentru ca probabilitatea ca satelitul s ˘a devin ˘a inoperativ din cauza
epuiz ˘arii tuturor rezervelor func¸ tionabile s ˘a fie mai mic ˘a de 0 :02?

5. Estimatori. Intervale de incredere
. Q: How many statisticians does it take to change a lightbulb?
. A: 1 to 3. (a=0:05)
5.1 Defini¸ tii
Una dintre problemele de care se preocupa Statistica este estimarea parametrilor unei
populatii. Consideram o populatie statistica de volum N(finit sau infinit) si Xo caracteris-
tica (variabila aleatoare) a sa. Pe baza unor observatii asupra lui X,x1;x2; :::; xn, dorim
sa estimam parametrii m=EX;s2=D2(X). In continuare, vom preciza atat estimatori
punctuali pentru acesti parametri, cat si intervale de incredere.
Deoarece setul de valori observate poate sa difere de la un esantion la altul, vom considera
in locul lor variabilele aleatoare de selec¸ tie repetat ˘a de volum n,fX1;X2; :::; Xng. Cu alte
cuvinte, xieste o posibila valoare a variabilei Xi(i=1;2; ;:::; n). Aceste variabile sunt
independente si repartitia lor comuna este reparti¸ tia lui X.
•O functie f(X1;X2; :::; Xn)ce depinde de aceste variabile se va numi generic statis-
tic˘ a. In caz ca nu este pericol de confuzie, valoarea statisticii pentru un esantion,
f(x1;x2; :::; xn), se numeste tot statistic˘ a .
•Se nume¸ ste estimator al lui qo statistic ˘aˆq=ˆq(X1;X2; :::; Xn);cu ajutorul c ˘areia
dorim s ˘a îl aproxim ˘am pe q. În acest caz, ne-am dori s ˘a ¸ stim în ce sens ¸ si cât de bine
este aceast ˘a aproxima¸ tie.
•Dac˘afx1;x2; :::; xngsunt date observate, atunci ˆq=ˆq(x1;x2; :::; xn)se nume¸ ste
estima¸ tie a luiq. A¸ sadar, o estima¸ tie pentru un parametru necunoscut este valoarea
estimatorului pentru selec¸ tia observat ˘a. Prin abuz de nota¸ tie, vom nota atât estima-
torul cât ¸ si estima¸ tia cu ˆq¸ si vom face diferen¸ ta între ele prin precizarea variabilelor
de care depind.
Deoarece estimarile sunt bazate doar pe valorile unei submultimi din colectivitate, ele nu
pot fi exacte. Apar astfel erori de aproximare. Ne-am dori s ˘a ¸ stim în ce sens ¸ si cât de bine
un estimator aproximeaza (se apropie) de valoarea estimata. Pentru aceasta, avem nevoie

78 Capitolul 5. Estimatori. Intervale de incredere
de anumite cantitati care sa cuantifice erorile de aproximare. In acest sens, vom discuta
aici despre: deplasare, eroarea medie patratica si eroarea standard.
•Un estimator ˆqse numeste estimator nedeplasat (en.,unbiased estimator) pentru
parametrul qdac˘a media estimatorului este chiar valoarea parametrului pe care
estimeaza. Matematic, scriem astfel:
E(ˆq) =q:
•Altfel, spunem c ˘aˆqeste un estimator deplasat pentru q, iardeplasarea (distorsiunea)
se define¸ ste prin:
b(ˆq;q) =E(ˆq)q:
Cantitatea b(ˆq;q)este o m ˘asur˘a a erorii pe care o facem în estimarea lui qprin ˆq.
•O alta masura a incertitudinii cu care un estimator aproximeaza parametrul este
eroarea standard (en.,standard error), notata aici prin s(ˆq)sausˆq. Spre exemplu,
daca estimatorul ˆqesteX, atunci
sX=spn;
unde seste deviatia standard a unei singure observatii. Se observa de aici ca sXva
tinde la 0 daca ncreste nemarginit. Astfel, daca numarul de masuratori creste, media
acestor masuratori se apropie mult de valoarea parametrului m.
•Unestimator pentru eroarea standard (en.,estimated standard error), notata aici prin
bs(ˆq)saubsˆqsausˆq. Spre exemplu, daca estimatorul ˆqesteX, atunci un estimator
pentru eroarea standard este
sX=spn;
unde seste estimatorul nedeplasat pentru deviatia standard.
•Numim eroare medie p˘ atratic˘ a a unui estimator ˆqpentru q(en.,mean squared error)
cantitatea
MSE(ˆq;q) =Eˆqq2
:
Aceasta cantitate ne va indica valoarea medie a patratului diferentei dintre estimator
si valoarea parametrului estimat. Pentru un estimator nedeplasat, MSEeste chiar
dispersia estimatorului, s2
ˆq.
Exemple de estimatori:
1. Media de selec¸ tie
X=1
nn
å
i=1Xi
este un estimator nedeplasat pentru parametrul m(media teoretic ˘a).
2. Dispersia de selec¸ tie
S2=1
n1n
å
i=1[XiX]2
este un estimator nedeplasat pentru dispersia teoretic ˘a pentru parametrul s2.

5.1 Defini¸ tii 79
3. Statistica
S2
=1
nn
å
i=1[XiX]2
este un estimator deplasat pentru parametrul s2, deplasarea fiind
b(s2;s2) =s2
n:
•Un estimator nedeplasat ˆqpentru q;q2Q;se nume¸ ste estimator nedeplasat
uniform de dispersie minim˘ a (en.,Uniformly Minimum Variance Unbiased Estimator
– UMVUE ) dac ˘a pentru orice alt estimator nedeplasat pentru q, notat cu ˆq, avem
Var(ˆq)Var(ˆq);
pentru orice valoarea a parametrului q.
• Estimatorul ˆqpentru qeste un estimator consistent dac˘a
ˆq(X1;X2; :::; Xn)prob!q;când n!¥:
În acest caz, valoarea numeric ˘a a estimatorului, ˆq(x1;x2; :::; xn), se nume¸ ste esti-
ma¸ tie consistent˘ a pentru q.
•Pentru un anumit parametru pot exista mai mul¸ ti estimatori nedeplasati. De exemplu,
pentru parametrul ldin reparti¸ tia Poisson P(l)exist ˘a urm ˘atorii estimatori:
X¸ siS2:
Dintre doi estimatori pentru un parametru, este de preferat acel estimator care are
dispersia minima. In exemplul anterior il vom alege pe X.
•Dac˘aˆqeste un estimator pentru qeste un estimator ob¸ tinut prin metoda verosimil-
it˘a¸ tii maxime ¸ si h(x)este o func¸ tie bijectiv ˘a, atuncidh(q) =h(bq). În cazul în care
h(x)nu este bijectiv ˘a, atunci rela¸ tia anterioar ˘a nu este neap ˘arat valabil ˘a, dup ˘a cum
arat˘a exemplul urm ˘ator.
Exemplu 5.1 Fieˆqun estimator pentru q. P˘atratul acestui estimator, ˆq2nu este, în general,
estimatorul pentru q2. Aici, h(x) =x2. De exemplu, s ˘a presupunem c ˘aXN(0;1)¸ si
avem urm ˘atoarele 30 de observa¸ tii asupra lui X:
0.3617; -2.0587; -2.3320; -0.3709; 1.2857; 0.5570
-0.1802; -0.0357; 1.9344; 1.3056; 0.0831; -0.3277
-0.3558; 0.4334; -1.2230; -1.0381; -2.7359; -0.0312
2.0718; -0.5944; 0.6286; -0.5350; 2.2090; -0.6057
1.4352; 1.1948; 0.7431; -0.1214; 0.8678; -1.0030.
Un estimator absolut corect pentru media teoretic ˘a a lui X, i.e., pentru mX=0, este X.
(pentru selec¸ tia dat ˘a,X=0:0521 ). Variabila aleatoare X2urmeaz ˘a reparti¸ tia c2(1)¸ si are
media mX2=1(vezi reparti¸ tia c2). Un estimator absolut corect pentru mX2esteX2. Pe de
alt˘a parte, pentru selec¸ tia dat ˘a avem c ˘aX21:4 iar
X2=0:027.

80 Capitolul 5. Estimatori. Intervale de incredere
5.2 Metode folosite pentru estimarea parametrilor
• metoda verosimilit ˘a¸ tii maxime;
• metoda momentelor;
• metoda minimului lui c2;
• metoda celor mai mici p ˘atrate;
• metoda intervalelor de încredere.
5.2.1 Metoda verosimilit ˘a¸ tii maxime
Fie caracteristica Xstudiat ˘a, care are func¸ tia de probabilitate f(x;q)(unde q=
(q1;q2; :::; qp)sunt parametri necunoscu¸ ti). S ˘a presupunem c ˘a avem nobserva¸ tii asupra
caracteristicii X, adic ˘a am ales o selec¸ tie de date,
x1;x2; :::; xn:
FiefX1;X2; :::; Xngvariabilele aleatoare de selec¸ tie repetat ˘a de volum n.
Defini¸ tia 5.2.1 (1) Numim estimator de verosimilitate maxim˘ a (maximum likelihood
estimator) pentru qo statistic ˘aˆq=ˆq(X1;X2; :::; Xn)pentru care se ob¸ tine maximumul
func¸ tiei de verosimilitate,
L(X;q) =n
Õ
k=1f(Xk;q):
(2) Valoarea unei astfel de statistici pentru o observa¸ tie dat ˘a se nume¸ ste estima¸ tie de
verosimilitate maxim˘ a pentru q.
Observa¸ tia 5.1 Aceasta metod ˘a estimeaz ˘a "valoarea cea mai verosimil ˘a" pentru
parametrul q.
Nu este necesar ca¶L
¶qs˘a existe pentru ca estimatorul de verosimilitate maxim ˘a s˘a fie
calculat. Dac ˘a aceasta exist ˘a, atunci acest estimator se ob¸ tine ca solu¸ tia ˆqa sistemului de
ecua¸ tii:
¶L(X;q)
¶qk=0;k=1;2; :::; p; (5.2.1)
care este echivalent cu urm ˘atorul sistem:
¶lnL(X;q)
¶qk=n
å
i=1¶lnf(Xi;q)
¶qk=0;k=1;2; :::; p: (5.2.2)
Exemplu 5.2 Estima¸ ti prin metoda verosimilit ˘a¸ tii maxime parametrii unei caracteristici
XN(m;s).
Solu¸ tie: Legea de probabilitate pentru XN(m;s)este
f(x;m;s) =1
sp
2pe(xm)2
2s2;x2R:
Alegem o selec¸ tie repetat ˘a de volum n, pe care o vom nota (Xk)k=1;n.
Parametrii caracteristicii Xsuntq= (m;s)¸ si func¸ tia de verosimilitate asociat ˘a selec¸ tiei

5.2 Metode folosite pentru estimarea parametrilor 81
este
L(X;m;s) =Õ
k=1f(Xk;m;s)
=1
sn(2p)n
2en
å
k=1(Xkm)2
2s2
:
Astfel,
lnL(X;m;s) =ln1
sn(2p)n
2
1
2s2n
å
k=1(Xkm)2:
A¸ sadar, pentru a g ˘asi estimatorii de verosimilitate maxim ˘a pentru m¸ sis, avem de rezolvat
sistemul:8
>>><
>>>:¶L
¶ m=1
s2n
å
k=1(Xkm) =0;
¶L
¶s=n
s+1
s3n
å
k=1(Xkm)2=0:
Se observ ˘a cu usurin¸ t ˘a c˘a solu¸ tia sistemului ce convine (¸ tinem cont c ˘as>0) este
ˆm=1
nn
å
k=1Xk=X; ˆs=s
1
nn
å
k=1(XkX)2=d(X): (5.2.3)
Verific ˘am acum dac ˘a valorile g ˘asite sunt valori de maxim. Pentru aceasta, matricea hessian ˘a
calculat ˘a pentru valorile ob¸ tinute trebuie s ˘a fie negativ definit ˘a. Mai întâi, calcul ˘am matricea
hessian ˘a. Aceasta este:
H(m;s) =¶2L
¶ m¶s=0
BBB@n
s22
s3n
å
k=1(Xkm)
2
s3n
å
k=1(Xkm)n
s2
13
ns2n
å
k=1(Xkm)2!1
CCCA:
Acum calcul ˘amH(ˆm;ˆs).
H(ˆm;ˆs) =¶2L
¶ m¶sjm=ˆm;s=ˆs=0
@n
ˆs20
02n
ˆs21
A;
care este o matrice negativ definit ˘a, deoarece valorile sale proprii, adic ˘a r˘ad˘acinile polino-
mului caracteristic
det(H(ˆm;ˆs)lI2) =0;
sunt
l1=n
ˆs2<0 ¸ si l2=2n
ˆs2<0:
Deci, estimatorii ˆm¸ siˆsob¸ tinu¸ ti prin metoda verosimilit ˘a¸ tii maxime sunt
m=X ¸ sis=d(X):p
Observa¸ tia 5.2 De remarcat faptul c ˘a estimatorul d(X)ob¸ tinut prin metoda verosimil-
it˘a¸ tii maxime nu este absolut corect, ci doar corect.

82 Capitolul 5. Estimatori. Intervale de incredere
5.2.2 Metoda momentelor (K. Pearson)
În anumite cazuri, valorile critice pentru func¸ tia de verosimilitate sunt dificil de calculat.
De aceea, e nevoie de alte metode pentru a g ˘asi estimatori pentru parametri.
Fie caracteristica Xcare are func¸ tia de probabilitate f(x;q)(unde q= (q1;q2; :::; qp)sunt
parametri necunoscu¸ ti) ce admite momente pân ˘a la ordinul p(adic ˘a,ap=E(Xp)<¥).
Dorim s ˘a g˘asim estimatori (estima¸ tii) punctuale ale parametrilor necunoscu¸ ti. Pentru
aceasta, efectu ˘am observa¸ tii asupra caracteristicii, adic ˘a alegem o selec¸ tie de date,
x1;x2; :::; xn:
FiefX1;X2; :::; Xngvariabilele aleatoare de selec¸ tie repetat ˘a de volum n. Metoda mo-
mentelor const ˘a în estimarea parametrilor necunoscu¸ ti din condi¸ tiile ca momentele ini¸ tiale
de selec¸ tie s ˘a fie egale cu momentele ini¸ tiale teoretice respective, ale lui X. Aceasta
înseamn ˘a c˘a avem de rezolvat un sistem de ecua¸ tii în care necunoscutele sunt parametrii
ce urmeaz ˘a a fi estima¸ ti.
Defini¸ tia 5.2.2 Numim estimator (punctual) pentru qob¸ tinut prin metoda momentelor
solu¸ tia
ˆq= (ˆq1;ˆq2; :::; ˆqp) (aici ˆqk=ˆqk(X1;X2; :::; Xn);k=1;p)a sistemului:
a1(X1;X2; :::; Xn) = a1(X); (5.2.4)
a2(X1;X2; :::; Xn) = a2(X);

ap(X1;X2; :::; Xn) = ap(X);
unde ak(X1;X2; :::; Xn)sunt momentele de selec¸ tie de ordin kpentru X,
ak(X1;X2; :::; Xn) =1
nn
å
i=1Xk
i;
¸ siak(X)sunt momentele teoretice pentru X(care depind de q), adic ˘a:
ak=E(Xk);k=1;2; :::; p:
Oestima¸ tie (punctual ˘a) pentru qva fi o realizare a estimatorului ˆq= (ˆq1;ˆq2; :::; ˆqp), unde
componentele sunt ˆqk=ˆqk(x1;x2; :::; xn),k=1;p).
Observa¸ tia 5.3 Aceasta metod ˘a este fundamentat ˘a teoretic pe faptul c ˘a momentele de se-
lec¸ tie sunt estimatori absolut corec¸ ti pentru momentele teoretice corespunz ˘atoare. Metoda
nu poate fi aplicat ˘a reparti¸ tiilor care nu admit medie (e.g., reparti¸ tia Cauchy).
Exemplu 5.3 FieXU(a;b)caracteristica unei popula¸ tii, unde a<bsunt numere reale.
Utilizând metoda momentelor, determina¸ ti estimatori pentru capetele intervalului.
Solu¸ tie: Dac˘aXU(a;b), atunci
E(X) =a+b
2;Var(X) =(ba)2
12;
de unde
E(X2) =Var(X)+[E(X)]2=a2+ab+b2
3:

5.3 Estimarea parametrilor prin intervale de încredere 83
Sistemul (5.2.4) se scrie astfel în acest caz:
a1(X1;X2; :::; Xn) =E(X) (5.2.5)
a2(X1;X2; :::; Xn) =E(X2);
unde
a1=1
nn
å
i=1Xi;a2=1
nn
å
i=1X2
i:
Inlocuind în rela¸ tiile (5.2.5), avem de g ˘asit solu¸ tia (ˆa;ˆb)a urm ˘atorului sistem:
a+b=2a1
ab=4a2
13a2:
Aceasta este:
ˆa=a1p
3q
a2a2
1;ˆb=a1+p
3q
a2a2
1:
F˘acând calculele ¸ si ¸ tinând cont c ˘aa1=X, ob¸ tinem estimatorii pentru a¸ si, respectiv, b:
ˆa=Xp
3S;ˆb=X+p
3S;
unde
X=1
nn
å
i=1Xi¸ siS=s
1
nn
å
i=1(XiX)2:
Estima¸ tiile punctuale pentru a¸ sibsunt:
ˆa=1
nn
å
i=1xis
3
nn
å
i=1(xix)2; ˆb=1
nn
å
i=1xi+s
3
nn
å
i=1(xix)2 p
5.3 Estimarea parametrilor prin intervale de încredere
Dup˘a cum am v ˘azut anterior, putem determina estima¸ tii punctuale pentru parametrii unei
populatii îns ˘a, o estima¸ tie punctual ˘a, nu precizeaz ˘a cât de aproape se g ˘ase¸ ste estima¸ tia
ˆq(x1;x2; :::; xn)fa¸ t˘a de valoarea real ˘a a parametrului q. De exemplu, dac ˘a dorim s ˘a
estim ˘am masa medie a unor produse alimentare fabricate de o anumit ˘a ma¸ sin ˘a, atunci
putem g ˘asi un estimator punctual (e.g., media de selec¸ tie) care s ˘a ne indice c ˘a aceasta este
de500de grame. Ideal ar fi dac ˘a aceast ˘a informa¸ tie ar fi prezentat ˘a sub forma: masa medie
este 500g10g.
Putem ob¸ tine astfel de informa¸ tii dac ˘a vom construi un interval în care, cu o probabilitate
destul de mare, s ˘a g˘asim valoarea real ˘a a lui q.
S˘a consider ˘am o selec¸ tie repetat ˘a de volum n,X1;X2; :::; Xn, ce urmeaz ˘a reparti¸ tia lui X.
Dorim s ˘a g˘asim un interval aleator care s ˘a acopere cu o probabilitate mare (e.g., 0:95,0:98,
0:99 etc) valoarea posibil ˘a a parametrului necunoscut.
Pentru un a2(0;1), foarte apropiat de 0(de exemplu, a=0:01,0:02,0:05etc). Numim
interval de încredere (en.,confidence interval (C.I.)) pentru parametrul q, cu probabilitatea
de încredere 1a, un interval aleator (q;q)astfel încât
P(q<q<q) =1a; (5.3.6)

84 Capitolul 5. Estimatori. Intervale de incredere
unde q(X1;X2; :::; Xn)¸ siq(X1;X2; :::; Xn)sunt statistici. Spre exemplu, un interval de
încredere cu semnifica¸ tia 0:95(en., a95% C.I.) este un interval aleator ce acoper ˘a valoarea
real˘a a parametrului qcu probabilitatea 0:95. Probabilitatea 0:95este asociat ˘a intervalului
¸ si nu parametrului de estimat, q. Cu alte cuvinte, în cazul unui interval de încredere cu
încrederea de 95%, este gre¸ sit ˘a afirma¸ tia c ˘a probabilitatea ca parametrul estimat s ˘a se
afle în acest interval este de 0:95. Intervalul este aleator iar parametrul de estimat este o
constant ˘a.
Pentru o observa¸ tie fixat ˘a, capetele intervalului (aleator) de încredere vor fi func¸ tii de
valorile de selec¸ tie. De exemplu, pentru datele observate, x1;x2; :::; xn, intervalul

q(x1;x2; :::; xn);q(x1;x2; :::; xn)
se nume¸ ste valoare a intervalului de încredere pentru q. Pentru simplitate îns ˘a, vom folosi
termenul de "interval de încredere" atât pentru intervalul propriu-zis, cât ¸ si pentru valoarea
acestuia, în¸ telesul desprinzându-se din context.
Valoarea ase nume¸ ste nivel de semnifica¸ tie sauprobabilitate de risc . Cu cât aeste mai
mic (de regul ˘a,a=0:01sau0:02sau0:05), cu atât ¸ sansa (care este (1a)100% ) ca
valoarea real ˘a a parametrului qs˘a se g ˘aseasc ˘a în intervalul g ˘asit este mai mare. De¸ si ¸ sansele
99% sau99:99% par a fi foarte apropiate ¸ si ar da rezultate asem ˘an˘atoare, sunt cazuri în
care fiecare sutime conteaz ˘a. De exemplu, s ˘a presupunem c ˘a într-un an calendaristic un
eveniment are ¸ sansa de 99% de a se realiza, în orice zi a anului, independent de celelalte
zile. Atunci, ¸ sansa ca acest eveniment s ˘a se realizeze în fiecare zi a anului în tot decursului
acestui an este de 0:993652:55%. Dac ˘a ¸ sansa de realizare în fiecare zi ar fi fost de
99:99%, atunci rezultatul ar fi fost 96:42%, ceea ce înseamn ˘a o diferen¸ t ˘a foarte mare
generat ˘a de o diferen¸ t ˘a ini¸ tial ˘a foarte mic ˘a.
Intervalul de încredere pentru valoarea real ˘a a unui parametru nu este unic. Dac ˘a ni se dau
condi¸ tii suplimentare (e.g., fixarea unui cap ˘at), atunci putem ob¸ tine intervale infinite la un
cap˘at ¸ si finite la cel ˘alalt cap ˘at.
În continuare, vom preciza intervale de încredere pentru parametrii unor caracteristici
normale. În fiecare caz, nivelul de semnifica¸ tie este a. Mai întâi, vom preciza intervalele
de încredere pentru medie, dispersie ¸ si propor¸ tie, bazate pe o singur ˘a selec¸ tie, apoi intervale
de încredere pentru diferen¸ ta mediilor, pentru raportul dispersiilor si diferen¸ ta propor¸ tiilor,
bazate pe dou ˘a selec¸ tii aleatoare.

5.3 Estimarea parametrilor prin intervale de încredere 85
O singur ˘a popula¸ tie statistic ˘a
5.3.1 Interval de încredere pentru medie
(1) Dispersia este cunoscut ˘a
Intervalul de incredere pentru medie poate fi bilateral (daca nu exista alte informatii
suplimentare despre interval, atunci il alegem centrat) sau unilateral (daca nu exista limita
superioara sau inferioara pentru medie). V om nota cu prin zacuantila de ordin apentru
repartitia N(0;1).
(1)Intervalul de încredere bilateral pentru media teoretic ˘amcândseste cunoscut este:
(m;m) =
xz1a
2spn;x+z1a
2spn
: (5.3.7)
(2)Dac˘a pentru media teoretic ˘a nu se precizeaz ˘a o limit ˘a superioar ˘a, atunci intervalul
de încredere este:
(m;¥) =
xz1aspn;¥
:
(3)Dac˘a pentru media teoretic ˘a nu se precizeaz ˘a o limit ˘a inferioar ˘a, atunci intervalul de
încredere este:
(¥;m) =
¥;x+z1aspn
:
În cazul în care volumul selec¸ tiei este mare (de cele mai multe ori în practic ˘a, aceasta
înseamn ˘an30) metoda de determinare a unui interval de încredere prezentat ˘a mai sus
se poate aplica ¸ si pentru selec¸ tii dintr-o colectivitate ce nu este neap ˘arat normal ˘a. Aceasta
este o consecin¸ t ˘a faptului c ˘a, pentru nmare, statistica Xurmeaz ˘a reparti¸ tia N(0;1)
pentru orice form ˘a a reparti¸ tiei caracteristicii X(conform teoremei limit ˘a central ˘a).
Intervalele de încredere determinate mai sus sunt valide pentru selec¸ tia (repetat ˘a sau
nerepetat ˘a) dintr-o popula¸ tie infinit ˘a, sau pentru selec¸ tii repetate dintr-o popula¸ tie finit ˘a. În
cazul selec¸ tiilor nerepetate din colectivit ˘a¸ ti finite, în estimarea intervalelor de încredere
vom ¸ tine cont ¸ si de volumul Nal popula¸ tiei. Spre exemplu, dac ˘a selec¸ tia de volum n
se face dintr-o popula¸ tie finit ˘a de volum N¸ sin0:05N, atunci un interval de încredere
centrat pentru media popula¸ tiei este:
(m;m) =
xz1a
2spnr
Nn
N1;x+z1a
2spnr
Nn
N1!
: (5.3.8)
(2) Dispersia este necunoscut ˘a
Ne afl ˘am în condi¸ tiile din sec¸ tiunea precedent ˘a (i.e., o caracteristic ˘a normal ˘a,X
N(m;s)), mai pu¸ tin faptul c ˘aseste cunoscut. Dac ˘a devia¸ tia standard snu este cunos-
cut˘a, atunci ea va trebui estimat ˘a. ¸ Stim deja c ˘a o estima¸ tie absolut corect ˘a pentru seste
statistica s, dat˘a prin
s=s
1
n1n
å
i=1(xix)2:
Intervalele de incredere sunt:

86 Capitolul 5. Estimatori. Intervale de incredere
(1)Dac˘a nu se cunoa¸ ste o alt ˘a informa¸ tie suplimentar ˘a despre m, atunci intervalul de
încredere pentru media teoretic ˘amcând seste necunoscut este:
(m;m) =
xt1a
2;n1spn;x+t1a
2;n1spn
: (5.3.9)
(2)Dac˘a pentru media teoretic ˘a nu se precizeaz ˘a o limit ˘a superioar ˘a, atunci intervalul
de încredere este:
(m;¥) =
xt1a;n1spn;¥
:
(3)Dac˘a pentru media teoretic ˘a nu se precizeaz ˘a o limit ˘a inferioar ˘a, atunci intervalul de
încredere este:
(¥;m) =
¥;x+t1a;n1spn
:
Aici, prin ta;n1am notat cuantila de ordin apentru reparti¸ tia tcu(n1)grade de
libertate.
Formulele din aceast ˘a sec¸ tiune sunt practice atunci când selec¸ tia se face dintr-o colectivitate
gaussian ˘a de volum nmic. Când neste mare, atunci va fi o diferen¸ t ˘a foarte mic ˘a între
valorile z1a
2¸ sit1a
2;n1, de aceea am putea folosi z1a
2în locul valorii t1a
2;n1. Mai
mult, pentru un nmare ( n30), intervalele de încredere ob¸ tinute mai sus r ˘amân acelea¸ si
pentru orice form ˘a a reparti¸ tiei caracteristicii X, nu neap ˘arat pentru una gaussian ˘a. A¸ sadar,
pentru o selec¸ tie de volum mare dintr-o colectivitate oarecare, un interval de încredere
pentru media popula¸ tiei, când dispersia nu este cunoscut ˘a, este:
(m;m) =
xz1a
2spn;x+z1a
2spn
: (5.3.10)
5.3.2 Interval de încredere pentru dispersie
(1) Media este cunoscut ˘a
Pentru estimarea punctual ˘a a lui s2când media este cunoscut ˘a folosim statistica s2
definit ˘a
prin
s2
=1
nn
å
i=1[xim]2:
În func¸ tie de faptul dac ˘a avem sau nu informa¸ tii suplimentare despre dispersie (analog ca
anterior), g ˘asim c ˘a intervalul de încredere pentru s2, dup ˘a cum urmeaz ˘a:
(1)nu avem informa¸ tii suplimentare despre dispersie:
(s2;s2) =
ns2

c2
1a
2;n;ns2

c2a
2;n!
; (5.3.11)
(2)avem informa¸ tii c ˘a dispersia este nem ˘arginit ˘a superior:
(s2;s2) =
ns2

c2
1a;n;+¥!
; (5.3.12)

5.3 Estimarea parametrilor prin intervale de încredere 87
(3)avem informa¸ tii c ˘a dispersia este nem ˘arginit ˘a inferior:
(s2;s2) =
0;ns2

c2a;n
; (5.3.13)
unde prin c2
a;nam notat cuantila de ordin apentru reparti¸ tia c2cungrade de libertate.
(2) Media este necunoscut ˘a
Pentru estimarea punctual ˘a a lui s2când media este necunoscut ˘a folosim statistica s2
definit ˘a prin
s2=1
n1n
å
i=1[xix]2:
În func¸ tie de faptul dac ˘a avem sau nu informa¸ tii suplimentare despre dispersie, g ˘asim c ˘a
intervalul de încredere pentru s2este:
(1)nu avem informa¸ tii suplimentare despre dispersie:
(s2;s2) =
(n1)s2
c2
1a
2;n1;(n1)s2
c2a
2;n1!
; (5.3.14)
unde prin c2
a;n1am notat cuantila de ordin apentru reparti¸ tia c2cu(n1)grade
de libertate.
(2)avem informa¸ tii c ˘a dispersia este nem ˘arginit ˘a superior:
(s2;s2) =
(n1)s2
c2
1a;n1;+¥!
; (5.3.15)
(3)avem informa¸ tii c ˘a dispersia este nem ˘arginit ˘a inferior:
(s2;s2) =
0;(n1)s2
c2
a;n1!
: (5.3.16)
Intervale de încredere pentru devia¸ tia standard se ob¸ tin prin extragerea r ˘ad˘acinii p ˘atrate
din capetele de la intervalele de încredere pentru dispersie.
5.3.3 Interval de încredere pentru propor¸ tie
Pentru o popula¸ tie statistic ˘a, prin propor¸ tie a popula¸ tiei vom în¸ telege procentul din întreaga
colectivitate ce satisface o anumit ˘a proprietate (sau are o anumit ˘a caracteristic ˘a) (e.g.,
propor¸ tia de studen¸ ti integrali¸ sti dintr-o anumit ˘a facultate). Pe de alt ˘a parte, prin propor¸ tie
de selec¸ tie în¸ telegem procentajul din valorile de selec¸ tie ce satisfac o anumit ˘a proprietate
(e.g., propor¸ tia de studen¸ ti integrali¸ sti dintr-o selec¸ tie aleatoare de 40de studen¸ ti ai unei
facult ˘a¸ ti). Propor¸ tia unei popula¸ tii este un parametru (pe care îl vom nota cu p), iar
propor¸ tia de selec¸ tie este o statistic ˘a (pe care o not ˘am aici prin p).
FieXo caracteristic ˘a binomial ˘a a unei colectivit ˘a¸ ti, cu probabilitatea de succes p(e.g.,
num˘arul de steme ap ˘arute la aruncarea unei monede ideale, caz în care p=0:5). Dorim s ˘a
construim un interval de încredere pentru propor¸ tia popula¸ tiei, p. Pentru aceasta, avem

88 Capitolul 5. Estimatori. Intervale de incredere
nevoie de selec¸ tii de volum mare din aceast ˘a colectivitate. Un estimator potrivit pentru p
este propor¸ tia de selec¸ tie, adic ˘a
bp=p=X
n:
Printr-un "volum mare" vom în¸ telege un nce satisface: n30,nbp>5¸ sin(1bp)>5.
Media variabilei aleatoare XesteE(X) =np, iar dispersia este Var(X) =np(1p). Putem
scrie pe Xca fiind X=n
å
i=1Xi, unde Xisunt variabile aleatoare Bernoulli B(1;p). Pentru
un volum nmare, variabila aleatoare Xsatisface (conform teoremei limit ˘a central ˘a aplicat ˘a
¸ siruluifXigi):
Xn pp
n p(1p)=X
npr
p(1p)
n=bppr
p(1p)
nN(0;1):
Pe baza acestui rezultat, putem construi un interval de încredere pentru p, de forma:

bpz1a
2r
bp(1bp)
n;bp+z1a
2r
bp(1bp)
n!
: (5.3.17)
Deoarece pnu este a priori cunoscut, pa fost înlocuit sub radical cu estimatorul s ˘au.
Valoarea
E=z1a
2r
bp(1bp)
n(5.3.18)
se nume¸ ste eroarea standard a propor¸ tiei .Eeste eroarea care se face prin estimarea lui p
prin intervalul de încredere dat de (5.3.17).
Acest interval de încredere este valabil pentru selec¸ tie dintr-o popula¸ tie infinit ˘a (sau nN,
de regul ˘an<0:05N) sau pentru selec¸ tia cu repeti¸ tie dintr-o popula¸ tie finit ˘a. Dac ˘a selec¸ tia
se realizeaz ˘a f˘ar˘a repeti¸ tie dintr-o popula¸ tie finit ˘a (cu Nastfel înât n0:05N), atunci
intervalul de încredere este:

bpz1a
2r
bp(1bp)
nr
Nn
N1;bp+z1a
2r
bp(1bp)
nr
Nn
N1!
: (5.3.19)
Observa¸ tia 5.4 [1] Dac ˘a se dore¸ ste estimarea volumului selec¸ tiei pentru care se ob¸ tine
estimarea propor¸ tiei pprintr-un interval de încredere cu o eroare maxim ˘aE, atunci folosim
formula (5.3.18). Dac ˘a am putea ghici propor¸ tia popula¸ tiei, p, atunci g ˘asim urm ˘atoarea
estimare a volumului selec¸ tiei:
n=p(1p)z1a
2
E2
; (5.3.20)
unde []este partea întreag ˘a. Dac ˘apnu poate fi ghicit, atunci folosim faptul c ˘ap(1p)
este maxim pentru p=0:5 ¸ si estim ˘am pe nprin
n=1
4z1a
2
E2
:

5.3 Estimarea parametrilor prin intervale de încredere 89
[2] Exist ˘a ¸ si alte metode de a determina intervale de încredere pentru propor¸ tie. Spre
exemplu, intervalul urm ˘ator, ob¸ tinut de E. B. Wilson în 1927, este o îmbun ˘at˘a¸ tire a
intervalului (5.3.17), care ofer ˘a rezultate foarte bune chiar ¸ si pentru un nmic sau pentru
valori extreme ale lui p.
1
1+1
nz2
1a
2"
ˆp+1
2nz2
1a
2z1a
2r
1
nˆp(1ˆp)+1
4n2z2
1a
2#
(5.3.21)
Dou˘a popula¸ tii statistice
5.3.4 Interval de încredere pentru diferen¸ ta mediilor
FieX1¸ siX2caracteristicile a dou ˘a popula¸ tii. Presupunem ca aceste variabile sunt normale,
N(m1;s1), respectiv, N(m1;s1). Intervalul de incredere pentru diferenta mediilor este
bazat pe cate o selectie aleatoare pentru fiecare variabila. Alegem din prima popula¸ tie o
selec¸ tie repetat ˘a de volum n1, notat ˘a prin (X1i)i=1;n1, ce urmeaz ˘a reparti¸ tia lui X1, iar din a
doua popula¸ tie alegem o selec¸ tie repetat ˘a de volum n2, notat ˘a prin (X2j)j=1;n2, ce urmeaz ˘a
reparti¸ tia lui X2. Fix ˘am nivelul de semnifica¸ tie a. Fie(x1i)i=1;n1si(x2j)j=1;n2realizarile
variabilelor corespunzatoare. S ˘a not ˘am dispersiile de selec¸ tie pentru fiecare caracteristic ˘a
prin
s2
1=1
n11n1
å
i=1(x1ix1)2¸ sis2
2=1
n21n2
å
j=1(x2jx2)2:
Un estimator punctual pentru m1m2estex1x2.
Devia¸ tia standard a acestui estimator depinde de informa¸ tia ce o avem despre dispersii. Ele
pot fi: cunoscute, necunoscute ¸ si egale, necunoscute ¸ si diferite.
Tipic, intervalul de încredere pentru diferen¸ ta mediilor se va scrie sub forma
x1x2q1a
2sx1x2;x1x2+q1a
2sx1x2
;
unde q1a
2este cuantila de ordin 1a
2specific ˘a fiec ˘arui caz. Distingem urm ˘atoarele trei
cazuri:
(1)dispersiile s2
1¸ sis2
2sunt cunoscute a priori . Atunci, un interval de încredere pentru
diferen¸ ta mediilor este:0
@x1x2z1a
2s
s2
1
n1+s2
2
n2;x1x2+z1a
2s
s2
1
n1+s2
2
n21
A:
(2)dispersiile s2
1=s2
2=s2¸ si necunoscute. In acest caz, un interval de încredere
pentru m1m2este:0
@x1x2t1a
2;n1+n22q
(n11)s2
1+(n21)s2
2
n1+n22
1
n1+1
n2!1
2
;
x1x2+t1a
2;n1+n22q
(n11)s2
1+(n21)s2
2
n1+n22
1
n1+1
n2!1
21
A:

90 Capitolul 5. Estimatori. Intervale de incredere
(3)dispersiile s2
16=s2
2, necunoscute. Atunci, un interval de încredere pentru m1m2la
nivelul de semnifica¸ tie aeste:
0
@x1x2t1a
2;ms
s2
1
n1+s2
2
n2;x1x2+t1a
2;ms
s2
1
n1+s2
2
n21
A;
unde
m=s2
1
n1+s2
2
n22
s2
1
n121
n11+s2
2
n221
n212:
Pentru un volum de selec¸ tie nmare ( n30), intervalele de încredere ob¸ tinute mai sus
r˘amân acelea¸ si pentru orice form ˘a a reparti¸ tiei caracteristicii X, nu neap ˘arat pentru una
gaussian ˘a.
5.3.5 Interval de încredere pentru raportul dispersiilor
FieX1¸ siX2caracteristicile a dou ˘a popula¸ tii normale, N(m1;s1), respectiv, N(m2;s2),
pentru care nu se cunosc mediile ¸ si dispersiile teoretice. Alegem din prima popula¸ tie o
selec¸ tie repetat ˘a de volum n1ce urmeaz ˘a reparti¸ tia lui X1, iar din a doua popula¸ tie alegem
o selec¸ tie repetat ˘a de volum n2ce urmeaz ˘a reparti¸ tia lui X2. Fix ˘am nivelul de semnifica¸ tie
a. Un interval de încredere pentru raportul dispersiilor,
s2
1=s2
2
este:
s2
1
s2
2fa
2;n11;n21;s2
1
s2
2f1a
2;n11;n21
; (5.3.22)
unde fn;m;areprezint ˘a cuantila de ordin apentru reparti¸ tia Fisher cu(n;m)grade de
libertate.
5.3.6 Interval de încredere pentru diferen¸ ta propor¸ tiilor
FieX1¸ siX2dou˘a caracteristici binomiale independente ale unei popula¸ tii, cu volumele
¸ si probabilit ˘a¸ tile de succes n1;p1¸ si, respectiv, n2;p2. Dorim s ˘a afl˘am un interval de
încredere pentru diferen¸ ta propor¸ tiilor, p1p2. Pentru a reu¸ si aceasta, avem nevoie de
selec¸ tii de volum mare. Condi¸ tiile tpentru ca intervalul s ˘a fie valid sunt: n130;n2
30;n1bp1>5;n2bp2>5;n1(1bp1)>5;n2(1bp2)>5.
Un estimator punctual pentru p1p2estebp1bp2.
Devia¸ tia standard a acestui estimator este scp1cp2=q
cp1(1cp1)
n1+cp2(1cp2)
n2.
La un nivel de semnifica¸ tie a, un interval de încredere pentru p1p2este:

bp1bp2z1a
2scp1cp2;bp1bp2+z1a
2scp1cp2
(5.3.23)
Tabelul 5.1 sumarizeaz ˘a intervalele de încredere prezentate pân ˘a acum. În fiecare caz,
nivelul de semnifica¸ tie este a.

5.4 Tabel cu intervale de încredere 91
5.4 Tabel cu intervale de încredere
Param. Al¸ ti param. Interval de încredere cu nivelul de semnifica¸ tie a
m
Xz1a
2spn;X+z1a
2spn
s2 
Xz1aspn;+¥
cunoscut
¥;X+z1aspn
m
Xt1a
2;n1spn;X+t1a
2;n1spn
s2 
Xt1a;n1spn;¥
necunoscut
¥;Xta;n1spn
s2
n
c2
1a
2;ns2;n
c2a
2;ns2!
m
n
c2a;ns2;+¥
cunoscut
¥;n
c2
1a;ns2
s2
(n1)
c2
1a
2;n1s2;(n1)
c2a
2;n1s2!
m
n1
c2
a;n1s2;+¥
necunoscut
¥;n1
c2
1a;n1s2
p n
bpz1a
2q
bp(1bp)
n;bp+z1a
2q
bp(1bp)
n
mare
m1;m2s2
1=s2
2s2
1
s2
2fn11;n21;a
2;s2
1
s2
2fn11;n21;1a
2
necunoscu¸ ti
m1m2 s2
1;s2
20
@X1X2z1a
2s
s2
1
n1+s2
2
n2;X1X2+z1a
2s
s2
1
n1+s2
2
n21
A
cunoscu¸ ti
m1m2 s2
16=s2
20
@X1X2t1a
2;Ns
s2
1
n1+s2
2
n2;X1X2+t1a
2;Ns
s2
1
n1+s2
2
n21
A
necunoscu¸ ti
s2
1=s2
2
m1m2
X1X2t1a
2;n1+n22d(X1;X2);X1X2+t1a
2;n1+n22d(X1;X2)
necunoscu¸ ti
p1p2 n1;n2
bp1bp2z1a
2q
cp1(1cp1)
n1+cp2(1cp2)
n2;bp1bp2+z1a
2q
cp1(1cp1)
n1+cp2(1cp2)
n2
mari
Tabela 5.1: Tabel cu intervale de încredere.
Mai sus, prin d(X1;X2)am notat:
d(X1;X2) =q
(n11)s2
1+(n21)s2
2
n1+n22
1
n1+1
n2!1
2
:

92 Capitolul 5. Estimatori. Intervale de incredere
5.5 Estima¸ tii prin M ATLAB
Estimarea parametrilor prin metoda verosimilit ˘a¸ tii maxime poate fi realizat ˘a înMATLAB
folosind func¸ tia mle. Formatul general al func¸ tiei este:
[p, pCI] = mle(X,'distribution','lege','nume_1','val_1','nume_2','val_2',…)
unde:
• peste parametrul (sau parametrii) (sau vectorul de parametri) ce urmeaz ˘a a fi
estimat punctual;
• pCIeste variabila de memorie pentru intervalul (intervalele) de încredere ce va fi
estimat;
• Xeste un vector ce con¸ tine datele ce urmeaz ˘a a fi analizate;
• distribution este parte din formatul comenzii iar lege poate fi oricare dintre
legile din Tabelul 2.1;
• nume_i/val_i sunt perechi op¸ tionale de argumente/valori, dintre care amintim:
– alpha reprezint ˘a nivelul de confiden¸ t ˘a pentru intervalul de încredere. Val-
oarea implicit ˘a în Matlab estea=0:005;
– ntrials (utilizat ˘a doar pentru reparti¸ tia binomial ˘a, reprezint ˘a num ˘arul de
repeti¸ tii ale experimentului.
Dac˘a urm ˘arim s ˘a estim ˘am parametrii unei caracteristici gaussiene, atunci putem folosi
comanda simplificat ˘a:
[p, pCI] = mle(X)
f˘ar˘a a mai preciza legea de distribu¸ tie.
vârsta frecven¸ ta frecven¸ ta relativ ˘afrecven¸ ta cumulat ˘avârsta medie
[18;25) 34 8.83% 8.83% 21.5
[25;35) 76 19.74% 28.57% 30
[35;45) 124 32.21% 60.78% 40
[45;55) 87 22.60% 83.38% 50
[55;65) 64 16.62% 100.00% 60
Total 385 100% – –
Tabela 5.2: Tabel cu frecven¸ te pentru rata somajului.
De exemplu, s ˘a lu˘am drept obiect de lucru datele din Tabelul 5.2. O estimare a parametrilor
m¸ sisprin metoda verosimilit ˘a¸ tii maxime este
X = [7*rand(34,1)+18;10*rand(76,1)+25;10*rand(124,1)+35; …
10*rand(87,1)+45;10*rand(64,1)+55]
[p, pCI] = mle(X)
¸ si ob¸ tinem estim ˘arile:
p =
41.9716 12.0228 % estimari punctuale pentru m sis

5.6 Exerci¸ tii rezolvate 93
pCI =
40.7653 11.2439 % intervale de incredere
43.1779 12.9547
unde prima coloan ˘a reprezint ˘a estimarea punctual ˘a ¸ si un interval de încredere pentru m, iar
a doua coloan ˘a estimarea punctual ˘a ¸ si un interval de încredere pentru s.
Estim ˘ari punctuale ¸ si cu intervale de încredere mai putem ob¸ tine ¸ si utilizând func¸ tia
LEGEfit(X,alpha)
unde, în locul cuvântului LEGE punem o lege de probabilitate ca în Tabelul 2.1, Xreprezint ˘a
observa¸ tiile ¸ si alpha este nivelul de confiden¸ t ˘a. (Exemple: normfit , binofit , poissfit ,
expfit etc).
Exemplu 5.4 Consider ˘am un vector ale c ˘arui componente sunt:
X = 2*rand(1e6,1) – 1;
Dac˘a presupunem c ˘a aceste observa¸ tii au fost ob¸ tinute urm ˘arind valorile unei v.a. normale
N(m;s), atunci estim ˘am parametrii s ˘ai astfel:
[mu, sigma] = normfit(X)
G˘asim estim ˘arile
mu = 0.0006425
sigma = 0.5771
Dac˘a presupunem c ˘a aceste observa¸ tii au fost ob¸ tinute urm ˘arind valorile unei v.a. uniforme
continuu U(a;b), atunci estim ˘am parametrii s ˘ai astfel:
[a, b] = unifit(X)
a = -1.0000
b = 1.0000
5.6 Exerci¸ tii rezolvate
Exerci¸ tiu 5.1 Ana dactilografiaz ˘a un articol de 60de pagini. La recitirea articolului, Ana
a descoperit pe fiecare pagin ˘a de articol urm ˘atoarele numere de gre¸ seli:
7 6 5 9 10 4 4 8 5 8 6 4 5 6 6 5 12 16 9 5
8 7 7 4 11 6 6 5 4 6 13 8 6 9 7 8 5 4 3 6
8 4 7 10 10 6 7 9 12 8 5 7 6 7 14 8 8 4 3 10
S˘a presupunem c ˘a num ˘arul de gre¸ seli ap ˘arute pe fiecare pagina dactilografiat ˘a de Ana este
o variabil ˘a aleatoare repartizat ˘aPoisson .
(1) S ˘a se estimeze num ˘arul mediu de gre¸ seli f ˘acute de Ana pe fiecare pagin ˘a dactilografi-
at˘a;

94 Capitolul 5. Estimatori. Intervale de incredere
(2) S ˘a se estimeze num ˘arul mediu de gre¸ seli f ˘acute de Ana la dactilografierea unei c ˘ar¸ ti de
280de pagini, presupunând c ˘a ar lucra în exact acelea¸ si condi¸ tii ¸ si cu aceea¸ si îndemânare.
(3) Cu ce probabilitate va avea Ana mai pu¸ tin de 2000 de gre¸ seli pentru toat ˘a cartea?
R:S˘a presupunem c ˘aYeste vectorul ce are drept componente numerele din enun¸ t. Dac ˘a
Xeste variabila aleatoare ale c ˘arei valori reprezint ˘a num ˘arul de gre¸ seli ap ˘arute pe o pagin ˘a
dactilografiat ˘a ¸ siXP(n), atunci E(X) =Var(X) =n.
Dac˘a not ˘am cu Xk;k=1;280, variabilele aleatoare ale c ˘aror valori reprezint ˘a num ˘arul de
gre¸ seli de dactilografie facute pe fiecare pagin ˘a a c ˘ar¸ tii (respectiv), atunci
280
å
k=1XkP(280n);
deoarece Xksunt v.a. independente stochastic ¸ si identic repartizate.
Probabilitatea este
P=P(280
å
k=1Xk2000) =F(2000);
unde F(x)este func¸ tia de reparti¸ tie pentru280
å
k=1Xk, adic ˘a a unei v.a. repartizat ˘aP(280n).
Estim ˘am parametrul reparti¸ tiei Poisson folosind comanda mledinMATLAB . Codul ce
rezolv ˘a problema este urm ˘atorul
[n,nCI] = mle(Y,'distribution','poiss','alpha',0.1) % pentru (1)
N = 280*n;
Rulând codul, ob¸ tinem rezultatele:
n =
7.1000 % estimarea punctuala a lui n
nCI = % intervalul de incredere
6.5342
7.6658
A¸ sadar, s ˘a convenim c ˘a Ana face în medie n=7:1gre¸ seli pentru fiecare pagin ˘a dactilo-
grafiat ˘a. Atunci, pentru toat ˘a cartea va face în medie N=7:1280=1988 gre¸ seli.
Probabilitatea este:
P = poisscdf(2000,N)
adic˘aP0:6117.
Exerci¸ tiu 5.2 Arunc ˘am o moned ˘a despre care nu ¸ stim dac ˘a este sau nu corect ˘a (adic ˘a,
probabilitatea de apari¸ tie a fe¸ tei cu stema nu este neap ˘arat0:5). Fie Xvariabila aleatoare
ce reprezint ˘a num ˘arul de apari¸ tii ale fe¸ tei cu stema la aruncarea repetat ˘a a unei monede.
Not˘am cu pprobabilitatea evenimentului ca la o singur ˘a aruncare a monedei apare stema.
Realiz ˘am80de arunc ˘ari ale acelei monede ¸ si ob¸ tinem valorile ( 1înseamn ˘a c˘a fa¸ ta cu
stema a ap ˘arut iar 0 dac ˘a nu a ap ˘arut):
0 1 0 0 1 0 1 1 0 1 0 0 1 0 1 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 1 1 0 1 0 1 1 0
1 0 1 0 1 0 0 0 1 1 0 0 1 0 1 1 0 1 1 0 0 0 1 1 0 1 0 1 1 0 1 1 1 0 0 0 1 0 1 0
G˘asi¸ ti estima¸ tii punctuale ¸ si intervale încredere pentru p, folosind func¸ tiile mle¸ si binofit
din M ATLAB .

5.6 Exerci¸ tii rezolvate 95
R: Utiliz ˘am func¸ tiile M ATLAB astfel:
[p,pCI] = mle(Y,'distribution','bino','ntrials',1,'alpha',0.05)
cu rezultatul:
p = pCI =
0.5125 0.3981
0.6259
sau, folosind comanda binofit ,
[p,pCI] = binofit(sum(Y),length(Y),0.05)
cu rezultatul:
p = pCI =
0.5125 0.3981
0.6259
Exerci¸ tiu 5.3 O ma¸ sin ˘a de înghe¸ tat ˘a umple cupe cu înghe¸ tat ˘a. Se dore¸ ste ca înghe¸ tat ˘a din
cupe s ˘a aib ˘a masa de m=250g. Desigur, este practic imposibil s ˘a umplem fiecare cup ˘a
cu exact 250g de înghe¸ tat ˘a. Presupunem c ˘a masa con¸ tinutului din cup ˘a este o variabil ˘a
aleatoare repartizat ˘a normal, cu masa necunoscut ˘a ¸ si dispersia cunoscut ˘a,s=3g. Pentru a
verifica dac ˘a ma¸ sina este ajustat ˘a bine, se aleg la întâmplare 30de înghetate ¸ si se cânt ˘are¸ ste
con¸ tinutul fiec ˘areia. Ob¸ tinem astfel o selec¸ tie repetat ˘a,x1,x2,:::,x30dup˘a cum urmeaz ˘a:
257 249 251 251 252 251 251 249 248 248 251 253 248 245 251
248 256 247 250 247 251 247 252 248 253 251 247 253 244 253
Un estimator nedeplasat pentru masa medie este media de selec¸ tie, X=250:0667.
(a) Se cere s ˘a se g ˘aseasc ˘a un interval de încredere pentru m, cu nivelul de confiden¸ t ˘a0:99.
(b) S ˘a se g ˘aseasc ˘a un interval de încredere pentru masa medie în cazul în care abaterea
standard snu mai este cunoscut ˘a.
R:(a) Un interval de încredere pentru mcând seste cunoscut este:
(m;m) =
xz1a
2spn;x+z1a
2spn
:
Urm ˘atorul cod MATLAB furnizeaz ˘a un interval de încredere bazat pe datele de selec¸ tie
observate.
n=30; sigma=3; alpha = 0.01;
x=[257 249 251 251 252 251 251 249 248 248 251 253 248 245 251 …
248 256 247 250 247 251 247 252 248 253 251 247 253 244 253];
z = icdf('norm',1-alpha/2,0,1); % cuantila 1-alpha/2 pentru normala
m1 = mean(x)-z*sigma/sqrt(n); m2 = mean(x)+z*sigma/sqrt(n);% capete interval

96 Capitolul 5. Estimatori. Intervale de incredere
fprintf('(m1,m2)=(%6.3f,%6.3f)\n',m1,m2); % afiseaza intervalul
Rulând codul, ob¸ tinem intervalul de încredere pentru mcând seste cunoscut:
(m;m) = ( 248:659;251:478):
(b) Un interval de încredere pentru mcând seste necunoscut este:
(m;m) =
xt1a
2;n1spn;x+t1a
2;n1spn
:
Urm ˘atorul cod MATLAB furnizeaz ˘a un interval de încredere bazat pe datele de selec¸ tie
observate.
n=30; alpha = 0.01;
x=[257 249 251 251 252 251 251 249 248 248 251 253 248 245 251 …
248 256 247 250 247 251 247 252 248 253 251 247 253 244 253];
dev = std(X); % deviatia standard de selectie
t = icdf('t',1-alpha/2,n-1); % cuantila 1-alpha/2 pentru t(n-1)
m1 = mean(x)-t*dev/sqrt(n); m2 = mean(x)+t*dev/sqrt(n); % capete interval
fprintf('(m1,m2)=(%6.3f,%6.3f)\n',m1,m2); % afiseaza intervalul
Rulând codul, ob¸ tinem intervalul de încredere pentru mcând seste cunoscut:
(m;m) = ( 248:572;251:561):
Figura 5.1: Intervalul de încredere pentru Exerci¸ tiu 5.3.

5.6 Exerci¸ tii rezolvate 97
Observa¸ tia 5.5 [1] Intervalul de încredere pentru medie când seste cunoscut este mai
mic decât în cazul în care seste necunoscut. Informa¸ tia în plus despre date ajut ˘a la g ˘asirea
unei estim ˘ari mai bune pentru parametrul c ˘autat.
[2] Dorim s ˘a folosim MATLAB pentru a ob¸ tine o estima¸ tie printr-un interval de încredere
pentru mcând snu este cunoscut ˘a. Folosind func¸ tia normfit ob¸ tinem chiar mai mult
decât ne propunem, ¸ si anume: estima¸ tii punctuale pentru m¸ sis¸ si câte un interval de
încredere pentru ambele. Rulând func¸ tia, adic ˘a
[m,s,mCI,sCI] = normfit(X,0.01)
Observ ˘am c ˘a valorile furnizate pentru intervalul de încredere pentru m, ( mCI), sunt exact
acelea¸ si ca cele ob¸ tinute în exerci¸ tiul precedent.
m = s = mCI = sCI =
250.0667 2.9704 248.572 2.2111
251.561 4.4159
Observa¸ tia 5.6 S˘a presupunem c ˘a facem 50de selec¸ tii repetate de volum 30(adic ˘a
alegem în 50de zile diferite câte o selec¸ tie de 30de înghe¸ tate) ¸ si afl ˘am intervalele de
încredere (toate cu nivelul de confiden¸ t ˘aa=0:01) pentru masa medie a con¸ tinutului.
Figura 5.2 reprezint ˘a grafic cele 50 de intervale.
Dup˘a cum se observ ˘a din figur ˘a, se poate întâmpla ca un interval de încredere generat s ˘a
nu con¸ tin ˘a valoarea pe care acesta ar trebui s ˘a o estimeze. Aceasta nu contrazice teoria,
deoarece probabilitatea cu care valoarea estimat ˘a este acoperit ˘a de intervalul de încredere
este
P
m<m<m
=1a=0:99;
deci exist ˘a ¸ sanse de a gre¸ si în estimare, în cazul de fa¸ t ˘a de 1%.
Exerci¸ tiu 5.4 Într-un institut politehnic, s-a determinat c ˘a dintr-o selec¸ tie aleatoare de 100
de studen¸ ti înscri¸ si, doar 67au terminat studiile, ob¸ tinând o diplom ˘a. G˘asi¸ ti un interval
de încredere care, cu o confiden¸ t ˘a de 95% s˘a determine procentul de studen¸ ti absolven¸ ti
dintre to¸ ti studen¸ tii ce au fost înscri¸ si.
R: Mai întâi, observ ˘am c ˘aa=0:05,n>30,bp=67
100=0:67,nbp=67>5¸ sin(1bp) =
33>5. Deoarece nu ni se d ˘a vreo informa¸ tie despre N(num ˘arul total de studen¸ ti înscri¸ si),
putem presupune c ˘an<0:005N¸ si putem aplica formula (5.3.17). G ˘asim c ˘a intervalul de
încredere c ˘autat este:

0:67z0:975r
0:67(10:67)
100;0:67+z0:975r
0:67(10:67)
100!
= (59:27%;74:73%):
Exerci¸ tiu 5.5 Dintr-o selec¸ tie de 200de elevi ai unei ¸ scoli cu 1276 de elevi, 65% afirm ˘a c˘a
de¸ tin cel pu¸ tin un telefon mobil. S ˘a se g ˘aseasc ˘a un interval de încredere pentru procentul
de copii din respectiva ¸ scoal ˘a ce de¸ tin cel pu¸ tin un telefon mobil, la nivelul de semnifica¸ tie
a=0:05.

98 Capitolul 5. Estimatori. Intervale de incredere
Figura 5.2: 50 de realiz ˘ari ale intervalului de încredere pentru m
Solu¸ tie: Avem: n=200,N=1276 ,p=0:65. Deoarece n0:05N, folosind (5.3.19)
¸ si g˘asim c ˘a un interval de încredere la nivelul de semnifica¸ tie 0 :05 este

0:651:96r
0:65(10:65)
200r
1276200
12761;0:65+1:96r
0:65(10:65)
200r
1276200
12761!
= (58:93%;71:07%):
Exerci¸ tiu 5.6 Un studiu sus¸ tine c ˘a între 35% ¸ si40% dintre elevii de liceu din ¸ tar ˘a fumeaz ˘a.
Cât de mare ar trebui s ˘a fie volumul unei selec¸ tii dintre elevii de liceu pentru a estima
procentul real de elevi ce fumeaz ˘a, cu o eroare de estimare maxim ˘a de 0:5%. Se va alege
nivelul de semnifica¸ tie a=0:1.
R:Folosim formula (5.3.20), pentru p=0:4(se alege valoarea 40%, cea mai apropiat ˘a
de 50%). Cuantila este z0:95=1:28. G ˘asim c ˘a o estima¸ tie pentru neste:
n="
0:4(10:4)1:64
0:0052#
=25820 :
Exerci¸ tiu 5.7 O fabric ˘a produce batoane de ciocolat ˘a cânt ˘arind 100g fiecare. Pentru a
se estima abaterea masei de la aceast ˘a valoare, s-a f ˘acut o selec¸ tie de 35de batoane,
ob¸ tinându-se valorile:
100.12; 99.92; 100.1; 99.89; 100.07; 99.88; 100.11; 99.90; 99.97;
99.89; 100.15; 99.9; 99.7; 100.2; 99.7; 100.2; 100.1; 100.04;
99.76; 100.1; 99.24; 98.19; 100.15; 100.5; 99.79; 98.95; 100.23;
99.89; 99.89; 100.2; 100.12; 98.63; 99.03; 100.3; 98.68.

5.6 Exerci¸ tii rezolvate 99
G˘asi¸ ti un interval de încredere (cu a=0:05) pentru devia¸ tia standard masei batoanelor
produse de respectiva fabric ˘a.
R:Mai întâi, calcul ˘amd2(x). Avem:
d2(x) =1
3535
å
i=1[Xi100]2=0:3:
Din tabele, sau utilizând M ATLAB , g˘asim cuantilele:
c2
0:975;35 =53:2033; c2
0:025;35 =20:5694 :
În M ATLAB , cuantilele se calculeaz ˘a astfel:
icdf('chi2',0.975, 35); icdf('chi2',0.025, 35)
Intervalul de încredere pentru dispersie este (folosind formula (5.3.11)):
(s2;s2) = ( 0:20;0:51):
Pentru varia¸ tia standard, intervalul de încredere este:
(s;s) = (p
0:2;p
0:51) = ( 0:44;0:71):
Exerci¸ tiu 5.8 G˘asi¸ ti un interval de încredere (cu a=0:05) pentru devia¸ tia standard a
con¸ tinutului de nicotin ˘a a unui anumit tip de ¸ tig ˘ari, dac ˘a o selec¸ tie de 24de buc ˘a¸ ti are
devia¸ tia standard a con¸ tinutului de nicotin ˘a de 1 :6mg.
R:Mai întâi, s=d(x) =1:6. Din tabele, sau utilizând M ATLAB , g˘asim:
c2
0:975;24 =39:3641; c2
0:025;24 =12:4012 :
Intervalul de încredere pentru dispersie este (folosind formula (5.3.14)):
(s2;s2) = ( 1:56;4:95):
Pentru devia¸ tia standard, intervalul de încredere este:
(p
1:5608 ;p
4:9544) = ( 1:25;2:22):
Exerci¸ tiu 5.9 Dou˘a strunguri sunt potrivite s ˘a produc ˘a piese identice pentru o comand ˘a.
Pentru a estima dac ˘a abaterile diametrelor pieselor produse de cele dou ˘a ma¸ sini sunt
sensibil egale, s-au luat la întamplare dou ˘a seturi de volume n1=7¸ sin2=10de piese din
cele dou ˘a loturi. M ˘asur˘atorile au condus la urm ˘atoarele rezultate:
Lotul 1 25:06 24:95 25:01 25:05 24:98 24:97 25:02
Lotul 2 25:01 25:09 25:02 24:95 24:97 25:03 24:99 24:97 25:03 24:98

100 Capitolul 5. Estimatori. Intervale de incredere
S˘a se determine un interval de încredere pentru raportul dispersiilor diametrelor pieselor
produse de cele dou ˘a loturi ( a=0:1). Se va presupune c ˘a diametrele pieselor urmeaz ˘a o
reparti¸ tie normal ˘a.
R: Folosim (5.3.22). Determin ˘am mai întâi dispersiile empirice. Acestea sunt:
s2
1=1
67
å
i=1(L1iL1i)2=0:0412 ¸ si s2
2=1
910
å
j=1(L2jL2j)2=0:0409 :
Cuantilele sunt:
f0:05;6;9=0:2440 ¸ si f0:95;6;9=3:3738 :
Folosind M ATLAB , putem calcula cuantilele astfel:
f1 = finv(0.05, 6, 9); f2 = finv(0.95, 6, 9);
G˘asim intervalul de încredere:
(f1;f2)(0:25;3:4):
Exerci¸ tiu 5.10 Dintr-o selec¸ tie de 45de baie¸ ti ai unei ¸ scoli, 21au spus c ˘a le place
Matematica, iar dintr-o selec¸ tie de 65de fete ale aceleia¸ si ¸ scoli, 37au sus¸ tinut c ˘a le
place aceast ˘a disciplin ˘a. Construi¸ ti un interval de încredere la nivelul de semnifica¸ tie
a=0:02pentru diferen¸ ta propor¸ tiilor de baie¸ ti ¸ si fete din respectiva ¸ scoal ˘a c˘arora le place
Matematica.
R: Folosim formula (5.3.23). Mai întâi, bp1=23
45,bp2=37
65¸ siz0:992:33. Intervalul
c˘autat este:
0
@21
4537
652:33s
21
4524
45
45+37
6528
65
65;21
4537
65+2:33s
21
4524
45
45+37
6528
65
651
A= (0:1990 ;0:0061):
Exerci¸ tiu 5.11 O selec¸ tie aleatoare de volum n=25cu media se selec¸ tie x=50se ia
dintr-o popula¸ tie de volum N=1000, ce are devia¸ tia standard s=2.
(a) Dac ˘a presupunem c ˘a popula¸ tia este normal ˘a, g˘asi¸ ti un interval de încredere pentru
media popula¸ tiei, cu a=0:05.
(b) G ˘asi¸ ti un interval de încredere pentru media popula¸ tiei ( a=0:05) în cazul în care
popula¸ tia nu este normal ˘a.
R:(a) Folosim formula (5.3.7). G ˘asim intervalul de încredere
(m;m) =
50z0:9752p
25;50+z0:9752p
25
= (48:4;51:6):
(b) Deoarece popula¸ tia nu este normal distribuit ˘a ¸ si nici volumul popula¸ tiei nu este mare
(n<30), vom estima intervalul de încredere bazându-ne pe inegalitatea lui Ceb⸠sev.

5.7 Exerci¸ tii propuse 101
Aceasta spune c ˘a, dac ˘aXeste o variabil ˘a aleatoare ce admite medie ( m) ¸ si dispersie ( s2),
atunci are loc inegalitatea
P(f(Xm)2ag)s2
a2;pentru orice a>0;
Aplic ˘am inegalitatea lui Ceb⸠sev pentru variabila X. Luând a=ks, g˘asim c ˘a probabilitatea
ca valorile lui Xs˘a fie aproximate prin mX=mcu o eroare de cel mult kdevia¸ tii standard
este:
P(fjXmXj<ksXg)11
k2:
Luând 11
k2=0:95, g˘asim k=p
20. Astfel, un interval de încredere pentru media
popula¸ tiei va fi
(m;m) =
xkspn;x+kspn
=
50p
202p
25;50+p
202p
25
= (46:42;53:58):
Am folosit faptul c ˘as2
X=D2(X) =s2
n. Observ ˘am c ˘a acest interval este mai mare decât
cel g ˘asit anterior, de aceea inegalitatea lui Cebî¸ sev este rar folosit ˘a pentru a determina
intervale de încredere. Totu¸ si, în acest caz nu aveam o alt ˘a alternativ ˘a de calcul. Dac ˘a se
dore¸ ste o precizie mai bun ˘a, ar fi indicat ca volumul selec¸ tiei s ˘a fie de cel pu¸ tin 30, caz în
care putem folosi aproximarea cu reparti¸ tia normal ˘a.
5.7 Exerci¸ tii propuse
Exerci¸ tiu 5.12 Într-o ¸ scoal ˘a sunt 200de elevi de clasa a XII-a care au sus¸ tinut tez ˘a la
Matematic ˘a. Tabelul urm ˘ator con¸ tine o selec¸ tie aleatoare de 36 de note la aceast ˘a tez ˘a:
note 4 5 6 7 8 9 10
frecven¸ ta 5 6 7 8 5 3 2
[1]Estima¸ ti punctual media, dispersia ¸ si mediana popula¸ tiei din care provine aceast ˘a
selec¸ tie, precizând formulele folosite.
[2]Determinati un interval de incredere pentru media populatiei la nivelul a=0:04.
[3]Scrie¸ ti func¸ tia de reparti¸ tie empiric ˘a ¸ si desena¸ ti graficul acesteia.
[4]Estima¸ ti printr-un interval de încredere procentul notelor de trecere ob¸ tinute de elevii
de clasa a XII-a din acea ¸ scoal ˘a (a=0:04).
Exerci¸ tiu 5.13 Tabelul urm ˘ator con¸ tine pre¸ turile la Benzin  95 pentru o selec¸ tie de 64de
benzin ˘arii din ¸ tar ˘a.
pre¸ tul (6:10;6:15] (6:15;6:20] (6:20;6:25] (6:25;6:30] (6:30;6:35] (6:35;6:40]
frecven¸ ta 6 8 16 19 10 5
[1]Estima¸ ti punctual media, dispersia ¸ si mediana popula¸ tiei din care provine aceast ˘a
selec¸ tie, precizând formulele folosite.
[2]Reprezentati datele prin histograme.
[3]Determina¸ ti un interval de încredere pentru pre¸ tul mediu al benzinei în ¸ tar ˘a (a=0:04).

102 Capitolul 5. Estimatori. Intervale de incredere
Exerci¸ tiu 5.14 În urma arunc ˘arii unei monede de 4050 de ori, s-a observat c ˘a fa¸ ta cu
stema a ap ˘arut de 2052 ori. Determina¸ ti un interval de încredere pentru probabilitatea de
apari¸ tie a fe¸ tei cu stema la aruncarea respectivei monede. Se va lua nivelul de semnifica¸ tie
a=0:05.
Exerci¸ tiu 5.15 La un control de calitate, dintr-un lot de 150de piese, 5au fost g ˘asite
defecte. Determina¸ ti un interval de încredere cu a=0:01pentru probabilitatea ca o pies ˘a
luat˘a la întâmplare s ˘a fie defect ˘a.
Exerci¸ tiu 5.16 Cât de mare ar trebui s ˘a fie volumul selec¸ tiei, pentru a estima propor¸ tia de
fum˘atori din ¸ tar ˘a cu o eroare de cel mult 2%, ¸ si o probabilitate de încredere de 0 :95?
Exerci¸ tiu 5.17 Un studiu recent arat ˘a c˘a dintre 120de accidente rutiere ce s-au soldat
cu victime, 56era datorate consumului de alcool. G ˘asi¸ ti un interval de încredere care s ˘a
estimeze cu o probabilitate de risc a=0:05procentul real al accidentelor rutiere cauzate
de consumul de alcool.
Exerci¸ tiu 5.18 Pentru selec¸ tia urm ˘atoare
871 822 729 794 523 972 768 758 583 893 598 743 761 858 948
598 912 893 697 867 877 649 738 744 798 812 793 688 589 615 731
s˘a se estimeze varian¸ ta popula¸ tiei din care provine aceast ˘a selec¸ tie.
Exerci¸ tiu 5.19 FieX1;X2; :::; Xno selec¸ tie repetat ˘a de volum nmare, luat ˘a dintr-o carac-
teristic ˘a ce are media mnecunoscut ˘a ¸ si dispersia 4. Determina¸ ti volumul selec¸ tiei pentru
care, cu o probabilitate de 99% putem estima pe mcu o eroare de o zecime.
Exerci¸ tiu 5.20 Un angajat la Serviciu For¸ telor de Munc ˘a dore¸ ste s ˘a fac ˘a un sondaj prin
care s ˘a determine procentul de persoane dintr-o regiune a ¸ t ˘arii ce lucreaz ˘a la negru. El
dore¸ ste s ˘a fie 98% sigur c ˘a rezultatul g ˘asit estimeaz ˘a procentul real cu o eroare de cel
mult 2%. Dintr-un sondaj recent, la care au participat 1500 de persoane angajate, 273au
declarat c ˘a nu li s-au f ˘acut carte de munc ˘a.
(a) Cât de mare ar trebui s ˘a fie volumul selec¸ tiei pentru a realiza estimarea dorit ˘a?
(b) Dac ˘a nu ar avea acces la acel sondajul recent, cât de mare ar trebui s ˘a fie volumul
selec¸ tiei pentru a realiza estimarea dorit ˘a?
Exerci¸ tiu 5.21 Timpul necesar unui student de a rezolva testul la Statistic ˘a (T, exprimat
în minute) este o v.a. cu densitatea de reparti¸ tie f:R![0;1],
f(x;q) =(
x
q2ex
q;x>0;
0 ;x0:
(a) Pentru ce valori ale parametrului qfunc¸ tia de mai sus este o func¸ tie de reparti¸ tie?
Fix˘amq=30.
(b) Determina¸ ti timpul mediu necesar rezolv ˘arii testului.
(c) Calcula¸ ti probabilitatea ca un student (ales la întâmplare) s ˘a aib ˘a nevoie de mai mult
de o or ˘a ¸ si jum ˘atate pentru a rezolva testul?
Exerci¸ tiu 5.22 P˘acal˘a îl ademene¸ ste pe Tândal ˘a la un joc de barbut. P ˘acal˘a a confec¸ tionat
urm˘atoarele trei zaruri, pentru care num ˘arul de puncte de pe fiecare fa¸ t ˘a sunt modificate:
zarul 1: 5 7 8 9 10 18
zarul 2: 2 3 4 15 16 17
zarul 3: 1 6 11 12 13 14

5.7 Exerci¸ tii propuse 103
Pentru fiecare zar, toate fe¸ tele au aceea¸ si ¸ sans ˘a de apari¸ tie. Fiecare juc ˘ator alege un zar ¸ si
îl p˘astreaz ˘a pentru restul competi¸ tiei. Un joc const ˘a în aruncarea zarului ales, iar cel care
ob¸ tine un num ˘ar mai mare de puncte va c⸠stiga jocul. Un astfel de joc poate fi repetat de
mai multe ori, în condi¸ tii identice ¸ si independente.
(a) P ˘acal˘a, politicos fiind, îl invit ˘a pe Tândal ˘a s˘a fie primul care î¸ si alege zarul. Ar ˘ata¸ ti c ˘a,
orice zar ar alege Tândal ˘a, P˘acal˘a are posibilitatea de a alege un zar mai bun dintre cele
r˘amase.
(b) La fiecare joc, cel care ob¸ tine un num ˘ar mai mare de puncte prime¸ ste de la cel ˘alalt
juc˘ator1 RON. Determina¸ ti c⸠stigul mediu pe care îl poate avea P ˘acal˘a dup ˘a60de jocuri
(arunc ˘ari).
(c) Calcula¸ ti probabilitatea ca, dup ˘a 60 de jocuri, P ˘acal˘a s˘a aib ˘a cel pu¸ tin 10 RON.
(d) Determina¸ ti num ˘arul minim de jocuri ce trebuie efectuate, dup ˘a care P ˘acal˘a va fi
aproape sigur (cu probabilitate cel pu¸ tin egal ˘a cu 0 :99) c ˘a va avea cel pu¸ tin 10 RON.
Exerci¸ tiu 5.23 A¸ ti observat c ˘a num ˘arul de picioare pentru marea majoritate a oamenilor
¸ tar˘a este mai mare decât media pe ¸ tar ˘a? Care ar fi explica¸ tia? Este media un estimator de
luat în seam ˘a în acest caz?

6. Testarea ipotezelor statistice
. [Should you torture the data long enough,
. it will eventually confess.]
6.1 Punerea problemei
Testarea ipotezelor statistice este o metod ˘a prin care se iau decizii statistice, utilizând
datele experimentale culese. Testele prezentate mai jos au la baz ˘a no¸ tiuni din teoria
probabilit ˘a¸ tilor. Aceste teste ne permit ca, plecând de la un anumit set sau anumite seturi
de date culese experimental, s ˘a se putem valida anumite estim ˘ari de parametri ai unei
reparti¸ tii sau chiar putem prezice forma legii de reparti¸ tie a caracteristicii considerate.
Presupunem c ˘aXeste variabila de interes a unei popula¸ tii statistice ¸ si c ˘a legea sa de
probabilitate este dat ˘a de depinde de un parametru q. In general, o repartitie poate depinde
de mai multi parametri, insa aici vom discuta doar cazul unui singur parametru. De
asemenea, s ˘a presupunem c ˘a(xk)k=1;nsunt datele observate relativ la caracteristica X.
•Numim ipotez˘ a statistic˘ a o presupunere relativ ˘a la valorile parametului qsau chiar
referitoare la tipul legii caracteristicii.
•Oipotez˘ a neparametric˘ a este o presupunere relativ ˘a la repartitia lui X. De exemplu,
o ipotez ˘a de genul XNormal ˘a.
•Numim ipotez˘ a parametric˘ a o presupunere f ˘acut˘a asupra valorii parametrilor unei
reparti¸ tii. Dac ˘a mul¸ timea la care se presupune c ˘a apar¸ tine parametrul necunoscut este
format ˘a dintr-un singur element, avem de-a face cu o ipotez˘ a parametric˘ a simpl˘ a .
Altfel, avem o ipotez˘ a parametric˘ a compus˘ a .
•Oipotez˘ a nul˘ a este acea ipotez ˘a pe care o intuim a fi cea mai apropiat ˘a de realitate
¸ si o presupunem a priori a fi adev ˘arat˘a. Cu alte cuvinte, ipoteza nul ˘a este ceea
ce dore¸ sti s ˘a crezi, în cazul în care nu exist ˘a suficiente eviden¸ te care s ˘a sugereze

106 Capitolul 6. Testarea ipotezelor statistice
contrariul. Un exemplu de ipotez ˘a nul ˘a este urm ˘atoarul: "presupus nevinovat, pân ˘a
se g˘asesc dovezi care s ˘a ateste o vin ˘a". O ipotez˘ a alternativ˘ a este orice alt ˘a ipotez ˘a
admisibil ˘a cu care poate fi confruntat ˘a ipoteza nul ˘a.
•Atesta o ipotez˘ a statistic˘ a (en., statistical inference) înseamn ˘a a lua una dintre
deciziile:
ipoteza nul ˘a se respinge (caz in care ipoteza alternativa este admisa)
ipoteza nul ˘a se admite (sau, nu sunt motive pentru respingerea ei)
•În Statistic ˘a, un rezultat se nume¸ ste semnificativ din punct de vedere statistic dac˘a
este improbabil ca el s ˘a se fi realizat datorit ˘a ¸ sansei. Între dou ˘a valori exist ˘a odifer-
en¸ t˘ a semnificativ˘ a dac˘a exist ˘a suficiente dovezi statistice pentru a dovedi diferen¸ ta,
¸ si nu datorit ˘a faptului c ˘a diferen¸ ta ar fi mare.
•Numim nivel de semnifica¸ tie probabilitatea de a respinge ipoteza nul ˘a când, de fapt,
aceasta este adev ˘arat˘a. În general, nivelul de semnifica¸ tie este o valoare pozitiva
apropiata de 0, e.g., una dintre valorile: a=0:01;0:02;0:05etc. Intr-o analiza
statistica sau soft statistic, valoarea implicita pentru aeste 0 :05.
• În urma unui test statistic pot aparea dou ˘a tipuri de erori:
1.eroarea de spe¸ ta (I) sau riscul furnizorului (en., false positive )este eroarea
care se poate comite respingând o ipotez ˘a (în realitate) adev ˘arat˘a. Se mai
nume¸ ste ¸ si risc de genul (I) . Probabilitatea acestei erori este egala chiar nivelul
de semnifica¸ tie a, adic ˘a:
a=P(H0se respingejH0este adev ˘arat˘a):
2.eroarea de spe¸ ta a (II)-a sau riscul beneficiarului (en., false negative )este
eroarea care se poate comite acceptând o ipotez ˘a (în realitate) fals ˘a. Se mai
nume¸ ste ¸ si risc de genul al (II)-lea . Probabilitatea acestei erori este
b=P(H0se admitejH0este fals ˘a):
Gravitatea comiterii celor dou ˘a erori depinde de problema studiat ˘a. De exemplu,
riscul de genul (I) este mai grav decât riscul de genul al (II)-lea dac ˘a verific ˘am
calitatea unui articol de îmbrac ˘aminte, iar riscul de genul al (II)-lea este mai grav
decât riscul de genul (I) dac ˘a verific ˘am concentra¸ tia unui medicament.
•Denumim valoare PsauPvaloare saunivel de semnifica¸ tie observat (en.,P-value)
probabilitatea de a ob¸ tine un rezultat cel pu¸ tin la fel de extrem precum cel observat,
presupunând c ˘a ipoteza nul ˘a este adev ˘arat˘a. Valoarea Peste cea mai mic ˘a valoare
a nivelului de semnifica¸ tie apentru care ipoteza (H0)ar fi respins ˘a, bazându-ne
pe observa¸ tiile culese. Dac ˘aPva, atunci respingem ipoteza nul ˘a la nivelul de
semnifica¸ tie a, iar dac ˘aPv>a, atunci admitem (H0). Cu cât Pveste mai mic ˘a, cu
atât mai mari ¸ sanse ca ipoteza nul ˘a s˘a fie respins ˘a. De exemplu, dac ˘a valoarea Peste
Pv=0:045atunci, bazându-ne pe observa¸ tiile culese, vom respinge ipoteza (H0)
la un nivel de semnifica¸ tie a=0:05saua=0:1, dar nu o putem respinge la un
nivel de semnifica¸ tie a=0:02. Dac ˘a ne raport ˘am la Pvaloare, decizia într-un test
statistic poate fi f ˘acut˘a astfel: dac ˘a aceasta valoare este mai mic ˘a decât nivelul de
semnifica¸ tie a, atunci ipoteza nul ˘a este respins ˘a, iar dac ˘aPvalue este mai mare
decât a, atunci ipoteza nul ˘a nu poate fi respins ˘a.
Un exemplu simplu de test este testul de sarcin ˘a. Acest test este, de fapt, o procedur ˘a
statistic ˘a ce ne d ˘a dreptul s ˘a decidem dac ˘a exist ˘a sau nu suficiente eviden¸ te s ˘a concluzion ˘am

6.2 Tipuri de teste statistice 107
c˘a o sarcin ˘a este prezent ˘a. Ipoteza nul ˘a ar fi lipsa sarcinii. Majoritatea oamenilor în acest
caz vor c ˘adea de acord cum c ˘a un false negative este mai grav decât un false positive .
S˘a presupunem c ˘a suntem într-o sal ˘a de judecat ˘a ¸ si c ˘a judec ˘atorul trebuie s ˘a decid ˘a dac ˘a
un inculpat este sau nu vinovat. Are astfel de testat urm ˘atoarele ipoteze:
(
(H0)inculpatul este nevinovat;
(H1)inculpatul este vinovat.
Posibilele st ˘ari reale (asupra c ˘arora nu avem control) sunt:
[1]inculpatul este nevinovat ( H0este adev ˘arat˘a ¸ siH1este fals ˘a);
[2]inculpatul este vinovat ( H0este fals ˘a ¸ siH1este adev ˘arat˘a)
Deciziile posibile (asupra c ˘arora avem control putem lua o decizie corect ˘a sau una fals ˘a)
sunt:
[i]H0se respinge (dovezi suficiente pentru a încrimina inculpatul);
[ii]H0nu se respinge (dovezi insuficiente pentru a încrimina inculpatul);
În realitate, avem urm ˘atoarele posibilit ˘a¸ ti, sumarizate în Tabelul 6.1:
Situa¸ tie real ˘a
Decizii H0- adev ˘arat˘aH0- fals ˘a
Respinge H0 [1]&[i] [2]&[i]
Accept ˘aH0 [1]&[ii] [2]&[ii]
Tabela 6.1: Posibilit˘ a¸ ti decizionale.
Interpret ˘arile datelor din Tabelul 6.1 se g ˘asesc în Tabelul 6.2.
Situa¸ tie real ˘a
Decizii H0- adev ˘arat˘a H0- fals ˘a
Respinge H0 închide o persoana nevinovat ˘a închide o persoana vinovat ˘a
Accepta H0elibereaz ˘a o persoana nevinovat ˘aelibereaz ˘a o persoana vinovat ˘a
Tabela 6.2: Decizii posibile.
Erorile posibile ce pot aparea sunt cele din Tabelul 6.3.
Situa¸ tie real ˘a
Decizii H0- adev ˘arat˘a H0- fals ˘a
Respinge H0 a judecat ˘a corect ˘a
Accepta H0judecat ˘a corect ˘a b
Tabela 6.3: Erori decizionale.
6.2 Tipuri de teste statistice
Tipul unui test statistic este determinat de ipoteza alternativ ˘a(H1). Avem astfel:
•test unilateral stânga, atunci când ipoteza alternativ ˘a este q<q0(vezi Figura 6.1
(a));

108 Capitolul 6. Testarea ipotezelor statistice
•test unilateral dreapta, atunci când ipoteza alternativ ˘a este q>q0(vezi Figura 6.1
(b));
• test bilateral, atunci când ipoteza alternativ ˘a este q6=q0(vezi Figura 6.2);
Figura 6.1: Regiune critic˘ a pentru test (a) unilateral stânga, (b) unilateral dreapta.
Figura 6.2: Regiune critic˘ a pentru test bilateral.
A¸ sadar, pentru a construi un test statistic vom avea nevoie de o regiune critic ˘a. Pentru
a construi aceast ˘a regiune critic ˘a vom utiliza metoda intervalelor de încredere. Dac ˘a
valoarea observat ˘a se afl ˘a în regiunea critic ˘a (adic ˘a în afara intervalului de încredere),
atunci respingem ipoteza nul ˘a.

6.3 Teste parametrice 109
6.2.1 Etapele unei test ˘ari parametrice
•Consider ˘am o selec¸ tie întâmpl ˘atoare x1;x2; :::; xnde observa¸ tii asupra caracteristicii
de interes. De multe ori, aceast ˘a selec¸ tie provine dintr-o reparti¸ tie normal ˘a. În
caz contrar, va trebui ca volumul selec¸ tiei s ˘a fie mare, de regula n30. Fie
X1;X2; :::; Xnvariabile aleatoare de selec¸ tie;
•Alegem o statistic ˘a (criteriu) S(X1;X2; :::; Xn)care, dup ˘a acceptarea ipotezei (H0),
aceast ˘a are o reparti¸ tie cunoscut ˘a, independent ˘a de parametrul testat;
• Alegem un nivel de semnifica¸ tie aapropiat de 0. De regul ˘a,a=0:01;0:02;0:05.
• G˘asim regiunea critic ˘aU;
• Calcul ˘am valoarea s0a statisticii S(X1;X2; :::; Xn)pentru selec¸ tia considerat ˘a;
• Lu ˘am decizia:
–Dac˘as02U, atunci ipoteza nul ˘a,(H0), se respinge;
–Dac˘as062U, atunci ipoteza nul ˘a,(H0), se admite (mai bine zis, nu avem
motive s ˘a o respingem ¸ si o admitem pân ˘a la efectuarea eventual ˘a a unui test
mai puternic).
6.3 Teste parametrice
6.3.1 Testul tpentru medie
Testul tpentru medie se folose¸ ste pentru selec¸ tii normale de volum mic, de regul ˘an<30,
când dispersia popula¸ tiei este necunoscut ˘aa priori .
Fie caracteristica Xce urmeaz ˘a legea normal ˘aN(m;s)cumnecunoscut ¸ si s>0ne-
cunoscut.
Vrem s ˘a verific ˘am ipoteza nul ˘a
(H0):m=m0
versus ipoteza alternativ ˘a
(H1):m6=m0;
cu probabilitatea de risc a.
Metoda I: Etapele testului sunt urmatoarele:
• Obtinem o multime de masuratori asupra variabilei X:x1;x2; :::; xn:
• Pe baza acestor masuratori putem calcula media si deviatia standard:
x=1
nn
å
i=1xisis=s
1
n1n
å
i=1(xix)2:
• Calculam statistica
t0=xm0
spn: (6.3.1)
• Decizia se ia astfel:
–dac˘ajt0j<t1a
2;n1, atunci admitem (H0).
–dac˘ajt0jt1a
2;n1, atunci respingem (H0).
Observa¸ tia 6.1 Regiunea critic ˘a este complementara intervalului de încredere. Decizia
se ia astfel:

110 Capitolul 6. Testarea ipotezelor statistice
• dac ˘at0=xm0
spn2
t1a
2;n1;t1a
2;n1
(echivalent, t062U), admitem (H0).
• dac ˘at0=xm0
spn62
t1a
2;n1;t1a
2;n1
(echivalent, t02U), respingem (H0).
Metoda a II-a: O alt ˘a modalitate de testare a unei ipoteze statistice parametrice este
prin intermediul Pvalorii, Pv. Reamintim, Pvaloarea este probabilitatea de a ob¸ tine
un rezultat cel pu¸ tin la fel de extrem ca cel observat, presupunând c ˘a ipoteza nul ˘a este
adev ˘arat˘a. Aceasta valoare este afisata de orice soft statistic folosit in testarea ipotezelor.
DacaSeste statistica test, atunci
Pv=P(jSj>js0j) =P(S>js0j)+P(S<js0j); (6.3.2)
undeSeste statistica folosit ˘a în testare ¸ si s0este valoarea acestei statistici pentru selec¸ tia
dat˘a (respectiv, selec¸ tiile date, în cazul test ˘arii cu dou ˘a selec¸ tii).
Pentru testul unilateral stânga, Pvaloarea se poate calcula dup ˘a formula:
Pv=P(S<s0); (6.3.3)
iar pentru testul unilateral dreapta, Pvaloarea este dat ˘a de:
Pv=P(S>s0); (6.3.4)
Utilizând Pvaloarea, testarea se face astfel:
Ipoteza nul ˘a va fi respins ˘a dac ˘aPv<a¸ si va fi admis ˘a dac ˘aPva. A¸ sadar, cu cât Pveste
mai mic, cu atât mai multe dovezi de respingere a ipotezei nule.
6.3.2 Test pentru dispersie
Pentru variabila Xca mai sus dorim sa testam ipoteza:
(H0):s2=s2
0vs. ipoteza alternativ ˘a(H1):s26=s2
0;
cu probabilitatea de risc a. Etapele testului sunt urmatoarele:
• Obtinem o multime de masuratori asupra variabilei X:x1;x2; :::; xn:
• Pe baza acestor masuratori putem calcula media si deviatia standard:
x=1
nn
å
i=1xisis=s
1
n1n
å
i=1(xix)2:
• Calculam statistica
c2
0=n1
s2
0s2; (6.3.5)
• Luarea deciziei se face astfel:
–dac˘ac2
02
c2a
2;n1;c2
1a
2;n1
, atunci admitem (H0)(i.e.,s2=s2
0);
–dac˘ac2
062
c2a
2;n1;c2
1a
2;n1
, atunci respingem (H0)(i.e.,s26=s2
0).
Observa¸ tia 6.2 Decizia testului putea fi luat ˘a ¸ si pe baza Pvalorii. Valoarea ei pentru
testul unilateral stânga (resp., dreapta) este
Pv=P(c2<c2
0) (resp., Pv=P(c2>c2
0)):
Pentru testul bilateral este dublul celei mai mici valori dintre cele dou ˘a de mai sus.

6.4 Teste parametrice pentru dou ˘a popula¸ tii 111
6.3.3 Test pentru propor¸ tie într-o popula¸ tie binomial ˘a
FieXo caracteristic ˘a binomial ˘a a unei colectivit ˘a¸ ti, cu probabilitatea de succes p. Pe baza
unor selec¸ tii ale popula¸ tiei, dorim s ˘a test ˘am urm ˘atoarea ipotez ˘a asupra lui p:
(H0):p=p0vs. (H1):p6=p0:
De asemenea, putem considera ¸ si ipoteze alternative unilaterale:
(H1)s:p<p0 sau (H1)d:p>p0:
Pentru a putea testa acest ˘a ipotez ˘a, ne vom folosi de rezultatele din cursul precedent. S ˘a
presupunem c ˘a volumul popula¸ tiei ( N) este mult mai mare posibil infinit) decât volumul n
al selec¸ tiilor considerate. Fix ˘am un nivel de semnifica¸ tie a. V om construi testul pentru
propor¸ tia popula¸ tiei pe baza intervalului de încredere (5.3.17).
Etapele testului sunt:
•Pe baza selec¸ tiei, calcul ˘am propor¸ tia de selec¸ tie bp, care este o estimare a propor¸ tiei popula¸ tiei,
p;
• Calcul ˘am valoarea
P0=bpp0r
p0(1p0)
n;
• Calcul ˘am cuantila z1a
2;
• Dac ˘a
P02
z1a
2;z1a
2
;
atunci admitem ipoteza nul ˘a la acest nivel de semnifica¸ tie. Altfel, o respingem. Regiunea
critic ˘a este complementara intervalului de încredere.
6.4 Teste parametrice pentru dou ˘a popula¸ tii
V om discuta mai jos trei teste statistice: testul tpentru diferenta mediilor, testul pentru
egalitatea a dou ˘a varian¸ te si testul pentru egalitatea a dou ˘a propor¸ tii.
FieX1¸ siX2caracteristicile (independente) a dou ˘a popula¸ tii normale, N(m1;s1), respectiv,
N(m2;s2), pentru care nu se cunosc mediile teoretice. Alegem din prima popula¸ tie o
selec¸ tie repetat ˘a de volum n1,x1=fx11;x12; :::; x1n1g, ce urmeaz ˘a reparti¸ tia lui X1, iar
din a dou ˘a popula¸ tie alegem o selec¸ tie repetat ˘a de volum n2,x2=fx21;x22; :::; x2n2g, ce
urmeaz ˘a reparti¸ tia lui X2. Fie(X1i)i=1;n1¸ si(X2j)j=1;n2aleatoare de selec¸ tie corespunz ˘a-
toare fiec ˘arei selec¸ tii. Fix ˘am pragul de semnifica¸ tie a.
6.4.1 Testul tpentru diferen¸ ta mediilor a dou ˘a selec¸ tii
Testul tpentru diferen¸ ta mediilor se folose¸ ste pentru selec¸ tii normale independente de
volum mic ( n<30), atunci când dispersiile popula¸ tiilor considerate sunt necunoscute a
priori . Dorim s ˘a test ˘am ipoteza nul ˘a c˘a mediile sunt egale
(H0):m1=m2

112 Capitolul 6. Testarea ipotezelor statistice
vs. ipoteza alternativ ˘a
(H1):m16=m2:
Pentru testul tpentru diferen¸ ta mediilor distingem doua cazuri: (1) s16=s2sunt
necunoscute; (2) s1=s2¸ si sunt necunoscute.
Etapele testul tpentru diferen¸ ta mediilor
(1) Se dau: fx11;x12; :::; x1n1g,fx21;x22; :::; x2n2g(date normale), m0,a;
(2) Calculam x1;x2;s1sis2dupa formulele uzuale;
(3) Determin ˘am valoarea t1a
2;m(unde m=N, dac ˘as16=s2saum=n1+n22,
dac˘as1=s2) astfel încât func¸ tia de reparti¸ tie pentru reparti¸ tia Student t(m),
Fm
t1a
2;m
=1a
2: Aici, N=s2
1
n1+s2
2
n22
s2
1
n121
n11+s2
2
n221
n212:
(4) Calculez valoarea
t0=8
>>>>>><
>>>>>>:x1x2s
s2
1
n1+s2
2
n2, dac ˘as16=s2
x1x2q
(n11)s2
1+(n21)s2
2s
n1+n22
1
n1+1
n2, dac ˘as1=s2
(5) Dac ˘a:
(i)jt0j<t1a
2;m, atunci m1=m2;
(ii)jt0jt1a
2;m, atunci m16=m2.
Observa¸ tia 6.3 (1) În practic ˘a, nu putem ¸ sti a priori dac˘a dispersiile teoretice a celor
dou˘a popula¸ tii ce urmeaz ˘a a fi testate sunt egale sau nu. De aceea, pentru a ¸ sti ce test s ˘a
folosim, va trebui s ˘a test ˘am mai întâi ipoteza c ˘a cele dou ˘a dispersii sunt egale, vs. ipoteza
ca ele difer ˘a. Pentru aceasta, va trebui s ˘a utiliz ˘am un test pentru raportul dispersiilor. Dup ˘a
ce acest prim test a fost realizat, putem decide ce varianta folosim în testarea egalit ˘a¸ tii
mediilor.
(2) Testul tpentru dou ˘a selec¸ tii, bilateral sau unilateral, poate fi aplicat cu succes ¸ si pentru
popula¸ tii non-normale, dac ˘a volumele selec¸ tiilor observate sunt n130;n230.
(3) Pentru testul t,Pvaloarea se poate calcula dup ˘a urm ˘atoarele formule:
Pv=P(jTj>jt0j) =1Fm(jt0j)+Fm(jt0j)(pentru testul Tbilateral);
Pv=P(T<t0) =Fm(t0)(pentru testul Tunilateral stânga);
Pv=P(T>t0) =1Fm(t0)(pentru testul Tunilateral dreapta) :
unde m=Nsaum=n1+n22, dup ˘a caz.
6.4.2 Testul Fpentru raportul a dou ˘a dispersii
Dorim s ˘a test ˘am ipoteza nul ˘a c˘a dispersiile teoretice s1sis2sunt egale
(H0):s2
1=s2
2

6.4 Teste parametrice pentru dou ˘a popula¸ tii 113
vs. ipoteza alternativ ˘a
(H1):s2
16=s2
2:
Calculam statistica:
f0=s2
2
s2
1s2
1
s2
2: (6.4.6)
Calculam cuantilele pentru repartitia Fisher cu (n11;n21)grade de libertate:
fa
2;n11;n21si f1a
2;n11;n21:
Regula de decizie este:
• dac ˘af02
fa
2;n11;n21;f1a
2;n11;n21
, atunci admitem (H0)(i.e.,s1=s2);
• dac ˘af062
fa
2;n11;n21;f1a
2;n11;n21
, atunci respingem (H0)(i.e.,s16=s2).
6.4.3 Testul pentru egalitatea a dou ˘a propor¸ tii
FieX1¸ siX2dou˘a caracteristici binomiale independente ale unei popula¸ tii, cu volumele ¸ si
probabilit ˘a¸ tile de succes n1;p1¸ si, respectiv, n2;p2. Pe baza unor selec¸ tii, dorim s ˘a test ˘am
ipotezele:
(H0):p1=p2vs. (H1):p16=p2:
De asemenea, putem considera ¸ si ipoteze alternative unilaterale:
(H1)s:p1<p2sau (H1)d:p1>p2:
Pentru a putea testa acest ˘a ipotez ˘a, ne vom folosi de rezultatele din cursul precedent. S ˘a
presupunem c ˘a volumul popula¸ tiei ( N) este mult mai mare (posibil infinit) decât volumele
selec¸ tiilor considerate. Fix ˘am un nivel de semnifica¸ tie a. Dac ˘a ipoteza nul ˘a este admis ˘a,
atunci p1=p2=p. Un estimator pentru peste frecven¸ ta relativ ˘a a num ˘arului de succese
cumulate în cele dou ˘a selec¸ tii, i.e.,
p=n1bp1+n2bp2
n1+n2:
Etapele testului sunt:
•Calcul ˘am propor¸ tiile de selec¸ tie bp1¸ sibp2, care sunt estim ˘ari pentru p1, respectiv, p2;
• Calcul ˘am valoarea
P0=bp1bp2r
p(1p)
1
n1+1
n2;
• Calcul ˘am cuantila z1a
2;
• Dac ˘a
P02
z1a
2;z1a
2
;
atunci admitem ipoteza nul ˘a la acest nivel de semnifica¸ tie. Altfel, o respingem.
Regiunea critic ˘a este complementara intervalului de încredere.

114 Capitolul 6. Testarea ipotezelor statistice
6.5 Teste parametrice în MATLAB
6.5.1 Testul tpentru o selec¸ tie în MATLAB
Testul tpoate fi simulat în M ATLAB utilizând comanda general ˘a
[h, p, ci, stats] = ttest(X,m0,alpha,tail)
unde:
• heste rezultatul testului. Dac ˘ah=1, atunci ipoteza nul ˘a se respinge, dac ˘ah=0, atunci
ipoteza nul ˘a nu poate fi respins ˘a pe baza observa¸ tiilor facute (adic ˘a, se admite, pân ˘a la un
test mai puternic);
• peste valoarea P(Pvalue);
• cieste un interval de încredere pentru m, la nivelul de semnifica¸ tie a;
• m0=m0, valoarea testat ˘a;
• alpha este nivelul de semnifica¸ tie;
• tail poate fi unul dintre urm ˘atoarele ¸ siruri de caractere:
– 'both' , pentru un test bilateral (poate s ˘a nu fie specificat ˘a, se subîn¸ telege implicit);
– 'left' , pentru un test unilateral stânga ( m<m0);
– 'right' , pentru un test unilateral dreapta ( m>m0);
• variabila stats înmagazineaz ˘a urm ˘atoarele date:
– tstat – este valoarea statisticii Tpentru observa¸ tia considerat ˘a;
– df- num ˘arul gradelor de libertate ale testului;
– sd- devia¸ tia standard de selec¸ tie;
Pentru exercitiul 6.1, codul M ATLAB este:
n = 90; alpha = 0.05; m0 = 6.5;
x=2:10; f=[2 4 8 15 18 17 15 7 4];
xbar = x*f'/n; s = sqrt(sum(f.*(x-xbar).^2)/(n-1));
t0 = (xbar-m0)/(s/sqrt(n)); t = tinv(1-alpha/2,n-1);
if (abs(t0)< t);
disp('(H0)')
else
disp('(H1)')
end
Sau, folosind functia ttest :
n = 90; alpha = 0.05; m0 = 6.5;
X = [2*ones(1,2), 3*ones(1,4), 4*ones(1,8), 5*ones(1,15), …
6*ones(1,18),7*ones(1,17),8*ones(1,15),9*ones(1,7),10*ones(1,4)];
[h, p, ci, stats] = ttest(X,m0,alpha,'both')"}
afiseaza:

6.5 Teste parametrice în MATLAB 115
h = p = ci = stats =
0 0.4975 5.9777 6.7556 tstat: -0.6812
df: 89
sd: 1.8570
6.5.2 Testul tpentru dou ˘a selec¸ tii
Testul tpentru egalitatea a dou ˘a medii poate fi simulat în M ATLAB utilizând comanda
[h, p, ci, stats] = ttest2(X, Y, alpha, tail, vartype)
unde:
• h, p, ci, alpha , stats ¸ si tail sunt la fel ca mai sus;
• X¸ si Ysunt vectori sau o matrice, con¸ tinând observa¸ tiile culese. Dac ˘a ele sunt matrice,
atunci mai multe teste Zsunt efectuate, de-alungul fiec ˘arei coloane;
• vartype ia valoarea equal dac˘a dispersiile teoretice sunt egale sau unequal pentru
dispersii inegale.
6.5.3 Test pentru dispersie în MATLAB
Testul pentru dispersie (varian¸ t ˘a) poate fi simulat în M ATLAB utilizând comanda
[h, p, ci, stats] = vartest(X,var,alpha,tail)
unde:
• h, p, ci, m0, alpha , stats , tail sunt la fel ca în func¸ tia ttest ;
• vareste valoarea testat ˘a a dispersiei;
Pentru exercitiul 6.2, codul M ATLAB este
alpha = 0.1; n = 11; sig0 = 0.003;
x = [10.50 10.55 10.60 10.65];
f = [2 3 5 1];
xbar = x*f'/n; s2 = sum(f.*(x-xbar).^2)/(n-1);
c0 = (n-1)*s2/sig0;
c1 = chi2inv(alpha/2,n-1); c2 = chi2inv(1-alpha/2,n-1);
if (c1 < c0 & c0 < c2);
disp('(H0)')
else
disp('(H1)')
end
Sau, folosind functia vartest :

116 Capitolul 6. Testarea ipotezelor statistice
n = 11; alpha = 0.1; sig0 = 0.003;
X = [10.5*ones(1,2), 10.55*ones(1,3), 10.6*ones(1,5), 10.65];
[h, p, ci, stats] = vartest(X,sig0,alpha,'both')
afiseaza:
h = p = ci = stats =
0 0.6011 0.0012 0.0055 tstat: 7.2727
df: 10
6.5.4 Testul Fîn M ATLAB
Testul raportului dispersiilor poate fi simulat în M ATLAB utilizând comanda
[h, p, ci, stats] = vartest2(X, Y, alpha, tail)
unde variabilele sunt la fel ca în func¸ tia ttest2 .
Exemplu 6.1 Revenim la Exerci¸ tiul 6.4 ¸ si verific ˘am dac ˘a cele dou ˘a selec¸ tii de note
(Tabelul 6.5) provin din popula¸ tii cu dispersii egale. A¸ sadar, avem de testat (la nivelul de
semnifica¸ tie a=0:01)
(H0)s2
1=s2
2 vs. (H1)s2
16=s2
2:
R: Utilizând nota¸ tiile din Exerci¸ tiul 6.4, comanda MATLAB care rezolv ˘a acest test este:
[h, p, CI, stats] = vartest2(u, v , 0.01 , 'both')
(pentru teste unilaterale, folosim 'left' sau 'right' în locul lui 'both' .)
Rezultatul comenzii anterioare este:
h = p = CI = stats =
0 0.2119 0.2191 fstat: 0.6047
1.7426 df1: 24
df2: 29
Deoarece h = 0 , decidem c ˘a dispersiile teoretice ale celor dou ˘a popula¸ tii pot fi considerate
a fi egale la nivelul de semnifica¸ tie a=0:01.
Observa¸ tia 6.4 Decizia testului poate fi luat ˘a ¸ si pe baza inspec¸ tiei valorii P, observând
c˘a aceasta este mai mare decât a. Aceasta este:
Pv=1Fn11;n21(jf0j)+Fn11;n21(jf0j) =1Fn11;n21(jf0j):

6.6 Exerci¸ tii rezolvate 117
În M ATLAB , calcul ˘am astfel:
f0 = var(u)/var(v); Pv = 1 – fcdf(abs(f0),n1-1,n2-1)
6.6 Exerci¸ tii rezolvate
Exerci¸ tiu 6.1
Pentru a determina media notelor la teza de
Matematica a elevilor dintr-un anumit oras,
s-a facut un sondaj aleator de volum n=90
printre elevii din oras.nota 2 3 4 5 6 7 8 9 10
frecv. 2 4 8 15 18 17 15 7 4
Tabela 6.4: Tabel cu notele la teza
Notele observate in urma sondajului sunt grupate in Tabelul 6.4. Dorim s ˘a test ˘am, la
nivelul de semnifica¸ tie a=0:05, dac ˘a media tuturor notelor la teza de Matematic ˘a a
elevilor din oras este m=6:5.
R: A¸ sadar, avem de testat
(H0)m=6:5 vs. (H1)m6=6:5:
Media si deviatia standard a notelor din tabel sunt:
x=6:3667 ;s=1:8570 :
Valoarea statisticii t0si pragul teoretic de referinta (cuantila) sunt:
t0=xm0
spn=0:6812 ;t1a
2;n1=t0:975; 89 =1:9870 :
Deoarecejt0j<t0:975; 89 , luam decizia ca ipoteza (H0)este admisa la acest nivel de
semnificatie.
Metoda a II-a: Decizia testului putea fi luat ˘a ¸ si pe baza Pvalorii. Aceasta poate fi
calculata de un soft statistic, valoarea ei fiind Pv=P(jTj>jt0j) =0:4975 , care este mai
mare decat valoarea lui a. Astfel, ipoteza nula este admisa in acest caz.
Exerci¸ tiu 6.2 Se cerceteaz ˘a caracteristica X, ce reprezint ˘a diametrul pieselor (în mm)
produse de un strung. Presupunem ca valorile observate urmeaza o repartitie normala.
Pentru o selec¸ tie de piese de volum n=11 ¸ si ob¸ tinem distribu¸ tia empiric ˘a:
10.50 10.55 10.60 10.65
2 3 5 1
:
S˘a se testeze (cu a=0:1) ipoteza nul ˘a
(H0):s2=0:003;
versus ipoteza alternativ ˘a
(H1):s26=0:003:

118 Capitolul 6. Testarea ipotezelor statistice
R:Folosim testul pentru dispersie. Calculam mai intai s2si apoi valoarea statisticii test.
Obtinem s2=0:0022 si, astfel,
c2
0=10
0:0030:0022 =7:2727. Cuantilele sunt:
c2a
2;n1=3:9403; c2
1a
2;n1=18:3070 :
Astfel, intervalul teoretic de referinta este
c2
02
c2a
2;n1;c2
1a
2;n1
= (3:9403 ;18:3070):
Cum valoarea c2
0=7:2727 se afla in acest interval, tragem concluzia ca ipoteza nula nu
poate fi respinsa. (o acceptam).
Metoda a II-a: Decizia testului putea fi luat ˘a ¸ si pe baza Pvalorii. Deoarece P(c2<
7:2727) =0:3005 ¸ si P(c2>7:2727) =0:6995, valoarea ei pentru testul bilateral este
Pv=2P(c2<c2
0) =2 chi2cdf(7.2727,10) =0:6011 ;
care este mai mare decat valoarea lui a. Astfel, ipoteza nula este admisa in acest caz.
Exerci¸ tiu 6.3 Într-un sondaj na¸ tional de opinie, 5000 de persoane au fost rugate s ˘a
r˘aspund ˘a la o întrebare legat ˘a de apartenen¸ ta religioas ˘a. La întrebarea "Sunte¸ ti cre¸ s-
tini?", r ˘aspunsul a fost afirmativ în 4893 dintre cazuri. Rezultatul acestui sondaj este
utilizat în estimarea procentului de cre¸ stini din ¸ tar ˘a. S˘a not ˘am cu pacest procent. La
nivelul de semnifica¸ tie a=0:05, testa¸ ti dac ˘apeste de 95% sau mai mare.
R: Avem de testat ipoteza
(H0):p=0:95 vs. (H1):p>0:95:
Procentul de selec¸ tie este bp=4893
5000=0:9786 , cuantila este z1a=1:6449 ¸ si valoarea
statisticii este
P0=0:97860:95r
0:95(10:95)
5000=9:27912[1:6449 ;¥);
a¸ sadar ipoteza nul ˘a este respins ˘a la acest nivel de semnifica¸ tie. Admitem c ˘ap>0:95.
Aceea¸ si concluzie poate fi dedus ˘a ¸ si prin inspec¸ tia Pvalorii. Aceasta este
Pv=P(Z>P0) =1P(ZP0) =1Q(9:2791)0<a=0:05:
A¸ sadar, ipoteza nul ˘a va fi respins ˘a la toate nivele de semnifica¸ tie practice.
Exerci¸ tiu 6.4 Caracteristicile X1¸ siX2reprezint ˘a notele ob¸ tinute de studen¸ tii de la Master
MF008, respectiv, MF009la examenul de Statistic ˘a Aplicat ˘a. Conducerea universit ˘a¸ tii
recomand ˘a ca aceste note s ˘a urmeze reparti¸ tia normal ˘a ¸ si examinatorul se conformeaz ˘a
dorin¸ tei de sus. Presupunem c ˘aX1N(m1;s1)¸ siX2N(m2;s2), cus16=s2, ne-
cunoscute a priori . Pentru a verifica modul cum s-au prezentat studen¸ tii la acest examen în
doi ani consecutivi, select ˘am aleator notele a 25de studen¸ ti din prima grup ˘a ¸ si30de note
din a doua grup ˘a. distribuctii de frecven¸ te ale notelor sunt cele din Tabelul 6.5.

6.6 Exerci¸ tii rezolvate 119
(i) Verifica¸ ti dac ˘a ambele seturi de date provin dintr-o reparti¸ tie normal ˘a;
(ii) G˘asi¸ ti un interval de încredere pentru diferen¸ ta mediilor, la nivelul de semnifica¸ tie
a=0:05;
(ii) S˘a se testeze (cu a=0:01) ipoteza nul ˘a
(H0):m1=m2; (în medie, studen¸ tii sunt la fel de buni )
versus ipoteza alternativ ˘a
(H1):m1<m2; (în medie, studen¸ tii au note din ce în ce mai mari )
Nota ob¸ tinut ˘aFrecven¸ ta absolut ˘a
Grupa MF008 Grupa MF009
5 3 5
6 4 6
7 9 8
8 7 6
9 2 3
10 0 2
Tabela 6.5: Tabel cu note.
R:(i) h = chi2gof(u) % h = 0 , deci uN
k = chi2gof(v) % k = 0 , deci vN
(u¸ sivsunt vectorii din codul M ATLAB de mai jos)
(ii) Un interval de încredere la acest nivel de semnifica¸ tie se ob¸ tine apelând func¸ tia
MATLAB
[h, p, ci, stats] = ttest2(u, v, 0.05, 'both', 'unequal')
Acesta este:
(-0.7294, 0.6760)
Altfel, se calculeaz ˘a intervalul de încredere (vezi Tabelul 5.1)
0
@x1x2t1a
2;Ns
s2
1
n1+s2
2
n2;x1x2+t1a
2;Ns
s2
1
n1+s2
2
n21
A
Codul M ATLAB :
n1=25; n2=30; alpha = 0.05;
u =[5*ones(3,1);6*ones(4,1);7*ones(9,1);8*ones(7,1);9*ones(2,1)];
v =[5*ones(5,1);6*ones(6,1);7*ones(8,1);8*ones(6,1);9*ones(3,1);10*ones(2,1)];
s1 = var(u); s2 = var(v); t = tinv(1-alpha/2,N);
N = (s1/n1+s2/n2)^2/((s1/n1)^2/(n1-1)+(s2/n2)^2/(n2-1))-2;
m1 = mean(u)-mean(v)-t*sqrt(s1/n1+s2/n2);
m2 = mean(u)-mean(v)+t*sqrt(s1/n1+s2/n2);
fprintf('(m1,m2)=(%6.3f,%6.3f)\n',m1,m2);

120 Capitolul 6. Testarea ipotezelor statistice
(iii) Comanda M ATLAB este:
[h,p,ci,stats] = ttest2(u, v, 0.01, 'left', 'unequal')
În urma rul ˘arii comenzii, ob¸ tinem:
h = p = ci = stats =
0 0.4698 -Inf tstat: -0.0761
0.8137 df: 52.7774
sd: 2×1 double
Observa¸ tia 6.5 Valoarea Ppoate fi calculat ˘a ¸ si cu formula:
Pv=P(T<t0) =FN1(t0) =0:4698 :
În M ATLAB scriem astfel:
t0 = (mean(u)-mean(v))/sqrt(d1/n1+d2/n2); Pv = tcdf(t0, N-1)
Exerci¸ tiu 6.5 Revenim la Exemplul 5.10. S ˘a se testeze, la nivelul de semnifica¸ tie a=0:02
dac˘a exist ˘a diferen¸ te semnificative între propor¸ tiile de baie¸ ti ¸ si fete din respectiva ¸ scoal ˘a
c˘arora le place Matematica.
R: Avem:bp1=23
45,bp2=37
65,p=23+37
45+65=6
11¸ siz0:992:33. Valoarea statisticii este:
P0=23
4537
65q
6
11(16
11)1
45+1
65=0:60192[2:3263 ;2:3263];
deci ipoteza nul ˘a nu poate fi respins ˘a la acest nivel de semnifica¸ tie.
Aceea¸ si concluzie o putem lua dac ˘a verific ˘amPvaloarea. Aceasta este:
Pv=P(jZj>jP0j) =1P(Z<jP0j)+P(Z<jP0j) =0:5472 >0:02=a:

6.7 Exerci¸ tii propuse 121
6.7 Exerci¸ tii propuse
Exerci¸ tiu 6.6 În clasa a- IX-a a unui liceu sunt 160de elevi.
Reprezentarea stem&leaf de mai jos con¸ tine punctajele a 40
dintre ace¸ stia, ob¸ tinute la testul ini¸ tial de Matematic ˘a (punctajul
maxim este 100 de puncte).
(1) Calcula¸ ti media, dispersia ¸ si modul pentru selec¸ tia dat ˘a.
(2) Estima¸ ti printr-un interval de încredere punctajul mediu la
Matematic ˘a pentru elevii din acea ¸ scoal ˘a (a=0:06).
(3) Estima¸ ti printr-un interval de încredere procentul elevilor
din ¸ scoal ˘a care au ob¸ tinut mai pu¸ tin de 50de puncte la testul
ini¸ tial la Matematic ˘a (a=0:06).
(4) Testa¸ ti ipoteza c ˘a18% dintre elevii din acea ¸ scoal ˘a au
punctaje sub 50 ( a=0:06).stem leaf
10 0 0
9 2 5 6
8 0 0 1 3 5 6
7 3 4 5 5 5 7 7 7 9
6 1 2 2 4 5 5 8 8
5 0 3 5 8 9
4 1 4 8
3 4 9
2 5
1 9
Exerci¸ tiu 6.7 Tabelul al ˘aturat con¸ tine reparti¸ tia pe grupe de
vârst ˘a ¸ si gen a unei selec¸ tii aleatoare de 385 de ¸ someri dintr-o
anumit ˘a regiune a ¸ t ˘arii.
[1]Calcula¸ ti vârsta medie si devia¸ tia standard pentru selec¸ tia
dat˘a.
[2]Estima¸ ti printr-un interval de încredere vârsta medie a
¸ somerilor din acea regiune ( a=0:04).
[3]Testa¸ ti ipoteza c ˘a vârsta medie a ¸ somerilor este 42de ani
(a=0:04).
[4] Testa¸ ti ipoteza c ˘a vârsta ¸ somerilor este o variabil ˘a
aleatoare normal ˘a (a=0:04).vârsta frecven¸ ta
[18;25) 34
[25;35) 76
[35;45) 124
[45;55) 87
[55;65) 64
Exerci¸ tiu 6.8 Caracteristica Xreprezint ˘a cheltuielile lunare pentru convorbirile telefonice
ale unei familii. În urma unui sondaj la care au participat 100de familii, am ob¸ tinut datele
(reparti¸ tia de frecven¸ te):

[50, 75) [75, 100) [100, 125) [125, 150) [150, 175) [175, 200) [200, 250) [250, 300)
6 11 13 18 20 14 11 7
(a) S ˘a se verifice, cu nivelul de semnifica¸ tie a=0:02, ipoteza c ˘a media acestor cheltuieli
lunare pentru o singur ˘a familie este de 140RON , ¸ stiind c ˘a abaterea standard este 35RON .
(b) S ˘a se verifice aceea¸ si ipotez ˘a, în cazul în care abaterea standard nu este cunoscut ˘aa
priori .
Exerci¸ tiu 6.9 La un examen na¸ tional, se contabilizeaz ˘a nota xob¸ tinut ˘a de fiecare
examinat în parte. Pentru o analiza statistic ˘a, se aleg la întâmplare 200de candida¸ ti. S-a
g˘asit c ˘a suma notelor alese este200
å
i=1xi=1345 :37¸ si suma p ˘atratelor acestor note este
200
å
i=1×2
i=10128 :65. Se cer:
(a) G ˘asi¸ ti un interval de încredere pentru media ma tuturor notelor participan¸ tilor la
examen, la nivelul de semnifica¸ tie a=0:05.
(b) Testa¸ ti ipoteza nul ˘a(H0):m=6:75, vs. ipoteza alternativ ˘a(H1):m6=6:75, la

122 Capitolul 6. Testarea ipotezelor statistice
nivelul a=0:05. Argumenta¸ ti statistica folosit ˘a în testare.
Exerci¸ tiu 6.10 Un patron sus¸ tine c ˘a firma sa nu face discriminare sexual ˘a la angajare (i.e.,
atât b ˘arba¸ tii, cât ¸ si femeile au aceea¸ si ¸ sans ˘a de a se angaja în respectiva firm ˘a). Se aleg 500
de angaja¸ ti ¸ si se g ˘asesc 267de b˘arba¸ ti. Testa¸ ti la nivelul de semnifica¸ tie 0:05dac˘a patronul
firmei spune adev ˘arul sau nu.
Exerci¸ tiu 6.11 Dintre toate înregistr ˘arile vitezelor vehiculelor ce trec prin dreptul
radarului fix a¸ sezat în fa¸ ta universit ˘a¸ tii, se aleg 10date la întâmplare. Acestea sunt (în
km/h ):
48 44 55 45 47 41 39 49 55 52
Presupunem c ˘a selec¸ tia face parte dintr-o popula¸ tie normal ˘a.
(a) G ˘asi¸ ti un interval de încredere cu încrederea de 98% pentru viteza medie a vehiculelor
ce trec prin dreptul radarului.
(b) Testa¸ ti dac ˘a viteza medie cu care se circul ˘a prin fa¸ ta acestui radar este de 45 km/h sau
nu, considerându-se un nivel de semnifica¸ tie a=0:02 ;
(c) Estima¸ ti probabilitatea ca viteza legal ˘a de 50 km/h s˘a fi fost dep ˘a¸ sit˘a, folosind datele
selec¸ tiei considerate.
Exerci¸ tiu 6.12 Informa¸ tiile din tabelul de mai jos sunt date despre dou ˘a selec¸ tii indepen-
dente ce au fost extrase din dou ˘a popula¸ tii statistice.
Selec¸ tia V olumul selec¸ tiei media de selec¸ tie devia¸ tia standard de selec¸ tie
1 50 9:75 1:5
2 75 9:5 0:95
Se cer:
(a) Estima¸ ti punctual ¸ si printr-un interval de încredere ( a=0:01) valoarea m1m2;
(b) Testa¸ ti ( a=0:01) ipoteza
(H0):m1=m2 vs. (H1):m16=m2
Exerci¸ tiu 6.13 O selec¸ tie de 700de salarii pe or ˘a din România arat ˘a c˘a media salariului
pe or ˘a este x=11:42 RON ¸ sis=9:3. Putem decide, pe baza acestui sondaj, c ˘a media
salariului pe or ˘a este, de fapt, m>9:78 RON, valoare stabilit ˘a de guvernul român? Se va
folosi a=0:05.
Exerci¸ tiu 6.14 Se arunc ˘a o moned ˘a de250de ori, ob¸ tinându-se 138de apari¸ tii ale stemei.
La un nivel de semnifica¸ tie a=0:05, s˘a se decid ˘a dac ˘a avem suficiente dovezi de a afirma
c˘a acest ˘a moned ˘a este fals ˘a.
Exerci¸ tiu 6.15 Un patron sus¸ tine c ˘a firma sa nu face discriminare sexual ˘a la angajare (i.e.,
atât b ˘arba¸ tii, cât ¸ si femeile au aceea¸ si ¸ sans ˘a de a se angaja în respectiva firm ˘a). Se aleg 500
de angaja¸ ti ¸ si se g ˘asesc 267de b˘arba¸ ti. Testa¸ ti la nivelul de semnifica¸ tie 0:05dac˘a patronul
firmei spune adev ˘arul sau nu.

7. Teste de concordan¸ t ˘a
. [You should take Poisson only on rare occasions]
În general, testele de concordan¸ t˘ a (en., goodness-of-fit tests) realizeaz ˘a concordan¸ ta între
reparti¸ tia empiric ˘a (reparti¸ tia datelor observate) ¸ si o reparti¸ tie teoretic ˘a sau testeaz ˘a dac ˘a
dou˘a seturi de date observate provin dintr-o aceea¸ si reparti¸ tie. Dou ˘a dintre cele mai des
utilizate teste de concordan¸ t ˘a sunt:
•testul c2de concordan¸ t ˘a (pentru a testa concordan¸ ta între reparti¸ tia datelor obsevate
¸ si o reparti¸ tie teoretic ˘a dat ˘a)
•¸ si testul Kolmogorov-Smirnov (pentru a testa a testa concordan¸ ta între reparti¸ tia
datelor obsevate ¸ si o reparti¸ tie teoretic ˘a dat ˘a (one-sample test ) sau pentru a testa
dac˘a dou ˘a seturi de date observate provin dintr-o aceea¸ si reparti¸ tie ( two-sample test ).
7.1 Testul c2de concordan¸ t ˘a
Acest test de concordan¸ t ˘a poate fi utilizat ca un criteriu de verificare a ipotezei potrivit
c˘areia un ansamblu de observa¸ tii urmeaz ˘a o reparti¸ tie dat ˘a. Se aplic ˘a la verificarea
normalit ˘a¸ tii, a exponen¸ tialit ˘a¸ tii, a caracterului Poisson, a caracterului Weibull etc. Testul
mai este numit ¸ si testul c2al lui Pearson sautestul c2al celei mai bune potriviri (en.,
goodness of fit test). Acest test poate fi aplicat pentru orice tip de date pentru care func¸ tia
de reparti¸ tie empiric ˘a poate fi calculat ˘a.
7.1.1 Cazul neparametric
S˘a consider ˘am o caracteristic ˘aXa unei popula¸ tii statistice W. Reparti¸ tia variabilei aleatoare
Xeste necunoscut ˘aa priori , îns˘a intuim (sau avem anumite informa¸ tii) cum c ˘a aceasta ar fi

124 Capitolul 7. Teste de concordan¸ t ˘a
dat˘a de legea de probabilitate complet specificat ˘af(x;q)(e.g., f(x) =e22x
x!;x2N(X
P(2))sauf(x) =1
3p
2pe(x5)2
18(XN(5;3))).
Deoarece legea de probabilitate ipotetic ˘a este complet specificat ˘a,qeste cunoscut ¸ si vom
omite s ˘a mai punem în eviden¸ t ˘a dependen¸ ta lui fde acesta în decursul aceste sec¸ tiuni.
Pentru a verifica ipoteza f ˘acut˘a asupra reparti¸ tiei lui X, consider ˘am un set de observa¸ tii
asupra lui X¸ si test ˘am concordan¸ ta dintre reparti¸ tia empiric ˘a a datelor observate cu legea
teoretic ˘a dat ˘a de f(x). Fie x1;x2; :::; xnsetul de date observate. S ˘a not ˘am cu F(x)func¸ tia
de reparti¸ tie teoretic ˘a, i.e., F0=f. În cele ce urmeaz ˘a, urm ˘arim s ˘a aplic ˘am testul c2de
concordan¸ t ˘a, ale c ˘arui etape sunt:
•Descompunem în clase mul¸ timea observa¸ tiilor f ˘acute asupra lui X, astfel încât fiecare
element al mul¸ timii apar¸ tine unei singure clase. Scriem a¸ sadar,
fx1;x2; :::; xng=k[
i=1Oi;Oi\
Oj=?;8i6=j:
Determin ˘am frecven¸ tele empirice absolute, i.e., numerele nide observa¸ tii ce apar¸ tin
fiec˘arei clase Oi. În mod evident, va trebui s ˘a avem c ˘ak
å
i=1ni=n.
În general, se dore¸ ste ca n30¸ sini5, pentru ca testul s ˘a fie concludent. În cazul
în care num ˘arul de apari¸ tii într-o anumit ˘a clas ˘a nu dep ˘a¸ se¸ ste valoarea 5, atunci se vor
cumula dou ˘a sau mai multe clase, astfel încât în noua clas ˘a s˘a fie respectat ˘a condi¸ tia.
De¸ si, dac ˘a avem cel pu¸ tin 5clase, atunci sunt suficiente cel pu¸ tin 3valori în fiecare
clas˘a. În ambele cazuri, trebuie ¸ tinut cont de modificarea num ˘arului de clase, iar
num˘arulktrebuie modificat corespunz ˘ator (îl înlocuim cu noul num ˘ar, notat aici tot
cuk).
•Pentru fiecare i2f1;2; :::; kg, determin ˘am probabilitatea teoretic ˘apica un element
al popula¸ tiei s ˘a se afle în clasa Oi. Aceast ˘a probabilitate este ob¸ tinut ˘a cu ajutorul
func¸ tiei f(x). Astfel, frecven¸ tele teoretice absolute sunt n pi,i2f1;2; :::; kg. Altfel
spus, n pieste num ˘arul estimat de valori ale reparti¸ tiei cercetate ce ar c ˘adea în clasa
Oi.
• Formul ˘am ipoteza nul ˘a,
(H0): Func¸ tia de reparti¸ tie a lui XesteF(x):
Aceasta este echivalent ˘a cu
(H0): probabilitatea unei observa¸ tii de a apar¸ tine clasei Oieste pi(i=1;2; :::; k):
• Ipoteza alternativ ˘a este nega¸ tia ipotezei nule.
• Devia¸ tia între cele dou ˘a situa¸ tii (empiric ˘a ¸ si teoretic ˘a) este m ˘asurat ˘a de statistica
c2=k
å
i=1(nin pi)2
n pi: (7.1.1)
(Fiecare dintre termenii(nin pi)2
n pipoate fi privit ca fiind o eroare relativ ˘a de
aproximare a valorilor a¸ steptate ale reparti¸ tiei cu valorile observate.)
Statistica c2urmeaz ˘a reparti¸ tia c2(k1). Uneori, statistica c=p
c2se nume¸ ste
discrepan¸ t˘ a .

7.1 Testul c2de concordan¸ t ˘a 125
• Alegem nivelul de semnifica¸ tie a, de regul ˘a, foarte apropiat de zero.
•Alegem regiunea critic ˘a, ca fiind regiunea pentru care valoarea c2
0a acestei statistici
pentru observa¸ tiile date satisface
c2
0>c2
1a;k1;
unde c2
1a;k1este cuantila de ordin 1 apentru reparti¸ tia c2(k1).
•Dac˘a ne afl ˘am în regiunea critic ˘a, atunci datele observate sunt semnificativ diferite
de datele a¸ steptate (calculate teoretic). În consecin¸ t ˘a, ipoteza nul ˘a(H0)se respinge
la nivelul de semnifica¸ tie a. Altfel, nu sunt dovezi statistice suficiente s ˘a se resping ˘a.
7.1.2 Cazul parametric
Când probabilit ˘a¸ tile teoretice pinu sunt a priori cunoscute, atunci ele vor trebui estimate.
Acest caz apare atunci când legea de probabilitate f(x;q)nu este complet specificat ˘a, ci
doar specificat ˘a (¸ stim forma lui f, dar nu ¸ stim unul sau, eventual, mai mul¸ ti parametri ai
s˘ai). Folosind datele observate, va trebui s ˘a estim ˘am parametrii necunoscu¸ ti ai reparti¸ tiei
ipotetice. Fiecare estimare ne va costa un grad de libertate. Cu alte cuvinte, dac ˘a avem
de estimat un singur parametru, atunci pierdem un grad de libertate, pentru doi parametri,
pierdem dou ˘a grade etc.
S˘a presupunem c ˘a legea de probabilitate a lui Xde mai sus este f(x;q);unde q= (q1,q2,
:::,qp)2QRpsunt parametri necunoscu¸ ti. Pentru a aproxima ace¸ sti parametri, folosim
observa¸ tiile culese asupra lui X. O metod ˘a la îndemân ˘a pentru estim ˘ari parametrice este
metoda verosimilit ˘a¸ tii maxime.
Dup˘a ce am estimat parametrii reparti¸ tiei teoretice ipotetice, determin ˘am probabilit ˘a¸ tile
estimate. Stabilim apoi ipoteza nul ˘a:
(H0):pi=ˆpi; (i=1;2; :::; k);
unde pieste probabilitatea unei observa¸ tii de a apar¸ tine clasei i¸ siˆpisunt valorile estimate.
Din acest moment, etapele testului c2cazul parametric sunt asem ˘an˘atoare cu cele din
cazul neparametric, cu deosebirea c ˘a statistica c2dat˘a prin (7.1.1) urmeaz ˘a reparti¸ tia
c2cu(kp1)grade de libertate. Aceasta este urmare a faptului c ˘a se pierd pgrade
de libertate din cauza folosirii observa¸ tiilor date pentru estimarea celor pparametri
necunoscu¸ ti.
Etapele aplic ˘arii testului c2de concordan¸ t ˘a (neparametric sau parametric)
• Se dau: a;x1;x2;:::; xn:Intuim F(x;q1;q2; :::; qp);
• Formul ˘am ipotezele statistice:
(H0)func¸ tia de reparti¸ tie teoretic ˘a a variabilei aleatoare XesteF(x;q1;q2; :::; qp)
(H1)ipoteza nul ˘a nu este adev ˘arat˘a.
•Dac˘aq1;q2; :::; qk(kp) nu sunt parametri cunoscu¸ ti, atunci determin ˘am estim ˘arile de
verosimilitate maxim ˘aˆq1;ˆq2; :::; ˆqkpentru ace¸ stia (doar în cazul parametric ; altfel s ˘arim
peste acest pas);
• Scriem distribu¸ tia empiric ˘a de selec¸ tie (tabloul de frecven¸ te),
clasaOi
ni
i=1;k;k
å
i=1ni=n;ni5;

126 Capitolul 7. Teste de concordan¸ t ˘a
•Se calculeaz ˘a probabilitatea pi, ca un element luat la întâmplare s ˘a se afle în clasa Oi. Dac ˘a
Oi= [ai1;ai), atunci
pi=F(ai;q)F(ai1;q), în cazul neparametric;
pi=F(ai;ˆq)F(ai1;ˆq), în cazul parametric.
• Se calculeaz ˘ac2
0=k
å
i=1(nin pi)2
n pi;
• Determin ˘am valoarea c, care este
c=(
c2
1a;k1 , în cazul neparametric,
c2
1a;kp1, în cazul parametric,
unde c2
a;neste cuantila de ordin apentru reparti¸ tia c2(n);
• Dac ˘ac2
0<c, atunci accept ˘am(H0), altfel o respingem.
7.2 Testul de concordan¸ t ˘a Kolmogorov-Smirnov
Testul de concordan¸ t ˘a Kolmogorov-Smirnov poate fi utilizat în compararea unor observa¸ tii
date cu o reparti¸ tie cunoscut ˘a (testul K-S cu o selec¸ tie) sau în compararea a dou ˘a selec¸ tii
(testul K-S pentru dou ˘a selec¸ tii). Spre deosebire de criteriul c2al lui Pearson, care folose¸ ste
densitatea de reparti¸ tie, criteriul Kolmogorov-Smirnov utilizeaz ˘a func¸ tia de reparti¸ tie
empiric ˘a,F
n(x). În cazul unei singure selec¸ tii, este calculat ˘a distan¸ ta dintre func¸ tia de
reparti¸ tie empiric ˘a a selec¸ tiei ¸ si func¸ tia de reparti¸ tie teoretica pentru reparti¸ tia testat ˘a, iar
pentru dou ˘a selec¸ tii este m ˘asurat ˘a distan¸ ta între dou ˘a func¸ tii empirice de reparti¸ tie. În
fiecare caz, reparti¸ tiile considerate în ipoteza nul ˘a sunt reparti¸ tii de tip continuu. Testul
Kolmogorov-Smirnov este bazat pe rezultatul teoremei urmatoare:
Teorema 7.2.1 (Kolmogorov) Fie caracteristica Xde tip continuu, care are func¸ tia
de reparti¸ tie teoretic ˘aF¸ si fie func¸ tia de reparti¸ tie de selec¸ tie F
n. Atunci, distanta
dn=sup
x2RjF
n(x)F(x)jsatisface relatia:
limn!¥P(pndn<x) =K(x) =¥
å
k=¥(1)ke2k2x2;x>0: (7.2.2)
7.2.1 Testul K-S pentru o selec¸ tie
În cazul în care ipotezele testului sunt satisf ˘acute, acest test este mai puternic decât testul
c2.
Avem un set de date statistice independente, pe care le ordon ˘am crescator, x1<x2<<
xn. Aceste observa¸ tii independente provin din aceea¸ si popula¸ tie caracterizat ˘a de variabila
aleatoare X, pentru care urm ˘arim s ˘a îi stabilim reparti¸ tia. Mai întâi, caut ˘am s ˘a stabilim
ipoteza nul ˘a. De exemplu, dac ˘a intuim c ˘a func¸ tia de reparti¸ tie teoretic ˘a a lui Xar fiF(x),
atunci stabilim:
(H0): func¸ tia de reparti¸ tie teoretic ˘a a variabilei aleatoare XesteF(x).
Ipoteza alternativ ˘a(H1)este, de regul ˘a, ipoteza ce afirm ˘a c˘a(H0)nu este adev ˘arat˘a.
Alegem un nivel de semnifica¸ tie a1.

7.2 Testul de concordan¸ t ˘a Kolmogorov-Smirnov 127
În criteriul K-S pentru o singur ˘a selec¸ tie, se compar ˘a func¸ tia F(x)intuit ˘aa priori cu func¸ tia
de reparti¸ tie empiric ˘a,F
n(x). Reamintim,
F
n(x) =cardfi;xixg
n:
Studiind func¸ tia empiric ˘a de reparti¸ tie a acestui set de date, Kolmogorov a g ˘asit c ˘a distan¸ ta
dn=sup
x2RjF
n(x)F(x)jsatisface rela¸ tia (7.2.2), unde K(l);l>0, este func¸ tia lui
Kolmogorov (tabelat ˘a). În testul K-S, m ˘asura dncaracterizeaz ˘a concordan¸ ta dintre F(x)¸ si
F
n(x). Dac ˘a ipoteza (H0)este adev ˘arat˘a, atunci diferen¸ tele dnnu vor dep ˘a¸ si anumite valori.
Etapele aplic ˘arii testului Kolmogorov-Smirnov pentru o selec¸ tie :
• Se dau a¸ six1<x2<<xn. Consider ˘am cunoscut ˘a (intuim) F(x);
• Ipotezele statistice sunt:
(H0)func¸ tia de reparti¸ tie teoretic ˘a a variabilei aleatoare XesteF(x)
(H1)ipoteza nul ˘a nu este adev ˘arat˘a.
•Calcul ˘aml1a, cuantila de ordin 1apentru func¸ tia lui Kolmogorov. Aceasta cuantila
verifica relatia K(l1a) =1a.
• Se calculeaz ˘adn=max
xjF
n(x)F(x)j;
•Dac˘adnsatisface inegalitateapndn<l1a, atunci admitem ipoteza (H0), altfel o respingem.
7.2.2 Testul K-S pentru dou ˘a selec¸ tii
În cazul în care avem de comparat dou ˘a reparti¸ tii, proced ˘am astfel. S ˘a presupunem c ˘a
F
m(x)este func¸ tia de reparti¸ tie empiric ˘a pentru o selec¸ tie de volum mdintr-o popula¸ tie ce
are func¸ tia teoretic ˘a de reparti¸ tie F(x) ¸ si c ˘aG
n(x)este func¸ tia de reparti¸ tie empiric ˘a pentru
o selec¸ tie de volum ndintr-o popula¸ tie ce are func¸ tia teoretic ˘a de reparti¸ tie G(x). Dorim s ˘a
test˘am
(H0):F=G versus (H1):F6=G:
(eventual, în (H1)putem considera F>GsauF<G.) Consider ˘am statistica
dm;n=sup
xjF
m(x)G
n(x)j;
ce reprezint ˘a diferen¸ ta maxim ˘a între cele dou ˘a func¸ tii. Etapele testului urmeaz ˘a în-
deaproape pe cele din testul K-S cu o singur ˘a selec¸ tie. Decizia se face pe baza criteriului
rmn
m+ndm;n<qa:
Testul Kolmogorov-Smirnov pentru dou ˘a selec¸ tii este unul dintre cele mai utile teste de
contingen¸ t ˘a pentru compararea a dou ˘a selec¸ tii. Acest test nu poate specifica natura celor
dou˘a reparti¸ tii.
Etapele aplic ˘arii testului Kolmogorov-Smirnov pentru dou ˘a selec¸ tii :
•Se dau a,x1<x2<<xm¸ siy1<y2<<yn. Consider ˘am cunoscute (intuim) F(x)¸ si
G(x);

128 Capitolul 7. Teste de concordan¸ t ˘a
• Ipotezele statistice sunt:
(H0)F=G vs. (H1)F6=G.
• Determinam pragul teoretic qacorespunzator valorii adin tabelul urmator:
a 0.10 0.05 0.025 0.01 0.005 0.001
qa1.22 1.36 1.48 1.63 1.73 1.95
• Se calculeaz ˘adm;n=sup
xjF
m(x)G
n(x)j.
•Dac˘adm;nsatisface inegalitateaq
mn
m+ndm;n<qa, atunci admitem ipoteza (H0), altfel ipoteza
nul˘a este respins ˘a la acest prag de semnifica¸ tie.
Observa¸ tia 7.1 Pentru ipoteza alternativ ˘aF>G(sau F<G), se va considera statistica
dm;n=sup
x[F
m(x)G
n(x)](respectiv, dm;n=sup
x[G
n(x)F
m(x)]).
7.3 Teste de concordan¸ t ˘a în M ATLAB
(1) Func¸ tia chi2gof(x) testeaz ˘a (folosind testul c2al lui Pearson) dac ˘a vectorul x
provine dintr-o reparti¸ tie normal ˘a, cu media ¸ si dispersia estimate folosind x. În cazul în
care datele sunt negrupate, atunci rezultatul testului de normalitate se ob¸ tine din
[h,p,stats] = chi2gof(X)
În cazul în care datele sunt grupate, deci au anumite particularit ˘a¸ ti observate, va trebui
s˘a ¸ tinem cont de aceste particularit ˘a¸ ti. Aceasta se poate face apelând la forma general ˘a a
func¸ tiei M ATLAB este:
[h,p,stats] = chi2gof(X,name1,val1,name2,val2,…)
unde:
h, p sunt la fel ca în exemplele anterioare;
perechile namei/valuei sunt op¸ tionale. Variabilele namei pot fi: num ˘arul de clase,
'nbins' , un vector de valori centrale ale intervalelor ce definesc clasele, 'ctrs' , sau un
vector cu capetele claselor, 'edges' .
Alte variabile ce pot fi utilizate: 'cdf' , 'expected' , 'nparams' , 'emin' , 'frequency' ,
'alpha' .
variabila de memorie stats afi¸ seaz ˘a: chi2stat – statistica c2, df- gradele de
libertate, edges – un vector cu capetele intervalelor claselor dup ˘a triere, O- num ˘arul de
valori observate în fiecare clas ˘a, E- num ˘arul de valori a¸ steptate în fiecare clas ˘a.
Testul Kolmogorov in MATLAB (o singura selectie)
Pentru testul Kolmogorov-Smirnov pentru o selec¸ tie, func¸ tia M ATLAB este:
[h, p, ksstat] = kstest(x, F, alpha, type)
În plus, fa¸ t ˘a de func¸ tiile anterioare, avem op¸ tiunea 'type' . Aceasta se refer ˘a la cum se
compar ˘a cele dou ˘a func¸ tii de reparti¸ tie, ¸ si poate fi una dintre urm ˘atoarele: 'unequal' ,
'larger' , 'smaller' .
7.4 Testarea tipului de date experimentale
Pentru a putea efectua un test statistic în mod corect, este necesar s ˘a ¸ stim care este tipul
(tipurile) de date pe care le avem la dispozi¸ tie. Pentru anumite teste statistice (e.g., testul

7.4 Testarea tipului de date experimentale 129
Zsau testul t, datele testate trebuie s ˘a fie normal distribuite ¸ si independente. De multe
ori, chiar ¸ si ipoteza ca datele s ˘a fie normal repartizate trebuie verificat ˘a. De aceea, se pune
problema realiz ˘arii unei leg ˘aturi între func¸ tia de reparti¸ tia empiric ˘a ¸ si cea teoretic ˘a (teste
de concordan¸ t ˘a). V om discuta mai pe larg aceste teste de concordan¸ t ˘a într-o sec¸ tiune
urm˘atoare.
ÎnMATLAB sunt deja implementate unele func¸ tii ce testeaz ˘a dac ˘a datele sunt normal
repartizate. Func¸ tia normplot(X) reprezint ˘a grafic datele din vectorul Xversus o
reparti¸ tie normal ˘a. Scopul acestei func¸ tii este de a determina grafic dac ˘a datele din
observate sunt normal distribuite. Dac ˘a aceste date sunt selectate dintr-o reparti¸ tie normal ˘a,
atunci acest grafic va fi liniar, dac ˘a nu, atunci va fi un grafic curbat. De exemplu, s ˘a
reprezent ˘am cu normplot vectorii X¸ siYde mai jos. Graficele sunt cele din Figura 7.1.
X = normrnd(100,2,200,1);
subplot(1,2,1); normplot(X)
Y = exprnd(5,200,1);
subplot(1,2,2); normplot(Y)
Figura 7.1: Reprezentarea normal ˘a a datelor.
Observ ˘am c ˘a primul grafic este aproape liniar, pe când al doilea nu este. Putem astfel s ˘a
concluzion ˘am c ˘a datele date de Xsunt normal repartizate (fapt confirmat ¸ si de modul cum
le-am generat), iar datele din Ynu sunt normal repartizate.
Func¸ tia chi2gof determin ˘a, în urma unui test c2, dac ˘a datele observate sunt normal
repartizate, la un nivel de semnifica¸ tie a=0:05. Astfel, comanda
h = chi2gof(x)
ne va furniza rezultatul h = 1 , dac ˘a datele nu sunt normal repartizate (i.e., ipoteza alter-
nativ ˘a(H1)este admis ˘a), sau h = 0 , dac ˘a nu putem respinge ipoteza c ˘a datele observate
sunt normal distribuite (i.e., ipoteza nul ˘a(H0)este admis ˘a). Aplicând testul pentru X¸ siY

130 Capitolul 7. Teste de concordan¸ t ˘a
de mai sus, ob¸ tinem h = 0 , respectiv, h = 1 .
De asemenea, putem verifica dac ˘a datele statistice ar putea proveni ¸ si din alte reparti¸ tii
decât cea normal ˘a. De exemplu, func¸ tia
probplot(distribution,Y)
creaz ˘a un grafic ce compar ˘a reparti¸ tia datelor din vectorul Ycu reparti¸ tia dat ˘a de
distribution . Printre reparti¸ tiile ce pot fi comparate folosind aceast ˘a comand ˘a
men¸ tion ˘am: 'normal' , 'exponential' , 'weibull' ¸ si 'lognormal' . Trebuie avut
grij˘a ca valorile vectorului Ys˘a fie pozitive pentru compararea cu oricare dintre ultimele
trei reparti¸ tii. Comanda simplificat ˘a este probplot(Y) , care presupune în mod implicit c ˘a
distribution = 'normal' . O alt ˘a comand ˘a util ˘a este
wblplot(Y)
care este echivalent ˘a cu comanda probplot(weibull,Y) .
În continuare, prezent ˘am un exemplu de utilizare a acestor comenzi. Figura 7.2, verific ˘am
dac˘a fiecare dintre cele dou ˘a selec¸ tii generate, una exponen¸ tial ˘a ¸ si cealalt ˘a normal ˘a, ar
putea proveni dintr-o reparti¸ tie exponen¸ tial ˘a.
x = exprnd(0.5, 250,1); % selectie exponentiala
y = normrnd(3, 1, 250,1); % selectie normala
probplot('exponential',[x y])
legend('Selectie exponentiala','Selectie normala','Location','SE')
Figura 7.2: Reprezentarea exponen¸ tial ˘a a datelor.
Urm ˘atoarea func¸ tie M ATLAB compar ˘a un set de date cu o reparti¸ tie precizat ˘a. Func¸ tia
histfit(X, n, 'tip_repartitie')

7.5 Test de independen¸ t ˘a folosind tabele de contingen¸ t ˘a 131
reprezint ˘a datele din vectorul Xprintr-o histogram ˘a ce are num ˘arul de bare egal cu n. Dac ˘a
op¸ tiunea 'tip_repartitie' apare (valabil ˘a doar pentru lucrul cu Statistics Toolbox!), atunci
peste histogram ˘a se va desena densitatea de reparti¸ tie a reparti¸ tiei precizate (e.g., exponential ,
gamma , lognormal etc). În caz în care op¸ tiunea nu apare, se consider ˘a implicit c ˘a reparti¸ tia cu care
se compar ˘a datele este cea normal ˘a. Exemplul de mai jos produce graficul din Figura 7.3.
X = binornd(1e3, 0.1, 1e4, 1); histfit(X, 100)
Figura 7.3: Compararea prin histograme.
7.5 Test de independen¸ t ˘a folosind tabele de contingen¸ t ˘a
Pân˘a acum am discutat cum pot fi grupate observa¸ tiile unei singure caracteristici, fie discret ˘a sau
continu ˘a. Îns ˘a, în multe cazuri avem de studiat o anumit ˘a popula¸ tie prin prisma a mai mult de dou ˘a
caracteristici. În aceast ˘a sec¸ tiune, vom prezenta un test de independen¸ t ˘a între dou ˘a caracteristici
dup˘a care se face împ ˘ar¸ tirea datelor observate. S ˘a presupunem c ˘a avem un set de observa¸ tii ce sunt
împ˘ar¸ tite în categorii determinate de dou ˘a criterii diferite.
Spre exemplu, în vederea introducerii de cursuri op¸ tionale pentru elevii de liceu ai unei ¸ scoli, s-a
realizat un sondaj de opinie la care au participat 350de elevii, în care ace¸ stia au avut de precizat
cursul de limbi str ˘aine preferat ¸ si nivelul de studiu ce consider ˘a c˘a li s-ar potrivi. Rezultatele în
stare negrupat ˘a pot ar ˘ata astfel:
Nr. crt. Limba straina Nivel de studiu
1 engleza mediu
2 franceza avansat
3 germana avansat
4 engleza incepator
5 spaniola mediu
6 …
Aceste observa¸ tii pot fi sumarizate sub forma unui tabel (vezi tabelul 7.1). Aici, popula¸ tia de elevi
din respectiva ¸ scoal ˘a este descris ˘a de valorile a dou ˘a caracteristici, ¸ si anume: limba str ˘ain˘a ¸ si nivelul

132 Capitolul 7. Teste de concordan¸ t ˘a
de studiu. Un astfel de tabel va fi util în luarea de decizii, dup ˘a cum vom vedea mai târziu. De
exemplu, putem s ˘a test ˘am dac ˘a alegerea limbii str ˘aine este independent ˘a de nivelul de studii (i.e.,
cele dou ˘a caracteristici sunt independente)
Identific ˘am aici dou ˘a caracteristici (atribute): Xeste limba str ˘ain˘a (e.g., Englez ˘a, Francez ˘a, Ger-
man˘a, Italian ˘a, Spaniol ˘a ¸ si Rus ˘a) ¸ siYreprezint ˘a nivelul de studiu (e.g., încep ˘ator, mediu ¸ si avansat).
Num ˘arul de elevi ce intr ˘a în fiecare categorie este afi¸ sat în Tabelul 7.1.
Nivel@@Limba Englez ˘aFrancez ˘aGerman ˘aItalian ˘aSpaniol ˘aRus˘aTotal
încep ˘ator 33 19 11 12 11 6 92
mediu 65 37 10 14 24 7 157
avansat 43 15 7 17 12 7 101
Total 141 71 28 43 47 20 350
Tabela 7.1: Tabel cu repartizarea elevilor la cursurile de limbi str˘ aine.
În general, dac ˘a datele observate sunt clasificate în categorii ce depind de dou ˘a atribute diferite,
atunci putem forma un tabel de genul Tabelului 7.2, numit tabel de contingen¸ t˘ a . Aici X¸ siYsunt
atributele ¸ si Xi;i=1;r,Yj;j=1;s, sunt diverse categorii în care fiecare atribut în parte poate fi
împ˘ar¸ tit.
X@@Y Y1Y2::: Yj::: Ys Suma pe linie
X1 n11n12::: n1j::: n1s n1
X2 n21n22::: n2j::: n2s n2
……………………
Xi ni1ni2::: ni j::: nis ni
……………………
Xr nr1nr2::: nr j::: nrs nr
Suma pe coloan ˘an1n2::: nj::: nsn(suma total ˘a)
Tabela 7.2: Tabel de contingen¸ t˘ a.
În Tabelul 7.2 am folosit urm ˘atoarele nota¸ tii: ni jpentru num ˘arul (frecven¸ ta absolut ˘a) de observa¸ tii
ce au valoarea Xipentru atributul X¸ si valoarea Yjpentru atributul Y(i=1;r;j=1;s), iarnj,ni
¸ sinsunt
nj=r
å
i=1ni j;ni=s
å
j=1ni j;n=r
å
i=1s
å
j=1ni j:
Fiecare individ din selec¸ tia aleas ˘a apar¸ tine unei singure categorii caracterizat ˘a de atributul X¸ si unei
singure categorii caracterizat ˘a de atributul Y. În concluzie, fiecare individ poate apar¸ tine doar uneia
dintre cele rscelule.
Dorim acum s ˘a test ˘am dac ˘a atributele X¸ siYsunt independente (în exemplul de mai sus, aceasta ar
însemna determinarea faptului dac ˘a alegerea cursului de limba str ˘ain˘a este independent ˘a de nivelul
de studiu).
S˘a not ˘am prin pi jprobabilitatea ca o dat ˘a observat ˘a s˘a cad ˘a în categoria (Xi;Yj), ¸ si prin pi¸ sipj
probabilit ˘a¸ tile marginale,
pi=s
å
j=1pi j;pj=r
å
i=1pi j:

7.5 Test de independen¸ t ˘a folosind tabele de contingen¸ t ˘a 133
Avem c ˘ar
å
i=1s
å
j=1pi j=r
å
i=1pi=s
å
j=1pj=1:
În general, valorile reale pentru pi j;pi¸ sipjnu sunt cunoscute (specificate) a priori ¸ si se vor
estima folosind datele din tabelul de contingen¸ t ˘a. V om nota prin bpi j;bpi¸ si, respectiv,bpjestimatorii
lor. Pentru a estima probabilit ˘a¸ tile marginale, folosim metoda verosimilit ˘a¸ tii maxime. Func¸ tia de
verosimilitate este
L=r
Õ
i=1pni
is
Õ
j=1pnj
j
Condi¸ tiile de extrem (cu leg ˘aturaår
i=1ås
j=1pi j=1) pentru
lnL=r
å
i=1nilnpi+s
å
j=1njlnpj+l(r
å
i=1s
å
j=1pi j1)
sunt:
¶lnL
¶pi=0;i=1;n¸ si¶lnL
¶pj=0
Valorile probabilit ˘a¸ tilor marginale le estim ˘am prin valorile maxime ale lui L, ¸ si anume:
bpi=ni
n(i=1;r)¸ sibpj=nj
n(j=1;s): (7.5.3)
Ipoteza nul ˘a este:
(H0):pi j=pipj;i=1;r;j=1;s(i.e., nu exist ˘a nicio asociere între atributele X¸ siY):
(H1):(H0)nu este adev ˘arat˘a:
Astfel, pentru i¸ sijfixa¸ ti, dac ˘a ipoteza nul ˘a ar fi adev ˘arat˘a, atunci valoarea a¸ steptat ˘a în celula (i;j)
este
Ei j=nbpi j=nbpibpj=ninj
n;i=1;r;j=1;s: (7.5.4)
Calcul ˘am valoarea statisticii
H2=å
i;j
ni jninj
n2
ninj
n

i;j(Oi jEi j)2
Ei j!
; (7.5.5)
unde, în parantez ˘a,Oi j=ni jeste num ˘arul de valori observate în celula (i;j)iarEi jnum˘arul de
valori a¸ steptate ( en.,expected) în celula (i;j).
Dac˘a în fiecare celul ˘a num ˘arul de valori ce îi apa¸ tin este de cel pu¸ tin 5, atunci statistica H2urmeaz ˘a
reparti¸ tia c2cu(r1)(s1)grade de libertate.
Etapele testului de independen¸ t ˘a sunt urm ˘atoarele:
• Se dau ni j;i=1;r;j=1;s¸ si pragul de semnifica¸ tie a;
• Pe baza observa¸ tiilor ni j, calcul ˘am estima¸ tiile (7.5.3);
• Calcul ˘amH2cu formula (7.5.5);
• Dac ˘aEi j5;8i;j¸ siH2c2
1a;(r1)(s1), atunci se admite (H0)la nivelul a.
Altfel, respingem (H0)la acest prag de semnifica¸ tie.

134 Capitolul 7. Teste de concordan¸ t ˘a
Revenim la datele din Tabelul 7.1. Pentru a stabili dac ˘a, la un nivel de semnifica¸ tie a=0:05,
alegerea cursului de limba str ˘ain˘a este independent ˘a de nivelul de studiu, calcul ˘am mai întâi
estima¸ tiile Ei j. Acestea sunt scrise în paranteze în Tabelul 7.3.
Nivel@@Limba Englez ˘a Francez ˘aGerman ˘a Italian ˘a Spaniol ˘a Rus˘a Total
încep ˘ator33
(37:06)19
(18:66)11
(7:36)12
(11:30)11
(12:35)6
(5:26)92
mediu65
(63:25)37
(31:85)10
(12:56)14
(19:29)24
(21:08)7
(8:97)157
avansat43
(40:69)15
(20:49)7
(8:08)17
(12:41)12
(13:56)7
(5:77)101
Total 141 71 28 43 47 20 350
Tabela 7.3: Tabel cu repartizarea ¸ si estima¸ tia elevilor la cursurile de limbi str˘ aine.
Calcul ˘amH2:
H2=3
å
i=16
å
j=1(ni jEi j)2
Ei j=(3337:06)2
37:06++(75:77)2
5:77
=10:1228 <18:3070 =c2
0:95;10
deci admitem ipoteza nul ˘a conform c ˘areia tipul cursului ¸ si nivelul s ˘au sunt atribute independente.
Pentru calculul acestor valori în M ATLAB , putem proceda astfel:
n = 350; r = 3; s = 6; alpha = 0.05;
O = [33 19 11 12 11 6; 65 37 10 14 24 7; 43 15 7 17 12 7];
E = sum(O')'*sum(O)/n;
H2 = sum(sum((O-E).^2./E)); Hcrit = chi2inv(1-alpha,(r-1)*(s-1));
if (H2<Hcrit)
disp('variabilele sunt independente')
else
disp('variabilele sunt dependente')
end
7.5.1 Testul exact al lui Fisher
În cazul particular în care r=s=2, tabelul de contingen¸ t ˘a este de forma:
X@@Y Y1 Y2 Suma pe linie
X1 a b a+b
X2 c d c+d
Suma pe coloan ˘aa+cb+d a+b+c+d
Tabela 7.4: Tabel de contingen¸ t˘ a 22.

7.5 Test de independen¸ t ˘a folosind tabele de contingen¸ t ˘a 135
unde a;b;c;dsunt valorile observate pentru fiecare celul ˘a în parte. Valorile a¸ steptate Ei j(vezi
formula (7.5.4)) sunt:
E11=(a+b)(a+c)
n;E12=(a+b)(b+d)
n;E21=(c+d)(a+c)
n;E22=(c+d)(b+d)
n;
unde n=a+b+c+d. Statistica H2dat˘a de rela¸ tia (7.5.5) devine:
H2=adbc
n21
E11+1
E12+1
E21+1
E22
;
¸ si urmeaz ˘a reparti¸ tia c2(1). Din faptul c ˘aH2c2(1), rezult ˘a c˘a statistica H=p
H2N(0;1),
¸ si se poate utiliza Hpentru testul statistic de independen¸ t ˘a.
De¸ si acest test poate fi realizat, în cazul tabelelor de contingen¸ t ˘a22se utilizeaz ˘atestul exact al
lui Fisher . Acest test poate fi utilizat chiar ¸ si în cazul în care valorile observa¸ tiilor sunt mai mici
decât 5. S ˘a alegem un prag de semnifica¸ tie a.
Test˘am ipoteza nul ˘a
(H0): nu exist ˘a nicio asociere între atributele X¸ siY:
versus ipoteza alternativ ˘a
(H1):(H0)nu este adev ˘arat˘a. (test bilateral)
Rezultatele ob¸ tinute le putem scrie sub forma unei matrice, pe care o vom numi matricea configu-
ra¸ tiei . Aceasta este:
M=a b
c d
:
S˘a presupunem acum c ˘a, pentru o matrice 22, sumele valorilor pe linii ¸ si pe coloane sunt fixate a
priori . Atunci, putem alege elementele matricei ce satisface aceste condi¸ tii în mai multe moduri
(este greu de precizat în câte moduri, în cazul cel mai general). În cazul problemei de fa¸ t ˘a, s˘a
presupunem c ˘aa+b;c+d;a+c¸ sib+dsunt fixate. Atunci, dac ˘a ipoteza nul ˘a este adev ˘arat˘a,
probabilitatea de a ob¸ tine exact valorile din Tabelul 7.4 este:
P=Ca
a+bCc
c+d
Ca+cn: (7.5.6)
Aceast ˘a probabilitate se ob¸ tine prin utilizarea schemei hipergeometrice.
Exist ˘a îns ˘a mai multe matrice de tip 22care au o configura¸ tie fixat ˘a a sumelor pe fiecare linie ¸ si
pe fiecare coloan ˘a (i.e., a+b;c+d;a+c¸ sib+dsunt fixate). Pentru fiecare matrice de acest tip,
putem calcula o probabilitate (condi¸ tionat ˘a de realizarea ipotezei nule) de genul celei de mai sus.
În cazul testului bilateral, Pvaloarea testului (notat ˘a prin Pv) este suma tuturor probabilit ˘a¸ tilor
condi¸ tionate astfel calculate, care sunt mai mici sau egale cu probabilitatea ob¸ tinut ˘a pentru configu-
ra¸ tia dat ˘a (inclusiv probabilitatea configura¸ tiei date).
Dac˘aPvaloarea este mai mare decât a, atunci ipoteza nul ˘a este admis ˘a la acest prag de semnifi-
ca¸ tie. Dac ˘aPva, atunci respingem (H0).
În cazul în care ipoteza alternativ ˘a este una specific ˘a (e.g., unul dintre atribute este preferat celuilalt),
atunci Pvaloarea este doar jum ˘atate din suma anterioar ˘a. Spunem în acest caz c ˘a avem un test
unilateral.

136 Capitolul 7. Teste de concordan¸ t ˘a
Exemplu 7.1 Se testeaz ˘a efectele unui anumit tip de medicamente pe un grup de voluntari ce
prezint ˘a simptome de r ˘aceal ˘a. Ace¸ stia sunt în num ˘ar de 14¸ si au fost împ ˘ar¸ ti¸ ti în dou ˘a grupuri
de7persoane. Pacien¸ tilor din primul grup, G1, li s-au administrat medicamentul iar pacien¸ tilor
din grupul G2nu li s-au administrat nimic. Dup ˘a o s ˘apt˘amân ˘a, s-a testat starea s ˘an˘at˘a¸ tii celor 14
pacien¸ ti, rezultatele fiind cele din Tabelul 7.5.
X@@Y s˘an˘atos bolnav Suma pe linie
G1 6 1 7
G2 4 3 7
Suma pe coloan ˘a 10 4 14
Tabela 7.5: Tabel de contingen¸ t˘ a pentru testarea unui medicament.
S˘a se determine dac ˘a administrarea medicamentului are vreun efect asupra st ˘arii de s ˘an˘atate a
voluntarilor. Se va folosi nivelul de semnifica¸ tie a=0:05.
R:Ipoteza nul ˘a este:
(H0): Starea de s ˘an˘atate a voluntarilor este independent ˘a de administrarea medicamentului :
Ipoteza alternativ ˘a (bilateral ˘a) este:
(H1): Ipoteza (H0)este fals ˘a:
Matricea configura¸ tiei este
M1=6 1
4 3
Folosind rela¸ tia (7.5.6), probabilitatea apari¸ tiei acestei configura¸ tii, ¸ stiind c ˘a sumele pe linii ¸ si pe
coloane sunt fixate, este
P1=C6
7C4
7
C10
14=0:2448 :
Alte configura¸ tii cu suma 7pe fiecare linie ¸ si sumele 10pe prima coloan ˘a ¸ si4pe a doua coloan ˘a
sunt:
M2=4 3
6 1
;M3=5 2
5 2
;M4=3 4
7 0
;M5=7 0
3 4
:
Probabilit ˘a¸ tile condi¸ tionate corespunz ˘atoare acestora sunt:
P2=0:2448; P3=0:4404 ;P4=0:0350 ;P5=0:0350 :
Pvaloarea este suma tuturor probabilit ˘a¸ tilor mai mici sau egale cu P1:
Pv=P1+P2+P4+P5=0:2448+0:2448+0:0350+0:0350 =0:5596 >0:05=a:
A¸ sadar, la acest prag de semnifica¸ tie admitem ipoteza nul ˘a.
Observa¸ tia 7.2 (1) A se observa c ˘a suma P1+P2+P3+P4+P5=1, ceea ce era de
a¸ steptat.
(2) Dac ˘a rezultatul experimentului ar fi matricea M5¸ si ipoteza alternativ ˘a este
(H1): exist ˘a eviden¸ te c ˘a medicamentul are efecte benefice ;
atunci avem un test unilateral. În acest caz, Pvaloarea este Pv=P5=2=0:0152 <a,
ceea ce conduce la respingerea ipotezei nule ¸ si, deci, exist ˘a eviden¸ te c ˘a medicamentul are
efecte benefice.

7.6 Exerci¸ tii rezolvate 137
7.6 Exerci¸ tii rezolvate
Exerci¸ tiu 7.1
Se arunc ˘a un zar de 60de ori ¸ si se ob¸ tin rezultatele
din Tabelul 7.6. S ˘a se decid ˘a, la nivelul de semnifi-
ca¸ tie a=0:02, dac ˘a zarul este corect sau fals.Fa¸ ta (clasa Oi)Frecv. absolut ˘a (ni)
1 15
2 7
3 4
4 11
5 6
6 17
Tabela 7.6: Tabel cu num ˘arul de
puncte ob¸ tinute la aruncarea zarului.
R:(aplic ˘am testul c2de concordan¸ t ˘a, cazul neparametric)
Zarul este corect doar dac ˘a fiecare fa¸ t ˘a a sa are aceea¸ si ¸ sans ˘a de a aparea, adic ˘a probabil-
it˘a¸ tile ca fiecare fa¸ t ˘a în parte s ˘a apar ˘a sunt:
(H0):pi=1
6; (i=1;2; :::; 6):
Altfel, not ˘am cu Xvariabila aleatoare ce are valori num ˘arul punctelor ce apar la aruncarea
zarului. Un zar corect ar însemna c ˘aXurmeaz ˘a reparti¸ tia uniform ˘a discret ˘aU(6).
Toate cele 60de rezultate ob¸ tinute în urma arunc ˘arii zarului pot fi împ ˘ar¸ tite în ¸ sase clase.
Aceste clase sunt: Oi=fig;i2f1;2; :::; 6g. Ipoteza nul ˘a este (H0)sau, echivalent,
(H0): Func¸ tia de reparti¸ tie a lui XesteU(6):
Ipoteza alternativ ˘a este " (H0)nu are loc", adic ˘a:
(H1): Exist ˘a un j;cupj6=1
6; (j2f1;2; :::; 6g):
Calculez valoarea statisticii c2pentru observa¸ tiile date:
c2
0=(1510)2
10+(710)2
10+(410)2
10+(1110)2
10+(610)2
10+(1710)2
10
=13:6:
Reparti¸ tia statisticii c2estec2cuk1=5 grade de libertate. Regiunea critic ˘a este:
U= (c2
0:98; 5;+¥) = ( 13:3882 ;+¥):
Deoarece c2
0se afl ˘a în regiunea critic ˘a, ipoteza nul ˘a se respinge la nivelul a=0:02, a¸ sadar
zarul este m ˘asluit. Codul M ATLAB :
n = 60; k=6; alpha = 0.02; x = 1:6; f = [15,7,4,11,6,17]; p = 1/6*ones(1,6);
chi2 = sum((f-n*p).^2)./(n*p)); % valoarea c2
0
val = chi2inv(1-alpha,k-1); % cuantila c2
0:99; 5
H = (chi2 > val) % afiseaza 0 daca zarul e corect si 1 daca nu

138 Capitolul 7. Teste de concordan¸ t ˘a
Observa¸ tia 7.3 Dac˘a nivelul de semnifica¸ tie este ales a=0:01, atunci c2
0:99; 5=15:0863 ,
ceea ce determin ˘a acceptarea ipotezei nule (adic ˘a zarul este corect) la acest nivel.
Exerci¸ tiu 7.2 Revenim la Exerci¸ tiul 7.1, dar cu valoarea nivelului de încredere din Obser-
va¸ tia 7.3. Codul M ATLAB ce folose¸ ste func¸ tia de mai sus este:
x = 1:6; f = [15,7,4,11,6,17]; p = 1/6*ones(1,6); e = N*p; alpha = 0.01;
[h, p, stats] = chi2gof(x,'ctrs',x,'frequency',f,'expected',e,'alpha',alpha)
Acest cod returneaz ˘a:
h = p = stats =
0 0.0184 chi2stat: 13.6000
df: 5
edges: [0.5000 1.5000 2.5000 3.5000 4.5000 5.5000 6.5000]
O: [15 7 4 11 6 17]
E: [10 10 10 10 10 10]
Acest rezultat confirm ˘a c˘a ipoteza nul ˘a (zarul este corect) este acceptat ˘a la nivelul a=0:01.
Exerci¸ tiu 7.3 La campionatul mondial de fotbal din 2006 au fost jucate în total 64de
meciuri, iar reparti¸ tia num ˘arului de goluri înscrise într-un meci are tabelul de distribu¸ tie ca
în Tabelul 7.7. Determina¸ ti (la nivelul de semnifica¸ tie a=0:05) dac ˘a num ˘arul de goluri
pe meci urmeaz ˘a o distribu¸ tie Poisson.
Nr. de goluri pe meci Nr. de meciuri
0 8
1 13
2 18
3 11
4 10
5 2
6 2
Tabela 7.7: Tabel cu num˘ arul de goluri pe meci la FIFA WC 2006 .
R:(aplic ˘am testul de concordan¸ t ˘ac2parametric) Fie Xvariabila aleatoare ce reprezint ˘a
num˘arul de goluri înscrise într-un meci. Teoretic, Xpoate lua orice valoare din mul¸ timea N.
Mul¸ timea observa¸ tiilor f ˘acute asupra lui Xestef1;2;3;4;5;6g, cu frecven¸ tele respective
din tabel. În total, au fost inscrise 144de goluri. Estim ˘am num ˘arul de goluri pe meci prin
media lor, adic ˘aˆl=x=144
64=2:25. Pe baza datelor observate, dorim s ˘a test ˘am dac ˘aX
urmeaz ˘a o reparti¸ tie Poisson. Avem astfel de testat ipoteza nul ˘a:
(H0):Xurmeaz ˘a o lege Poisson P(ˆl):
vs. ipoteza alternativ ˘a
(H1):Xnu urmeaz ˘a o lege Poisson P(ˆl):

7.6 Exerci¸ tii rezolvate 139
Clasa ni pi n pi(nin pi)2
n pi
0 80:1054 6:7456 0:2333
1 13 0:2371 15:1775 0:3124
2 18 0:2668 17:0747 0:0501
3 11 0:2001 12:8060 0:2547
4 10 0:1126 7:2034 1:0857
5 20:0506 3:2415
6 20:0274 1:7514
5 40:0780 4:9926 0:1973
Tabela 7.8: Tablou de distribu¸ tie pentru P(2:25).
Dac˘a admitem ipoteza (H0)(adic ˘aXP(2:25), atunci pi=pi(ˆl)¸ si distribu¸ tia valorilor
variabilei este dat ˘a de Tabelul 7.8. Valoarea pieste P(X=i), adic ˘a probabilitatea ca
variabila aleatoare XP(2:25)s˘a ia valoarea i(i=0;1;2;3;4). Am putea forma 7
clase. Deoarece pentru ultimele dou ˘a clase din Tabelul 7.8, anume fX=5g¸ sifX6g,
numerele ninu dep ˘a¸ se¸ sc valoarea 3, le ¸ stergem din tabel ¸ si le unim într-o singur ˘a clas ˘a, în
carefX5g, cuni=4>3. V om nota prin p5probabilitatea
p5=P(X5) =1P(X<5) =1P(X4) =14
å
i=0P(X=i):
R˘amânem a¸ sadar cu 6 clase. Ipoteza nul ˘a(H0)se poate rescrie astfel:
(H0):p0=0:1054 ;p1=0:2371 ;p2=0:2668 ;p3=0:2001 ;p4=0:1126 ;p5=0:0780 :
Ipoteza alternativ ˘a este
(H1): ipoteza (H0)nu este adev ˘arat˘a.
Calcul ˘am acum valoarea statisticii c2pentru observa¸ tiile date:
c2
0=(86:7456)2
6:7456+(1315:1775)2
15:1775+(1817:0747)2
17:0747+(1112:8060)2
12:8060+:::
+(107:2034)2
7:2034+(44:9926)2
4:9926=2:1337 :
Deoarece avem 6clase ¸ si am estimat parametrul l, deducem c ˘a num ˘arul gradelor de
libertate este 611=4. Cuantila de referin¸ t ˘a (valoarea critic ˘a) este c2
0:95; 4=9:4877 .
Regiunea critic ˘a pentru c2este intervalul (c2
0:95; 4;+¥). Deoarece c2
0<c2
0:95; 4, urmeaz ˘a
c˘a ipoteza nul ˘a(H0)nu poate fi respins ˘a la nivelul de semnifica¸ tie a. A¸ sadar, este rezonabil
s˘a afirm ˘am c ˘a num ˘arul de goluri marcate urmeaz ˘a o reparti¸ tie Poisson. Prezent ˘am mai
jos un cod M ATLAB ce rezolv ˘a aceast ˘a problem ˘a.
X = [0*ones(8,1);1*ones(13,1);2*ones(18,1);3*ones(11,1);4*ones(10,1);…
5*ones(2,1);6*ones(2,1)];
f = [8 13 18 11 10 4]; % vectorul de frecvente absolute

140 Capitolul 7. Teste de concordan¸ t ˘a
n = 64; alpha = 0.05; lambda = mean(X);
for i=1:5 % probabilitatile P(X=i), i=0,1,2,3,4
p(i) = poisspdf(i-1,lambda);
end
p(6)= 1 – poisscdf(4,lambda); % probabilitatea P(X  5)
H2 = sum((f-n*p).^2./(n*p)); Hstar = chi2inv(1-alpha,4);
if (H2 < Hstar)
disp('X urmeaza repartitia Poisson');
else
disp('X nu urmeaza repartitia Poisson');
endp
Eventual, putem folosi func¸ tia chi2gof .
y = [0 1 2 3 4 5];
[h, p, stats] = chi2gof(y,'ctrs',y,'frequency',f,'expected',e,'alpha',alpha)
Observa¸ tia 7.4 Dac˘a ipoteza nul ˘a este respins ˘a, atunci motivul poate fi acela c ˘a unele
valori observate au deviat prea mult de la valorile a¸ steptate. În acest caz, este interesant de
observat care valori sunt extreme, cauzând respingerea ipotezei nule. Putem defini astfel
reziduurile standardizate :
ri=Oin pip
n pi(1pi)=OiEip
Ei(1pi);
unde prin Oiam notat valorile observate ¸ si prin Eivalorile a¸ steptate. Dac ˘a ipoteza nul ˘a ar
fi adev ˘arat˘a, atunci riN(0;1). În general, reziduuri standardizate mai mari ca 2sunt
semnale c ˘a datele con¸ tin valori observate extreme.
Exerci¸ tiu 7.4 Într-o anumit ˘a zi de lucru, sunt urm ˘ari¸ ti timpii de a¸ steptare într-o sta¸ tie de
tramvai, pân ˘a la încheierea zilei de lucru (adic ˘a, pân ˘a trece ultimul tramvai). Not ˘am cu T
caracteristica ce reprezint ˘a num ˘arul de minute a¸ steptate în sta¸ tie, pân ˘a sose¸ ste tramvaiul.
Rezultatele observa¸ tiilor sunt sumarizate în Tabelul 7.9. Se cere s ˘a se cerceteze ( a=0:05)
dac˘a timpii de a¸ steptare sunt repartiza¸ ti exponen¸ tial.
Durata 05 510 1015 1520 2025
ni 39 35 14 7 5
Tabela 7.9: Timpi de a¸ steptare în sta¸ tia de tramvai.
R: (folosim testul c2de concordan¸ t ˘a, parametric) Avem de testat ipoteza nul ˘a
(H0)F(x)=F0(x) =1elx;x>0
vs. ipoteza alternativ ˘a
(H1)ipoteza (H0)este fals ˘a:

7.6 Exerci¸ tii rezolvate 141
Deoarece parametrul leste necunoscut, va trebui estimat pe baza selec¸ tiei date. Pentru
aceasta, folosim metoda verosimilit ˘a¸ tii maxime. Func¸ tia de verosimilitate pentru exp(l)
este
L(t1;t2; :::; tn;l) =n
Õ
k=1lelti=lnelnt:
Mai sus, am notat prin t1;t2; :::; tnvalorile de selec¸ tie pentru variabila aleatoare T.
Punctele critice pentru L(l)sunt date de ecua¸ tia
¶lnL
¶l=0=)¶
¶l(nlnllnt) =)ˆl=1
t:
Se observ ˘a cu u¸ surin¸ t ˘a c˘a
¶2lnL
¶l2jl=ˆl=nt2<0;
de unde concluzion ˘am c ˘aˆleste punct de maxim pentru func¸ tia de verosimilitate.
Tabelul de distribu¸ tie pentru caracteristica Teste:

2:5 7 :5 12 :5 17 :5 22 :5
39 35 14 7 5
:
Calcul ˘am media de selec¸ tie, t=1
100(2:539+7:535+12:514+17:57+22:45) =7:7,
adic˘aˆl=0:1299.
Dac˘a variabila Tar urma reparti¸ tia exponen¸ tial ˘aexp(ˆl), atunci probabilit ˘a¸ tile ca Ts˘a ia
valori în fiecare clas ˘a sunt, în mod corespunz ˘ator:
pi=pi(ˆl) =P(X2(ai;ai+1]jF=F0) =F0(ai+1;ˆl)F0(ai;ˆl);i=1;2;3;4;5:
unde a6= +¥.
În Tabelul 7.10 am înregistrat urm ˘atoarele date:
•clasele (de notat c ˘a ultima clas ˘a este (20;+¥), deoarece se dore¸ ste o concordan¸ t ˘a
a datelor observate cu date repartizate exponen¸ tial, iar mul¸ timea valorilor pentru
reparti¸ tia exponen¸ tial ˘a esteR+),
•extremit˘ a¸ tile din stânga ale claselor ( ai),
•frecven¸ tele absolute n i(sau valorile observate în fiecare clas ˘a),
• probabilit ˘a¸ tile pi,valorile a¸ steptate în fiecare clas ˘a (n pi),
•erorile relative de aproximare ale datelor a¸ steptate cu cele observate.
Num ˘arul gradelor de libertate este kp1=3. Calcul ˘am valoarea critic ˘ac2
0:95; 3=7:8147
¸ si, de asemenea, valoarea
H0=k
å
i=1(nin pi)2
n pi=6:5365 :
Deoarece c2
0<c2
0:95; 3, ipoteza (H0)nu poate fi respins ˘a la acest nivel de semnifica¸ tie.

142 Capitolul 7. Teste de concordan¸ t ˘a
Clasa aini pi n pi(nin pi)2
n pi
(0;5] 0 39 0:4776 47:7615 1:6072
(5;10] 5 35 0:2495 24:9499 4:0483
(10;15]10 14 0:1303 13:0334 0:0717
(15;20]15 7 0:0681 6:8085 0:0054
(20;+¥)20 5 0:0745 7:4467 0:8039
(0;+¥) 100 1 100 6:5365
Tabela 7.10: Tabel de distribu¸ tie pentru timpii de a¸ steptare.
Codul M ATLAB este urm ˘atorul:
T=[2.5*ones(39,1);7.5*ones(35,1);12.5*ones(14,1);17.5*ones(7,1);22.5*ones(5,1)];
% sau
% T=[5*rand(39,1);5+5*rand(35,1);10+5*rand(14,1);15+5*ones(7,1);20+5*ones(5,1)];
n = 100; alpha = 0.05; m = mean(T); lambda = 1/m;
a = [0, 5, 10, 15, 20, Inf]; f = [39, 35, 14, 7, 5];
for i =1:5
p(i) = expcdf(a(i+1),m)-expcdf(a(i),m);
end
H2 = sum((f-n*p).^2./(n*p)); cuant = chi2inv(0.95,3);
if (H2 < cuant)
disp('Timpii de asteptare sunt exponential repartizati');
else
disp('ipoteza (H0) se respinge');
end
Exerci¸ tiu 7.5 (test de verificare a normalit˘ a¸ tii)
Consider ˘am selec¸ tiaf2;0:5; 0; 1; 1; 2; 2; 3g, extras ˘a dintr-o anumit ˘a colectivitate. La
nivelul de semnifica¸ tie a=0:1, s˘a se decid ˘a dac ˘a popula¸ tia din care provine selec¸ tia este
normal ˘a de medie 1 ¸ si dispersie 2 (i.e., XN(1;p
2)).
R: (folosim testul Kolmogorov-Smirnov) Mai întâi, calcul ˘am func¸ tia de reparti¸ tie
empiric ˘a. Avem:
F
n(x) =P(Xx) =8
>>>>>>>>>>><
>>>>>>>>>>>:0;dac˘ax<2;
1
8;dac˘ax2[2;0:5);
2
8;dac˘ax2[0:5;0);
3
8;dac˘ax2[0;1);
5
8;dac˘ax2[1;2);
7
8;dac˘ax2[2;3);
1;dac˘ax3:
Pentru a=0:1¸ sin=8, c˘aut˘am în tabelul pentru inversa func¸ tiei lui Kolmogorov acel
x1a;8=x0:9;8astfel încât K(x1a;8) =1a. G˘asim c ˘ax0:9;8=0:411.
Pe de alt ˘a parte, F(x) =Q(x1p
2), unde Q(x)este func¸ tia de reparti¸ tie pentru legea normal ˘a

7.6 Exerci¸ tii rezolvate 143
N(0;1).
Ipoteza c ˘aXurmeaz ˘a reparti¸ tia normal ˘aN(1;p
2)este acceptat ˘a dac ˘apndn<x1a.
Calculele pentru determinarea valorii dnsunt date de Tabelul 7.11. În Figura 7.4, putem
observa reprezent ˘arile acestor dou ˘a func¸ tii pentru setul de date observate.
xi¥20:5 0 1 2 3 ¥
F(xi) 0 0:0169 0:1444 0:2398 0:5 0:7602 0:9214 1
F
n(xi0) 0 0 0:125 0:25 0:375 0:625 0:875 1
F
n(xi) 0 0:125 0:25 0:375 0:625 0:875 1 1
jF
n(xi0)F(xi)j0 0:0169 0:0194 0:0102 0:125 0.1352 0:0464 0
jF
n(xi)F(xi)j 0 0:1081 0:1056 0.1352 0:125 0:1148 0:0786 0
Tabela 7.11: Tabel de valori pentru testul Kolmogorov-Smirnov.
Figura 7.4: F
n(x)¸ si F(x)din Tabelul 7.11.
Pentru a calcula dn, not ˘am faptul c ˘a cea mai mare diferen¸ t ˘a între F(x)¸ siF
n(x)poate fi
realizat ˘a ori înainte de salturile func¸ tiei F
n, ori dup ˘a acestea, i.e.,
sup
x2RjF(x)F
n(x)j=max
i(
jF(xi)F
n(xi0)j;înainte de saltul i;
jF(xi)F
n(xi)j;dup˘a saltul i:
Din tabel, observ ˘am c ˘adn=0:1352 . Deoarecepndn=p
80:1352 =0:3824 <0:411,
concluzion ˘am c ˘a putem accepta ipoteza (H0)la pragul de semnifica¸ tie a=0:1.
Codul M ATLAB ce rezolv ˘a problema este:
X = [-2; -0.5; 0; 1; 1; 2; 2; 3]; F = normcdf(X, 1, sqrt(2));
[h, p, ksstat] = kstest(X, [X,F], 0.1, 'unequal')

144 Capitolul 7. Teste de concordan¸ t ˘a
unde, Xeste vectorul de date observate ¸ si Feste vectorul ce con¸ tine valorile func¸ tiei de
reparti¸ tie F(x)pentru componentele lui X.
Rulând acest cod, ob¸ tinem:
h = p = ksstat =
0 0.9968 0.1352
Observ ˘am c ˘a valoarea ksstat este chiar dng˘asit˘a anterior.
Exerci¸ tiu 7.6 Într-un sondaj de opinie, 5b˘arba¸ ti ¸ si 5femei au fost întrebate dac ˘a urm ˘aresc
meciuri de fotbal la TV în mod regulat. To¸ ti b ˘arba¸ tii ¸ si doar dou ˘a femei au r ˘aspuns
afirmativ, ceilal¸ ti spunând c ˘a nu. S ˘a se testeze la nivelul de semnifica¸ tie a=0:05dac˘a
diferen¸ ta este semnificativ ˘a din punct de vedere statistic (i.e., dac ˘a femeile se uit ˘a la fotbal
la TV cot la cot cu b ˘arba¸ tii).
R: Ipoteza nul ˘a este:
(H0): Vizionarea meciurilor de fotbal la TV este independent ˘a de gen :
Ipoteza alternativ ˘a (bilateral ˘a) este:
(H1): Ipoteza (H0)este fals ˘a:
Folosim testul exact al lui Fisher. De fapt, folosirea celuilalt test (testul bazat pe proba-
bilit˘a¸ ti aproximative) nu este oportun ˘a, deoarece nu avem cel pu¸ tin 5 valori a¸ steptate în
fiecare pozi¸ tie a matricei de configura¸ tie. Matricea configura¸ tiei este
M0=5 0
2 3
Folosind rela¸ tia (7.5.6), probabilitatea apari¸ tiei acestei configura¸ tii, ¸ stiind c ˘a sumele pe
linii ¸ si pe coloane sunt fixate, este
P1=C5
7C0
3
C5
100:0833 :
Alte configura¸ tii cu suma 5pe fiecare linie ¸ si sumele 7pe prima coloan ˘a ¸ si3pe a doua
coloan ˘a sunt:
M1=3 2
4 1
;M2=4 1
3 2
;M3=5 0
2 3
:
Probabilit ˘a¸ tile condi¸ tionate corespunz ˘atoare acestora sunt:
P20:4167; P30:4167 ;P40:0833 :
Valoarea Pva testului este suma tuturor probabilit ˘a¸ tilor mai mici sau egale cu P0:
Pv=P0+P40:1667 >0:05=a:
A¸ sadar, la acest prag de semnifica¸ tie admitem ipoteza nul ˘a.

7.7 Exerci¸ tii propuse 145
Observa¸ tia 7.5 Dac˘a am for¸ ta folosirea testului bazat pe probabilit ˘a¸ ti aproximative, atunci
tabelul cu valorile observate ¸ si cele a¸ steptate este
XnY TV no TV Total
5 0
B˘arba¸ ti (3:5)(1:5) 5
2 3
Femei (3:5)(1:5) 5
Total 7 3 10
Valoarea statisticii test (7.5.5) va fi
H2=(53:5)2
3:5+(23:5)2
3:5+(01:5)2
1:5+(31:5)2
1:5=4:2857 >3:8415 =c2
0:95;1
¸ si am concluziona gre¸ sit c ˘a ipoteza nul ˘a este respins ˘a.
7.7 Exerci¸ tii propuse
Exerci¸ tiu 7.7 Urm ˘arim s ˘a compar ˘am pre¸ turile aceluia¸ si tip de pâine de 500g, alegând la
întâmplare diverse magazine din dou ˘a ora¸ se. Scopul investiga¸ tiei este de a decide dac ˘a
pre¸ tul mediu al acestui produs difer ˘a de la un ora¸ s la altul. Not ˘am cu X1pre¸ tul acestui
produs în primul ora¸ s ¸ si cu X2pre¸ tul din al doilea ora¸ s. Valorile pentru fiecare caracteristic ˘a
¸ si frecven¸ tele absolute sunt sumarizate în urm ˘atoarele dou ˘a matrice:
X1:2:0 2:1 2:2 2:3 2:4 2:5
7 9 19 14 10 5
¸ siX2:2:0 2:1 2:2 2:3 2:4
6 10 17 14 4
(a) Determina¸ ti un interval de încredere pentru diferen¸ ta mediilor celor dou ˘a caracteristici
(a=0:04).
(b) Se poate admite ipoteza c ˘a dispersiile celor dou ˘a caracteristici sunt egale ( a=0:04)?
(c) ¸ Tinând cont de rezultatul de la (b), se poate admite ipoteza c ˘a pre¸ tul mediu al acestui
tip de pâine nu difer ˘a între cele dou ˘a ora¸ se ( a=0:04)?
Exerci¸ tiu 7.8 Testa¸ ti normalitatea datelor din Tabelul 3.5 la nivelul de semnifica¸ tie a=
0:1.
Exerci¸ tiu 7.9 Se prezice c ˘a reparti¸ tia literelor care apar cel mai des în limba englez ˘a ar fi
urm˘atoarea:
Litera O R N T E
Frecven¸ ta 16 17 17 21 29
Aceasta semnific ˘a urm ˘atoarea: de fiecare dat ˘a când cele 5litere apar într-un text, în 16%
dintre cazuri apare litera O, în21% dintre cazuri apare litera Tetc. S ˘a presupunem c ˘a un
criptologist analizeaz ˘a un text ¸ si num ˘ar˘a apari¸ tiile celor 5litere. Acesta a g ˘asit urm ˘atoarea
distribu¸ tie:
Litera O R N T E
Frecven¸ ta 18 14 18 19 31

146 Capitolul 7. Teste de concordan¸ t ˘a
Folosind testul c2de concordan¸ t ˘a, s˘a se verifice dac ˘a aceste apari¸ tii sunt în not ˘a discordant ˘a
cu predic¸ tia ini¸ tial ˘a.
Exerci¸ tiu 7.10 Tabelul urm ˘ator con¸ tine num ˘arul de na¸ steri pe zi ce au avut loc într-o
anumit ˘a maternitate, observate în decursul a 100 de zile alese la întâmplare.
na¸ steri pe zi 0 1 2 3 4 5 6
frecven¸ ta 21 27 33 10 7 1 1
(a) Estima¸ ti num ˘arul mediu de na¸ steri pe zi ce au loc în mod regulat în acea maternitate.
(b) Testa¸ ti ipoteza c ˘a num ˘arul de na¸ steri pe zi este o variabil ˘a aleatoare repartizat ˘a
Poisson.
(c) Folosind rezultatul de la punctul (b), estima¸ ti probabilitatea ca, într-o zi aleas ˘a la
întâmplare, s ˘a aib ˘a loc cel pu¸ tin 2 na¸ steri în acea maternitate.
Exerci¸ tiu 7.11 Se dore¸ ste determinarea ¸ sanselor de avea un b ˘aiat sau o fat ˘a pentru mamele
cu patru copii. Avem la îndemân ˘a o selec¸ tie de 564de mame a câte 4copii. Rezultatele
sunt cele din tabelul de mai jos.
Num ˘ar de copii Frecven¸ ta
4 fete 38
3 fete ¸ si un b ˘aiat 138
2 fete ¸ si 2 baie¸ ti 213
o fat˘a ¸ si 3 baie¸ ti 141
4 baie¸ ti 34
(i) Reprezenta¸ ti grafic datele pe un pe disc ( pie chart ).
(ii) La nivelul de semnifica¸ tie a=0:05, testa¸ ti ipoteza c ˘a, pentru mamele cu patru copii,
probabilitatea de avea un baiat este egal ˘a cu probabilitatea de avea o fat ˘a.
Indica¸ tie: Se testeaz ˘a concordan¸ ta cu reparti¸ tia B(4;0:5).
Exerci¸ tiu 7.12 Se arunc ˘a o moned ˘a de250de ori, ob¸ tinându-se 138de apari¸ tii ale stemei.
La un nivel de semnifica¸ tie a=0:05, s˘a se decid ˘a dac ˘a avem suficiente dovezi de a afirma
c˘a acest ˘a moned ˘a este fals ˘a.
Exerci¸ tiu 7.13 Datele din tabelul de mai jos reprezint ˘a repartizarea pe vârste pentru un
e¸ santion de 385 de ¸ someri dintr-o anumit ˘a regiune a ¸ t ˘arii.
Vârsta [18;25) [25;35) [35;45) [45;55) [55;65)
Frecven¸ ta 34 76 124 87 64
(a) Reprezenta¸ ti datele prin bare.
(b) Folosind testul c2, testa¸ ti dac ˘a datele din tabel sunt observa¸ tii f ˘acute asupra unei
caracteristici normale (se va alege a=0:05).
Exerci¸ tiu 7.14 Se consider ˘a caracteristica Xce reprezint ˘a în˘al¸ timea b ˘arba¸ tilor (în cen-
timetri) dintr-o anumit ˘a regiune a unei ¸ t ˘ari. S-a f ˘acut o selec¸ tie de volum n=200, iar
datele de selec¸ tie au fost grupate în tabelul urm ˘ator:
Clasa165 (165;170] (170;175] (175;180] (180;185] (185;190] (190;195]195
ni 12 25 34 47 36 27 17 2
(a) Reprezenta¸ ti datele printr-o histogram ˘a.
(b) Preciza¸ ti estimatori nedeplasa¸ ti pentru media ¸ si dispersia în ˘al¸ timii b ˘arba¸ tilor din acea

7.7 Exerci¸ tii propuse 147
regiune. Folosind datele din tabel, determina¸ ti valorile acestor estimatori.
(c) Testa¸ ti dac ˘a datele din tabel sunt observa¸ tii f ˘acute asupra unei caracteristici normale
(a=0:05).
(d) Care este probabilitatea ca un b ˘arbat ales la întâmplare din acest ¸ tinut s ˘a fie mai înalt
de 182 cm?
Exerci¸ tiu 7.15 Dou˘a strunguri produc piese de acela¸ si tip. Not ˘am cu X1diametrul pieselor
produse de primul strung, ¸ si cu X2diametrul pieselor produse de al doilea strung. Pre-
supunem c ˘a ambele caracteristicile, X1¸ siX2, urmeaz ˘a legea normal ˘a.
X1:4:90 4 :95 5 :00 5 :05
11 16 19 14
¸ siX2:4:90 4 :95 5 :00 5 :10
6 8 14 7
(a) Determina¸ ti un interval de încredere pentru diferen¸ ta mediilor celor dou ˘a caracteristici
(a=0:03).
(b) Se poate admite ipoteza c ˘a dispersiile celor dou ˘a caracteristici sunt egale ( a=0:03)?
(b) ¸ Tinând cont de rezultatul de la (b), se poate admite ipoteza c ˘a mediile diametrelor
pieselor produse de cele dou ˘a strunguri sunt egale, cu alterntiva c ˘aE(X1)>E(X2)?
(a=0:03)
Exerci¸ tiu 7.16 Pentru a determina procentul de cursan¸ ti ai unei ¸ scoli de ¸ soferi care au luat
permisul de conducere dup ˘a prima examinare, s-a considerat o selec¸ tie aleatoare de 40 de
cursan¸ ti de gen masculin ¸ si o selec¸ tie aleatoare de 60 de gen feminin. Datele sunt cele de
mai jos:
b˘ arba¸ ti :
0 0 1 1 0 0 0 1 0 1 0 0 0 0 1 0 0 0 0 1
0 1 0 0 1 1 1 0 0 1 1 0 0 0 1 0 1 1 1 0
femei :
0 0 1 1 0 0 0 1 0 1 0 0 1 0 1 0 0 0 0 1 0 1 0 0 1 1 0 0 0 1
0 1 0 0 1 1 1 0 0 1 1 0 1 0 1 0 1 1 1 0 0 1 0 0 1 0 1 0 0 1
Aici, 1reprezint ˘a succes ¸ si 0insucces.
(a) Folosind un tabel de contingen¸ t ˘a, s˘a se testeze ipoteza c ˘a ob¸ tinerea permisului de
conducere dup ˘a prima examinare este independent ˘a de gen ( a=0:05);
(b) Testa¸ ti ipoteza c ˘a procentul de b ˘arba¸ ti ce ob¸ tin permisul dup ˘a prima examinare este
egal cu procentul de femei ce ob¸ tin permisul dup ˘a prima examinare ( a=0:05);
(c) Testa¸ ti ipoteza c ˘a doar 40% dintre cursan¸ tii acestei ¸ scoli ob¸ tin permisul de conducere
dup˘a prima examinare ( a=0:05).
Exerci¸ tiu 7.17 Tabelul de mai jos reprezint ˘a o selec¸ tie de rezultate din diferite sporturi,
grupate pe echipa c⸠stig ˘atoare ¸ si sport.
Fotbal Baschet Handbal V olei Rugby
Gazdele c⸠stig ˘a 53 112 45 21 31
Oaspe¸ tii c⸠stig ˘a 40 92 48 29 24
La nivelul de semnifica¸ tie a=0:05, s˘a se decid ˘a dac ˘a victoria gazdelor/oaspe¸ tilor este
independent ˘a de sport.
Exerci¸ tiu 7.18 Se doreste a se testa daca testul poligraf poate detecta daca o persoana
minte sau nu. Tabelul de mai jos reprezint ˘a o selec¸ tie de rezultate.

148 Capitolul 7. Teste de concordan¸ t ˘a
Realitatea! Subiectul testat a min¸ tit în realitate
#Rezultatul poligrafului # NU | DA
Poligraful indic ˘a faptul c ˘a subiectul minte 11 | 35
Poligraful indic ˘a faptul c ˘a subiectul nu minte 39 | 9
La nivelul de semnifica¸ tie a=0:05, s˘a se decid ˘a dac ˘a testul poligraf este eficient în a
detecta minciuna.
Exerci¸ tiu 7.19 Se doreste a se testa daca sentinta pe care o va primi un acuzat este
independenta de cum pledeaza. Tabelul de mai jos reprezint ˘a o selec¸ tie de rezultate.
Cum pledeaz˘ a! Acuzatul pledeaz ˘a
#Decizia judec˘ atorului # "vinovat" | "nevinovat"
trimis la închisoare 390 | 62
r˘amâne liber 558 | 20
La nivelul de semnifica¸ tie a=0:05, s ˘a se decid ˘a dac ˘a sentin¸ ta este independent ˘a de cum
pledeaz ˘a acuzatul. Dac ˘a a¸ ti fi avocatul ap ˘ar˘arii, a¸ ti încuraja acuzatul s ˘a pledeze vinovat?
Exerci¸ tiu 7.20 Tabelul de mai jos reprezint ˘a o selec¸ tie de date de volum 100, grupate dup ˘a
dou˘a caracteristici, X¸ siY.
XnYy1y2y3
x1 12 7 21
x2 a b c
Completa¸ ti tabelul cu valorile a,b¸ sicastfel încât caracteristicile X¸ siYsunt independente
la nivelul de semnifica¸ tie a=0:05.
Exerci¸ tiu 7.21 Consider ˘am aceea¸ si problem ˘a ca în Exemplul 7.1, dar cu tabelul de mai
jos.
XnY s˘an˘atos bolnav
G1 8 2
G2 3 7
Folosind testul Fisher, s ˘a se determine dac ˘a administrarea medicamentului are vreun efect
asupra st ˘arii de s ˘an˘atate a voluntarilor. Se va folosi nivelul de semnifica¸ tie a=0:1.
Exerci¸ tiu 7.22 Elevii unui anumit liceu au efectuat de genera¸ tii excursii organizate. Direc-
torul liceului dore¸ ste s ˘a verifice dac ˘a p˘arin¸ tii copiilor înc ˘a mai sus¸ tin aceast ˘a ini¸ tiativ ˘a. El
a trimis un chestionar la to¸ ti p ˘arin¸ tii copiilor din liceu, prin care le cerea s ˘a indice op¸ tiunea
lor ¸ si ciclul de studii al copilului lor. Doar 150 de p ˘arin¸ ti au r ˘aspuns, iar rezultatele au fost
grupate în tabelul de mai jos.
CiclulnOpinia De acord Nu sunt de acord Nicio p ˘arere
Gimnaziu 42 30 6
Liceu 40 25 7
(a) Testa¸ ti dac ˘a alegerea f ˘acut˘a de p ˘arin¸ ti este independent ˘a de ciclul de studii ( a=0:05).
(b) Pe baza r ˘aspunsurilor primite, decide¸ ti dac ˘a propor¸ tia de p ˘arin¸ ti ce sunt de acord cu
excursiile este semnificativ diferit ˘a de propor¸ tia celor ce au alte opinii ( a=0:05).

7.7 Exerci¸ tii propuse 149
Exerci¸ tiu 7.23 Într-un sondaj de opinie, un num ˘ar de 160de studen¸ ti din universitate
(ale¸ si aleator) au fost ruga¸ ti s ˘a se pronun¸ te în leg ˘atur˘a cu necesitatea introducerii unei
probe scrise la examenul de licen¸ t ˘a. R˘aspunsurile posibile erau: "Da" ,"Nu" sau"Nu ¸ stiu
d’astea" . Dintre ace¸ stia, 19b˘aie¸ ti ¸ si 26de fete au r ˘aspuns "Da" , iar40de b˘aie¸ ti ¸ si 50de
fete au r ˘aspuns "Nu" . La sondaj au participat 85 de fete ¸ si 75 de b ˘aie¸ ti.
(a) Sunt propor¸ tiile de b ˘aie¸ ti ¸ si fete care au r ˘asuns "Da" semnificativ diferite? (a=0:04).
(b) Ce test propune¸ ti pentru a stabili dac ˘a exist ˘a sau nu diferen¸ te semnificative de opinie
între b ˘aie¸ ti ¸ si fete? Formula¸ ti ipotezele testului.
(c) Determina¸ ti rezultatul testului formulat la (b) (a=0:04).

8. Teste neparametrice
. [Statistics shows that people who celebrate
. the most birthdays become the oldest.]
Multe dintre testele discutate anterior fun¸ tioneaz ˘a în ipoteza c ˘a datele selectate s ˘a urmeze o
reparti¸ tie normal ˘a sau s ˘a avem suficient de multe date, pentru ca aproximarea cu reparti¸ tia
normal ˘a s˘a fie valid ˘a. Se pune problema urm ˘atoare: Ce se întâmpl ˘a dac ˘a aceast ˘a cerin¸ t ˘a
(posibil ¸ si altele) nu este verificat ˘a ¸ si nu ¸ stim nimic despre reparti¸ tia datelor sau despre
parametrii variabilei? Testele neparametrice sunt cele în cadrul c ˘arora nu se fac presupuneri
asupra formei reparti¸ tiei. Aceste teste nu estimeaz ˘a parametrii tradi¸ tionali necunoscu¸ ti, de
aceea mai sunt cunoscute ¸ si sub titulatura de metode f˘ ar˘ a parametri (en.,parameter-free
methods) sau metode f˘ ar˘ a reparti¸ tie (en.,distribution-free methods). Aceste teste pot fi
utilizate atunci când ave¸ ti dubii asupra normalit ˘a¸ tii datelor statistice.
Se pot construi teste neparametrice corespunz ˘atoare fiec ˘arui test parametric studiat mai
sus, îns ˘a aceste teste neparametrice sunt, în general, grupate în urm ˘atoarele categorii:
•teste pentru diferen¸ ta dintre grupuri (pentru selec¸ tii independente). Este cazul com-
par˘arii mediilor a dou ˘a selec¸ tii ce provin din popula¸ tii independente. De regul ˘a,
se utilizeaz ˘a testul tdac˘a ipotezele acestuia sunt îndeplinite. Variante neparamet-
rice ale acestui test sunt: testul Wald-Wolfowitz, testul Mann-Whitney sau testul
Kolmogorov-Smirnov pentru dou ˘a selec¸ tii;
•teste pentru diferen¸ ta dintre variabile (pentru selec¸ tii dependente). Utilizat la com-
pararea a dou ˘a variabile ce caracterizeaz ˘a popula¸ tia din care s-a luat selec¸ tia. Teste
neparametrice utilizate: testul semnelor, testul Wilcoxon.
•teste pentru rela¸ tii între variabile. Pentru a g ˘asi corela¸ tia între variabile, se utilizeaz ˘a
coeficientul de corela¸ tie. Exist ˘a variante neparametrice ale coeficientului de corela¸ tie
standard, e.g., coeficientul R(Spearman), coeficientul t(Kendall) sau coeficientul
Gamma . Exist ˘a ¸ si teste privind coeficientul de corela¸ tie: c2sau testul Fisher exact.

152 Capitolul 8. Teste neparametrice
Avantajul testelor neparametrice este c ˘a ele folosesc mai pu¸ tine ipoteze decât testele
parametrice, cum ar fi o reparti¸ tie a priori cunoscut ˘a a datelor observate sau un volum mare
de date. Totu¸ si, efectul lipsei unor ipoteze restrictive este c ˘a puterea unui test neparametric
este, în general, mai mic ˘a decât a testului parametric corespunz ˘ator, care ar fi folosit dac ˘a
ipotezele sale sunt satisf ˘acute. Cu alte cuvinte, în cazul unui test neparametric sunt ¸ sanse
mai mici ca ipoteza nul ˘a s˘a fie respins ˘a atunci când ea este, în realitate, fals ˘a. Testele
neparametrice pot fi singurele op¸ tiuni pentru analiza datelor statistice în urm ˘atoarele cazuri:
datele sunt ordinale, sau f ˘ar˘a valori numerice, sau datele con¸ tin valori aberante extreme
sau în cazul în care datele sunt rezultatul unor m ˘asur˘atori imprecise. Dac ˘a s-ar dori analiza
acestor date folosind teste parametrice, vor fi necesare ipoteze restrictive severe asupra
datelor, cum ar fi ipoteza de normalitate. De multe ori, aceste ipoteze pot fi nerealiste.
8.1 Testul semnelor
Testul semnelor se mai numeste si testul medianei . Este un test neparametric bazat
pe semnele anumitor valori ¸ si nu pe valorile în sine. Testul semnelor este util atunci
când avem date ordinale (grupate pe categorii ordonate), f ˘ar˘a a ¸ sti valorile numerice ale
diferen¸ telor dintre categorii. Dac ˘a valorile numerice sunt cunoscute, atunci se poate folosi
un test mai puternic, e.g., testul rangurilor cu semn al lui Wilcoxon. Este unul dintre
cele mai simple teste statistice neparametrice. Ipoteza de baz ˘a a testului este c ˘a datele
statistice observate sunt alese aleator din popula¸ tia considerat ˘a. Acest test face referire
la o valoare centrala a setului de date observate si nu impune nicio ipoteza referitoare la
reparti¸ tia acestor valori observate. Daca testul tclasic testeaza valoarea medie a valorilor
observate (in conditiile normalitatii datelor sau pentru un volum suficient de mare de date),
testul semnelor testeaza valoarea mediana a observatiilor. Daca setul de date este simetric,
atunci valoarea median ˘a este egal ˘a cu media datelor. In acest caz, testul semnelor poate da
informatii despre media datelor observate, desi este un test mai putin precis decat testul t.
Presupunem c ˘ax1;x2; :::; xnsunt observa¸ tii aleatoare asupra unei caracteristici Xdintr-o
popula¸ tie. Pentru o valoare reala data Me, testul semnelor testeaza ipoteza nula:
(H0):Me=Me;
la nivelul de semnifica¸ tie a. In func¸ tie de ipoteza alternativ ˘a, putem avea un test unitaleral
sau un test bilateral.
Test unilateral stânga:
(H1)s:Me<Me
Statistica test este
S=S<=n
å
i=11fxi<Meg
unde S<este nr. datelor mai mici decât MeTest bilateral:
(H1):Me6=Me
Statistica test este
S=S6==maxfS<;S>g
Pentru testul unilateral dreapta, ipoteza alternativ ˘a este (H1)d:Me>Me, iar statistica
test este S=S>=n
å
i=11fxi>Meg, adic ˘a num ˘arul datelor mai mari decât Me.

8.1 Testul semnelor 153
Observa¸ tiile care au o valoare egal ˘a cu Mesunt eliminate din analiz ˘a ¸ sineste ajustat
corespunz ˘ator. Dac ˘a ipoteza nul ˘a este adev ˘arat˘a ¸ si mediana este Me, atunci Seste o
variabil ˘a binomial ˘aSB(n;0:5). Pe baza acestor statistici se calculeaz ˘a valoarea critic ˘a
Pv, care reprezint ˘a probabilitatea ca ipoteza nul ˘a s˘a fie respins ˘a. Aceste valori critice sunt:
cazul unilateral: Pv=P(SS); cazul bilateral: Pv=2P(SS);
unde SB(n;0:5). Dac ˘a valoarea Pveste mai mare decât a, atunci accept ˘am ipoteza
nul˘a (nu avem motive s ˘a o respingem). Altfel, accept ˘am ipoteza alternativ ˘a.
Observa¸ tia 8.1 Dac˘a volumul observa¸ tiilor este mare (e.g., n30) ¸ siSB(n;0:5),
atunci statistica test este SN(n=2;pn=2). În acest caz, testul pentru median ˘a se poate
face pe baza statisticii
z0=(S0:5)n=2pn=2;
unde Seste statistica corespunz ˘atoare de mai sus. Valoarea " 0:5" este corec¸ tia de
aproximare a unei variabile discrete cu una continu ˘a. Decizia final ˘a se ia astfel: accept ˘am
ipoteza nul ˘a dac ˘a
z0>z1a(pentru (H1)s); z0<z1a(pentru (H1)d);jz0j<z1a
2(pentru (H1)):
Exemplu 8.1 Dorim s ˘a test ˘am preferin¸ tele clien¸ tilor dintr-o anumit ˘a pizzerie pentru pizza
cu blat sub¸ tire sau gros. S ˘a spunem c ˘a aceste preferin¸ te sunt reprezentate în Tabelul 8.1.
În acest tabel, fiec ˘arei preferin¸ te i se atribuie un semn, +pentru "blat gros" ¸ si pentru
marime sub¸ tire gros gros gros sub¸ tire gros gros sub¸ tire gros gros
semn + + + + + + +
Tabela 8.1: Tabel cu preferin¸ te pentru blatul de pizza.
"blat sub¸ tire". Dintr-o privire în tabel, se pare c ˘a marea parte ( 70%) a clien¸ tilor prefer ˘a
blatul gros. Dorim s ˘a test ˘am semnifica¸ tia acestor date. Cu alte cuvinte, care este ¸ sansa
ob¸ tinerii acestor rezultate dac ˘a, de fapt, nu exist ˘a vreo diferen¸ t ˘a între preferin¸ te? Sau, dac ˘a
am presupune c ˘a preferin¸ tele pentru cele dou ˘a tipuri sunt împ ˘ar¸ tite în mod egal, care sunt
¸ sansele de a ob¸ tine un rezultat de genul prezentat în tabelul de mai sus?
R: Stabilim ipoteza nul ˘a
(H0): preferin¸ tele pentru cele dou ˘a blaturi sunt 50%50%;
versus ipoteza alternativ ˘a bilateral ˘a
(H1): exist ˘a diferen¸ te semnificative în preferin¸ tele pentru cele dou ˘a blaturi :
Pot fi considerate ¸ si teste unilaterale (stânga sau dreapta). Alegem pragul de semnifica¸ tie
a=0:05. Ca de obicei, presupunem c ˘a ipoteza nul ˘a este adev ˘arat˘a ¸ si, atunci, ¸ sansa
ca cineva s ˘a aleag ˘a un blat sub¸ tire este p=0:5. Dac ˘a not ˘am cu Xvariabila aleatoare
ce reprezint ˘a alegerea blatului, f ˘acut˘a de clien¸ tii care au comandat pizza, atunci X
B(10;0:5)(aici avem o selec¸ tie de n=10). Calcul ˘amPvaloarea, adic ˘a valoarea maxim ˘a
pentru pragul de semnifica¸ tie pentru care ipoteza nul ˘a nu poate fi respins ˘a. Aici, S<=
3;S>=7¸ siS6==7. Probabilitatea critic ˘a este Pv=2P(X7) =0:3438 . Deoarece
a<Pv, ipoteza nul ˘a nu poate fi respins ˘a la acest nivel de semnifica¸ tie.

154 Capitolul 8. Teste neparametrice
8.1.1 Testul semnelor pentru date perechi
V om numi date perechi un set de date bivariate (date ce con¸ tin dou ˘a valori, adic ˘a de forma
(xi;yi)i=1;n) ce reprezint ˘a observatii asupra aceleia¸ si caracteristici, între cele dou ˘a compo-
nente existând m ˘acar o leg ˘atur˘a. Pentru aceste seturi de valori, ipoteza de independen¸ t ˘a
între seturile de valori (xi)i=1;n¸ si(yi)i=1;nnu mai este satisf ˘acut˘a.
Exemple:
•masele corporale ale unor persoane inainte ¸ si dup ˘a o anumit ˘a diet ˘a (se dore¸ ste a
studia efectul dietei asupra masei corporale);
•notele elevilor la testarea initiala la Matematica si notele acelorasi elevi la teza de
Matematica (se urm ˘are¸ ste testarea progresului facut de elevi intr-un semestru);
•starea s ˘an˘at˘a¸ tii unor bolnavi înainte ¸ si dup ˘a administrarea unui tratament (se ur-
m˘are¸ ste testarea eficien¸ tei tratamentului);
•salariile individuale pentru un num ˘ar de perechi so¸ t – so¸ tie (se urm ˘are¸ ste testarea
diferen¸ telor salariale între so¸ ti).
Consider ˘amXsiYdoua variabile dependente intre ele. Pentru a compara mediile celor
doua variabile nu se poate aplica testul tpentru diferenta mediilor, deoarece ipoteza de
independen¸ t ˘a dintre XsiYeste una de baza pentru aplicabilitatea testului t. V om vedea
mai tarziu (vezi testul tpentru date perechi) cum putem testa daca mediile sunt egale.
Deocamdata, sa ne indreptam atentia asupra medianelor variabilelor.
Presupunem c ˘a(x1;y1),(x2;y2),:::,(xn;yn)sunt datele perechi observate asupra vari-
abilelor (X;Y). In multe aplicatii se doreste a se determina cum este Xfata de Y. Pentru
aceasta, se considera diferentele di=xiyi. Se presupune ca d1;d2; :::; dnsunt indepen-
dente ¸ si provin dintr-o populatie continu ˘a, de median ˘aMe. Se poate utiliza testul anterior
pentru a testa daca valoarea mediana este 0:
(H0):Me=0
(H1):Me6=0:
Se pot considera ¸ si teste unilaterale, dac ˘a ipota alternativ ˘a este (H1)s:Me<0sau(H1)d:
Me>0.
Aten¸ tie , acest test nu verific ˘a daca medianele celor doua selectii, MeXsiMeY, sunt egale!
8.2 Testul seriilor pentru caracterul aleator
Testul seriilor ( en.,runs test ) este un test neparametric ce verific ˘a ipoteza c ˘a un ¸ sir de date
bivariate este aleator generat (i.e., datele statistice constituie o selectie aleatoare dintr-un
sir infinit de valori). In general, ipoteza verificata este
(H0): valorile observate provin dintr-un sir aleator ;
vs.
(H1): valorile observate nu provin dintr-un sir aleator :
Dac˘a o anumit ˘a valoare a unui anumit ¸ sir de caractere este influen¸ tat ˘a de pozi¸ tia sa sau de
valorile ce o preced, atunci selec¸ tia generat ˘a nu poate fi aleatoare.
Definim no¸ tiunea de serie saufaz˘ a (en.,run) ca fiind o succesiune a unuia sau mai multe
simboluri de acela¸ si tip, care sunt precedate ¸ si urmate de simboluri de alt tip sau niciun

8.2 Testul seriilor pentru caracterul aleator 155
simbol. De exemplu:
001111010010 sau MFFFFFMMMF sau ++-+–++++–+–++-
Num ˘arul de faze ¸ si lungimea lor pot fi folosite în determinarea gradului de stochasticitate
a unui ¸ sir de simboluri. Prea pu¸ tine sau prea multe faze, sau de lungimi excesiv de mari
sunt rare în serii cu adev ˘arat aleatoare, de aceea ele pot servi drept criterii statistice pentru
testarea stochasticit ˘a¸ tii. Aceste criterii sunt adiacente: prea pu¸ tine faze implic ˘a faptul c ˘a
unele faze sunt prea lungi (se observa o persistenta), prea multe faze implic ˘a faptul c ˘a
unele faze sunt prea scurte (se observa o secventa in zigzag). A¸ sadar, ne vom preocupa
doar de num ˘arul total de faze.
Fien1¸ sin2num˘arul de semne +, respectiv,din ¸ sir, ¸ si fie n=n1+n2. Fie r1¸ sir2
num˘arul de faze ce corespund semnului +, respectiv,din ¸ sir. Num ˘arul total de faze este
r=r1+r2. V om nota cu litere mari, R1;R2sauR, variabilele aleatoare ale caror realizari
sunt r1,r2, respectiv, r.
Sa exemplificam aceste numere pentru sirurile considerate mai sus. Primul sir de n=12
cifre este constituit din r=7faze: r1=4faze de "0" si r2=3faze de "1"; n1=n2=6.
Al doilea sir este format din r=4faze, r1=2de " M" sir2=2de " F", iar ultimul sir de
n=19 este constituit din r=10 faze, cate r1=r2=5 din fiecare "+" sau "-".
Alegem ipoteza nul ˘a:
(H0): ¸ sirul este aleator (fiecare aranjament de +¸ sieste echiprobabil ):
vs. ipoteza alternativ ˘a
(H1): ¸ sirul nu este aleator :
Se pot considera si ipoteze alternative:
(H1)s: datele au o tendinta de se aduna ciorchine :
sau
(H1)d: datele au o tendinta de se r ˘asfira :
Putem g ˘asi reparti¸ tiile vectorilor aleatori (R1;R2),R1,R2sauR. Spre exemplu, pentru R
avem functia de probabilitate:
f(r) =8
>>>>>><
>>>>>>:Cr=21
n11Cr=21
n21
Cn1n, dac ˘ar=par;
h
C(r1)=2
n11C(r3)=2
n21+C(r3)=2
n11C(r1)=2
n21i
Cn1n, dac ˘ar=impar :
Cazul I: Când n1¸ sin2sunt mari (i.e., n1>12;n2>12). In acest caz, variabila aleatoare
corespunzatoare lui rare o repartitie aproape normala, RN(m;s), unde
m=2n1n2
n+1; s=s
2n1n2(2n1n2n)
n2(n1)=r
(m1)(m2)
n1:

156 Capitolul 8. Teste neparametrice
A¸ sadar,
Rm
sN(0;1):
Aceast ˘a statistic ˘a poate fi utilizat ˘a în testarea ipotezei nule (H0). Pentru testul bilateral,
vom admite ipoteza nula daca rm
s z1a
2:
Altfel, se respinge ipoteza nula. Pentru testul unilateral, conditia de respingere a ipotezei
nule este
rm
sz1a
pentru test unilateral stangarm
sz1a
pentru test unilateral dreapta
Cazul II: Când n1¸ sin2sunt mici ( n112;n212). In acest caz, valorile critice pentru
rse gasesc intr-un tabel (vezi Tabelul 13.2). Astfel, pentru testul bilateral, regiunea care
asigura acceptarea ipotezei nule este ra2;L<r<ra2;U.
Pentru testul unilateral stanga, ipoteza nula va fi respinsa daca r<ra1;L.
Pentru testul unilateral dreapta, ipoteza nula va fi respinsa daca r>ra1;U.
Testul seriilor poate fi folosit in:
•testarea caracterului aleator a unei selectii de date, prin marcarea cu " +" a valorilor
ce sunt mai mari decat mediana si cu " " ale celor ce sunt mai mici decat mediana.
Valorile egale cu mediana sunt omise si neste ajustat in consecinta.
•testarea potrivirii unei functii cu un set de date, prin marcarea cu " +" a valorilor
ce sunt mai mari decat valoarea functiei si cu " " ale celor ce sunt mai mici decat
valoarea functiei. Valorile egale cu valoarea func¸ tiei sunt omise si neste ajustat in
consecinta. Acest test nu tine cont de distante dintre date si functie, ci doar de semne,
spre deosebire de un test c2.
Exerci¸ tiu 8.1 Ratele de schimb valutare EUR/RON sunt inregistrate pentru 20 zile con-
secutive din luna Octombrie 2014 si sunt comparate cu ratele de schimb medii istorice
inregistrate in ultimii 5 ani. Se noteaza cu " +" daca valoarea din 2014 este peste valoarea
medie istorica si cu " " daca este sub valoarea medie istorica. Obtinem sirul binar:
+++ ++++++++
La nivelul de semnificatie a=0:05, testati ipoteza ca deviatia ratei din Octombrie 2014
de la rata medie istorica este aleatoare sau nu.
R: Presupunem ca simbolurile +constituie elementele de tip 1. Sunt n=20elemente, cu
n1=11sin2=9,r=11serii, cu r1=6sir2=5. Din Tabelul 13.2, observam ca valorile
critice sunt ra2;L=8sira2;U=17. Cum 8<r=11<17, concluzionam ca ipoteza nula
nu poate fi respinsa la acest nivel de semnificatie.
8.3 Testul Wald-Wolfowitz (Wald-Wolfowitz two-sample runs test)
Testul Wald-Wolfowitz (Wald1-Wolfowitz2este o alternativa neparametrica a testului t
pentru selectii independente. Este utilizat in testarea ipotezei ca doua selectii sunt observatii
1Abraham Wald (1902 1950) matematician ungur n ˘ascut în Cluj
2Jacob Wolfowitz (1910 1981) matematician polonez-american

8.3 Testul Wald-Wolfowitz (Wald-Wolfowitz two-sample runs test) 157
independente ale uneia ¸ si aceea¸ si repartitii. Reamintim, testul tpentru doua selectii decide
daca doua selectii independente provin din doua caracteristici ce au aceeasi medie. Testul
Wald-Wolfowitz poate depista chiar mai multe diferente dintre cele doua repartitii decat
testul tpentru doua selectii. Spre exemplu, testul W-W poate depista diferentele dintre
mediile sau dintre formele caracteristicilor din care provin cele doua seturi de observatii.
Este eficient pentru un volum al selectiei cel putin moderat, e.g. cel putin egal cu 10.
Presupunerea principala este ca datele observate sunt observatii ale unor caracteristici
continue independente. Presupunem ca avem doua seturi de date, fxigi=1;msifyjgj=1;n.
La nivelul de semnificatie ase doreste a se testa ipoteza nula
(H0):Cele doua seturi de date provin din aceea¸ si repartitie,
vs.
(H1):Cele doua seturi de date provin din repartitii diferite.
Pentru a testa ipoteza nula, datele observate se vor scrie împreun ˘a, in ordine crescatoare,
fiecare observatie fiind codata cu 1sau 2, dupa cum provine din setul 1sau2de date. Testul
Wald-Wolfowitz are la baza ipoteza nula ca fiecare valoare observata din sirul combinat
este extrasa independent dintr-o aceeasi repartitie data. Statistica test este r=numarul de
faze ( runs) observate in sirul obtinut prin alipire. Daca aceasta statistica ar avea o valoare
numerica mica, atunci acest fapt indica un anumit trend in datele alipite (datele ce provin
din acelasi set tind sa se adune in clustere), adica putin improbabil ca aceste date sa fi
provenit din aceeasi repartitie. Pe de alta parte, un numar mare pentru reste un indiciu ca
datele sunt observatii aleatoare ale unei repartitii, fapt care va duce la acceptarea ipotezei
nule.
In cazul in care valori ale sirului xcoincid cu valori ale sirului y, la codarea lor in sirul
alipit se va cauta continuarea fazei deja incepute.
Decizia se va lua pe baza unor valori tabelate (vezi Tabelul 13.3), astfel:
Daca r<rc;respingem ipoteza nula ; dac ˘ar>rc;acceptam ipoteza nula :
Pentru volume mai mari de 20, se poate folosi statistica R=rm
s, unde meste numarul
asteptat de faze si sdeviatia sa standard:
m=1+2n1n2
n1+n2sis=s
2n1n2(2n1n2n1n2)
(n1+n2)2(n1+n21):
Daca ipoteza nula este admisa, atunci statistica Rurmeaza o repartitie normala N(0;1).
Pentru a lua decizia, procedam astfel:
DacajRjz1a
2, atunci respingem ipoteza nula. Altfel, o acceptam.
Exemplu 8.2 Datele de mai jos reprezinta procentajele obtinute de doua grupuri (baieti si
fete) la un test de Matematica
Baiat 74 83 91 56 67 50 73 47 75 80
Fata 79 80 55 49 88 95 50 77 83 90 88
La nivelul de semnificatie a=0:05, sa se decida daca cele doua seturi de date provin din
aceeasi repartitie (adica, datele sunt omogene).

158 Capitolul 8. Teste neparametrice
R: Ipoteza nula este omogenitatea datelor, i.e.:
(H0):Cele doua seturi de date provin din aceeasi repartitie,
vs.
(H1):Cele doua seturi de date provin din repartitii diferite.
Scriem datele in ordine crescatoare si le atasam codurile:
date 47 49 50 50 55 56 67 73 74 75 77 79 80 80 83 83 88 88 90 91 95
cod b f f b f b b b b b f f f b b f f f f b f
Se observa ca valoarea 50apare de doua ori, avand coduri diferite. In atribuirea codurile
s-a urmarit ca primul cod corespunzator valorii 50sa fie cel anterior (continuare de faza).
Similar s-a procedat pentru valoarea 83.
Numarul de faze este r=10. Valoarea critica se citeste din Tabelul 13.3 pentru n1=10si
n2=11. Astfel, valoarea critica (la nivelul de semnificatie a=0:05) este rc=6. Cum
r=10>6, admitem ipoteza nula. Asadar, admitem ipoteza ca aceste punctaje provin
dintr-o aceeasi repartitie, la nivelul de semnificatie a=0:05.
Altfel, daca am dori sa utilizam repartitia asimptotica in acest caz (nu este un caz in care
n1>20 si n2>20, insa facem acest lucru pentru exemplificare), atunci gasim ca:
m=11:4762 ;s=2:2279 ;R=1011:4762
2:2279=0:6626 ;z0:975=1:96:
CumjRj<1:96, acceptam ipoteza nula la nivelul de semnificatie a=0:05.
8.4 Testul Wilcoxon bazat pe ranguri cu semn ( Wilcoxon Signed-Rank
Test)
Testeaza valoarea centrala a unui set de date. Este folosit ca o alternativa pentru testul t
pentru medie cand ipotezele acestuia nu sunt verificate. Astfel, testul signed rank al lui
Wilcoxon este utilizat pentru verificarea daca un set de date provine dintr-o distributie de o
anumita mediana, in cazul in care datele observate nu sunt neaparat normale. Presupunem
cax1;x2; :::; xneste o selectie aleatoare de date observate asupra unei variabile continue
si simetrice X, de mediana Me. Acest test verifica daca media variabilei Xeste o valoare
data Me. Putem avea teste unilaterale sau test bilateral.
teste unilaterale:
(H0):Me=Me
(H1)s:Me <Me[sau(H1)d:Me>Me]test bilateral:
(H0):Me=Me
(H1):Me6=Me:
Pentru a efectua testul, procedam astfel: daca admitem ipoteza nula, atunci Me=Me.
Ordonam urmatoarele valori in ordine crescatoare:
jx1Mej;jx2Mej; :::;jxnMej: (8.4.1)
Determin ˘am rangurile asociate acestor valori. Statistica test va fi S=suma rangurilor
asociate cu valorile pozitive pentru xiMe.

8.5 Testul tpentru date perechi 159
Regiunile care duc la respingerea ipotezei nule sunt, respectiv:
Sc1, pentru testul unilateral dreapta
Sc2=n(n+1)
2c1;
pentru testul unilateral stangaSn(n+1)
2csauSc;
pentru testul bilateral
unde c,c1sic2sunt date in Tabelul 13.4.
Exemplu 8.3 Un brutar doreste sa verifice daca o anumita masina de paine functioneaza
corect. Aceasta este potrivita sa produca paini de 500g. Urmatorul set de date reprezinta
gramajele a 15 paini alese aleator, produse de aceasta masina:
504.4 490.8 497.5 493.2 502.5 495.0 505.9 498.2
501.6 497.3 492.0 504.3 499.2 493.5 505.8
Se presupune ca deviatiile de la mediana au aceeasi probabilitate de a fi pozitive sau
negative si nu putem presupune normalitatea datelor. Totodata, avem prea putine observatii
pentru a folosi o distributie normala asimptotica.
Dorim sa utilizam testul rangurilor cu semn al lui Wilcoxon pentru a testa daca masina
este calibrata corect. ( a=0:05)
R: Ipoteza nula este
(H0):Me=500 vs (H1):Me6=500:
Scadem 500 din toate datele si obtinem:
4.4 -9.2 -2.5 -6.8 2.5 -5.0 5.9 -1.8
1.6 -2.7 -8.0 4.3 -0.8 -6.5 5.8
Le ordonam valorile absolute in ordine crescatoare:
modulul 0:8 1 :6 1 :8 2 :5 2 :5 2 :7 4 :3 4 :4 5 5 :8 5 :9 6 :5 6 :8 8 9 :2
rangul 1 2 3 4 :5 4 :5 6 7 8 9 10 11 12 13 14 15
semnul + + + ++ +
Statistica test este S=2+4:5+7+8+10+11=42:5. Folosind Tabelul 13.4, observam
ca pentru n=15, daca ipoteza nula este acceptata, atunci:
P(S95) =P(S25) =0:024; ¸ si astfel, P
fS95g[
fS25g
=0:0480:05:
Asadar testul bilateral va respinge ipoteza nula pentru S95sau pentru S25. Cum
S=42:5, acceptam ipoteza nula la acest nivel de semnificatie.
8.5 Testul tpentru date perechi
Acesta este un test parametric. Il mentionam aici doar pentru a face diferenta intre acest
test si alte teste neparametrice ce pot fi utilizate pentru datele perechi. Testul poate fi
aplicat pentru perechi de date pentru care diferentele intre valorile perechi sunt normale.
In cursurile anterioare am vazut cum putem testa daca mediile a doua variabile indepen-
dente XsiYsunt egale pe baza observatiilor facute asupra acestor variabile, fxigi=1;msi
fyjgj=1;n, unde msinnu sunt neaparat egale. Exista insa situatii in care variabilele XsiY

160 Capitolul 8. Teste neparametrice
nu sunt independente intre ele. Spre exemplu, observatiile facute asupra aceluiasi grup de
indivizi inainte si dupa un tratament. In astfel de situatii, testul tpentru diferenta mediilor
studiat anterior nu se mai poate aplica.
Presupunem ca XsiYsunt doua variabile (posibil corelate) si ca (x1;y1),(x2;y2),:::,
(xn;yn)sunt datele perechi observate. Notam mediile teoretice ale acestor variabile prin:
mX=E(X)simY=E(Y). In multe aplicatii se doreste a se determina cum este Xfata de Y.
Pentru fiecare pereche, consideram di=xiyi. Presupunem ca variabilele corespunzatoare
diferentelor,fDigi=1;n, sunt normale, de media mDsi deviatie standard sD. Evident, avem
camD=mXmY, insa s2
Dnu mai este neaparat egal cu s2
X+s2
Y, egalitatea avand loc doar
in cazul independentei dintre variabilele XsiY. Deoarece Disunt considerate normale,
putem folosi testul tobisnuit pentru medie pentru a testa ipoteza nula
teste unilaterale:
(H0):mD=m0
(H1)s:mD<m0[sau(H1)d:mD>m0]test bilateral:
(H0):mD=m0
(H1):mD6=m0:
Pentru setul de date fdigi=1;n, notam cu d=1
nn
å
i=1disisD=s
1
n1n
å
i=1[did]2.
Statistica test este
t=dm0
sD=pn:
Regiunile care duc la respingerea ipotezei nule sunt, respectiv:
tta;n1pentru testul unilateral stanga
tta;n1pentru testul unilateral dreaptajtjt1a
2;n1pentru testul bilateral
De asemenea, testul poate fi efectuat pe baza unei valori Pv, care poate fi calculata in fiecare
caz.
8.6 Testul Wilcoxon pentru date perechi
Este varianta neparametrica a testului anterior. Acest test este utilizat cand ipoteza de
normalitate a diferentelor nu este verificata. Ipoteza testului este: repartitia diferentelor di
este una continua si simetrica.
In cazul in care observatiile pentru XsiYsunt continue si difera doar prin valorile medii,
atunci repartitia diferentelor va fi continua si simetrica. Nu este necesar ca repartitiile lui
XsiYsa fie simetrice.
Acest test verifica ipoteza nula ca valoarea mediana MeD=MeXMeYa diferentelor este
una data.
teste unilaterale:
(H0):MeD=Me
(H1)s:MeD<Me[sau(H1)d:MeD>Me]test bilateral:
(H0):MeD=Me
(H1):MeD6=Me:

8.7 Testul Wilcoxon bazat pe suma rangurilor ( Wilcoxon rank-sum test ) 161
Pentru a testa aceasta ipoteza pentru mediana MeD, se continu ˘a cu etapele testului Wilcoxon
Signed-Rank Test discutat anterior.
8.7 Testul Wilcoxon bazat pe suma rangurilor ( Wilcoxon rank-sum test )
(Wilcoxon3Rank-Sum Test sau Mann-Whitney test)
Acest test este varianta neparametrica a testului tpentru compararea mediilor. Este utilizat
in cazul in care ipotezele testului tnu sunt satisfacute (lipsa normalitatii a cel putin unui
set de date).
Presupunem ca avem doua seturi independente de date continue, fxigi=1;msifyjgj=1;n.
Notam cu MeXsiMeYmedianele teoretice corespunzatoare repartitiilor din care provin
aceste date. Se presupune ca XsiYau aceeasi forma, singura diferenta posibila fiind
valorile lor medii. La nivelul de semnificatie ase doreste a se testa ipoteza nula
teste unilaterale:
(H0):MeD=Me
(H1)s:MeD<Me[sau(H1)d:MeD>Me]test bilateral:
(H0):MeD=Me
(H1):MeD6=Me:
Pentru a efectua testul, procedam astfel: daca admitem ipoteza nula, atunci MeD=Me.
Presupunem ca mn(daca nu e adevarat, renotam selectiile). Ordonam urmatoarele
valori in ordine crescatoare:
x1Me;x2Me; :::; xmMe;y1Me;y2Me; :::; ynMe:(8.7.2)
Statistica test va fi S=suma rangurilor asociate cu valorile (xiMe)din sirul (8.7.2).
Regiunile care duc la respingerea ipotezei nule sunt, respectiv:
Sc1, pentru testul unilateral dreapta
Sc2;
pentru testul unilateral stangaScsauSm(m+n+1)c;
pentru testul bilateral
unde c,c1sic2sunt date in tabelele 13.5 ¸ si 13.6.
Exemplu 8.4 Pe baza datelor observate in Exercitiul 8.2, testati ipoteza ca procentajul
mediu real obtinut de fete este mai mare decat cel obtinut de baieti, la nivelul de semnificatie
a=0:05.
R: Datele sunt urmatoarele:
Baiat 74 83 91 56 67 50 73 47 75 80
Fata 79 80 55 49 88 95 50 77 83 90 88
Notam cu xiprocentajele baietilor si cu yjpe ale fetelor. Avem ca m=10;n=11. Ipoteza
nula este:
(H0):Me1Me2=0;
vs.
(H1):Me1Me2<0:
3Frank Wilcoxon (1892 1965), chimist ¸ si statistician irlandez

162 Capitolul 8. Teste neparametrice
Scriem datele in ordine crescatoare si le atasam codurile si rangurile:
date 47 49 50 50 55 56 67 73 74 75 77 79 80 80 83 :::
cod b f f b f b b b b b f f f b b :::
rang 1 2 3.5 3.5 5 6 7 8 9 10 11 12 13.5 13.5 15.5 :::
date ::: 83 88 88 90 91 95
cod ::: f f f f b f
rang ::: 15.5 17 18 19 20 21
Statistica test este S=1+3:5+6+7+8+9+10+13:5+15:5+20=93:5. Pentru
m=10sin=11gasim ca valoarea critica c2(tabelul 13.6, n=10;m=11, la nivelul de
semnificatie a=0:05) este c2=86. Cum S=93:5>86, admitem ipoteza nula. Asadar,
nu este o diferenta semnificativa intre punctajele mediane reale, la nivelul de semnificatie
a=0:05.p
8.8 Teste neparametrice în MATLAB
8.8.1 Testul semnelor în MATLAB
În M ATLAB , testul semnelor poate fi realizat cu ajutorul func¸ tiei
[p, h] = signtest(x, m)
unde:
• meste un num ˘ar real;
• xeste un ¸ sir de caractere sau vector, asupra c ˘aruia facem testul semnelor;
•variabila de memorie heste rezultatul testului. Dac ˘a rezultatul afi¸ sat este h = 0 ,
atunci ipoteza nul ˘a,(H0):setul de date xprovine dintr-o distribu¸ tie continu˘ a de
median˘ a egal˘ a cu m, este admis ˘a la acest nivel de semnifica¸ tie. Dac ˘a rezultatul afi¸ sat
este h = 1 , atunci ipoteza nul ˘a este respins ˘a. Se va admite astfel ipoteza alternativ ˘a
(H1):setul de date xprovine dintr-o distribu¸ tie continu˘ a care nu are median˘ a egal˘ a
cu m . Dac ˘amnu apare, atunci se subîn¸ telege c ˘am=0.
•variabila de memorie pesteP- valoarea , adic ˘a valoarea maxim ˘a pentru pragul de
semnifica¸ tie apentru care ipoteza nul ˘a este admis ˘a. Deoarece aici a=0:05este
subîn¸ teles, pentru un p>0:05 se afi¸ seaz ˘a h = 0 . Altfel, se afi¸ seaz ˘a h = 1 .
O variant ˘a îmbun ˘at˘a¸ tit˘a a comenzii anterioare este urm ˘atoarea:
[p, h, stats] = signtest(x, y,'alpha',alpha,'method',method)
Aici, în plus fa¸ t ˘a de preciz ˘arile de mai sus, mai ad ˘aug˘am c ˘a:
•Ipoteza nul ˘a este (H0): setul de date xyprovine dintr-o distribu¸ tie continu˘ a de
median˘ a egal˘ a cu 0, cu ipoteza alternativ ˘a c˘amediana lui xy nu este 0;
• variabila stats înmagazineaz ˘a urm ˘atoarele date:
– zval – este valoarea statisticii Zpentru observa¸ tia considerat ˘a (apare doar
pentru selec¸ tii de volum mare, n30);
– sign – este valoarea statisticii test;
• alpha este nivelul de semnifica¸ tie;
• method este metoda folosit ˘a în testare. Putem avea o metod ˘a exact ˘a (folosind
distribu¸ tia binomial ˘a a statisticii test), când method este 'exact' , sau aproximativ ˘a

8.8 Teste neparametrice în MATLAB 163
(folosind distribu¸ tia aproximativ normal ˘a a statisticii test) pentru 'approximate' ;
Exemplu 8.5 Pentru problema cu pizza, de mai sus, codul MATLAB ce genereaz ˘a testul
semnelor este:
x = [-1 1 1 1 -1 1 1 -1 1 1];
[p, h, stats] = signtest(x, 0)
Rezultatul testului este:
p = h = stats =
0.3438 0 sign: 3
Observa¸ tia 8.2 Revenim la Exerci¸ tiul 7.1 ¸ si urm ˘arim testarea ipotezei nule folosind
func¸ tia signtest .
Codul M ATLAB este simplu:
x = [ones(59,1); zeros(41,1)];
[p, h, stats] = signtest(x,.5)
Ob¸ tinem rezultatele:
p = h = stats =
0.0891 0 zval: 1.7000
sign: 41
ceea ce confirm ˘a faptul c ˘a ipoteza nul ˘a este admis ˘a la nivelul a=0:05.
8.8.2 Testul seriilor în MATLAB
Func¸ tia MATLAB ce simuleaz ˘a testul de verificare a stochasticit ˘a¸ tii unui ¸ sir de caractere este
[h, p, stats] = runstest(x)
Acesta este un test ce verific ˘a dac ˘a valorile ce compun ¸ sirul de caractere xapar în ordine
aleatoare. Variabilele h, p¸ si xsunt ca în testul signtest . Aici, variabila stats afi¸ seaz ˘a
urm˘atoarele: num ˘arul de faze, lungimile fiec ˘arei faze ¸ si valoarea statisticii pentru selec¸ tia
considerat ˘a.
În urma rul ˘arii comenzii, se va afi¸ sa valoarea h = 0 dac˘a ipoteza c ˘a valorile apar în ordine
aleatoare nu poate fi respins ˘a (este acceptat ˘a la nivelul de semnifica¸ tie a=0:05) ¸ si h = 1
în caz contrar. De exemplu, rularea codului

164 Capitolul 8. Teste neparametrice
x = '011010100010001001010101110010101001010101010010111';
[h, p, stats] = runstest(x)
afi¸ seaz ˘a
h = p = stats =
1 0.0014 nruns: 38
n1: 24
n0: 27
z: 3.2899
Acest rezultat se traduce astfel: ipoteza c ˘a ¸ sirul considerat este aleator generat este respins ˘a
la nivelul de semnifica¸ tie a=0:05(subîn¸ teles), Pvaloarea este Pv=0:0014 (asta
însemnând c ˘a doar pentru un nivel de semnifica¸ tie mai mic de Pv¸ sirul poate fi considerat
aleator). Variabila de memorie stats afi¸ seaz ˘a datele folosite în aplicarea testului.
Comanda urm ˘atoare
[h, p, stats] = runstest(x, v, alpha, tail)
afi¸ seaz ˘a
• decizia testului, ori h = 0 ori h = 1 , cu semnifica¸ tia de mai sus;
• veste valoarea de referin¸ t ˘a a ¸ sirului de caractere. Sunt num ˘arate valorile ce sunt mai
mici sau mai mari decât v, cele care sunt exact egale cu vnu sunt contabilizate;
• alpha este nivelul de semnifica¸ tie;
• tail poate fi una dintre urm ˘atoarele ipoteze alternative:
– 'both' , ¸ sirul nu este aleator (test bilateral). Aceasta op¸ tiune poate s ˘a nu fie
specificat ˘a, deoarece se subîn¸ telege implicit.
– 'left' , dac ˘a valorile tind s ˘a se adune în ciorchine (test unilateral stânga);
– 'right' , dac ˘a valorile tind s ˘a se separe (test unilateral dreapta);
De exemplu, s ˘a consider ˘am urm ˘atoarele comenzi:
y = 0:10; [h, p] = runstest(y,median(y),0.02,'left')
y = 0:10; [h, p] = runstest(y,median(y),0.02,'right')
y = 0:10; [h, p] = runstest(y,median(y),0.02,'both')
Rezultatele rul ˘arii lor sunt (în ordine):
h = 1 p = 0.0043
h = 0 p = 1
h = 1 p = 0.0087
8.8.3 Testele Wilcoxon in MATLAB
Functia MATLAB pentru testul Wilcoxon bazat pe rangurile cu semn este signrank .
Modurile de apelare sunt:

8.8 Teste neparametrice în MATLAB 165
[p,h,stats] = signrank(x,m,'alpha',alpha,'method',metoda,'tail',tail)
sau
[p,h,stats] = signrank(x,y,'alpha',alpha,'method',metoda,'tail',tail),
unde xeste vectorul format cu observatii, meste valoarea testata (pentru prima varianta)
si x, y corespund vectorului de date perechi (pentru a doua varianta). Optiunea metoda
poate fi una dintre 'exact' (implicit) si 'approximate' . Metoda exacta calculeaza
regiunea critica pe baza tabelelor speciale, iar metoda aproximativa se va folosi pentru
selectii de volum mare. Optiunea tail poate fi una dintre 'both' (implicit), 'left' sau
'right' .
Spre exemplu, pentru Exercitiul 8.3, apelam functia astfel: unde xeste vectorul format cu
observatii, meste valoarea testata, metoda poate fi una dintre 'exact' si 'approximate' .
Metoda exacta calculeaza regiunea critica pe baza tabelelor speciale, iar metoda aproxi-
mativa se va folosi pentru selectii de volum mare. Spre exemplu, pentru Exercitiul 8.3,
apelam functia astfel:
g = [504.4 490.8 497.5 493.2 502.5 495.0 505.9 498.2 …
501.6 497.3 492.0 504.3 499.2 493.5 505.8];
[p,h,stats] = signrank(g,500,'alpha', 0.05, 'method', 'exact')
% sau, simplu, [p,h,stats] = signrank(g,500)
Obtinem rezultatul:
p = h = stats =
0.3373 0 signedrank: 42.5000
Pe baza acestui rezultat, concluzionam ca ipoteza nula nu poate fi respinsa la nivelul de
semnificatie a=0:05.
Functia MATLAB pentru testul Wilcoxon bazat pe suma rangurilor este ranksum . Se poate
folosi astfel:
[p,h,stats] = ranksum(x,y,'alpha', alpha, 'method', metoda)
Spre exemplu, pentru Exercitiul 8.4, apelam functia astfel:
b = [74 83 91 56 67 50 73 47 75 80];
f = [79 80 55 49 88 95 50 77 83 90 88];
[p,h,stats] = ranksum(b,f, 'method', 'exact')
obtinandu-se:

166 Capitolul 8. Teste neparametrice
p = h = stats =
0.2580 0 ranksum: 93.5000
8.9 Exerci¸ tii rezolvate
Exerci¸ tiu 8.2 Urm ˘atoarele date reprezint ˘a cotele apelor Dun ˘arii (in cm) inregistrate în
Sulina în ultimele 60 de zile:
81 77 72 71 72 74 79 79 80 80 86 88 86 85 80 82 84 86 55 71 78
90 88 57 82 54 58 90 95 89 85 90 92 95 88 82 79 80 80 79 75 71
70 68 72 69 66 69 88 100 110 102 88 75 70 68 66 65 64 64
La nivelul de semnificatie a=0:05, testati ipoteza ca aceste valori sunt generate de un
proces aleator, cu alternativa ca exista un trend in aceste valori.
R: Metoda I: Formulam ipoteza nula:
(H0): datele sunt generate aleator ;
vs. ipoteza alternativa
(H1): datele sunt nu generate aleator :
Folosind functia runstest din M ATLAB ,
[h, p, stats] = runstest(X, median(X), 0.05, 'both')
obtinem:
h = p = stats =
nruns: 14
1 1.0135e-005 n1: 30
n0: 30
z: -4.2969
Se observa ca ipoteza alternativa este admisa, insemnand prezenta unui trend.
In fapt, daca in loc de optiunea 'both' alegem 'left' , se va observa ca ipoteza alternativa
este admisa cu probabilitatea critica Pv=5:0674 e6, indicand tendinta datelor spre grupare
(clustering ).
Metoda a-II-a: Putem ajunge la acelasi rezultat si pe baza statisticii test. Aceasta este
z=rm
s;

8.9 Exerci¸ tii rezolvate 167
unde
r=14; m=2n1n2
n+1=31; s=s
2n1n2(2n1n2n)
n2(n1)=3:84:
Gasim ca z=4:2969 <z1a=z0:95=1:6449 , deci acceptam ipoteza alternativa
ca datele au o tendinta spre grupare in clustere.
Exerci¸ tiu 8.3 Testati la nivelul de semnificatie a=0:04ipoteza c ˘a valoarea median ˘a a
cotelor apelor Dun ˘arii din Exerci¸ tiul 8.2 este de 80 cmsau o alt ˘a valoare.
R: Metoda I: Formulam ipoteza nula:
(H0):Me=80;
vs. ipoteza alternativa
(H1):Me6=80:
Folosind functia signtest din M ATLAB :
x = [81 77 72 71 72 74 79 79 80 80 86 88 86 85 80 82 84 86 55 71 78 …
90 88 57 82 54 58 90 95 89 85 90 92 95 88 82 79 80 80 79 75 71 …
70 68 72 69 66 69 88 100 110 102 88 75 70 68 66 65 64 64];
[p,h,stats] = signtest(x, 80, 'alpha', 0.04)
Rezultatul este:
h = p = stats =
0 0.5901 sign: 25
Metoda a-II-a: Altfel, daca Me=80, atunci numaram cate observatii avem sub mediana
si peste mediana. Valorile egale cu mediana sunt eliminate din analiza. Obtinem:
n=55;S<=30;S>=25;S=S6==maxfS<;S>g=30:
Daca SB(55;0:5), atunci
Pv=2P(S>S) =2[1P(S29)] = 2*(1-binocdf(29,55,0.5)) =0:5901 :
Cum a=0:04<0:5901 =Pv, acceptam ipoteza nula.
Exerci¸ tiu 8.4 Intr-un studiu de piata, sunt comparate doua tipuri de oferte O1siO2pentru
un anumit produs. Pentru a alua o decizie, au fost intrebate 50de persoane care dintre
cele doua oferte le prefera. Astfel 30de persoane au declarat ca prefera O1,16au preferat
oferta O2si restul nu s-au putut decide. La nivelul de semnificatie a=0:05, sa se decida
daca este o diferenta semnificativa intre cele doua oferte.

168 Capitolul 8. Teste neparametrice
R: Formulam ipoteza nula:
(H0): Ofertele O1siO2sunt egal preferate ;
vs. ipoteza alternativa
(H1): Oferta O1este preferat ˘a ofertei O2:
Utilizam testul semnelor pentru date perechi. Consideram diferentele intre cele doua oferte
pentru grupul test. V om avea 30de valori " +" si16valori "". Opiniile celor 4 persoane
indecise sunt ignorate. V om avea:
n=46;S<=16;S>=30:
Daca SB(46;0:5), atunci
Pv=P(S>S>) =P(S>30) =1P(S29) = 1-binocdf(29,46,0.5) =0:0270 :
Cum a=0:05>0:0270 =Pv, respingem ipoteza nula. Asadar, concluzionam ca oferta
O1este preferata (semnificativ) ofertei O2, la nivelul de semnificatie a=0:05.
În M ATLAB , folosim comanda signtest :
x = [ones(1,30),-1*ones(1,16)]
[p,h] = signtest(x); Pv = p/2
if (Pv > 0.05)
disp('Ofertele O1 si O2 sunt egal preferate')
else
disp('oferta O1 este preferata (semnificativ) ofertei O2')
end
Rulând codul M ATLAB , ob¸ tinem:
Pv = 0.027038; oferta O1 este preferata (semnificativ) ofertei O2
8.10 Exerci¸ tii propuse
Exerci¸ tiu 8.5 Testa¸ ti dac ˘a func¸ tiile MATLAB rand ¸ si randn genereaz ˘a numere (pseudo-
)aleatoare.
Exerci¸ tiu 8.6 Testa¸ ti dac ˘a ¸ sirul de numere din progresia geometric ˘a
2 4 8 16 32 64 128 256 512 1024 …
sunt numere aleator generate.

8.10 Exerci¸ tii propuse 169
Exerci¸ tiu 8.7 Un oficial al serviciului de ambulan¸ t ˘a afirm ˘a c˘a timpul mediu de r ˘aspuns la
un apel 112este de 20de minute. Dintre toate apelurile primite în 2008 , se alege o selec¸ tie
întâmpl ˘atoare de 300de apeluri la 112, dintre care, pentru 178dintre acestea timpul de
r˘aspuns a dep ˘a¸ sit 20 de minute, restul fiind sub aceast ˘a valoare.
(a) Am putea verifica declara¸ tia oficialului folosind un test parametric, pe baza acestei
selec¸ tii?
(b) Aceea¸ si cerin¸ t ˘a ca la (a), folosind un test sau teste neparametrice (f ˘ar˘a a folosi func¸ tii
implementate în M ATLAB pentru teste statistice).
(c) Folosi¸ ti teste implementate în M ATLAB ca alternative pentru punctul (b).
Exerci¸ tiu 8.8 O anumit ˘a firm ˘a dore¸ ste s ˘a angajeze personal masculin ¸ si feminin respectând
criteriul egalit ˘a¸ tii în drepturi pentru ambele sexe. ¸ Stiind c ˘a sexele ultimelor persoane
angajate sunt dup ˘a cum urmeaz ˘a
FMMFMFMFMFMMFFFMMMFMFMFMFMFMMMFFMFMFFFMFMFMFMMMFMF
s˘a se determine dac ˘a angaj ˘arile în acest ˘a firm ˘a sunt f ˘acute aleator. Dar preferen¸ tial? Se va
luaa=0:05.
Exerci¸ tiu 8.9 Conducerea unui liceu investigheaza daca situatia scolara a elevilor trans-
ferati in acest liceu s-a imbunatatit in urma tranferului. Tabelul de mai jos contine mediile
generale ale unui grup de 15 elevi in anul dinainte de transfer si in primul an de dupa
transfer. Verificati daca transferul a fost benefic pentru elevi, folosind trei teste: testul t
pentru date perechi, testul semnelor si testul Wilcoxon (signed-rank test) ( a=0:05).
Nr. crt. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
before 8.1 9.2 9.5 8.40 8.85 7.63 7.35 8.83 6.90 9.12 7.86 8.32 8.45 6.87 8.15
after 8.4 7.9 8.8 9.05 9.15 7.87 8.25 8.70 7.14 8.78 7.95 8.55 7.75 7.05 8.15
Exerci¸ tiu 8.10 Tabelul de mai jos con¸ tine calificativele ob¸ tinute de un elev de clasa I la o
selectie de 9 teste din clasa I, care au fost reluate la inceputul clasei a doua a- II-a.
Discipline A B C D E F G H I
clasa I B FB FB B B FB S B FB
clasa a II-a S I B FB FB B B S B
La nivelul de semnificatie a=0:05, testati ipoteza ca rezultatele elevului s-au imbunatatit
in clasa a II-a. Folosi¸ ti, eventual, mai multe teste statistice.
Exerci¸ tiu 8.11 Tabelul de mai jos con¸ tine mediile ob¸ tinute de un elev de clasa a V-a la 10
discipline din cele dou ˘a semestre ¸ scolare.
Discipline A B C D E F G H I J
semestrul I 6 9 7 8 8 9 9 9 7 10
semestrul al II-a 7 9 8 9 8 9 8 10 8 10
Folosind un test potrivit, testa¸ ti ipoteza c ˘a rezultatele elevului s-au îmbun ˘at˘a¸ tit în semestrul
al doilea ( a=0:04). Folosi¸ ti, eventual, mai multe teste statistice.
Exerci¸ tiu 8.12 Se testeaz ˘a eficacitatea unui anumit medicament în reducerea tensiunii
arteriale pe un grup format din 12 pacien¸ ti. Datele de mai jos reprezit ˘a m˘asur˘atorile
observate înainte ¸ si dup ˘a administrarea medicamentului.

170 Capitolul 8. Teste neparametrice
Pacientul P1P2P3P4P5P6P7P8P9P10P11P12
inainte 86 89 87 78 98 95 79 95 87 90 89 93
dupa 87 85 85 79 92 95 78 92 85 86 87 88
Folosind un test potrivit, testa¸ ti ipoteza nul ˘a”medicamentul nu are efect” versus ipoteza
alternativ ˘a”medicamentul este eficient” (a=0:05) în fiecare dintre urm ˘atoarele cazuri:
(a) ambele seturi de date sunt considerate a fi observa¸ tii ale unor caracteristici normale;
(b) datele nu sunt neap ˘arat normale.

9. Teste de ree¸ santionare
. [In God we trust.
. All others must bring data.]
Testele de reesantionare sunt metode statistice de estimare a unor parametri sau pentru
realizarea unor teste statistice, bazate pe generarea de subselectii de date pe computer. In
general, aceste metode pot fi utilizate doar cu ajutorul unui computer. Marele lor avantaj
este ca pot fi utilizate atunci cand testele clasice ( Z, t, Fetc.) nu pot fi aplicate.
Testele clasice sunt uneori prea restritive. Una dintre cerintele importante pentru testele
clasice este normalitatea datelor. Daca aceasta conditie nu este indeplinita, pentru a putea
realiza un test clasic ar fi necesara considerarea unui volum suficient de mare de date. Daca
nici aceasta conditie nu este indeplinita, atunci folosirea metodelor clasice in estimarea
parametrilor sau in verificara ipotezelor statistice este inoportuna. In plus, exista multi
parametri ai populatiei pentru care nu exista statistici potrivite, ce pot fi folosite in estimarea
unor parametri sau pentru validarea ipotezelor statistice. Exemple de astfel de parametri
sunt: cuantilele, cotele, unii coeficienti de corelatie etc. Testele neparametrice sau cele de
reesantionare pot fi metodele alternative care pot scoate un statistician din impas.
Dintre metodele de reesantionare amintim: testele de permutari, bootstrapping, metoda
jackknife sau metodele Monte Carlo. Testele de permutari (sau metode de randomizare )
sunt metode de reesantionare efectuate fara repetitie folosite in a testa anumite ipoteze
statistice. In general, sunt utilizate pentru a testa ipoteze de tipul "lipsa de efect". Metoda
de bootstrap (sau bootstrapping ) este o metoda de reesantionare efectuat ˘a cu repetitie, in
special utilizate pentru a determina intervale de incredere pentru parametrii unei populatii.
Metodele Monte Carlo folosesc esantioane repetate din populatii cu parametri cunoscuti
pentru a determina senzitivitate metodelor statistice. Metoda jackknife (sau jackknifing )
este o metoda similara cu bootstrapping, folosita in estimarea varian¸ tei sau a deplas ˘arii
unui estimator. Este bazata pe eliminarea sistematica a unei date observate din setul de

172 Capitolul 9. Teste de ree¸ santionare
date si obtinerea de estimari pe baza datelor ramase.
Avantaje ale metodelor de ree¸ santionare:
•ipoteze mai putin restrictive . De exemplu, nu este necesara ipoteza de normalitate
sau ca volumul selectiei sa fie mare.
•acuratete mai mare . Testele de permutari si anumite metode bootstrap au acuratete
mai mare decat a testelor clasice.
•grad larg de aplicabilitate . Pot fi utilizate pentru testarea multor ipoteze statistice si
nu necesita utilizarea unor statistici speciale.
•usurinta in utilizare
In continuare, vom discuta doar doua dintre aceste metode, si anume testele de permutari si
metoda bootstrapping. De asemenea, vom prezenta metoda Monte Carlo ¸ si câteva aplica¸ tii
ale sale.
9.1 Teste de permutari
(en., permutation tests sau randomization tests)
Sunt teste de reesantionare bazate pe generarea de date fara repetitie, folosite pentru testarea
unor ipoteze statistice. De exemplu, pot fi folosite pentru a testa egalitatea mediilor, pentru
egalitatea variantelor, pentru egalitatea proportiilor a doua populatii, sau pentru compararea
datelor perechi. De asemenea, pot fi utilizate in compararea corelatilor dintre doua variabile
cantitative. Aceste teste sunt utilizate atunci cand testele clasice corespunzatoare nu pot
fi aplicate (ori datele nu sunt normale, ori avem prea putine date). Etapele unui test de
permutari sunt:
• Se alege o statistica ce masoara efectul studiat;
•Construim repartitia de selectie a acestei statistici pentru cazul in care ipoteza nula
este valida (i.e., nu exista niciun efect observat).
•Localizam valoarea observata a statisticii in aceasta repartitie si calculam valoarea Pv
(probabilitatea de a observa un rezultat cel putin la fel de extrem ca si cel observat,
sau probabilitatea de a respinge ipoteza nula in cazul in care ea este adevarata).
Ipoteza nula pentru acest test este:
(H0):Efectul studiat nu este prezent pentru populatia (populatiile) observata (e) .
Ipoteza alternativa este orice ipoteza care se opune ipotezei nule.
Se pun in comun toate valorile observate si apoi se va face o reesantionare (o rearanjare fara
repetitie) a datelor, care sa fie in concordanta cu ipoteza nula. Pentru fiecare configuratie
a datelor se va calcula statistica de interes S(cea care masoara efectul studiat). In cazul
testarii egalitatii a doua medii, aceasta statistica este diferenta mediilor de selectie. S ˘a
not˘am cu Svaloarea statisticii de interes pentru configura¸ tia observat ˘a.
Pentru un test bilateral, valoarea critica a testului, Pv, este egala cu raportul dintre numarul
de diferente absolute cel putin egale cu jSjsi numarul total de diferente. Pentru un test
unilateral dreapta, valoarea critica a testului, Pv, este egala cu raportul dintre numarul de
diferente cel putin egale cu Ssi numarul total de diferente. Pentru un test unilateral stanga,
valoarea critica a testului, Pv, este egala cu raportul dintre numarul de diferente cel mult
egale cu Ssi numarul total de diferente.
Decizia finala se va lua astfel: daca aPv, atunci respingem ipoteza nula. In caz contrar,
ipoteza nula va fi acceptata.
Pentru exemplificare, consideram urmatorul exercitiu demonstrativ.

9.1 Teste de permutari 173
Exemplu 9.1 Datele urmatoare reprezinta punctajele a 5 elevi (baieti si fete) la un anumit
test de Matematica: f53;75;80;67;78g, unde primele 3 valori sunt punctajele baietilor
si ultimele doua sunt punctajele fetelor. Se doreste ca, pe baza acestor valori, sa se testeze
daca exista diferente semnificative intre valorile medii ale punctajele baietilor si ale fetelor
(la un nivel de semnificatie a=0:05). Desigur, acest exemplu este unul demonstrativ; in
practica pot fi mai multe valori de fiecare parte.
Ipoteza nula este urmatoarea:
(H0):Nu este nicio diferenta intre punctajele medii pentru baieti si fete .
Altfel spus, avem de testat ipoteza:
(H0):mb=mf vs. (H1):mb6=mf;
unde mbsimfsunt mediile procentajelor la baieti (variabila o notam cu b) si, respectiv, la
fete (variabila este notata aici cu f).
Daca ipoteza nula ar fi adevarata, atunci acest set de date sunt observatii aleatoare asupra
unei aceleasi repartitii. In acest caz, oricum am alege 3 valori (din cele 5) care sa corespunda
baietilor si, respectiv, 2 valori pentru fete, mediile mbsimfnu se vor modifica. In consecinta,
ne vom uita la toate combinatiile posibile pentru fiecare grup. Pentru fiecare combinatie in
parte, calculam diferenta valorilor, obtinand astfel un set de C3
5=10 diferente.
In general, daca avem doua seturi de date, unul de volum msi celalalt de volum n, atunci
putem forma Cm
m+ncombinatii, deci vom determina un set de Cm
m+ndiferente.
Statistica de interes, jSj, care va determina diferenta dintre cele doua medii, este valoarea
absolut ˘a a diferen¸ tei mediilor de selec¸ tie. Pentru exemplul nostru, aceasta este jSj=jbfj.
Localizam acum valoarea lui jSjpentru configuratia data, notata aici prin jSj. Valoarea
critica Pveste egala cu raportul dintre numarul de diferente cel putin egale cu jSjsi
numarul total de diferente.
Dupa cum se poate observa din Tabelul 9.1, statistica observata este jSj=3:17. In
ultima coloana din tabel exista 9 valori cel putin egale cu jSj(inclusiv valoarea absoluta
observata), de unde gasim ca
Pv=cardfjSjjSjg
Cm
m+n=9
10=0:9:
La nivelul de semnificatie a=0:05<0:9=Pv, nu avem motive sa respingem ipoteza
nula.
baieti b fete f S=bfjSj=jbfj
53, 75, 80 69.33 67, 78 72.50 -3.17 3.17
53, 75, 67 65 80, 78 79 -14 14
53, 75, 78 68.67 67, 80 73.50 -4.83 4.83
53, 67, 80 66.67 75, 78 76.50 -9.83 9.83
53, 78, 80 70.33 67, 75 71 -0.67 0.67
53, 67, 78 66 75, 80 77.50 -11.50 11.50
80, 75, 67 74 53, 78 65.50 8.50 8.50
80, 75, 78 77.67 53, 67 60 17.67 17.67
80, 67, 78 75 53, 75 64 11 11
75, 67, 78 73.33 53, 80 66.50 6.83 6.83
Tabela 9.1: Tabel cu toate combinatiile posibile.

174 Capitolul 9. Teste de ree¸ santionare
Un test de permutari este un test exact. In cazul in care numarul Cm
m+neste foarte mare,
atunci este practic de a considera doar o selectie aleatoare (cu repetitie) dintre toate valorile.
In cazul in care msin(volumele celor doua seturi de date) sunt suficient de mari, atunci ar
fi oportuna folosirea testului t, care este un test mai puternic (in sensul ca va avea o eroare
de speta a doua, b, mai mica pentru un afixat). Testul de permutari poate fi folosit cu
succes atunci cand ipotezele testului tnu sunt satisfacute, oferind valori bune pentru Pv
chiar daca datele observate sunt asimetrice.
9.2 Bootstrapping
Aceasta metoda foloseste datele de selectie pentru a estima parametrii relevanti ai unei
populatii statistice. Metoda foloseste reesantionarea cu repetitie a datelor observate. Poate
fi folosita cu succes in estimarea erorii unui estimator, sbq, in cazul in care intervalele
de incredere clasice nu sunt aplicabile. De asemenea, exista diversi parametri pentru
care nu exista metode clasice de a-i estima, fie prin estimatori punctuali sau cu intervale
de incredere. Exemplu de astfel de parametri: cuantile, coeficienti de corelatie, deviatii
etc. Aceasta metoda poate da rezultate foarte bune si in cazul unor statistici test neliniare
complicate, care nu pot fi estimate prin alte metode traditionale. In practica, aceasta metoda
poate functiona doar cu ajutorul unui computer, din cauza ca poate aparea un volum foarte
mare de date.
Avem un set de date observate, fx1;x2; :::; xng, pe baza carora dorim sa estimam un
parametru qal populatiei din care provin aceste date. In metoda de bootstrap, aceste date
vor fi privite ca fiind o populatie statistica, din care vom extrage diverse esantioane de
volum n. Pe baza acestor esantioane vom determina intervale de incredere pentru q.
Etapele metodei bootstrapping (prezentate aici pentru cazul în care q=m, media popula¸ tiei
din care provine selec¸ tia ini¸ tial ˘a) sunt:
•Reesalonam cu repetitie valorile observate, obtinand un set de date reesalonate de
volum n:fx
1;x
2; :::; x
ng.
•Repetam pasul anterior de un numar rde ori, unde rnn. V om obtine selectiile de
bootstrap:
fx
b1;x
b2; :::; x
bng;b=1;2; :::; r:
Aici, numarul B=nneste numarul maxim de reesalonari cu repetitie de volum npe
care le putem obtine. In cazul in care Bnu este un numar foarte mare (astfel incat
computerul sa poata face reesalonarile in timp util), atunci putem lua r=B.
•Pentru fiecare b=1;2; :::; r, calculam un estimator pentru parametrul q, notat aici
cubq
b. V om calcula
bq
b=1
nn
å
i=1x
bi;bq
=1
rr
å
b=1bq
b(media selectiei de bootstrap)
si un estimator pentru eroarea standard a selectiei de bootstrap,
sbq=s
1
r1r
å
b=1
bq
bbq2
:

9.2 Bootstrapping 175
• In cazul in care r=B, atunci x
n=xsi estimatorul pentru eroarea standard devine:
sx=vuut1
BB
å
b=1
x
bx2:
• Atunci, un interval de incredere pentru medie la nivelul de confidenta aeste
h
xz1a
2sx;x+z1a
2sxi
:
Consideram urmatorul exemplu demonstrativ.
Exemplu 9.2 Urmatoarele date reprezinta salariile (in mii de RON) pentru 4 perechi sot-
sotie dintr-un anumit oras:
f(2:4;1:9);(1:7;1:8);(3:2;3:6);(4:0;3:4)g:
La nivelul de semnificatie a=0:05, dorim sa determinam un interval de incredere pentru
diferenta salariilor intre sot si sotie. Notam cu HsiWvariabilele salariu pentru sot,
respectiv, sotie.
Pentru datele observate nu avem garantia ca ele ar fi observatii asupra unor repartitii nor-
male si nici nu sunt suficient de multe. Asadar, ipotezele de lucru pentru determinarea unui
interval de incredere pentru medie clasic (folosind statisticile Zsau t) nu sunt satisfacute.
Totusi, pentru a putea face ulterior o comparatie, vom scrie un interval de incredere folosind
statistica Student t(n) . Intervalul obtinut nu va fi unul legitim (care sa poata fi folosit in
estimarea diferentei).
Nr. crt. H W di=hiwi
1. 2.4 1.9 0.5
2. 1.7 1.8 -0.1
3. 3.2 3.6 -0.4
4. 4.0 3.4 0.6
Tabela 9.2: Tabel cu salarii pentru perechi sot-sotie.
Pentru setul de date fdigi=1;4=f0:5;0:1;0:4;0:6g, calculam media si deviatia stan-
dard:
d=0:15 si sd=0:4796 :
Daca ipotezele de normalitate are fi valide, atunci un interval de incredere pentru diferenta
medilor ar fi:

dt1a
2;n1sdp
4;d+t1a
2;n1sdp
4
= [0:6131 ;0:9131]:
Insa acest interval nu poate fi considerat in practica. V om determina un interval de incredere
bazandu-ne pe metoda bootstrapping. Tabelul 9.3 contine r=7selectii de bootstrap pentru
populatiaf0:5;0:1;0:4;0:6g.

176 Capitolul 9. Teste de ree¸ santionare
b d
b1;d
b2;d
b3;d
b4 d
b
1. 0:5;0:5;0:1;0:1 0.2
2. 0:5;0:1;0:1;0:4 -0.025
3. 0:5;0:1;0:1;0:6 0.225
4. 0:5;0:1;0:4;0:6 0.15
5.0:1;0:1;0:1;0:1 -0.1
6.0:4;0:4;0:4;0:6 -0.15
7.0:4;0:4;0:6;0:6 0.1
Tabela 9.3: Tabel cu 7 reesantionari pentru metoda bootstrapping.
In acest caz, B=44=256, d=0:15 si
d=1
77
å
i=1d
b=0:1 (media selectiei de bootstrap)
si
sd=vuut1
67
å
i=1
d
bd2
=0:1199 :
Un interval de incredere la nivelul de semnificatie a=0:05 este
h
dz1a
2sd;d+z1a
2sdi
= [0:1350 ;0:3350]:
Acesta poate fi considerat ca fiind un interval de incredere legitim pentru diferenta salariilor.
In acest caz, acest interval este chiar de lungime mai mica decat intervalul obtinut anterior.
x = [0.5 -0.1 -0.4 0.6]; % data
r = 200; n = 4;
[b1, b2] = bootstrp(r, 'mean', x);
xb = mean(x); xs = mean(b1); % sample mean and bootstrap mean
s = std(x); ss = std(b1); % standard deviations
t = tinv(0.975,3); z = norminv(0.975); % quantiles
[xb – t*s/ sqrt(n), xb + t*s/ sqrt(n)] % C.I. using t-test
[xs – z*ss, xs + z*ss] % C.I. using bootstrap
9.3 Metoda Monte Carlo
Metoda Monte Carlo este o metod ˘a de simulare statistic ˘a, ce produce solu¸ tii aproximative
pentru o mare varietate de probleme matematice prin efectuarea de experimente statistic pe
un computer. Se poate aplica atât problemelor cu deterministe, cât ¸ si celor probabilistice ¸ si
este folositoare în ob¸ tinerea de solu¸ tii numerice pentru probleme care sunt prea dificile în
a fi rezolvate analitic. Este o metod ˘a folosit ˘a de secole, dar a c ˘ap˘atat statutul de metod ˘a
numeric ˘a din anii 1940 . În 1946 , S. Ulam1a devenit primul matematician care a dat
1Stanislaw Marcin Ulam (1909 1984), matematician de origine polonez ˘a, n˘ascut în Lvov, Ucraina

9.3 Metoda Monte Carlo 177
un nume acestui procedeu, iar numele vine de la cazinoul Monte Carlo din principatul
Monaco, unde se practic ˘a foarte mult jocurile de noroc, în special datorit ˘a jocului de rulet ˘a
(ruleta = un generator simplu de numere aleatoare). De asemenea, Nicholas Metropolis2a
adus contribu¸ tii importante metodei.
Are la baz ˘a generarea de numere aleatoare convenabile ¸ si observarea faptului c ˘a o parte
dintre acestea verific ˘a o proprietate sau anumite propriet ˘a¸ ti. În general, orice metod ˘a care
are la baz ˘a generarea de numere aleatoare în vederea determin ˘arii rezultatului unui calcul
este numit ˘a o metod ˘a Monte Carlo. Orice eveniment fizic care poate fi v ˘azut ca un proces
stochastic este un candidat în a fi modelat prin metoda MC.
Integrarea folosind metoda Monte Carlo
Dorim s ˘a folosim metode Monte Carlo pentru evaluarea integralei
I=Zb
af(x)dx: (9.3.1)
În general, pentru a evalua numeric integral ˘a, metoda Monte Carlo nu este prima alegere,
însa este foarte util ˘a în cazul în care integral ˘a este dificil (sau imposibil) de evaluat. Aceast ˘a
metoda devine mai eficient ˘a decât alte metode de aproximare când dimensiunea spa¸ tiului e
mare.
Dac˘a dorim aplicarea metodei MC, atunci avem de ales una din urm ˘atoarele variante:
Varianta 1 (poate fi aplicat ˘a doar pentru f0. Dac ˘af¸ si valori negative, dar este
m˘arginit ˘a inferior, atunci putem utiliza o transla¸ tie, astfel încât s ˘a avem de integrat o
func¸ tie nenegativ ˘a) Încadr ˘am graficul func¸ tiei fîntr-un dreptunghi
D= [a;b][0;d];
unde d>sup
[a;b]f. Evalu ˘am integrala folosindu-ne de calculul probabilit ˘a¸ tii evenimentului A,
c˘a un punct ales la întâmplare în interiorul dreptunghiului Ds˘a se afle sub graficul func¸ tiei
f(x). Facem urm ˘atoarea experien¸ t ˘a aleatoare: alegem în mod uniform (comanda rand ne
ofer˘a aceast ˘a posibilitate în MATLAB ) un punct din interiorul dreptunghiului ¸ si test ˘am dac ˘a
acest punct se afl ˘a sub graficul lui f(x). Repet ˘am experien¸ ta de un num ˘arN(mare) de ori
¸ si contabiliz ˘am num ˘arul de apari¸ tii f(N)ale punctului sub grafic. Pentru un num ˘ar mare
de experien¸ te, probabilitatea ca un punct generat aleator în interiorul dreptunghiului s ˘a se
afle sub graficul func¸ tiei va fi aproximat ˘a de frecven¸ ta relativ ˘a a realiz ˘arii evenimentului,
adic˘a
P'f(N)
N:
Pe de alt ˘a parte, probabilitatea teoretic ˘a este
P=I
aria dreptunghi;
de unde aproximarea
I'aria dreptunghif(N)
N: (9.3.2)
2Nicholas Constantine Metropolis (1915 1999), fizician grec

178 Capitolul 9. Teste de ree¸ santionare
Totu¸ si, aceast ˘a metod ˘a nu e foarte eficient ˘a, deoarece Ntrebuie s ˘a fie foarte mare pentru a
avea o precizie bun ˘a.
Exemplu 9.3 Utilizând metoda Monte Carlo, s ˘a se evalueze integrala
I=5Z
2ex2dx:
R: Gener ˘am106puncte aleatoare în interiorul p ˘atratului [2;5][0;1]¸ si verific ˘am
care dintre acestea se afl ˘a sub graficul func¸ tiei f(x) =ex2;x2[0;1]. Urm ˘atoarea func¸ tie
MATLAB calculeaz ˘a integrala dorit ˘a:
function I = integrala(N) % functia integrala.m
x = 7*rand(N,1)-2; y = rand(N,1); % genereaza N v.a. in [2;5][0;1]
f = find(y < exp(-x.^2)); % numar punctele de sub graficul lui ex2
I = 7* length(f)/N; % formula (9.3.2)
O rulare a func¸ tiei, integrala(1e6) , ne furnizeaz ˘a rezultatul I=1:7675.
Putem, de asemenea, folosi o func¸ tie M ATLAB potrivit ˘a pentru calcularea integralei:
I = quadl(@(x)exp(-x.^2),-2,5) % I = 1.7683
Varianta 2 Putem rescrie integrala în forma
I= (ba)Zb
af(x)h(x)dx; (9.3.3)
unde
h(x) =(1
ba;dac˘ax2[a;b];
0 ;altfel :
Func¸ tia h(x)definit ˘a mai sus este densitatea de reparti¸ tie a unei v.a. XU[a;b], iar rela¸ tia
(9.3.1) se rescrie
I= (ba)E(f(X)): (9.3.4)
Folosind legea slab ˘a a numerelor mari, putem aproxima Iprin:
I'ba
NN
å
k=1f(Xk); (9.3.5)
unde Xksunt numere aleatoare ce urmeaz ˘a reparti¸ tia U[a;b].
Putem generaliza aceast ˘a metod ˘a pentru calculul integralelor de tipul
Z
Vf(x)dx;unde VRn:

9.3 Metoda Monte Carlo 179
Exemplu 9.4 S˘a se evalueze integrala din Exemplul (9.3) folosind formula (9.3.5).
R:Codul M ATLAB este urm ˘atorul:
x = 7*rand(1e6,1)-2; % genereaza 106numere aleatoare U(2;5)
g = exp(-x.^2); % g(x) =ex2
I = 7*mean(g) % 7*media lui g(x)
sau, restrâns, putem apela urm ˘atoarea comand ˘a:
estimate = 7*mean(exp(-((7*rand(10^6,1)-2).^2))) % I  1.7671
Exemplu 9.5 Evaluând integrala
I=1Z
0exdx
printr-o metod ˘a Monte Carlo s ˘a se estimeze valoarea num ˘arului transcendent e. (e=I+1).
R:
estimate = mean(exp(rand(10^6,1))) + 1 % e  2.7183

180 Capitolul 9. Teste de ree¸ santionare
Recapitulare (teste statistice) (o singur ˘a selec¸ tie)
Test pentru media unei popula¸ tii ipoteza nul˘ a este (H0):m=m0
Consider ˘am un set de observa¸ tii aleatoare fx1;x2; :::; xngasupra caracteristicii de interes.
•Dac˘aXare o reparti¸ tie normal ˘a iar devia¸ tia standard seste cunoscut ˘aa priori , vom
utiliza testul Zpentru medie. Testul poate fi f ˘acut pentru orice volum al selec¸ tiei
(n2N).
•Dac˘a volumul nal selec¸ tiei este suficient de mare (e.g., n30), atunci putem aplica
testulZf˘ar˘a a mai fi nevoie s ˘a presupunem c ˘aXare o reparti¸ tie normal ˘a.
•În practic ˘a, exist ˘a pu¸ tine cazuri în care seste cunoscut a priori . În cazul în care n
este mare iar seste necunoscut, înc ˘a mai putem folosi testul Zpentru medie dac ˘a
înlocuim statistica
Z=Xm0
spnN(0;1);n2N; cuZ=Xm0
spnN(0;1);n30:
•Dac˘a selec¸ tia considerat ˘a este de volum mic ( n<30),seste necunoscut ¸ si carac-
teristica Xeste normal repartizat ˘a, atunci folosim testul tpentru medie. Aici se
utilizeaz ˘a statistica
t=Xm0
spnt(n1)pentru n2;
•Dac˘aneste mic ¸ si Xnu urmeaz ˘a reparti¸ tia normal ˘a, atunci vom folosi teste
neparametrice pentru a testa media (mediana) unei popula¸ tii. Spre exemplu, putem
folosi testul semnelor ( sign test ),Wilcoxon signed-rank test saubootstrapping .
Test pentru dispersia unei popula¸ tii ipoteza nul˘ a este (H0):s2=s2
0
Consider ˘am un set de observa¸ tii aleatoare fx1;x2; :::; xngasupra caracteristicii de interes.
•Dac˘aXare o reparti¸ tie normal ˘a, vom utiliza testul c2pentru dispersie , folosind
statistica
c2=8
>>><
>>>:1
s2
0n
å
i=1(xim)2c2(n);(n2N)dac˘a media meste cunoscut ˘aa priori ;
1
s2
0n
å
i=1(xix)2c2(n1);(n2)dac˘a media meste necunoscut ˘aa priori :
•Dac˘a datele nu sunt normale ¸ si volumul este mic, putem folosi teste neparametrice,
e.g., bootstrapping sautestul Barlett .
Test pentru propor¸ tia unei popula¸ tii ipoteza nul˘ a este (H0):p=p0
Consider ˘am un set de observa¸ tii aleatoare fx1;x2; :::; xngasupra caracteristicii de interes.
• Dac ˘a volumul selec¸ tiei este mare n30, atunci folosim testul bazat pe statistica
Z=bpp0q
p0(1p0)
nN(0;1)pentru n30:
• Dac ˘aneste mic, n<30, atunci folosim testul bazat pe reparti¸ tia binomial ˘a.

9.3 Metoda Monte Carlo 181
Recapitulare (teste statistice) (dou ˘a selec¸ tii)
Test pentru egalitatea mediilor ipoteza nul˘ a este (H0):mX=mY
Consider ˘am dou ˘a seturi de date independente, fxigi=1;m¸ sifyjgj=1;n.
•Dac˘aX¸ siYau reparti¸ tie normal ˘a iar devia¸ tiile standard sX¸ sisYsunt cunoscute a
priori , vom utiliza testulZpentru diferen¸ ta mediilor . Testul poate fi efectuat pentru
oricare m;n.
•Dac˘a volumul nal selec¸ tiei este suficient de mare (e.g., m30;n30), atunci
putem aplica testul Zf˘ar˘a a mai fi nevoie s ˘a presupunem c ˘aX¸ siYsunt normal
repartizate.
•În practic ˘a, exist ˘a pu¸ tine cazuri în care devia¸ tiile standard sunt cunoscute a priori .
Dac˘a m˘acar o selec¸ tie este de volum mic ( m;n<30) ¸ si caracteristicile X¸ siY
sunt normal repartizate, atunci folosim testul tpentru diferen¸ ta mediilor . Totu¸ si,
pentru acurate¸ tea testului, va trebui s ˘a efectu ˘am mai întâi un test pentru egalitatea
dispersiilor. În func¸ tie de rezultatul testului din urm ˘a, alegem testul tpotrivit
(respectiv, statistica potrivit ˘a):
t=8
><
>:XYr
s2
X
m+s2
Y
n, dac ˘asX6=sY
XYp
(m1)s2
X+(n1)s2
Yqm+n2
1
m+1
n, dac ˘asX=sY
•Dac˘a volumele sunt mici ¸ si caracteristicile nu urmeaz ˘a reparti¸ tia normal ˘a, atunci
vom folosi teste neparametrice pentru a testa diferen¸ tele între valorile centrale
(mediane) ale caracteristicilor. Spre exemplu, putem folosi unul dintre testele:
testul Kolmogorov-Smirnov ,testul Wald-Wolfowitz ,Wilcoxon rank-sum test ,test de
permut˘ ari saubootstrapping .
Test pentru egalitatea dispersiilor ipoteza nul˘ a este (H0):s2
X=s2
Y
Consider ˘am dou ˘a seturi de date independente, fxigi=1;m¸ sifyjgj=1;n.
•Dac˘aX¸ siYurmeaz ˘a reparti¸ tii normale, vom utiliza testul Fpentru dispersie , folosind
statistica potrivit ˘a:
F=8
>>><
>>>:s2
Y
s2
Xd2
X
d2
Y;dac˘amX¸ simYcunoscute a priori
s2
Y
s2
Xs2
X
s2
Y;dac˘amX¸ simYnecunoscute a priori
•Dac˘a datele nu sunt normale ¸ si volumul este mic, putem folosi teste neparametrice,
e.g.bootstrapping sautestul Barlett .
(d2
X=1
m1m
å
i=1[ximX]2;d2
Y=1
n1n
å
j=1[yjmY]2;s2
X=1
m1m
å
i=1[xiX]2;s2
Y=1
n1n
å
j=1[yjY]2)
Test pentru egalitatea propor¸ tiilor ipoteza nul˘ a este (H0):pX=pY
Consider ˘am dou ˘a seturi de date independente, fxigi=1;m¸ sifyjgj=1;n.

182 Capitolul 9. Teste de ree¸ santionare
•Dac˘am;n30, iarmpX;m(1pX);npY;n(1pY)5;atunci folosim testul
bazat pe statistica
Z=cpXcpYq
p(1p)1
m+1
nN(0;1);unde p=n1bp1+n2bp2
n1+n2
•Dac˘a volumul pentru cel pu¸ tin o selec¸ tiei este mic, atunci putem folosi teste nepara-
metrice, e.g., Wilcoxon signed-rank test ,test de permut˘ ari saubootstrapping .
Figura 9.1: Teste parametrice ¸ si neparametrice.

9.4 Exerci¸ tii rezolvate 183
9.4 Exerci¸ tii rezolvate
Exerci¸ tiu 9.1 (aproximarea lui pfolosind jocul de darts )
În ce const ˘a jocul? S ˘a presupunem c ˘a suntem la nivelul încep ˘ator. Avem de aruncat o
s˘ageat ˘a ascu¸ tit ˘a, ce poate penetra cu u¸ surin¸ t ˘a lemnul, spre o tabl ˘a p˘atrat˘a din lemn, în
interiorul c ˘aruia se afl ˘a desenat un cerc circumscris p ˘atratului. Dac ˘a s˘ageata se înfinge în
interiorul discului atunci a¸ ti c⸠stigat un punct, dac ˘a nu – nu c⸠stiga¸ ti nimic. Repet ˘am jocul
de un num ˘arNde ori ¸ si contabiliz ˘am la sfâr¸ sit num ˘arul de puncte acumulate, s ˘a zicem c ˘a
acest num ˘ar este nN.
S˘a presupunem c ˘a sunte¸ ti un juc ˘ator slab de darts (asta implic ˘a faptul c ˘a orice punct de pe
tabl˘a are aceea¸ si ¸ sans ˘a de a fi ¸ tintit), dar nu a¸ sa de slab încât s ˘a nu nimeri¸ ti tabla. Cu alte
cuvinte, presupunem c ˘a de fiecare dat ˘a când arunca¸ ti s ˘ageata, ea se înfinge în tabl ˘a.
Se cere s ˘a se aproximeze valoarea lui ppe baza jocului de mai sus ¸ si s ˘a se scrie un program
în M ATLAB care s ˘a simuleze experimentul.
R:S˘a not ˘am cu Aevenimentul ca s ˘ageata s ˘a se înfing ˘a chiar în interiorul discului. În cazul
în care num ˘arul de arunc ˘ariNe foarte mare, atunci probabilitatea evenimentului A,P(A),
este bine aproximat ˘a de limit ˘a ¸ sirului frecven¸ telor relative, adic ˘a limn!¥nN
N.
Pe de alt ˘a parte, P(A) =aria disc
aria perete=p
4:A¸ sadar, putem aproxima pprin
p'4nN
N(pentru N1): (9.4.6)
Func¸ tia MATLAB care aproximeaz ˘a pepeste prezentat ˘a mai jos. Metoda care a stat la
baza aproxim ˘arii lui peste o metoda Monte Carlo .
function Pi = darts(N) % numar de aruncari
theta = linspace(0,2*pi,N); % genereaza vectorul theta
x = rand(N,1); y = rand(N,1); % (x,y) – intepaturi
X = 1/2+1/2*cos(theta); Y = 1/2+1/2*sin(theta);% cerc in polar
plot(x,y,'b+',X,Y,'r-'); % deseneaza cercul si punctele
S = sum((x-.5).^2 + (y-.5).^2 <= 1/4); % numarul de succese
Prob = S/N; % frecventa relativa
approxpi = 4*Prob; % aproximarea lui pi
axis([0 1 0 1]); % deseneaza axele
title([int2str(N),' aruncari, \pi \approx ', num2str(approxpi)]);
O simpl ˘a rulare a func¸ tiei, darts(2000) , genereaz ˘a Figura 9.2.

184 Capitolul 9. Teste de ree¸ santionare
Figura 9.2: Simularea jocului de darts .
Exerci¸ tiu 9.2 Într-o clas ˘a sunt 30 de elevi. Calcula¸ ti probabilitatea ca m ˘acar doi dintre ei
s˘a serbeze ziua de na¸ stere în aceaa¸ si zi a anului. Folosi¸ ti o metod ˘a Monte Carlo pentru a
aproxima aceast ˘a probabilitate.
R: [1] Metoda teoretica : Notam cu Aevenimentul ca macar doi elevi din clasa sa
serbeze ziua de nastere in aceeasi zi a anului. Atunci, Aeste evenimentul ca sa nu
exista elevi din clasa care sa serbeze ziua de nastere in aceeasi zi a anului. Avem ca:
P(A) =1P(A). Calculam mai intai probabilitatea evenimentului contrar, A. Spatiul
selectiilor, W, este
W=fE= (e1;e2; :::; e30);ek21;365g;jWj=36530
A=fE2W;ei6=ejg;jAj=A30
365
Obtinem ca:
P(A) =1P(A) =1A30
365
36530=0:7063 :
In M ATLAB , scriem:
p = 1 – factorial(30)*nchoosek(365,30)/(365)^(30)
[2] Metoda Monte Carlo : Generam un numar suficient de mare (N=106)de vectori
formati din 30 de valori (fiecare vector reprezita o variabila uniform discreta U(365), cu
comanda unidrnd(365,30,1e6) ) din multimea zilelor anului, f1;2; :::; 365g. Obtinem
o matrice Mcu 30 de linii si 106coloane. Fiecare coloana reprezinta o posibila clasa de 30
de elevi. Dorim sa observam in cate astfel de clase exista macar doi elevi care serbeaza
ziua de nastere in aceeasi zi a anului. Pentru aceasta, va trebui sa verificam pe cate coloane
avem dubluri de valori. Daca notam cu nNnumarul de dubluri, atunci putem aproxima
probabilitatea cautata prin P(A)=nN
N.

9.4 Exerci¸ tii rezolvate 185
Totusi, este mai usor sa numaram cate coloane nu contin dubluri, ceea ce va conduce la
calcularea probabilitatii evenimentului contrar. Pentru aceasta, procedam astfel: ordonam
crescator valorile pe coloane (comanda sort ), apoi facem diferentele componentelor
consecutive ale elementelor de pe fiecare coloana a matricei M. Daca ar exista macar o
dublura pe o coloana, atunci ar aparea macar un 0in vectorul diferentelor. Comanda all
verifica daca exista macar o componenta zero pe fiecare coloana, atribuind valoarea 1in
caz ca nu exista si 0in cazul in care exista. Insumam aceste valori, obtinand astfel numarul
cazurilor in care nu exista dubluri ale zilelor de nastere, i.e., numarul de clase in care nu
am gasit doi copii ce serbeaza aceeasi zi de nastere. Pe scurt, scriem povestea de mai sus
astfel:
p = 1 – sum(all(diff(sort(unidrnd(365,30,1e6)))))/1e6
obtinand aproximarea p=0:7065.
Exerci¸ tiu 9.3 Utiliza¸ ti metoda Monte Carlo pentru a g ˘asi aproxim ˘ari pentru urm ˘atoarele
integrale:
(a)Z1
0q
x+3pxdx; (b)Z3
24
1+x2dx; (c)Zp
0sin(px)dx:
R: Folosind metoda MC:
x = rand(1e6,1); f = sqrt(x+x.^(1/3)); I_a = mean(f) % I_a = 1.0930
y = 5*rand(1e6,1)-2; f = 4./(1+y.^2); I_b = 5*mean(f) % I_b = 9.4217
z = pi*rand(1e6,1); f = sin(sqrt(z)); I_c = pi*mean(f) % I_c = 2.6693
ori, folosind func¸ tia quadl din M ATLAB :
I_a = quadl(@(x)sqrt(x+x.^(1/3)),0,1) % I_a = 1.0931
I_b = quadl(@(y)4./(1+y.^2),-2,3) % I_b = 9.4248
I_c = quadl(@(z)sin(sqrt(z)),0,pi) % I_c = 2.6695
(d)Z1
0Z1
1p
4x2y2dydx :
Folosind metoda MC:

186 Capitolul 9. Teste de ree¸ santionare
x = rand(1e6,1); y = 2*rand(1e6,1)-1; f = sqrt(4-x.^2-y.^2);
I_c = 2*mean(f) % I_c = 3.6439
ori, folosind func¸ tia dblquad din M ATLAB :
I_c = dblquad(@(x,y)sqrt(4-x.^2-y.^2),0,1,-1,1) % I_c = 3.6439
Exerci¸ tiu 9.4 Folosind o metod ˘a Monte Carlo, aproxima¸ ti integrala tripl ˘a (valoarea exact ˘a
este8p
9)
ZZZ
Vz2p
x2+y2+z2dxdydz ;undeV=f(x;y;z)2R3; 0zp
4x2y2;0xyg
Solu¸ tie: Se observ ˘a c˘a0x;y;z2. Gener ˘am aleator Nvalori (x;y;z)în[0;2]
[0;2][0;2]. Verific ˘am apoi dac ˘a valorile generate se afl ˘a în domeniul V. Aproxim ˘am
integrala prinZZZ
Vf(x;y;z)dxdydzvol(V)mean(f(x;y;z)jV):
N = 5e6; x = 2*rand(N,1); y = 2*rand(N,1); z = 2*rand(N,1);
V = (x.^2+y.^2<=4 & x<=y & z<=sqrt(4-x.^2-y.^2)); % domeniul V
I = 2^3*mean(z.^2.*sqrt(x.^2+y.^2+z.^2).*V) % I = 2.7963
8*pi/9 % verificare
ans = 2.7925
Exerci¸ tiu 9.5 Un b ˘a¸ t de lungime 30cmeste rupt la întâmplare în trei p ˘ar¸ ti, prin alegerea la
întâmplare (în mod uniform) a dou ˘a puncte de ruptur ˘a. Folosind o metod ˘a Monte Carlo,
aproxima¸ ti probabilitatea ca, folosind cele trei buc ˘a¸ ti ob¸ tinute, s ˘a putem forma un triunghi.
(probabilitatea exact ˘a este P=0:25).
R: Punctele de ruptur ˘a alese aleator sunt x1¸ six2. Laturile unui posibil triunghi sunt
a;b;c. Condi¸ tia de a forma un triunghi cu ele este ca suma oric ˘aror dou ˘a s˘a fie mai mare
decât cealalt ˘a.
N=5e6; x=sort(30*rand(2,N)); % alegem aleator x1 si x2 si le ordonam
a = x(1,:); b = x(2,:)-x(1,:); c = 30-(a+b); % laturile triunghiului
f = (a+b > c & a+c > b & b+c > a); % conditia de triunghi
fN = sum(f); P = fN/N % probabilitatea

9.5 Exerci¸ tii propuse 187
Figura 9.3: B˘ a¸ tul de lungime 30cm este rupt în trei p˘ ar¸ ti
9.5 Exerci¸ tii propuse
Exerci¸ tiu 9.6 (paradoxul de la St. Petersburg)
S˘a presupunem c ˘a într-un cazino se desf ˘a¸ soar ˘a urm ˘atorul joc cu un singur juc ˘ator, pe
care-l numim J. O moned ˘a ideal ˘a este aruncat ˘a iar, dac ˘a apare fa¸ ta cu stema ( S), atunci J
prime¸ ste £2din partea casei, iar jocul continu ˘a. Dac ˘a la a doua aruncare apare tot stema,
atunci Jprime¸ ste £4¸ si jocul continu ˘a mai departe, pan ˘a când la o aruncare apare cealalt ˘a
fa¸ t˘a, caz în care jocul se opre¸ ste. La fiecare nou ˘a apari¸ tie a fe¸ tei S, suma pe care Jo avea
se dubleaz ˘a. Dac ˘a not ˘am cu Xvariabila aleatoare ce reprezint ˘a suma c⸠stigat ˘a deJ, atunci
tabloul s ˘au de distribu¸ tie este:
X=2 2223::: 2n:::
1
21
221
23:::1
2n:::
S˘a se simuleze în M ATLAB acest joc, precizând la final suma c⸠stigat ˘a de J.
(a) Care este suma medie c⸠stigat ˘a de Jla acest joc, dac ˘a exist ˘a?
(b) Aceea¸ si cerin¸ t ˘a ca la (a), în cazul în care suma c⸠stigat ˘a la un joc estep
X.
Exerci¸ tiu 9.7 Folosind generarea de numere aleatoare în MATLAB , calcula¸ ti aria regiunii
din plan pentru care 1x1 ¸ si 0yx3.
Exerci¸ tiu 9.8 Folosind o metod ˘a Monte Carlo, aproxima¸ ti probabilitatea ca suma punctelor
ob¸ tinute la aruncarea de patru ori a unui zar ideal s ˘a fie 13. (probabilitatea exact ˘a este
P=35
324).
Exerci¸ tiu 9.9 La un anumit concurs, fiecare dintre cei trei arbitri acord ˘a puncte în mod
independent, între 0 ¸ si 10. Folosind o metod ˘a Monte Carlo, aproxima¸ ti probabilitatea ca
suma punctelor ob¸ tinute s ˘a fie cel pu¸ tin 21.
Exerci¸ tiu 9.10 Timpul mediu de functionare al unui bec este o variabila aleatoare
N(2000 h;50h). Alegem la intamplare un bec de acest tip. Care este probabilitatea
ca el sa functioneze mai mult de 2500h? Folositi o metoda Monte Carlo de aproximare a
probabilitatii.
Exerci¸ tiu 9.11 Utiliza¸ ti metoda Monte Carlo pentru a g ˘asi aproxim ˘ari pentru urm ˘atoarele
integrale:
(a)Z5
2ln(ln(x))dx; (b)Z3
52maxfx;1xgdx; (c)Z2p
0sin(x2)dx:
Exerci¸ tiu 9.12 Folosind o metod ˘a Monte Carlo,
(a) afla¸ ti volumul tetraedrului m ˘arginit de planele x=0;y=0;z=0 ¸ six+y+z=4.
(b) aproxima¸ ti integrala tripl ˘a (valoarea exact ˘a este32
3).
Zp
0Zp
0Zp
0cos(x+y+z)dxdydz :
Exerci¸ tiu 9.13 Tabelul de mai jos con¸ tine mediile generale ob¸ tinute de 7 elevi de liceu
care au fost transfera¸ ti de la un liceu la altul, in anul inainte de transfer si in anul de dupa
transfer.

188 Capitolul 9. Teste de ree¸ santionare
Elevi A B C D E F G
inainte 6.73 9.65 7.58 8.84 8.73 7.45 9.80
dupa 7.12 9.22 8.33 9.05 8.42 8.56 9.25
Considera¸ ti variabila ce reprezint ˘a diferen¸ ta mediilor.
(a) Determina¸ ti media de selec¸ tie ¸ si devia¸ tia standard.
(b) Folosind bootstrapping, determina¸ ti un interval de încredere pentru diferen¸ ta mediilor.
(c) Folosind intervalul determinat la (b), testa¸ ti ipoteza c ˘a nu este nicio diferen¸ t ˘a între
medii.
Exerci¸ tiu 9.14
Un anumit medicament pentru tratarea hipertensiunii ar-
teriale este testat pe trei voluntari. Rezultatele inainte si
dupa administrarea medicamentului sunt cele din tabelul
al˘aturat.pacientul P1P2P3
inainte 137 158 162
dupa 112 145 140
Folosind un test de permut ˘ari, testa¸ ti ipoteza c ˘a administrarea medicamentului este benefic ˘a.
Care ar fi rezultatul dac ˘a am presupune normalitatea datelor? Ce alt test mai putem folosi
pentru a testa ipoteza.

10. Corela¸ tie ¸ si regresie
[Science report: the divorce rate in Maine, US is highly correlated to the consumption of margarine.
.Statistician: Well, margarine will not end my marriage, as correlation does not imply causation.]
10.1 Introducere
În acest capitol vom discuta m ˘asuri ¸ si tehnici de determinare a leg ˘aturii între dou ˘a sau
mai multe variabile aleatoare. Pentru lecturi suplimentare, se pot consulta materialele
[weisberg ], [schaum1 ], [schaum2 ].
Primele metode utilizate în studiul rela¸ tiilor dintre dou ˘a sau mai multe variabile au ap ˘arut
de la începutul secolului al XIX-lea, în lucr ˘arile lui Legendre1¸ si Gauss2, în ce prive¸ ste
metoda celor mai mici p ˘atrate pentru aproximarea orbitelor astrelor în jurul Soarelui. Un alt
mare om de ¸ stiin¸ t ˘a al timpului, Francis Galton3, a studiat gradul de asem ˘anare între copii ¸ si
p˘arin¸ ti, atât la oameni, cât ¸ si la plante, observând c ˘a în˘al¸ timea medie a descenden¸ tilor este
legat ˘a liniar de în ˘al¸ timea ascenden¸ tilor. Este primul care a utilizat conceptele de corela¸ tie
¸ siregresie ((lat.) regressio – întoarcere). Astfel, a descoperit c ˘a din p ˘arin¸ ti a c ˘aror
în˘al¸ time este mai mic ˘a decât media colectivit ˘a¸ tii provin (în general) copii cu o în ˘al¸ time
superioar ˘a lor ¸ si, vice-versa, din p ˘arin¸ ti cu în ˘al¸ timi peste media colectivit ˘a¸ tii provin (în
general) copii cu o în ˘al¸ time inferioar ˘a lor. Astfel, a concluzionat c ˘a în˘al¸ timea copiilor ce
provin din p ˘arin¸ ti înal¸ ti tinde s ˘a "regreseze" spre în ˘al¸ timea medie a popula¸ tiei. Din lucr ˘arile
lui Galton s-a inspirat un student de-al s ˘au, Karl Pearson, care a continuat ideile lui Galton
¸ si a introdus coeficientul (empiric) de corela¸ tie ce îi poart ˘a numele. Acest coeficient a fost
prima m ˘asur˘a important ˘a introdus ˘a care cuantific ˘a t˘aria leg ˘aturii dintre dou ˘a variabile ale
unei popula¸ tii statistice.
1Adrien-Marie Legendre (1752 1833), matematician francez
2Johann Carl Friedrich Gauss (1777 1855), matematician ¸ si fizician german
3Sir Francis Galton (1822 1911), om de ¸ stiin¸ t ˘a britanic

190 Capitolul 10. Corela¸ tie ¸ si regresie
Un ingredient fundamental în studiul acestor dou ˘a concepte este diagrama prin puncte,
numit ˘adiagrama scatter plot . În probleme de regresie în care apare o singur ˘a variabila
r˘aspuns (variabila care este prezis ˘a) ¸ si o singur ˘a variabil ˘a predictor (variabila pe baza
c˘areia facem predic¸ tia), diagrama scatter plot (r ˘aspuns vs. predictor) este punctul de
plecare pentru studiul regresiei. O diagram ˘ascatter plot ar trebui reprezentat ˘a pentru orice
problem ˘a de analiz ˘a regresional ˘a, deoarece aceasta ne va da o prim ˘a idee despre ce tip de
regresie vom folosi. Un exemplu de astfel de diagram ˘a este reprezentat în Figura 10.1,
în care am reprezentat coeficientul de inteligen¸ t ˘a (IQ) a 200de perechi so¸ t-so¸ tie. Fiecare
cruciuli¸ t ˘a din diagram ˘a reprezint ˘a IQ-ul pentru o pereche so¸ t-so¸ tie.
Figura 10.1: Scatter plot pentru IQ în familie.
10.2 Corela¸ tie ¸ si coeficient de corela¸ tie
Corela¸ tia este un termen statistic folosit pentru a defini interdependen¸ ta sau leg ˘atura între
dou˘a sau mai multe variabile aleatoare. Totodat ˘a, corela¸ tia este ¸ si o metod ˘a statistic ˘a de
descriere ¸ si analiz ˘a a leg ˘aturilor de tip statistic între dou ˘a sau mai multe variabile.
Dac˘aX;Ysunt dou ˘a variabile aleatoare ce admit medie, atunci corela¸ tia saucovarian¸ ta
(teoretic ˘a) dintre X¸ siYse define¸ ste prin:
cov(X;Y) =E[(XE(X))(YE(Y))] =E(XY)E(X)E(Y):
Observa¸ tia 10.1 (i) Din punct de vedere teoretic, dac ˘aX¸ siYsunt variabile aleatoare
independente, atunci cov (X;Y) =0.
Reciproca nu este, în general, adev ˘arat˘a. De exemplu, dac ˘aXU(1;1)¸ siY=X2,
atunci
cov(X;Y) =E(XY)E(X)E(Y) =E(X3)E(X)E(X2)
=Z1
1x3dxZ1
1xdxZ1
1x2dx
=0;
îns˘aX¸ siY=X2sunt dependente.
(ii) În cazul în care X¸ siYsunt, în plus, variabile aleatoare normal repartizate, atunci

10.2 Corela¸ tie ¸ si coeficient de corela¸ tie 191
independen¸ ta variabilelor aleatoare X¸ siYeste echivalent ˘a cu necorelarea lor (i.e.,
cov(X;Y) =0).
Orela¸ tie liniar˘ a între dou ˘a variabile este acea rela¸ tie ce poate fi reprezentat ˘a cel mai bine
printr-o linie. Corela¸ tia detecteaz ˘a doar dependen¸ te liniare între dou ˘a variabile aleatoare.
Putem avea o corela¸ tie pozitiv˘ a , însemnând c ˘aX¸ siYcresc sau descresc împreun ˘a, sau o
corela¸ tie negativ˘ a , însemnând c ˘aX¸ siYse modific ˘a în direc¸ tii opuse.
O m˘asur˘a a corela¸ tiei dintre dou ˘a variabile este coeficientul de corela¸ tie. Acesta este foarte
utilizat în ¸ stiin¸ te ca fiind o m ˘asur˘a a dependen¸ tei liniare între dou ˘a variabile. Din punct de
vedere teoretic, definim coeficientul de corela¸ tie a dou ˘a variabile aleatoare X¸ siYprin:
r X,Y=cov(X;Y)
sXsY=cov(X;Y);
unde X¸ siYsunt variabilele aleatoare standardizate iar sX=
E(XX)21=2¸ sisY=
E(YY)21=2sunt devia¸ tiile standard corespunz ˘atoare variabilelor X, respectiv Y.
Propozi¸ tie 10.2.1 Propriet ˘a¸ ti ale coeficientului de corela¸ tie:
(a) Coeficientul de corela¸ tie este simetric, i.e., r X,Y=r Y,X.
(b) Dac ˘aX¸ siYsunt independente, atunci
r X,Y=0:
(c)1r X,Y1;pentru orice v.a. X¸ siY.
(d)Dac˘aY=aX+b(a;b2R;a6=0), atunci
r X,Y=(
+1;dac˘aa>0;
1;dac˘aa<0:
(e) Dac ˘aa;b;c;d2R;a;c>0, atunci r aX+b,cY+d =r X,Y.
Magnitudinea (valoarea absolut ˘a) coeficientului de corela¸ tie r X,Ydetermin ˘a t˘aria rela¸ tiei
liniare dintre variabilele aleatoare X¸ siY. Dac ˘ar X,Y=1, atunci X¸ siYsunt perfect pozitiv
corelate, iar dac ˘ar X,Y=1, variabilele X¸ siYvor fi perfect negativ corelate. Dac ˘a
reprezent ˘am grafic perechile ordonate (x;y), ele se vor afla pe o dreapt ˘a de pant ˘a pozitiv ˘a,
dac˘ar X,Y=1, ¸ si negativ ˘a pentru r X,Y=1.
Corelarea nu implic ˘a ocauzalitate . Cu alte cuvinte, doar faptul c ˘a variabilele X¸ siYsunt
corelate nu implic ˘a faptul c ˘aXar cauza pe Ysau invers.
În practic ˘a, pentru a stabili dac ˘a exist ˘a sau nu vreo leg ˘atura între dou ˘a variabile aleatoare,
se fac observa¸ tii asupra acestora, urmând apoi a cuantifica rela¸ tia dintre observa¸ tii.
Fie(xk;yk),k2f1;2; :::; ngun set de date bidimensionale, ce reprezint ˘a observa¸ tii asupra
vectorului aleator (X;Y). O m ˘asur˘a a leg ˘aturii dintrefxkgk¸ sifykgkestecoeficientul de
corela¸ tie empiric introdus de K. Pearson (în literatura de specialitate mai este cunoscut ¸ si
sub denumirea de coeficientul r ):
r=n
å
k=1(xkx)(yky)
s
n
å
k=1(xkx)2s
n
å
k=1(yky)2(10.2.1)
=cov e(x;y)
sxsy; (10.2.2)

192 Capitolul 10. Corela¸ tie ¸ si regresie
unde
cov e(x;y) =1
n1n
å
k=1(xkx)(yky);sx=s
1
n1n
å
k=1(xkx)2;sy=s
1
n1n
å
k=1(yky)2
sunt covarian¸ ta (corela¸ tia) empiric˘ a ¸ si devia¸ tiile standard empirice pentru X¸ siY.
Spre exemplu, pentru selec¸ tiile
x = [0.49 -0.45 0.39 0.05 -0.49 0.24 0.72 0.15 0.13 -1.01];
y = [1.31 1.20 -2.58 -2.09 0.39 -0.86 -1.23 2.64 -0.90 -1.22];
coeficientul ral lui Pearson este
r=0:0905 :
Asemeni coeficientului de corela¸ tie teoretic, r X,Y, coeficientul ral lui Pearson ia valori doar în
intervalul [1;1]. Cazurile limit ˘a pentru rsunt r=1saur=1, cazuri în care putem trage
concluzia c ˘a variabilele X¸ siYsunt pozitiv , respectiv, negativ )perfect corelate (vezi Figura 10.2).
Pentru valori ale lui rîntre1¸ si1, nu putem vorbi de gradul de corelare între X¸ siYf˘ar˘a a efectua
un test statistic asupra valorii coeficientulul teoretic de corela¸ tie, r. De multe ori îns ˘a, putem afirma
ca avem o corela¸ tie pozitiv ˘a dac ˘areste apropiat de valoarea 1(e.g., r=0:85, caz în care norul de
date are panta ascendent ˘a) ¸ si avem o corela¸ tie negativ ˘a dac ˘areste apropiat de valoarea 1(e.g.,
r=0:98, caz în care norul de date are panta descendent ˘a).
Rezultatul r=0:0905 de mai sus ar putea sugera faptul c ˘a cele dou ˘a selec¸ tii sunt observa¸ tii
ob¸ tinute din dou ˘a variabile aleatoare necorelate (i.e., r=0), fapt ce va trebui confirmat folosind un
test statistic în care test ˘am ipoteza nul ˘ar=0, cu ipoteza alternativ ˘ar6=0.
Figura 10.2: Scatter plots ¸ si coeficien¸ ti de corela¸ tie.
10.2.1 Test statistic pentru coeficientul de corela¸ tie
Presupunem c ˘a avem un set de date bidimensionale (xk;yk),k2f1;2; :::; ngasupra variabilelor
aleatoare normale X;Y, ¸ si am calculat r, ob¸ tinând o valoare r0apropiat ˘a de 0. Plecând doar de
la acest ˘a informa¸ tie, nu putem extrapola ¸ si decide gradul de corelare între X¸ siY. Pentru aceasta,
vom construi un test statistic, care va decide dac ˘a valoarea real ˘a a lui r(coeficientul teoretic de
corela¸ tie) este 0 sau semnificativ diferit ˘a de 0.

10.2 Corela¸ tie ¸ si coeficient de corela¸ tie 193
Consider ˘am ipoteza nul ˘a
(H0)r X,Y=0 (variabilele aleatoare nu sunt corelate)
vs. ipoteza alternativ ˘a
(H1)r X,Y6=0 (variabilele aleatoare sunt corelate)
Alegem un nivel de semnifica¸ tie a<<1 (e.g., a=0:05) ¸ si consider ˘am statistica
T=rr
n2
1r2 t(n2):
Calculez valoarea statisticii Tpentru r=r0(o not ˘am cu T0) ¸ si, de asemenea, calcul ˘am cuantila
t1a
2;n2, de ordin 1a
2a reparti¸ tiei tcu(n2)grade de libertate.
Decizia final ˘a este urm ˘atoarea:
jT0j<t1a
2;n2;atunci ipoteza (H0)este acceptat ˘a;
jT0jt1a
2;n2;atunci ipoteza (H0)este respins ˘a:
Observa¸ tia 10.2 (i) Coeficientul lui Pearson, r, este un num ˘ar adimensional ce stabile¸ ste doar
dac˘a exist ˘a o leg ˘atura liniar ˘a între dou ˘a seturi de date statistice. Totodat ˘a, în definirea acestui
coeficient se presupune c ˘a datele statistice urmeaz ˘a o reparti¸ tie normal ˘a. De multe ori, în practic ˘a,
doar coeficientul rsigur nu poate fi edificator asupra t ˘ariei leg ˘aturii între dou ˘a seturi de date
statistice, ba chiar poate genera informa¸ tii false în cazul în care cele dou ˘a seturi date nu depind
liniar unul de cel ˘alalt. De aceea, ¸ si al¸ ti coeficien¸ ti pentru determinarea corela¸ tiei sunt lua¸ ti în
considera¸ tie, cum ar fi:
•r2,coeficientul de determinare (notat în Statistic ˘a prin R2), care stabile¸ ste care este procentul
din varia¸ tia uneia dintre datele statistice ce determina (sau explic ˘a) pe celelalte date. De
exemplu, un coeficient de determinare R2=0:42semnific ˘a faptul c ˘a variabila independent ˘a
explic ˘a doar 42% din varia¸ tia variabilei dependente. În Statistic ˘a, acest coeficient este definit
în mai multe moduri, unele nu tocmai într-un mod echivalent;
•coeficientul lui Spearman4,coeficientul lui Kendall5etc. (acestea nu presupun c ˘a datele
statistice sunt normale)
(ii) Se poate testa, de asemenea, ipoteza nul ˘a
(H0):r X,Y=r0;cur06=0;
îns˘a aceasta nu este foarte des întâlnit ˘a în practic ˘a.
În acest sens, se poate utiliza statistica
Z=1
2ln1+r
1r
N1
2ln1+r0
1r0
;1pn3
:
(iii) Corela¸ tia a dou ˘a variabile aleatoare nu implic ˘a o cauzalitate. Cu alte cuvinte, exist ˘a o corela¸ tie
între vârst ˘a ¸ si în ˘al¸ time la copii, îns ˘a niciuna dintre aceastea nu o cauzeaz ˘a pe cealalt ˘a. Corela¸ tia
poate fi luat ˘a în eviden¸ t ˘a pentru o posibil ˘a rela¸ tie cauzal ˘a, îns ˘a nu este determinant ˘a ¸ si nu poate
preciza rela¸ tia cauzal ˘a, dac ˘a aceast ˘a exist ˘a.
(iv) V olumul selec¸ tiei este un factor foarte important în testarea ipotezei c ˘a dou ˘a variabile aleatoare
sunt necorelate. Spre exemplu, o rela¸ tie poate fi puternic ˘a (având un rnu foarte aproape de 0), îns ˘a
nu semnificativ ˘a, dac ˘a valoarea lui nnu este suficient de mare. Invers, o rela¸ tie poate fi slab ˘a (un r
aproape de 0), dar semnificativ ˘a. Exemplul (10.1) poate fi edificator.
4Charles Edward Spearman (1863 1945), psiholog britanic
5Sir Maurice George Kendall (1907 1983), statistician britanic

194 Capitolul 10. Corela¸ tie ¸ si regresie
Exemplu 10.1 S˘a presupunem c ˘a dorim s ˘a stabilim dac ˘a exist ˘a vreo leg ˘atura între vârst ˘a unei
persoane ¸ si coeficientul s ˘au de inteligen¸ t ˘a. Pe baza a dou ˘a seturi de datele asupra acestor caracteris-
tici, de volum n=10, g ˘asim un coeficient de corela¸ tie empiric r=0:62. Se cere:
(a) Este aceast ˘a leg ˘atur˘a puternic ˘a?
(b) Este aceast ˘a leg ˘atur˘a semnificativ ˘a?
R:(a) Calcul ˘am coeficientul de determinare, R2, ¸ si g ˘asim R2=0:3844 . Asta semnific ˘a faptul c ˘a
doar 38 :44% din varia¸ tia coeficientului de inteligen¸ t ˘a este explicat ˘a de vârst ˘a.
(b) Aplic ˘am testul pentru coeficientul de corela¸ tie la un nivel de semnifica¸ tie a=0:05. Ipoteza
nul˘a este
(H0)Nu exist ˘a o corela¸ tie semnificativ ˘a între vârst ˘a ¸ si IQ.
Statistica considerat ˘a va avea 8grade de libertate, T0=0:62q
8
10:3844=2:2351 <2:3060 =
t0:975;8, de unde concluzion ˘am c ˘a ipoteza nul ˘ar=0este admis ˘a (i.e., nu sunt dovezi suficiente
pentru ca ipoteza s ˘a poate fi respins ˘a la acest nivel de semnifica¸ tie).
(v) Se poate testa ¸ si ipoteza c ˘a doi coeficien¸ ti de corela¸ tie ce corespund fiecare la câte dou ˘a selec¸ tii
difer ˘a semnificativ unul de cel ˘alalt. Presupunem c ˘a avem de testat ipoteza
(H0):r1=r2;
vs. ipoteza alternativ ˘a
(H1):r16=r2:
Presupunem c ˘a volumele selec¸ tiilor folosite în testare sunt n1¸ sin2¸ si c˘ar1;r2sunt coeficien¸ tii de
corela¸ tie empirici calcula¸ ti. Pentru a testa ipoteza de mai sus, se folose¸ ste faptul c ˘a variabilele
Zi=1
2ln1+ri
1ri
;i=1;2:
au o distribu¸ tie asimptotic ˘a normal ˘aN
1
2ln
1+ri
1ri
;1pn3
. Atunci, distribu¸ tia asimptotic ˘a a
statisticii Z=Z1Z2este
ZN
mZ1mZ2;r
1
n13+1
n23!
;
cumZi=1
2ln
1+ri
1ri
;i=1;2. Statistica test va fi
Z=Z1Z2(mZ1mZ2)q
1
n13+1
n23N(0;1);
Dac˘ajzjz1a
2, accept ˘am ipoteza (H0), altfel o respingem.
10.3 Coeficientul de corela¸ tie Spearman
În cazul datelor calitative, unde nu se pot asocia valori numerice pentru caracteristica de interes,
coeficientul de corela¸ tie Pearson nu mai poate fi calculat. De asemenea, dac ˘a datele nu satisfac
ipoteza de normalitate, folosirea coeficientului Pearson in testarea corela¸ tiei dintre valori poate fi
pus˘a sub semnul întreb ˘arii. O alternativ ˘a neparametric ˘a a coeficientului Pearson este coeficientul de
corela¸ tie Spearman , sau coeficientul de corela¸ tie a rangurilor . Acest coeficient poate fi calculat atât
pentru date calitative, cât ¸ si pentru date cantitative. Pentru a calcula acest coeficient, fiec ˘arui atribut
sau fiec ˘arei valori a caracteristicii i se desemneaz ˘a un rang. Coeficientul de corela¸ tie Spearman

10.4 Probleme rezolvate 195
este coeficientul de corela¸ tie Pearson pentru aceste ranguri. Coeficientul lui Spearman este utilizat
în depistarea (dac ˘a este cazul) a unei rela¸ tii monotone între dou ˘a variabile (fie ea liniar ˘a sau nu).
Acest coeficient este mai pu¸ tin senzitiv la valorile extreme (outliers) ale seturilor de date, în sensul
c˘a valori foarte mari sau foarte mici comparativ cu altele nu influen¸ teaz ˘a valoarea coeficientului
Spearman.
În general, dac ˘a(xi;yi)i=1;neste un set de date bidimensionale, ale c ˘aror ranguri corespunz ˘atoare
sunt(x
i;y
i)i=1;n, atunci coeficientul de corela¸ tie Spearman (notat aici cu rS) este
rS=n
å
k=1(x
kx)(y
ky)
s
n
å
k=1(x
kx)2s
n
å
k=1(y
ky)2: (10.3.3)
La fel ca ¸ si coeficientul lui Pearson, coeficientul Spearman ia valori reale în intervalul [1;1];
valoarea 1însemnând corela¸ tie pozitiv ˘a perfect ˘a a rangurilor, iar valoarea 1însemnând corela¸ tie
negativ ˘a perfect ˘a a rangurilor.
În cazul în care avem nperechi de observa¸ tii ¸ si nu exist ˘a valori egale pentru rangurile aceleia¸ si
variabile, atunci formula alternativ ˘a pentru calcului lui rSeste:
rS=16n
å
i=1d2
i
n(n21); (10.3.4)
unde di=x
iy
i, i.e., diferen¸ ta dintre rangurile corespunz ˘atoare pentru pozi¸ tia i. Vezi exemplele
(10.1) ¸ si (10.2).
Se poate, de asemenea, testa semnificatia valorii obtinute, rS. Testul este acelasi ca in cazul
semnificatiei coeficientului Pearson, cu deosebirea ca reste inlocuit cu rS.
10.4 Probleme rezolvate
Exerci¸ tiu 10.1 Doi degust ˘atori de vinuri (denumi¸ ti D1¸ si D2) au fost ruga¸ ti s ˘a testeze 9soiuri de
vin ¸ si s ˘a le claseze în ordinea preferin¸ telor. S ˘a not ˘am mostrele testate cu A,B,C,D,E,F¸ siG.
Preferin¸ tele acestora sunt cele din Tabelul 10.1, în ordinea descresc ˘atoare a preferin¸ telor. Tabelul
10.2 con¸ tine rangurile preferin¸ telor celor doi degust ˘atori, iar Figura 10.3 reprezint ˘a grafic rangurile
(diagrama scatter plot ).
Mostra A B C D E F G H I
D1 E B A G C H F D I
D2 B E C G A H D I F
Tabela 10.1: Preferin¸ tele degust˘ atorilor de vin.Mostra rang D1 rang D2
A 3 5
B 2 1
C 5 3
D 8 7
E 1 2
F 7 9
G 4 4
H 6 6
I 9 8
Tabela 10.2: Tabel cu rangurile preferin¸ telor.
Din diagrama scatter plot se observ ˘a o corela¸ tie pozitiv ˘a între ranguri, ceea ce implic ˘a o oarecare
concordan¸ t ˘a între preferin¸ tele celor doi degust ˘atori. Coeficientul de corela¸ tie Spearman va atribui o

196 Capitolul 10. Corela¸ tie ¸ si regresie
valoare numeric ˘a acestei concordan¸ te, aceasta fiind rS=0:8667.
Tem ˘a!Utiliza¸ ti testul semnelor pentru a testa ipoteza c ˘a preferin¸ tele celor doi degust ˘atori nu sunt
semnificativ diferite ( a=0:05).
Figura 10.3: Scatter plot pentru ranguri.
Exist ˘a cazuri (în special pentru date cantitative) când valorile caracteristicii se repet ˘a, a¸ sa încât
pentru valori egale desemn ˘am acela¸ si rang. În aceste cazuri nu mai putem utiliza formula (10.3.4)
pentru calculul coeficientului Spearman, ci va trebui s ˘a utiliz ˘am formula (10.3.3) (vezi exemplul
urm˘ator).
Exerci¸ tiu 10.2 Datele din Tabelul 10.3 reprezint ˘a num ˘arul de accidente rutiere ( A) ¸ si num ˘arul de
decese ( D) înregistrate într-un anumit ora¸ s, în primele 6luni ale anului. Rangurile corespunz ˘atoare
valorilor sunt prezentate în Tabelul 10.4. Datele au fost introduse în tabel în ordinea invers ˘a a
num˘arului de accidente. De notat c ˘a, deoarece num ˘arul de decese înregistrate în luna Mai este egal
cu num ˘arul de decese din Aprilie, rangul pentru fiecare dintre cele dou ˘a luni este media celor dou ˘a
pozi¸ tii în care s-ar afla. Folosind formula (10.3.3), calcul ˘am coeficientul de corela¸ tie Spearman.
Acesta este rS=0:8117.
Luna Ian. Feb. Mar. Apr. Mai Iun.
A 27 24 15 11 17 12
D 8 6 5 3 3 2
Tabela 10.3: Evenimente rutiere în primele 6luni.Luna Arang A D rang D
Ian. 27 6 8 6
Feb. 24 5 6 5
Mai 17 4 32+3
2=2:5
Mar. 15 3 5 4
Iun. 12 2 2 1
Apr. 11 1 32+3
2=2:5
Tabela 10.4: Tabel cu rangurile pentru acci-
dente.
10.5 Probleme propuse
Exerci¸ tiu 10.3 Datele din tabelul urm ˘ator reprezint ˘a o selec¸ tie de observa¸ tii asupra variabilei X.
X0 1 2 3 4 5 6 7 8 9 10
Y 21 7
(a) Dac ˘a pentru variabilele X¸ siYcoeficientul de corela¸ tie teoretic Spearman este 1, completa¸ ti
în tabel un set de valori pentru Y.

10.5 Probleme propuse 197
(b) Aceea¸ si cerin¸ t ˘a în cazul în care coeficientul de corela¸ tie teoretic Pearson este 1.
Exerci¸ tiu 10.4 Tabelul de mai jos con¸ tine calificativele ob¸ tinute de un elev de clasa I la o selectie
de 9 teste din clasa I, care au fost reluate la inceputul clasei a doua a- II-a.
Discipline A B C D E F G H I
clasa I S FB FB B B FB S B FB
clasa a II-a B I B FB FB B B S B
(a) Calcula¸ ti coeficientul de corela¸ tie Spearman ¸ si semnifica¸ tia lui pentru calificativele ob¸ tinute în
clasa I ¸ si cele din clasa a II-a.
(b) La nivelul de semnifica¸ tie a=0:05, testa¸ ti ipoteza c ˘a rezultatele elevului s-au îmbun ˘at˘a¸ tit în
clasa a II-a
Exerci¸ tiu 10.5 Se m ˘asoar ˘a viteza unei ma¸ sini în primele 10secunde dup ˘a ce a început s ˘a accel-
ereze. Datele sunt înregistrate în tabelul de mai jos.
t0 1 2 3 4 5 6 7 8 9 10
v0 3 :1 6 :9 9 :9 12 :7 16 :1 19 :8 21 :2 22 :8 24 :3 25 :9
Folosind un test statistic, verifica¸ ti dac ˘at(timp) ¸ si v(vitez ˘a) sunt liniar corelate ( a=0:04).
Exerci¸ tiu 10.6 S-a realizat un studiu pentru a afla dac ˘a exist ˘a vreo rela¸ tie între masa corporal ˘a
( M) ¸ si presiunea sanguin ˘a ( P) la oameni. Urm ˘atorul set de date a fost ob¸ tinut dintr-un studiu clinic,
alegând 10 persoane la întâmplare.
M78 86 72 82 80 86 84 89 68 71
P140 160 134 144 180 176 174 178 128 132
(a) Calcula¸ ti indicele de corela¸ tie Pearson ¸ si determina¸ ti semnifica¸ tia acestuia ( a=0:05).
(b) Calcula¸ ti indicele de corela¸ tie Spearman dintre M¸ si P.
Exerci¸ tiu 10.7
Tabelul de mai jos con¸ tine mediile ob¸ tinute de un elev de clasa a V-a la toate disciplinele ¸ scolare,
pentru fiecare dintre cele dou ˘a semestre.
Discipline A B C D E F G H I J
semestrul I 6 9 7 8 8 9 9 9 7 10
semestrul al II-a 7 9 8 9 8 9 8 10 8 10
(a) Calcula¸ ti coeficientul de corela¸ tie Pearson ¸ si testa¸ ti semnifica¸ tia valorii ob¸ tinute. ( a=0:04)
(b) Calcula¸ ti coeficientul de corela¸ tie Spearman.
(c) Folosind un test potrivit, testa¸ ti ipoteza c ˘a rezultatele elevului s-au îmbun ˘at˘a¸ tit în semestrul al
doilea. ( a=0:04)
Exerci¸ tiu 10.8 (a) Determina¸ ti coeficientul de corela¸ tie Pearson pen-
tru setul al ˘aturat de date, reprezentate prin punctele albastre (f ˘ar˘aP).
(b) Determina¸ ti coeficientul de corela¸ tie Pearson pentru datele din fig-
ur˘a, incluzând punctul P(103;103). Cum explica¸ ti fenomenul observat?
(c) Acelea¸ si cerin¸ te ca la (a) ¸ si (b), dar pentru coeficientul Spearman.

198 Capitolul 10. Corela¸ tie ¸ si regresie
Exerci¸ tiu 10.9 Un num ˘ar de studen¸ ti ce au frecventat
un anumit curs au fost solicita¸ ti s ˘a î¸ si exprime p ˘arerea în
leg˘atur˘a cu dificultatea ¸ si atractivitatea no¸ tiunilor prezen-
tate. Pentru fiecare variabil ˘a, ei au avut de ales numere
întregi dintr-o scar ˘a de la 1 la 5, unde 1reprezint ˘a clasa
cea mai de jos de dificultate (respectiv atractivitate) iar
5nivelul maxim. Datele sunt prezentate în tabelul de
frecven¸ te al ˘aturat.Di f icultatea!
Utilitatea#1 2 3 4 5
1 0 0 3 4 6
2 0 0 4 4 7
3 0 4 5 6 5
4 3 5 4 1 0
5 5 3 1 1 0
Sunt cele dou ˘a opinii corelate? Calcula¸ ti coeficientul de corela¸ tie Pearson. Este semnificativ?
(a=0:05)
Exerci¸ tiu 10.10 Pentru datele de mai jos
X 0 1 2 3 4 5 6 7 8 9 10
Y0:2 1 :2 4 :21 9 :15 15 :6 24 :3 35 :9 48 :31 62 :95 80 95
determina¸ ti coeficien¸ tii de corela¸ tie Pearson ¸ si Spearman. Care dintre ei este semnificativ la nivelul
a=0:04?

11. Regresie
. [Prediction through regression is like driving blindfolded,
. guided by a co-pilot looking only at the rear window]
11.1 Punerea problemei
Regresia este o metod ˘a statistic ˘a utilizat ˘a pentru descrierea naturii rela¸ tiei între variabile. De
fapt, regresia stabile¸ ste modul prin care o variabil ˘a depinde de alt ˘a variabil ˘a, sau de alte variabile.
Analiza regresional˘ a cuprinde tehnici de modelare ¸ si analiz ˘a a rela¸ tiei dintre o variabil ˘a dependent ˘a
(variabila r ˘aspuns) ¸ si una sau mai multe variabile independente (variabile stimul). De asemenea,
r˘aspunde la întreb ˘ari legate de predic¸ tia valorilor viitoare ale variabilei r ˘aspuns pornind de la o
variabil ˘a dat ˘a sau mai multe. În unele cazuri se poate preciza care dintre variabilele de plecare
sunt importante în prezicerea variabilei r ˘aspuns. Se nume¸ ste variabil˘ a independent˘ a o variabil ˘a ce
poate fi manipulat ˘a (numit ˘a ¸ si variabil ˘a predictor, stimul sau variabil ˘a comandat ˘a), iar o variabil˘ a
dependent˘ a (sau variabila prezis˘ a ) este variabila care dorim s ˘a o prezicem, adic ˘a o variabil ˘a
c˘arei rezultat depinde de observa¸ tiile f ˘acute asupra variabilelor independente. Principiul dup ˘a
care se poate ob¸ tine variabila dependent ˘a în func¸ tie de variabilele independente este asem ˘an˘ator
principiului de lucru al unei cutii negre ( black box ) (vezi Figura 11.1). În aceasta cutie intr ˘a (sunt
înregistrate) informa¸ tiile x1;x2; :::; xm, care sunt prelucrate (în timpul prelucr ˘arii apar anumi¸ ti
parametri, b1;b2; :::; bk), iar rezultatul final este înregistrat într-o singur ˘a variabila r ˘aspuns, y.
De exemplu, se dore¸ ste a se stabili o rela¸ tie între valoarea pensiei ( y) în func¸ tie de num ˘arul de
ani lucra¸ ti ( x1) ¸ si salariul avut de-alungul carierei ( x2). Variabilele independente sunt m ˘asurate
exact, f ˘ar˘a erori. În timpul prelucr ˘arii datelor sau dup ˘a aceasta pot ap ˘ara distorsiuni în sistem, de
care putem ¸ tine cont dac ˘a introducem un parametru ce s ˘a cuantifice eroarea ce poate ap ˘area la
observarea variabilei y. Se stabile¸ ste astfel o leg ˘atur˘a între o variabil ˘a dependent ˘a,y, ¸ si una sau mai
multe variabile independente, x1;x2; :::; xm, care, în cele mai multe cazuri, are forma matematic ˘a
general ˘a
y=f(x1;x2; :::; xm;b1;b2; :::; bk)+e; (11.1.1)
unde b1;b2; :::; bksunt parametri reali necunoscu¸ ti a priori (denumi¸ ti parametri de regresie ) ¸ si

200 Capitolul 11. Regresie
eeste o perturba¸ tie aleatoare. În cele mai multe aplica¸ tii, eeste o eroare de m ˘asur˘a, considerat ˘a
modelat ˘a printr-o variabil ˘a aleatoare normal ˘a de medie zero. Func¸ tia fse nume¸ ste func¸ tie de
regresie . Dac ˘a aceasta nu este cunoscut ˘aa priori , atunci poate fi greu de determinat iar utilizatorul
analizei regresionale va trebui s ˘a o intuiasc ˘a sau s ˘a o aproximeze utilizând metode de tip trial and
error (prin încerc ˘ari). Dac ˘a avem doar o variabila independent ˘a (un singur x), atunci spunem c ˘a
avem o regresie simpl˘ a .Regresia multipl˘ a face referire la situa¸ tia în care avem multe variabile
independente.
Figura 11.1: Black box.
Dac˘a observarea variabilei dependente s-ar face f ˘ar˘a vreo eroare, atunci rela¸ tia (11.1.1) ar deveni
(cazul ideal):
y=f(x1;x2; :::::; xm;b1;b2; :::; bk): (11.1.2)
Forma vectorial ˘a a dependen¸ tei (11.1.1) este:
y=f(x;b)+e: (11.1.3)
Pentru a o analiz ˘a complet ˘a a regresiei (11.1.1), va trebui sa intuim forma func¸ tiei f¸ si apoi s ˘a
determin ˘am (aproxim ˘am) valorile parametrilor de regresie. În acest scop, un experimentalist va
face un num ˘ar suficient de observa¸ tii (experimente statistice), în urma c ˘arora va aproxima aceste
valori. Dac ˘a not ˘am cu nnum˘arul de experimente efectuate, atunci le putem contabiliza pe acestea
în urm ˘atorul sistem stochastic de ecua¸ tii:
yi=f(x;b)+ei;i=1;2; :::; n: (11.1.4)
În ipoteze uzuale, eisunt variabile aleatoare identic repartizate N(0;s), independente stochastic
dou˘a câte dou ˘a (s>0). Astfel, sistemul (11.1.4) cu necua¸ tii stochastice algebrice are necunoscutele
fbjgj=1;n¸ sis, în total k+1 necunoscute.
În cazul în care num ˘arul de experimente este mai mic decât num ˘arul parametrilor ce trebuie
aproxima¸ ti ( nk), atunci nu avem suficiente informa¸ tii pentru a determina aproxim ˘arile. Dac ˘a
n=k+1, atunci problema se reduce la a rezolva necua¸ tii cu nnecunoscute. În cel de-al treilea caz
posibil, n>k+1, atunci avem un sistem cu valori nedeterminate.
În func¸ tie de forma func¸ tiei de regresie f, putem avea:
•regresie liniar˘ a simpl˘ a , în cazul în care avem doar o variabil ˘a independent ˘a ¸ si
f(x;b) =b0+b1x:
•regresie liniar˘ a multipl˘ a , dac ˘a
f(x;b) =b0+b1x1+b2x2+:::+bmxm:

11.2 Regresie liniar ˘a simpl ˘a 201
•regresie liniar˘ a multipl˘ a cu interac¸ tiuni dac˘a (cazul a dou ˘a variabile)
f(x;b) =b0+b1x1+b2x2+b11x2
1+b12x1x2+b22x2
2:
Folosind urm ˘atoarele nota¸ tii, putem reduce regresia anterioar ˘a la una simpl ˘a multipl ˘a:
x2
1=x3;x1x2=x4;x2
2=x5:
•regresie polinomial˘ a , dac ˘a
f(x;b) =b0+b1x+b2x2+b3x3+:::+bkxk:
V om avea regresie p˘ atratic˘ a pentru k=2,regresie cubic˘ a pentru k=3 etc.
•regresie exponen¸ tial˘ a , când
f(x;b) =b0eb1x:
•regresie logaritmic˘ a , dac ˘a
f(x;b) =b0logb1x:
•regresie logistic˘ a
f(x;b) =eb0+b1x
1+eb0+b1x:
Modelele determinate de aceste func¸ tii se vor numi modele de regresie (curbe, suprafe¸ te etc). De
remarcat faptul c ˘a primele patru modele sunt liniare în parametri, pe când ultimele nu sunt liniare
în parametri.
În cadrul analizei regresionale, se cunosc datele de intrare, fxigi, ¸ si c˘aut˘am s˘a estim ˘am parametrii de
regresiefbjgj¸ si devia¸ tia standard a erorilor, s. Dac ˘a func¸ tia de regresie feste cunoscut ˘a (intuit ˘a),
atunci metode statistice folosite pentru estimarea necunoscutelor sunt: metoda verosimilit˘ a¸ tii
maxime ,metoda celor mai mici p˘ atrate ¸ simetoda lui Bayes . Dac ˘afeste necunoscut ˘a, metode ce
duc la estimarea necunoscutelor sunt: metoda celor mai mici p˘ atrate saumetoda minimax .
11.2 Regresie liniar ˘a simpl ˘a
Este cel mai simplu tip de regresie, în care avem o singur ˘a variabil ˘a independent ˘a,x, ¸ si variabila de-
pendent ˘ay. S˘a presupunem c ˘a ni se d ˘a familia de date bidimensionale f(xi;yi)gi=1;n. Reprezent ˘am
grafic aceste date într-un sistem x0y(de exemplu, vezi Figura 11.2 (a)) ¸ si observ ˘am o dependen¸ t ˘a
aproape liniar ˘a a lui ydex. Dac ˘a valoarea coeficientului de corela¸ tie liniar ˘a,r, este aproape de 1
sau1(indicând o corela¸ tie liniar ˘a strâns ˘a), atunci se pune problema stabilirii unei rela¸ tii numerice
exacte între x¸ siyde forma
y=b0+b1x: (11.2.5)
O astfel de dreapt ˘a o vom numi dreapta de regresie a lui yîn raport cu x. Pentru un set de date
bidimensionale ca mai sus, putem reprezenta aceast ˘a dreapt ˘a ca în Figura 11.2 (b).
Exemplu 11.1 Te hot ˘ar˘a¸ sti s ˘a cumperi ma¸ sina favorit ˘a, ce se vinde acum la pre¸ tul de 12500 EUR.
La semnarea contractului de vânzare-cump ˘arare, pl ˘ate¸ sti suma ini¸ tial ˘a de 15000 RON¸ si apoi rate
lunare de 650 RON, timp de 5ani. Dac ˘a not ˘am cu Xnum˘arul lunilor pân ˘a la ultima rat ˘a ¸ si cu Y
suma total ˘a pl˘atit˘a pe ma¸ sin ˘a, atunci între X¸ siYexist ˘a rela¸ tia:
Y=15000 +650X:
În acest exemplu, rela¸ tia între X¸ siYeste una perfect liniar ˘a. O rela¸ tie perfect liniar ˘a între datele
bidimensionalef(xi;yi)gi=1;nreprezentate în Figura 11.2 ar însemna c ˘a toate acestea s-ar afla pe
dreapta de regresie, ceea ce nu se întâmpl ˘a. De cele mai multe ori, datele reale nu urmeaz ˘a o astfel
de rela¸ tie perfect ˘a (spre exemplu, rata lunar ˘a poate fi una variabil ˘a, în func¸ tie de rata de schimb
EUR-RON ), caz în care parametrii din dependen¸ ta liniar ˘a trebuie a fi estima¸ ti.

202 Capitolul 11. Regresie
Figura 11.2: Aproximarea unui nor de date prin dreapta de regresie.
A¸ sadar, va trebui s ˘a ¸ tinem cont ¸ si de eventualele perturba¸ tii din sistem. Putem presupune astfel c ˘a
dependen¸ ta lui ydexeste de forma
y=b0+b1x+e; (11.2.6)
cueo variabil ˘a aleatoare repartizat ˘aN(0;s).
Plecând de lafxi;yigi, ¸ telul nostru este s ˘a g˘asim o dreapt ˘a ce se apropie cel mai mult (într-un sens
bine precizat) de aceste date statistice. Cu alte cuvinte, va trebui s ˘a estim ˘am valorile parametrilor
de regresie b0¸ sib1. Proced ˘am dup ˘a cum urmeaz ˘a.
Înlocuind datele bidimensionale în (11.2.6), avem urm ˘atorul sistem:
yi=b0+b1xi+ei;i=1;n; (11.2.7)
unde
eiN(0;s);8i¸ sieisunt independente stochastic :
Deoarece
ei=yi(b0+b1xi);i=1;n;
putem interpreta eica fiind erorile de aproximare a valorilor observate ( yi) cu cele prezise de dreapta
de regresie (adic ˘a de valorile b0+b1xi).
¸ Tinând cont c ˘aeiN(0;s)¸ sib0;b1sunt valori deterministe, din (11.2.7) rezult ˘a c˘a:
yiN(b0+b1xi;s);pentru fiecare i;
de unde, probabilitatea ca într-o singur ˘a m˘asur˘atoare a xis˘a ob¸ tinem r ˘aspunsul yieste
Pi=1
sp
2pexp
(yib0b1xi)2
2s2
:
Deoarecefeigisunt independente stochastic, probabilitatea ca în cele nobserva¸ tii independente s ˘a
ob¸ tinem vectorul de valori (y1;y2; ;:::; yn)este (func¸ tia de verosimilitate):
L(b0;b1;s) =n
Õ
i=1Pi=1
sn(2p)n=2exp
n
å
i=1(yib0b1xi)2
2s2!
:

11.2 Regresie liniar ˘a simpl ˘a 203
Avem de estimat urm ˘atoarele cantit ˘a¸ ti:b0;b1¸ sis. Pentru aceasta, vom folosi metoda verosimilit˘ a¸ tii
maxime . Urm ˘arim s ˘a g˘asim acele valori ale parametrilor b0;b1¸ siscare maximizeaz ˘a func¸ tia de
verosimilitate. A¸ sadar, problema de maximizare este urm ˘atoarea:
max
b0;b1;sL(b0;b1;s):
Condi¸ tiile de extrem (impuse pentru ln L) sunt:
¶lnL
¶b0=1
2s2n
å
i=1(yib0b1xi) = 0;
¶lnL
¶b1=1
2s2n
å
i=1xi(yib0b1xi) = 0;
¶lnL
¶s=n
s+1
s2n
å
i=1(yib0b1xi)2= 0:
Rezolvând primele dou ˘a ecua¸ tii în raport cu b0¸ sib1, ob¸ tinem estima¸ tiile:
bb1=sxy
sxx¸ sibb0=ybb1x; (11.2.8)
unde,
x=1
nn
å
i=1xi;y=1
nn
å
i=1yi;sxx=1
n1n
å
i=1(xix)2;sxy=1
n1n
å
i=1(xix)(yiy):
Astfel, g ˘asim c ˘a dreapta de regresie a lui yîn raport cu xeste aproximat ˘a de dreapta:
y=ybb1x+sxy
sxxx; (11.2.9)
sau, altfel scris ˘a,
y=y+sxy
sxx(xx): (11.2.10)
Din ultima condi¸ tie de extrem, g ˘asim c ˘a o estima¸ tie pentru dispersia s2este:
ˆs2=1
nn
å
i=1(yibb0bb1xi)2: (11.2.11)
Îns˘a, estima¸ tia pentru s2dat˘a prin formula (11.2.11) este una deplasat ˘a. În practic ˘a, în locul acestei
estima¸ tii se utilizeaz ˘a urm ˘atoarea estima¸ tie nedeplasat ˘a:
cs2=1
n2n
å
i=1(yibb0bb1xi)2: (11.2.12)
Observa¸ tia 11.1 [1] Terminologie:
•dreapta de regresie ,y=b0+b1x, este dreapta ce determin ˘a dependen¸ ta liniar ˘a a lui yde
valorile lui x, pentru întreaga popula¸ tie de date (dac ˘a aceasta exist ˘a);
•aproximarea dreptei de regresie ( en.,fitting line), y=bb0+bb1x, este dreapta care se apropie
cel mai mult (în sensul metodei celor mai mici p ˘atrate) de datele experimentale (de selec¸ tie)
fxi;yigi. Aceast ˘a dreapt ˘a este o aproximare a dreptei de regresie;
•valorile yise numesc valori observate , iar valorilebyi=bb0+bb1xi;i=1;nse numesc valori
prezise (i=1;n);

204 Capitolul 11. Regresie
Figura 11.3: Estimarea dreptei de regresie.
•valorilebei=yibyi=yibb0bb1xise numesc reziduuri . Un reziduu m ˘asoar ˘a devia¸ tia unui
punct observat de la valoarea prezis ˘a de estimarea dreptei de regresie (dreapta de fitare);
•suma p˘ atratelor erorilor ,n
å
i=1be2
i=n
å
i=1(yibb0bb1xi)2, se noteaz ˘a de obicei prin SSE(sum of
squared errors );
•eroarea medie p˘ atratic˘ a saurezidual˘ a este MSE=SSE
n2(mean squared error ). Dupa cum se
poate observa din relatia (11.2.12), MSE=cs2este un estimator pentru dispersia erorilor, s2.
• r˘ad˘acina p ˘atrat˘a a MSEestebssi se nume¸ ste eroarea standard a regresiei ;
• se poate demonstra c ˘a
SSE
s2= (n2)cs2
s2c2(n2):
cu autorul acestei rela¸ tii se pot g ˘asi intervale de încredere pentru valoarea real ˘a a lui s2.
În formula (11.2.12), (n2)reprezint ˘a num ˘arul gradelor de libertate ale variabilei SSE.
[2] Estima¸ tia dispersiei este o m ˘asur˘a a gradului de împr ˘a¸ stiere a punctelor (x;y)în jurul dreptei
de regresie. Mai subliniem faptul c ˘a valorile din formulele (11.2.8) ¸ si (11.2.12) sunt doar estima¸ tii
ale parametrilor necunoscu¸ ti ¸ si nu valorile lor exacte. Pentru pantabb1avem urm ˘atoarele formule
echivalente:
bb1=sxy
sxx=cov e(x;y)
s2x=rxysy
sx;
unde
cov e(x;y) =1
n1n
å
i=1(xix)(yiy);sx=s
1
n1n
å
i=1(xix)2;
sy=s
1
n1n
å
i=1(yiy)2;rxy=cov e(x;y)
sxsy:
[3] Dac ˘a devia¸ tia standard sar fi cunoscut ˘aa priori , atunci putem estima parametrii b0¸ sib1în
urm˘atorul mod. Estim ˘am ace¸ sti doi parametri prin acele valori ce realizeaz ˘a minimumul sumei
p˘atratelor erorilor SSE. V om avea astfel problema de minimizare ( metoda celor mai mici p˘ atrate ):
min
b0;b1n
å
i=1(yib0b1xi)2:

11.2 Regresie liniar ˘a simpl ˘a 205
Notând cu F(b0;b1) =n
å
i=1(yib0b1xi)2, condi¸ tiile de extrem sunt:
¶F
¶b0=2n
å
i=1(yib0b1xi) = 0;
¶F
¶b1=2n
å
i=1xi(yib0b1xi) = 0:
Rezolvând acest sistem de ecua¸ tii algebrice în raport cu b0¸ sib1, g˘asim solu¸ tiilebb0¸ si, respectiv,
bb1de mai sus. Aceasta dovede¸ ste c ˘a, în cazul în care erorile sunt identic normal repartizate ¸ si
independente stochastic, metoda verosimilit ˘a¸ tii maxime este, în fapt, totuna cu metoda celor mai
mici p ˘atrate.
11.2.1 Intervale de încredere pentru parametrii de regresie
Estima¸ tiile pentru parametrii de regresie b0¸ sib1depind de observa¸ tiile folosite. Pentru a decide
dac˘a valorile calculate pe baza datelor experimentale fxi;yigipot fi considerate valorile potrivite
pentru întreaga popula¸ tie, se vor utiliza test ˘ari statistice. Mai jos, vom prezenta teste statistice cu
privire la testarea valorilor ambilor parametri, b0¸ sib1, îns˘a cel mai uzual test este testul pentru
verificarea valorii pantei dreptei de regresie, b1.
Se poate dovedi (vezi [ stoleriu ]) c˘abb0¸ sibb1sunt estimatori nedeplasa¸ ti pentru b0¸ si, respectiv, b1.
Adic ˘a:
E(bb1) =b1siE(bb0) =b0:
Dispersiile acestor estimatori sunt:
Varbb1
=s2
sxx¸ si Varbb0
=s21
n+x2
sxx
: (11.2.13)
Mai mult, estimatoriibb0sibb1sunt repartizati normal:
bb1N
b1;spsxx
sibb0N0
@b0;ss
1
n+x2
sxx1
A:
¸ Tinând cont c ˘a estimatoriibb0¸ sibb1sunt nedeplasa¸ ti, de rela¸ tiile (11.2.13), ¸ si de estimatorulcs2
pentru s2, se poate demonstra c ˘a:
bb1b1q
cs2
sxxt(n2)sibb0b0
bsq
1
n+x2
sxxt(n2): (11.2.14)
Aici, am notat prin bscantitatea:
bs=s
1
n2n
å
i=1
yibb0bb1xi2
:
Putem folosi aceste statistici pentru a determina intervale de încredere pentru b1¸ sib0. Un interval
de încredere pentru b1la nivelul de semnifica¸ tie aeste:
2
4bb1t1a
2;n2s
cs2
sxx;bb1+t1a
2;n2s
cs2
sxx3
5: (11.2.15)

206 Capitolul 11. Regresie
Un interval de încredere pentru b0la nivelul de semnifica¸ tie aeste:
2
4bb0t1a
2;n2bss
1
n+x2
sxx;bb0+t1a
2;n2bss
1
n+x2
sxx3
5: (11.2.16)
Observa¸ tia 11.2 În general, dispersia s2a erorilor de regresie nu este cunoscut ˘aa priori . În
cazul în care aceasta este cunoscut ˘a, atunci în loc de (11.2.14) am avea:
bb1b1q
s2
sxxN(0;1); ¸ sibb0b0
sq
1
n+x2
sxxN(0;1): (11.2.17)
În acest caz, intervalele de încredere pentru b0¸ sib1vor fi similare cu cele din rela¸ tiile (11.2.16)
¸ si (11.2.15), cu diferen¸ ta c ˘at1a
2;n2este înlocuit prin z1a
2. Oricum, pentru nsuficient de mare,
valorile t1a
2;n2¸ siz1a
2sunt foarte apropiate.
11.2.2 Test statistic pentru b1(panta dreptei de regresie)
Prezent ˘am aici testul ce verific ˘a dac ˘ab1ia o valoare dat ˘ab10sau nu, la un nivel de semnifica¸ tie a.
Acest test este mai des folosit decat testul pentru b0. Dispersia erorilor de regresie este necunoscut ˘a.
Test˘am
(H0):b1=b10 versus (H1):b16=b10:
Consider ˘am statistica
T=bb1b1q
cs2
sxx;
care urmeaz ˘a reparti¸ tia t(n2). Etapele testului sunt urm ˘atoarele:
• Calcul ˘am valoarea observat ˘a
T0=bb1b10q
cs2
sxx:
• Calcul ˘am cuantila de ordin 1 a
2pentru reparti¸ tia tcu(n2)grade de libertate, t1a
2;n2;
• Dac ˘a
jT0j<t1a
2;n2;atunci accept ˘am ipoteza (H0);
Dac˘a
jT0jt1a
2;n2;atunci accept ˘am ipoteza (H1);
Observa¸ tia 11.3 (1) O ipotez ˘a alternativ ˘a poate fi considerat ˘a ¸ si una dintre urm ˘atoarele:
(H1)s:b1<b10; (H1)d:b1>b10:
(2) Testul cel mai popular pentru b1este pentru ipoteza nula (H0):b1=0(i.e.,b10=0). Ipoteza
alternativ ˘ab16=0reprezinta faptul c ˘a între x¸ siyexist ˘a o dependen¸ t ˘a liniar ˘a. Cu alte cuvinte, testul
(H0):b1=0 vs. (H1):b16=0
verific ˘a semnifica¸ tia pantei dreptei de regresie. Dac ˘a ipoteza nul ˘a este respins ˘a, atunci panta dreptei
este semnificativ ˘a (i.e., semnificativ diferit ˘a de zero).

11.3 Predic¸ tie prin regresie 207
11.2.3 Test statistic pentru b0
Mai jos prezent ˘am testul ce verific ˘a dac ˘ab0ia o valoare dat ˘ab
0sau nu, la un nivel de semnifica¸ tie
a. Dispersia erorilor de regresie este necunoscut ˘a.
Test˘am
(H0):b0=b
0 versus (H1):b06=b
0:
Consider ˘am statistica
T=bb0b0
bsq
1
n+x2
sxxt(n2);
care urmeaz ˘a reparti¸ tia t(n2). Etapele testului sunt urm ˘atoarele:
• Calcul ˘am valoarea observat ˘a
T0=bb0b
0
bsq
1
n+x2
sxxt(n2):
• Calcul ˘am cuantila de ordin 1 a
2pentru reparti¸ tia tcu(n2)grade de libertate, t1a
2;n2;
• Dac ˘a
jT0j<t1a
2;n2;atunci accept ˘am ipoteza (H0);
jT0jt1a
2;n2;atunci accept ˘am ipoteza (H1);
Observa¸ tia 11.4 De asemenea, exist ˘a teste unilaterale ¸ si pentru testarea valorii lui b0.
În cazul în care s2este cunoscut a priori atunci, gra¸ tie rela¸ tiilor (11.2.17), putem utiliza testul Z
pentru testarea ipotezelor de mai sus, atât pentru b0, cât ¸ si pentru b1.
11.3 Predic¸ tie prin regresie
În anumite cazuri, putem folosi regresia în predic¸ tia unor valori ale variabilei dependente. De
exemplu, putem prezice temperatura într-un anumit ora¸ s plecând de la observa¸ tiile temperaturilor din
ora¸ sele învecinate. Regresia poate fi utilizat ˘a pentru predic¸ tie dup ˘a cum urmeaz ˘a. S˘a presupunem ca
datele pe care le de¸ tinem, f(xi;yi)gi=1;n, pot fi modelate de o dreapt ˘a de regresie de forma (11.2.5).
Dat fiind o valoarea xpce nu se afl ˘a printre valorile xi, dar este o valoare cuprins ˘a între valorile
extreme ale variabilei independente, xmin¸ sixmax, dorim s ˘a prezicem valoarea r ˘aspuns,
yp=b0+b1xp+ep:
Dac˘abb0¸ sibb1sunt estima¸ tiile pentru parametrii de regresie b0, respectiv, b1, atunci valoarea prezis˘ a
pentru yppentru un xpobservat va fi o valoare bypde pe dreapta de regresie, dat ˘a de formula:
byp=bb0+bb1xp: (11.3.18)
Se poate demonstra ca statistica bYpasociata acestei valori urmeaza o repartitie normala,
bYpN0
@bb0+bb1xp;ss
1+1
n+(xpx)2
sxx1
A:
O predic¸ tie pentru intervalul de încredere corespunz ˘ator lui ypentru un xpdat, la nivelul de
semnifica¸ tie a(xp2[xmin;xmax]) este:
2
4bypt1a
2;n2bss
1+1
n+(xpx)2
sxx;byp+t1a
2;n2bss
1+1
n+(xpx)2
sxx3
5:(11.3.19)

208 Capitolul 11. Regresie
Observa¸ tia 11.5 (1) De notat faptul c ˘a este foarte important ca xps˘a fie o valoare cuprins ˘a între
xmin¸ sixmax. Dac ˘a se folose¸ ste formula (11.3.18) ¸ si pentru valori ale lui xîn afara range-ului valorilor
predictor pentru x, atunci erorile de de aproximarea a lui ycubyppot fi foarte mari. De exemplu,
dac˘a în Figura 11.4 (a) am folosi doar primele 9pentru a construi un model de regresie, atunci
acesta poate fi utilizat doar pentru predic¸ tia valorilor variabilei ypentru orice xîn acest range, i.e.
x2[0;10]. Dac ˘a, folosind dreapta de regresie g ˘asit˘a anterior, am încerca o predic¸ tie pentru x=19,
atunci am g ˘asi c ˘aby(19)10, pe când valoarea observat ˘a este y(19)6:5, ceea ce determin ˘a o
eroare foarte mare de aproximare. Mai mult, dac ˘a ¸ tinem cont ¸ si de urm ˘atoarele valori observate
(vezi Figura 11.4(b)), atunci curba de regresie pare s ˘a nu fie o dreapt ˘a. Pentru estimarea de valori
Figura 11.4: Predic¸ tie prin extrapolare.
viitoare ale variabilei dependente folosind valori ale variabilelor independente ce ies din range se
utilizeaz ˘a termenul de prognoz˘ a (en., forecasting ). Aceasta este folosit ˘a des în analiza seriilor de
timp.
(2) Valoarea prezis ˘abypnu este una stabilit ˘a cu exactitate, ci este doar o medie a¸ steptat ˘a a valorilor
luiypentru un xpdat. În cazul în care R2=1(coeficientul de determinare), atunci valoarea pentru y
va fi prezis ˘a f˘ar˘a eroare, deoarece toate punctele se afl ˘a pe dreapta de regresie. În general, punctele
bidimensionale (x;y)se afl ˘a împr ˘a¸ stiate în jurul dreptei de regresie.
(3) Valoareabypeste determinat ˘a doar pe baza selec¸ tiei date, de aceea, pentru a verifica dac ˘a aceast ˘a
valoare poate fi extrapolat ˘a la întreaga popula¸ tie este nevoie de inferen¸ t ˘a statistic ˘a (test statistic).
Prezent ˘am, în continuare, un test ce compar ˘a valoareabypcu o constant ˘a dat ˘a.
Test˘am
(H0)byp=y0 versus (H1)byp6=y0:
Etapele testului sunt urm ˘atoarele:
• Estim ˘ambyputilizând formula (11.3.18).
• Consider ˘am statistica
T=bypy
bss
1+1
n+(xpx)2
sxxt(n2);
• Calculez valoarea T0=bypy0
bss
1+1
n+(xpx)2
sxx;

11.4 Validitatea modelului de regresie liniara simpla 209
• Dac ˘a
jT0j<t1a
2;n2;atunci accept ˘am ipoteza (H0);
Dac˘a
jT0jt1a
2;n2;atunci accept ˘am ipoteza (H1);
(4) În concluzie, regresia este o unealt ˘a dibace pentru predic¸ tie. Unii economi¸ sti au utilizat-o cu
succes si au prezis chiar 10 (!)dintre ultimele… 2 recesiuni!
Observa¸ tia 11.6 Pân˘a acum am v ˘azut cum putem estima valoarea lui yfolosind pe x. În unele
cazuri, putem inversa rolurile lui x¸ siy, ¸ si putem vorbi astfel de regresie a lui xîn raport cu y. De
exemplu, în Exerci¸ tiul 11.1 am putea estima notele la Probabilit ˘a¸ ti în func¸ tie de notele la Statistic ˘a.
Formulele ob¸ tinute pentru dreapta de regresie a lui xîn raport cu ysunt cele g ˘asite anterior pentru
dreapta de regresie a lui yîn raport cu x, în care rolurile lui x¸ siysunt inversate.
11.4 Validitatea modelului de regresie liniara simpla
Presupunem ca XsiYsunt doua variabile de interes, pentru care se doreste a determina o relatie
liniara de forma
Y=b0+b1X+e:
Pentru a determina oportunitatea unei astfel de legaturi, se culeg date relativ la aceste variabile.
Consider ˘am c ˘a aceste observa¸ tii sunt f(xi;yi)gi=1;n. Pe baza acestor date se poate aproxima dreapta
de regresie liniara (daca exista) astfel:
Y=bb0+bb1X;unde:bb1=sxy
sxx¸ sibb0=ybb1x;
x=1
nn
å
i=1xi;y=1
nn
å
i=1yi;sxx=n
å
i=1(xix)2;sxy=n
å
i=1(xix)(yiy):
Pentru a verifica daca modelul de regresie liniara este unul valid, se pot folosi mai multe metode,
dintre care amintim cele mai uzuale:
• coeficientul de determinare R2. Acest coeficient se calculeaz ˘a folosind urm ˘atoarea formul ˘a:
R2=1SSE
SST; (11.4.20)
unde
SSE=n
å
i=1(yiˆy)2=n
å
i=1(yibb0bb1xi)2; SST=n
å
i=1(yiy)2:
Aici, SSTreprezint ˘a suma total ˘a a p ˘atratelor the total sum of squares . În analiza regresional ˘a,
coeficientul R2este o statistica folosit ˘a în a determina cât de bine pot fi estimate valorile lui
ype baza modelului de regresie. Valorile lui R2sunt între 0si1¸ si, pentru a avea un model
destul de bun, ar fi necesar un coeficient de determinare aproape de 1. Totu¸ si, este posibil ca
R2s˘a aib ˘a valori mai mari ca 1în cazul în care modelul de regresie nu este unul liniar. În
cazul regresiei liniare simple, R2=r2, adic ˘a p˘atratul coeficientului de corela¸ tie Pearson.
• grafice:

210 Capitolul 11. Regresie
–yivs.xi: Din aceasta figura ( scatter plot ) ne putem da seama de oportunitatea mod-
elarii datelor observate folosind un model de regresie liniara simpla. Aceast ˘a figur ˘a
ar trebui f ˘acut˘a înainte de aproximarea dreptei de regresie. Pentru a putea utiliza un
model de regresie liniara simpla, valorile reprezentate ar trebui sa fie apropiate de o
anumita dreapta (vezi Figura 11.6).
–grafic ce indic ˘a normalitatea reziduurilor bei: Acesta poate fi realizat in MATLAB cu
ajutorul comenzii normplot . Acest grafic reprezinta probabilitatile de normalitate
ale erorilor versus cuantilele de la N(0;1). Daca modelul este valid, atunci valorile
reprezentate in figura vor fi cat mai apropiate de prima bisectoare (e.g., vezi al doilea
grafic din Figura 11.10).
–byivs.yi: Daca modelul este valid, atunci valorile reprezentate in figura vor fi cat
mai apropiate de prima bisectoare (e.g., vezi primul grafic din Figura 11.10).
–beivs.xi: Daca modelul este valid, atunci valorile reprezentate in figura nu ar avea
nicio tendinta clara (e.g., vezi ultimul grafic din Figura 11.10).
–beivs.yi: Daca modelul este valid, atunci valorile reprezentate in figura nu ar avea
nicio tendinta clara (e.g., vezi ultimul grafic din Figura 11.10).
–In graficele anterioare, in loc de reziduurile bei, pot fi realizate grafice pentru reziduurile
standardizate,
bei=bei
sbei=bei
bss
1+1
n+(xpx)2
sxx:
• test de utilitate a modelului : Se testeaza ipoteza (H0):b1=0vs. ipoteza (H1):b16=0.
Dupa cum am vazut mai sus, acceptarea ipotezei alternative indica faptul ca modelul liniar
simplu este valid.
• test pentru semnifica¸ tia parametrilor modelului : Putem testa o valoare anume a pan-
tei dreptei de regresie folosind ipoteza nul ˘a(H0):b1=b10vs. ipoteza alternativ ˘a
(H1):b16=b10. Panta dreptei de regresie este important ˘a în a determina magnitudinea
varia¸ tiei variabilei r ˘aspuns la o varia¸ tie de o unitate a variabilei stimul. În unele programe
specifice analizei statistice (e.g., SPSS ), rezultatul testului este reprezentat de o valoare sig
pe care softul o afiseaza. Aceasta valoare este, in fapt, valoarea critica Pv(probabilitatea de a
respinge ipoteza nula cand aceasta este adevarata). La un nivel de semnificatie adorit de
utilizator, ipoteza nula va fi respinsa daca sig<a. Daca ipoteza nula este respinsa, atunci
valoarea testata ( b10) este semnificativa si poate fi utilizata in calculele ulterioare. Daca
sig>a, atunci valoarea b10este nesemnificativa si acceptam ipoteza ca, in realitate, b1=0,
ceea ce indica faptul ca modelul de regresie liniara simpla nu este potrivit pentru datele
observate.
Ce este de facut daca modelul de regresie liniara simpla nu este unul valid?
•Este posibil ca Ysa nu depinda liniar de X. Acest fapt poate fi observat de la inceput, din
diagrama scatter plot ce reprezinta yivs.xi. Pentru modele neliniare, se poate incerca o
transformare a variabilelor XsiYastfel incat modelul liniar pentru variabilele transformate
sa fie unul aplicabil (nu merge intotdeauna). Spre exemplu, vezi Exercitiul 11.3, in care am
determinat o regresie liniara intre variabilele ln (Y)siX.
•Se poate intampla ca reziduurie beisa prezinte o dependinta clara de xi(fapt ce poate fi observat
dintr-o reprezentare beivs.xi), asadar aplicabilitatea modelului de regresie liniara este
inoportuna. Faptul ca beinu au toate o aceeasi dispersie s2se numeste heteroscedasticitate
(proprietate opusa homoscedasticitatii ).
•Daca reziduurile nu sunt normale (se observa din diagrama normplot (bei), eventual, se poate

11.5 Regresie liniara multipla 211
apela la un test de normalitate), modelul liniar de regresie nu este oportun.
•Exista posibilitatea ca datele observate f(xi;yi)gi=1;nsa contina valori aberante ( outliers ).
Este important de a intelege aceste valori si, in caz ca nu sunt semnificative, pot fi sterse din
setul de date care este supus analizei de regresie.
•In multe cazuri, o singura variabila predictor ( X) nu poate explica de una singura variabila
Y, cazuri in care se apeleaza la o regresie multipla (se iau in considerare si alte variabile
predictor).
11.5 Regresie liniara multipla
Regresia multipla ia in considerare cel putin doi predictori pentru a determina valorile unei variabile
de interes Y. In continuare, vom considera cazul unui numar de kpredictori independenti, notati X1,
X2,:::,Xk.
Pentru o variabila de interes Yse doreste a determina o relatie liniara (un hiperplan) de forma
Y=b0+b1X1+b2X2+:::+bkXk+e; (11.5.21)
unde bj(j=1;n) sunt niste constante reale, eN(0;s)(eroarea). Pentru un jfixat, coeficientul
bjreprezinta variatia in variabila Yrezultata in urma variatiei predictorului Xjcu o unitate, in timp
ce ceilalti predictori sunt mentinuti la valori fixate.
Pentru a determina oportunitatea unei astfel de legaturi, se culeg date relativ la aceste variabile. Fie
aceste observatiif(x1i;x2i; :::; xki;yi)gi=1;n, unde xjidenota observatia de rang ipentru variabila
Xj, pentru fiecare j=1;ksii=1;n. Pentru un model bun de regresie este necesar un num ˘ar
suficient de mare de observa¸ tii. V olumul de observa¸ tii nar trebui s ˘a fie mai mare (uneori mult
mai mare) decât num ˘arul de parametri ce urmeaz ˘a a fi estima¸ ti ( k+2parametri, bi¸ sis). Pe baza
acestor date se poate aproxima suprafata de regresie liniara (daca exista, prin metoda celor mai mici
patrate sau prin metoda verosimilitatii maxime) astfel:
Y=bb0+bb1X1+bb2X2+:::+bbkXk; (11.5.22)
undebbj(j=1;n) sunt estimatori pentru parametrii reali bj.
Similar cu cazul regresiei liniare simple, vom avea:
• (Hiper)suprafa¸ ta
y=bb0+bb1x1+bb2x2+:::+bbkxk
este aproximarea suprafetei de regresie, ( en.,fitting surface), este suprafata care se apropie
cel mai mult (în sensul metodei celor mai mici p ˘atrate) de datele experimentale. Aceast ˘a
suprafata este o aproximare a suprafetei de regresie;
•valorile yise numesc valori observate , iar valorilebyi=bb0+bb1x1i+bb2x2i+:::+bbkxki;i=
1;n, se numesc valori prezise (i=1;n);
•valorilebei=yibyise numesc reziduuri . Un reziduu m ˘asoar ˘a devia¸ tia unui punct observat
de la valoarea prezis ˘a de estimarea dreptei de regresie (dreapta de fitare). Se presupune ca
aceste reziduuri sunt independente intre ele si sunt repartizate N(0;s);
•suma p˘ atratelor erorilor ,
n
å
i=1be2
i=n
å
i=1(yiˆy)2=n
å
i=1(yibb0bb1x1ibb2x2i:::bbkxki)2;
se noteaz ˘a de obicei prin SSE(sum of squared errors );
•eroarea medie p˘ atratic˘ a saurezidual˘ a este MSE=SSE
nk1(mean squared error ).

212 Capitolul 11. Regresie
• statistica MSE=cs2este un estimator pentru dispersia erorilor, s2.
• r˘ad˘acina p ˘atrat˘a a MSEestebssi se nume¸ ste eroarea standard a regresiei ;
• se poate demonstra c ˘a
SSE
s2= (nk1)cs2
s2c2(nk1):
cu autorul acestei rela¸ tii se pot g ˘asi intervale de încredere pentru valoarea real ˘a a lui s2.
În formula (11.2.12), (nk1)reprezint ˘a num ˘arul gradelor de libertate ale variabilei SSE.
In Figura 11.5 sunt afisate rezultatele unui model de regresie multipla prin care se doreste a se
explica nota unui student la examenul de Algebra pe baza rezultatelor la trei teste anterioare
examenului. Asadar, aici predictorii sunt rezultatele la teste, T1,T2, siT3si variabila prezisa
este nota la examen. Tabelul afiseaza estimarile parametrilor b0,b1,b2sib3, deviatiile standard
corespunzatoare acestor estimatori, statisticile test pentru semnificatiile valorilor obtinute si valorile
critice Pv= sigpentru fiecare parametru. Inspectand valorile pentru sig, observam ca, la nivelul
de semnificatie a=0:05, valoarea afisata pentru b0(constanta) nu este semnificativa, pe cand
celelalte trei valori sunt semnificative.
Figura 11.5: Exemplu de rezultate pentru un model de regresie multipla cu 3 predictori.
11.5.1 Test statistic pentru semnifica¸ tia coeficien¸ tilor de regresie multipl ˘a,bi
Mai jos prezent ˘am testul ce verific ˘a dac ˘abi(ieste un indice fixat între 1 ¸ si k) este semnificativ, la
un nivel de semnifica¸ tie a.
Test˘am
(H0):bi=0 versus (H1):bi6=0:
Consider ˘am statistica
T=bbi
sbbit(nk1);
Etapele testului sunt urm ˘atoarele:
• Calcul ˘am valoarea observat ˘a a statisticii T,
T0=bbi
sbbi;unde sbbi=s
cs2
ån
i=1(xkixk)2:
•Calcul ˘am cuantila de ordin 1a
2pentru reparti¸ tia tcu(nk1)grade de libertate,
t1a
2;nk1;
• Dac ˘a
jT0j<t1a
2;nk1;atunci accept ˘am ipoteza (H0);
jT0jt1a
2;n2k1;atunci accept ˘am ipoteza (H1);

11.6 Validitatea modelului de regresie liniar ˘a multipl ˘a 213
11.6 Validitatea modelului de regresie liniar ˘a multipl ˘a
Pentru a verifica daca modelul de regresie liniara multipla este unul valid, se pot folosi mai multe
metode, printre care amintim cele mai uzuale:
• coeficientul de determinare R2. Acest coeficient se calculeaz ˘a folosind urm ˘atoarea for-
mul˘a:
R2=1SSE
SST; (11.6.23)
unde
SSE=n
å
i=1(yibb0bb1x1ibb2x2i:::bbkxki)2; SST=n
å
i=1(yiy)2:
Aici, SSTreprezint ˘a suma total ˘a a p ˘atratelor the total sum of squares . Valorile lui R2sunt
între 0si1¸ si, pentru a avea un model destul de bun, ar fi necesar un coeficient de determinare
aproape de 1.
• coeficientul ajustat de determinare, ad jR2. În cazul în care valorile prezise byisunt ob¸ tinute
prin metoda celor mai mici p ˘atrate, statistica R2este o func¸ tie cresc ˘atoare de num ˘arul de
variabile independente din model. Astfel, exist ˘a posibilitatea de a cre¸ ste ilegitim valoarea
luiR2prin ad ˘augarea de noi variabile independente în analiza de regresie, fapt care nu duce
neap ˘arat la un model mai bun. Din acest motiv, au fost introdu¸ si coeficien¸ ti suplimentari.
Unul dintre ace¸ stia este coeficientul adjR2, care penalizeaz ˘a introducerea de noi variabile
independente în model.
Acesta are formula
adjR2=1(1R2)n1
nk1=R2(1R2)k
nk1;
unde neste volumul datelor ¸ si keste num ˘arul de variabile independente în modelul liniar
(f˘ar˘a a considera constanta). Valoarea lui adjR2este cel mult egal ˘a cu valoarea lui R2,
atingând un maxim în cazul în care num ˘arul de variabile explicative (independente) este
optim. Interpretarea coeficientului adjR2este diferit ˘a de cea a lui R2. Coeficientul ajustat
este o m ˘asur˘a a gradului de potrivire a num ˘arului de variabile independente pentru model.
• grafic ce indic ˘a normalitatea reziduurilor bei: Acesta poate fi realizat in MATLAB cu aju-
torul comenzii normplot . Acest grafic reprezinta probabilitatile de normalitate ale erorilor
versus cuantilele de la N(0;1). Daca modelul este valid, atunci valorile reprezentate in
figura vor fi cat mai apropiate de prima bisectoare (e.g., vezi al doilea grafic din Figura
11.10).
•byivs.yi: Daca modelul este valid, atunci valorile reprezentate in figura vor fi cat mai
apropiate de prima bisectoare (e.g., vezi primul grafic din Figura 11.10).
•beivs.yi: Daca modelul este valid, atunci valorile reprezentate in figura nu ar avea nicio
tendinta clara (e.g., vezi ultimul grafic din Figura 11.10).
• test de utilitate a modelului : Se testeaza ipoteza
(H0):b1=b2=:::=bk=0 vs. ipoteza (H1): macar un coeficient bj6=0:
Acceptarea ipotezei alternative indica faptul ca modelul liniar multiplu este valid. Statistica
test ests:
F=R2=k
(1R2)=(nk1)=MSR
MSE;
unde
MSR=SSR
k; SSR= SST SSE:
Pentru o valoare observata F0f1a
2;k;nk1, respingem ipoteza nula.

214 Capitolul 11. Regresie
11.7 Alte tipuri de regresie
•Regresie polinomiala
O regresie polinomiala simpla de ordin keste de forma:
Y=b0+b1X+b2X2+:::+bkXk+e: (11.7.24)
Folosind urmatoarele notatii, putem reduce regresia polinomiala la una simpla multipla
X1=X;X2=X2; :::; Xk=Xk:
Interpretarile coeficientilor bjin cazul unei regresii polinomiale nu se mai potrivesc cu cele
ale coeficientilor din cazul regresiei multiple, fiind greu de determinat.
•Regresie multipl ˘a cu interactiuni
O regresie multiple cu interactiuni de ordin 2 este de forma:
Y=b0+b1X1+b2X2+b3X1X2+b4X2
1+b5X2
2+e: (11.7.25)
Folosind urmatoarele notatii, putem reduce regresia anterioara la una simpla multipla
X1X2=X3;X2
1=X4;X2
2=X5:
11.8 Regresie logistic ˘a
De multe ori în Statistic ˘a este nevoie de a ob¸ tine clasific ˘ari ale datelor în func¸ tie de valorile
observate pentru o anumit ˘a variabil ˘a r˘aspuns. Spre exemplu:
–Preziceri ale ¸ sanselor unei anumite tumori s ˘a devin ˘a malign ˘a, sau s ˘a r˘amân ˘a benign ˘a;
–Predic¸ tii pentru urm ˘atorul pre¸ sedinte, bazate pe diverse m ˘asur˘atori politice, sociale
sau istorice;
–Clasificarea unor plante în func¸ tie de anumite caracteristici (e.g., înal¸ time, flori, frunze
etc)
–Prezicerea noii ¸ t ˘ari în care o anumit ˘a multina¸ tional ˘a va deschide business, bazat ˘a pe
factori politici, economici sau de particularit ˘a¸ tile companiei.
–Prezicerea ¸ sanselor ca un e-mail care sose¸ ste într-un cont de e-mail s ˘a fie spam sau nu.
Astfel, variabila r ˘aspuns poate lua un num ˘ar discret de valori (categorii). O clasificare
este gruparea datelor într-un num ˘ar discret de categorii, prin atribuirea unei valori
r˘aspuns corespunz ˘atoare. O problem ˘a statistic ˘a de clasificare const ˘a în prezicerea valorii
variabilei r ˘aspuns nominale pe baza unor observa¸ tii asupra unui set de variabile independente.
Pentru început, s ˘a presupunem c ˘a variabila r ˘aspuns Ypoate lua doar dou ˘a posibile valori.
Astfel, Yeste o variabila de tip Bernoulli, ce poate lua, spre exemplu, valorile 0si1, cu
P(Y=1) =psiP(Y=0) =q=1p.
Spre exemplu, variabila Yreprezinta decizia ca o anumita masina sa aiba nevoie de revizie.
Valoarea Y=0reprezinta NUsiY=1reprezinta DA. Astfel, preprezinta probabilitatea ca
masina sa necesite revizie. In general, aceasta probabilitate depinde de mai multi factori,
spre exemplu: X1=numarul de km parcursi, X2=vechimea masinii, X3=timpul scurs
de la ultima revizie. Pentru simplitate, sa ne limitam doar la acesti trei factori. Insa, este
clar, probabilitatea pnu poate depinde liniar de acesti factori, si nici alta forma de regresie
studiata pana acum nu poate fi aplicata. Motivul este simplu: daca am presupune ca
p=b0+b1X1+b2X2+b3X3+e;

11.8 Regresie logistic ˘a 215
atunci exista posibilitatea ca membrul din dreapta sa nu apartina intervalului [0;1]. In
consecinta, este nevoie de o noua dependenta a probabilitatii pde acesti predictori. Un
exemplu potrivit este cel dat de functia logit , i.e., f(x) =ea+bx
1+ea+bx. V om considera urmatorul
model de regresie:
p=eb0+b1X1+b2X2+b3X3
1+eb0+b1X1+b2X2+b3X3; (11.8.26)
numit regresie logistica multipl˘ a . Aici, p=p(X) =P(Y=1jX)este probabilitatea
condi¸ tionat ˘a ca variabila r ˘aspuns Ys˘a ia valoarea 1, ¸ stiind c ˘a am observat datele X=
(X1;X2; :::; Xn), iar1p=1p(X) =P(Y=0jX)este probabilitatea ca variabila r ˘aspuns
Ys˘a ia valoarea 1, ¸ stiind c ˘a am observat datele X.. În cazul unei singure variabile indepen-
dente, X, regresia se va numi regresie logistica . Din relatia (11.8.26), obtinem:
p
1p=eb0+b1X1+b2X2+b3X3:
Expresiap
1pse numeste cota de realizare a evenimentului . De exemplu, daca p=0:25,
atunci cota este de 1 : 3 ca masina sa aiba nevoie de reparatii (i.e., o sansa din patru in
favoarea reparatiilor).
Prin logaritmare, gasim ca
lnp
1p
=b0+b1X1+b2X2+b3X3: (11.8.27)
Astfel, modelul poate fi privit ca un model de regresie liniara multipla. Coeficien¸ tii bsunt
u¸ sor de interpretat. Spre exemplu, dac ˘a în rela¸ tia (11.8.27) variabila X1cre¸ ste cu o unitate,
men¸ tinând celelalte dou ˘a variabile fixe, atunci logaritmul cotei se va modifica cu cantitatea
b1. Dac ˘a facem acela¸ si lucru în rela¸ tia (11.8.26), atunci o cre¸ stere cu o unitate a variabilei X1,
¸ tinând celelalte variabile fixe, va conduce la o modificare cu eb1a cotei pentru care Y=1.
Pe baza observatiilor se pot determina estimatori pentru parametri, iar pe baza acestor
estimatori se estimeaza probabilitatea p. O metod ˘a de estimare a parametrilor bieste metoda
verosimilit ˘a¸ tii maxime, pe care o vom prezenta mai jos în cazul particular a trei variabile
independente. Cazul mai general, a kvariabile independente, poate fi scris imediat.
Metoda verosimilit ˘a¸ tii maxime
Dat fiind un e¸ santion (x1i;x2i;x3i;yi);i=1;2; :::; n, not˘am cu p(xi) =P(yi=1jxi). Pre-
supunem c ˘a
lnp(xi)
1p(xi)
=b0+b1x1i+b2x2i+b3x3i;i=1;2; :::; n;
echivalent cu
p(xi) =eb0+b1x1i+b2x2i+b3x3i
1+eb0+b1x1i+b2x2i+b3x3i;i=1;2; :::; n:
Deoarece YB(1;p(x)), func¸ tia de probabilitate pentru Bernoulli este
f(y;p(x)) = p(x)y[1p(x)]1y;unde y2f0;1g:
Astfel, presupunând independen¸ ta datelor observate, func¸ tia de verosimilitate corespunz ˘a-
toare e¸ santionului va fi
L(b) =n
Õ
i=1p(x)yi[1p(x)]1yi:

216 Capitolul 11. Regresie
Estimatorii parametrilor b1;b2b3ob¸ tinu¸ ti prin metoda verosimilit ˘a¸ tii maxime sunt valorile
pentru care se ob i ¸ne maximumul acestei func¸ tii. Maximizarea aceste func¸ tii este echivalent ˘a
cu maximixarea logaritmului s ˘au. Astfel, estimatoriibbsunt ale¸ si astfel încât maximizeaz ˘a
func¸ tia
l(b) =n
å
i=1[yilnp(xi)+(1yi)ln(1p(xi))]
=n
å
i=1
yilnp(xi)
1p(xi)
+ln(1p(xi))
=n
å
i=1h
yi(b0+b1x1i+b2x2i+b3x3i)ln(1+eb0+b1x1i+b2x2i+b3x3i)i
:
Func¸ tial(b)se mai nume¸ ste ¸ si func¸ tia cost . Dac ˘a am c ˘auta punctele critice ale acestei
func¸ tii prin anularea derivatelor par¸ tiale în raport cu b0;b1;b2¸ sib3nu vom g ˘asi solu¸ tii
explicite. De aceea, pentru a maximiza aceast ˘a func¸ tie se folosesc metode iterative nu-
merice (e.g., bazate pe descre¸ sterea gradientului). Astfel, determinarea estimatorilor pentru
parametrii de regresie logistic ˘a este o munc ˘a mult mai dificil ˘a decât în cazul regresiei liniare
multiple, ce necesit ˘a implementarea de metode numerice potrivite pe un computer. Aplica¸ tia
MATLAB poate face acest lucru prin apelarea func¸ tiei mnrfit . Folosind aceast ˘a func¸ tie,
putem determina chiar ¸ si intervale de încredere pentru parametrii de regresie.
Dup˘a determinarea estimatorilor parametrilor de regresiebb, urm ˘atorul pas este prezicerea
rezultatului pentru o nou ˘a dat ˘a de intrare x= (x1;x2;x3). V om avea:
dp(x) =ebb0+bb1x1+bb2x2+bb3x3
1+ebb0+bb1x1+bb2x2+bb3x3
Pe baza acestei estim ˘ari, putem prezice clasa asociat ˘a astfel:
dy(x) =(
1;dac˘adp(x)0:5;
0;dac˘adp(x)<0:5;
sau, în mod echivalent,
dy(x) =(
1;dac˘abb0+bb1x1+bb2x2+bb3x30;
0;dac˘abb0+bb1x1+bb2x2+bb3x3<0:
Totodat ˘a, putem prezice ¸ si cota, folosind rela¸ tia logit(dp(x)) =bb0+bb1x1+bb2x2+bb3x3.
Mul¸ timea
fx= (x1;x2;x3)2R3;bb0+bb1x1+bb2x2+bb3x3=0g
se nume¸ ste frontiera de decizie între clasele 0 ¸ si 1.
Regresie logistic ˘a multinomial ˘a
Presupunem c ˘a variabila nominal ˘aYpoate lua un set de k3valori distincte (sau valorile lui
Ypot fi grupate în kclase disjuncte), 1;2; :::; k. În mod similar, presupunând c ˘a logaritmul

11.8 Regresie logistic ˘a 217
cotelor urmeaz ˘a un model linear de regresie multipl ˘a, putem scrie
lnP(Y=1jX)
P(Y=kjX)
=b10+b11X1+b12X2+b13X3=bT
1X;
lnP(Y=2jX)
P(Y=kjX)
=b20+b11X1+b22X2+b23X3=bT
2X;
:::
lnP(Y=k1jX)
P(Y=kjX)
=bk1;0+bk1;1X1+bk1;2X2+bk1;3X3=bT
k1X:
De aici, ob¸ tinem c ˘a
P(Y=1jX) =eb10+b11X1+b12X2+b13X3
1+k1
å
j=1ebj0+bj1X1+bj2X2+bj3X3=ebT
1X
1+k1
å
j=1ebT
jX;
P(Y=2jX) =eb20+b21X1+b22X2+b23X3
1+k1
å
j=1ebj0+bj1X1+bj2X2+bj3X3=ebT
2X
1+k1
å
j=1ebT
jX;
:::
P(Y=k1jX) =eb0+b11X1+b12X2+b13X3
1+k1
å
j=1ebj0+bj1X1+bj2X2+bj3X3=ebT
k1X
1+k1
å
j=1ebT
jX;
P(Y=kjX) =1
1+k1
å
j=1ebj0+bj1X1+bj2X2+bj3X3=1
1+k1
å
j=1ebT
jX:
Func¸ tia pentru care f(z)j=ezj
1+åk1
k=1ezk;j=1;2; :::; k1se nume¸ ste func¸ tia softmax .
Este considerat ˘a a fi generalizarea func¸ tiei logit.
Interpretarea coeficien¸ tilor este similar ˘a ca în cazul binomial. Estim ˘arile coeficien¸ tilor se
pot ob¸ tine prin metoda verosimilit ˘a¸ tii maxime, folosind metode numerice pe un computer.
Dup˘a determinarea estimatorilor parametrilor de regresiebb, urm ˘atorul pas este prezicerea
rezultatului pentru o nou ˘a dat ˘a de intrare x= (x1;x2;x3). V om avea:
[p1(x) =ebb1TX
1+k1
å
j=1ebbjTX;
[p2(x) =ebb2TX
1+k1
å
j=1ebbjTX;
::: :::
\pk1(x) =ebbT
k1X
1+k1
å
j=1ebbjTX;
\pk(x) =1
1+k1
å
j=1ebbjTX:

218 Capitolul 11. Regresie
Predic¸ tia claselor se poate face astfel:
Alege clasa jdac˘a j=argmaxj=1;k[pj(x):
În cuvinte, dac ˘a pentru datele observate xg˘asim o predic¸ tie [pj(x)maxim ˘a, atunci variabila
r˘aspuns Yva fi clasificat ˘a în clasa j.
11.9 Func¸ tii MATLAB specifice corela¸ tiei ¸ si regresiei
FieX¸ siYdoi vectori de acela¸ si tip. Urm ˘atoarele func¸ tii din MATLAB sunt utile pentru analiza
corela¸ tiei ¸ si regresiei:
• scatter(X,Y) reprezint ˘a grafic valorile lui Yvs. valorile lui X;
• R = corrcoef(X,Y) calculeaz ˘a coeficientul de corela¸ tie între X¸ si Y. Rezultatul este afi¸ sat
sub forma:
>> ans =
1.0000 r
r 1.0000
unde 1.0000 este coeficientul de corela¸ tie dintre X¸ si X, respectiv Y¸ si Y, iarreste coeficientul
c˘autat.
• cov(X,Y) pentru matricea de covarian¸ t ˘a empiric ˘a dintre X¸ si Y(formula (3.3.2));
Func¸ tia cov(X,Y,1) este tot matrice de covarian¸ t ˘a, îns ˘a în acest caz formula folosit ˘a con¸ tine
factorul n1în fa¸ ta sumei.
• b = regress(Y,X) afi¸ seaz ˘a estimarea coeficien¸ tilor pentru care Y=bX. Aici, Xeste o
matrice nk¸ si Yun vector coloana n1. Coloanele vectorului Xcorespund observa¸ tiilor
(i.e., variabilelor independente).
Dac˘a Xeste un vector coloan ˘a de aceea¸ si dimensiune cu Y, atunci beste doar un scalar.
Dac˘a Xeste matrice, atunci putem folosi aceast ˘a comand ˘a pentru a estima coeficien¸ tii
de regresie liniar ˘a multipl ˘a. Spre exemplu, s ˘a presupunem c ˘a se dore¸ ste estimarea
coeficien¸ tilor de regresie liniar ˘a simpl ˘a, i.e., b0¸ sib1pentru care y=b0+b1x, unde
pentru fiecare dintre x¸ siyavem nobserva¸ tii. În acest caz, k=2. Fie X, respectiv, Y
vectorii ce con¸ tin aceste observa¸ tii. Comanda MATLAB care estimeaz ˘a cei doi coeficien¸ ti este
B = regress(Y, [ones(n,1) X])
Comanda furnizeaz ˘a aproxim ˘ari pentru parametrii b0¸ sib1ce fac urm ˘atoarea aproximare cât
mai bun ˘a:
0
BBB@y1
y2

yn1
CCCAb00
BBB@1
1

11
CCCA+b10
BBB@x1
x2

xn1
CCCA:
• p = polyfit(X,Y,n) g˘ase¸ ste coeficien¸ tii unui polinom p(x)de grad nale c˘arui valori p(xi)
se apropie cel mai mult de datele observate yi, în sensul celor mai mici p ˘atrate. MATLAB
va afi¸ sa în acest caz un vector linie de lungime n+1, con¸ tinând coeficien¸ tii polinomiali în
ordinea descresc ˘atoare a puterilor. Spre exemplu, dac ˘a
p(x) =bnxn+bn1xn1+:::+b2x2+b1x+b0;
atunci M ATLAB va afi¸ sa
bn;bn1; :::; b2;b1;b0:

11.10 Probleme rezolvate 219
• Y = polyval(p,X) afi¸ seaz ˘a valorile unui polinom p(x)pentru valorile din vectorul X.
Polinomul p(x)este dat prin coeficien¸ tii s ˘ai, ordona¸ ti în ordine descresc ˘atoare a puterilor.
De exemplu, dac ˘ap(x) =3×2+2x+4¸ si dorim s ˘a evalu ˘am acest polinom pentru trei valori,
3;1 ¸ si 5, atunci scriem în M ATLAB :
p = [3 2 4]; polyval(p,[-3 1 5])
ob¸ tinând rezultatul:
ans = 37 5 69
• Pentru regresia logistic ˘a folosim comand MATLAB mnrfit în forma
[B,dev,stats] = mnrfit(X,Y,Name,Value)
unde:
–variabilele de intrare sunt: Xeste vectorul ce con¸ tine valorile variabilelor stimul
(predictorii), Yeste variabila r ˘aspuns, iar Name,Value sunt perechi de argumente
suplimentare. Folosind aceste argumente, putem ob¸ tine un model nominal, ordinal,
ierarhic, sau chiar schimba func¸ tia logit.
–variabilele de ie¸ sire sunt: Bcoeficien¸ tii de regresie (începând cu termenul liber),
devsuma tuturor devia¸ tiilor reziduurilor, iar stats con¸ tine diverse informa¸ tii, cum
ar fi:
* seestim ˘arile erorilor standard pentru coeficien¸ tii de regresie B,
* dfegradele de libertate,
* pp-value,
* coeffcorrmatricea de covarian¸ t ˘a estimat ˘a pentru B.
11.10 Probleme rezolvate
Exerci¸ tiu 11.1 Dorim s ˘a determin ˘am dac ˘a exist ˘a vreo corela¸ tie între notele la examenul de
Probabilit ˘a¸ ti ¸ si cele de la Statistic ˘a ob¸ tinute de studen¸ tii unui an de studiu. În acest sens, au fost
observate notele ob¸ tinute de 10studen¸ ti la aceste dou ˘a discipline ¸ si au fost trecute în Tabelul 11.1
de mai jos. Se cere:
(a) Stabili¸ ti dac ˘a exist ˘a o leg ˘atur˘a puternic ˘a între aceste note ( r¸ sir2);
(b) Determina¸ ti dreapta de regresie a notelor de la Statistic ˘a în raport cu notele la Probabilit ˘a¸ ti ¸ si
desena¸ ti-o în acela¸ si sistem de axe ca ¸ si notele ob¸ tinute ( scatter plot ).
(c) Testa¸ ti dac ˘a exist ˘a sau nu vreo corela¸ tie între notele de la Statistic ˘a ¸ si Probabilit ˘a¸ ti.
Student A B C D E F G H I J
Probabilit ˘a¸ ti 82 36 72 58 70 48 44 94 60 40
Statistic ˘a 84 42 50 64 68 54 46 80 60 32
Tabela 11.1: Notele la Statistic ˘a ¸ si Probabilit ˘a¸ ti.
R:(a) Calcul ˘amrcu formula (10.2.1). Func¸ tia Matlab pentru coeficientul Pearson este corrcoef .
În codul MATLAB de mai jos l-am calculat pe rfolosind aceast ˘a func¸ tie, dar ¸ si în dou ˘a alte modalit ˘a¸ ti,
folosind formula (10.2.2) sau scriind desf ˘a¸ surat expresia lui r.
(b) Coeficien¸ tii de regresie se pot ob¸ tine în 3moduri, fie folosind func¸ tia MATLAB polyfit , care
realizeaz ˘a fitarea datelor cu un polinom, în cazul liniar fiind un polinom de forma S(P) =b0+b1P.
O alt ˘a variant ˘a de calcul a coeficien¸ tilor b0¸ sib1este simpla implementare în MATLAB a formulelor

220 Capitolul 11. Regresie
Figura 11.6: Notele ¸ si dreapta de regresie.
pentru ace¸ stia. A treia variant ˘a este folosirea func¸ tiei regress din M ATLAB .
Reprezentarea grafic ˘a a datelor poate fi realizat ˘a folosind ori func¸ tia plot , ori func¸ tia "scatter",
ambele func¸ tii predefinite din M ATLAB . Graficul este cel din Figura 11.6.
P = [82,36,72,58,70,48,44,94,60,40]; S = [84,42,50,64,68,54,46,80,40,32];
mp = mean(P); ms = mean(S);
%%%~~~~~~~~~~ Calculez coeficientul de corelatie empiric ~~~~~~~~~~~~~~~~~~~~
CC = corrcoef(P,S); r = CC(1,2)
%%%~~~~~~~~~~~~~~~~~ Alte variante de calcul pentru r ~~~~~~~~~~~~~~~~~~~~~~~
% C = cov(P,S)/(std(P)*std(S)); r = C(1,2);
% r = sum((P-mp).*(S-ms))/sqrt(sum((P-mp).^2)*sum((S-ms).^2));
%%%~~~~~~~~~~~~~~~~~~~ Calculez coeficientii de regresie ~~~~~~~~~~~~~~~~~~
B = polyfit(P,S,1)
%%%~~~~~~~~~~~~~~~ Alte variante de calcul pentru B ~~~~~~~~~~~~~~~~~~~~~~~~~
% b1 = sum((P-mp).*(S-ms))/sum((P-mp).^2); b0 = ms – b1*mp;
% B = regress(S',[P;ones(10,1)']');
%%%~~~~~~~~~~~ Scatter plot si dreapta de regresie ~~~~~~~~~~~~~~~~~~~~~~~~~
x=0:100; plot(P,S,'*',x,B(2) + B(1)*x,'r-')
% scatter(P,S) % varianta pentru scatter plot
%%%~~~~~~~~~~~~~~~~~~~ Testul pentru r=0 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
alpha = 0.05; n = 10; T0 = r*sqrt((n-2)/(1-r^2));quant = tinv(1-alpha/2,n-2);
if (abs(T0) < quant)
disp('P si S nu sunt corelate')
else
disp('P si S sunt corelate')
end
Rulând codul de mai sus, ob¸ tinem:
r B = P si S sunt corelate
0.8247 0.7553 10.3816

11.10 Probleme rezolvate 221
Exerci¸ tiu 11.2 Prognoza spune c ˘a temperatura într-o anumit ˘a zon ˘a muntoas ˘a descre¸ ste cu cca.
6C la fiecare 1km c⸠stigat în în ˘al¸ time. Pentru o verificare, au fost m ˘asurate simultan temperaturile
în10localit ˘a¸ ti diferite din acea zon ˘a, acestea fiind înregistrate în Tabelul 11.2. Dac ˘a temperatura se
hi500 1000 1500 2000 2500 3000 3500 4000 4500 5000
Ti15 14 11 6 1 2 0 4814
Tabela 11.2: Tabel cu temperaturi ( Ti) la diverse altitudini ( hi).
presupune a fi o func¸ tie liniar ˘a (regresie liniar ˘a) de altitudine, se cere:
(i) S ˘a se estimeze parametrii b0¸ sib1;
(ii) S ˘a se testeze ( a=0:05) dac ˘a prognoza din enun¸ t este adevarat ˘a (i.e., b1=0:006);
(iii) S ˘a se g ˘aseasc ˘a un interval de încredere pentru panta dreptei de regresie, b1;
(iv) Cât de bun ˘a este aproximarea temperaturii cu o func¸ tie liniar ˘a de altitudine?
(v) Estima¸ ti temperatura la altitudinea h=2544 . G˘asi¸ ti, de asemenea, un interval de încredere
pentru aceasta temperatur ˘a.
Figura 11.7: Diagrama de temperaturi în func¸ tie de altitudine, ¸ si dreapta de regresie.
R:(i) Estim ˘am parametrii necunoscu¸ ti folosind formulele (11.2.8) sau folosind func¸ tia MATLAB
polyfit (vezi codul de mai jos).
(ii) Pentru testarea ipotezei nule (H0):b1=0:006 utiliz ˘am testul din Sec¸ tiunea 11.2.1.
(iii) Un interval de încredere pentru b1se poate calcula folosind formula (11.2.15).
(iv) Pentru a decide cât de bun ˘a este aproximarea, calcul ˘am coeficientul de determinare, R2. Acesta
esteR2=94:83, ceea ce înseamn ˘a c˘a temperatura real ˘a este foarte aproape de cea prognozat ˘a.
(v) Utiliz ˘am formulele (11.3.18) ¸ si (11.3.19), pentru xp=2544 . (vezi rezultatele codului de mai
jos)
Codul M ATLAB este urm ˘atorul:
h = [500 1000 1500 2000 2500 3000 3500 4000 4500 5000];
T = [15 14 11 6 -1 2 0 -4 -8 -14]; mh = mean(h); mT = mean(T);
%%%Calculez coeficientul de corelatie empiric si coeficientul de determinare
CC = corrcoef(h,T); r = CC(1,2)

222 Capitolul 11. Regresie
R2 = r^2
%%%~~~~~~~~~~~~~~ Calculez coeficientii de regresie ~~~~~~~~~~~~~~~~~~~~~~~~
B = polyfit(h,T,1)
%%%~~~~~~~~~~~~~~~ Alte variante de calcul pentru B ~~~~~~~~~~~~~~~~~~~~~~~~
% B = regress(T',[h;ones(10,1)']');
% b1 = sum((h-mh).*(T-mT))/sum((h-mh).^2); b0 = mT – b1*mh;
%%%~~~~~~~~~~~~~~~ Scatter plot si dreapta de regresie ~~~~~~~~~~~~~~~~~~~
x=0:5600; plot(h,T,'*',x,B(2) + B(1)*x,'r-')
%%% Testul pentru panta dreptei de regresie ,(H0):b1=0:006
alpha = 0.05; n = 10;
sigmahat = sqrt(sum((T-B(2)-B(1)*h).^2)/(n-2));sxx = sum((h-mean(h)).^2);
T0 = (B(1)+0.006)*sqrt(sxx)/sigmahat; quant = tinv(1-alpha/2,n-2);
if (abs(T0) < quant)
disp('ipoteza (H0):b1=0:006 se accepta')
else
disp('ipoteza (H0):b1=0:006 se respinge')
end
%%%Interval de incredere pentru b1
CI = [B(1) – quant*sigmahat/sqrt(sxx), B(1) + quant*sigmahat/sqrt(sxx)]
hp = 2544; Tp = B(2) + B(1)*hp
CI_T = [Tp – quant*sigmahat*sqrt(1 + 1/n + (hp-mh)^2/sxx), …
Tp + quant*sigmahat*sqrt(1 + 1/n + (hp-mh)^2/sxx)]
Rulând codul de mai sus, ob¸ tinem:
r = R2 B = CI =
-0.9738 0.9483 [-0.0061, 18.9333] [-0.0073, -0.005]
Tp = CI_T =
3.3610 [-2.1922, 8.9142]
ipoteza (H0):b1=0:006 se accepta
Exerci¸ tiu 11.3 Fie ¸ sirul de date:
x = 0.3 0.8 1.2 1.6 2.1 2.4 2.7
y = 3.52 4.53 5.58 6.62 8.27 10.18 11.80
S˘a se studieze existen¸ ta unei dependen¸ te între x¸ siyde forma y=aebx.
R: Calcul ˘am ln y. Ob¸ tinem:
ln y = 1.2585 1.5107 1.7192 1.8901 2.1126 2.3204 2.4681
Calcul ˘am coeficientul de corela¸ tie între x¸ silny¸ si g˘asim c ˘ar=0:99881, de unde b ˘anuim c ˘a e
posibil s ˘a avem o regresie liniar ˘a între variabilele x¸ silny. Estim ˘am coeficien¸ tii de regresie ai lui lny
fa¸ t˘a dex¸ si g˘asim: ˆb0=1:1074 ;ˆb1=0:4980 . Aceasta poate fi realizat ˘a înMATLAB prin comanda
regress(log(y)',[ones(7,1), x'])

11.10 Probleme rezolvate 223
A¸ sadar, lny=1:1074+0:4980 x, de unde y=e1:1074e0:4980 x3ex=2. În Figura 11.8 am reprezentat
grafic datele observate ¸ si aproxim ˘arile lor.
Figura 11.8: Aproximarea datelor din Exerci¸ tiul 11.3
Exerci¸ tiu 11.1 S˘a se determine daca exista vreo legatura liniara (multipla) intre nota obtinuta la
teza de Matematica la Bacalaureat Bsi predictorii M=valoarea medie a mediilor la disciplina
Matematica obtinute in anii de liceu si T=media testelor de verificare sustinute ("simulari") inainte
de Bacalaureat. In acest sens, consideram o selectie aleatoare de 7 elevi dintr-un anumit oras care
au sustinut Bacalaureatul la Matematica. Valorile corespunzatoare pentru M;T;Bsunt:
E1 E2 E3 E4 E5 E6 E7
M 10 9.12 8.25 7.85 6.13 6.73 7.88
T9.75 9.00 8.50 6.95 7.15 6.00 7.75
B9.90 8.63 8.31 7.19 6.83 6.40 7.67
Cerinte:
(1) Determinati o estimare a suprafetei (planului) de regresie liniara multipla, B=b0+b1M+b2T.
(2) Reprezentati in acelasi sistem de coordonate valorile observate si planul obtinut anterior.
(3) Reprezentati grafic (a) valorile prezise vs. valorile observate, (b) probabilitatile de normalitate
a reziduurilor si (c) reziduurile vs. valorile prezise la Bac. Comentati graficele obtinute.
(4) Testati daca parametrii b1sib2sunt semnificativi la nivelul de semnificatie a=0:05.
(5) Comentati utilitatea modelului de regresie, calculand R2,ad jR2sau folosind un test de utilitate.
(6) Estimati nota la teza de Matematica la Bacalaureat pentru un elev ce are Mp=8:50siTp=7:65.
R:(1) Pentru a estima coeficientii de regresie vom folosi comanda regress dinMATLAB . Mai
intai, punem predictorii MsiTintr-o matrice X, care mai contine si o coloana cu elementul 1
(coeficientul de regresii pentru aceasta coloana va fi b0).
n = 7; k = 2; alpha = 0.05;
B = [9.90 8.63 8.31 7.19 6.83 6.40 7.67];
T = [9.75 9.00 8.50 6.95 7.15 6.00 7.75];

224 Capitolul 11. Regresie
M = [10 9.12 8.25 7.85 6.13 6.73 7.88]; X = [ones(1,7); M; T]';
b = regress(B',X); % coeficientii de regresie
Obtinem estimarea suprafetei (planului) de regresie:
B=0:4323+0:3371 M+0:5996 T:
(2) Folosind comanda plot3 , reprezentam datele observate (vezi Figura 11.9). Comanda mesh
este folosita pentru a reprezenta planul de regresie pentru un grid creat de comanda meshgrid .
figure(1); plot3(M',T',B','r*'); hold on % reprezinta datele observate
x1 = linspace(6,10,50); x2 = linspace(6,10,50);
[m,t] = meshgrid(x1,x2); % creaza un grid
bac = b(1)+b(2)*m+b(3)*t; mesh(m',t',bac')% valorile lui B pentru grid
Bpred = b(1)+b(2)*M+b(3)*T; grid on % valorile prezise pt. B in Mi si Ti
xlabel('M'); ylabel('T'); zlabel('B');
Figura 11.9: Suprafa¸ ta de regresie.
(3) Reziduurile sunt bei=BibBi.
figure(2); z = 5:.1:10;
plot(B,Bpred,'*r', z,z,'-b') % valori prezise vs. valori observate
figure(3); rez = B-Bpred;
normplot(rez) % normalitatea reziduurilor
figure(4);
plot(Bpred,rez,'*') % reziduuri vs. yi

11.10 Probleme rezolvate 225
Se observa ca valorile reprezentate in Figura (a) urmeaza prima bisectoare, deci valorile prezise
sunt apropiate de cele observate la Bac. In Figura (b), reziduurile vor fi normale daca punctele ce le
reprezinta sunt apropiate de prima bisectoare. In Figura (c) se observa ca nu exista nicio tendinta in
norul de date reprezentat, fapt care sugereaza ca reziduurile sunt valori aleatoare.
(4) Codul de mai jos testeaza, pe rand, semnificatia coeficientului b1si a coeficientului b2. In
testare, se foloseste statistica T. Se obtine ca ambii coeficienti sunt semnificativi la nivelul de
semnificatie a=0:05.
% ~~~~~~~~~~~~~~~~~~ Test for b1 ~~~~~~~~~~~~~~~~~~~~
SSE = sum((B-Bpred).^2); sig = sqrt(SSE/(n-k-1));
smm = sqrt(sum((M-mean(M)).^2));
T10 = b(2)/(sig/smm); Tc = tinv(1-alpha/2,n-k-1);
if (abs(T10) < Tc);
disp('b(2) nesemnificativ')
else
disp('b(2) semnificativ')
end
% ~~~~~~~~~~~~~~~~~~ Test for b2 ~~~~~~~~~~~~~~~~~~~~
stt = sqrt(sum((T-mean(T)).^2)); T20 = b(3)/(sig/stt);
if (abs(T20) < Tc);
disp('b(3) nesemnificativ')
else
disp('b(3) semnificativ')
end
(5) Coeficientul R2ne va sugera cat de bun este modelul iar coeficientul ad jR2ne va da o idee
despre numarul optim de variabile predictor. Obtinem: R2=0:9818 siad jR2=0:9727 , adica un
model destul de bun, cu un numar optim de variabile predictor.
SST = sum((B-mean(B)).^2);
R2 = 1 – SSE/SST; adjR2 = 1- SSE*(n-1)/(SST*(n-k-1));
% ~~~~~~~~~~ Test de utilitate a modelului ~~~~~~~~~~
F0 = (R2/k)/((1-R2)/(n-k-1)); Fc = finv(1-alpha/2, k, n-k-1);
if (F0 < Fc);
disp('modelul nu este util')
else
disp('model util')
end
Testul de utilitate afiseaza model util , in sensul ca macar unul dinte coeficientii b1sib2este
nenul.
(6) Predictia dorita este cBp=7:8848, obtinuta in urma liniei de cod de mai jos:

226 Capitolul 11. Regresie
Mp = 8.50; Tp = 7.65; Bp = b(1)+b(2)*Mp+b(3)*Tp;
Figura 11.10: Grafice pentru validarea modelului de regresie liniara multipla.
Exerci¸ tiu 11.2 Tabelul de mai jos con¸ tine calificativele ob¸ tinute de doi elevi de clasa I la cele 9
discipline ¸ scolare.
Discipline A B C D E F G H I
elev I B FB FB B B FB S I FB
elev II S I B FB FB B B S B
(FB = "foarte bine", B = "bine", S = "suficient", I = "insuficient".)
Dorim s ˘a stabilim o posibil ˘a leg ˘atur˘a între cele dou ˘a seturi de calificative. Calcula¸ ti un coeficient
de corela¸ tie potrivit. Comenta¸ ti rezultatul ob¸ tinut.
R: Variabilele pentru care avem valorile din tabel sunt de tip calitativ. Pentru a determina
coeficientul de corelatie Spearman, determinam mai intai rangurile observatiilor in fiecare set.
Acestea sunt (ordonam crescator incepand cu I si terminand cu FB. Pentru valori egale, rangul
atribuit este media rangurilor valorilor egale):
Discipline A B C D E F G H I
elev I 4.5 7.5 7.5 4 4 7.5 2 1 7.5
elev II 2.5 1 5.5 8.5 8.5 5.5 5.5 2.5 5.5
n = 9; alpha = 0.05;
rang1 = [4.5 7.5 7.5 4 4 7.5 2 1 7.5];
rang2 = [2.5 1 5.5 8.5 8.5 5.5 5.5 2.5 5.5];
R = corrcoef(rang1,rang2); rS = R(1,2); % rS este coef. Spearman

11.10 Probleme rezolvate 227
T0 = rS*sqrt((n-2)/(1-rS^2)); Tc = tinv(1-alpha/2,n-2);
if (abs(T0) < Tc)
disp('coeficientul de corelatie nu este semnificativ') % rhoS = 0
else
disp('coeficientul de corelatie este semnificativ') % rhoS <> 0
end
Rezultatul este:
rS = -0.0659 coeficientul de corelatie nu este semnificativ
Exerci¸ tiu 11.4 Conform fi¸ sei disciplinei Statistic ˘a Aplicat ˘a, num ˘arul de ore pe care un student
trebuie s ˘a le aloce pentru studiu individual la aceast ˘a disciplin ˘a este de 90. Tabelul urm ˘ator con¸ tine
informa¸ tii despre num ˘arul de ore alocate pentru studiu individual ¸ si rezultatul la examen pentru un
num˘ar de 30 de cursan¸ ti.
ore Rezultat ore Rezultat ore Rezultat ore Rezultat ore Rezultat
45 Pass 53 Pass 31 Fail 64 Pass 51 Pass
25 Fail 78 Pass 70 Pass 60 Pass 11 Fail
61 Pass 13 Fail 52 Fail 12 Fail 82 Pass
85 Pass 23 Fail 16 Fail 48 Fail 100 Pass
43 Pass 2 Fail 14 Fail 68 Pass 8 Fail
5 Fail 53 Pass 22 Fail 35 Fail 10 Fail
Folosind un model de regresie logistic ˘a, estima¸ ti ¸ sansele ca un cursant care a petrecut 50de ore
studiind la aceast ˘a disciplin ˘a s˘a treac ˘a examenul.
R: În codul MATLAB de mai jos, hreprezint ˘a num ˘arul de ore de studiu, peste probabilitatea
corespunz ˘atoare de a trece examenul. Rulând codul, ob¸ tinem Figura 11.11 ¸ si predic¸ tiile: \p(50) =
0:7474 pentru probabilitatea ¸ si 2:9592 pentru cota ca un student ce aloc ˘a 50 de ore de studiu la
aceast ˘a materie s ˘a treac ˘a examenul. Cu alte cuvinte, ¸ sansele de reu¸ sit ˘a sunt de aproximativ 75%, cu
o cot ˘a de aproximativ 4 : 1 pentru reu¸ sit ˘a (i.e., 3 ¸ sanse din 4).
Estima¸ tiile punctuale ¸ si intervalele de încredere pentru cei doi parametri sunt
bb0=9:1427 ;bb0=0:2046 ;
(b0;b0) = ( 0:2395 ;18:0459); (b1;b1) = (0:0181 ;0:3910):
P-values pentru estimatori sunt Pv(b0) =0:0441 ;Pv(b1) =0:0316 , de unde deducem c ˘a ambii
parametri sunt semnificativi la nivelul de semnifica¸ tie a=0:05.
h = [45 53 31 64 51 25 78 70 60 11 61 13 52 12 82 …
85 23 16 48 100 43 2 14 68 8 5 53 22 35 10]';
p = [1 1 0 1 1 0 1 1 1 0 1 0 0 0 1 1 0 0 0 1 1 0 0 1 0 0 1 0 0 0]';
C = categorical(p);
[B,dev,stats] = mnrfit(h, C);
B % regression coefficients

228 Capitolul 11. Regresie
x = [0:0.1:105]'; xPred = 1./(1+exp(B(2)*x+B(1)));
plot(h,p,'b*', x, xPred,'r-','Linewidth',2) % Plot the regression curve
xp = 50; Pp = 1./(1+exp(B(2)*xp+B(1))), Cota = Pp/(1-Pp)
% intervale de incredere
left = B – 1.96*stats.se, right = B + 1.96*stats.se
% P-values
Pv = stats.p
Figura 11.11: Grafic modelul de regresie logistic ˘a
Exerci¸ tiu 11.5 Datele de mai jos reprezint ˘a rezultatele la examen ( p=1înseamn ˘a promovat ¸ si
p=0înseamn ˘a picat) pentru un grup de 35 de studen¸ ti, în func¸ tie de num ˘arul de ore de studiu
individual, h, ¸ si num ˘arul de ore pe care studentul l-a petrecut la clas ˘a,c. Dorim s ˘a clasific ˘am
rezultatul la examen în func¸ tie de h¸ sic.
h45 53 31 64 51 25 78 70 60 11 61 13 52 12 82 85 23 16
c23 31 20 24 30 19 20 12 33 37 26 5 20 31 56 32 31 25
p 1 1 0 1 1 0 1 1 1 0 1 0 0 0 1 1 0 1
h48 86 43 2 14 68 8 5 53 22 35 10 45 53 31 64 51
c30 15 24 3 13 41 17 30 34 25 27 13 37 26 5 20 56
p 0 1 1 0 0 1 0 0 1 0 0 0 1 1 0 1 1
R:
h = [45 53 31 64 51 25 78 70 60 11 61 13 52 12 82 …
85 23 16 48 86 43 2 14 68 8 5 53 22 35 10 45 53 31 64 51]';
c = [23 31 20 24 30 19 20 12 33 37 26 5 20 31 56 …
32 31 25 30 15 24 3 13 41 17 30 34 25 27 13 37 26 5 20 56]';
H = [h, c];
p = [1 1 0 1 1 0 1 1 1 0 1 0 0 0 1 …

11.10 Probleme rezolvate 229
1 0 1 0 1 1 0 0 1 0 0 1 0 0 0 1 1 0 1 1]';
scatter(h,c)
C = categorical(p);
[B,dev,stats] = mnrfit(H, C);
B
x = 0:1:105;
figure(1)
scatter(h,c,'*','Linewidth',3)
xlabel('ore de lucru individual (h)'); ylabel('ore la clasa (c)')
figure(2);
[u,v] = meshgrid(0:1:90,0:1:60)
hold on
plot(x, – B(1)/B(3) – B(2)/B(3)*x, 'g-','Linewidth',3)
axis([0 90 0 60])
X = [h c p];
b = find(X(:,3)>0.5); r = find(X(:,3)<0.5);
Y = X(b,1:2); Z = X(r,1:2);
scatter(Y(:,1),Y(:,2),'*b','Linewidth',4);
scatter(Z(:,1),Z(:,2),'*r','Linewidth',4);
hold off
figure(3)
[x,y]= meshgrid(0:1:90,0:1:60);
plot3(h,c,p,'*r','Linewidth',4); hold on
E = 1./(1+exp(B(1) + B(2)*x+B(3)*y))
xlabel('ore de lucru individual (h)'); ylabel('ore de clasa (c)')
zlabel('probabilitatea (p)')
mesh(x,y,E1); grid on
Figura 11.12: Grafic pentru modelul de clasificare folosind regresia logistic ˘a

230 Capitolul 11. Regresie
Figura 11.13: Grafic 3d pentru modelul de regresie logistic ˘a
11.11 Probleme propuse
Exerci¸ tiu 11.3 Pentru datele din tabelul al ˘aturat,
(a) testa¸ ti dac ˘ar=0 (coeficientul de corela¸ tie teoretic).x321 0 1 2
y 9 4 1 0 1 4
(b) Este faptul c ˘ax¸ siysunt legate prin rela¸ tia y=x2în contradic¸ tie cu rezultatul de la punctul (a)
(datele sunt perfect necorelate)?
(c) Calcula¸ ti coeficientul de corela¸ tie Spearman ¸ si determina¸ ti semnifica¸ tia sa.
Exerci¸ tiu 11.4 Suntem interesa¸ ti în determinarea unei leg ˘aturi între în ˘al¸ time ¸ si m ˘arimea la pantof.
Datele din tabelul de mai jos reprezint ˘a observa¸ tii asupra în ˘al¸ timilor ( H) ¸ si a m ˘arimilor la pantof
(M) pentru 10 b ˘arba¸ ti, ale¸ si la întâmplare.
H 1:75 1 :70 1 :80 1 :65 1 :83 1 :73 1 :86 1 :65 1 :68 1 :82
M 43 41 :5 44 40 :5 44 :5 41 44 :5 39 :5 40 43 :5
(a) Calcula¸ ti coeficientul de corela¸ tie Pearson dintre în ˘al¸ time ¸ si m ˘arimea la pantof. Ce procent din
valorile lui Msunt determinate de valorile lui H
(b) Determina¸ ti o aproximare pentru dreapta de regresie a lui Mfa¸ t˘a de H.
(c) Ob¸ tine¸ ti o predic¸ tie a m ˘arimii la pantof pentru un b ˘arbat cu în ˘al¸ timea 1 :78.
(d) La nivelul de semnifica¸ tie a=0:05, testa¸ ti ipoteza c ˘a panta dreptei de regresie este3
4.
Exerci¸ tiu 11.5 Fie ¸ sirul de date:
u = 1.0 1.5 2.0 2.5 3.0 3.5 4.0
v = 1.5 4.5 7.5 12.5 17.5 24.5 32.5
S˘a se studieze existen¸ ta unei dependen¸ te între u¸ sivde forma v=au2+b.
Exerci¸ tiu 11.6 În tabelul al ˘aturat, se dau câte 5valori pentru dou ˘a variabile x¸ siy, unde yeste
variabila independent ˘a. Determina¸ ti o dreapta de regresie potrivit ˘a pentru a calcula
(i)valoarea lui xcând y=2:5;
(ii)valoarea lui ycând x=50;
(iii)Putem prezice valoarea lui ypentru x=75?x46 55 41 58 53
y1:7 2 :1 1 :5 2 :9 1 :9

11.11 Probleme propuse 231
Exerci¸ tiu 11.7 Se m ˘asoar ˘a viteza unei ma¸ sini, v, în primele 10secunde dup ˘a aceasta a început s ˘a
accelereze. Aceste date sunt înregistrate în Tabelul 11.3.
(a) Desena¸ ti diagrama scatter plot ;
(b) Determina¸ ti dreapta de regresie a lui vfa¸ t˘a det;
(c) Calcula¸ ti coeficientul de corela¸ tie empiric ˘a ¸ si comenta¸ ti asupra validit ˘a¸ tii aproxim ˘arii datelor
cu dreapta de regresie.
t0 1 2 3 4 5 6 7 8 9 10
v0 3 :1 6 :9 9 :9 12 :7 16 :1 19 :8 21 :2 22 :8 24 :3 25 :9
Tabela 11.3: Viteza unei ma¸ sini în primele 10 secunde dup ˘a plecarea de pe loc
Exerci¸ tiu 11.8 Opinia general ˘a este c ˘a rata maxim ˘a (R) a b˘at˘ailor inimii unei persoane se poate
determina dup ˘a formula R=b0+b1V, unde Veste vârsta persoanei, calculat ˘a în ani. Cercet ˘atorii
cardiologi afirma c ˘a ace¸ sti coeficien¸ ti ar fi: b0=220¸ sib1=1. Pentru o verificare empiric ˘a a
acestei afirma¸ tii, sunt alese la întâmplare 15 persoane de diverse vârste, care sunt supuse unui test
pentru determinarea ratei maxime ale bat ˘ailor inimii. Aceste rezultate sunt contabilizate în Tabelul
11.4.
(a) Calcula¸ ti coeficientul de corela¸ tie Pearson dintre vârst ˘a ¸ si rata maxim ˘a a bat ˘ailor inimii. Care
este semnifica¸ tia acestei valori?
(b) Determina¸ ti dreapta de regresie a lui Rfa¸ t˘a deV¸ si desena¸ ti-o în acela¸ si sistem de axe cu datele
din tabel.
(c) Testa¸ ti ipoteza (H0):b1=1, vs. ipoteza alternativ ˘a(H1):b16=1, la nivelul de semnifica¸ tie
a=0:05.
Vârsta 15 23 25 35 17 34 54 50 45 42 19 42 20 39 37
Rata max 207 186 187 180 200 175 169 183 156 183 199 174 198 183 178
Tabela 11.4: Tabel cu rata maxim ˘a a bat ˘ailor inimii în func¸ tie de vârst ˘a.
Exerci¸ tiu 11.9 Dreapta de regresie a variabilei yfa¸ t˘a de variabila xestey=2x6. Determina¸ ti
condi¸ tiile în care dreapta de regresie a lui xfa¸ t˘a de yestex=0:5y+3.
A 3 1 4 12 11 3 5 2 9 6 4 6 7 6 14
N9:00 9 :50 8 :75 4 :75 5 :50 8 :50 6 :75 8 :25 5 :50 6 :75 8 :00 7 :75 6 :00 7 :00 3 :50
Tabela 11.5: Tabel cu absen¸ te ¸ si note la Statistic ˘a.
Exerci¸ tiu 11.10 Tabelul 11.5 con¸ tine num ˘arul de absen¸ te ( A) la Statistic ˘a ¸ si notele corespunz ˘a-
toare ( N) a 15 studen¸ ti.
(a) Calcula¸ ti coeficientul de corela¸ tie Pearson. Care este semnifica¸ tia acestei valori referitor la
rela¸ tia dintre absen¸ te ¸ si note?
(b) Determina¸ ti dreapta de regresie a lui Nfa¸ t˘a deA¸ si desena¸ ti-o în acela¸ si sistem de axe cu datele
din tabel.
(c) Testa¸ ti, la un nivel de semnifica¸ tie a=0:05, dac ˘a exist ˘a dovezi suficiente pentru a afirma c ˘a
între num ˘arul de absen¸ te ¸ si notele ob¸ tinute exist ˘a o corela¸ tie.
Exerci¸ tiu 11.11 În Tabelul 11.6 datele reprezint ˘a în˘al¸ timile ( H) ¸ si masele corporale ( M) a10fete
dintr-o clas ˘a a unui liceu. Suntem interesa¸ ti în prezicerea masei corporale, ¸ stiind înal¸ timea unei
eleve.
(a) Desena¸ ti diagrama scatter plot a lui Hversus M. Bazându-v ˘a pe aceast ˘a diagram ˘a, considera¸ ti

232 Capitolul 11. Regresie
c˘a metoda regresiei liniare este potrivit ˘a în acest caz?
(b) Calcula¸ ti estima¸ tii ale parametrilor ( b0¸ sib1) de regresie liniar ˘a ¸ si reprezenta¸ ti grafic dreapta de
regresie liniar ˘a.
(c) Ob¸ tine¸ ti o estimare nedeplasat ˘a pentru s2.
(d) Testa¸ ti ipoteza nul ˘a(H0):b1=0:9.
H 179:6 166 :8 163 :1 180 :0 158 :4 166 :5 165 :8 168 :1 175 :9 160 :7
M 61:2 48 :2 46 64 :4 46 :3 54 :7 51 :4 55 :3 65 :3 47 :9
Tabela 11.6: În ˘al¸ timea ¸ si masa corporal ˘a a 10 eleve dintr-o clas ˘a.
Exerci¸ tiu 11.12 Un student ia cu împrumut o carte de la bibliotec ˘a ¸ si observ ˘a c˘a pagina de interes
este rupt ˘a pe alocuri. Totu¸ si, poate citi textul din Figura 11.14. Se cere s ˘a se reconstruiasc ˘a pasajul
de text (i.e., determina¸ ti y¸ si dreapta de regresie a lui xfa¸ t˘a dey). De asemenea, calcula¸ ti coeficientul
empiric de corela¸ tie r¸ si comenta¸ ti asupra aproxim ˘arii datelor de selec¸ tie prin dreptele de selec¸ tie.
Figura 11.14: Fragment incomplet dintr-un text
Exerci¸ tiu 11.13 Dorim s ˘a determin ˘am o rela¸ tie între în ˘al¸ timea H(în metri) ¸ si diametrul trunchiu-
luiD(în metri) corespunz ˘atoare castanilor dintr-o anumit ˘a specie asiatic ˘a. Pentru a ob¸ tine aceast ˘a
rela¸ tie, determin ˘am mai întâi o regresie liniar ˘a între logaritmii variabilelor, adic ˘a între Y=ln(H)¸ si
X=ln(D), bazându-ne pe urm ˘atoarele observa¸ tii:
X1:611:200:970:510:42
Y 2:22 2 :27 2 :38 2 :60 2 :65
(a) Ce procent dintre valorile lui Ypot fi explicate de valorile lui X?
(b) Determina¸ ti o aproximare pentru dreapta de regresie liniar ˘a a lui Yversus X.
(c) Care este reparti¸ tia erorilor de aproximare a datelor observate prin dreapta de regresie?
(d) Folosind un interval de încredere, estima¸ ti în ˘al¸ timea unui copac ce are diametrul trunchiului de
0:7m.
Exerci¸ tiu 11.14 Rezultatele din tabelul anterior reprezint ˘a: Heste num ˘arul de ore pe s ˘apt˘amân ˘a
petrecute în fa¸ ta televizorului, Aeste vârsta persoanei ¸ si Eeste num ˘arul de ani petrecu¸ ti în ¸ scoal ˘a,
pentru un mu ˘ar de 12 persoane alese aleator.
E12 14 11 16 16 18 12 20 10 8 10 8
A41 31 27 30 25 23 58 28 44 60 50 68
H10 9 15 8 5 4 20 4 16 25 20 26
(a) Folosind un model de regresie liniar ˘a simpl ˘a, aproxima¸ ti dreapta de regresie a lui Hîn fun¸ tie de
E.
(b) Testa¸ ti ipoteza c ˘a panta dreptei de regresie de mai sus este 2. (a=0:04)
(c) Folosind un model de regresie multipl ˘a, aproxima¸ ti suprafa¸ ta de regresie a lui Hîn func¸ tie de E
¸ si A.

11.11 Probleme propuse 233
Exerci¸ tiu 11.15 Suntem interesa¸ ti de a determina în ce m ˘asur˘a tensiunea arterial ˘a ( T) este influ-
en¸ tat ˘a de indicele de mas ˘a corporal ˘a ( I) ¸ si de num ˘arul de ore de fitness pe s ˘apt˘amân ˘a ( N). Pentru a
stabili aceast ˘a leg ˘atur˘a, au fost selecta¸ ti aleator 10 b ˘arba¸ ti de 50 de ani. Datele colectate sunt cele
din tabelul de mai jos:
T180 160 165 150 115 140 135 120 110 120
I34.7 33.0 32.9 30.4 28.9 26.5 25.9 22.4 20.1 18.4
N 0 2 2 1 5 3 3 2 10 4
(a)Determina¸ ti o formul ˘a de calcul pentru tensiune folosind un model de regresie liniar ˘a multipl ˘a.
(b)Calcula¸ ti coeficientul de corela¸ tie Pearson dintre variabilele I¸ si N¸ si testa¸ ti semnifica¸ tia acestuia.
(c)Construi¸ ti un model de regresie multipl ˘a de forma T=b0+b1 I+b2 N+b3 I N, comentând
utilitatea acestuia.
(d)Pe baza valorilor R2¸ si adj R2, decide¸ ti care dintre cele dou ˘a modele explic ˘a cel mai bine
tensiunea T. Estima¸ ti pentru fiecare model tensiunea arterial ˘a a unui b ˘arbat de 50 de ani ce are
indicele de mas ˘a corporal ˘a 27 ¸ si face dou ˘a ore de fitness pe s ˘apt˘amân ˘a.

12. ANOVA
. [Statistics teacher: What is ANOVA and what is does?
. Student: It’s a star bigger than a NOVA and much smaller than a SUPERNOVA
. It should brighten my day, but it doesn’t.
Prin ANOVA (en. ANalysis Of VAriance ) se intelege o colectie de proceduri statistice
construite pentru analiza simultana a parametrilor a cel putin doua populatii statistice,
analiza care are la baza selectii independente extrase din populatiile studiate. De regula, se
testeaza ipoteza ca mediile teoretice ale acestor populatii sunt egale, cu alternativa ca m ˘acar
o pereche de medii difera semnificativ. In ANOVA , caracteristicile (variabilele) studiate se
numesc factori iar populatiile sunt nivelurile factorilor. Analiza variatiilor poate fi facuta:
• pentru un singur factor, caz in care vorbim de one-way ANOVA ,
• pentru doi factori, caz in care vorbim de two-way ANOVA ,
• pentru n3 factori, caz in care vorbim de n-way ANOVA .
Exemple de experimente care pot fi studiate cu ANOVA :
•un experiment care testeaza daca rezultatele la Bacalaureat sunt semnificativ diferite
pentru diverse tipuri de licee din tara. Aici avem un singur factor, si anume numarul
de promovati , si mai multe nivele: licee cu profil Mate-Info, licee cu profil economic,
licee pedagogice, licee industriale etc. Se va aplica one-way ANOVA pentru a verifica
daca rezultatele medii la Bacalaureat sunt comparabile. In caz ca nu sunt, se pot
identifica diferentele semnificative.
•un experiment care studiaza daca gradul de satisfactie personala a populatiei unei
tari depinde de varsta sau de gen. Aici putem aplica two-way ANOVA . Avem doi
factori: varsta si genul, primul factor avand diverse nivele, e.g. tineri, varsta medie,
batrani, iar al doilea factor are doua nivele: barbati si femei. Un test two-way ANOVA
va determina daca gradul de satisfactie depinde de varsta sau de gen. Mai mult, se
poate determina daca exista vreo pereche de niveluri varsta-gen care, in combinatie,
sa dea rezultate semnificativ diferite de alte combinatii varsta-gen. In acest caz, vom

236 Capitolul 12. ANOVA
spune ca cei doi factori interactioneaza intre ei.
• un experiment care sa determine efectele a 7 tipuri de combustibil asupra eficientei
unui motor. Un test one-way ANOVA poate fi aplicat pentru a verifica daca cele 7
tipuri de combustibil dau acelasi rezultat in ce priveste eficienta motorului. In caz
negativ, se poate depista care tipuri de combustibil dau rezultate semnificativ diferite.
12.1 One-way ANOVA
Acest pachet de programe compara mediile a doua sau mai multe populatii de interes.
Notam cu mnumarul populatiilor considerate in experiment. Nivelele factorilor (i.e.,
populatiile) se mai numesc si tratamente .
Spre exemplu, se doreste a se testa egalitatea valorilor medii pentru notele obtinute de
elevi la disciplinele "Limba Romana", ’Istorie" si "Matematica". Aici, factorul este nota
obtinuta la o disciplina la Bacalaureat, nivelele (tratamentele) sunt cele 3 discipline.
Notam cu mimedia teoretica a populatiei i(i=1;2; :::; m), adica media reala atunci cand
tratamentul ieste aplicat. Ipoteza nula este ca toate tratamentele au aceeasi medie teoretica,
i.e.:
(H0):m1=m2=:::=mm
vs. ipoteza alternativa
(H1): cel putin doua valori difera :
In continuare, vom utiliza urmatoarele notatii:
•ni, numarul de observatii pentru tratamentul de rang i,i=1;2; :::; m.
FieN=n1+n2+:::+nm;
•xi j, observatia de rang jpentru tratamentul i,i=1;2; :::; m,j=1;2; :::; ni;
•Xi j, variabila aleatoare corespunzatoare valorii xi j,i=1;2; :::; m,j=1;2; :::; ni;
•xi=1
nini
å
j=1xi jmediile; Xi=1
nini
å
j=1Xi j;i=1;2; :::; m;mediile de selectie, pen-
tru fiecare tratament;
•s2
i=1
ni1ni
å
j=1[xi jxi]2dispersiile; S2
i=1
ni1ni
å
j=1[Xi jXi]2;i=1;2; :::; m,
dispersiile de selectie, pentru fiecare tratament;
•X=1
mm
å
i=1"
1
nini
å
j=1Xi j#
=1
mm
å
j=1Xi;media generala de selectie ( en.; grand mean)
xeste media generala ( en.; grand mean value).
De obicei, datele statistice care urmeaza a fi procesate cu ANOVA sunt prezentate sub forma
unui tabel (vezi Tabelul 12.1).
Treatment Data (xi j) Sample mean (xi)Sample std. (si)
1 8 :24; 8 :46; 7 :69; 7 :83; 9 :84; 7 :15; 6 :86; 8 :70 8 :0962 0 :9425
2 8 :44; 7 :82; 8 :12; 9 :40; 9 :10; 7 :85; 5 :28; 5 :75 7 :7200 1 :4768
3 6 :76; 6 :17; 6 :49; 5 :79; 7 :19; 6 :38; 5 :82; 8 :05 6 :5813 0 :7543
Tabela 12.1: Date statistice pentru one-way ANOVA

12.1 One-way ANOVA 237
Ipoteze de lucru:
•selectiile pentru fiecare tratament sunt aleatoare. De obicei, se obtin selectii aleatoare
simple pentru fiecare tratament in parte.
•datele observate sunt aproximativ normal distribuite. Aceasta ipoteza poate fi verifi-
cata usor folosind o reprezentare grafica (e.g., normplot inMATLAB ), in urmatorul
mod. Dintre toate datele observate pentru tratametul Xiscadem media valorilor
observate pentru acest tratament, xi, pentru fiecare i=1;2; :::; m. Valorile obtinute
(numite si reziduuri ) le concatenam si le reprezentam grafic vs. cuantilele de la
repartitia normala standard (folosind normplot ). Daca valorile reprezentate sunt
apropiate de prima bisectoare, atunci putem admite ipoteza de normalitate (vezi
Figura 12.1).
Dupa cum se observa, nu testam normalitatea fiecarei selectii in parte, deoarece
volumele selectiilor considerate pentru ANOVA sunt tipic mici si nu ar fi relevante.
Concatenand reziduurile pentru toate tratamentele, obtinem un volum acceptabil.
•erorile de aproximare satisfac ipoteza de homoscedasticitate , i.e. deviatiile lor sunt
toate egale. Se reprezinta grafic (cu functia scatter ) valorile observate pentru
perechi de variabile. In Figura 12.2 avem doua astfel de reprezentari: una care
prezinta proprietatea de homoscedasticitate, cealalta nu. Practic, putem admite
aceasta ipoteza daca cea mai mare deviatie standard de selectie nu este de doua
ori mai mare decat cea mai mica deviatie standard de selectie. Spre exemplu, in
Tabelul 12.1, cea mai mare deviatie standard este 1:4768 care este mai mica decat de
doua ori valoarea minima, 0:7543 , deci putem admite ipoteza de homoscedasticitate.
Alternativ, exista teste statistice specifice acestui test.
Figura 12.1: normplot pentru verificarea normalitatii reziduurilor.
In analiza ANOVA se considera urmatoarele sume de patrate:
SSTr =m
å
i=1ni
å
j=1
XiX2
suma patratelor pt. tratamente; are m1 grade de libertate
SSE=m
å
i=1ni
å
j=1
Xi jXi2=m
å
i=1(ni1)S2
isuma patratelor erorilor; d f=Nm:

238 Capitolul 12. ANOVA
SST=m
å
i=1ni
å
j=1
Xi jX2
suma totala a patratelor; d f=N1:
MSTr =SSTr
m1; MSE=SSE
Nm; MST=SST
N1:
Figura 12.2: Grafice pentru verificarea homoscedasticitatii.
Se pot arata urmatoarele:
SSE
s2c2(Nm);ESSE
s2
=Nm;
SSTr
s2c2(m1);ESSTr
s2
=m1;
SSE
s2siSSTr
s2sunt independente :
SST= SSTr + SSE:
Din ultimele relatii, putem deduce ca
ESSTr
m1
=ESSE
Nm
=s2=)E( MSTr) =E( MSE) =s2:
Astfel, daca ipoteza nula este adevarata, atunci exista doi estimatori nedeplasati pentru s2,
si anume: MSEsi MSTr . Consideram statistica test
F=MSTr
MSE:
Daca ipoteza nula ar fi adevarata, atunci aceasta statistica ar avea o valoare apropiata de
1. Altfel, statistica ia valori departate de 1, mai mari ca 1. Sa notam cu F0valoara acestei
statistici pentru datele observate, cu n1=m1,n2=Nmsi cu fa;n1n2cuantila de ordin
apentru repartitia Fisher cu (n1;n2)grade de libertate. Pentru a testa ipoteza nula (H0)
procedam astfel:

12.1 One-way ANOVA 239
Daca
(
F0<f1a;n1;n2atunci admitem ipoteza nula (H0);
F0>f1a;n1;n2atunci respingem ipoteza nula (H0):
De regula, orice soft statistic ce are implementat ANOVA va da rezultatul final sub forma
unui tabel, in general de forma Tabelului 12.2 (care apare in M ATLAB ).
Source of variation df SS MS F Prob>F
Columns m1 SSTr MSTr =SSTr
m1MSTr
MSEPv
Error Nm SSE MSE =SSE
Nm
Total N1 SST
Tabela 12.2: Tabel cu rezultate pentru one-way ANOVA
In acest tabel, valoarea Pveste probabilitatea de a respinge ipoteza nula cand ea este
adevarata. Altfel spus, este probabilitatea ca, la o noua experienta, sa obtinem un rezultat
cel putin la fel de extrem ca si cel deja observat. Aceasta explica si notatia Prob>F ,
transpusa matematic prin
Pv=P(S> F);unde SF(n1;n2)si F=MSTr
MSE:
Dac˘aPv<a, atunci ipoteza nul ˘a(H0)va fi respins ˘a. Altfel, o accept ˘am.
Observa¸ tia 12.1 In cazul particular in care toate selectiile considerate au acelasi volum,
i.e.,ni=n;8i=1;2; :::; m, atunci N=mnsiNm=m(n1)etc.
In cazul in care ipoteza nula (H0)este respinsa, se poate realiza un test de verificare, care
sa testeze care dintre cele C2
mperechi de medii sunt diferite. Un test care realizeaza aceasta
este testul Tukey. Acest test detemina intervale de incredere pentru diferentele mediilor
teoretice mimj, pentru orice i<j. Acestea sunt:
"
xixjQ1a;m;nmr
MSE
m;xixj+Q1a;m;nmr
MSE
m#
;
unde Qa;m;nmsunt cuantilele repartitiei range standardizat ,
Q=max
k=1;nfZkgmin
k=1;nfZkg
q
W
n;undefZkgk=1;nN(0;1)independente, Wc2(n):
Daca valoara 0nu apartine intervalului de incredere pentru mimj, atunci decidem ca
misimjdifera semnificativ. Daca 0se afla in intervalul de incredere, atunci admitem ca
mi=mjla nivelul de incredere a.
Observa¸ tia 12.2 Ipoteza nula din testul one-way ANOVA mai poate fi scrisa dupa cum
urmeaza. Fiecare variabila Xi jeste, de fapt, valoarea medie a tratamentului de rang i, la
care se adauga o eroare normala de medie zero. Pentru fiecare tratament in parte, erorile
sunt considerate a fi independente. Scriem:
Xi j=mi+ei j;8i=1;2; :::; m;j=1;2; :::; ni; cuei jN(0;s);independente :

240 Capitolul 12. ANOVA
Vectorul ei= (ei1;ei2; :::; eini)se numeste zgomot alb (en.,white noise).
m=1
mm
å
i=1mi; ai=mim(i=1;2; :::; m):
V om numi aideplasarea de la media reala mdatorata tratamentului de rang i. Atunci,
putem scrie:
Xi j=m+ai+ei j;i=1;2; :::; m; ;j=1;2; :::; ni:
Ipoteza nula poate fi scrisa astfel:
(H0):a1=a2=:::=am=0
vs. ipoteza alternativa
(H1): m ˘acar un aieste nenul :
12.2 Two-way ANOVA
Two-way ANOVA este o colectie de proceduri statistice ce testeaza valorile unei variabile
raspuns ce depinde de doi factori (populatii). Prezentarea de mai jos urmeaza ideile din
[DB].
Un exemplu este urmatorul: se doreste testarea gradului de fericire a adultilor in functie
de varsta si gen. Un numar de adulti de ambele genuri si de diferite varste sunt rugati sa
completeze cate un chestionar, care sa determine gradul de satisfactie personala (fericire)
al fiecaruia. Aici, variabila raspuns este gradul de fericire, care este evaluata in functie de
doi factori. Primul factor este varsta, care poate fi impartita in mai multe categorii (nivele),
e.g., tineri, varsta medie, batrani. Al doilea factor este genul, care are doua niveluri: barbati
si femei.
In continuare, vom considera ca AsiBsunt cei doi factori, iar pentru fiecare factor in parte
avem m, respectiv nniveluri. Pentru fiecare pereche de niveluri corespunzatoare celor doi
factori putem avea un numar Ki j1de observatii. In exemplul de mai sus, Ki jreprezinta
numarul de subiecti de nivelul de varsta isi de nivelul gen jcare au raspuns la chestionare.
Cazul Ki j=1;8(i;j)
Notam prin Xi jvariabila raspuns cand factorul Aeste tinut la nivelul isi factorul Bla
nivelul j, pentru orice i=1;m;j=1;n. V om nota cu xi jo posibila valoare a acestei
variabile. In cazul Ki j=1, valorile observate le putem prezenta ca in tabelul de mai jos:
X 1 2 3 ::: n
1×11 x12 x13::: x1n
2×21 x22 x23::: x2n
…  …
mxm1xm2xm3::: xmn
In total, sunt mnvalori, corespunzatoare celor mncelule (i;j). In continuare, vom folosi
urmatoarele notatii:
•meste numarul de observatii pentru factorul Asineste numarul de observatii pentru
factorul B;

12.2 Two-way ANOVA 241
•Xi=1
nn
å
j=1Xi j;i=1;m;mediile de selectie pentru fiecare nivel al factorului A;
•Xj=1
mm
å
j=1Xi j;j=1;n;mediile de selectie pentru fiecare nivel al factorului B;
•X=1
mnm
å
i=1n
å
j=1Xi j=1
mm
å
j=1Xi=1
nn
å
j=1Xj;media generala de selectie ( en.grand
mean);
•De asemenea, vom nota prin xi=1
nn
å
j=1xi j,xj=1
mm
å
j=1xi jsixvalorile corespun-
zatoare statisticilor de mai sus pentru datele observate.
Ipoteze de lucru:
• selectiile pentru fiecare factor sunt aleatoare;
• datele observate sunt aproximativ normal distribuite.
Modelul statistic de lucru este
Xi j=mi j+ei j;8i=1;m;j=1;n; cuei jN(0;s);independente :
Se doreste ca acest model sa determine constantele necunoscute (parametrii). Insa, se
observa ca avem mn+1parametri ( mi jsis) si doar mnecuatii. Pentru a putea rezolva
problema, va trebui sa reducem din necunoscute. O idee ar fi sa folosim un model aditiv ,
scriind:
mi j=ai+bj;8i=1;m;j=1;n:
Pentru m3sin2, avem suficiente ecuatii pentru a determina parametrii. Exista
o problema in ce priveste unicitatea solutiei, deoarece ai+csibjc(c2R) sunt, de
asemenea, solutii.
Modelul de mai sus poate fi simplificat si mai mult, considerand in schimb urmatorul
model:
Xi j=m+ai+bj+ei j;undem
å
i=1ai=0;n
å
j=1bj=0:
Mai sus, mreprezinta media reala generala in cazul in care variabila raspuns nu ar depinde
de niciunul dintre cei doi factori, aireprezinta efectul factorului Ala nivelul isibj
reprezinta efectul factorului Bla nivelul j.
Se poate demonstra ca urmatorii estimatori sunt estimatori nedeplasati pentru parametrii
pe care ii estimeaza:
bm=X;bai=XiX;bbj=XjX:
In cazul two-way ANOVA cuKi j=1;8(i;j), vom avea doua ipoteze nule: una referitoare
la factorul A, cealalta se refera la factorul B. Ipoteza nula ce face referire la factorul A
spune ca diferitele niveluri ale lui Anu au niciun efect asupra variabilei raspuns. Similar
pentru ipoteza nula ce face referire la B. Matematic, le scriem astfel:
Ipoteze pentru factorul A:
(H0A):a1=a2=:::=am=0 vs. (H1A): m ˘acar un aieste nenul :
Ipoteze pentru factorul B:
(H0B):b1=b2=:::=bn=0 vs. (H1B): m ˘acar un bjeste nenul :

242 Capitolul 12. ANOVA
Pentru a testa aceste ipoteze, vom folosi urmatoarele statistici:
SST=m
å
i=1n
å
j=1
Xi jX2
suma totala a patratelor; are mn1 grade de libertate
SSA=m
å
i=1n
å
j=1
XiX2
suma patratelor coresp. lui A; are m1 grade de libertate
SSB=m
å
i=1n
å
j=1
XjX2
suma patratelor coresp. lui B; are n1 grade de libertate
SSE=m
å
i=1n
å
j=1
Xi jXiXj+X2
suma patratelor erorilor; (m1)(n1)
MST=SST
mn1; MSA=SSA
m1; MSB=SSB
n1; MSE=SSE
(m1)(n1):
Se pot arata urmatoarele:
SSA
s2c2(m1);E( MSA) =s2+n
m1m
å
i=1a2
i;
SSB
s2c2(n1);E( MSB) =s2+m
n1n
å
j=1b2
j;
SST= SSA+ SSB+ SSE:
Daca ipoteza nula (H0A)este adevarata, atunci exista doi estimatori nedeplasati pentru s2,
si anume: MSEsi MSA. Consideram statistica test
FA=MSA
MSE:
Daca ipoteza nula ar fi adevarata, atunci aceasta statistica ar avea o valoare apropiata de 1.
Altfel, statistica ia valori departate de 1, mai mari ca 1. Sa notam cu F0Avaloarea acestei
statistici pentru datele observate, cu n1=m1,n2= (m1)(n1)si cu fa;n1;n2cuantila
de ordin apentru repartitia Fisher cu (n1;n2)grade de libertate. Pentru a testa ipoteza
nula(H0A)procedam astfel:
Daca
(
F0A<f1a;n1;n2atunci admitem ipoteza nula (H0A);
F0A>f1a;n1;n2atunci respingem ipoteza nula (H0A):
Se procedeaza similar pentru testarea ipotezei (H0B), considerand statistica
FB=MSB
MSE:
Valoarea critica in acest caz este fa;n1;n2, unde n1=n1,n2= (m1)(n1).
De regula, orice soft statistic ce are implementat two-way ANOVA va da rezultatul final
sub forma unui tabel, in general de forma Tabelului 12.3 (care apare in M ATLAB ).

12.2 Two-way ANOVA 243
Source of variation df SS MS F Prob>F
A m1 SSA MSA =SSA
m1FA=MSA
MSEPvA
B n1 SSB MSB =SSB
n1FB=MSB
MSEPvB
Error (m1)(n1) SSE MSE =SSE
(m1)(n1)
Total mn1 SST
Tabela 12.3: Tabel cu rezultate pentru two-way ANOVA
In acest tabel, valoarea PvAeste probabilitatea de a respinge ipoteza nula (H0A)cand ea
este adevarata. Altfel spus, este probabilitatea ca, la o noua experienta, sa obtinem un
rezultat cel putin la fel de extrem ca si cel deja observat. Aceasta explica si notatia Prob>F ,
transpusa matematic prin
PvA=P(S> FA);unde SF(n1;n2)si FA=MSA
MSE:
Dac˘aPvA<a, atunci ipoteza nul ˘a(H0A)va fi respins ˘a. Altfel, o accept ˘am.
Similar se procedeaza pentru factorul B. Dac ˘aPvB<a, atunci ipoteza nul ˘a(H0B)va fi
respins ˘a. Altfel, o accept ˘am.
Cazul Ki j>1pentru m ˘acar o pereche (i;j)
Asadar, in fiecare celula (i;j)putem avea mai mult de o singura valoare. V om considera
ca mediile valorilor observate in fiecare celula (i;j)sunt:
mi j=m+ai+bj+gi j;8i=1;m;j=1;n:
Aici, aieste efectul factorului Ala nivelul iasupra variabilei raspuns; bjeste efectul
factorului Bla nivelul j;gi jeste efectul interactiunii factorului Ala nivelul icu factorul B
la nivelul j. Fie
m=1
mnm
å
i=1n
å
j=1mi j;mi=1
nn
å
j=1mi j;mj=1
mm
å
i=1mi j
ai=mim;bj=mjm;gi j=mi j(m+ai+bj):
Facem urmatoarele notatii specifice:
•Presupunem ca pentru fiecare celula (i;j)avem Ki j1observatii, cu indicele de
sumare k.
• Fie k=m
å
i=1n
å
j=1Ki jnumarul total de observatii;
•Xi jkeste valoarea de rang kobservata in celula (i;j);
•Xi j=1
Ki jKi j
å
k=1Xi jkeste valoarea medie a datelor observate in fiecare celula (i;j);
•Xi=1
nn
å
j=1Xi jeste media datelor observate pentru nivelul ial factorului A;
•Xj=1
mm
å
i=1Xi jeste media datelor observate pentru nivelul jal factorului B;

244 Capitolul 12. ANOVA
•X=1
mm
å
i=1Xi=1
nn
å
j=1Xjeste media tuturor datelor observate ( en.,grand mean);
• se va nota cu xi jk,xi j,xi,xj,xvalori posibile ale statisticilor de mai sus.
Consider ˘am urmatorul model statistic relativ la Xi jk, variabila de rang kpentru celula (i;j):
Xi jk=m+ai+bj+gi j+ei jk;8i=1;m;j=1;n;k=1;Ki j:
In cazul two-way ANOVA cu m ˘acar un Ki j>1, vom avea trei ipoteze nule: una referitoare
la factorul A, cealalta se refera la factorul Bsi una referitoare la interactiunea dintre cei doi
factori. De regula, prima ipoteza testata este cea referitoare la interactiune.
Ipoteza nula corespunzatoare interactiunii spune ca nu exista nicio interactiune intre acesti
factori relativ la variabila raspuns. Daca ipoteza nula este admisa, atunci se trece si la
verificarea celorlalte doua ipoteze. Altfel, aceste verificari suplimentare nu isi mai au
rostul.
Ipoteza nula ce face referire la factorul Aspune ca diferitele niveluri ale lui Anu au niciun
efect asupra variabilei raspuns. Similar pentru ipoteza nula ce face referire la B.
Matematic, scriem cele trei ipoteze astfel:
Ipoteze pentru interactiune:
(H0AB):gi j=0;8(i;j) vs. (H1AB): m ˘acar un gi jeste nenul :
Ipoteze pentru factorul A:
(H0A):a1=a2=:::=am=0 vs. (H1A): m ˘acar un aieste nenul :
Ipoteze pentru factorul B:
(H0B):b1=b2=:::=bn=0 vs. (H1B): m ˘acar un bjeste nenul :
Pentru a testa aceste ipoteze, vom folosi urmatoarele statistici:
SST=m
å
i=1n
å
j=1Ki j
å
k=1
Xi jkX2
suma totala a patratelor; are mnk1 grade de libertate
SSE=m
å
i=1n
å
j=1Ki j
å
k=1
Xi jkXi j2suma patratelor erorilor; d f=mn(k1)
SSA=m
å
i=1n
å
j=1Ki j
å
k=1
XiX2
suma patratelor coresp. lui A; are m1 grade de libertate
SSB=m
å
i=1n
å
j=1Ki j
å
k=1
XjX2
suma patratelor coresp. lui B; are n1 grade de libertate
SSAB =m
å
i=1n
å
j=1Ki j
å
k=1
Xi jXiXj+X2
suma patratelor erorilor; d f= (m1)(n1)
MST=SST
mnk1; MSE=SSE
mn(k1); MSA=SSA
m1; MSB=SSB
n1; MSAB =SSAB
(m1)(n1)

12.3 Exerci¸ tii rezolvate 245
Se poate demonstra urmatoarea egalitate:
SST= SSE+ SSA+ SSB+ SSAB :
Statisticile test si pragurile critice sunt:
FAB=MSAB
MSEpentru ipoteza nula (H0AB); fAB=f1a;(m1)(n1);mn(k1);
FA=MSA
MSEpentru ipoteza nula (H0A); fA=f1a;m1;mn(k1);
FB=MSB
MSEpentru ipoteza nula (H0B); fB=f1a;n1;mn(k1):
Decizia, pentru fiecare ipoteza in parte, se ia astfel:
Daca Ff, respingem ipoteza nula (H0)la nivelul de semnificatie a. Altfel, admitem
ipoteza nula (H0).
Tabel cu rezultate:
Source of variation df SS MS F Prob>F
A m1 SSA MSA =SSA
m1FA=MSA
MSEPvA
B n1 SSB MSB =SSB
n1FB=MSB
MSEPvB
AB (m1)(n1) SSAB MSAB =SSAB
(m1)(n1)FAB=MSAB
MSEPvAB
Error mn(k1) SSE MSE =SSE
mn(k1)
Total mnk1 SST
Tabela 12.4: Tabel cu rezultate pentru two-way ANOVA in cazul K i j>1, pentru m˘ acar un (i;j)
Bazandu-ne pe o valoare Pv, putem lua astfel decizia referitor la ipoteza nula (H0):
Daca a<Pv, atunci admitem ipoteza nula (H0)la nivelul de semnificatie a. Altfel, o
respingem. Aici, Pvmai poate fi calculat si astfel:
Pv=P(S> F);unde SF(n1;n2)si F=MS*
MSE:
Dupa cum am precizat mai sus, prima ipoteza testata este cea referitor la interactiuni,
(H0AB). Daca aceasta este respinsa, atunci nu mai are sens testarea celorlalte doua ipoteze
ramase.
12.3 Exerci¸ tii rezolvate
12.3.1 Exemplu numeric pentru one-way ANOVA
Functia MATLAB anova1 efectueaza testul pentru egalitatea mediilor. Formatul functiei
este:
[p,tabel,stats] = anova1(X)

246 Capitolul 12. ANOVA
unde Xreprezinta matricea de date. Coloanele din matricea Xreprezinta factorii; pentru
fiecare factor se specifica mvalori, unde meste numarul de linii din matrice. Valorile
afisate sunt: p=valoarea Pva testului, tabel si stats sunt, in ordine, un tabel cu detaliile
analizei variatiilor si diverse alte statistici.
In cazul in care ipoteza nula (verificata de anova1 ) este invalidata, atunci putem face
testul Tukey pentru a determina care perechi de medii difera. In MATLAB , acest test se
realizeaza cu comanda multcompare . Aceasta afiseaza intervalele de incredere pentru
diferentele mediilor oricaror doua perechi de coloane si o reprezentare grafica a acestora.
Forma functiei cea mai simplificata este: c = multcompare(stats) , unde stats este
rezultatul de la anova1 .
Exerci¸ tiu 12.1 Tabelul de mai jos contine notele la Bacalaureat pentru o selectie aleatoare
de 8 elevi dintr-un anumit oras care au sustinut Bacalaureatul la disciplinele "Limba
Romana", ’Istorie" si "Matematica".
Disciplina E1 E2 E3 E4 E5 E6 E7 E8
Rom 8.24 8.46 7.69 7.83 9.84 7.15 6.86 8.70
Ist 8.44 7.82 8.12 9.40 9.10 7.85 5.28 5.75
Mat 6.76 6.17 6.49 5.79 7.19 6.38 5.82 8.05
Cerinte:
(1) Folosind o reprezentare grafica, verificati normalitatea datelor.
(2) La nivelul de semnificatie a=0:05, testati ipoteza ca mediile teoretice la cele trei
discipline sunt toate egale, in doua moduri:
.(a) folosind comanda anova1 dinMATLAB ; (b) folosind formulele si testul de la curs.
(3) In cazul in care mediile nu sunt toate egale, determinati perechile de medii care difera
semnificativ.
R:Matricea de date Neste una de tip 83, unde pe fiecare coloana am introdus notele
pentru fiecare disciplina in parte. In plus, Dreprezinta etichetele pentru datele din matrice.
N = [8.24 8.46 7.69 7.83 9.84 7.15 6.86 8.70; 8.44 7.82 8.12 9.40 …
9.10 7.85 5.28 5.75; 6.76 6.17 6.49 5.79 7.19 6.38 5.82 8.05]';
D = {'Rom','Rom','Rom','Rom','Rom','Rom','Rom','Rom',…
'Ist','Ist','Ist','Ist','Ist','Ist','Ist','Ist',…
'Mat','Mat','Mat','Mat','Mat','Mat','Mat','Mat'};
% (1) ~~~~~~~~~~~~~~ normplot(reziduuri) ~~~~~~~~~~~~~~~~~~~~~~~~~~~
Xp = mean(N); % mediile pe fiecare coloana
rez = N – [Xp;Xp;Xp;Xp;Xp;Xp;Xp;Xp]; % din nota scadem media disciplinei
R = N(:); % valorile matricei pe o singura coloana
figure(3); normplot(R) % verifica normalitatea reziduurilor
% (2a) ~~~~~~~~~~~~~~~~~~~~ anova ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
Pv = anova1(N,D) % tabelul si graficul sunt atasate mai jos
% (3) ~~~~~~~~~~~~~~~~~~~ Tukey test ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
c = multcompare(stats) % graficul rezultat este atasat mai jos
[nms(c(:,1)), nms(c(:,2)), num2cell(c(:,3:5))]

12.3 Exerci¸ tii rezolvate 247
Figura 12.3: Rezultatele produse de anova1 in M ATLAB .
Ipoteza nula este
(H0):mR=mI=mM
Din ANOVA Table extragem informatia despre valoarea critica pentru probabilitate, Pv=
00Prob >F00. Deoarece Pv=0:0313 <0:05=a, respingem ipoteza nula. Asadar, m ˘acar
doua medii sunt semnificativ diferite.
Al doilea grafic din Figura 12.3 reprezinta boxplots pentru notele la fiecare disciplina in
parte. Se observa ca nu apar valori aberante (outliers).
Figura urm ˘atoare reprezinta intervalele de incredere (la nivelul de semnificatie considerat)
pentru mediile teoretile la fiecare disciplina. Se observa ca intervalele de incredere pentru
mediile la Romana si la Matematica nu se intersecteaza, asadar cele doua medii sunt
semnificativ diferite. Celelelate doua perechi de medii sunt egale la nivelul de semnificatie
0:05.
Figura 12.4: Compararea perechilor de medii in M ATLAB .

248 Capitolul 12. ANOVA
% (2b) ~~~~~~~~~~~~~~~~~~~~ anova ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
n = 8; k = 3; alpha = 0.05;
Xp = mean(Note); Xpp = mean(mean(Note));
SSTr = n*sum((Xp – Xpp).^2);
Si2 = var(Note); SSE = (n-1)*sum(Si2); SST = SSTr + SSE;
MSTr = SSTr/(k-1); MSE = SSE/(k*(n-1));
F = MSTr/MSE; Fcrit = finv(1-alpha,k-1,k*(n-1));
if (F<Fcrit)
disp('medii egale')
else
disp('medii inegale')
end
Pv = 1 – fcdf(F,k-1,k*(n-1))
%%% ~~~~~~~~~~~~~~~~~~~~~~~~~~ rezultate ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~%%%
% p = %
% 0.0313 %
% table =
% 'Source' 'SS' 'df' 'MS' 'F' 'Prob>F'
% 'Groups' [ 9.9561] [ 2] [4.9781] [4.1048] [0.0313]
% 'Error' [25.4677] [21] [1.2127] [] []
% 'Total' [35.4238] [23] [] [] []
% F = Fcrit = %
% 4.1048 3.4668 %
% medii inegale %
% Pv = %
% 0.0313 %
% ans = %
% 'Rom' 'Ist' [-1.0116] [0.3762] [1.7641] %
% 'Rom' 'Mat' [ 0.1271] [1.5150] [2.9029] %
% 'Ist' 'Mat' [-0.2491] [1.1387] [2.5266] %
%%% ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~%%%
12.3.2 Exemplu numeric pentru two-way ANOVA
Exerci¸ tiu 12.2 O companie producatoare de automobile are doua fabrici, fiecare fabrica
producand 3 tipuri de masini la clasa de 1:4cm3. In vederea testarii consumului de
carburant, se face cate o selectie de 3 masini de la fiecare fabrica si din fiecare tip de
masina. Consumul de carburant per 100kmpentru masinile selectate este reprezentat mai

12.3 Exerci¸ tii rezolvate 249
jos. Am notat cu Ffabricile si cu Ttipurile de masina.
2
66666647:5 7 :45 7 :85
7:3 7 :4 7 :9
7:1 7 :3 7 :6
7:6 7 :35 7 :65
7:3 7 :25 7 :55
|{z}
T17:35|{z}
T27:5|{z}
T37:753
77777759
=
;F1
9
=
;F2
Se cere:
(a) Decideti daca exista dovezi statistice care sa ateste o dependenta a consumului de
carburant de fabrica unde este produsa masina;
(b) Decideti daca exista dovezi statistice care sa ateste o dependenta a consumului de
carburant de tipul de masina produs.
R: Dupa cum se observa din matricea de date, avem doi factori: A=Ttipul si B=
Ffabrica. Pentru analiza cei doi factori au fost alese cate 3 masini din fiecare tip, de la
fiecare fabrica, adica avem cate 3 valori pentru fiecare pereche (T;F). Aceasta inseamna
caKi j=K=3;pentru orice i=1;2;j=1;3. V om utiliza functia anova2 din M ATLAB .
clear all;
m = 2; n = 3; k = 3;
X = [7.50 7.45 7.85;
7.30 7.40 7.90;
7.10 7.30 7.60;
7.60 7.35 7.65;
7.30 7.25 7.55;
7.35 7.50 7.75];
[p,tbl,stats] = anova2(X,k)
c = multcompare(stats, 'alpha', 0.05) % valoarea implicita este 0.05,
dar poate fi schimbata
Rezultatele sunt urmatoarele:
%%% ~~~~~~~~~~~~~~~~~~~~~~~~~ rezultate ~~~~~~~~~~~~~~~~~~~~~~~~~~%%%
% p = %
% 0.0014 0.8722 0.3516 %
% %
% tbl =
% 'Source' 'SS' 'df' 'MS' 'F' 'Prob>F'
% 'Columns' [ 0.4908] [ 2] [ 0.2454] [11.9392] [0.0014]

250 Capitolul 12. ANOVA
% 'Rows' [5.5556e-004] [ 1] [5.5556e-004] [ 0.0270] [0.8722]
% 'Interaction' [ 0.0469] [ 2] [ 0.0235] [ 1.1419] [0.3516]
% 'Error' [ 0.2467] [12] [ 0.0206] [] []
% 'Total' [ 0.7850] [17] [] [] []
% stats = %
% source: 'anova2' %
% sigmasq: 0.0206 %
% colmeans: [7.3583 7.3750 7.7167] %
% coln: 6 %
% rowmeans: [7.4889 7.4778] %
% rown: 9 %
% inter: %
% pval: 0.3516 %
% df: 12 %
% c =
% 1.0000 2.0000 -0.2375 -0.0167 0.2042 %
% 1.0000 3.0000 -0.5792 -0.3583 -0.1375 %
% 2.0000 3.0000 -0.5625 -0.3417 -0.1208 %
%%% ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~%%%
Valorile preprezinta valorile Pvcare determina semnificatia ipotezelor nule (H0A),(H0B)
si, respectiv (H0AB).
Ipoteza nula (H0AB)indic ˘a inexisten¸ ta de interactiuni semnificative intre cei doi factori
sau, altfel spus, nu exista diferente semnificative intre tipurile de masina si fabrici in ce
priveste consumul mediu de carburant la 100km.
Deoarece p3=0:3516 >0:05=a, rezulta ca ipoteza (H0AB)este admisa, asadar alegerea
tipului de masina nu depinde de fabrica.
Se observa ca p2=0:8722 >0:05=a, deci ipoteza (H0B)este admisa, insemnand faptul
ca nu exista diferente semnificative intre consumurile medii de carburant la 100km intre
masinile produse de cele doua fabrici.
Se observa ca p1=0:0014 <0:05=a, deci ipoteza (H0A)este respinsa, insemnand faptul
ca exista diferente semnificative intre consumurile medii de carburant la 100km intre
cele trei tipuri de masini. Pentru a determina care dintre mediile pe coloane sunt diferite,
folosim comanda multcompare din M ATLAB .
Din Figura 12.5 observam ca mediile pentru consumul la 100km ale primelor doua tipuri
de masina sunt egale, a treia medie fiind semnificativ diferita de ele.
Matricea cafiseaza intervale de incredere si estimatori punctuali pentru diferentele
mediilor celor trei perechi de coloane. Dupa cum se observa, primul interval de in-
credere, (0:2375 ;0:2042)contine valoarea 0, deci putem concluziona ca aceste doua
medii sunt egale la acest nivel de semnificatie. Celelalte doua intervale de incredere,
(0:5792 ;0:1375)si(0:5625 ;0:1208)nu contin pe 0, deci mediile corespunzatoare
sunt semnificativ diferite.

12.4 Probleme propuse 251
Figura 12.5: Compararea multipla a perechilor de medii in M ATLAB .
12.4 Probleme propuse
Exerci¸ tiu 12.3 Andrei a primit prin fax un raport referitor la încas ˘arile ob¸ tinute s ˘apt˘amâna
trecut ˘a, ob¸ tinute din vânz ˘arile anvelopelor pe care firma sa le are în stoc. Din p ˘acate, faxul
s˘au nu este prea bun ¸ si, din tot raportul, se pot distinge doar rezultate par¸ tiale ale unui test
ANOVA , unele valori fiind ¸ sterse.
Source of variation SS df MS F Prob >F
Groups 7124 :75 18 f9 1j4g 7r45 1.31 584 104 411
Error T2.3471 3Y4145 26 1s7 l4i5
Total 12454 :98 29
(a)Câte tipuri de anvelope are firma sa în stoc? Formula¸ ti ipotezele testului.
(b)Completa¸ ti valorile ¸ sterse din tabel. Care este rezultatul testului?
Exerci¸ tiu 12.4 O firm ˘a de computere dore¸ ste s ˘a compare viteza de lucru pentru patru
compilatoare produse de aceast ˘a firm ˘a. Fiecare dintre cele patru compilatoare a rulat
aceleasi 5 programe. Datele din tabelul de mai jos reprezint ˘a timpii de compilare (exprima¸ ti
în milisecunde) pentru fiecare dintre programe, rulate pe cele patru compilatoare.
(a)Testa¸ ti la nivelul de semnifica¸ tie de 5%dac˘a exist ˘a diferen¸ te semnificative între
performan¸ tele medii ale celor 4 compilatoare.
Program
Compilor A B C D E
C1 29.21 26.18 30.91 25.14 26.16
C2 28.25 26.02 30.18 25.16 25.14
C3 28.20 26.22 30.52 25.20 25.26
C4 28.62 25.56 30.09 25.02 25.46(b)Difer ˘a semnificativ timpii medii de
compilare de tipul de program rulat? Jus-
tifica¸ ti.
(c)Pentru care dintre compilatoare, tim-
pul mediu de compilare difer ˘a semnifica-
tiv de cel al lui C4?
Exerci¸ tiu 12.5 Patru tratamente pentru o anumit ˘a erup¸ tie cutanat ˘a au fost administrate

252 Capitolul 12. ANOVA
la 20 de pacien¸ ti ale¸ si aleator. Datele din tabelul de mai jos reprezint ˘a, pentru fiecare
tratament în parte, num ˘arul de zile scurse de la prima apari¸ tie a erup¸ tiei pân ˘a la vindecare.
Tratament Num ˘arul de zile
A 5 8 7 7 8
B 4 6 6 3 5
C 6 4 6 5 4
D 7 5 6 6 5(a)Determina¸ ti dac ˘a exist ˘a diferen¸ te semnificative
între rezultatele medii ale celor 4 tratamente.
(b)Preciza¸ ti care dintre cele 4 tratamente difer ˘a
semnificativ.
Exerci¸ tiu 12.6 Patronul unui anumit call center a cerut informa¸ tii referitoare la timpul
petrecut de angaja¸ tii s ˘ai în discu¸ tii telefonice cu clien¸ tii. Acest call center este deschis
non-stop ¸ si angaja¸ tii lucreaz ˘a în mai multe schimburi. Pentru fiecare schimb, a fost
ales un e¸ santion de 10 de angaja¸ ti. Tabelul de mai jos a fost primit prin fax ¸ si reprezint ˘a
rezultatul unui test ANOVA . Din p ˘acate, unele informa¸ tii nu s-au transmis corect. Variabila
dependent ˘a este timpul (în secunde) petrecut de angaja¸ ti cu fiecare client.
Source of variation SS df MS F Prob >F
Groups 31524 :87 18 f9 1j4g 7r45 1.31 584 104 411
Error T2.3471 3Y4145 36 1s7 l4i5
Total 58562 :75 39
(a)Câte schimburi exist ˘a la call center? Formula¸ ti ipotezele testului.
(b)Completa¸ ti valorile ¸ sterse din tabel. Care este rezultatul testului la încrederea de 95%?

13. Anexe
. [I am not an outlier;
. I just haven’t found my distribution yet!]
13.1 Scurt ˘a introducere în MATLAB
MATLAB este un pachet comercial de programe de înalt ˘a performan¸ t ˘a produs de The
MathWorks, Inc. , dedicat calculului numeric ¸ si reprezent ˘arilor grafice în domeniul ¸ stiin¸ telor
¸ si ingineriei. Elementul de baz ˘a cu care opereaz ˘aMATLAB -ul este matricea ( MATLAB
este acronim de la MAT rixLAB oratory). MATLAB este un software standard în mediile
universitare, precum ¸ si în domeniul cercet ˘arii ¸ si rezolv ˘arii practice aproblemelor legate
de procesarea semnalelor, identificarea sistemelor, calculul statistic, prelucrarea datelor
experimentale, matematici financiare, matematici aplicate în diverse domenii etc. Cea
mai important ˘a caracteristic ˘a aMATLAB -ului este u¸ surin¸ ta cu care poate fi extins. La
programele deja existente în MATLAB , utilizatorul poate ad ˘auga propriile sale coduri,
dezvoltând aplica¸ tii specifice domeniului în care lucreaz ˘a.MATLAB -ul include aplica¸ tii
specifice, numite Toolbox-uri. Acestea sunt colec¸ tii extinse de func¸ tii MATLAB (fi¸ siere M)
care dezvolt ˘a mediul de programare de la o versiune la alta, pentru a rezolva probleme din
domenii variate. Structural, MATLAB -ul este realizat sub forma unui nucleu de baz ˘a, cu
interpretor propriu, în jurul c ˘aruia sunt construite toolbox-urile.
Prezent ˘am mai jos o scurt ˘a introducere în MATLAB a principalelor func¸ tii ¸ si comenzi
folosite în aceast ˘a lucrare. Pentru o tratare mai detaliat ˘a, pute¸ ti consulta un manual de
utilizare sau [ matlab ]. Mai men¸ tion ˘am aici ¸ si lucrarea [ blaga ], unde pute¸ ti g ˘asi diverse
modalit ˘a¸ ti de implementare în MATLAB ale unor no¸ tiuni de Teoria Probabilit ˘a¸ tilor ¸ si
Statistic ˘a matematic ˘a.
Folosind comanda demo dinMATLAB , pute¸ ti urm ˘ari o demonstra¸ tie a principalelor facilit ˘a¸ ti

254 Capitolul 13. Anexe
din M ATLAB , cât ¸ si a pachetelor de func¸ tii ( toolbox ) de care a¸ ti putea fi interesa¸ ti. Dintre
acestea, amintim Statistics Toolbox , care este o colec¸ tie de func¸ tii folosite pentru analiza,
modelarea ¸ si simularea datelor. Con¸ tine: analiza graficelor (GUI), diverse reparti¸ tii
probabilistice (beta, binomial ˘a, Poisson, c2), generarea numerelor aleatoare, analiza
regresional ˘a, descrieri statistice.
•Comenzile MATLAB pot fi scrise în fi¸ siere cu extensia .m, ce urmeaz ˘a apoi a fi
compilate. Un fi¸ sier-m const ˘a dintr-o succesiune de instruc¸ tiuni, cu posibilitatea
apel˘arii altor fi¸ siere-M precum ¸ si a apel ˘arii recursive. De asemenea, MATLAB poate
fi folosit ca pe un mediu computa¸ tional interactiv, caz în care fiecare linie este
prelucrat ˘a imediat. Odat ˘a introduse expresiile, acestea pot fi vizualizate sau evaluate
imediat. De exemplu, introducând la linia de comand ˘a
>> a = sqrt((sqrt(5)+1)/2)
MATLAB define¸ ste o variabil ˘a de memorie a, c˘areia îi atribuie valoarea
a =
1.2720
•Variabilele sunt definite cu ajutorul operatorului de atribuire, =, ¸ si pot fi utilizate
f˘ar˘a a declara de ce tip sunt. Valoarea unei variabile poate fi: o constant ˘a, un ¸ sir de
caractere, poate reie¸ si din calculul unei expresii sau al unei func¸ tii.
•Pentru a g ˘asi informa¸ tii imediate despre vreo func¸ tie predefinit ˘a, comanda help va
vine în ajutor. De exemplu,
>> help length
afi¸ seaz ˘a urm ˘atoarele:
LENGTH Length of vector.
LENGTH(X) returns the length of vector X. It is equivalent
to MAX(SIZE(X)) for non-empty arrays and 0 for empty ones.
See also numel.
•Comanda help poate fi utilizat ˘a doar dac ˘a se cunoa¸ ste exact numele func¸ tiei. Altfel,
folosirea comenzii lookfor este recomandat ˘a. De exemplu, comanda
>> lookfor length
produce:
NAMELENGTHMAX Maximum length of MATLAB function or variable name.
VARARGIN Variable length input argument list.
VARARGOUT Variable length output argument list.
LENGTH Length of vector.
•MATLAB este un mediu computa¸ tional orientat pe lucru cu vectori ¸ si matrice. O
linie de cod de forma

13.1 Scurt ˘a introducere în MATLAB 255
>> v = [1,3,5,7,9] % sau v = [1 3 5 7 9]
define¸ ste un vector linie ce are componentele 1;3;5;7;9. Aceasta poate fi realizat ˘a
¸ si folosind comanda v = 1:2:9 adic˘a afi¸ seaz ˘a numerele de la 1la9, cu pasul 2.
Pentru un vector coloan ˘a, folosim punct-virgul ˘a între elemente, adic ˘a
>> v = [1;3;5;7;9] % vector coloana
O alt ˘a variant ˘a de a defini un vector este
>> v = linspace(x1,x2,n)
adic˘aveste un vector linie cu ncomponente, la intervale egale între x1¸ si x2.
•Definirea matricelor se poate face prin introducerea explicit ˘a a elementelor sale sau
prin instruc¸ tiuni ¸ si func¸ tii. La definirea explicit ˘a, trebuie ¸ tinut cont de urm ˘atoarele:
elementele matricei sunt cuprinse între paranteze drepte ( [ ]), elementele unei
linii trebuie separate prin spa¸ tii libere sau virgule, liniile se separ ˘a prin semnul
punct-virgul ˘a. De exemplu, comanda
>> A = [1 2 3; 4, 5, 6]
define¸ ste matricea
A =
1 2 3
4 5 6
•Apelul elementelor unei matrice se poate face prin comenzile A(i,j) sau A(:,j)
(elementele de coloan ˘aj) sau A(i,:) (elementele de linia i);
•Func¸ tia MATLAB ones(m,n) define¸ ste o matrice mn, având toate componentele
egale cu 1. Func¸ tia zeros(m,n) define¸ ste o matrice zero mn. Func¸ tia eye(n)
define¸ ste matricea unitate de ordin n.
•Dup˘a cum vom vedea mai jos, MATLAB permite definirea unor func¸ tii foarte
complicate prin scrierea unui cod. Dac ˘a func¸ tia ce o avem de definit este una simpl ˘a,
atunci avem varianta utiliz ˘arii comenzii inline . Spre exemplu, definim func¸ tia
f(x;y) =e5xsin3y:
>> f = inline('exp(5*x).*sin(3*y)')
f =
Inline function:
f(x,y) = exp(5*x).*sin(3*y)
Putem apoi calcula f(7;p)prin
>> f(7,pi)
0.5827

256 Capitolul 13. Anexe
•Un program MATLAB poate fi scris sub forma fi¸ sierelor script sau a fi¸ sierelor de
tip func¸ tie . Ambele tipuri de fi¸ siere sunt scrise în format ASCII. Aceste tipuri de
fi¸ siere permit crearea unor noi func¸ tii, care le pot completa pe cele deja existente.
Un fi¸ sier script este un fi¸ sier extern care con¸ tine o secven¸ t ˘a de comenzi MATLAB .
Prin apelarea numelui fi¸ sierului, se execut ˘a secven¸ ta MATLAB con¸ tinut ˘a în acesta.
Dup˘a execu¸ tia complet ˘a a unui fi¸ sier script, variabilele cu care acesta a operat r ˘amân
în zona de memorie a aplica¸ tiei. Fi¸ sierele script sunt folosite pentru rezolvarea unor
probleme care cer comenzi succesive atât de lungi, încât ar putea deveni greoaie
pentru lucrul în mod interactiv, adic ˘a în modul linie de comand ˘a.
Pentru a introduce date în MATLAB , putem copia datele direct într-un fi¸ sier MATLAB , prin
definirea unui vector sau a unei matrice de date. De exemplu, urm ˘atoarele date au fost
introduse prin "copy-paste" în matricea data :
>> data = [ % atribuirea valorilor matricei data
21.3 24.1 19.9 21.0 % prima linie a datelor copiate
18.4 20.5 17.5 23.2
22.1 16.6 23.5 19.7 % ultima linie a datelor copiate
]; % inchidem paranteza ce defineste matricea de date
Datele din M ATLAB pot fi salvate astfel:
>> cd('c:\fisierul_de_lucru'); % alegem fisierul unde salvam datele
>> save Timpi_de_reactie data; % salveaza in fisierul Timpi_de_reactie.mat
Datele pot fi reînc ˘arcate folosind comanda
load Timpi_de_reactie % incarca datele din fisier
Timpi_de_reactie % afiseaza datele incarcate
Fi¸ sierele func¸ tie
MATLAB creaz ˘a cadrul propice extinderii func¸ tiilor sale, prin posibilitatea cre ˘arii de noi
fi¸ siere. Astfel, dac ˘a prima linie a fi¸ sierului .mcon¸ tine cuvântul function , atunci fi¸ sierul
respectiv este declarat ca fiind fi¸ sier func¸ tie. Variabilele definite ¸ si manipulate în interiorul
fi¸ sierului func¸ tie sunt localizate la nivelul acesteia. Prin urmare, la terminarea execu¸ tiei
unei func¸ tii, în memoria calculatorului nu r ˘amân decât variabilele de ie¸ sire ale acesteia.
Forma general ˘a a primei linii a unui fi¸ sier este:
function[param_iesire] = nume_functie(param_intrare)
unde:
• function este este cuvântul care declar ˘a fi¸ sierul ca fi¸ sier func¸ tie;
• nume_functie este numele func¸ tiei, care este totuna cu numele sub care se salveaz ˘a
fi¸ sierul;
• param_iesire sunt parametrii de ie¸ sire;
• param_intrare sunt parametrii de intrare.

13.1 Scurt ˘a introducere în MATLAB 257
Comenzile ¸ si func¸ tiile care sunt utilizate de nou ˘a func¸ tie sunt înregistrate într-un fi¸ sier cu
extensia .m.
Exemplu 13.1 Fisierul medie.m calculeaz ˘a media aritmetic ˘a a sumei p ˘atratelor compo-
nentelor unui vector X(alternativ, aceast lucru poate fi realizat prin comanda mean(X.^2) ):
function m2 = medie(X)
n = length(X); m2 = sum(X.^2)/n;
MATLAB -ul include aplica¸ tii specifice, numite Toolbox-uri. Acestea sunt colec¸ tii extinse
de func¸ tii MATLAB (fi¸ siere-m) care dezvolt ˘a mediul de programare de la o versiune la alta,
pentru a rezolva probleme din domenii variate. Statistics Toolbox reprezint ˘a o colec¸ tie
de func¸ tii folosite pentru analiza, modelarea ¸ si simularea datelor ¸ si con¸ tine: generarea
de numere aleatoare; distribu¸ tii, analiza grafic ˘a interactiv ˘a (GUI), analiza regresional ˘a,
descrieri statistice, teste statistice.
În Tabelul 13.1 am adunat câteva comenzi utile în M ATLAB .

258 Capitolul 13. Anexe
% % permite adaugarea de comentarii in cod
help rand % help specific pentru func¸ tia rand
lookfor normal % cauta intrarile în M ATLAB pentru normal
X=[2 4 6 5 2 7 10] % vector linie cu 7 elemente
X=[3; 1; 6.5 ;0 ;77] % vector coloan ˘a cu 5 elemente
X = -10:2:10 % vector cu numerele intregi de la 10 la 10, din 2 în 2
length(X) % lungimea vectorului X
t=0:0.01:3*pi % define¸ ste o diviziune a [0;3p]cu diviziunea 0 :01
X.^2 % ridic ˘a toate componentele vectorului Xla puterea a doua
X.*Y % produsul a doi vectori
cumsum(X) % suma cumulat ˘a a elementelor vectorului X
cumprod(X) % produsul cumulativ al elementelor vectorului X
min(X) % realizeaz ˘a minimum dintre componentele lui X
max(X) % realizeaz ˘a maximum dintre componentele lu X
sort(X) % ordoneaz ˘a componentele lui Xîn ordine crescatoare
sort(X, 'descend') % ordoneaz ˘a componentele lui Xîn ordine descrescatoare
erf(X) %func¸ tia eroare
exp(x) % calculeaz ˘a exponen¸ tial ˘aex
log(x) % calculeaz ˘a logaritmul natural ln (x)
sqrt(x) % calculeaz ˘a radicalul ordinului doi dintr-un num ˘ar
num2str(x) % furnizeaz ˘a valoarea numeric ˘a a lui x
factorial(n) %n!
A = ones(m,n) % Ae matrice mn, cu toate elementele 1
B = zeros(m,n) % matrice mnzero
I = eye(n) % matrice unitate, nn
A = [3/2 1 3 7; 6 5 8 8; 3 6 9 12] % matrice 33
size(A) % dimensiunea matricei A
det(A) % determinantul matricei A
inv(A) % inversa matricei A
A' %transpusa matricei A
A(:,7) % coloana a 7-a a matricei A
A(1:20,1) % scoate primele 20 de linii ale lui A
nchoosek(n,k) % combin ˘ari de nluate câte k
1e5 %numarul 105
exp(1) %numarul e
bar(X) sau barh(X) % reprezentarea prin bare
hist(X) % reprezentarea prin histograme
hist3(x,y,z) % reprezentarea prin histograme 3-D
plot(X(1:5),'*m') % deseneaz ˘a primele 5 componente ale lui X, cu * magenta
plot(t,X,'-') % deseneaz ˘a graficul lui Xversus t, cu linie continua
plot3(X,Y,Z) % deseneaz ˘a un grafic în 3-D
stairs(X) % deseneaz ˘a o func¸ tie scara
subplot(m,n,z) % împarte graficul în mnzone & deseneaz ˘a în zona z
semilogx ¸ si semilogy % logaritmeaz ˘a valorile de pe absci ˘a, resp., ordonata
hold on % re¸ tine graficul pentru a realiza o nou ˘a figura
clf %¸ sterge figura
clear all % ¸ sterge toate variabilele definite
title('Graficul functiei') % adaug ˘a titlu figurii
find % g˘ase¸ ste indicii elementelor nenule ale unui vector
legend % ata¸ seaz ˘a o legend ˘a la un grafic
Tabela 13.1: Func¸ tii MATLAB utile

13.2 Reparti¸ tii probabilistice uzuale 259
13.2 Reparti¸ tii probabilistice uzuale
13.2.1 Reparti¸ tii discrete
În parantez ˘a, am notat numele cu care reparti¸ tia poate fi apelat ˘a în M ATLAB .
(1) Repartiµia uniform  discret  ,U(n) ( unid )
Scriem c ˘aXU(n), dac ˘a valorile lui Xsuntf1;2; :::; ng, cu probabilit ˘a¸ tile asociate
P(X=k) =1
n;k=1;2; :::; n:
Media ¸ si dispersia sunt: E(X) =n+1
2;Var(X) =n21
12:
D.p.d.v. practic, reparti¸ tia uniform ˘a reprezint ˘a observarea unui rezultat elementar în urma
unui experiment aleator cu un num ˘ar finit de cazuri posibile echiprobabile. Spre exemplu:
• fa¸ ta care apare la aruncarea unei monede ideale este o v.a. repartizat ˘aU(2);
•num˘arul de puncte care apar la aruncarea unui zar ideal este o v.a. repartizat ˘aU(6).
(2) Repartiµia Bernoulli1,B(1;p) ( bino )
O variabil ˘a aleatoare Bernoulli (scriem XB(1;p)) poate lua doar dou ˘a valori,
formalizate matematic prin X=1(succes) sau X=0(insucces), cu probabilit ˘a¸ tile
P(X=1) =p¸ siP(X=0) =1p. Uneori, se folose¸ ste nota¸ tia q=1p.
Media ¸ si dispersia sunt: E(X) =p;Var(X) =p(1p).
D.p.d.v. practic, o variabil ˘aB(1;p)reprezint ˘a num ˘arul de succese ob¸ tinute într-o singur ˘a
prob ˘a a unui experiment de tip Bernoulli (are dou ˘a variante de realizare: succes sau e¸ sec).
Spre exemplu, num ˘arul de steme ap ˘arute la aruncarea unei unei monede corecte poate fi
modelat ca fiind o v.a. B(1;0:5).
(3) Repartiµia binomial  ,B(n;p): ( bino )
Este un model matematic pentru schema bilei revenite (schema extragerilor cu repeti¸ tie).
Scriem c ˘aXB(n;p) ( n>0;p2(0;1)), dac ˘a valorile posibile ale lui Xsunt
f0;1; :::; ng, cu probabilit ˘a¸ tile asociate
P(X=k) =Ck
npk(1p)nk;k=0;1;:::; n:
Dac˘a(Xk)k=1;nB(1;p)sunt independente stochastic, atunci X=n
å
k=1XkB(n;p).
Media ¸ si dispersia sunt: E(X) =n
å
k=1E(Xk) =np;Var(X) =n
å
k=0Var(Xk) =np(1p).
D.p.d.v. practic, o variabil ˘aB(n;p)reprezint ˘a num ˘arul de succese ob¸ tinute în nrepeti¸ tii
independente ale unui experiment de tip Bernoulii (are dou ˘a variante de realizare: succes
sau e¸ sec). Spre exemplu, num ˘arul de steme ap ˘arute în 15arunc ˘ari ale unei monede corecte
poate fi modelat ca o v.a. binomial ˘aB(15;0:5).
1Jacob Bernoulli (1654 1705), matematician elve¸ tian

260 Capitolul 13. Anexe
(4) Repartiµia hipergeometric  ,H(n;a;b) ( hyge )
Este un model matematic pentru schema bilei nerevenite (schema extragerilor f ˘ar˘a repeti¸ tie).
Scriem c ˘aXH(n;a;b) (n;a;b>0)dac˘a
P(X=k) =Ck
aCnk
b
Cn
a+b;pentru orice kce satisface max (0;nb)kmin(a;n):
Observa¸ tia 13.1 (i) Dac ˘a(Xk)k=0;nB(1;n)sunt variabile aleatoare dependente
stochastic, atunci
X=n
å
i=1XiH(n;a;b):
Media ¸ si dispersia sunt: E(X) =n
å
k=0E(Xk) =np;Var(X) =np(1p)a+bn
a+b1.
În cazul schemei bilei nerevenite, nu mai putem scrie egalitate între Var(X)¸ sin
å
k=0Var(Xk),
deoarece (Xk)knu sunt independente stochastic.
(ii) Pentru N=a+bn, putem face aproximareaa+bn
a+b1a+bn
a+b=1n
N, de
unde
Var(X)np(1p)
1n
N
: (13.2.1)
Observ ˘am c ˘a reparti¸ tiile binomial ˘a ¸ si hipergeometric ˘a au aceea¸ si medie, îns ˘a dispersiile
difer ˘a prin termenulNn
N1. În cazul în care num ˘arul de bile este mult mai mare decât
num˘arul de extrageri ( Nn), atunci acest termen devine aproximativ
1n
N
. În plus,
dac˘aNeste foarte mare, atunci trecând N!¥în (13.2.1), g ˘asim c ˘a ¸ si dispersiile celor
dou˘a reparti¸ tii coincid. Cu alte cuvinte, când num ˘arul de bile din urn ˘a este foarte mare, nu
mai conteaz ˘a dac ˘a extragerea bilelor se face cu repeti¸ tie sau nu. Acest fapt îl vom utiliza în
Teoria selec¸ tiei, când extragerile se fac dintr-o colectivitate de volum foarte mare.
(5) Repartiµia Poisson2,P(l) ( poiss )
Valorile sale reprezint ˘a num ˘arul evenimentelor spontane (cu intensitatea l) realizate într-un
anumit interval de timp. Pentru un l>0, spunem c ˘aXP(l)(legea evenimentelor
rare) dac ˘aXia valori naturale, cu probabilit ˘a¸ tile
P(X=k) =ellk
k!;V k2N:
Media ¸ si dispersia sunt: E(X) =l;Var(X) =l.
2Siméon-Denis Poisson (1781 1840), matematician ¸ si fizician francez, student al lui Laplace

13.2 Reparti¸ tii probabilistice uzuale 261
(6) Repartiµia geometric , Geo(p) ( geo)
Valorile sale reprezint ˘a num ˘arul de insuccese avute pân ˘a la ob¸ tinerea primului succes,
stiind probabilitatea de ob¸ tinere a unui succes la o singur ˘a prob ˘a este p.
Spunem c ˘aXGeo(p);(p2(0;1))dac˘aXia valori în N, cu probabilit ˘a¸ tile
P(X=k) =p(1p)k;pentru orice k2N;unde p0:
Media ¸ si dispersia sunt: E(X) =1p
p;Var(X) =1p
p2.
Observa¸ tia 13.2 (1) Dac ˘aXGeo(p), atunci variabila aleatoare Y=X+1reprezint ˘a
a¸ steptarea pân˘ a la primul succes .
(2) Reparti¸ tia geometric ˘a satisface a¸ sa-numita proprietate a lipsei de memorie , i.e.,
P(X>x+y=X>y) =P(X>x);8x;y0:
Este unica distribu¸ tie discret ˘a cu aceast ˘a proprietate. Printre distribu¸ tiile de tip continuu,
doar distribu¸ tia exponen¸ tial ˘a satisface aceast ˘a proprietate.
(7) Repartiµia binomial  cu exponent negativ, BN (m;p) ( nbin )
Valorile sale reprezint ˘a num ˘arul de insuccese ob¸ tinute înainte de a se realiza succesul de
rang m. În cazul particular m=1, ob¸ tinem reparti¸ tia geometric ˘a.
Pentru m1;p2(0;1), spunem c ˘aXBN (m;p)dac˘aXia valorilefm,m+1,
m+2;:::g, cu probabilit ˘a¸ tile asociate
P(X=k) =Cm1
m+k1pm(1p)k;8km;p0:
Observa¸ tia 13.3 Dac˘a(Xk)k=1;nGeo(p)sunt v.a. independente stochastic, atunci
X=n
å
k=1XkBN (m;p).
Media ¸ si dispersia sunt:
E(X) =n
å
k=1E(Xk) =m(1p)
p;Var(X) =n
å
k=1Var(Xk) =m(1p)
p2:
13.2.2 Reparti¸ tii continue
(1) Repartiµia uniform  ,U(a;b) ( unif )
Spunem c ˘a variabila aleatoare de tip continuu Xurmeaz ˘a o reparti¸ tie uniform ˘a, scriem
XU(a;b) (a<b), dac ˘a func¸ tia sa de densitate este
f(x;a;b) =1
ba;dac˘ax2(a;b);
0 ;altfel :
Media ¸ si dispersia sunt: E(X) =a+b
2;D2(X) =(ba)2
12.

262 Capitolul 13. Anexe
Exemplu: Alegerea la întâmplare a unei valori din intervalul (0;1), astfel încât orice
valoare are aceea¸ si ¸ sans ˘a de a fi aleas ˘a, urmeaz ˘a o reparti¸ tie U(0;1).
(2) Repartiµia normal  ,N(m;s) ( norm )
Spunem c ˘aXN(m;s);dac˘aXare densitatea:
f(x;m;s) =1
sp
2pe(xm)2
2s2;x2R:
Media ¸ si dispersia sunt: E(X) =m¸ siVar(X) =s2.
Se mai nume¸ ste ¸ si reparti¸ tia gaussian ˘a. În cazul m=0¸ sis2=1, densitatea de reparti¸ tie
devine:
f(x) =1p
2pex2
2;x2R: (13.2.2)
În acest caz spunem c ˘aXurmeaz ˘areparti¸ tia normal˘ a standard ,N(0;1).
Graficul densit ˘a¸ tii de reparti¸ tie pentru reparti¸ tia normal ˘a este clopotul lui Gauss (vezi
Figura 13.1). Din grafic (pentru s=1), se observ ˘a c˘a majoritatea valorilor nenule ale
reparti¸ tiei normale standard se afl ˘a în intervalul (m3s;m+3s) = (3;3).
Dac˘aXN(0;1), atunci X=sX+m
N(m;s). În mod similar, dac ˘aX
N(m;s), atunci X=Xm
sN(0;1). Pen-
tru o v.a. N(0;1)func¸ tia de reparti¸ tie este
tabelat ˘a (valorile ei se g ˘asesc în tabele) ¸ si are
o nota¸ tie special ˘a,Q(x). Ea e definit ˘a prin:
Q(x) =1p
2pZx
¥ey2
2dy:
Func¸ tia de reparti¸ tie a lui XN(m;s)este
dat˘a prin
F(x) =Q(xm
s);x2R:
Figura 13.1: Clopotul lui Gauss pentru
XN(0;s);(s=1;2;3)

13.2 Reparti¸ tii probabilistice uzuale 263
(3) Repartiµia log-normal  , logN(m;s) ( logn )
Reparti¸ tia log-normal ˘a este foarte util ˘a în Matematicile Financiare, reprezentând o reparti¸ tie
de pre¸ turi viitoare pentru un activ financiar. Dac ˘aXN(m;s), atunci Y=eXeste o v.a.
nenegativ ˘a, având densitatea de reparti¸ tie
f(x;m;s) =(
1
xsp
2pe(lnxm)2
2s2 ;dac˘ax>0
0 ;dac˘ax0
A¸ sadar, YlogN(m;s)dac˘a lnYN(m;s).
Media ¸ si dispersia sunt: E(X) =em+s2=2;Var(X) =e2m+s2(es21).
(4) Repartiµia exponenµial , exp(l) ( exp)
Valorile sale sunt timpi realiza¸ ti între dou ˘a valori spontane repartizate P(l). Spunem c ˘a
Xexp(l) (l>0)dac˘a are densitatea de reparti¸ tie
f(x;l) =
lelx;dac˘ax>0;
0 ;dac˘ax0
Media ¸ si dispersia sunt: E(X) =1
l¸ siVar(X) =1
l2.
Reparti¸ tia exponen¸ tial ˘a satisface a¸ sa-numita proprietate a lipsei de memorie , i.e.,
P(X>x+y=X>y) =P(X>x);8x;y0:
Este unica distribu¸ tie continu ˘a cu aceast ˘a proprietate. Dintre reparti¸ tiile discrete, doar
reparti¸ tia geometric ˘a mai satisface aceast ˘a proprietate.
(5) Repartiµia Gamma, G(a;l) ( gam)
O v.a. Xeste repartizat ˘aXG(a;l), unde a;l>0, dac ˘a densitatea sa de reparti¸ tie este:
f(x;a;l) =(la
G(a)xa1elx;dac˘ax>0;
0 ;dac˘ax0:
Aici,Geste func¸ tia lui Euler,
G:(0;¥)!(0;¥);G(a) =Z¥
0xa1exdx:
Media ¸ si dispersia sunt: E(X) =a
l;Var(X) =a
l2:
Observa¸ tia 13.4 (i) Dac ˘an=1, atunci G(1;l)exp(l).
(ii) Dac ˘a v.a.fXkgk=1;nexp(l)sunt independente stochastic, atunci suma lor este
variabila aleatoaren
å
k=1XkG(n;l).

264 Capitolul 13. Anexe
(6) Repartiµia Weibull3, Wbl (k;l) ( wbl)
Aceast ˘a reparti¸ tie este asem ˘an˘atoare cu reparti¸ tia exponen¸ tial ˘a (aceast ˘a ob¸ tinându-se în
cazul particular k=1) ¸ si poate modela reparti¸ tia m ˘arimii particulelor. Când k=3:4,
distribu¸ tia Weibull este asem ˘an˘atoare cu cea normal ˘a. Când k!¥, aceast ˘a reparti¸ tie se
apropie de func¸ tia lui Dirac.
V om spune c ˘aXWbl(k;l) (k>0;l>0)dac˘a are densitatea de reparti¸ tie
f(x;k;l) =(
k
lx
lk1e(x
l)k
;dac˘ax0
0 ;dac˘ax<0:
În practic ˘a, distribu¸ tia Weibull este utilizat ˘a în analiza fiabilit ˘a¸ tii, modelând num ˘arul de
defec¸ tiuni în timp ale unui sistem/dipozitiv.
Media ¸ si varian¸ ta sunt:
E(X) =lG
1+1
k
;Var(X) =l2"
G
1+2
k

G
1+1
k2#
:
(7) Repartiµia c2,c2(n) ( chi2 )
V om spune c ˘aXc2(n)(se cite¸ ste reparti¸ tia hi-p˘ atrat cu n grade de libertate ) dac ˘a
densitatea sa de reparti¸ tie este:
f(x;n) =8
<
:1
G(n
2)2n
2xn
21ex
2;dac˘ax>0;
0 ;dac˘ax0:
undeGeste func¸ tia lui Euler. Graficul acestei reparti¸ tii (pentru diverse valori ale lui n) este
reprezentat în Figura 13.2.
Media ¸ si dispersia sunt: E(c2) =n;Var(c2) =2n:
(a) Reparti¸ tia c2(n)este, de fapt, reparti¸ tia G(n
2;1
2).
(b) Dac ˘a v.a. independente XkN(0;1), pentru
k=1;2;:::; n, atunci
X2
1+X2
2++X2
nc2(n):
În cuvinte, suma p ˘atratelor a nerori distribuite nor-
mal standard urmeaz ˘a o reparti¸ tie c2(n). În particular,
dac˘aXN(0;1), atunci X2c2(1).
(c) Este foarte utilizat ˘a în testarea ipotezelor statis-
tice (e.g., teste de concordan¸ t ˘a).
Figura 13.2: Reparti¸ tia c2(n)pentru
patru valori ale lui n.
3Ernst Hjalmar Waloddi Weibull (1887 1979), matematician ¸ si inginer suedez

13.2 Reparti¸ tii probabilistice uzuale 265
(8) Repartiµia Student (W. S. Gosset4),t(n) ( t)
Spunem c ˘aXt(n)(cungrade de libertate) dac ˘a densitatea de reparti¸ tie este:
f(x;n) =Gn+1
2
pnpGn
2
1+x2
nn+1
2
;x2R:
Media ¸ si dispersia sunt: E(X) =0;Var(X) =n
n2:
Aceast ˘a reparti¸ tie este foarte utilizat ˘a în testarea ipotezelor statistice (test pentru media
unei popula¸ tii statistice).
(9) Repartiµia Fisher5,F(m;n) ( f)
Spunem c ˘aXF(m;n)(cum;ngrade de libertate) dac ˘a densitatea de reparti¸ tie este:
f(x) =8
<
:(m
n)m
2G(m+n
2)
G(m
2)G(n
2)xm
21
1+m
nxm+n
2;dac˘ax>0;
0 ;dac˘ax0:
Media ¸ si dispersia sunt: E(X) =n
n2;Var(X) =2n2(n+m2)
m(n2)2(n4):
Aceast ˘a reparti¸ tie este foarte utilizat ˘a în testarea ipotezelor statistice (test pentru
compararea dispersiilor unor popula¸ tii statistice).
(10) Repartiµia Cauchy6,C(l;m) (f˘ar˘a corespondent în M ATLAB )
Spunem c ˘aXC(l;m)dac˘a densitatea de reparti¸ tie este:
f(x;l;m) =l
p[(xm)2+l2];x2R:
NU admite medie, dispersie sau momente!!!
. [Q: What’s the question the Cauchy distribution hates the most?
. A: Got a moment?]
4William Sealy Gosset (1876 1937), statistician britanic, care a publicat sub pseudonimul Student
5Sir Ronald Aylmer Fisher (1890 1962), statistician, eugenist, biolog ¸ si genetician britanic
6Augustin Louis Cauchy (1789 1857), matematician francez

266 Capitolul 13. Anexe
13.3 Tabele de valori critice
Tabela 13.2: Valori critice pentru testul seriilor. Aici, a1reprezinta nivelul de semnificatie
pentru testul unilateral si a2pentru testul bilateral.

13.3 Tabele de valori critice 267
Tabela 13.3: Valori critice pentru testul Wald-Wolfowitz, pentru nivelul de semnificatie
a=0:05.

268 Capitolul 13. Anexe
Tabela 13.4: Valori critice csic1pentru testul semnului rangurilor Wilcoxon, pentru
nivelul de semnificatie. Aici, P(Sc1)asiP(Sc)a
2cand(H0)este acceptata.

13.3 Tabele de valori critice 269
Tabela 13.5: Valori critice pentru testul semnului rangurilor Wilcoxon (caz bilateral).

270 Capitolul 13. Anexe
Tabela 13.6: Valori critice pentru testul semnului rangurilor Wilcoxon (caz unilateral).

Bibliography
[1]Petru Blaga, Statistic˘ a :::prin Matlab, Presa universitar ˘a clujean ˘a, Cluj-Napoca,
2002.
[2] David Brink, Statistics compendium, David Brink & Ventus Publishing ApS, 2008.
[3] David Brink, Statistics exercises, David Brink & Ventus Publishing ApS, 2008.
[4]Gheorghe Ciucu, Virgil Craiu, Teoria estima¸ tiei ¸ si verificarea ipotezelor statistice,
Editura Didactic ˘a ¸ si Pedagogic ˘a, Bucure¸ sti, 1968.
[5]Steve Dobbs, Jane Miller, Statistics 1, Cambridge University Press, Cambridge 2000 .
[6]Jay L. DeV ore, Kenneth N. Berk, Modern Mathematical Statistics with Applications
(with CD-ROM), Duxbury Press, 2006.
[7]Robert V . Hogg, Allen Craig, Joseph W. McKean, Introduction to Mathematical
Statistics, Prentice Hall, 6th edition, 2004.
[8]Marius Iosifescu, Costache Moineagu, Vladimir Trebici, Emiliana Ursianu, Mic˘ a
enciclopedie de statistic˘ a, Editura ¸ stiin¸ tific ˘a ¸ si enciclopedic ˘a, Bucure¸ sti, 1985.
[9] http://www.mathworks.com
[10] Gheorghe Mihoc, N. Micu, Teoria probabilit˘ a¸ tilor ¸ si statistica matematic˘ a, Bucuresti,
1980.
[11] Octavian Petru¸ s, Probabilit˘ a¸ ti ¸ si Statistica matematic˘ a – Computer Applications, Ia¸ si,
2000.
[12] Sanford Weisberg, Applied Linear Regression, Wiley series in Probability and Statis-
tics, 3rd ed., 2005.

272 BIBLIOGRAPHY
[13] Larry J. Stephens, Theory and problems of Beginning Statistics, Schaum’s Outline
Series, 2nd ed., The McGraw-Hill Companies, Inc., 1998.
[14] Dominick Salvatore, Derrick Reagle, Theory and problems of Statistics and Econo-
metrics, Schaum’s Outline Series, 2nd ed., The McGraw-Hill Companies, Inc., 2002 .
[15] Iulian Stoleriu, Statistic˘ a prin MATLAB . MatrixRom, Bucure¸ sti, 2010.
[16] Gábor Székely, Paradoxes in Probability Theory and Mathematical Statistics, (Math-
ematics and its Applications), Springer Verlag, 1987.
[17] David Williams, Weighing the Odds: A Course in Probability and Statistics, Cam-
bridge University Press, 2001.

Glosar
amplitudinea, 48
amplitudinea de selec¸ tie, 64
ANOV A, 235
bootstrapping, 174
box-and-whisker plot, 50
caracteristic ˘a, 9
cauzalitate, 191, 193
clas˘a median ˘a, 52
clasificare, 214
clopotul lui Gauss, 262
coeficient de aplatizare, 16, 49
coeficient de asimetrie, 16, 49
coeficient de corela¸ tie, 18
coeficient de corela¸ tie, 48
coeficient de corela¸ tie empiric ˘a, 191
coeficient de corela¸ tie teoretic, 18, 191
coeficientul de corela¸ tie Spearman, 194
coeficientul de determinare, 193
coeficientul de varia¸ tie , 48
colectivitate statistic ˘a, 9
corela¸ tia, 17, 48, 190
corela¸ tia empiric ˘a, 192
corela¸ tia teoretic ˘a, 18, 190
corelatie, 189
cota, 215
covarian¸ ta, 17cuantile, 16
date continue, 10, 38
date discrete, 10, 38
date perechi, 154
densit ˘a¸ ti de frecven¸ t ˘a, 43
deplasarea unui estimator, 78
devia¸ tia standard de selec¸ tie, 20
devia¸ tia standard, 47
dispersia, 47
dispersia de selec¸ tie, 19, 62
dispersia teoretic ˘a, 61
dispersia teoretic ˘a, 14
distribu¸ tie empiric ˘a de selec¸ tie, 39
eroare în medie p ˘atratic ˘a, 78
estima¸ tie, 77
estimator, 77
estimator consistent, 79
estimator de verosimilitate maxim ˘a, 80
estimator nedeplasat, 78
estimator prin metoda momentelor, 82
factori, 235
faz˘a, 154
frecven¸ t ˘a cumulat ˘a, 41
frecven¸ ta absolut ˘a, 39
frecven¸ ta cumulat ˘a, 39
frecven¸ ta relativ ˘a cumulat ˘a, 39

274 GLOSAR
frecven¸ ta relativ ˘a, 39, 177
frontiera de decizie, 216
frontierele unei clase, 45
func¸ tia cost, 216
func¸ tie de regresie, 200
func¸ tia de probabilitate (de frecven¸ t ˘a), 12
func¸ tie de reparti¸ tie, 61
func¸ tie de reparti¸ tie (cumulat ˘a), 13
func¸ tie de reparti¸ tie de selec¸ tie, 20, 63
func¸ tie de reparti¸ tie empiric ˘a, 48
histogram ˘a, 43
homoscedasticitate, 237
inferen¸ t ˘a, 61
interval de încredere, 83
ipotez ˘a statistic ˘a, 105, 106
kurtosis, 16, 49
legea tare a numerelor mari, 20
lips˘a de memorie, 261, 263
media, 47
media de selec¸ tie, 19, 61
media teoretic ˘a, 61
media teoretic ˘a, 14
mediana de selec¸ tie, 64
metoda Monte Carlo, 176
modul, 17
momente, 47
momente centrate ale unei v.a., 15
nivel de semnifica¸ tie, 84, 106
niveluri, 235
ogiv˘a, 46
P-valoare, 106
popula¸ tie statistic ˘a, 9
predic¸ tie, 207
probabilitate de risc, 84
prognoz ˘a, 208
recens ˘amânt, 10
regresie, 189, 199, 219
regresie liniar ˘a multipl ˘a, 200
regresie liniar ˘a simpl ˘a, 200, 201
regresie logistic ˘a, 201, 214regresie logistic ˘a (simpl ˘a), 215
regresie logistica multipl ˘a, 215
regula celor 3 s, 15
reparti¸ tia mediei de selec¸ tie, 66
reparti¸ tia c2, 264
reparti¸ tia normal ˘a standard, 262
repartitia range standardizat, 239
riscul beneficiarului, 106
riscul furnizorului, 106
scatter plot, 190
selec¸ tie, 10
selec¸ tii pentru caracteristici normale, 65
serie de timpi, 39
skewness, 16, 49
softmax, 217
statistic ˘a, 18, 19, 60, 61
statistici de ordine, 64
stem-and-leaf, 41
stimuli, 199
tabel de contingen¸ t ˘a, 132
tabel de frecven¸ te, 39
tabele de valori critice, 266
teorema limit ˘a central ˘a, 21
test bilateral, 108
test de concordan¸ t ˘a, 123
test de independen¸ t ˘a, 131
test de median ˘a, 152
test de normalitate, 142
test de permut ˘ari, 172
test de ree¸ santionare, 171
test neparametric, 151
test pentru dispersie, 110
test pentru medie, 109
test pentru propor¸ tie, 111
test statistic, 107, 128
test unilateral dreapta, 108
test unilateral stânga, 107
testarea stochasticit ˘a¸ tii, 155
testul c2, 123, 128
testulF, 112
testul tpentru date perechi, 159
testul exact al lui Fisher, 135
testul K-S, 126, 127
testul semnelor, 152, 154, 162
testul seriilor, 154, 163

GLOSAR 275
testul Wald-Wolfowitz, 156
testul Wilcoxon, 160, 161, 164
UMVUE, 79
valori de selec¸ tie, 60
variabil ˘a predictor , 190
variabil ˘a r˘aspuns, 190
variabil ˘a aleatoare, 11
variabila aleatoare standardizat ˘a, 15
variabila dependent ˘a, 199
variabila independent ˘a, 199
variabila r ˘aspuns, 199
variabile aleatoare de selec¸ tie, 60
zgomot alb, 240

Similar Posts