PROGRAMUL DE STUDII DE LICENT  A LUCRARE DE LICENT  A COORDONATOR: ABSOLVENT: Lect. Dr. Moleriu Radu Nicoleta Maria TIMIS OARA 2020… [611970]

UNIVERSITATEA DE VEST DIN TIMIS OARA
FACULTATEA DE MATEMATIC A S I INFORMATIC A
PROGRAMUL DE STUDII DE LICENT  A
LUCRARE DE LICENT  A
COORDONATOR: ABSOLVENT: [anonimizat] OARA
2020

UNIVERSITATEA DE VEST DIN TIMIS OARA
FACULTATEA DE MATEMATIC A S I INFORMATIC A
PROGRAMUL DE STUDII DE LICENT  A
ELEMENTE DE STATISTIC A
UTILIZATE ^IN PREVENT IA
UNOR BOLI
COORDONATOR: ABSOLVENT: [anonimizat] OARA
2020

Abstract
In this paper I present methods for using statistical calculus to prevent disease.
In the rst chapter Descriptive statistics I present notions regarding the collection
and presentation of statistical data in graphical form. At the same time, I present the
calculation method of the statistical indicators. I will present the determination of the
con dence intervals for estimating the statistical parameters.
We further present the second chapter of Statistical Tests. With the help of a
statistical test we verify a statistical hypothesis regarding a statistical indicator.
The examination of the relationship between the dependent variable and other
independent variables is described in the third chapter of the analysis of linear corre-
lation and regression. With the help of linear regression we can predict the dependent
variable when the other independent variables are known.
Next, in the fourth chapter of the Risk Analysis, forecasting techniques for the
construction of various scenarios are presented. For risk assessment I present statistical
methods and probabilistic methods.
3

Cuprins
Introducere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1 Statistica descriptiv a 7
1.1 Introducere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Reprezent ari gra ce a datelor statistice . . . . . . . . . . . . . . . . . . 10
1.3 Indicatori statistici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.1 Indicatori ai tendint ei centrale . . . . . . . . . . . . . . . . . . . 12
1.3.2 Indicatori ai variat ei . . . . . . . . . . . . . . . . . . . . . . . . 14
1.4 Intervale de ^ ncredere . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.4.1 Estimatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.4.2 Interval de ^ ncredere pentru medie c^ and este cunoscut . . . . 19
1.4.3 Interval de ^ ncredere pentru medie ^ n cazul necunoscut . . . . 20
1.4.4 Intervale de ^ ncredere pentru dispersie . . . . . . . . . . . . . . 20
1.4.5 Interval de ^ ncredere pentru proport ie . . . . . . . . . . . . . . . 21
1.4.6 Intervale de ^ ncredere pentru diferent a a dou a medii ale c aror
dispersii sunt cunoscute . . . . . . . . . . . . . . . . . . . . . . 21
1.4.7 Intervale de ^ ncredere pentru diferent a mediilor a dou a populat ii
ale c aror dispersii sunt necunoscute . . . . . . . . . . . . . . . . 22
1.4.8 Intervale de^ ncredere pentru diferent a proport iilor a dou a populat ii 23
2 Teste statistice 24
2.1 Teste statistice punerea problemei . . . . . . . . . . . . . . . . . . . . . 24
2.2 Teste parametrice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3 Teste neparametrice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3 Corelat ia  si regresia 32
3.1 Corelat ia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.2 Regresia liniar a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4 Analiza riscului 37
4.1 Not iuni fundamentale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2 Indici din analiza riscului . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5 Studii de caz 40
5.1 Reprezentarea gra c a a datelor statistice . . . . . . . . . . . . . . . . . 40
5.2 Indicatori statistici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.3 Teste statistice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.4 Analiza corelat iei  si regresiei . . . . . . . . . . . . . . . . . . . . . . . . 53
6 Concluzii 59
4

Bibliography 60
5

Introducere
^In lucrarea de fat  a prezint metode de utilizare a calcului statistic pentru prevenirea
bolilor la adolescen  i. Folosim metode inductive de cercetare, plec^ and de la particular
la general. Concluziile rezultate ^ n urma prelucr arii statistice a datelor experimentale
nu sunt absolut sigure, ^ ns a gradul de incertitudine poate calculat.
^In primul capitol Statistica descriptiv a prezint not iuni privind colectarea  si pre-
zentarea datelor statistice sub form a gra c a. Totodat a prezint modul de calcul al
indicatorilor statistici ai tendint ei centrale, ai ^ mpr a stierii  si ai formei de distribut ie.
De asemenea voi prezenta detetminarea intervalelor de ^ ncredere pentru estimarea pa-
rametrilor statistici.
Prezent am ^ n continuare capitolul al doilea Teste statistice. Aceste teste se ^ mpart
^ n dou a categorii: teste parametrice respectiv neparametrice. Cu ajutorul unui test
statistic ver c am o ipotez a statistic a referitoare la un indicator statistic (medie, aba-
tere standart, dispersie etc.) .
Examinarea relat iei dintre variabil a dependent a  si alte variabile independente este
descris ^ n capitolul al treilea Analiza corelat iei  si regresiei liniare. Cu ajutorul re-
gresiei liniare putem prognoza variabila dependent a c^ and se cunosc celelalte variabile
independente sunt cunoscute.
^In continuare ^ n capitolul al patrulea Analiza riscului sunt prezentate tehnici de
prognoz a pentru construirea diverselor scenari. Pentru evaluarea riscului prezint me-
tode statistice  si metode probabilistice.
^In ultimul capitol Studiul de caz voi prezenta calculul elementelor statistice utilizate
^ n medicin a cu ajutorul programului Octave. Am ales acest program pentru c a licent a
este free poate rula ^ n Windows, Ubuntu, dar el poate apelat  si online f ar a a necesita
instalarea propriu-zis a pe o unitate de calculator.
6

Capitolul 1
Statistica descriptiv a
Statistica este o ramur a a matematicii aplicate care se ocup a cu gruparea, analiza
s,i interpretarea datelor referitoare la un anumit fenomen de mas a ^ n scopul obt ,inerii
unor previziuni privind desf as ,urarea ulterioar a a sa.[Gheorghe Mihoc [1]]
Domeniul statisticii poate ^ mp art ,it ^ n dou a subdomenii: statistica descritiv a s ,i
statistica analitic a. Statistica descriptiv a cuprinde colectarea, prezentarea  si descrierea
datelor statistice. Statistica analitic a se refer a la tehnica de interpretare a valorilor
rezultate din tehnicile descriptive s ,i utilizarea lor la luarea deciziilor.[4, 5]
1.1 Introducere
De nit ia 1.1.1. •Populat ,ia statistic a este prin de nit ,ie o mult ,ime de elemente
ce au o proprietate comun a care urmeaz a a studiat a. Un element al unei
populat ,ii se numes ,te individ (unit at ,i statistice). Num arul total al indivizilor
dintr-o populat ie nit a se nume ste volumul populat iei.
•Caracteristica (variabil a) statistic a a unei populat ii este o anumit a proprietate
observat a la indivizii ei  si constituie obiectul m asur arii.
•Es,antion (select ,ie) este prin de nit ,ie o submult ,ime a unei populat ,ii. Num arul
total al indivizilor din e santion se nume ste volumul e santionului.
•Date statistice reprezint a informat iile obt inute ^ n urma observat iei valorilor va-
riabilelor statistice.
•Parametru este o caracteristic a numerica a unei ^ ntregi populat ii.
•Statistica este valoarea numeric a a parametrului calculat pemtru e santion.
Planul unui studiu statistic cuprinde urm atoarele etape:
•Plani care
•Proiectare
•Execut ie
Culegerea datelor pentru un studiu statistic presupune s a parcurgem urm atorii
pa si :
7

{de nirea studiului statistic;
{de nirea variabilelor;
{de nirea colect iilor de date  si a schemelor de m asurare c^ a  si precizarea
dimensiuni de select ie;
{determinarea tehnicilor descriptive  si analitice de analiz a a datelor;
•Procesarea datelor
•Analiza datelor
•Prezentarea datelor
•Interpretarea rezultatelor
•Publicarea
Studiul statistic se va realiza prin:
•Reces am^ ant care este de fapt urm arirea caracteristicilor la tot i indivizi din populat ia
statistic a ^ n acela si timp. Aceast a metod a este foarte costisitoare, consumatoare
de timp pentru a aplicat a deseori.
•E santion care la r^ andul s au se ^ mparte ^ n:
{e santion simpl a generat a mai nou cu ajutorul unui generator de numere
aleatoare (se numeroteaz a elementele populat iei apoi se extrag n numere
aleatoare, elementele numerotate cu num arul aleator corespunz ator sunt
extrase din select ie);
{e santion sistematic este o select ie din care se extrage tot al k-lea termen din
select ie. Aici aplic am numai la ^ nceput folosirea unui generator de numere
aleatoare;
{e santion strati cat se obt ine prin select ia unui num ar nit de elemente din
ecare strat al populat iei;
{e santion grupat se obt ine prin select ia unui num ar nit de elemente doar
din unele straturi ale populat iei.
Tipurile de variabule cele mai des folosite sunt:
•cantitave care m asoar a caracteristicile unui individ dintr-o populat ie. Avem
variabile discrete (care num ar a caracteristicile unui individ) sau continue (care
n asoara caracteristicile unui individ)
•calitative care descriu caracteristicile indivizilor din populat ie care la r^ andul lor
se ^ mparte ^ n:
{nominale care exprim a atributele unui individ f ar a a t ine seama de ordinea
lor;
{ordinale ale c aror valori apart in unei scale convent ionale;
{dihotomice care admite dou a valori posibile, iar rezultatul va distribut ia
^ n cele dou a clase.
8

Gruparea datelor
Datele culese se vor numi date negrupate. De aceea se prefer a c a aceste date s a e
grupate ^ n diferite clase de interes. Datele prezentate sub form a de tabel de frecvent ,e
se vor numi date grupate. Datele statistice de cele mai multe ori sunt stocate sub forma
unei matrice (tablou) unde valorile variabilelor (atributele/caracteristicile) sunt stocate
pe coloan a ^ n timp ce observat ,iile (obiectele) sunt stocate pe linii. Datele statistice
fy1;;yngpot s a se repete de aceea se va construi un tabel ^ n care pe coloan a
vom trece variabilele distincte fx1;;xrgapoi pe coloanele urm atoare vom trece fi
frecvent ,ele absolute (num arul de aparit ,ii ale variabilelor xi),fi
rP
i=1fifrecvent ,ele relative
sunt de fapt raportul dintre frecvent a absolut a  si volumul e santionului respectiv f1+
f2++fifrevcent ,ele cumulate cresc ator corespunz atoare variabilei xi. De exemplu:
xi frecv.abs. frecv.rel frecv.cum
x1 f1 f1=N f1
x2 f2 f2=N f1+f2
…………
xr fr fr=NN=f1+f2+fr
N=f1+f2+fr
Tabela 1.1: Tabel cu frecvent e
Dac a datele statistice sunt de tip continuu atunci se realizeaz a o grupare a datelor
pe clase.
clasa frecvent a valoarea medie a clasei
[a1;a2)f1 x1
[a2;a3)f2 x2
…………
[ar;ar+1)fr xr
Tabela 1.2: Tabel cu frecvent e pe clase
undefieste frecvent ,a aparit ,iei valorilor din clasa [ ai;ai+1) iarxi=ai+ai+1
2este
elementul de mijloc al clasei [ ai;ai+1) respectiv n=rP
i=1fi.
Pentru de nirea claselor unui tabel de frecvent ,e nu exist a o regul a de nit a. Fiecare
statistician poate crea propriul tabel de frecvent ,e dar exist a anumite cerint ,e minimale
care trebuie respectate:
•Num arul claselor s a e ^ ntre 5 s ,i 20, dac a volumul datelor este mic se recomand a
formarea a 5 sau 6 clase. Fiecare clas a cont ,ine cel put ,in 5 valori. Clasele astfel
formate sunt disjuncte.
•De preferat clasele s a aib a aceeas ,i l at ,ime. Lungimea claselor se mai poate deter-
mina empiric dup a formula lui Sturges (care se va aproxima convenabil pentru
formarea claselor) h=amaxamin
kundekeste partea ^ ntreag a a num arului
9

1 + 3:322log(n), respectiv amax;aminsunt valorile extremale (minim/maxim) ale
setului de date iar n este num arul de unit at ,i statistice din setul de date statistice
dat.
1.2 Reprezent ari gra ce a datelor statistice
Pentru reprezentarea gra c a a datelor statistice vom apela la programul Octave.Vom
prezenta mai multe tipuri de diagrame pentru vizualizarea datelor statistice.[5]
Reprezentarea prin linii
Reprezentarea prin puncte este folosit a pentru select ,ii de date discrete de dimen-
siuni mici. Vom reprezenta gra c punctele ( xi;fi) undexieste variabila studiat a iar fi
este frecvent ,a absolut a a variabilei xi. Vom uni punctele ( xi;fi) s,i (xi;0) cu segmente
de dreapt a.
Figura 1.1: Gra cul datelor statistice cu linii
Diagrame (circulare, bastoane vertical/orizontale) Datele statistice pot reprezen-
tate gra c cu ajutorul diagramei circulare.
Figura 1.2: Gra cul datelor statistice prezentate cu diagrama circular a
10

respectiv cu ajutorul barelor (dreptunghiuri) verticale utile pentru variabile calita-
tive.
Figura 1.3: Gra cul datelor statistice prezentate cu bare verticale
Norul de puncte
Figura 1.4: Gra cul datelor statistice prezentate cu norul de puncte
Diagrama boxplot descrie cele 5 valori (valoarea minim a, prima quartil a, mediana,
quartila atreia s ,i valoarea maxim a) ale unei serii de date statistice de tip discret.
Figura 1.5: Diagrama boxplot
Reprezentarea stem-and-leaf este aranjarea datele negrupate sub forma ramur a-
frunz a (stem and leaf). Ramura este cifra zecilor iar frunzele sunt cifrele unit at ,ilor.
11

1 8
3 49
4148
50359
612248
7357
8 9
Tabela 1.3: Datele statistice sub forma stem and leaf
Figura 1.6: Histograma unei seri statisce
Reprezentarea gra c a prin histograme
O histogram a este o form a pictorial a (format a din dreptunghiuri) foarte util a pen-
tru select ,ii de date de tip continuu grupate pe clase. Se aseam an a cu reprezentarea prin
bare (dreptunghiuri) dar nu avem spat ,ii ^ ntre dreptunghiuri des ,i putem avea dreptun-
ghiuri cu ^ n alt ,imea zero iar ariile dreptunghiurilor sunt proport ,ionale cu frecvent ,ele
corespunz atoare. Num arul de dreptunghiuri este egal cu num arul de clase, l at ,imea
dreptunghiurilor este intervalul clasei iar ^ n alt ,imea este aleas a frecvent ,a absolut a a
clasei. Aria total a a tuturor dreptunghiurilor este egal a cu num arul total de observat ,ii.
1.3 Indicatori statistici
Prin indicator statistic ^ nt elegem rezultatul unei observat ii statistice  si a prelucr arii
datelor statistice.[4, 5]
1.3.1 Indicatori ai tendint ei centrale
Dac a alegem un e santion cu valorile distincte x1;x2;;xnatunci de nim media
de select ie ca media aritmetic a a tutror valorilor din e santion
x=x1+x2++xn
n(1.1)
12

Media geometric a se de ne ste
xg=npx1x2xn (1.2)
Media armonic a se de ne ste
xh=n
1
1
x1+1
x21
xn(1.3)
Mediana este o valoare care ^ mparte seria ^ n dou a grupe de frecvent  a egale adic a
Me=(xN+1n= 2N+ 1
xN+xN+1
2n= 2N(1.4)
Cuartile ^ mpart seria ^ n patru p art i egale. Avem 3 cuartile Q1(cuartila inferioar ade
rangn
4),Q2(mediana de rangn
2),Q3(cuartila superioar a de rang3n
4k num arul total
de observat ii). Cuartilele se determin a asem an ator cu cele de la median a. C^ and valorile
cuartilei se aproprie de median a repartit ie se caracterizeaz a prin ^ mpr at iere mic a[2]
Modul (moda) Mo este valoarea caracteristici variabilei c areia^  corespunde frecven a
maxim a. Pentru repartit ii perfect simetrice media, mediana  si modulul coincid. Avem
o relat ie
Mo= 3Me2x (1.5)
.
^In cazul datelor grupate avem formula pentru media de select ie
x=rP
i=1xifi
rP
i=1fi(1.6)
unde
•nifrecvent a absolut a a clasei [ ai;ai+1);
•ximijlocul clasei [ ai;ai+1);
•rnum arul claselor.
respectiv formula pentru media geometric a
xg=rY
i=1xfi
i (1.7)
unde valorile xiau frecvent ele fi
Intervalul ce cont ine elementulk
2se nume ste intervalul median pentru o select ie
de nit a pe clase. Valoarea cuartilei se determin a din formula
Me=xQi+ik4ni
1
4nQidQi; i= 1;2;3 (1.8)
unde
13

•xQilimita inferioar a a intervalului cuartilic Qi;
•ni
1frecvent a cumulat a cresc ator corespunz atoare interior anterior intervalului
cuartilicQi;
•nQifrecvent a absolut a intervalului cuartilic Qi;
•dQilungimea intervalului cuartitilic Qi.
Modul se determin a cu formula
Mo=l1 +1
1+  2h (1.9)
unde
•l1 limita inferioar a a intervalului modal;
•hlungimea intervalului modal;
•1diferent a dintre frecvent a intervalului modal  si frecvent a intervalului anterior
intervalului modal;
•2diferent a dintre frecvent a intervalului urm ator intervalului modal  si frecvent a
intervalului modal;
1.3.2 Indicatori ai variat ei
Amplitudinea se determin a ca diferent a dintre valoarea cea mai mare  si valoarea
cea mai mic a.
Putem calcula variat ia intercuartilic a Qde nit a astfel
Q=Q3Q1
2(1.10)
 si coe cientul de variat ie intercuartilic a q
q=Q
Me=Q3Q1
Q3+Q1(1.11)
care are valori ^ ntre -1  si 1.
Valorile aberante sunt valori statistice observate care sunt ^ ndep artate de marea
majoritate a celorlalte observat ii. Aceste valori nu apart in intervalului [ Q11:5(Q3
Q1);Q3 + 1:5(Q3Q1)].
Coe cientul de asimetrie intercuartilic se calculeaz a dup a formula
Asq=(Q3Me)(MeQ1)
Q3Q1(1.12)
este cuprins ^ ntre -1  si 1  si ia valoarea zero pentru repartit ii simetrice. Valorile 1 se
obt in pentru repartit ii cu asimetri acentuate mai bine zis c^ and mediana  si una dintre
cuartile coincid.
Abaterea medie absolut a reprezint a media abaterilor fat  a de media aritmetic a luate
^ n valoare absolut a.
14

Cel mai important indicator care caracterizeaz a variat ia este dispersia. Dispersia
de select ie notat a cu 2se determin a cu formula
2=1
nnX
i=1(xix)2(1.13)
respectiv dispersia de select ie modi cat a:
s2=1
n1nX
i=1(xix)2(1.14)
Deducem prin calcul direct c a s2=n
n12
R adacin a p atrat a sa dispersiei de select ie se nume ste abaterea medie p atratic a de
select ie.
Pentru date grupate pe clase (vezi tabelul cu frecvent e de nit pe clase) avem
•media de select ie  x=1
nP
ix
ifiundex
ieste mijlocul clasei [ ai;ai+1].
•dispersia de select ie s2=P
ifi
n1(x
ix)2
Pe baza select iei vom face estimat ii asupra caracteristicilor populat iei. Media arit-
metic a a select iei va o aproximare a mediei aritmetice iar dispersia de select ie a
dispersiei populat iei.
Coe cientul de variat ie este o m asur a a dispersiei relative  si este de nit a de formula
CV=s
x(1.15)
Momentul de ordin kal unei select ii este de nit de formula
mk=rP
i=1xr
ifi
rP
i=1fi(1.16)
Momentele centrate de ordin kadmit formula
mk=rP
i=1fi(xix)k
rP
i=1fi(1.17)
Avem leg atura cu momentele de ordin kastfel
m1= 0
m2=m2m2
1
m3=m33m1m2+ 2m3
1
m4=m44m1m3+ 6m2
13m4
1
Momentul centrat de ordinul 2  m2este tocmai dispersia de select ie 2.
15

Asimetria absolut a este de nit a de relat ia
As= xMo (1.18)
iar cea relativ a
Asr=xMo
s(1.19)
Aceast a cantitate este pozitiv a atunci c^ and repartit ia este asimetric a la st^ anga  si ne-
gativ a c^ and repartit ia este asimetric a dreapta.
Coe cient ii lui Pearson sunt:
1=m3
s3(skewness )
2=m4
s43 (kurtosis )(1.20)
Pentru studiul asimetriei se folosesc  si urm atorii indicatori introdu si de Fisher

1=p
1=m3
s3(1.21)
numit a asimetria  si

2= 23 =m4
s43 (1.22)
numit excess.
1.4 Intervale de ^ ncredere
1.4.1 Estimatori
Consider am o populat ie statistic a de volum N si o caracteristic a Xa sa. Pe baza
unor observat ii asupra lui X,x1;x2;;xnvom estima parametrii populat iei m;.
Vom considera variabilele aleatoare de select ie repetat a de volum n, X1;X2;:::;Xna
caracteristicii Xdintr-o populat ie statistic a iar x1;x2;:::;xnsunt valorile observate ale
variabilelor de select ie.[2],[5]
De nit ia 1.4.1. •Numim media de select ie (de volum n) statistica X=1
nnP
i=1Xi
iar valoarea mediei de select ie pentru valori ale acestor variabile aleatoare este
media empiric a  x=1
nnP
i=1xi.
•Numim dispersia de select ie (de volum n) statistica S2=1
n1nP
i=1(XiX)2iar
valoarea dispersiei de select ie pentru valori ale acestor variabile aleatoare este
dispersia empiric a s2=1
n1nP
i=1(xix)2.
Propozit ia 1.4.1. Dac aX1;X2;;Xnsunt variabile aleatoare de select ie iar Xv
N(m;)atunci avem:
•XvN
m;pn
;
16

•Z=Xm
pnvN(0;1).
Remarca 1.4.1 .Dac aX1;X2;;Xnsunt variabile aleatoare de select ie de volum n
ce urmeaz a o repartit ie dat a atunci pentru n su cient de mare statistica Xsatisface:
XvN
m;pn
Propozit ia 1.4.2. FieXvN(m;)caracteristica unei populat i statistice atunci
statistica:
•2=1
2nP
i=1(Xim)2v2(n1);
•Xm
Spnvt(n1)undet(n1)este repartit ia Student cu (n-1) grade de libertate
Se consider a o populat ie de volum N si un parametru al acestei populat i. Fie
X1;X2;;Xno select ie aleatoare dintr-un e santion reprezentativ n < N al populat iei
care ia valorile x1;x2;;xn.
De nit ia 1.4.2. Se nume ste un estimator al lui o statistic a ^X=^(X1;X2;;Xn)
cu ajutorul c areia dorim s a-l aproxim am pe . Dac ax1;x2;;xnsunt datele obser-
vate atunci hatX =^(x1;x2;;xn) se nume ste estimat ia a lui .
De nit ia 1.4.3. Un estimator ^se nume ste estimator nedeplasat pentru parametrul 
dac a media estimatorului este chiar valoarea parametrului pe care estimeaz a ( m(^) =
astfel avem un estimator deplasat.
De nit ia 1.4.4. Dac a lim
n!1M(^) = 0;lim
n!1D(^) = 0 atunci ^este un estimator corect.
Teorema 1.4.3. Fiex1;x2;;xno select ie de valori ale variabilelor X1;X2;;Xn
independente  si identic distribuite ca  si X. Not amm=M(X)media teoretic a,
2=D2(X)dispersia teoretic a, X=1
nnP
i=1Ximedia de select ie, 2=1
nnP
i=1(XiX)2
dispersia de select ie, S2=1
n1nP
i=1(XiX)2dispersia de select ie modi cat a. Atunci
media de select ie X si dispersia de select ie S2sunt estimatori punctuali media, dis-
persia teoretic a. ^In plus avem:
1. media de select ie Xeste un estimator al lui m;
2. dispersia de select ie 2este un estimator al lui 2;
3. dispersia de select ie modi cat a S2este un estimator al lui 2.
Metoda verosimilit at i maxime Se consider a caracteristica Xcu funct ia de
probabilitate f(X;);2Rpparametru necunoscut  si o select ie repetat a de volum n
x1;;xn siX1;;Xnvariabile aleatoare de select ie de volum n.
De nit ia 1.4.5. Numim funct ia de verosimiliritate funct ia de select ie
L(X1;X2;;Xn;) =nY
i=1f(Xk;) (1.23)
17

Pentrux1;x2;;xnvom considera c a valoarea cea mai verosimil a este cea pentru
careL(x1;x2;;xn;) este maxim a. Maximul acestei funct ii este de fapt maximul
funct ieiH() = ln(L(x1;;xn;)). Maximul se obt ine ca o solut ie a ecuat iei de
verosimilitate sau a sistemului de verosimiliritate maxim a obt inute anul^ and derivatele
part iale ale funct iei ln L(x1;;xn) ^ n raport cu componentele lui :
@ln(L(x1;;xn;))
@j= 0;j=1;k (1.24)
Propozit ia 1.4.4. Estimat ie de verosimiliritate maxim a pentru parametrii repartit iei
normaleN(m;).
Solut ie: Legea de probabilitate pentru XvN(m;) este dat a de densitatea de pro-
babilitatef(x;m; ) =1
p
2e(xm)2
22. Parametrul de estimat este = (m;)2R2
funct ia de verosimiliritate va
L(x1;;xn;m;) =1
(2)n=2e1
2nP
i=1(xim)2
iar
H(m;) = lnL(x1;;xn;m;) =n
2lnn
2ln(2)1
22nX
i=1(xim)2
Ecuat ia de verosimiliritate este
8
><
>:@H(m;)
@m= 0
@H(m;)
@= 0
adic a 8
><
>:1
2nP
i=1(xim) = 0
n
+1
3nP
i=1(xim)2= 0
cu solut iile
^m=1
nnX
i=1xi= x
^=vuut1
nnX
i=1(xix)2=s
Propozit ia 1.4.5. Estimat ie de verosimiliritate maxim a pentru parametriul pal repartit iei
binormaleb(n;p).
Solut ie: Consider am n observat ii x1;x2;;xn ecare dintre ele av^ and valoarea 0
sau 1 dup a cum s-a ^ nregistrat succes sau insucces. Valoarea kn=P
i=1xireprezint a
num arul de succese ^ n n probe. Funct ia de verosimiliritate va
L(x1;;xn;p) =Ckn
npkn(1p)nkn
18

avem
H(p) = lnL(x1;;xn;p) = lnCkn
n+knln(p) + (nkn) ln(1p)
iar ecuat ia de verosimiliritate maxim a este
H0(p) =kn1
p(nkn)1
1p= 0
cu solut ia
^p=kn
n=1
nnX
i=1xi= x
Propozit ia 1.4.6. Estimat ie de verosimiliritate maxim a pentru parametriul al repar-
tit iei Poisson.
Solut ie: Funct ia de verosimiliritate va
L(x1;;xn;) =ennY
i=1xi
xi!;6= 0
avem
H() = lnL(x1;;xn;) =n+nX
i=1(xiln()ln(xi!))
se obt ine ecuat ia de verosimiliritate maxim a
H0() =n+1
nX
i=1xi= 0
cu solut ia ^= x.
1.4.2 Interval de^ ncredere pentru medie c^ and este cunoscut
Fie o select ie repetat a de volum n,X1;X2;;Xnce urmeaz a repartit ia lui X.
De nit ia 1.4.6. Se nume ste interval de ^ ncredere (CI) pentru parametrul cu proba-
bilitatea 1 un interval aleator ( ;) pentru care P(<  < ) = 1 unde
(X1;;Xn);(X1;;Xn) sunt statistici iar parametrul se nume ste nivel de
semni cat ie  si ia valorile 0.01,0.05,0.1.
Intervalul ( (x1;x2;;xn);(x1;x2;;xn)) se nume ste valoarea a intervalului de
^ ncredere pentru parametrul .[2, 4, 5]
Vom nota cu z1 =2cuantila de ordin valoarea pozitiv a a lui zobt inut a din
relat ia (z) = 1
2atunci intervalul de ^ ncredere pentru media teoretic a mc^ and
este cunoscut ( n30) avem
2
4xz
1
2pn;x+z
1
2pn3
5 (1.25)
19

Lungimea intervalului de ^ ncredere este o m asur a a precizei estim arii. Este pre-
ferabil s a obt inem un interval de ^ ncredere c^ at mai mic dar cu un nivel de ^ ncredere
adecvat.
Dac a pentru media teoretic a nu se precizeaz a o limit a superioar a atunci intervalul
de ^ ncredere este 
xz1 pn;+1
Not am cuz1 valoarea obt inut a din relat ia ( z) = 1 .
Dac a pentru media teoretic a nu se precizeaz a o limit a inferioar a atunci intervalul
de ^ ncredere este 
1;x+z1 pn
unde valoarrea z1 se obt ine din relat ia ( z) = 1 .
Dac a select ia de volum n se face dintr-o populat ie nit a de volum N unde n0:05N
atunci un interval de ^ ncredere pentru media populat iei este
2
4xz
1
2pnr
Nn
N1;x+z
1
2pnr
Nn
N13
5 (1.26)
1.4.3 Interval de ^ ncredere pentru medie ^ n cazul necunos-
cut
Avem o populat ie care admite o distribut ie normal a cu media m si2necunos-
cute. Fiex1;x2;;xnvalorile variabilelor de select ie X1;X2;;Xn. Putem calcula
media de select ie  x=1
nnP
i=1xi si dispersia de select ie s2=1
n1nP
i=1(xix)2. Avem
statisticaT=Xm
spncare urmeaz a legea Student cu n-1 grade de libertate T(n1)
iartn; cuantila de ordin care se determin a din ecuat ia F(tn; ) =P(Ttn; ) =
tn; R
1f(x)dx= 1 undef(x) este densitatea de repart ie Student dar t1 ;n=t ;n.
Atunci intervalul de ^ ncredere pentru media cu coe cientul 100(1 )% este de forma

xtn1; =2pn;x+tn1; =2pn
(1.27)
1.4.4 Intervale de ^ ncredere pentru dispersie
Fie variabilele de select ie X1;X2;;XncuX2N(m;), mediamcunoscut a,
dispersia2necunoscut a. Statistica s2
n=1
nnP
i=1(xim)2urmeaz a o distribut ie hi-
p atrat cungrade de libertate. Atunci intervalul de ^ ncredere este de forma:

ns2
n
2
1 =2;n;ns2
n
2
1 =2;n!
(1.28)
unde am notat cu 2
;ncuantila de ordin pentru repartit ia 2cu n grade de libertate.
20

Pentru estimarea punctual a a lui 2c^ and media este necunoscut a folosim statistica
s2de nit a prin s2=1
n1nP
i=1(xim)2. Atunci intervalul de ^ ncredere pentru 2este:

(n1)s2
2
1 =2;n1;(n1)s2
2
=2;n1!
(1.29)
unde am notat cu 2
;n1cuantila de ordin pentru repartit ia 2cu (n-1) grade de
libertate.
1.4.5 Interval de ^ ncredere pentru proport ie
Pentru o populat ie membri pot clasi cat i ^ n funct ie de o anumit a caracteristic a
^ n dou a categorii: p probabilitatea de a apart ine unei categorii numit a succes iar 1-
p probabilitatea de a apart ine celeilalte categorii numit a e sec. Parametrul p poart a
denumirea de proport ia populat iei  si ipotezele asupra lui p se fac num^ ar^ and succesele
X=nP
i=1XiundeXi:0 1
1p p
. Pentru un volum n mare variabila X satisface
Xnpp
np(1p)=^ppr
p(1p)
nurmeaz a aproximativ o distribut ie normal a standard.
Deci intervalul de ^ ncredere pentru peste de forma
"
^pz1 =2r
^p(1^p)
n;^p+z1 =2r
^p(1^p)
n#
(1.30)
ValoareaE=z1 =2r
^p(1^p)
nse nume ste eroarea standard a proport iei.
Dac a select ia se realizeaz a dintr-o select ie nit a ( de volum N) atunci intervalul de
^ ncredere este
"
^pz1 =2r
^p(1^p)
nr
Nn
N1;^p+z1 =2r
^p(1^p)
nr
Nn
N1#
(1.31)
1.4.6 Intervale de ^ ncredere pentru diferent a a dou a medii ale
c aror dispersii sunt cunoscute
Fie dou a populat ii cu caracteristicile care urmeaz a o distribut ie normal a cu dis-
persii cunoscute  si xI1;xI2;;xIn1o select ie de n1valori pentru variabile de select ie
XI1;XI2;;XIn1din prima populat ie respectiv xII1;xII2;;xIIn 2o select ie de n2
valori pentru variabile de select ie XII1;XII2;;XIIn 2din a doua populat ie. Un esti-
mator pentru diferent a mediilor m1m2este diferent a dintre mediile statistice ale celor
dou a e santioane, X1X2unde X1=1
n1n1P
i=1XIi siX2=1
n2n2P
i=1XIIi. Din propriet at ile
mediei si  dispersiei deducem
M(X1X2) =M(X1)M(X2) =m1m2
D2(X1X2) =D2(X1)D2(X2) =2
1
n1+2
2
n2
21

 si mediile lor de select ie sunt ^X1=1
n1n1P
i=1X1;^X2=1
n2n2P
i=1X2
Teorema 1.4.7. Dac a1 si2sunt cunoscute atunci statistica
(X1X2)(m1m2)r
2
1
n1+2
2
n2
urmeaz a legea normal a standard. Obt im urm atorul interval de ^ ncredere pentru m1m2
diferent a mediilor cu un nivel de ^ ncredere (1 )%
2
4x1x2z1 =2s
2
1
n1+2
2
n2;(x1x2) +z1 =2s
2
1
n1+2
2
n23
5
unde x1=1
n1n1P
i=1xIi;x2=1
n2n2P
i=1xIIi.
1.4.7 Intervale de ^ ncredere pentru diferent a mediilor a dou a
populat ii ale c aror dispersii sunt necunoscute
Avem cazurile:
1. Dispersiile sunt necunoscute dar egale 2
1=2
2=2.
2. Dispersiile sunt necunoscute  si diferite.
Cazul 1. Avem 2
1=2
2=2
Se consider a xI1;xI2;;xIn1o select ie de n1valori pentru variabile de select ie
XI1;XI2;;XIn1din prima populat ie respectiv xII1;xII2;;xIIn 2o select ie de n2
valori pentru variabile de select ie XII1;XII2;;XIIn 2din a doua populat ie. Fie
mediile de select ie barX 1=1
n1n1P
i=1XIi siX2=1
n2n2P
i=1XIIi si dispersiile de select ie
S2
1=1
n1n1P
i=1(XIiX1)2;S2
2=1
n1n2P
i=1(XIIiX2)2. Din propriet at ile mediei  s
dispersiei deducem S2
p=n11
n1+n22S2
1+n21
n1+n22S2
2=S2
1+ (1)S2
2unde
2(0;1)  si depinde de dimensiunea e santioanelor n1;n2.
Teorema 1.4.8. StatisticaT=X1X2(m1m2)
Spr1
n1+1
n2urmeaz a o distribut ie Student
cun1+n22grade de libertate.
Atunci intervalul de ^ ncredere pentru m1m2cu un nivel de ^ ncredere 100(1 )%
este

x1x2t1 =2;n1+n22Spr
1
n1+1
n2;x1x2+t1 =2;n1+n22Spr
1
n1+1
n2
(1.32)
Cazul 2.2
16=2
2
22

Teorema 1.4.9. StatisticaT=X1X2(m1m2)r
S2
1
n1+S2
2
n2urmeaz a o distribut ie Student
cugrade de libertate unde =s2
1
n1+s2
2
n22
s2
1
n12
n11+s2
2
n22
n21se va rotunji prin lips a la cel mai
apropriat ^ ntreg.
Atunci intervalul de ^ ncredere pentru m1m2cu un nivel de ^ ncredere 100(1 )%
este2
4x1x2t1 =2;s
S2
1
n1+S2
2
n2;x1x2+t1 =2;s
S2
1
n1+S2
2
n23
5 (1.33)
1.4.8 Intervale de ^ ncredere pentru diferent a proport iilor a
dou a populat ii
Presupunem c a avem dou a e santioane de volum n1 sin2extrase din dou a populat ii
X1 siX2reprezent^ and num arul de observat ii care apart in unei clase care se studiaz a.
Presupunem c a aproxim am c a distribut ia binomial a cu distribut ia normal a iar estima-
tori proport iilor ^ p1=X1
n1;^p2=X2
n2urmeaz a o distribut ie normal a.
Teorema 1.4.10. StatisticaZ=^p1^p2(p1p2)r
p1(1p1)
n1+p2(1p2)
n2este distribuit a normal
standard atunci intervalul de ^ ncredere este de forma
2
64^p1^p2z1 =2vuut^p1(1^p1)
n1+^p1(1^p1)
n1;^p1^p2+z1 =2vuut^p1(1^p1)
n1+^p1(1^p1)
n13
75(1.34)
23

Capitolul 2
Teste statistice
2.1 Teste statistice punerea problemei
Decizile se pot lua ^ n urma testelor statistice folosind datele experimentale culese.
Cu ajutorul acestor teste folosind datele de select ie putem con rma estim arile parame-
trilor ai unei repartit ,ii sau chiar putem prezice forma legii de repartit ,ie a caracteristicii
considerate.[2, 3, 4, 5]
De nit ia 2.1.1. Numim ipotez a statistic a o presupunere relativ a la valorile unui
parametru din legea de repartit ie cunoscut a sau la precizarea legii caracteristicii.
De nit ia 2.1.2. O ipotez a nul a este ipoteza cea mai apropiat a de realitate. O
ipotez a alternativ a este orice alt a ipotez a admisibil a cu care poate confrun-
tat a ipoteza nul a.
A testa o ipotez a statistic a trebuie s a lu am una dintre deciziile:
1.ipoteza nul a se admite (sau nu sunt motive pentru respingerea ei);
2.ipoteza nul a se respinge (caz ^ n care ipoteza alternativ a este admis a)
De nit ia 2.1.3. Numim nivel de semni cat ie probabilitatea de a respinge ipoteza
nul a c^ and de fapt, aceasta este adev arat a. Nivelul de semni cat ie are o valoare
pozitiv a apropiat a de 0, de exemplu: 0.01; 0.02; 0.05 etc.
^In urma unui test statistic pot aparea dou a tipuri de erori:
1. eroarea de spet a (I) este eroarea care se poate comite resping^ and o ipotez a (^ n
realitate) adev arat a. Avem P(H0se respingejH0este adev arat a)= :
2. eroarea de spet a a (II)-a este eroarea care se poate comite accept^ and o ipotez a (^ n
realitate) fals a. Probabilitatea acestei erori este P(H0se admitejH0este fals a)= .
Puterea testului este egal a cu 1  si reprezint a probabilitatea de a respinge ipoteza
nul a atunci c^ and este fals a.
Avem dou a tipuri de teste statistice: teste parametrice respectiv neparametrice.
Testele parametrice se refer a la ipoteze statistice ce privesc parametri statistici: media
sau dispersia respectiv parametri ce de nesc repartit iile teoretice. Testele neparame-
trice se folosesc pentru studiul datelelor care nu sunt guvernate de repartit ia normal a
sau pentru comparat ia a dou a e santioane.
Tipul unui test statistic este dat de ipoteza alternativ a ( H1). Avem:
•test unilateral st^ anga atunci c^ and ipoteza alternativ a este < 0;
24

•test unilateral dreapta atunci c^ and ipoteza alternativ a este > 0;
•test bilateral atunci c^ and ipoteza alternativ a este 6=0.
Pentru a rezolva un test statistic vom avea nevoie de o regiune critic a. Pentru a
construi aceast a regiune critic a vom utiliza metoda intervalelor de^ ncredere. Dac a va-
loarea observat a se a
 a ^ n regiunea critic a (adic a ^ n afara intervalului de ^ ncredere),
atunci respingem ipoteza nul a.
Etapele unui test parametric
•Fiex1;x2;;xno select ie aleatoare a caracteristici X. De obicei aceast a select ie
provine de la o repartit ie normal a. ^In caz contrar volumul select iei neste mai
mare dec^ at 30. Fie X1;X2;;Xnvariabilele aleatoare de select ie;
•Alegem o statistic a S(X1;X2;;Xn) care dup a acceptarea ipotezei ( H0),
aceasta are o repartit ie cunoscut a , independent de parametrul testat;
•Alegem un nivel de semni cat ie apropiat de 0. De regul a alegem valorile 0.01;
0.02; 0.05;
•G asim regiunea critic a Ucare este complementara intervalului de ^ ncredere;
valoarea critic aRegiunea critic a
Figura 2.1: Regiune critic a pentru test unilateral st^ anga
25

valoarea critic aRegiunea critic a
Figura 2.2: Regiune critic a pentru test unilateral dreapta
valoarea critic aRegiunea critic a
valoarea critic aRegiunea critic a
Figura 2.3: Regiune critic a pentru test bilateral
•Calcul am valoarea s0a statisticii S(X1;X2;;Xn) pentru select ia considerat a;
•Lu am decizia:
1. Dac as02Uatunci ipoteza nul a, ( H0), se respinge;
2. Dac as0=2U atunci ipoteza nul a, ( H0), se admite (mai bine zis, nu avem
motive s-o respingem p^ an a la efectuarea a unui test mai puternic).
26

2.2 Teste parametrice
Testul Z Vrem s a test am ipoteza:
H0:m=m0
H1:m6=m0
m0este constanta dat a.
Select iaX1;X2;;Xns-a f acut dintr-o populat ie distruit a normal cu media ne-
cunoscut a  si abaterea mediei p atratice este cunoscut a. Deoarece Xeste distribuit a
normal cu media m0 si devierea standardpnputem construi o regiune critic a pe baza
datelor din e santion. Avem statistica Z=Xm0
pn2N(0;1).
P(jZj)z) = 1 1 =P
m2
Xzpn;+1
= (z)(z) = 12(z)
Vom nota cu z =2valoarea pozitiv a din relat ia ( z) =
2sau (z) = 1
2. Dac a
pentru select ia avut a valoarea testului este Zcalc=xm0
pn=2[z1 =2;z1 =2] ipoteza
H0este respins a. Regiunea critic a este ( 1;z1 =2)[(z1 =2;+1). Dac a valoarea
testului este Zcalc2[z1 =2;z1 =2] nu avem motive s a respingem ipoteza H0.
Remarca 2.2.1 .1. Pentru ipoteza alternativ a H1:m < m 0regiunea critic a este
(1;z ) undez este solut ia pozitiv a a ecuat iei ( z ) = .
2. Pentru ipoteza alternativ a H1:m > m 0regiunea critic a este ( z ;+1;) undez
este solut ia pozitiv a a ecuat iei ( z ) = 1 .
Testul t Vrem s a test am ipoteza:
H0:m=m0
H1:m6=m0
m0este constanta dat a.
Select iaX1;X2;;Xns-a f acut dintr-o populat ie distruit a normal cu media necu-
noscut a  si abaterea mediei p atratice este necunoscut a unde volumul select iei este n<
30. Atunci avem statistica T=Xm0
spn2N(0;1) care urmeaz a o distribut ie Student
cu n-1 grade de libertate. Regiunea critic a este ( 1;t1 =2;n1)[(t1 =2;n1;+1).
Remarca 2.2.2 .1. Pentru ipoteza alternativ a H1:m < m 0regiunea critic a este
(1;t1 ;n1) undet1 ;n1este solut ia pozitiv a a ecuat iei ( t ;n1) = .
2. Pentru ipoteza alternativ a H1:m > m 0regiunea critic a este ( t ;n1;+1;) unde
t1 ;n1este solut ia pozitiv a a ecuat iei ( t1 ;n1) = 1 .
Test asupra dispersiei
Select iaX1;X2;;Xns-a f acut dintr-o populat ie distruit a normal cu media m si
dispersia2.
Avem ipotezele
H0:2=2
0
H1:2=22
0
se folose ste statistica 2
0=(n1)s2
2
022(n1).
27

Se calculeaz a 2
0. Pentru (0;1) dat se determin a 2
1 =2;n1;2
=2;n1astfel ^ nc^ at
P(n1)s2
22
1 =2;n1
=
2;P(n1)s2
22
=2;n1
=
2
Deci ipoteza H0va aceptat a dac a avem 2
0> =2;n1 si2
0< 1 =2;n1.
Test pentru proport ie ^ ntr-o populat ie binomial a
FieXo caracteristic a binomial a a unei colectivit at i, cu probabilitatea de succes
p. Pe baza unor select ii ale populat iei, dorim s a test am urm atoarea ipotez a asupra
luip:
1. (H0) :p=p0
2 (H1) :p6=p0(p<p 0p>p 0).
Fix am un nivel de semni cat ie . Vom construi testul pentru proport ia populat iei
astfel:
•Pe baza select iei, calcul am proport ia de select ie ^ pcare este o estimare a proport iei
populat ieip;
•Calcul am valoarea p0=^pp0r
p0(1p0)
n;
•Calcul am cuantila z1 =2;
•Dac aP02(z1 =2;z1 =2) admitem ipoteza nul a la acest nivel de semni cat ie
altfel o respingem.
Test de comparat ie a mediilor (e santioane independente)
Fie dou a e santioane, unul de volum m asupra variabilei X  si altul de volum n
asupra variabilei Y, sunt repartizate normal av^ and aceea si dispersie 2necunoscut a.
Se consider a c a e santioanele sunt independente iar ipotezele de lucru sunt:
H0:X=Y; X=Y=;
H1:X6=Y; X=Y=;
Avem statistica T=r
mn(m+n2)
m+nXY
m2+n2care se supune unei distribut ii
Student cu m+n2 grade de libertate.
Test de comparat ie a mediilor (e santioane dependente)
Fie dou a variabile aleatoare X,Y corespunz atoare aceluia si lot de n indivizi. Avem
setul de observat ii ( xi;yi);i= 1;2;:::n dependente. Suntem interesat i de compararea
mediilor celor dou a variabile, problema ce poate redus a prin introducerea variabilei
Z=XY, la compararea mediei acestuia cu zero. Avem ipotezele de lucru:
H0:Z= 0;
H1:Z6= 0;
Am redus problema la testul de comparat ie al unei medii cu 0 valoare dat]ua ^ n
cazul dispersiei necunoscute, folosind astfel statistica Student cu n-1 grade de libertate.
Test de comparat ie a dispersiilor (variabile independente)
Fie dou a e santioane, unul de volum m asupra variabilei X  si altul de volum n asupra
variabilei Y independent care sunt repartizate normal. Se consider a c a ipotezele de
lucru sunt:
28

H0:X=Y;
H1:X6=Y;
Avem statistica W=n1
m1m
n2
X
2
Ycare se supune unei distribut ii Fisher cu
(m1;n1) grade de libertate.
Test de omogenitate a mediilor
FieX1;X2;;Xkvariabile repartizate normal av^ and mediile i si dispersiile i.
Consider am un e santioan de volum ni;i= 1;2;:::;k pentru ecare variabil a, suma
e santioanelor este n.
Not am cu Xmedia ponderat a a mediilor de sondaj Xi;i= 1;2;:::;k  si consider am
ipotezele de lucru:
H0:i=;
H1:i6=cu condit ia c a dispersiile s a e egale.
Avem statistica F=(nk)kP
i=1ni(XiX)
(k1)kP
i=1ni2
icare va urma o repartit ie Fisher cu
(k1;nk) grade de libertate.
2.3 Teste neparametrice
Vom prezenta ^ n continuare cele mai cunoscute teste neparametrice [3, 4, 5].
Testul2de concordant  a Acest test de concordant  a poate utilizat ca un
criteriu de veri care a ipotezei potrivit c aruia un set de observat ii urmeaz a o repartit ie
dat a. Testul este numit 2al lui Pearson.
Etapele aplic arii testului 2de concordant  a neparametric:
•Fie setul de observat ii x1;x2;;xn si intuimF(x;1;;p);
•Formul am ipotezele statistice:
1.H0funct ia de repartit ie teoretic a a variabilei aleatoare este F(x;1;;p);
2.H1ipoteza nul a nu este adev arat a;
•scriem tabelul de frecvent e pe clase Oi;
•se determin a probabilitatea pica un element luat la ^ nt^ amplare s a se a
e ^ n clasa
Oi= [ai1;ai] atuncipi=F(ai;)F(ai1;) apoi se veri c a dac a npi5
altfel se reorganizeaz a clasele.
•se calculeaz a statistica 2
0=kP
i=1(ninp2
i)
npi;
•determin am valoarea pragului teoretic care este=2
1 ;k1unde2
;neste
cuantila de ordin pentru repartit ia 2(n);
•2
0<atunci accept am H0astfel o respingem.
29

Testul de concordant  a Kolmogorov-Smimov
Testul de concordant  a Kolmogorov-Smirnov poate utilizat ^ n compararea unor
observat ii date cu o repartit ,ie cunoscut a.Criteriul Kolmogorov-Smirnov utilizeaz a funct ,ia
de repartit ,ie empiric a. Testul Kolmogorov-Smirnov este bazat pe rezultatul teoremei
urmatoare:
Teorema 2.3.1. (Kolmogorov) Fie caracteristica Xde tip continuu care are funct ia
de repartit ie teoretic a F si funct ia de repartit ie de select ie F
natunci distant a dn=
sup
x2RjF
n(x)F(x)jsatisface relat ia
lim
n!1P(pndn<x) =K(x) =1X
k=1(1)ke2k2x2;x> 0 (2.1)
Etapele aplic arii testului Kolmogorov Smirnov pentro select ie:
•Fie setul de observat ii x1;x2;;xn si intuimF(x);
•Formul am ipotezele statistice:
1.H0funct ia de repartit ie teoretic a a variabilei aleatoare XesteF(x);
2.H1ipoteza nul a nu este adev arat a;
•calcul am1 cuantila de ordin 1 pentru funct ia lui Kolmogorov care veri c a
relat iaK(1 ) = 1 ;
•determin am valoarea dn= sup
x2RjF
n(x)F(x)j;
•dac adnsatisface inegalitateapndn< 1 atunci accept am H0astfel o respin-
gem.
Test de independent  a
^In general datele observate sunt clasi cate ^ n categorii Xi;i= 1;:::r ce depind de
atribute diferite Yj;j= 1;:::scare ne conduce la formarea tabelului de contingent  a[5]
XnYY1Y2YjYnSuma pe linie
X1n11n12n1jn1sn1
………………
Xini1ni2nijnisni
………………
Xrnr1nr2nrjnrsnr
Suma pe coloan a n1n2njnsnsuma totala
Tabela 2.1: Tabel de contingent  a
unde
•nij;i= 1r;j= 1sfrecvent  absolut a de observat ii pentru categoria Xice
are atributul Yj;
•avemnj=rP
i=1nij;ni=sP
j=1nij;n=rP
i=1ni=sP
j=1nj;
30

• ecare individ poate s a apart in a doar uneia dintre cele rscelule
Etapele testului de independent  a sunt:
•Avem de nit tabelul de contingent  a  si pragul de semni cat ie;
•Calcul am estimat iile ^ pi=ni
n;i= 1rrespectiv ^pj=nj
n;j= 1s;
•Calcul amH2cu formula H2=P
i;j
nijninj
n2
ninj
n;
•Eij=ninj
n5;H22
1 ;(r1)(s1)atunci se admite ipoteza nul a H0nu
exist a nici o asociere ^ ntre categoria X si atributul Yaltfel respingem ( H0) la
acest prag de semni cat ie.
Testul Shapiro-Wilk Testul pentru studiul normalit at ii uneu variabile alea-
toare mai puternic dec^ at destul 2este testul Shapiro-Wilk.[4]
Etapele principale de aplicare a acestui test sunt:
•Se ordoneaz a cresc ator cele n observat ii fx1;x2;;xng;
•Se consider a statistica Z2=nP
i=1(XiX)2;
•Se determin a k=n=2 sauk= (n1)=2 dup a cum neste par sau impar apoi se
determin a diferent ele d1=xnx1;:::;di=xni+1xi;
•Se calculeaz a b=kP
i=1aidiunde coe cient i aisunt tabelat i
(http://www.real-statistics.com/statistics-tables/shapiro-wilk-table/ );
•Se consider a statistica W=b2
Z2de unde vom determina valoarea acestei statistici
pentru e santionul dat;
•Se decide semni cat ia pentru Wcu ajutorul tabelului Shapiro-Wilk adic a ipoteza
de normalitate este respins a dac a valoarea probabilit at ii Weste mai mic a dec^ at
valoarea nivelului de semni cat ie.
31

Capitolul 3
Corelat ia  si regresia
3.1 Corelat ia
Corelat ia este un termen statistic pentru a de ni leg atura ^ ntre dou a sau mai
multe variabile aleatoare. Pentru a ilustra leg atura dintre dou a variabile putem utiliza
reprezentarea gra c a cu ajutorul diagramei scatter plot.[4, 5]
FieX;Y variabile aleatoare ce admit media atunci corelat ia dintre X siYse
de ne ste prin
cov(X;Y ) =M(XY)M(X)M(Y) (3.1)
Remarca 3.1.1 . •FieX;Y variabile aleatoare independente atunci cov(X;Y ) = 0
reciproca este ^ n general fals a;
•FieX;Y variabile aleatoare repartizate normal atunci ele sunt independente dac a
 si numai dac a cov(X;Y ) = 0;
De nim coe cientul de corelat ie care este o m asur a a corelat iei dintre cele dou a
variabile
=cov(X;Y )
XY=cov(X;Y) (3.2)
unde X;Ysunt variabile aleatoare standardizate iar X;Ysunt deviat iile standard
corespunz atoare variabilelor X, respectivY.
Remarca 3.1.2 . •Observ am c a 2[1;1];
•Dac a>0 atunci variabile X;Y cresc (descresc) ^ n acela si timp;
•Dac a <0 atunci avem c a variabila Xcre ste (scade) iar variabila Ydescre ste
(cres ste) ^ n acela si timp;
•Dac aX;Y sunt variabilele independente. X;Y= 0.
Fie setul de observat ii xi;yi;i= 1;2;;nasupra vectorului aleator ( X;Y ). O
m asur a a leg aturii dintre variabilele X;Y este dat de coe cientul de corelat ie Pearson
de nit de formula:
r=nP
i=1(xix)(yiy)
rnP
i=1(xix)2rnP
i=1(yiy)2=cove(x;y)
sxsy(3.3)
32

unde avem corelat ia empiric a cove(X;Y ) =1
n1nP
i=1(xix)(yiy) iar deviat ia stan-
dard modi cat a sX=s
1
n1kP
i=1(xix)2respectivsY=s
1
n1kP
i=1(yiy)2.
^In cazul datelor calitative unde nu se pot asocia valori numerice pentru caracteristici
calitative atunci coe cientul de corelat ie Pearson nu mai poate calculat. Coe cientul
de corelat ie Spearman poate determinat at^ at la variabile calitative c^ at  si la variabile
cantitative. Fiec arei valore calitative i se aloc a un rang atunci coe cientul lui Spearman
este de fapt coe cientul lui Pearson pentru aceste ranguri. ^In cazul ^ n care avem n
perechi de observat ii  si nu exist a valori egale pentru rangurile acelea si variabile, atunci
formula alternativ a este de nit a astfel
rS= 16nP
i=1d2
i
n(n21)(3.4)
undedi=x
iy
idiferent a dintre rangurile corespunz atoare pentru pozit ia i. Putem
aplica un test statistic pentru coe cientul de corelat ie Pearson astfel:
•Fie setul de date ( xk;yk)k= 1;2;:::;n ;
•Avem ipoteza nul a H0:X;Y= 0 (variabilele aleatoare nu sunt corelate);
•Avem ipoteza alternativ a H1:X;Y6= 0 (variabilele aleatoare sunt corelate) unde
nivelul de semni cat ie este iar statistica folosit a este T=rr
n2
1r2care este
o distribut ie student cu n-2 grade de libertate.
•Determin valoarea statisticii T0pentrur0coe cientul Pearson obt inut pentru
setul de date dat  si cuantila t1 =2;n2de ordin 1 =2 corespunz ator repartit iei
Student cu n2 grade de libertate;
•Avem urm atoarele decizii:
1. Dac ajT0j<t1 =2;n2ipotezaH0este aceptat a;
2. Dac ajT0jt1 =2;n2ipotezaH0este respins a.
Putem considera cuplurile de observat ii ( xi;yi);i= 1;:::;n care pot reprezentate
gra c form^ and astfel norul de puncte. Aceast a reprezentare gra c a poart a numele de
diagrama de ^ mpr a stiere ilustr^ and vizual leg aturile dintre cele dou a statistici.
Figura 3.1: Diagrama de ^ mpr a stiere
33

Fie setul de date f(xi;yi)g;i=1;nrezultate din observat iile asupra variabilelor
X,Y. De nim o concordant  a ^ ntre perechile ( xi;yi);(xj;yj) dac a avem xi>xj;yi>yj
sauxi< xj;yi< yj^ n acela si timp altfel spunem c a nu avem concordant e. Dac a
xi=xjsauyi=yjatunci nu sunt ^ n concordant  a nici ^ n concordant  a. Coe cientul de
corelat ie Kendall este de nit prin:
=2
n(n1)X
i<jsign(xixj)sign(yiyj) (3.5)
3.2 Regresia liniar a
Regresia este o metod a statistic a pentru descrierea naturii relat iei^ ntre variabile. ^In
cazul a dou a variabile pentru care exist a o leg atur a liniar a vom avea variabila predictor
(variabila independent a)  si variabila r aspuns (variabila dependent a). Leg atura liniar a
dintre cele dou a variabile este descris a de o ecuat ie liniar a numit a ecuat ia de regresie
c areia ^ i corespunde curba de regresie.
Se stabile ste leg atura ^ ntre variabilele independente x1;;xn si variabilele depen-
dentey1;;ynprin ecuat iile:
yi=f(x1;x2;;xn; 1;; n) +"i; i= 1;:::;n (3.6)
unde"isunt variabile aleatoare repartizate N(0;) iar 1; 2;; nparametri regre-
siei.
^In funct ie de forma funct iei de regresie putem avea:
•regresia liniar a simpl a f(x; 1; 2) = 1+ 2x;
•regresia exponent ial a f(x; 1; 2) = 1 2x;
•regresia logaritmic a f(x; 1; 2) = 1log 2x;
•regresia logistic a f(x; 1; 2) =1
1 +e 1+ 2x;
•regresia polinomial a f(x; 1; 2;; n) = 0+ 1x++ nxn.
Fie datele bidimensionale ( xi;yi);i= 1;2;:::;n pentru variabilele yrespectivx.
Dac a reprezent am gra c se va observa dependent a variabile ydex. Vom estima
parametri 1; 2prim minimizarea (Metoda celor mai mici p atrate Mcmmp) expresiei
min
1; 2nP
i=1(yi 1 2xi)2. Not am cu F( 1; 2) =nP
i=1(yi 1 2xi)2(care este suma
p atratelor erorilor). Din condit iile de extrem deducem
8
><
>:@F
@ 1= 0
@F
@ 2= 0,8
><
>:2nP
i=1(yi 1 2xi)(1) = 0
2nP
i=1(yia 1 2xi)(xi) = 0
care admite solut iile
2=cov(x;y)
2
x; 1=bar(y) 2bar(x)
34

unde x=mean (x);y=mean (y)  si2
xdispesia.
Dreapta de regresie y= 1+ 2xeste acea dreapt a ce trece prin norul de puncte for-
mat de perechile de date ale celor dou a variabile  si care minimizeaz a distant a^ ntre date
 si ea. Coe cientul 2este coe cientul de regresie corespunz ator (panta). Distant ele
dintre punctele observate ( xi;yi)  si punctele de pe dreapta de regresie ( xi;a+bxi) se
numesc reziduuri.
Regresia liniar a poate utilizat a dac a sunt ^ ndeplinite simultan urm atoarele ipo-
teze:
•valorile variabilei dependente trebuie s a aib a o repartit ie normal a;
•variabilitatea variabilelor s a e asem an atoare;
•leg atura dintre variabile s a e liniar a (veri care empiric a pe baza norului de
puncte care trebuie s a aib a o form a alungit a)
Aceste ipoteze sunt ^ ndeplinite simultan dac a reziduurile sunt normal repartizate
de medie zero.
Coe cient i dreptei de regresie se mai pot determina astfel:
Remarca 3.2.1 .De fapt avem de rezolvat ecut ia matricial a
0
BBB@y1
y2

yn1
CCCA
|{z}
Y=0
BBB@1×1
1×2
……
1xn1
CCCA
|{z}
X 1
2
unde matricea Xare rangul 2, iar X0este transpusa matricei Xrespectiv
R=X0Xeste inversabil a atunci avem
 1
2
=R1X0Y
Test statistic pentru panta dreptei
Avem ipoteza nul a H0: 2= datrespectiv ipoteza alternativ a H1: 26= dat.
Consider am statistica T=^ 2 dats
^2
sxxcare urmeaz a repartit ia t(n-2). Calcul am valoarea
testuluiT0, cuantila de ordin 1
2pentru repartit ia t cu n-2. Dac a jT0j< t
1
2;n2
ipoteza nul a se acept a respectiv dac a jT0jt
1
2;n2ipoteza nul a se respinge.
Ecuat ia dreptei de regresie determinat a pe baza datelor cunoscute poate folosit a
^ n prognoz a ^ n sensul c a d^ and valori noi variabilei predictoare putem obt ine informat ii
despre variabila prognozat a.
Presupunem c a X siYsunt dou a variabile pentru care se dore ste s a determin am o
relat ie liniar a de forma Y= 1+ 2X+". Avem cele n observat ii ( xi;yi);i= 1;2;:::;n .
Pe baza acestor date se poate aproxima dreapta de regresie liniar a astfel Y=^ 1+^ 2X
unde ^ 2=sxy
sxx;^ 1= y^ 2xunde avem  x=1
nnP
i=1xi;y=1
n;nP
i=1yi; sxy=nP
i=1(xi
35

x)(yiy). Modelul de regresie liniar este valid dac a coe cientul de determinare R2
are valori aproape de 1. Coe cientul R2admite expresia
R2= 1SSE
SST(3.7)
undeSSE =nP
i=1(yi^ 1^ 2xi)2respectivSST =nP
i=1(yiy)2.
Bine^ nt eles c a validarea modelului de regresie liniar a se poate deduce e din dia-
grama scatter plot a datelor observate sau folosim comenzi Octave pentru ilustrarea
normalit at ilor reziduurilor.
Avem cazuri ^ n care leg atura dintre variabile nu este liniar a adic a variabila de-
pendent a este o combinat iei neliniar a a variabilelor independente atunci spunem c a
avem regresie neliniar a. Dac a Xeste variabila predictoare iar Yeste variabila prog-
nozat a atunci folosind regresia polinomial a va furniza ecuat ia de regresie (polinomul
de regresie) de forma Y=a0+a1X++anXn.
Presupunem c a datele existente satisfac ecuat iile
yi=a0+a1x+i++akxk
i+"i; i= 1;:::;k:
unde"isunt erorile corespunz atoare modelului. Aceste ecuat ii ne conduc la ecuat ia
matriceal a
Y=Xa+" (3.8)
Metoda celor mai mici p atrate const a ^ n a
area parametrilor a0;a1;;akpentru
care minimizeaz a p atratele erorilor adic a minimizeaz a expresia
S(a0;a1;:::;ak) =vuutnX
i=1(yia0a1xiakxk
i)2
Rangul matricei X=0
BBB@1×1xk
1
1×2xk
2………
1xkxk
k1
CCCAeste k atunci matricea X0Xeste inver-
sabil a iar din relat ia Y=XaundeY=0
BBB@y1
y2

yk1
CCCArespectiva=0
BBB@a0
a1

ak1
CCCAdeducem c a
a= (X0X)1X0Y
36

Capitolul 4
Analiza riscului
Analiza riscului este de fapt o utilizare sistematic a a informat iilor disponibile pentru
a identi ca pericole  si pentru a estima riscul asupra populat iei. Vom folosi diverse
indicatori statistici  si teste statice pentru analiza riscului.[4]
4.1 Not iuni fundamentale
De nit ia 4.1.1. O cauz a ipotetic a ce determin a cre sterea probabilit at ii ca un individ
s an atos s a dezvolte o anumit a boal a reprezint a un factor de risc.
Factori de risc depind de:
•factori de mediu: factori poluant i, toxine, microorganisme infect ioase etc.;
•factori comportamentali (obiceiuri): fumat, alcool, droguri, nerespectarea m asurilor
de protect ie a muncii, sedentarism etc.;
•factori sociali: evenimente familiare tragice, divort , pierderea serviciului etc.;
•factori genetici: hipercolesterolemie etc.
Datele din analiza riscului se prezint a sub forma unui tabel de contingent  a, cu dou a
linii  si dou a coloane ^ n care ^ ntregul lot de N indivizi este ^ mp art it ^ n dou a categorii.
Din ecare categorie se studiaz a dac a interact ioneaz a la un anumit factor de risc.
Studiile observat ionale se ^ mpart ^ n:
•studii desf a surate"la un moment dat" care se mai nume ste  si studiu de prevalent  a
 si se bazeaz a fotogra erea unei situat ii la un moment dat, iar estimarea prevalent ei
este in
uent at a ^ n cazul evolut iilor rapide;
•studii care acoper a un interval larg de timp care pot :
– studii pe cohort a , ^ n care de nim dou a grupe de lucru (un grup va cuprinde
indivizii care sunt expu si la act iunea factorului de risc , iar cel alalt cuprinde
indivizi ne-expu si), loturile sunt urm arite ^ n timp, pornind din momentul
de nirii lor, se identi c a aparit ia afect iunii ^ n ambele loturi ind concepute
pentru a culege rezultatele ^ ntr-un moment din viitor.
37

– studii"case-control", ^ n care grupul analizat cuprinde"cazurile" ^ n care a
ap arut boala  si investig am ^ n care din aceste cazuri a existat o expunere la
factorul de risc (deci urm arim ^ n sens invers temporal)  si identi c am apoi
prezent a/absent a factorului de risc  si pentru un grup martor. Datele culese
^ n studiile case-control nu pot folosite pentru orice tip de prelucr ari.
4.2 Indici din analiza riscului
Prelevant a unei boli ^ ntr-o populat ie este proport ia din populat ia respectiv a av^ and
boala la un moment dat
Prv(B;t) =num arul indivizilor av^ and boala B
num arul populat ,iei(4.1)
Incident a unei boli este num arul de cazuri ce apar ^ ntr-un interval  t(t1;t2) ^ ntr-o
populat ie cu risc. Ea poate exprimat a prin:

CI=num arul cazurilor noi ^ n unitatea de timp  t
num arul populat ,iei cu risc(4.2)
•densitatea de incident  a (numit a  si rata de incident  a): este dat a de num arul de
cazuri noi ce apar ^ ntr-un interval  t^ ntr-o populat ie cu risc, studiat a pe diverse
perioade de timp. Pe o perioad a ^ ndelungat a, din lotul init ial (tip cohort a) se
pierd o serie de persoane din diverse motive (se mut a, mor din alte motive,
nu continu a tratamentul etc.). De aceea, cei care nu au fost prezent i ^ ntreaga
perioad a nu se scot din studiu ci vor luat i ^ n considerare numai ^ n m asura ^ n
care situat ia lor a fost cunoscut a.
Rata de morbiditate (Mrb): este incident a unei boli ^ ntr-o populat ie, ^ ntr-un anumit
interval de timp (adesea 1 an).
Rata de mortalitate: enumer a cazurile de deces dintr-o populat ie, ^ ntr-un anumit
interval de timp; se utilizeaz a:
•rata de mortalitate general a: din orice cauz a;
•rata de mortalitate speci c a pe cauze;
•rata brut a de mortalitate: fat  a de ^ ntreaga populat ie;
•rata de mortalitate speci c a pe categorii: separat, pe anumite subgrupe de
populat ie;
•rata de mortalitate pe grupe de v^ arst a;
38

B+ B-
E+N11N12L1
E-N21N22L2
C1C2N
Tabela 4.1: Prezentarea schematic a a unui studiu pentru analiza unei boli
unde avem
•B+ prezint a boala;
•B- nu prezint a boala;
•E+ expu si la factorul de risc;
•E- ne-expu si la factorul de risc.
Riscul absolut reprezint a probabilitatea (rata) de aparit ie a bolii. Vom avea, pentru
lotul de expu si, respectiv pentru ne-expu si rapoartele:
R(E+) =N11=L1; R(E) =N21=L2 (4.3)
Riscul relativ este raportul ^ ntre riscul absolut pentru lotul de expu si, fat  a de cel
pentru lotul de ne-expu si  si reprezint a probabilitatea de aparit ie a afect iunii la cei
expu si fat  a de probabilitatea de aparit ie a afect iunii la cei neexpu si la factorul de risc.
RR=R(E+)=R(E) =N11=L1
N21=L2(4.4)
Remarca 4.2.1 .Dac a riscul relativ are valoarea RR t1 putem spune c a factorul
analizat nu reprezint a un factor de risc, probabilitatea de aparit ie a afect iunii ind la
fel de mare  si la lotul neexpus factorului de risc.
Indicele \odd" exprim a raportul"succes / e sec"  si poate de nit cu probabilit at i
astfel:
O=p(even. s a apar a) =p(even. s a nu apar a) (4.5)
Din tabelul a  sat deducem O(B+=E+) =N11=N12respectivO(B+=E) =N21=N22.
OR – Raportul odds ("odds ratio"): este raportul indicelui"odd" pentru grupul
expus fat  a de cel neexpus la factorul de risc:
OR=O(B+=E+)
O(B+=E)=N11=N12
N12=N22=N11N22
N12N21(4.6)
Vom construi o distribut ie teoretic a astfel ^ nc^ at totalurile pe linii ( Li)  si coloane
(Cj) sunt acelea si ca ^ n cazul distrubut iei experimentale. Valorile teoretice Tij=
LiCj
N. Vom compara cele dou a distribut ii cea experimental a respectiv cea teoretic a
cu ajutorul testului statistic ^ n care avem ipoteza nul a H0: diferent ele dintre cele
dou a distribut ii nu sunt semni cative adic a Nij=Tij. Testul recomandat este 2
unde statisca calculat a este 2
calc=P
i;j(NijTij)2
Tijav^ and= (r1)(c1) grade de
libertate (r este num arul de lini, c este num arul de coloane). Dac a avem 2
calc> 2
tab
atunci ipoteza nul a se va respinge adic a datelor vor semni cative.
39

Capitolul 5
Studii de caz
^In acest capitol voi prezenta cu ajutorul programului Octave probleme practice
utilizate ^ n statistica medical a. Acest program se poate desc arca gratuit de pe site-ul
https://www.gnu.org/software/octave/. Acest program este free. ^In acest program
avem comenzi pentru funct ii statistice a
e ^ n pachetul statistics (se va scrie comanda
pkg load statistics). La ora actual a a ap arut  si versiunea online (https://octave-
online.net/) care nu necesit a instalarea programului pe calculatorului utilizatorului.
Elementul de baz a ^ n programul Octave este matricea (numerele reale sunt de fapt
matrice de ordinul 1 1).[3, 4, 5]
5.1 Reprezentarea gra c a a datelor statistice
Aplicat ia 1 Avem mai jos datele negrupate ce reprezint a notele ( se noteaz a note
de la 1 la 10) obt inute de cei 20 de elevi la un concurs pe teme medicale.
4 3 5 7 5 9 6 4 8 6 9 7 8 6 7 10 8 9 5 9.
Prima dat a vom ordona cresc ator aceste date numerice. Pentru acesta vom de ni
matricea linie A= [4;3;5;7;5;9;6;4;8;6;9;7;10;8;9;5;9] iar prin comanda sort vom
ordona cresc ator elementele matricei. Folosind comanda tabulate(A) (se va ^ nc arca
pachetul statistics) obt inem datele init iale aranjate ^ n tabel.
A= [1,2,3,5,7,5,9,6,4,6,9,7,10,8,9,5,9,8,3,5];
B=sort(A);
pkg load statistics
tabulate(B)
bin Fa Fr% Fc
1 1 5.00% 1
2 1 5.00% 2
3 2 10.00% 4
4 1 5.00% 5
5 4 20.00% 9
6 2 10.00% 11
7 2 10.00% 13
8 2 10.00% 15
9 4 20.00% 19
10 1 5.00% 20
unde
40

•prima coloan a sunt notele ordonate cresc ator;
•coloana a doua reprezint a frecvent ele absolute pentru ecare not a;
•coloana a treia reprezint a frecvent ele relative pentru ecare not a (procentul);
•coloana a patra reprezint a frecvent ele cumulate cresc ator pentru ecare not a .
Vom reprezenta gra c aceste date cu ajutorul diagramei circulare. Vom utiliza co-
manda pie ce admite sintaxa {pie(v)} undeveste vectorul cu procentele datelor
date.
C=tabulate(B);
pie(C(:,3))
Figura 5.1: Reprezentarea datelor cu ajutorul diagramei circulare
Vom reprezenta gra c aceste date cu ajutorul barelor verticale. Vom utiliza co-
manda bar ce admite sintaxa bar(x,y)unde yeste vectorul cu frecvent ele absolute
corespunz ator datelor statistice de nite de vectorul x.
bar(C(:,1),C(:,2))
41

Figura 5.2: Reprezentarea datelor cu ajutorul barelor verticale
Aplicat ia 2 Datele de mai jos reprezint a valorile colesterolului la 40 de pacient i:
133;152;158;181;197;165;261;219;135;216;146;
236;225;153;172;144;186;193;161;137;231;173;
180;213;165;195;183;134;188;257;203;232;287;
210;230;89;180;128;184;123:
Vom determina histograma acestor date  si poligonul frecvent elor absolute.
x=[133,152,158,181,197,165,261,219,135,216,146,…
236,225,153,172,144,186,193,161,137,231,173,…
180,213,165,195,183,134,188,257,203,232,287,…
210,230,89,180,128,184,123];
M=max(x);m=min(x);h=(M-m)/6;
i=1:7;y=m+(i-1)*h;
for j=1:6
n(j)=length(find((y(j)<=x)&(x<y(j+1))));
endfor
for k=1:6
z(k)=(y(k)+y(k+1))/2;
endfor
hold on, bar(z,n,'hist'),plot(t1,t2,'–b'),hold off
42

Figura 5.3: Reprezentarea gra c a a datelor cu ajutorul histogramei  si a poligonului de
frecvent e absolute
Datele negrupate se pot forma pe clase cu comanda tabulate(x,y)
bin Fa Fr% Fc
89 1 2.50% 1
122 10 25.00% 11
155 12 30.00% 23
188 9 22.50% 32
221 5 12.50% 37
254 3 7.50% 40
Aplicat ia 3 Fie datele ce reprezint a greutatea pentru 40 de elevi av^ and probleme
de obezitate
87;64;99;70;64;55;89;65;62;38;67;70;60;69;78;39;75;56;71;:::
51;99;68;95;86;57;53;47;81;50;98;5580;70;79;66;36;51;63;85;83
Diagrama de tipul boxplot ne descrie cinci m asuri statistice: mediana, prima  si a
treia cuartil a, valoarea maxim a  si minim a. Realizarea acestei reprezent ari gra ce se
realizeaz a cu comanda boxplot ce admite sintaxa boxplot(x) undexeste vectorul
linie format cu datele statistice date (este de preferat ca datele statistice s a e ordonate
cresc ator).
x=[87,64,99,70,64,55,89,65,62,38,67,70,60,69,78,39,75,56,71,51,99,…
68,95,86,57,53,47,81,50,98,55,80,70,79,66,36,51,63,85,83];
y=sort(x);
boxplot(y)
de unde obt inem reprezentarea gra c a
43

Figura 5.4: Reprezentarea gra c a a datelor statistice cu diagrama boxplot
5.2 Indicatori statistici
^In Octave avem urm atoarele comenzi pentru calcul indicatorilor statistici pentru
seria statistic a dat a (^ n Octave vom nota cu xmatricea linie format a cu valorile nu-
merice ale seriei statistice X):
•range(x) determin a amplitudinea seriei seriei statistice;
•mean(x) determin a valoarea mediei (media aritmetic a) a seriei statistice;
•var(x) determin a valoarea dispersiei a seriei statistice;
•std(x) determin a valoarea abaterii mediei p atratice standard;
•median(x) determin a valoarea medianei a seriei statistice;
•quantile(x,p) determin a cuantila de ordin p(p2f0:25;0:5;0:75g);
•skewness(x) determin a coe cientul de asimetrie a seriei statistice;
•kurtosis(x) determin a coe cientul de boltire a seriei statistice.
Aplicat ia 1. Urm atoarele date reprezint a valoarea gliciemiei m asurate pe un
e santion de 20 de copiii cu v^ arsta cuprins a ^ ntre 5-14 ani.
113;60;430;130;79;405;90;100;175;100;111;380;68;122;125;75;150;89;100;70
Vom calcula cu ajutorul programului Octave indicatori statistici pentru aceast a serie
statistic a.
Am creat funct ia indsta care ne determin a indicatori statistici ai seriei adic a: am-
plitudinea, media, dispersia, abateria mediei p atratice standard, mediana, quantilele
44

de ordin 0.25, respectiv 0.75, coe cientul de asimetrie  si coe cientul de boltire a seriei
statistice.
Funct ia indsta am de nit-o astfel ^ n Octave
function y = indsta (x)
printf('Indicatori statistici ai seriei date\n');
z=sort(x);
k1=range(z);
printf('amplitudinea =%4.1f\n',k1);
k2=mean(z);
printf('media =%5.3f\n',k2);
k3=median(z);
printf('mediana =%6.3f\n',k3);
k4=quantile(z,0.25);
printf('Quantila Q1 =%6.3f\n',k4);
k5=quantile(z,0.75);
printf('Quantila Q3 =%6.3f\n',k5);
d=k5-k4;
printf('distanta quartilica =%6.3f\n',d);
v1=var(z);
printf('dispersia=%6.3f\n',v1);
v2=std(z);
printf('abaterea mediei patratice standard=%6.3f\n',v2);
k6=skewness(z);
printf('coeficientul de asimetrie=%4.4f\n',k6);
k7=kurtosis(z);
printf('coeficientul de boltire=%4.4f\n',k7);
endfunction
Scriem matricea linie xcu datele numerice ale seriei statistice iar apoi apel am
funct ia indsta(x) de unde se va a  sa indicatori statistici ai serie date:
Indicatori statistici ai seriei date
amplitudinea =370.0
media =148.600
mediana =105.500
Quantila Q1 =84.000
Quantila Q3 =140.000
distanta quartilica =56.000
dispersia=13069.516
abaterea mediei patratice standard=114.322
coeficientul de asimetrie=1.7425
coeficientul de boltire=4.4436
^In orice set de date statistice exist a valori aberante adic a valori numerice care nu
apart in intervalului [ Q11:5(Q3Q1);Q3+1:5(Q3Q1)]. Cu ajutorul programului
Octave de nit mai jos vom identi ca valorile aberante:
x=[113,60,430,130,79,405,90,100,175,100,111,380,68,122,125,75,150,…,
89,100,70];
45

a=quantile(x,0.25)-1.5*(quantile(x,0.75)-quantile(x,0.25));
b=quantile(x,0.75)+1.5*(quantile(x,0.75)-quantile(x,0.25));
indice=find(or(x<a,x>b));
y=x(indice) % valorile aberante
y =
430 405 380
respectiv cu ajutorul programului Octave de nit mai jos am eliminat valorile aberante
din seria statistic a
x=[113,60,430,130,79,405,90,100,175,100,111,380,68,122,125,75,150,…,
89,100,70];
a=quantile(x,0.25)-1.5*(quantile(x,0.75)-quantile(x,0.25));
b=quantile(x,0.75)+1.5*(quantile(x,0.75)-quantile(x,0.25));
indice1=find((x>=a)&(x<=b));
z=x(indice1) % am eliminat din seria statistica valorile aberante
z =
113 60 130 79 90 100 175 100 111 68
122 125 75 150 89 100 70
Aplicatia 2. Fie datele statistice de nite pe clase ^ n tabelul de mai jos:
clasa frecventa
[0,5) 5
[5,10) 10
[10,15) 20
[15,20) 15
[20,25) 12
[25,30] 8
Tabela 5.1: Date statistice de nite pe clase
Am construit funct ii Octave pentru determinarea mediei  si dispersiei modi cate
pentru seria statistic a de nit a conform tabelului (5.1).
•funct ia Octave pentru determinarea mediei
function y = mediaclase (a,h,b,n)
x=a:h:b;
N=sum(n);
z=sum(x.*n)/N;
printf('media =%8.3f\n',z);
endfunction
undearespectivbeste jum atatea primei clase respectiv ultimei clase, hpasul
clasei iarNeste volumul total al datei statistice date.
•Atunci din secvent a de program Octave deducem valoarea mediei
46

a=2.5,b=27.5,h=5;
n=[5,10,20,15,12,8];
mediaclase(a,h,b,n)
% se va afisa
media = 15.571
•funct ia Octave pentru determinarea dispersiei
function y= dispersiaclase (a,h,b,n)
x=a:h:b;
N=sum(n);
c=sum(x.*n)./N;
z=1/(N-1).*(sum(x.^2.*n)-N.*c.^2);
printf('dispersia=%8.2f\n',z);
undearespectivbeste jum atatea primei clase respectiv ultimei clase, hpasul
clasei iarNeste volumul total al datei statistice date.
•Atunci din secvent a de program Octave deducem valoarea dispersiei
a=2.5,b=27.5,h=5;
n=[5,10,20,15,12,8];
dispersiaclase(a,h,b,n)
% se va afisa
dispersia= 50.21
5.3 Teste statistice
Aplicat ia 1. Pentru a determina media v^ arstelor copiiilor internat i la sect iile de
infect ioase din Rom^ ania s-a f acut un sondaj aleator de volum n= 90 printre copiii din
t ar a. V^ arstele copiiilor ^ n urma sondajului sunt grupate ^ n tabel de mai jos:
v^ arsta 2345678910
frecvent a 2381213172096
Tabela 5.2: Date sondajului
Dorim s a test am la nivelul de semni cat ie = 0:01dac a media tuturor copiiilor
din t ar a este m= 7.
Datorit a faptului c a volumul n > 30 putem aplica testul Z. Acest test ^ n Octave
admite comanda
[h,pval,zval,zcrtic]=ztest(X,m,s,'tail','both/left/right','alpha',0.01)
undeXeste matricea linie cu datele numerice ale select iei, mvaloarea teoretic a a me-
diei,sabaterea mediei p atratice standard, both/left/right precizarea testului bilateral
(forma implicit a sau unilateral st^ anga sau dreapta iar alpha este nivelul de semni cat ie
care poate lua valorile 0 :1;0:05;0:01.
Din programul Octave de nit mai jos
47

X=[2*ones(1,2),3*ones(1,3),4*ones(1,8),5*ones(1,12),6*ones(1,13),…
7*ones(1,17),8*ones(1,20),9*ones(1,9),
10*ones(1,6)]; % matricea linia a datelor
n=[2,3,8,12,13,17,20,9,6]; % matricea linie a frecventelor absolute
m=7; % valoarea teoretica a mediei
s=std(X); % valoarea abateri mediei patratice standard
[h,pval,ci,zval,zcrit]=ztest(X,m,s,'alpha',0.01) % comanda testul Z
^ n urma compil arii se va a  sa
h = 0 % ipoteza nula este aceptata
pval = 0.14114 % valoarea probabilitati a testului
ci = % intervalul de incredere a mediei
6.1749 7.2251
zval = -1.4716 % valoarea numerica a testului
zcrit = 2.5758 % cuantila de ordin alpha
deci ipoteza nul a ^ n care se a rm a c a media teoretic a este de 7 ani se acept a.
Figura 5.5: Zonele colorate reprezint a regiunile de respingere
Observ am c a valoarea testului zval =1:4716 nu apart ine regiunilor critice (co-
loarate ^ n gura (5.5)) deci ipoteza nul a se acept a.
Remarca 5.3.1 .Comanda pentru folosirea testului t este
[h, pval, ci,stat] = ttest(x,m,'tail','both/right/alha','alpha',0.01)
unde argumentele de intrare  si ie sire sunt acelea si ca la testul Z unde stat ne furnizeaz a
informat i despre valoarea numeric a a testului, gradele de libertate  si valoarea dispersiei
modi cate a select iei.
48

Aplicat ia 2 ^Intr-un sondaj nat ional de opinie 1000 de persoane au fost rugate s a
r aspund a la o ^ ntrebare legat a de testarea unui vacin. R aspunsul a rmativ a fost de
4284 dintre cazuri. Rezultatul acestui sondaj este utilizat ^ n estimarea procentului p
pentru testarea vacinului. La nivelul de semni cat ie = 0:01 testat i dac a p este de
85% sau mai mare.
Avem ipoteza nul a H0:p= 0:85 sau ipoteza alternativ a H1:p>0:85.
Solut ie: Avem comanda Octave binotest pentru testarea proport iei care admite
sintaxa binotest(p0,n,p) undep0 este proport ia empiric a dedus a din sondaj, p
proport ia teoretic a, n volumul sondajului, iar nivelul de semni cat ie alpha este prede-
nit pentru 0.05:
[h,p,ci]=binotest(4284,5000,0.85,'alpha',0.01)
care ^ n urma rul arii obt inem rezultatele:
h = 0
p = 0.18454
ci =
0.84360 0.86931
Aplicat ia 3 Caracteristicile X1 siX2reprezint a punctajul obt inut de copiiide
v^ arst a de 10 ani respectiv 11 ani la testul de vaccin A1 oferit de rma Y. Speciali sti
rmei Y recomand a ca aceste puncte s a urmeze repartit ia normal a iar medicul care
testeaz a acest vaccin se conformeaz a cu aceste dorint e. Pentru a veri ca cum s-au
obt inut acete puncte vom selecta aleator punctele a 25 de copiii de v^ arst a de 10 ani  si
30 de copiii ce au v^ asta de 11 ani, distribut iile notelor sunt prezentate mai jos:
PunctajulFrecvent a absolut a
Copiii 10 ani Copiii 11 ani
5 3 5
6 5 7
7 7 7
8 6 5
9 3 4
10 1 2
Tabela 5.3: Punctajul obt inut la vaccin
S a se testeze cu = 0:01 ipoteza nul a ^ n medie nu exist a diferent e ^ ntre categoriile
de v^ arste respectiv ipoteza alternativ a exist a diferent e ^ ntre categoriile de v^ arste adic a
cei care au 11 ani un punctaj mai bun fat  a de cei cu 10 ani.
Solut ie: Comanda Ocatave este
[h,p,ci,stats]=ttest2(u,v,0.01,'left','unequal')
undeurespectivvreprezint a matricea linie a setului de date pentru setul de copiii ce
au v^ arsta de 10 ani respectiv v^ arsta de 11 ani.
Avem secvent a de program Octave
u=[5*ones(1,3),6*ones(1,5), 7*ones(1,7),8*ones(1,6),9*ones(1,3),…
10*ones(1,1)];
49

v=[5*ones(1,5),6*ones(1,7), 7*ones(1,7),8*ones(1,5),9*ones(1,4),…
10*ones(1,2)];
[h,p,ci]==ttest2(u,v,'alpha',0.05,'tail','both','vartype','unequal')
care ^ n urma compil arii obt inem
h = 0 % ipoteza nula se acepta
p = 0.80923
ci = % interval de incredere
-0.67832 0.86499
Cu ajutorul funct iei chi2gof(x) test am dac a vectorul xprovine dintr-o repartit ie
normal a cu media  si dispersia estimate cu ajutorul lui x. Variabilele de ie sire sunt
acela si ca la celelalte teste ^ n plus variabila stats a  seaz a statistica 2,dfgradele de
libertate, edges un vector cu capetele intervalelor claselor dup a triere, O-num arul de
valori observate ^ n ecare clas a, E-num arul de valori a steptate ^ n ecare clas a.
Pentru testul Kolmogorov-Smirnov pentru o select ie vom utiliza comanda
[p,stats]=kstest(x,'legea',alpha)
unde variabilele de intrare  si ie sire sunt acela si ca la celelalte comenzi utilizate pentru
teste statistice.
Aplicat ia 4 Consider am select ia f4;4;4;5;5;5;6;6;6;6;6;9;9;9;10;10;10;10;10;
12;12;13;14;16;17;17;18gextras a dintr-o anumit a colectivitate. La nivelul de semni-
cat ie = 0:1 s a se decid a dac a populat ia din care provine select ia este normal a de
medie 7  si dispersie 3.
Solut ie: Vom aplica comanda kolgomorov_smirnov_test ce admite sintaxa
[p,stats]=kolgomorov_smirnov_test(X,'legea',parametri)
Avem secvent a de program Octave
pkg load statistics
X=[1,2,2,3,3,3,4,4,4,5,5,5,6,6,6,9,9,9,10,10,10,11,11,12,12,13,13,14];
n=sqrt(length(X));
[p,stats]=kolmogorov_smirnov_test (X, 'norm', 7,3)
p = 0.16213
stats = 1.1207
cum cuantila de ordin 1 (1 ) este egal a cu 1.63 e din tabelarea funct iei
Kolmogorov ( sau apel
uam kolmogorov_smirnov_cdf (1.63,0.1) care ne conduce la rezultatul 0.99015).
Atunci din relat iapnstats1 <0 deci ipotez nul a se acept a adic a ipoteza de
normalitatea se acept a.
Aplicat ia 5 ^Intr-o sect ie de infect ioase dintr-un spital X ce au 60 de pacient i au
fost distrubuite
acoane de glucoz a de 500ml conform tabelului ^ ntr-o lun a.
50

Nr. ole de glucoz a Nr de pacient i
0 6
1 12
2 17
3 11
4 10
5 2
6 2
Tabela 5.4: Tabel cu olele de glucoz a
Determinat i (la nivelul de semni cat ie = 0:05) dac a num arul de ole per pacien
urmeaz a o distribut ie Poisson.
Solut ie: Fie variabila aleatoare ce reprezint a num arul de ole distribuite la un
pacient. Dorim s a test am dac a variabila Xurmeaz a legea Poisson. Atunci avem
ipoteza nul a H0variabilaXurmeaz a legea Poisson respectiv ipoteza alternativ a H1
variabilaXnu urmeaz a legea Poisson. Avem programul Octave
pkg load statistics
X=[0.*ones(1,6),1.*ones(1,12),2.*ones(1,17),3*ones(1,11),4.*ones(1,10)
5.*ones(1,2),6.*ones(1,2)];
f=[6,12,17,11,10,4];
lambda=mean(X);
n=60;
alpha=0.05;
Hcri=chi2inv(0.95,4)
Hcri = 9.4877
for i=1:5
p(i)=poisspdf(i-1,lambda);
endfor
p(6)=1-poisscdf(4,lambda);
Hcalc=sum((f-n*p).^2./(n*p))
Hcalc = 1.7923
if (Hcalc<Hcri)
disp('Ipoteza nula este aceptata')
else
disp('Ipoteza nula se respinge')
endif
Ipoteza nula este aceptata
Aplicat ia 6 Fie select ia de date a unui e santion de 27 de pacient i:
6:1;14:4;4:2;4:6;5:9;4:7;17:2;11:7;6:2;16:8;5:4;9:5;8:8;11:6;5:7;9:8;9:2;13:1;
18:5;15:5;5:7;10:4;3:9;4:4;9:9;17:6;10:3
Studiem dac a ipoteza nul a: select ia de date de mai sus face parte dintr-o repartit ie
normal a.
Solut ie: Avem secvent a de program Octave pentru calculul testetului Shapiro-Wilk
c^ at  si testarea acestui test statistic:
51

pkg load statistics
x=[6.1,14.4,4.2,4.6,5.9,4.7,17.2,11.7,6.2,16.8,5.4,9.5,8.8,11.6,…
5.7,9.8,9.2,13.1,18.5,15.5,5.7,10.4,3.9,4.4,9.9,17.6,10.3];
a=[0.4407,0.3043,0.2533,0.2151,0.1836,0.1563,0.1316,0.1089,
0.0876,0.0672,0.0476,0.0284,0.0094];
testsw(x,a)
iar ^ n urma compil arii obt inem valoarea testului
valoarea testului Shapiro-Wilk=0.9029
pentru testarea acestui test statistic am construit funct ia testswd care are sintaxa
testswd (W1;p1;W2;p2;Wcalc;alpha )
unde valorile W1,p1,W2,p2 sunt de nite ^ n tabelul de valori ale testului Shapiro-Wilk
(http://www.real-statistics.com/statistics-tables/shapiro-wilk-table/ )
pentrun= 27 iar Wcalc este valoarea calculat a a testului, iar este nivelul de
semni cat ie. Atunci ^ n urma compil arii comenzii Octave
testswd(0.894,0.01,0.906,0.02,0.9029,0.05)
se obt ine c a ipoteza nul a se respinge.
Funct ia testsw este de nit a astfel
unction c = testsw (x,a)
y=sort(x);
n=length(y);
k=floor(n/2);
for i=1:k
d(i)=y(n-i+1)-y(i);
endfor
s=0;s1=0;
for i=1:n
s=s+(y(i)-mean(y)).^2;
endfor
for i=1:k
s1=s1+a(i).*d(i);
endfor
W=s1^2./s;
printf('valoarea testului Shapiro-Wilk=%6.4f\n',W);
endfunction
respectiv funct ia testswd este de nit a astfel
function y = testswd (W1,p1,W2,p2,Wcalc,alpha)
p=@(W)((p2-p1)./(W2-W1)).*(W-W1)+p1;
if (p(Wcalc)>alpha)
disp('Ipoteza nula datele au o repartitie normala');
else
disp('Ipoteza nula se respinge');
endif
endfunction
52

5.4 Analiza corelat iei  si regresiei
Aplicat ie 1 Doi medici denumit i M1,M2 au fost rugat i s a precizeze 9
acoane cu
vitamina C cu gusturi de fructe  si s a le claseze ^ n ordinea preferint elor. S a not am
acestea cu A,B,C,D,E,F,G,H,I. determinat i coe cientul de corelat ie Spearman.
Medic/Vitamina C A B C D E F G H I
M1 E B A G C H F D I
M2 B E C G A H D I F
Tabela 5.5: Preferint ele pentru vitamina C
Solut ie: Fiec arei litere A,…,I ^ i corespunde un num ar de la 1 la 9. Norul de puncte
dintre variabile descrise de medicul M1  si medicul M2 este ilustrat ^ n gura de mai jos
obt inut a cu comanda plot(x1,x2,'*r') :
Figura 5.6: Diagrama rangurilor
Avem programul Octave pentru determinarea coe cientului de corelat ie Spearman
pkg load statistics
M0=['A','B','C','D','E','F','G','H','I'];
M1=['E','B','A','G','C','H','F','D','I'];
M2=['B','E','C','G','A','H','D','I','F'];
T1=[crosstab(M0,M1)];
x1=frecvcal(T1)
x1 =
3 2 5 8 1 7 4 6 9
T2=[crosstab(M0,M2)];
x2=frecvcal(T2)
x2 =
53

5 1 3 7 2 9 4 6 8
spearman(x1,x2)
ans = 0.86667
Funct ia frecvcal este de nt a astfel
function [x] = frecvcal (T)
n=length(T(:,1));
for i=1:n
x(i)=find(T(:,i)==1);
endfor
endfunction
Aplicat ia 2 Dorim s a test am dac a exist a vreo corelat ie ^ ntre greut at ile ^ nainte de
debutul boli de pancreas (D) respectiv dup a tratamentul acestei boli (T) pentru un
e santion de 10 copiii. Au fost observate aceste date care sunt trecute ^ n tabelul de nit
mai jos: Determinat i dreapta de regresie a greut at ilor de la tratament (T) ^ n raport
Copil A B C D E F G H I J
D 82 36 72 58 70 48 44 94 60 40
T 84 42 50 64 68 54 46 80 60 32
Tabela 5.6: Greut at ile copiiilor
cu greut at ile copiiilor ^ nainte de debutul bolilor (D).
Solut ie:
Figura 5.7: Dreapta de regresie
Pentru determinarea dreptei de regresie vom aplica urm atorul program Octave
54

D=[82,36,72,58,70,48,44,94,60,40];
T=[84,42,50,64,68,54,46,80,60,32];
D1=sort(D)
D1 =
36 40 44 48 58 60 70 72 82 94
T1=sort(T)
T1 =
32 42 46 50 54 60 64 68 80 84
p=polyfit(D1,T1)
p=polyfit(D1,T1,1)
p =
0.85459 6.38303
xx=30:95;
yx=polyval(p,xx);
plot(D1,T1,'*r',xx,yx,'–b')
Aplicat ia 3 Tabelul de mai jos cont ine o select ie de 9 note obt inute de doi copiii
bolnavi de hepatit a C la acelea si tratament.
Tratament A B C D E F G H I
copil 1 3 4 4 3 3 4 2 1 4
copil 2 2 1 3 4 4 3 3 2 3
Tabela 5.7: Rezultatele obt inute la tratamentul copiiilor
studiat i leg atura ^ ntre cele dou a seturi de cali cative.
Solut ie: Pentru variabilele din tabel vom determina rangurile observat iilor pentru
ecare copil ordon^ and crec ator de la 1 la 4, unde valorile sunt egale rangul atribuit este
media rangurilor egale. Vom determina coe cientul Spearman cu ajutorul programului
Octave
pkg load statistics
M1=[3,4,4,3,3,4,2,1,4];
T1=[tabulate(M1)]
T1 =
1.0000 1.0000 11.1111 1.0000
2.0000 1.0000 11.1111 2.0000
3.0000 3.0000 33.3333 5.0000
4.0000 4.0000 44.4444 9.0000
frecvcalit(M1,T1)
ans =
4.0000 7.5000 7.5000 4.0000 4.0000 7.5000 2.0000
1.0000 7.5000
M2=[2,1,3,4,4,3,3,2,3];
T2=[tabulate(M2)]
T2 =
1.0000 1.0000 11.1111 1.0000
2.0000 2.0000 22.2222 3.0000
3.0000 4.0000 44.4444 7.0000
4.0000 2.0000 22.2222 9.0000
55

frecvcalit(M2,T2)
ans =
2.5000 1.0000 5.5000 8.5000 8.5000 5.5000 5.5000
2.5000 5.5000
n1=frecvcalit(M1,T1)
n1 =
4.0000 7.5000 7.5000 4.0000 4.0000 7.5000 2.0000
1.0000 7.5000
n2=frecvcalit(M2,T2)
n2 =
2.5000 1.0000 5.5000 8.5000 8.5000 5.5000 5.5000
2.5000 5.5000
spearman(n1,n2)
ans = -0.042058
funct ia frecvcalit admite structura
function [n] = frecvcalit (M1,T)
n=zeros(1,9);
ind=find(M1==1);
n(ind)=1;
for i=2:4
ind=find(M1==i);
n(ind)=sum(T(i-1,4)+1:T(i-1,4)+length(find(M1==i)))/(length(find(M1==i)));
endfor;
endfunction
Aplicat ia 4 Fie  sirul de date
x= 0:3;0:8;1:2;1:6;2:1;2:4;2:7;y= 3:52;4:53;5:58;6:62;8:27;10:18;11:8
S a se studieze existent a unei dependent e ^ ntre x siyde formay=aebx.
Solut ie: Apel am programul Octave pentru datele x siy1 = ln(y)
x=[0.3,0.8,1.2,1.6,2.1,2.4,2.7];
y=[3.52,4.53,5.58,6.62,8.27,10.18,11.8];
y1=log(y)
y1 =
1.2585 1.5107 1.7192 1.8901 2.1126 2.3204 2.4681
[P,r]=dreg(x,y1)
y1=a1x+b1
a1=0.497981
b1=1.10743
P = % coeficienti dreptei de regresie
0.49798 1.10743
r = 0.99884 % coeficientul de corelatie
respectiv reprezentarea gra c a a setului de observat ii ( x;y1)  si dreapta de regresie
de ecuat ie y1 = 0:497981x+ 1:10743 care se poate aproxima cu y=ex=23 (unde
exp(1:10743) = 3:0266).
56

Figura 5.8: Aproximarea datelor date
Aplicat ia 5 Conform tratamentului medical individual cu un medicament num arul
de ore alocat per bolnav este de 96 de ore. Tabelul de nit mai jos cont ine informat ii
despre num arul de ore alocate pentru tratament individual  si rezultatul tratamentului
(Rezultate bune (B)/Rezultate rele (R)).
ore rezultat ore rezultat ore rezultat
45 B 25 R 61 B 85 B 43 B 5R
53 B 78 B 13 R 23 R 2R53B
31 R 70 B 52 R 16 R 14 R22R
64 B 51 B 60 B 11R 12 R82 B
48 R 99 B 68 P 8 R 35 R10R
Tabela 5.8: Datele observ arii
folosind un model de regresie logistic a prognoza]cti ca un bolnav care a efectuat 50
de ore s a aib a rezultate bune cu ajutorul tratamentului.
Solut ie: Folosim funct ia de regresie logistic a f(x) =1
1 +e 0 1x. parametri 0; 1
sunt dedu si din programul Octave de nit mai jos:
pkg load statistics
y=[1,0,1,1,1,0,1,1,0,0,0,1,0,1,0,0,0,0,1,1,0,0,1,0,1,0,1,1,0,0];
x=[45,25,61,85,43,5,53,78,13,23,2,53,31,70,52,16,14,22,64,60,12,48,
68,35,51,11,82,100,8,10];
[theta, beta] = logistic_regression (y',x')
theta = 9.1427 % coeficienti regresiei
beta = 0.20455
p=1/(1+exp(theta-beta*50)) % valoarea predic\c{t}iei pentru 50 de ore
p = 0.74742
57

Figura 5.9: Gra cil funct iei de regresie logistic a
reprezent am gra c datele  si funct ia de regresie cu ajutorul programului Octave
t=0:0.1:100;
yt=1./(1+exp(theta-beta.*t));
plot(x,y,'*r',t,yt,'–b')
58

Capitolul 6
Concluzii
La ora actual a activitatea ^ n medicin a se bazeaz a pe utilizarea statisticii de aceea ^ n
aceast a lucrare am prezentat notiunile principale din statistic a cu ajutorul programului
Octave. Am ales acest program datorit a faptului c a are o palet a bogat a de pachete,
licent , a free, poate rula ^ n Windows 7,8,10 sau Ubuntu dar el poate folosit online
adic a poate folosit f ar a a i instalat pe calculator.
Am prezentat at^ at not ,iunile teoretice din Statistica descriptiv a dar s ,i comenzile
din programul Octave pentru culegerea datelor, sistematizarea datelor, reprezenta-
rea gra c a a datelor s ,i pentru determinarea caracteristicilor numerice a variabilelor
cantitative respectiv calitative.
Studiile medicale se aplic a pentru un num ar redus de indivizi de aceea cu studiul
statisticii inferent ,iale s ,i a programului Octave am prezentat teste statistice pentru
obt ,inerea de informat ,ii asupra populat ,iei pornind de la un es ,antion dat.
Leg atura dintre variabilele statistice sunt prezentate teoretic cu analiza corelat ,iei
s,i a regresiei. Cu ajutorul programului Octave am determinat parametrii regresiilor
liniare s ,i neliniare.
^In ^ ncheiere mult umesc conduc atorului meu Lector doctor Radu Moleriu pentru
observat iile  si ^ ndrum arilor f acute de-a lungul realiz ari a acestei luc ari de licent  a.
59

Bibliogra e
[1] Gheorghe Mihoc, Virgil Craiu, Tratat de statistic a: Select ie  si estimat ie , vol.I,
Editura Academiei Rom^ ane, Bucure sti, 1976.
[2] Gabriela Beganu, Elemente de teoria probabilit at ilor  si statistic a , Editura Meteor
Press, Bucure sti, 2003.
[3] Florin Gorunescu, Incursiune ^ n biostatistic a , Editura Cartea Albastr a, Cluj-
Napoca, 2014.
[4] Gheorghe Mihala s, Lungeanu Diana, Biostatic a , Editura Victor Babe s,
Timi soara,2011
[5] Iulian Stoleriu, Statistic a aplicat a ,https://www.math.uaic.ro/ stoleriu.
60

Similar Posts