PROGRAMUL DE STUDII DE LICENT A LUCRARE DE LICENT A COORDONATOR: ABSOLVENT: Lect. Dr. Moleriu Radu Nicoleta Maria TIMIS OARA 2020… [611970]
UNIVERSITATEA DE VEST DIN TIMIS OARA
FACULTATEA DE MATEMATIC A S I INFORMATIC A
PROGRAMUL DE STUDII DE LICENT A
LUCRARE DE LICENT A
COORDONATOR: ABSOLVENT: [anonimizat] OARA
2020
UNIVERSITATEA DE VEST DIN TIMIS OARA
FACULTATEA DE MATEMATIC A S I INFORMATIC A
PROGRAMUL DE STUDII DE LICENT A
ELEMENTE DE STATISTIC A
UTILIZATE ^IN PREVENT IA
UNOR BOLI
COORDONATOR: ABSOLVENT: [anonimizat] OARA
2020
Abstract
In this paper I present methods for using statistical calculus to prevent disease.
In the rst chapter Descriptive statistics I present notions regarding the collection
and presentation of statistical data in graphical form. At the same time, I present the
calculation method of the statistical indicators. I will present the determination of the
condence intervals for estimating the statistical parameters.
We further present the second chapter of Statistical Tests. With the help of a
statistical test we verify a statistical hypothesis regarding a statistical indicator.
The examination of the relationship between the dependent variable and other
independent variables is described in the third chapter of the analysis of linear corre-
lation and regression. With the help of linear regression we can predict the dependent
variable when the other independent variables are known.
Next, in the fourth chapter of the Risk Analysis, forecasting techniques for the
construction of various scenarios are presented. For risk assessment I present statistical
methods and probabilistic methods.
3
Cuprins
Introducere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1 Statistica descriptiv a 7
1.1 Introducere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Reprezent ari grace a datelor statistice . . . . . . . . . . . . . . . . . . 10
1.3 Indicatori statistici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.1 Indicatori ai tendint ei centrale . . . . . . . . . . . . . . . . . . . 12
1.3.2 Indicatori ai variat ei . . . . . . . . . . . . . . . . . . . . . . . . 14
1.4 Intervale de ^ ncredere . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.4.1 Estimatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.4.2 Interval de ^ ncredere pentru medie c^ and este cunoscut . . . . 19
1.4.3 Interval de ^ ncredere pentru medie ^ n cazul necunoscut . . . . 20
1.4.4 Intervale de ^ ncredere pentru dispersie . . . . . . . . . . . . . . 20
1.4.5 Interval de ^ ncredere pentru proport ie . . . . . . . . . . . . . . . 21
1.4.6 Intervale de ^ ncredere pentru diferent a a dou a medii ale c aror
dispersii sunt cunoscute . . . . . . . . . . . . . . . . . . . . . . 21
1.4.7 Intervale de ^ ncredere pentru diferent a mediilor a dou a populat ii
ale c aror dispersii sunt necunoscute . . . . . . . . . . . . . . . . 22
1.4.8 Intervale de^ ncredere pentru diferent a proport iilor a dou a populat ii 23
2 Teste statistice 24
2.1 Teste statistice punerea problemei . . . . . . . . . . . . . . . . . . . . . 24
2.2 Teste parametrice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3 Teste neparametrice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3 Corelat ia si regresia 32
3.1 Corelat ia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.2 Regresia liniar a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4 Analiza riscului 37
4.1 Not iuni fundamentale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2 Indici din analiza riscului . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5 Studii de caz 40
5.1 Reprezentarea grac a a datelor statistice . . . . . . . . . . . . . . . . . 40
5.2 Indicatori statistici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.3 Teste statistice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.4 Analiza corelat iei si regresiei . . . . . . . . . . . . . . . . . . . . . . . . 53
6 Concluzii 59
4
Bibliography 60
5
Introducere
^In lucrarea de fat a prezint metode de utilizare a calcului statistic pentru prevenirea
bolilor la adolescen i. Folosim metode inductive de cercetare, plec^ and de la particular
la general. Concluziile rezultate ^ n urma prelucr arii statistice a datelor experimentale
nu sunt absolut sigure, ^ ns a gradul de incertitudine poate calculat.
^In primul capitol Statistica descriptiv a prezint not iuni privind colectarea si pre-
zentarea datelor statistice sub form a grac a. Totodat a prezint modul de calcul al
indicatorilor statistici ai tendint ei centrale, ai ^ mpr a stierii si ai formei de distribut ie.
De asemenea voi prezenta detetminarea intervalelor de ^ ncredere pentru estimarea pa-
rametrilor statistici.
Prezent am ^ n continuare capitolul al doilea Teste statistice. Aceste teste se ^ mpart
^ n dou a categorii: teste parametrice respectiv neparametrice. Cu ajutorul unui test
statistic verc am o ipotez a statistic a referitoare la un indicator statistic (medie, aba-
tere standart, dispersie etc.) .
Examinarea relat iei dintre variabil a dependent a si alte variabile independente este
descris ^ n capitolul al treilea Analiza corelat iei si regresiei liniare. Cu ajutorul re-
gresiei liniare putem prognoza variabila dependent a c^ and se cunosc celelalte variabile
independente sunt cunoscute.
^In continuare ^ n capitolul al patrulea Analiza riscului sunt prezentate tehnici de
prognoz a pentru construirea diverselor scenari. Pentru evaluarea riscului prezint me-
tode statistice si metode probabilistice.
^In ultimul capitol Studiul de caz voi prezenta calculul elementelor statistice utilizate
^ n medicin a cu ajutorul programului Octave. Am ales acest program pentru c a licent a
este free poate rula ^ n Windows, Ubuntu, dar el poate apelat si online f ar a a necesita
instalarea propriu-zis a pe o unitate de calculator.
6
Capitolul 1
Statistica descriptiv a
Statistica este o ramur a a matematicii aplicate care se ocup a cu gruparea, analiza
s,i interpretarea datelor referitoare la un anumit fenomen de mas a ^ n scopul obt ,inerii
unor previziuni privind desf as ,urarea ulterioar a a sa.[Gheorghe Mihoc [1]]
Domeniul statisticii poate ^ mp art ,it ^ n dou a subdomenii: statistica descritiv a s ,i
statistica analitic a. Statistica descriptiv a cuprinde colectarea, prezentarea si descrierea
datelor statistice. Statistica analitic a se refer a la tehnica de interpretare a valorilor
rezultate din tehnicile descriptive s ,i utilizarea lor la luarea deciziilor.[4, 5]
1.1 Introducere
Denit ia 1.1.1. •Populat ,ia statistic a este prin denit ,ie o mult ,ime de elemente
ce au o proprietate comun a care urmeaz a a studiat a. Un element al unei
populat ,ii se numes ,te individ (unit at ,i statistice). Num arul total al indivizilor
dintr-o populat ie nit a se nume ste volumul populat iei.
•Caracteristica (variabil a) statistic a a unei populat ii este o anumit a proprietate
observat a la indivizii ei si constituie obiectul m asur arii.
•Es,antion (select ,ie) este prin denit ,ie o submult ,ime a unei populat ,ii. Num arul
total al indivizilor din e santion se nume ste volumul e santionului.
•Date statistice reprezint a informat iile obt inute ^ n urma observat iei valorilor va-
riabilelor statistice.
•Parametru este o caracteristic a numerica a unei ^ ntregi populat ii.
•Statistica este valoarea numeric a a parametrului calculat pemtru e santion.
Planul unui studiu statistic cuprinde urm atoarele etape:
•Planicare
•Proiectare
•Execut ie
Culegerea datelor pentru un studiu statistic presupune s a parcurgem urm atorii
pa si :
7
{denirea studiului statistic;
{denirea variabilelor;
{denirea colect iilor de date si a schemelor de m asurare c^ a si precizarea
dimensiuni de select ie;
{determinarea tehnicilor descriptive si analitice de analiz a a datelor;
•Procesarea datelor
•Analiza datelor
•Prezentarea datelor
•Interpretarea rezultatelor
•Publicarea
Studiul statistic se va realiza prin:
•Reces am^ ant care este de fapt urm arirea caracteristicilor la tot i indivizi din populat ia
statistic a ^ n acela si timp. Aceast a metod a este foarte costisitoare, consumatoare
de timp pentru a aplicat a deseori.
•E santion care la r^ andul s au se ^ mparte ^ n:
{e santion simpl a generat a mai nou cu ajutorul unui generator de numere
aleatoare (se numeroteaz a elementele populat iei apoi se extrag n numere
aleatoare, elementele numerotate cu num arul aleator corespunz ator sunt
extrase din select ie);
{e santion sistematic este o select ie din care se extrage tot al k-lea termen din
select ie. Aici aplic am numai la ^ nceput folosirea unui generator de numere
aleatoare;
{e santion straticat se obt ine prin select ia unui num ar nit de elemente din
ecare strat al populat iei;
{e santion grupat se obt ine prin select ia unui num ar nit de elemente doar
din unele straturi ale populat iei.
Tipurile de variabule cele mai des folosite sunt:
•cantitave care m asoar a caracteristicile unui individ dintr-o populat ie. Avem
variabile discrete (care num ar a caracteristicile unui individ) sau continue (care
n asoara caracteristicile unui individ)
•calitative care descriu caracteristicile indivizilor din populat ie care la r^ andul lor
se ^ mparte ^ n:
{nominale care exprim a atributele unui individ f ar a a t ine seama de ordinea
lor;
{ordinale ale c aror valori apart in unei scale convent ionale;
{dihotomice care admite dou a valori posibile, iar rezultatul va distribut ia
^ n cele dou a clase.
8
Gruparea datelor
Datele culese se vor numi date negrupate. De aceea se prefer a c a aceste date s a e
grupate ^ n diferite clase de interes. Datele prezentate sub form a de tabel de frecvent ,e
se vor numi date grupate. Datele statistice de cele mai multe ori sunt stocate sub forma
unei matrice (tablou) unde valorile variabilelor (atributele/caracteristicile) sunt stocate
pe coloan a ^ n timp ce observat ,iile (obiectele) sunt stocate pe linii. Datele statistice
fy1;;yngpot s a se repete de aceea se va construi un tabel ^ n care pe coloan a
vom trece variabilele distincte fx1;;xrgapoi pe coloanele urm atoare vom trece fi
frecvent ,ele absolute (num arul de aparit ,ii ale variabilelor xi),fi
rP
i=1fifrecvent ,ele relative
sunt de fapt raportul dintre frecvent a absolut a si volumul e santionului respectiv f1+
f2++fifrevcent ,ele cumulate cresc ator corespunz atoare variabilei xi. De exemplu:
xi frecv.abs. frecv.rel frecv.cum
x1 f1 f1=N f1
x2 f2 f2=N f1+f2
…………
xr fr fr=NN=f1+f2+fr
N=f1+f2+fr
Tabela 1.1: Tabel cu frecvent e
Dac a datele statistice sunt de tip continuu atunci se realizeaz a o grupare a datelor
pe clase.
clasa frecvent a valoarea medie a clasei
[a1;a2)f1 x1
[a2;a3)f2 x2
…………
[ar;ar+1)fr xr
Tabela 1.2: Tabel cu frecvent e pe clase
undefieste frecvent ,a aparit ,iei valorilor din clasa [ ai;ai+1) iarxi=ai+ai+1
2este
elementul de mijloc al clasei [ ai;ai+1) respectiv n=rP
i=1fi.
Pentru denirea claselor unui tabel de frecvent ,e nu exist a o regul a denit a. Fiecare
statistician poate crea propriul tabel de frecvent ,e dar exist a anumite cerint ,e minimale
care trebuie respectate:
•Num arul claselor s a e ^ ntre 5 s ,i 20, dac a volumul datelor este mic se recomand a
formarea a 5 sau 6 clase. Fiecare clas a cont ,ine cel put ,in 5 valori. Clasele astfel
formate sunt disjuncte.
•De preferat clasele s a aib a aceeas ,i l at ,ime. Lungimea claselor se mai poate deter-
mina empiric dup a formula lui Sturges (care se va aproxima convenabil pentru
formarea claselor) h=amax amin
kundekeste partea ^ ntreag a a num arului
9
1 + 3:322log(n), respectiv amax;aminsunt valorile extremale (minim/maxim) ale
setului de date iar n este num arul de unit at ,i statistice din setul de date statistice
dat.
1.2 Reprezent ari grace a datelor statistice
Pentru reprezentarea grac a a datelor statistice vom apela la programul Octave.Vom
prezenta mai multe tipuri de diagrame pentru vizualizarea datelor statistice.[5]
Reprezentarea prin linii
Reprezentarea prin puncte este folosit a pentru select ,ii de date discrete de dimen-
siuni mici. Vom reprezenta grac punctele ( xi;fi) undexieste variabila studiat a iar fi
este frecvent ,a absolut a a variabilei xi. Vom uni punctele ( xi;fi) s,i (xi;0) cu segmente
de dreapt a.
Figura 1.1: Gracul datelor statistice cu linii
Diagrame (circulare, bastoane vertical/orizontale) Datele statistice pot reprezen-
tate grac cu ajutorul diagramei circulare.
Figura 1.2: Gracul datelor statistice prezentate cu diagrama circular a
10
respectiv cu ajutorul barelor (dreptunghiuri) verticale utile pentru variabile calita-
tive.
Figura 1.3: Gracul datelor statistice prezentate cu bare verticale
Norul de puncte
Figura 1.4: Gracul datelor statistice prezentate cu norul de puncte
Diagrama boxplot descrie cele 5 valori (valoarea minim a, prima quartil a, mediana,
quartila atreia s ,i valoarea maxim a) ale unei serii de date statistice de tip discret.
Figura 1.5: Diagrama boxplot
Reprezentarea stem-and-leaf este aranjarea datele negrupate sub forma ramur a-
frunz a (stem and leaf). Ramura este cifra zecilor iar frunzele sunt cifrele unit at ,ilor.
11
1 8
3 49
4148
50359
612248
7357
8 9
Tabela 1.3: Datele statistice sub forma stem and leaf
Figura 1.6: Histograma unei seri statisce
Reprezentarea grac a prin histograme
O histogram a este o form a pictorial a (format a din dreptunghiuri) foarte util a pen-
tru select ,ii de date de tip continuu grupate pe clase. Se aseam an a cu reprezentarea prin
bare (dreptunghiuri) dar nu avem spat ,ii ^ ntre dreptunghiuri des ,i putem avea dreptun-
ghiuri cu ^ n alt ,imea zero iar ariile dreptunghiurilor sunt proport ,ionale cu frecvent ,ele
corespunz atoare. Num arul de dreptunghiuri este egal cu num arul de clase, l at ,imea
dreptunghiurilor este intervalul clasei iar ^ n alt ,imea este aleas a frecvent ,a absolut a a
clasei. Aria total a a tuturor dreptunghiurilor este egal a cu num arul total de observat ,ii.
1.3 Indicatori statistici
Prin indicator statistic ^ nt elegem rezultatul unei observat ii statistice si a prelucr arii
datelor statistice.[4, 5]
1.3.1 Indicatori ai tendint ei centrale
Dac a alegem un e santion cu valorile distincte x1;x2;;xnatunci denim media
de select ie ca media aritmetic a a tutror valorilor din e santion
x=x1+x2++xn
n(1.1)
12
Media geometric a se dene ste
xg=npx1x2xn (1.2)
Media armonic a se dene ste
xh=n
1
1
x1+1
x21
xn(1.3)
Mediana este o valoare care ^ mparte seria ^ n dou a grupe de frecvent a egale adic a
Me=(xN+1n= 2N+ 1
xN+xN+1
2n= 2N(1.4)
Cuartile ^ mpart seria ^ n patru p art i egale. Avem 3 cuartile Q1(cuartila inferioar ade
rangn
4),Q2(mediana de rangn
2),Q3(cuartila superioar a de rang3n
4k num arul total
de observat ii). Cuartilele se determin a asem an ator cu cele de la median a. C^ and valorile
cuartilei se aproprie de median a repartit ie se caracterizeaz a prin ^ mpr at iere mic a[2]
Modul (moda) Mo este valoarea caracteristici variabilei c areia^ corespunde frecven a
maxim a. Pentru repartit ii perfect simetrice media, mediana si modulul coincid. Avem
o relat ie
Mo= 3Me 2x (1.5)
.
^In cazul datelor grupate avem formula pentru media de select ie
x=rP
i=1xifi
rP
i=1fi(1.6)
unde
•nifrecvent a absolut a a clasei [ ai;ai+1);
•ximijlocul clasei [ ai;ai+1);
•rnum arul claselor.
respectiv formula pentru media geometric a
xg=rY
i=1xfi
i (1.7)
unde valorile xiau frecvent ele fi
Intervalul ce cont ine elementulk
2se nume ste intervalul median pentru o select ie
denit a pe clase. Valoarea cuartilei se determin a din formula
Me=xQi+ik 4ni
1
4nQidQi; i= 1;2;3 (1.8)
unde
13
•xQilimita inferioar a a intervalului cuartilic Qi;
•ni
1frecvent a cumulat a cresc ator corespunz atoare interior anterior intervalului
cuartilicQi;
•nQifrecvent a absolut a intervalului cuartilic Qi;
•dQilungimea intervalului cuartitilic Qi.
Modul se determin a cu formula
Mo=l1 +1
1+ 2h (1.9)
unde
•l1 limita inferioar a a intervalului modal;
•hlungimea intervalului modal;
•1diferent a dintre frecvent a intervalului modal si frecvent a intervalului anterior
intervalului modal;
•2diferent a dintre frecvent a intervalului urm ator intervalului modal si frecvent a
intervalului modal;
1.3.2 Indicatori ai variat ei
Amplitudinea se determin a ca diferent a dintre valoarea cea mai mare si valoarea
cea mai mic a.
Putem calcula variat ia intercuartilic a Qdenit a astfel
Q=Q3 Q1
2(1.10)
si coecientul de variat ie intercuartilic a q
q=Q
Me=Q3 Q1
Q3+Q1(1.11)
care are valori ^ ntre -1 si 1.
Valorile aberante sunt valori statistice observate care sunt ^ ndep artate de marea
majoritate a celorlalte observat ii. Aceste valori nu apart in intervalului [ Q1 1:5(Q3
Q1);Q3 + 1:5(Q3 Q1)].
Coecientul de asimetrie intercuartilic se calculeaz a dup a formula
Asq=(Q3 Me) (Me Q1)
Q3 Q1(1.12)
este cuprins ^ ntre -1 si 1 si ia valoarea zero pentru repartit ii simetrice. Valorile 1 se
obt in pentru repartit ii cu asimetri acentuate mai bine zis c^ and mediana si una dintre
cuartile coincid.
Abaterea medie absolut a reprezint a media abaterilor fat a de media aritmetic a luate
^ n valoare absolut a.
14
Cel mai important indicator care caracterizeaz a variat ia este dispersia. Dispersia
de select ie notat a cu 2se determin a cu formula
2=1
nnX
i=1(xi x)2(1.13)
respectiv dispersia de select ie modicat a:
s2=1
n 1nX
i=1(xi x)2(1.14)
Deducem prin calcul direct c a s2=n
n 12
R adacin a p atrat a sa dispersiei de select ie se nume ste abaterea medie p atratic a de
select ie.
Pentru date grupate pe clase (vezi tabelul cu frecvent e denit pe clase) avem
•media de select ie x=1
nP
ix
ifiundex
ieste mijlocul clasei [ ai;ai+1].
•dispersia de select ie s2=P
ifi
n 1(x
i x)2
Pe baza select iei vom face estimat ii asupra caracteristicilor populat iei. Media arit-
metic a a select iei va o aproximare a mediei aritmetice iar dispersia de select ie a
dispersiei populat iei.
Coecientul de variat ie este o m asur a a dispersiei relative si este denit a de formula
CV=s
x(1.15)
Momentul de ordin kal unei select ii este denit de formula
mk=rP
i=1xr
ifi
rP
i=1fi(1.16)
Momentele centrate de ordin kadmit formula
mk=rP
i=1fi(xi x)k
rP
i=1fi(1.17)
Avem leg atura cu momentele de ordin kastfel
m1= 0
m2=m2 m2
1
m3=m3 3m1m2+ 2m3
1
m4=m4 4m1m3+ 6m2
1 3m4
1
Momentul centrat de ordinul 2 m2este tocmai dispersia de select ie 2.
15
Asimetria absolut a este denit a de relat ia
As= x Mo (1.18)
iar cea relativ a
Asr=x Mo
s(1.19)
Aceast a cantitate este pozitiv a atunci c^ and repartit ia este asimetric a la st^ anga si ne-
gativ a c^ and repartit ia este asimetric a dreapta.
Coecient ii lui Pearson sunt:
1=m3
s3(skewness )
2=m4
s4 3 (kurtosis )(1.20)
Pentru studiul asimetriei se folosesc si urm atorii indicatori introdu si de Fisher
1=p
1=m3
s3(1.21)
numit a asimetria si
2=2 3 =m4
s4 3 (1.22)
numit excess.
1.4 Intervale de ^ ncredere
1.4.1 Estimatori
Consider am o populat ie statistic a de volum N si o caracteristic a Xa sa. Pe baza
unor observat ii asupra lui X,x1;x2;;xnvom estima parametrii populat iei m;.
Vom considera variabilele aleatoare de select ie repetat a de volum n, X1;X2;:::;Xna
caracteristicii Xdintr-o populat ie statistic a iar x1;x2;:::;xnsunt valorile observate ale
variabilelor de select ie.[2],[5]
Denit ia 1.4.1. •Numim media de select ie (de volum n) statistica X=1
nnP
i=1Xi
iar valoarea mediei de select ie pentru valori ale acestor variabile aleatoare este
media empiric a x=1
nnP
i=1xi.
•Numim dispersia de select ie (de volum n) statistica S2=1
n 1nP
i=1(Xi X)2iar
valoarea dispersiei de select ie pentru valori ale acestor variabile aleatoare este
dispersia empiric a s2=1
n 1nP
i=1(xi x)2.
Propozit ia 1.4.1. Dac aX1;X2;;Xnsunt variabile aleatoare de select ie iar Xv
N(m;)atunci avem:
•XvN
m;pn
;
16
•Z=X m
pnvN(0;1).
Remarca 1.4.1 .Dac aX1;X2;;Xnsunt variabile aleatoare de select ie de volum n
ce urmeaz a o repartit ie dat a atunci pentru n sucient de mare statistica Xsatisface:
XvN
m;pn
Propozit ia 1.4.2. FieXvN(m;)caracteristica unei populat i statistice atunci
statistica:
•2=1
2nP
i=1(Xi m)2v2(n 1);
•X m
Spnvt(n 1)undet(n 1)este repartit ia Student cu (n-1) grade de libertate
Se consider a o populat ie de volum N si un parametru al acestei populat i. Fie
X1;X2;;Xno select ie aleatoare dintr-un e santion reprezentativ n < N al populat iei
care ia valorile x1;x2;;xn.
Denit ia 1.4.2. Se nume ste un estimator al lui o statistic a ^X=^(X1;X2;;Xn)
cu ajutorul c areia dorim s a-l aproxim am pe . Dac ax1;x2;;xnsunt datele obser-
vate atunci hatX =^(x1;x2;;xn) se nume ste estimat ia a lui .
Denit ia 1.4.3. Un estimator ^se nume ste estimator nedeplasat pentru parametrul
dac a media estimatorului este chiar valoarea parametrului pe care estimeaz a ( m(^) =
astfel avem un estimator deplasat.
Denit ia 1.4.4. Dac a lim
n!1M(^) = 0;lim
n!1D(^) = 0 atunci ^este un estimator corect.
Teorema 1.4.3. Fiex1;x2;;xno select ie de valori ale variabilelor X1;X2;;Xn
independente si identic distribuite ca si X. Not amm=M(X)media teoretic a,
2=D2(X)dispersia teoretic a, X=1
nnP
i=1Ximedia de select ie, 2=1
nnP
i=1(Xi X)2
dispersia de select ie, S2=1
n 1nP
i=1(Xi X)2dispersia de select ie modicat a. Atunci
media de select ie X si dispersia de select ie S2sunt estimatori punctuali media, dis-
persia teoretic a. ^In plus avem:
1. media de select ie Xeste un estimator al lui m;
2. dispersia de select ie 2este un estimator al lui 2;
3. dispersia de select ie modicat a S2este un estimator al lui 2.
Metoda verosimilit at i maxime Se consider a caracteristica Xcu funct ia de
probabilitate f(X;);2Rpparametru necunoscut si o select ie repetat a de volum n
x1;;xn siX1;;Xnvariabile aleatoare de select ie de volum n.
Denit ia 1.4.5. Numim funct ia de verosimiliritate funct ia de select ie
L(X1;X2;;Xn;) =nY
i=1f(Xk;) (1.23)
17
Pentrux1;x2;;xnvom considera c a valoarea cea mai verosimil a este cea pentru
careL(x1;x2;;xn;) este maxim a. Maximul acestei funct ii este de fapt maximul
funct ieiH() = ln(L(x1;;xn;)). Maximul se obt ine ca o solut ie a ecuat iei de
verosimilitate sau a sistemului de verosimiliritate maxim a obt inute anul^ and derivatele
part iale ale funct iei ln L(x1;;xn) ^ n raport cu componentele lui :
@ln(L(x1;;xn;))
@j= 0;j=1;k (1.24)
Propozit ia 1.4.4. Estimat ie de verosimiliritate maxim a pentru parametrii repartit iei
normaleN(m;).
Solut ie: Legea de probabilitate pentru XvN(m;) este dat a de densitatea de pro-
babilitatef(x;m; ) =1
p
2e (x m)2
22. Parametrul de estimat este = (m;)2R2
funct ia de verosimiliritate va
L(x1;;xn;m;) =1
(2)n=2e 1
2nP
i=1(xi m)2
iar
H(m;) = lnL(x1;;xn;m;) = n
2ln n
2ln(2) 1
22nX
i=1(xi m)2
Ecuat ia de verosimiliritate este
8
><
>:@H(m;)
@m= 0
@H(m;)
@= 0
adic a 8
><
>:1
2nP
i=1(xi m) = 0
n
+1
3nP
i=1(xi m)2= 0
cu solut iile
^m=1
nnX
i=1xi= x
^=vuut1
nnX
i=1(xi x)2=s
Propozit ia 1.4.5. Estimat ie de verosimiliritate maxim a pentru parametriul pal repartit iei
binormaleb(n;p).
Solut ie: Consider am n observat ii x1;x2;;xnecare dintre ele av^ and valoarea 0
sau 1 dup a cum s-a ^ nregistrat succes sau insucces. Valoarea kn=P
i=1xireprezint a
num arul de succese ^ n n probe. Funct ia de verosimiliritate va
L(x1;;xn;p) =Ckn
npkn(1 p)n kn
18
avem
H(p) = lnL(x1;;xn;p) = lnCkn
n+knln(p) + (n kn) ln(1 p)
iar ecuat ia de verosimiliritate maxim a este
H0(p) =kn1
p (n kn)1
1 p= 0
cu solut ia
^p=kn
n=1
nnX
i=1xi= x
Propozit ia 1.4.6. Estimat ie de verosimiliritate maxim a pentru parametriul al repar-
tit iei Poisson.
Solut ie: Funct ia de verosimiliritate va
L(x1;;xn;) =e nnY
i=1xi
xi!;6= 0
avem
H() = lnL(x1;;xn;) = n+nX
i=1(xiln() ln(xi!))
se obt ine ecuat ia de verosimiliritate maxim a
H0() = n+1
nX
i=1xi= 0
cu solut ia ^= x.
1.4.2 Interval de^ ncredere pentru medie c^ and este cunoscut
Fie o select ie repetat a de volum n,X1;X2;;Xnce urmeaz a repartit ia lui X.
Denit ia 1.4.6. Se nume ste interval de ^ ncredere (CI) pentru parametrul cu proba-
bilitatea 1 un interval aleator ( ;) pentru care P(< < ) = 1 unde
(X1;;Xn);(X1;;Xn) sunt statistici iar parametrul se nume ste nivel de
semnicat ie si ia valorile 0.01,0.05,0.1.
Intervalul ( (x1;x2;;xn);(x1;x2;;xn)) se nume ste valoarea a intervalului de
^ ncredere pentru parametrul .[2, 4, 5]
Vom nota cu z1 =2cuantila de ordin valoarea pozitiv a a lui zobt inut a din
relat ia (z) = 1
2atunci intervalul de ^ ncredere pentru media teoretic a mc^ and
este cunoscut ( n30) avem
2
4x z
1
2pn;x+z
1
2pn3
5 (1.25)
19
Lungimea intervalului de ^ ncredere este o m asur a a precizei estim arii. Este pre-
ferabil s a obt inem un interval de ^ ncredere c^ at mai mic dar cu un nivel de ^ ncredere
adecvat.
Dac a pentru media teoretic a nu se precizeaz a o limit a superioar a atunci intervalul
de ^ ncredere este
x z1 pn;+1
Not am cuz1 valoarea obt inut a din relat ia ( z) = 1 .
Dac a pentru media teoretic a nu se precizeaz a o limit a inferioar a atunci intervalul
de ^ ncredere este
1;x+z1 pn
unde valoarrea z1 se obt ine din relat ia ( z) = 1 .
Dac a select ia de volum n se face dintr-o populat ie nit a de volum N unde n0:05N
atunci un interval de ^ ncredere pentru media populat iei este
2
4x z
1
2pnr
N n
N 1;x+z
1
2pnr
N n
N 13
5 (1.26)
1.4.3 Interval de ^ ncredere pentru medie ^ n cazul necunos-
cut
Avem o populat ie care admite o distribut ie normal a cu media m si2necunos-
cute. Fiex1;x2;;xnvalorile variabilelor de select ie X1;X2;;Xn. Putem calcula
media de select ie x=1
nnP
i=1xi si dispersia de select ie s2=1
n 1nP
i=1(xi x)2. Avem
statisticaT=X m
spncare urmeaz a legea Student cu n-1 grade de libertate T(n 1)
iartn;cuantila de ordin care se determin a din ecuat ia F(tn;) =P(Ttn;) =
tn;R
1f(x)dx= 1 undef(x) este densitatea de repart ie Student dar t1 ;n= t;n.
Atunci intervalul de ^ ncredere pentru media cu coecientul 100(1 )% este de forma
x tn 1;=2pn;x+tn 1;=2pn
(1.27)
1.4.4 Intervale de ^ ncredere pentru dispersie
Fie variabilele de select ie X1;X2;;XncuX2N(m;), mediamcunoscut a,
dispersia2necunoscut a. Statistica s2
n=1
nnP
i=1(xi m)2urmeaz a o distribut ie hi-
p atrat cungrade de libertate. Atunci intervalul de ^ ncredere este de forma:
ns2
n
2
1 =2;n;ns2
n
2
1 =2;n!
(1.28)
unde am notat cu 2
;ncuantila de ordin pentru repartit ia 2cu n grade de libertate.
20
Pentru estimarea punctual a a lui 2c^ and media este necunoscut a folosim statistica
s2denit a prin s2=1
n 1nP
i=1(xi m)2. Atunci intervalul de ^ ncredere pentru 2este:
(n 1)s2
2
1 =2;n 1;(n 1)s2
2
=2;n 1!
(1.29)
unde am notat cu 2
;n 1cuantila de ordin pentru repartit ia 2cu (n-1) grade de
libertate.
1.4.5 Interval de ^ ncredere pentru proport ie
Pentru o populat ie membri pot clasicat i ^ n funct ie de o anumit a caracteristic a
^ n dou a categorii: p probabilitatea de a apart ine unei categorii numit a succes iar 1-
p probabilitatea de a apart ine celeilalte categorii numit a e sec. Parametrul p poart a
denumirea de proport ia populat iei si ipotezele asupra lui p se fac num^ ar^ and succesele
X=nP
i=1XiundeXi:0 1
1 p p
. Pentru un volum n mare variabila X satisface
X npp
np(1 p)=^p pr
p(1 p)
nurmeaz a aproximativ o distribut ie normal a standard.
Deci intervalul de ^ ncredere pentru peste de forma
"
^p z1 =2r
^p(1 ^p)
n;^p+z1 =2r
^p(1 ^p)
n#
(1.30)
ValoareaE=z1 =2r
^p(1 ^p)
nse nume ste eroarea standard a proport iei.
Dac a select ia se realizeaz a dintr-o select ie nit a ( de volum N) atunci intervalul de
^ ncredere este
"
^p z1 =2r
^p(1 ^p)
nr
N n
N 1;^p+z1 =2r
^p(1 ^p)
nr
N n
N 1#
(1.31)
1.4.6 Intervale de ^ ncredere pentru diferent a a dou a medii ale
c aror dispersii sunt cunoscute
Fie dou a populat ii cu caracteristicile care urmeaz a o distribut ie normal a cu dis-
persii cunoscute si xI1;xI2;;xIn1o select ie de n1valori pentru variabile de select ie
XI1;XI2;;XIn1din prima populat ie respectiv xII1;xII2;;xIIn 2o select ie de n2
valori pentru variabile de select ie XII1;XII2;;XIIn 2din a doua populat ie. Un esti-
mator pentru diferent a mediilor m1 m2este diferent a dintre mediile statistice ale celor
dou a e santioane, X1 X2unde X1=1
n1n1P
i=1XIi siX2=1
n2n2P
i=1XIIi. Din propriet at ile
mediei si dispersiei deducem
M(X1 X2) =M(X1) M(X2) =m1 m2
D2(X1 X2) =D2(X1) D2(X2) =2
1
n1+2
2
n2
21
si mediile lor de select ie sunt ^X1=1
n1n1P
i=1X1;^X2=1
n2n2P
i=1X2
Teorema 1.4.7. Dac a1 si2sunt cunoscute atunci statistica
(X1 X2) (m1 m2)r
2
1
n1+2
2
n2
urmeaz a legea normal a standard. Obt im urm atorul interval de ^ ncredere pentru m1 m2
diferent a mediilor cu un nivel de ^ ncredere (1 )%
2
4x1 x2 z1 =2s
2
1
n1+2
2
n2;(x1 x2) +z1 =2s
2
1
n1+2
2
n23
5
unde x1=1
n1n1P
i=1xIi;x2=1
n2n2P
i=1xIIi.
1.4.7 Intervale de ^ ncredere pentru diferent a mediilor a dou a
populat ii ale c aror dispersii sunt necunoscute
Avem cazurile:
1. Dispersiile sunt necunoscute dar egale 2
1=2
2=2.
2. Dispersiile sunt necunoscute si diferite.
Cazul 1. Avem 2
1=2
2=2
Se consider a xI1;xI2;;xIn1o select ie de n1valori pentru variabile de select ie
XI1;XI2;;XIn1din prima populat ie respectiv xII1;xII2;;xIIn 2o select ie de n2
valori pentru variabile de select ie XII1;XII2;;XIIn 2din a doua populat ie. Fie
mediile de select ie barX 1=1
n1n1P
i=1XIi siX2=1
n2n2P
i=1XIIi si dispersiile de select ie
S2
1=1
n 1n1P
i=1(XIi X1)2;S2
2=1
n 1n2P
i=1(XIIi X2)2. Din propriet at ile mediei s
dispersiei deducem S2
p=n1 1
n1+n2 2S2
1+n2 1
n1+n2 2S2
2=S2
1+ (1 )S2
2unde
2(0;1) si depinde de dimensiunea e santioanelor n1;n2.
Teorema 1.4.8. StatisticaT=X1 X2 (m1 m2)
Spr1
n1+1
n2urmeaz a o distribut ie Student
cun1+n2 2grade de libertate.
Atunci intervalul de ^ ncredere pentru m1 m2cu un nivel de ^ ncredere 100(1 )%
este
x1 x2 t1 =2;n1+n2 2Spr
1
n1+1
n2;x1 x2+t1 =2;n1+n2 2Spr
1
n1+1
n2
(1.32)
Cazul 2.2
16=2
2
22
Teorema 1.4.9. StatisticaT=X1 X2 (m1 m2)r
S2
1
n1+S2
2
n2urmeaz a o distribut ie Student
cugrade de libertate unde =s2
1
n1+s2
2
n22
s2
1
n12
n1 1+s2
2
n22
n2 1se va rotunji prin lips a la cel mai
apropriat ^ ntreg.
Atunci intervalul de ^ ncredere pentru m1 m2cu un nivel de ^ ncredere 100(1 )%
este2
4x1 x2 t1 =2;s
S2
1
n1+S2
2
n2;x1 x2+t1 =2;s
S2
1
n1+S2
2
n23
5 (1.33)
1.4.8 Intervale de ^ ncredere pentru diferent a proport iilor a
dou a populat ii
Presupunem c a avem dou a e santioane de volum n1 sin2extrase din dou a populat ii
X1 siX2reprezent^ and num arul de observat ii care apart in unei clase care se studiaz a.
Presupunem c a aproxim am c a distribut ia binomial a cu distribut ia normal a iar estima-
tori proport iilor ^ p1=X1
n1;^p2=X2
n2urmeaz a o distribut ie normal a.
Teorema 1.4.10. StatisticaZ=^p1 ^p2 (p1 p2)r
p1(1 p1)
n1+p2(1 p2)
n2este distribuit a normal
standard atunci intervalul de ^ ncredere este de forma
2
64^p1 ^p2 z1 =2vuut^p1(1 ^p1)
n1+^p1(1 ^p1)
n1;^p1 ^p2+z1 =2vuut^p1(1 ^p1)
n1+^p1(1 ^p1)
n13
75(1.34)
23
Capitolul 2
Teste statistice
2.1 Teste statistice punerea problemei
Decizile se pot lua ^ n urma testelor statistice folosind datele experimentale culese.
Cu ajutorul acestor teste folosind datele de select ie putem conrma estim arile parame-
trilor ai unei repartit ,ii sau chiar putem prezice forma legii de repartit ,ie a caracteristicii
considerate.[2, 3, 4, 5]
Denit ia 2.1.1. Numim ipotez a statistic a o presupunere relativ a la valorile unui
parametru din legea de repartit ie cunoscut a sau la precizarea legii caracteristicii.
Denit ia 2.1.2. O ipotez a nul a este ipoteza cea mai apropiat a de realitate. O
ipotez a alternativ a este orice alt a ipotez a admisibil a cu care poate confrun-
tat a ipoteza nul a.
A testa o ipotez a statistic a trebuie s a lu am una dintre deciziile:
1.ipoteza nul a se admite (sau nu sunt motive pentru respingerea ei);
2.ipoteza nul a se respinge (caz ^ n care ipoteza alternativ a este admis a)
Denit ia 2.1.3. Numim nivel de semnicat ie probabilitatea de a respinge ipoteza
nul a c^ and de fapt, aceasta este adev arat a. Nivelul de semnicat ie are o valoare
pozitiv a apropiat a de 0, de exemplu: 0.01; 0.02; 0.05 etc.
^In urma unui test statistic pot aparea dou a tipuri de erori:
1. eroarea de spet a (I) este eroarea care se poate comite resping^ and o ipotez a (^ n
realitate) adev arat a. Avem P(H0se respingejH0este adev arat a)= :
2. eroarea de spet a a (II)-a este eroarea care se poate comite accept^ and o ipotez a (^ n
realitate) fals a. Probabilitatea acestei erori este P(H0se admitejH0este fals a)= .
Puterea testului este egal a cu 1 si reprezint a probabilitatea de a respinge ipoteza
nul a atunci c^ and este fals a.
Avem dou a tipuri de teste statistice: teste parametrice respectiv neparametrice.
Testele parametrice se refer a la ipoteze statistice ce privesc parametri statistici: media
sau dispersia respectiv parametri ce denesc repartit iile teoretice. Testele neparame-
trice se folosesc pentru studiul datelelor care nu sunt guvernate de repartit ia normal a
sau pentru comparat ia a dou a e santioane.
Tipul unui test statistic este dat de ipoteza alternativ a ( H1). Avem:
•test unilateral st^ anga atunci c^ and ipoteza alternativ a este < 0;
24
•test unilateral dreapta atunci c^ and ipoteza alternativ a este > 0;
•test bilateral atunci c^ and ipoteza alternativ a este 6=0.
Pentru a rezolva un test statistic vom avea nevoie de o regiune critic a. Pentru a
construi aceast a regiune critic a vom utiliza metoda intervalelor de^ ncredere. Dac a va-
loarea observat a se a
a ^ n regiunea critic a (adic a ^ n afara intervalului de ^ ncredere),
atunci respingem ipoteza nul a.
Etapele unui test parametric
•Fiex1;x2;;xno select ie aleatoare a caracteristici X. De obicei aceast a select ie
provine de la o repartit ie normal a. ^In caz contrar volumul select iei neste mai
mare dec^ at 30. Fie X1;X2;;Xnvariabilele aleatoare de select ie;
•Alegem o statistic a S(X1;X2;;Xn) care dup a acceptarea ipotezei ( H0),
aceasta are o repartit ie cunoscut a , independent de parametrul testat;
•Alegem un nivel de semnicat ie apropiat de 0. De regul a alegem valorile 0.01;
0.02; 0.05;
•G asim regiunea critic a Ucare este complementara intervalului de ^ ncredere;
valoarea critic aRegiunea critic a
Figura 2.1: Regiune critic a pentru test unilateral st^ anga
25
valoarea critic aRegiunea critic a
Figura 2.2: Regiune critic a pentru test unilateral dreapta
valoarea critic aRegiunea critic a
valoarea critic aRegiunea critic a
Figura 2.3: Regiune critic a pentru test bilateral
•Calcul am valoarea s0a statisticii S(X1;X2;;Xn) pentru select ia considerat a;
•Lu am decizia:
1. Dac as02Uatunci ipoteza nul a, ( H0), se respinge;
2. Dac as0=2U atunci ipoteza nul a, ( H0), se admite (mai bine zis, nu avem
motive s-o respingem p^ an a la efectuarea a unui test mai puternic).
26
2.2 Teste parametrice
Testul Z Vrem s a test am ipoteza:
H0:m=m0
H1:m6=m0
m0este constanta dat a.
Select iaX1;X2;;Xns-a f acut dintr-o populat ie distruit a normal cu media ne-
cunoscut a si abaterea mediei p atratice este cunoscut a. Deoarece Xeste distribuit a
normal cu media m0 si devierea standardpnputem construi o regiune critic a pe baza
datelor din e santion. Avem statistica Z=X m0
pn2N(0;1).
P(jZj)z) = 1 1 =P
m2
X zpn;+1
= (z) ( z) = 1 2( z)
Vom nota cu z=2valoarea pozitiv a din relat ia ( z) =
2sau (z) = 1
2. Dac a
pentru select ia avut a valoarea testului este Zcalc=x m0
pn=2[ z1 =2;z1 =2] ipoteza
H0este respins a. Regiunea critic a este ( 1; z1 =2)[(z1 =2;+1). Dac a valoarea
testului este Zcalc2[ z1 =2;z1 =2] nu avem motive s a respingem ipoteza H0.
Remarca 2.2.1 .1. Pentru ipoteza alternativ a H1:m < m 0regiunea critic a este
( 1; z) undezeste solut ia pozitiv a a ecuat iei ( z) =.
2. Pentru ipoteza alternativ a H1:m > m 0regiunea critic a este ( z;+1;) undez
este solut ia pozitiv a a ecuat iei ( z) = 1 .
Testul t Vrem s a test am ipoteza:
H0:m=m0
H1:m6=m0
m0este constanta dat a.
Select iaX1;X2;;Xns-a f acut dintr-o populat ie distruit a normal cu media necu-
noscut a si abaterea mediei p atratice este necunoscut a unde volumul select iei este n<
30. Atunci avem statistica T=X m0
spn2N(0;1) care urmeaz a o distribut ie Student
cu n-1 grade de libertate. Regiunea critic a este ( 1; t1 =2;n 1)[(t1 =2;n 1;+1).
Remarca 2.2.2 .1. Pentru ipoteza alternativ a H1:m < m 0regiunea critic a este
( 1; t1 ;n 1) undet1 ;n 1este solut ia pozitiv a a ecuat iei ( t;n 1) =.
2. Pentru ipoteza alternativ a H1:m > m 0regiunea critic a este ( t;n 1;+1;) unde
t1 ;n 1este solut ia pozitiv a a ecuat iei ( t1 ;n 1) = 1 .
Test asupra dispersiei
Select iaX1;X2;;Xns-a f acut dintr-o populat ie distruit a normal cu media m si
dispersia2.
Avem ipotezele
H0:2=2
0
H1:2=22
0
se folose ste statistica 2
0=(n 1)s2
2
022(n 1).
27
Se calculeaz a 2
0. Pentru(0;1) dat se determin a 2
1 =2;n 1;2
=2;n 1astfel ^ nc^ at
P(n 1)s2
22
1 =2;n 1
=
2;P(n 1)s2
22
=2;n 1
=
2
Deci ipoteza H0va aceptat a dac a avem 2
0>=2;n 1 si2
0< 1 =2;n 1.
Test pentru proport ie ^ ntr-o populat ie binomial a
FieXo caracteristic a binomial a a unei colectivit at i, cu probabilitatea de succes
p. Pe baza unor select ii ale populat iei, dorim s a test am urm atoarea ipotez a asupra
luip:
1. (H0) :p=p0
2 (H1) :p6=p0(p<p 0p>p 0).
Fix am un nivel de semnicat ie . Vom construi testul pentru proport ia populat iei
astfel:
•Pe baza select iei, calcul am proport ia de select ie ^ pcare este o estimare a proport iei
populat ieip;
•Calcul am valoarea p0=^p p0r
p0(1 p0)
n;
•Calcul am cuantila z1 =2;
•Dac aP02( z1 =2;z1 =2) admitem ipoteza nul a la acest nivel de semnicat ie
altfel o respingem.
Test de comparat ie a mediilor (e santioane independente)
Fie dou a e santioane, unul de volum m asupra variabilei X si altul de volum n
asupra variabilei Y, sunt repartizate normal av^ and aceea si dispersie 2necunoscut a.
Se consider a c a e santioanele sunt independente iar ipotezele de lucru sunt:
H0:X=Y; X=Y=;
H1:X6=Y; X=Y=;
Avem statistica T=r
mn(m+n 2)
m+nX Y
m2+n2care se supune unei distribut ii
Student cu m+n 2 grade de libertate.
Test de comparat ie a mediilor (e santioane dependente)
Fie dou a variabile aleatoare X,Y corespunz atoare aceluia si lot de n indivizi. Avem
setul de observat ii ( xi;yi);i= 1;2;:::n dependente. Suntem interesat i de compararea
mediilor celor dou a variabile, problema ce poate redus a prin introducerea variabilei
Z=X Y, la compararea mediei acestuia cu zero. Avem ipotezele de lucru:
H0:Z= 0;
H1:Z6= 0;
Am redus problema la testul de comparat ie al unei medii cu 0 valoare dat]ua ^ n
cazul dispersiei necunoscute, folosind astfel statistica Student cu n-1 grade de libertate.
Test de comparat ie a dispersiilor (variabile independente)
Fie dou a e santioane, unul de volum m asupra variabilei X si altul de volum n asupra
variabilei Y independent care sunt repartizate normal. Se consider a c a ipotezele de
lucru sunt:
28
H0:X=Y;
H1:X6=Y;
Avem statistica W=n 1
m 1m
n2
X
2
Ycare se supune unei distribut ii Fisher cu
(m 1;n 1) grade de libertate.
Test de omogenitate a mediilor
FieX1;X2;;Xkvariabile repartizate normal av^ and mediile i si dispersiile i.
Consider am un e santioan de volum ni;i= 1;2;:::;k pentru ecare variabil a, suma
e santioanelor este n.
Not am cu Xmedia ponderat a a mediilor de sondaj Xi;i= 1;2;:::;k si consider am
ipotezele de lucru:
H0:i=;
H1:i6=cu condit ia c a dispersiile s a e egale.
Avem statistica F=(n k)kP
i=1ni(Xi X)
(k 1)kP
i=1ni2
icare va urma o repartit ie Fisher cu
(k 1;n k) grade de libertate.
2.3 Teste neparametrice
Vom prezenta ^ n continuare cele mai cunoscute teste neparametrice [3, 4, 5].
Testul2de concordant a Acest test de concordant a poate utilizat ca un
criteriu de vericare a ipotezei potrivit c aruia un set de observat ii urmeaz a o repartit ie
dat a. Testul este numit 2al lui Pearson.
Etapele aplic arii testului 2de concordant a neparametric:
•Fie setul de observat ii x1;x2;;xn si intuimF(x;1;;p);
•Formul am ipotezele statistice:
1.H0funct ia de repartit ie teoretic a a variabilei aleatoare este F(x;1;;p);
2.H1ipoteza nul a nu este adev arat a;
•scriem tabelul de frecvent e pe clase Oi;
•se determin a probabilitatea pica un element luat la ^ nt^ amplare s a se a
e ^ n clasa
Oi= [ai 1;ai] atuncipi=F(ai;) F(ai 1;) apoi se veric a dac a npi5
altfel se reorganizeaz a clasele.
•se calculeaz a statistica 2
0=kP
i=1(ni np2
i)
npi;
•determin am valoarea pragului teoretic care este=2
1 ;k 1unde2
;neste
cuantila de ordin pentru repartit ia 2(n);
•2
0<atunci accept am H0astfel o respingem.
29
Testul de concordant a Kolmogorov-Smimov
Testul de concordant a Kolmogorov-Smirnov poate utilizat ^ n compararea unor
observat ii date cu o repartit ,ie cunoscut a.Criteriul Kolmogorov-Smirnov utilizeaz a funct ,ia
de repartit ,ie empiric a. Testul Kolmogorov-Smirnov este bazat pe rezultatul teoremei
urmatoare:
Teorema 2.3.1. (Kolmogorov) Fie caracteristica Xde tip continuu care are funct ia
de repartit ie teoretic a F si funct ia de repartit ie de select ie F
natunci distant a dn=
sup
x2RjF
n(x) F(x)jsatisface relat ia
lim
n!1P(pndn<x) =K(x) =1X
k= 1( 1)ke 2k2x2;x> 0 (2.1)
Etapele aplic arii testului Kolmogorov Smirnov pentro select ie:
•Fie setul de observat ii x1;x2;;xn si intuimF(x);
•Formul am ipotezele statistice:
1.H0funct ia de repartit ie teoretic a a variabilei aleatoare XesteF(x);
2.H1ipoteza nul a nu este adev arat a;
•calcul am1 cuantila de ordin 1 pentru funct ia lui Kolmogorov care veric a
relat iaK(1 ) = 1 ;
•determin am valoarea dn= sup
x2RjF
n(x) F(x)j;
•dac adnsatisface inegalitateapndn< 1 atunci accept am H0astfel o respin-
gem.
Test de independent a
^In general datele observate sunt clasicate ^ n categorii Xi;i= 1;:::r ce depind de
atribute diferite Yj;j= 1;:::scare ne conduce la formarea tabelului de contingent a[5]
XnYY1Y2YjYnSuma pe linie
X1n11n12n1jn1sn1
………………
Xini1ni2nijnisni
………………
Xrnr1nr2nrjnrsnr
Suma pe coloan a n1n2njnsnsuma totala
Tabela 2.1: Tabel de contingent a
unde
•nij;i= 1r;j= 1sfrecvent absolut a de observat ii pentru categoria Xice
are atributul Yj;
•avemnj=rP
i=1nij;ni=sP
j=1nij;n=rP
i=1ni=sP
j=1nj;
30
•ecare individ poate s a apart in a doar uneia dintre cele rscelule
Etapele testului de independent a sunt:
•Avem denit tabelul de contingent a si pragul de semnicat ie;
•Calcul am estimat iile ^ pi=ni
n;i= 1rrespectiv ^pj=nj
n;j= 1s;
•Calcul amH2cu formula H2=P
i;j
nij ninj
n2
ninj
n;
•Eij=ninj
n5;H22
1 ;(r 1)(s 1)atunci se admite ipoteza nul a H0nu
exist a nici o asociere ^ ntre categoria X si atributul Yaltfel respingem ( H0) la
acest prag de semnicat ie.
Testul Shapiro-Wilk Testul pentru studiul normalit at ii uneu variabile alea-
toare mai puternic dec^ at destul 2este testul Shapiro-Wilk.[4]
Etapele principale de aplicare a acestui test sunt:
•Se ordoneaz a cresc ator cele n observat ii fx1;x2;;xng;
•Se consider a statistica Z2=nP
i=1(Xi X)2;
•Se determin a k=n=2 sauk= (n 1)=2 dup a cum neste par sau impar apoi se
determin a diferent ele d1=xn x1;:::;di=xn i+1 xi;
•Se calculeaz a b=kP
i=1aidiunde coecient i aisunt tabelat i
(http://www.real-statistics.com/statistics-tables/shapiro-wilk-table/ );
•Se consider a statistica W=b2
Z2de unde vom determina valoarea acestei statistici
pentru e santionul dat;
•Se decide semnicat ia pentru Wcu ajutorul tabelului Shapiro-Wilk adic a ipoteza
de normalitate este respins a dac a valoarea probabilit at ii Weste mai mic a dec^ at
valoarea nivelului de semnicat ie.
31
Capitolul 3
Corelat ia si regresia
3.1 Corelat ia
Corelat ia este un termen statistic pentru a deni leg atura ^ ntre dou a sau mai
multe variabile aleatoare. Pentru a ilustra leg atura dintre dou a variabile putem utiliza
reprezentarea grac a cu ajutorul diagramei scatter plot.[4, 5]
FieX;Y variabile aleatoare ce admit media atunci corelat ia dintre X siYse
dene ste prin
cov(X;Y ) =M(XY) M(X)M(Y) (3.1)
Remarca 3.1.1 . •FieX;Y variabile aleatoare independente atunci cov(X;Y ) = 0
reciproca este ^ n general fals a;
•FieX;Y variabile aleatoare repartizate normal atunci ele sunt independente dac a
si numai dac a cov(X;Y ) = 0;
Denim coecientul de corelat ie care este o m asur a a corelat iei dintre cele dou a
variabile
=cov(X;Y )
XY=cov(X;Y) (3.2)
unde X;Ysunt variabile aleatoare standardizate iar X;Ysunt deviat iile standard
corespunz atoare variabilelor X, respectivY.
Remarca 3.1.2 . •Observ am c a 2[ 1;1];
•Dac a>0 atunci variabile X;Y cresc (descresc) ^ n acela si timp;
•Dac a <0 atunci avem c a variabila Xcre ste (scade) iar variabila Ydescre ste
(cres ste) ^ n acela si timp;
•Dac aX;Y sunt variabilele independente. X;Y= 0.
Fie setul de observat ii xi;yi;i= 1;2;;nasupra vectorului aleator ( X;Y ). O
m asur a a leg aturii dintre variabilele X;Y este dat de coecientul de corelat ie Pearson
denit de formula:
r=nP
i=1(xi x)(yi y)
rnP
i=1(xi x)2rnP
i=1(yi y)2=cove(x;y)
sxsy(3.3)
32
unde avem corelat ia empiric a cove(X;Y ) =1
n 1nP
i=1(xi x)(yi y) iar deviat ia stan-
dard modicat a sX=s
1
n 1kP
i=1(xi x)2respectivsY=s
1
n 1kP
i=1(yi y)2.
^In cazul datelor calitative unde nu se pot asocia valori numerice pentru caracteristici
calitative atunci coecientul de corelat ie Pearson nu mai poate calculat. Coecientul
de corelat ie Spearman poate determinat at^ at la variabile calitative c^ at si la variabile
cantitative. Fiec arei valore calitative i se aloc a un rang atunci coecientul lui Spearman
este de fapt coecientul lui Pearson pentru aceste ranguri. ^In cazul ^ n care avem n
perechi de observat ii si nu exist a valori egale pentru rangurile acelea si variabile, atunci
formula alternativ a este denit a astfel
rS= 1 6nP
i=1d2
i
n(n2 1)(3.4)
undedi=x
i y
idiferent a dintre rangurile corespunz atoare pentru pozit ia i. Putem
aplica un test statistic pentru coecientul de corelat ie Pearson astfel:
•Fie setul de date ( xk;yk)k= 1;2;:::;n ;
•Avem ipoteza nul a H0:X;Y= 0 (variabilele aleatoare nu sunt corelate);
•Avem ipoteza alternativ a H1:X;Y6= 0 (variabilele aleatoare sunt corelate) unde
nivelul de semnicat ie este iar statistica folosit a este T=rr
n 2
1 r2care este
o distribut ie student cu n-2 grade de libertate.
•Determin valoarea statisticii T0pentrur0coecientul Pearson obt inut pentru
setul de date dat si cuantila t1 =2;n 2de ordin 1 =2 corespunz ator repartit iei
Student cu n 2 grade de libertate;
•Avem urm atoarele decizii:
1. Dac ajT0j<t1 =2;n 2ipotezaH0este aceptat a;
2. Dac ajT0jt1 =2;n 2ipotezaH0este respins a.
Putem considera cuplurile de observat ii ( xi;yi);i= 1;:::;n care pot reprezentate
grac form^ and astfel norul de puncte. Aceast a reprezentare grac a poart a numele de
diagrama de ^ mpr a stiere ilustr^ and vizual leg aturile dintre cele dou a statistici.
Figura 3.1: Diagrama de ^ mpr a stiere
33
Fie setul de date f(xi;yi)g;i=1;nrezultate din observat iile asupra variabilelor
X,Y. Denim o concordant a ^ ntre perechile ( xi;yi);(xj;yj) dac a avem xi>xj;yi>yj
sauxi< xj;yi< yj^ n acela si timp altfel spunem c a nu avem concordant e. Dac a
xi=xjsauyi=yjatunci nu sunt ^ n concordant a nici ^ n concordant a. Coecientul de
corelat ie Kendall este denit prin:
=2
n(n 1)X
i<jsign(xi xj)sign(yi yj) (3.5)
3.2 Regresia liniar a
Regresia este o metod a statistic a pentru descrierea naturii relat iei^ ntre variabile. ^In
cazul a dou a variabile pentru care exist a o leg atur a liniar a vom avea variabila predictor
(variabila independent a) si variabila r aspuns (variabila dependent a). Leg atura liniar a
dintre cele dou a variabile este descris a de o ecuat ie liniar a numit a ecuat ia de regresie
c areia ^ i corespunde curba de regresie.
Se stabile ste leg atura ^ ntre variabilele independente x1;;xn si variabilele depen-
dentey1;;ynprin ecuat iile:
yi=f(x1;x2;;xn;1;;n) +"i; i= 1;:::;n (3.6)
unde"isunt variabile aleatoare repartizate N(0;) iar1;2;;nparametri regre-
siei.
^In funct ie de forma funct iei de regresie putem avea:
•regresia liniar a simpl a f(x; 1;2) =1+2x;
•regresia exponent ial a f(x; 1;2) =12x;
•regresia logaritmic a f(x; 1;2) =1log2x;
•regresia logistic a f(x; 1;2) =1
1 +e1+2x;
•regresia polinomial a f(x; 1;2;;n) =0+1x++nxn.
Fie datele bidimensionale ( xi;yi);i= 1;2;:::;n pentru variabilele yrespectivx.
Dac a reprezent am grac se va observa dependent a variabile ydex. Vom estima
parametri1;2prim minimizarea (Metoda celor mai mici p atrate Mcmmp) expresiei
min
1;2nP
i=1(yi 1 2xi)2. Not am cu F(1;2) =nP
i=1(yi 1 2xi)2(care este suma
p atratelor erorilor). Din condit iile de extrem deducem
8
><
>:@F
@1= 0
@F
@2= 0,8
><
>:2nP
i=1(yi 1 2xi)( 1) = 0
2nP
i=1(yi a 1 2xi)( xi) = 0
care admite solut iile
2=cov(x;y)
2
x;1=bar(y) 2bar(x)
34
unde x=mean (x);y=mean (y) si2
xdispesia.
Dreapta de regresie y=1+2xeste acea dreapt a ce trece prin norul de puncte for-
mat de perechile de date ale celor dou a variabile si care minimizeaz a distant a^ ntre date
si ea. Coecientul 2este coecientul de regresie corespunz ator (panta). Distant ele
dintre punctele observate ( xi;yi) si punctele de pe dreapta de regresie ( xi;a+bxi) se
numesc reziduuri.
Regresia liniar a poate utilizat a dac a sunt ^ ndeplinite simultan urm atoarele ipo-
teze:
•valorile variabilei dependente trebuie s a aib a o repartit ie normal a;
•variabilitatea variabilelor s a e asem an atoare;
•leg atura dintre variabile s a e liniar a (vericare empiric a pe baza norului de
puncte care trebuie s a aib a o form a alungit a)
Aceste ipoteze sunt ^ ndeplinite simultan dac a reziduurile sunt normal repartizate
de medie zero.
Coecient i dreptei de regresie se mai pot determina astfel:
Remarca 3.2.1 .De fapt avem de rezolvat ecut ia matricial a
0
BBB@y1
y2
…
yn1
CCCA
|{z}
Y=0
BBB@1×1
1×2
……
1xn1
CCCA
|{z}
X1
2
unde matricea Xare rangul 2, iar X0este transpusa matricei Xrespectiv
R=X0Xeste inversabil a atunci avem
1
2
=R 1X0Y
Test statistic pentru panta dreptei
Avem ipoteza nul a H0:2=datrespectiv ipoteza alternativ a H1:26=dat.
Consider am statistica T=^2 dats
^2
sxxcare urmeaz a repartit ia t(n-2). Calcul am valoarea
testuluiT0, cuantila de ordin 1
2pentru repartit ia t cu n-2. Dac a jT0j< t
1
2;n 2
ipoteza nul a se acept a respectiv dac a jT0jt
1
2;n 2ipoteza nul a se respinge.
Ecuat ia dreptei de regresie determinat a pe baza datelor cunoscute poate folosit a
^ n prognoz a ^ n sensul c a d^ and valori noi variabilei predictoare putem obt ine informat ii
despre variabila prognozat a.
Presupunem c a X siYsunt dou a variabile pentru care se dore ste s a determin am o
relat ie liniar a de forma Y=1+2X+". Avem cele n observat ii ( xi;yi);i= 1;2;:::;n .
Pe baza acestor date se poate aproxima dreapta de regresie liniar a astfel Y=^1+^2X
unde ^2=sxy
sxx;^1= y ^2xunde avem x=1
nnP
i=1xi;y=1
n;nP
i=1yi; sxy=nP
i=1(xi
35
x)(yi y). Modelul de regresie liniar este valid dac a coecientul de determinare R2
are valori aproape de 1. Coecientul R2admite expresia
R2= 1 SSE
SST(3.7)
undeSSE =nP
i=1(yi ^1 ^2xi)2respectivSST =nP
i=1(yi y)2.
Bine^ nt eles c a validarea modelului de regresie liniar a se poate deduce e din dia-
grama scatter plot a datelor observate sau folosim comenzi Octave pentru ilustrarea
normalit at ilor reziduurilor.
Avem cazuri ^ n care leg atura dintre variabile nu este liniar a adic a variabila de-
pendent a este o combinat iei neliniar a a variabilelor independente atunci spunem c a
avem regresie neliniar a. Dac a Xeste variabila predictoare iar Yeste variabila prog-
nozat a atunci folosind regresia polinomial a va furniza ecuat ia de regresie (polinomul
de regresie) de forma Y=a0+a1X++anXn.
Presupunem c a datele existente satisfac ecuat iile
yi=a0+a1x+i++akxk
i+"i; i= 1;:::;k:
unde"isunt erorile corespunz atoare modelului. Aceste ecuat ii ne conduc la ecuat ia
matriceal a
Y=Xa+" (3.8)
Metoda celor mai mici p atrate const a ^ n a
area parametrilor a0;a1;;akpentru
care minimizeaz a p atratele erorilor adic a minimizeaz a expresia
S(a0;a1;:::;ak) =vuutnX
i=1(yi a0 a1xi akxk
i)2
Rangul matricei X=0
BBB@1×1xk
1
1×2xk
2………
1xkxk
k1
CCCAeste k atunci matricea X0Xeste inver-
sabil a iar din relat ia Y=XaundeY=0
BBB@y1
y2
…
yk1
CCCArespectiva=0
BBB@a0
a1
…
ak1
CCCAdeducem c a
a= (X0X) 1X0Y
36
Capitolul 4
Analiza riscului
Analiza riscului este de fapt o utilizare sistematic a a informat iilor disponibile pentru
a identica pericole si pentru a estima riscul asupra populat iei. Vom folosi diverse
indicatori statistici si teste statice pentru analiza riscului.[4]
4.1 Not iuni fundamentale
Denit ia 4.1.1. O cauz a ipotetic a ce determin a cre sterea probabilit at ii ca un individ
s an atos s a dezvolte o anumit a boal a reprezint a un factor de risc.
Factori de risc depind de:
•factori de mediu: factori poluant i, toxine, microorganisme infect ioase etc.;
•factori comportamentali (obiceiuri): fumat, alcool, droguri, nerespectarea m asurilor
de protect ie a muncii, sedentarism etc.;
•factori sociali: evenimente familiare tragice, divort , pierderea serviciului etc.;
•factori genetici: hipercolesterolemie etc.
Datele din analiza riscului se prezint a sub forma unui tabel de contingent a, cu dou a
linii si dou a coloane ^ n care ^ ntregul lot de N indivizi este ^ mp art it ^ n dou a categorii.
Din ecare categorie se studiaz a dac a interact ioneaz a la un anumit factor de risc.
Studiile observat ionale se ^ mpart ^ n:
•studii desf a surate"la un moment dat" care se mai nume ste si studiu de prevalent a
si se bazeaz a fotograerea unei situat ii la un moment dat, iar estimarea prevalent ei
este in
uent at a ^ n cazul evolut iilor rapide;
•studii care acoper a un interval larg de timp care pot :
– studii pe cohort a , ^ n care denim dou a grupe de lucru (un grup va cuprinde
indivizii care sunt expu si la act iunea factorului de risc , iar cel alalt cuprinde
indivizi ne-expu si), loturile sunt urm arite ^ n timp, pornind din momentul
denirii lor, se identic a aparit ia afect iunii ^ n ambele loturi ind concepute
pentru a culege rezultatele ^ ntr-un moment din viitor.
37
– studii"case-control", ^ n care grupul analizat cuprinde"cazurile" ^ n care a
ap arut boala si investig am ^ n care din aceste cazuri a existat o expunere la
factorul de risc (deci urm arim ^ n sens invers temporal) si identic am apoi
prezent a/absent a factorului de risc si pentru un grup martor. Datele culese
^ n studiile case-control nu pot folosite pentru orice tip de prelucr ari.
4.2 Indici din analiza riscului
Prelevant a unei boli ^ ntr-o populat ie este proport ia din populat ia respectiv a av^ and
boala la un moment dat
Prv(B;t) =num arul indivizilor av^ and boala B
num arul populat ,iei(4.1)
Incident a unei boli este num arul de cazuri ce apar ^ ntr-un interval t(t1;t2) ^ ntr-o
populat ie cu risc. Ea poate exprimat a prin:
•
CI=num arul cazurilor noi ^ n unitatea de timp t
num arul populat ,iei cu risc(4.2)
•densitatea de incident a (numit a si rata de incident a): este dat a de num arul de
cazuri noi ce apar ^ ntr-un interval t^ ntr-o populat ie cu risc, studiat a pe diverse
perioade de timp. Pe o perioad a ^ ndelungat a, din lotul init ial (tip cohort a) se
pierd o serie de persoane din diverse motive (se mut a, mor din alte motive,
nu continu a tratamentul etc.). De aceea, cei care nu au fost prezent i ^ ntreaga
perioad a nu se scot din studiu ci vor luat i ^ n considerare numai ^ n m asura ^ n
care situat ia lor a fost cunoscut a.
Rata de morbiditate (Mrb): este incident a unei boli ^ ntr-o populat ie, ^ ntr-un anumit
interval de timp (adesea 1 an).
Rata de mortalitate: enumer a cazurile de deces dintr-o populat ie, ^ ntr-un anumit
interval de timp; se utilizeaz a:
•rata de mortalitate general a: din orice cauz a;
•rata de mortalitate specic a pe cauze;
•rata brut a de mortalitate: fat a de ^ ntreaga populat ie;
•rata de mortalitate specic a pe categorii: separat, pe anumite subgrupe de
populat ie;
•rata de mortalitate pe grupe de v^ arst a;
38
B+ B-
E+N11N12L1
E-N21N22L2
C1C2N
Tabela 4.1: Prezentarea schematic a a unui studiu pentru analiza unei boli
unde avem
•B+ prezint a boala;
•B- nu prezint a boala;
•E+ expu si la factorul de risc;
•E- ne-expu si la factorul de risc.
Riscul absolut reprezint a probabilitatea (rata) de aparit ie a bolii. Vom avea, pentru
lotul de expu si, respectiv pentru ne-expu si rapoartele:
R(E+) =N11=L1; R(E ) =N21=L2 (4.3)
Riscul relativ este raportul ^ ntre riscul absolut pentru lotul de expu si, fat a de cel
pentru lotul de ne-expu si si reprezint a probabilitatea de aparit ie a afect iunii la cei
expu si fat a de probabilitatea de aparit ie a afect iunii la cei neexpu si la factorul de risc.
RR=R(E+)=R(E ) =N11=L1
N21=L2(4.4)
Remarca 4.2.1 .Dac a riscul relativ are valoarea RR t1 putem spune c a factorul
analizat nu reprezint a un factor de risc, probabilitatea de aparit ie a afect iunii ind la
fel de mare si la lotul neexpus factorului de risc.
Indicele \odd" exprim a raportul"succes / e sec" si poate denit cu probabilit at i
astfel:
O=p(even. s a apar a) =p(even. s a nu apar a) (4.5)
Din tabelul a sat deducem O(B+=E+) =N11=N12respectivO(B+=E ) =N21=N22.
OR – Raportul odds ("odds ratio"): este raportul indicelui"odd" pentru grupul
expus fat a de cel neexpus la factorul de risc:
OR=O(B+=E+)
O(B+=E )=N11=N12
N12=N22=N11N22
N12N21(4.6)
Vom construi o distribut ie teoretic a astfel ^ nc^ at totalurile pe linii ( Li) si coloane
(Cj) sunt acelea si ca ^ n cazul distrubut iei experimentale. Valorile teoretice Tij=
LiCj
N. Vom compara cele dou a distribut ii cea experimental a respectiv cea teoretic a
cu ajutorul testului statistic ^ n care avem ipoteza nul a H0: diferent ele dintre cele
dou a distribut ii nu sunt semnicative adic a Nij=Tij. Testul recomandat este 2
unde statisca calculat a este 2
calc=P
i;j(Nij Tij)2
Tijav^ and= (r 1)(c 1) grade de
libertate (r este num arul de lini, c este num arul de coloane). Dac a avem 2
calc> 2
tab
atunci ipoteza nul a se va respinge adic a datelor vor semnicative.
39
Capitolul 5
Studii de caz
^In acest capitol voi prezenta cu ajutorul programului Octave probleme practice
utilizate ^ n statistica medical a. Acest program se poate desc arca gratuit de pe site-ul
https://www.gnu.org/software/octave/. Acest program este free. ^In acest program
avem comenzi pentru funct ii statistice a
e ^ n pachetul statistics (se va scrie comanda
pkg load statistics). La ora actual a a ap arut si versiunea online (https://octave-
online.net/) care nu necesit a instalarea programului pe calculatorului utilizatorului.
Elementul de baz a ^ n programul Octave este matricea (numerele reale sunt de fapt
matrice de ordinul 1 1).[3, 4, 5]
5.1 Reprezentarea grac a a datelor statistice
Aplicat ia 1 Avem mai jos datele negrupate ce reprezint a notele ( se noteaz a note
de la 1 la 10) obt inute de cei 20 de elevi la un concurs pe teme medicale.
4 3 5 7 5 9 6 4 8 6 9 7 8 6 7 10 8 9 5 9.
Prima dat a vom ordona cresc ator aceste date numerice. Pentru acesta vom deni
matricea linie A= [4;3;5;7;5;9;6;4;8;6;9;7;10;8;9;5;9] iar prin comanda sort vom
ordona cresc ator elementele matricei. Folosind comanda tabulate(A) (se va ^ nc arca
pachetul statistics) obt inem datele init iale aranjate ^ n tabel.
A= [1,2,3,5,7,5,9,6,4,6,9,7,10,8,9,5,9,8,3,5];
B=sort(A);
pkg load statistics
tabulate(B)
bin Fa Fr% Fc
1 1 5.00% 1
2 1 5.00% 2
3 2 10.00% 4
4 1 5.00% 5
5 4 20.00% 9
6 2 10.00% 11
7 2 10.00% 13
8 2 10.00% 15
9 4 20.00% 19
10 1 5.00% 20
unde
40
•prima coloan a sunt notele ordonate cresc ator;
•coloana a doua reprezint a frecvent ele absolute pentru ecare not a;
•coloana a treia reprezint a frecvent ele relative pentru ecare not a (procentul);
•coloana a patra reprezint a frecvent ele cumulate cresc ator pentru ecare not a .
Vom reprezenta grac aceste date cu ajutorul diagramei circulare. Vom utiliza co-
manda pie ce admite sintaxa {pie(v)} undeveste vectorul cu procentele datelor
date.
C=tabulate(B);
pie(C(:,3))
Figura 5.1: Reprezentarea datelor cu ajutorul diagramei circulare
Vom reprezenta grac aceste date cu ajutorul barelor verticale. Vom utiliza co-
manda bar ce admite sintaxa bar(x,y)unde yeste vectorul cu frecvent ele absolute
corespunz ator datelor statistice denite de vectorul x.
bar(C(:,1),C(:,2))
41
Figura 5.2: Reprezentarea datelor cu ajutorul barelor verticale
Aplicat ia 2 Datele de mai jos reprezint a valorile colesterolului la 40 de pacient i:
133;152;158;181;197;165;261;219;135;216;146;
236;225;153;172;144;186;193;161;137;231;173;
180;213;165;195;183;134;188;257;203;232;287;
210;230;89;180;128;184;123:
Vom determina histograma acestor date si poligonul frecvent elor absolute.
x=[133,152,158,181,197,165,261,219,135,216,146,…
236,225,153,172,144,186,193,161,137,231,173,…
180,213,165,195,183,134,188,257,203,232,287,…
210,230,89,180,128,184,123];
M=max(x);m=min(x);h=(M-m)/6;
i=1:7;y=m+(i-1)*h;
for j=1:6
n(j)=length(find((y(j)<=x)&(x<y(j+1))));
endfor
for k=1:6
z(k)=(y(k)+y(k+1))/2;
endfor
hold on, bar(z,n,'hist'),plot(t1,t2,'–b'),hold off
42
Figura 5.3: Reprezentarea grac a a datelor cu ajutorul histogramei si a poligonului de
frecvent e absolute
Datele negrupate se pot forma pe clase cu comanda tabulate(x,y)
bin Fa Fr% Fc
89 1 2.50% 1
122 10 25.00% 11
155 12 30.00% 23
188 9 22.50% 32
221 5 12.50% 37
254 3 7.50% 40
Aplicat ia 3 Fie datele ce reprezint a greutatea pentru 40 de elevi av^ and probleme
de obezitate
87;64;99;70;64;55;89;65;62;38;67;70;60;69;78;39;75;56;71;:::
51;99;68;95;86;57;53;47;81;50;98;5580;70;79;66;36;51;63;85;83
Diagrama de tipul boxplot ne descrie cinci m asuri statistice: mediana, prima si a
treia cuartil a, valoarea maxim a si minim a. Realizarea acestei reprezent ari grace se
realizeaz a cu comanda boxplot ce admite sintaxa boxplot(x) undexeste vectorul
linie format cu datele statistice date (este de preferat ca datele statistice s a e ordonate
cresc ator).
x=[87,64,99,70,64,55,89,65,62,38,67,70,60,69,78,39,75,56,71,51,99,…
68,95,86,57,53,47,81,50,98,55,80,70,79,66,36,51,63,85,83];
y=sort(x);
boxplot(y)
de unde obt inem reprezentarea grac a
43
Figura 5.4: Reprezentarea grac a a datelor statistice cu diagrama boxplot
5.2 Indicatori statistici
^In Octave avem urm atoarele comenzi pentru calcul indicatorilor statistici pentru
seria statistic a dat a (^ n Octave vom nota cu xmatricea linie format a cu valorile nu-
merice ale seriei statistice X):
•range(x) determin a amplitudinea seriei seriei statistice;
•mean(x) determin a valoarea mediei (media aritmetic a) a seriei statistice;
•var(x) determin a valoarea dispersiei a seriei statistice;
•std(x) determin a valoarea abaterii mediei p atratice standard;
•median(x) determin a valoarea medianei a seriei statistice;
•quantile(x,p) determin a cuantila de ordin p(p2f0:25;0:5;0:75g);
•skewness(x) determin a coecientul de asimetrie a seriei statistice;
•kurtosis(x) determin a coecientul de boltire a seriei statistice.
Aplicat ia 1. Urm atoarele date reprezint a valoarea gliciemiei m asurate pe un
e santion de 20 de copiii cu v^ arsta cuprins a ^ ntre 5-14 ani.
113;60;430;130;79;405;90;100;175;100;111;380;68;122;125;75;150;89;100;70
Vom calcula cu ajutorul programului Octave indicatori statistici pentru aceast a serie
statistic a.
Am creat funct ia indsta care ne determin a indicatori statistici ai seriei adic a: am-
plitudinea, media, dispersia, abateria mediei p atratice standard, mediana, quantilele
44
de ordin 0.25, respectiv 0.75, coecientul de asimetrie si coecientul de boltire a seriei
statistice.
Funct ia indsta am denit-o astfel ^ n Octave
function y = indsta (x)
printf('Indicatori statistici ai seriei date\n');
z=sort(x);
k1=range(z);
printf('amplitudinea =%4.1f\n',k1);
k2=mean(z);
printf('media =%5.3f\n',k2);
k3=median(z);
printf('mediana =%6.3f\n',k3);
k4=quantile(z,0.25);
printf('Quantila Q1 =%6.3f\n',k4);
k5=quantile(z,0.75);
printf('Quantila Q3 =%6.3f\n',k5);
d=k5-k4;
printf('distanta quartilica =%6.3f\n',d);
v1=var(z);
printf('dispersia=%6.3f\n',v1);
v2=std(z);
printf('abaterea mediei patratice standard=%6.3f\n',v2);
k6=skewness(z);
printf('coeficientul de asimetrie=%4.4f\n',k6);
k7=kurtosis(z);
printf('coeficientul de boltire=%4.4f\n',k7);
endfunction
Scriem matricea linie xcu datele numerice ale seriei statistice iar apoi apel am
funct ia indsta(x) de unde se va a sa indicatori statistici ai serie date:
Indicatori statistici ai seriei date
amplitudinea =370.0
media =148.600
mediana =105.500
Quantila Q1 =84.000
Quantila Q3 =140.000
distanta quartilica =56.000
dispersia=13069.516
abaterea mediei patratice standard=114.322
coeficientul de asimetrie=1.7425
coeficientul de boltire=4.4436
^In orice set de date statistice exist a valori aberante adic a valori numerice care nu
apart in intervalului [ Q1 1:5(Q3 Q1);Q3+1:5(Q3 Q1)]. Cu ajutorul programului
Octave denit mai jos vom identica valorile aberante:
x=[113,60,430,130,79,405,90,100,175,100,111,380,68,122,125,75,150,…,
89,100,70];
45
a=quantile(x,0.25)-1.5*(quantile(x,0.75)-quantile(x,0.25));
b=quantile(x,0.75)+1.5*(quantile(x,0.75)-quantile(x,0.25));
indice=find(or(x<a,x>b));
y=x(indice) % valorile aberante
y =
430 405 380
respectiv cu ajutorul programului Octave denit mai jos am eliminat valorile aberante
din seria statistic a
x=[113,60,430,130,79,405,90,100,175,100,111,380,68,122,125,75,150,…,
89,100,70];
a=quantile(x,0.25)-1.5*(quantile(x,0.75)-quantile(x,0.25));
b=quantile(x,0.75)+1.5*(quantile(x,0.75)-quantile(x,0.25));
indice1=find((x>=a)&(x<=b));
z=x(indice1) % am eliminat din seria statistica valorile aberante
z =
113 60 130 79 90 100 175 100 111 68
122 125 75 150 89 100 70
Aplicatia 2. Fie datele statistice denite pe clase ^ n tabelul de mai jos:
clasa frecventa
[0,5) 5
[5,10) 10
[10,15) 20
[15,20) 15
[20,25) 12
[25,30] 8
Tabela 5.1: Date statistice denite pe clase
Am construit funct ii Octave pentru determinarea mediei si dispersiei modicate
pentru seria statistic a denit a conform tabelului (5.1).
•funct ia Octave pentru determinarea mediei
function y = mediaclase (a,h,b,n)
x=a:h:b;
N=sum(n);
z=sum(x.*n)/N;
printf('media =%8.3f\n',z);
endfunction
undearespectivbeste jum atatea primei clase respectiv ultimei clase, hpasul
clasei iarNeste volumul total al datei statistice date.
•Atunci din secvent a de program Octave deducem valoarea mediei
46
a=2.5,b=27.5,h=5;
n=[5,10,20,15,12,8];
mediaclase(a,h,b,n)
% se va afisa
media = 15.571
•funct ia Octave pentru determinarea dispersiei
function y= dispersiaclase (a,h,b,n)
x=a:h:b;
N=sum(n);
c=sum(x.*n)./N;
z=1/(N-1).*(sum(x.^2.*n)-N.*c.^2);
printf('dispersia=%8.2f\n',z);
undearespectivbeste jum atatea primei clase respectiv ultimei clase, hpasul
clasei iarNeste volumul total al datei statistice date.
•Atunci din secvent a de program Octave deducem valoarea dispersiei
a=2.5,b=27.5,h=5;
n=[5,10,20,15,12,8];
dispersiaclase(a,h,b,n)
% se va afisa
dispersia= 50.21
5.3 Teste statistice
Aplicat ia 1. Pentru a determina media v^ arstelor copiiilor internat i la sect iile de
infect ioase din Rom^ ania s-a f acut un sondaj aleator de volum n= 90 printre copiii din
t ar a. V^ arstele copiiilor ^ n urma sondajului sunt grupate ^ n tabel de mai jos:
v^ arsta 2345678910
frecvent a 2381213172096
Tabela 5.2: Date sondajului
Dorim s a test am la nivelul de semnicat ie = 0:01dac a media tuturor copiiilor
din t ar a este m= 7.
Datorit a faptului c a volumul n > 30 putem aplica testul Z. Acest test ^ n Octave
admite comanda
[h,pval,zval,zcrtic]=ztest(X,m,s,'tail','both/left/right','alpha',0.01)
undeXeste matricea linie cu datele numerice ale select iei, mvaloarea teoretic a a me-
diei,sabaterea mediei p atratice standard, both/left/right precizarea testului bilateral
(forma implicit a sau unilateral st^ anga sau dreapta iar alpha este nivelul de semnicat ie
care poate lua valorile 0 :1;0:05;0:01.
Din programul Octave denit mai jos
47
X=[2*ones(1,2),3*ones(1,3),4*ones(1,8),5*ones(1,12),6*ones(1,13),…
7*ones(1,17),8*ones(1,20),9*ones(1,9),
10*ones(1,6)]; % matricea linia a datelor
n=[2,3,8,12,13,17,20,9,6]; % matricea linie a frecventelor absolute
m=7; % valoarea teoretica a mediei
s=std(X); % valoarea abateri mediei patratice standard
[h,pval,ci,zval,zcrit]=ztest(X,m,s,'alpha',0.01) % comanda testul Z
^ n urma compil arii se va a sa
h = 0 % ipoteza nula este aceptata
pval = 0.14114 % valoarea probabilitati a testului
ci = % intervalul de incredere a mediei
6.1749 7.2251
zval = -1.4716 % valoarea numerica a testului
zcrit = 2.5758 % cuantila de ordin alpha
deci ipoteza nul a ^ n care se arm a c a media teoretic a este de 7 ani se acept a.
Figura 5.5: Zonele colorate reprezint a regiunile de respingere
Observ am c a valoarea testului zval = 1:4716 nu apart ine regiunilor critice (co-
loarate ^ n gura (5.5)) deci ipoteza nul a se acept a.
Remarca 5.3.1 .Comanda pentru folosirea testului t este
[h, pval, ci,stat] = ttest(x,m,'tail','both/right/alha','alpha',0.01)
unde argumentele de intrare si ie sire sunt acelea si ca la testul Z unde stat ne furnizeaz a
informat i despre valoarea numeric a a testului, gradele de libertate si valoarea dispersiei
modicate a select iei.
48
Aplicat ia 2 ^Intr-un sondaj nat ional de opinie 1000 de persoane au fost rugate s a
r aspund a la o ^ ntrebare legat a de testarea unui vacin. R aspunsul armativ a fost de
4284 dintre cazuri. Rezultatul acestui sondaj este utilizat ^ n estimarea procentului p
pentru testarea vacinului. La nivelul de semnicat ie = 0:01 testat i dac a p este de
85% sau mai mare.
Avem ipoteza nul a H0:p= 0:85 sau ipoteza alternativ a H1:p>0:85.
Solut ie: Avem comanda Octave binotest pentru testarea proport iei care admite
sintaxa binotest(p0,n,p) undep0 este proport ia empiric a dedus a din sondaj, p
proport ia teoretic a, n volumul sondajului, iar nivelul de semnicat ie alpha este prede-
nit pentru 0.05:
[h,p,ci]=binotest(4284,5000,0.85,'alpha',0.01)
care ^ n urma rul arii obt inem rezultatele:
h = 0
p = 0.18454
ci =
0.84360 0.86931
Aplicat ia 3 Caracteristicile X1 siX2reprezint a punctajul obt inut de copiiide
v^ arst a de 10 ani respectiv 11 ani la testul de vaccin A1 oferit de rma Y. Speciali sti
rmei Y recomand a ca aceste puncte s a urmeze repartit ia normal a iar medicul care
testeaz a acest vaccin se conformeaz a cu aceste dorint e. Pentru a verica cum s-au
obt inut acete puncte vom selecta aleator punctele a 25 de copiii de v^ arst a de 10 ani si
30 de copiii ce au v^ asta de 11 ani, distribut iile notelor sunt prezentate mai jos:
PunctajulFrecvent a absolut a
Copiii 10 ani Copiii 11 ani
5 3 5
6 5 7
7 7 7
8 6 5
9 3 4
10 1 2
Tabela 5.3: Punctajul obt inut la vaccin
S a se testeze cu = 0:01 ipoteza nul a ^ n medie nu exist a diferent e ^ ntre categoriile
de v^ arste respectiv ipoteza alternativ a exist a diferent e ^ ntre categoriile de v^ arste adic a
cei care au 11 ani un punctaj mai bun fat a de cei cu 10 ani.
Solut ie: Comanda Ocatave este
[h,p,ci,stats]=ttest2(u,v,0.01,'left','unequal')
undeurespectivvreprezint a matricea linie a setului de date pentru setul de copiii ce
au v^ arsta de 10 ani respectiv v^ arsta de 11 ani.
Avem secvent a de program Octave
u=[5*ones(1,3),6*ones(1,5), 7*ones(1,7),8*ones(1,6),9*ones(1,3),…
10*ones(1,1)];
49
v=[5*ones(1,5),6*ones(1,7), 7*ones(1,7),8*ones(1,5),9*ones(1,4),…
10*ones(1,2)];
[h,p,ci]==ttest2(u,v,'alpha',0.05,'tail','both','vartype','unequal')
care ^ n urma compil arii obt inem
h = 0 % ipoteza nula se acepta
p = 0.80923
ci = % interval de incredere
-0.67832 0.86499
Cu ajutorul funct iei chi2gof(x) test am dac a vectorul xprovine dintr-o repartit ie
normal a cu media si dispersia estimate cu ajutorul lui x. Variabilele de ie sire sunt
acela si ca la celelalte teste ^ n plus variabila stats a seaz a statistica 2,dfgradele de
libertate, edges un vector cu capetele intervalelor claselor dup a triere, O-num arul de
valori observate ^ n ecare clas a, E-num arul de valori a steptate ^ n ecare clas a.
Pentru testul Kolmogorov-Smirnov pentru o select ie vom utiliza comanda
[p,stats]=kstest(x,'legea',alpha)
unde variabilele de intrare si ie sire sunt acela si ca la celelalte comenzi utilizate pentru
teste statistice.
Aplicat ia 4 Consider am select ia f4;4;4;5;5;5;6;6;6;6;6;9;9;9;10;10;10;10;10;
12;12;13;14;16;17;17;18gextras a dintr-o anumit a colectivitate. La nivelul de semni-
cat ie= 0:1 s a se decid a dac a populat ia din care provine select ia este normal a de
medie 7 si dispersie 3.
Solut ie: Vom aplica comanda kolgomorov_smirnov_test ce admite sintaxa
[p,stats]=kolgomorov_smirnov_test(X,'legea',parametri)
Avem secvent a de program Octave
pkg load statistics
X=[1,2,2,3,3,3,4,4,4,5,5,5,6,6,6,9,9,9,10,10,10,11,11,12,12,13,13,14];
n=sqrt(length(X));
[p,stats]=kolmogorov_smirnov_test (X, 'norm', 7,3)
p = 0.16213
stats = 1.1207
cum cuantila de ordin 1 (1 ) este egal a cu 1.63 e din tabelarea funct iei
Kolmogorov ( sau apel
uam kolmogorov_smirnov_cdf (1.63,0.1) care ne conduce la rezultatul 0.99015).
Atunci din relat iapnstats 1 <0 deci ipotez nul a se acept a adic a ipoteza de
normalitatea se acept a.
Aplicat ia 5 ^Intr-o sect ie de infect ioase dintr-un spital X ce au 60 de pacient i au
fost distrubuite
acoane de glucoz a de 500ml conform tabelului ^ ntr-o lun a.
50
Nr. ole de glucoz a Nr de pacient i
0 6
1 12
2 17
3 11
4 10
5 2
6 2
Tabela 5.4: Tabel cu olele de glucoz a
Determinat i (la nivelul de semnicat ie = 0:05) dac a num arul de ole per pacien
urmeaz a o distribut ie Poisson.
Solut ie: Fie variabila aleatoare ce reprezint a num arul de ole distribuite la un
pacient. Dorim s a test am dac a variabila Xurmeaz a legea Poisson. Atunci avem
ipoteza nul a H0variabilaXurmeaz a legea Poisson respectiv ipoteza alternativ a H1
variabilaXnu urmeaz a legea Poisson. Avem programul Octave
pkg load statistics
X=[0.*ones(1,6),1.*ones(1,12),2.*ones(1,17),3*ones(1,11),4.*ones(1,10)
5.*ones(1,2),6.*ones(1,2)];
f=[6,12,17,11,10,4];
lambda=mean(X);
n=60;
alpha=0.05;
Hcri=chi2inv(0.95,4)
Hcri = 9.4877
for i=1:5
p(i)=poisspdf(i-1,lambda);
endfor
p(6)=1-poisscdf(4,lambda);
Hcalc=sum((f-n*p).^2./(n*p))
Hcalc = 1.7923
if (Hcalc<Hcri)
disp('Ipoteza nula este aceptata')
else
disp('Ipoteza nula se respinge')
endif
Ipoteza nula este aceptata
Aplicat ia 6 Fie select ia de date a unui e santion de 27 de pacient i:
6:1;14:4;4:2;4:6;5:9;4:7;17:2;11:7;6:2;16:8;5:4;9:5;8:8;11:6;5:7;9:8;9:2;13:1;
18:5;15:5;5:7;10:4;3:9;4:4;9:9;17:6;10:3
Studiem dac a ipoteza nul a: select ia de date de mai sus face parte dintr-o repartit ie
normal a.
Solut ie: Avem secvent a de program Octave pentru calculul testetului Shapiro-Wilk
c^ at si testarea acestui test statistic:
51
pkg load statistics
x=[6.1,14.4,4.2,4.6,5.9,4.7,17.2,11.7,6.2,16.8,5.4,9.5,8.8,11.6,…
5.7,9.8,9.2,13.1,18.5,15.5,5.7,10.4,3.9,4.4,9.9,17.6,10.3];
a=[0.4407,0.3043,0.2533,0.2151,0.1836,0.1563,0.1316,0.1089,
0.0876,0.0672,0.0476,0.0284,0.0094];
testsw(x,a)
iar ^ n urma compil arii obt inem valoarea testului
valoarea testului Shapiro-Wilk=0.9029
pentru testarea acestui test statistic am construit funct ia testswd care are sintaxa
testswd (W1;p1;W2;p2;Wcalc;alpha )
unde valorile W1,p1,W2,p2 sunt denite ^ n tabelul de valori ale testului Shapiro-Wilk
(http://www.real-statistics.com/statistics-tables/shapiro-wilk-table/ )
pentrun= 27 iar Wcalc este valoarea calculat a a testului, iar este nivelul de
semnicat ie. Atunci ^ n urma compil arii comenzii Octave
testswd(0.894,0.01,0.906,0.02,0.9029,0.05)
se obt ine c a ipoteza nul a se respinge.
Funct ia testsw este denit a astfel
unction c = testsw (x,a)
y=sort(x);
n=length(y);
k=floor(n/2);
for i=1:k
d(i)=y(n-i+1)-y(i);
endfor
s=0;s1=0;
for i=1:n
s=s+(y(i)-mean(y)).^2;
endfor
for i=1:k
s1=s1+a(i).*d(i);
endfor
W=s1^2./s;
printf('valoarea testului Shapiro-Wilk=%6.4f\n',W);
endfunction
respectiv funct ia testswd este denit a astfel
function y = testswd (W1,p1,W2,p2,Wcalc,alpha)
p=@(W)((p2-p1)./(W2-W1)).*(W-W1)+p1;
if (p(Wcalc)>alpha)
disp('Ipoteza nula datele au o repartitie normala');
else
disp('Ipoteza nula se respinge');
endif
endfunction
52
5.4 Analiza corelat iei si regresiei
Aplicat ie 1 Doi medici denumit i M1,M2 au fost rugat i s a precizeze 9
acoane cu
vitamina C cu gusturi de fructe si s a le claseze ^ n ordinea preferint elor. S a not am
acestea cu A,B,C,D,E,F,G,H,I. determinat i coecientul de corelat ie Spearman.
Medic/Vitamina C A B C D E F G H I
M1 E B A G C H F D I
M2 B E C G A H D I F
Tabela 5.5: Preferint ele pentru vitamina C
Solut ie: Fiec arei litere A,…,I ^ i corespunde un num ar de la 1 la 9. Norul de puncte
dintre variabile descrise de medicul M1 si medicul M2 este ilustrat ^ n gura de mai jos
obt inut a cu comanda plot(x1,x2,'*r') :
Figura 5.6: Diagrama rangurilor
Avem programul Octave pentru determinarea coecientului de corelat ie Spearman
pkg load statistics
M0=['A','B','C','D','E','F','G','H','I'];
M1=['E','B','A','G','C','H','F','D','I'];
M2=['B','E','C','G','A','H','D','I','F'];
T1=[crosstab(M0,M1)];
x1=frecvcal(T1)
x1 =
3 2 5 8 1 7 4 6 9
T2=[crosstab(M0,M2)];
x2=frecvcal(T2)
x2 =
53
5 1 3 7 2 9 4 6 8
spearman(x1,x2)
ans = 0.86667
Funct ia frecvcal este dent a astfel
function [x] = frecvcal (T)
n=length(T(:,1));
for i=1:n
x(i)=find(T(:,i)==1);
endfor
endfunction
Aplicat ia 2 Dorim s a test am dac a exist a vreo corelat ie ^ ntre greut at ile ^ nainte de
debutul boli de pancreas (D) respectiv dup a tratamentul acestei boli (T) pentru un
e santion de 10 copiii. Au fost observate aceste date care sunt trecute ^ n tabelul denit
mai jos: Determinat i dreapta de regresie a greut at ilor de la tratament (T) ^ n raport
Copil A B C D E F G H I J
D 82 36 72 58 70 48 44 94 60 40
T 84 42 50 64 68 54 46 80 60 32
Tabela 5.6: Greut at ile copiiilor
cu greut at ile copiiilor ^ nainte de debutul bolilor (D).
Solut ie:
Figura 5.7: Dreapta de regresie
Pentru determinarea dreptei de regresie vom aplica urm atorul program Octave
54
D=[82,36,72,58,70,48,44,94,60,40];
T=[84,42,50,64,68,54,46,80,60,32];
D1=sort(D)
D1 =
36 40 44 48 58 60 70 72 82 94
T1=sort(T)
T1 =
32 42 46 50 54 60 64 68 80 84
p=polyfit(D1,T1)
p=polyfit(D1,T1,1)
p =
0.85459 6.38303
xx=30:95;
yx=polyval(p,xx);
plot(D1,T1,'*r',xx,yx,'–b')
Aplicat ia 3 Tabelul de mai jos cont ine o select ie de 9 note obt inute de doi copiii
bolnavi de hepatit a C la acelea si tratament.
Tratament A B C D E F G H I
copil 1 3 4 4 3 3 4 2 1 4
copil 2 2 1 3 4 4 3 3 2 3
Tabela 5.7: Rezultatele obt inute la tratamentul copiiilor
studiat i leg atura ^ ntre cele dou a seturi de calicative.
Solut ie: Pentru variabilele din tabel vom determina rangurile observat iilor pentru
ecare copil ordon^ and crec ator de la 1 la 4, unde valorile sunt egale rangul atribuit este
media rangurilor egale. Vom determina coecientul Spearman cu ajutorul programului
Octave
pkg load statistics
M1=[3,4,4,3,3,4,2,1,4];
T1=[tabulate(M1)]
T1 =
1.0000 1.0000 11.1111 1.0000
2.0000 1.0000 11.1111 2.0000
3.0000 3.0000 33.3333 5.0000
4.0000 4.0000 44.4444 9.0000
frecvcalit(M1,T1)
ans =
4.0000 7.5000 7.5000 4.0000 4.0000 7.5000 2.0000
1.0000 7.5000
M2=[2,1,3,4,4,3,3,2,3];
T2=[tabulate(M2)]
T2 =
1.0000 1.0000 11.1111 1.0000
2.0000 2.0000 22.2222 3.0000
3.0000 4.0000 44.4444 7.0000
4.0000 2.0000 22.2222 9.0000
55
frecvcalit(M2,T2)
ans =
2.5000 1.0000 5.5000 8.5000 8.5000 5.5000 5.5000
2.5000 5.5000
n1=frecvcalit(M1,T1)
n1 =
4.0000 7.5000 7.5000 4.0000 4.0000 7.5000 2.0000
1.0000 7.5000
n2=frecvcalit(M2,T2)
n2 =
2.5000 1.0000 5.5000 8.5000 8.5000 5.5000 5.5000
2.5000 5.5000
spearman(n1,n2)
ans = -0.042058
funct ia frecvcalit admite structura
function [n] = frecvcalit (M1,T)
n=zeros(1,9);
ind=find(M1==1);
n(ind)=1;
for i=2:4
ind=find(M1==i);
n(ind)=sum(T(i-1,4)+1:T(i-1,4)+length(find(M1==i)))/(length(find(M1==i)));
endfor;
endfunction
Aplicat ia 4 Fie sirul de date
x= 0:3;0:8;1:2;1:6;2:1;2:4;2:7;y= 3:52;4:53;5:58;6:62;8:27;10:18;11:8
S a se studieze existent a unei dependent e ^ ntre x siyde formay=aebx.
Solut ie: Apel am programul Octave pentru datele x siy1 = ln(y)
x=[0.3,0.8,1.2,1.6,2.1,2.4,2.7];
y=[3.52,4.53,5.58,6.62,8.27,10.18,11.8];
y1=log(y)
y1 =
1.2585 1.5107 1.7192 1.8901 2.1126 2.3204 2.4681
[P,r]=dreg(x,y1)
y1=a1x+b1
a1=0.497981
b1=1.10743
P = % coeficienti dreptei de regresie
0.49798 1.10743
r = 0.99884 % coeficientul de corelatie
respectiv reprezentarea grac a a setului de observat ii ( x;y1) si dreapta de regresie
de ecuat ie y1 = 0:497981x+ 1:10743 care se poate aproxima cu y=ex=23 (unde
exp(1:10743) = 3:0266).
56
Figura 5.8: Aproximarea datelor date
Aplicat ia 5 Conform tratamentului medical individual cu un medicament num arul
de ore alocat per bolnav este de 96 de ore. Tabelul denit mai jos cont ine informat ii
despre num arul de ore alocate pentru tratament individual si rezultatul tratamentului
(Rezultate bune (B)/Rezultate rele (R)).
ore rezultat ore rezultat ore rezultat
45 B 25 R 61 B 85 B 43 B 5R
53 B 78 B 13 R 23 R 2R53B
31 R 70 B 52 R 16 R 14 R22R
64 B 51 B 60 B 11R 12 R82 B
48 R 99 B 68 P 8 R 35 R10R
Tabela 5.8: Datele observ arii
folosind un model de regresie logistic a prognoza]cti ca un bolnav care a efectuat 50
de ore s a aib a rezultate bune cu ajutorul tratamentului.
Solut ie: Folosim funct ia de regresie logistic a f(x) =1
1 +e0 1x. parametri 0;1
sunt dedu si din programul Octave denit mai jos:
pkg load statistics
y=[1,0,1,1,1,0,1,1,0,0,0,1,0,1,0,0,0,0,1,1,0,0,1,0,1,0,1,1,0,0];
x=[45,25,61,85,43,5,53,78,13,23,2,53,31,70,52,16,14,22,64,60,12,48,
68,35,51,11,82,100,8,10];
[theta, beta] = logistic_regression (y',x')
theta = 9.1427 % coeficienti regresiei
beta = 0.20455
p=1/(1+exp(theta-beta*50)) % valoarea predic\c{t}iei pentru 50 de ore
p = 0.74742
57
Figura 5.9: Gracil funct iei de regresie logistic a
reprezent am grac datele si funct ia de regresie cu ajutorul programului Octave
t=0:0.1:100;
yt=1./(1+exp(theta-beta.*t));
plot(x,y,'*r',t,yt,'–b')
58
Capitolul 6
Concluzii
La ora actual a activitatea ^ n medicin a se bazeaz a pe utilizarea statisticii de aceea ^ n
aceast a lucrare am prezentat notiunile principale din statistic a cu ajutorul programului
Octave. Am ales acest program datorit a faptului c a are o palet a bogat a de pachete,
licent , a free, poate rula ^ n Windows 7,8,10 sau Ubuntu dar el poate folosit online
adic a poate folosit f ar a a i instalat pe calculator.
Am prezentat at^ at not ,iunile teoretice din Statistica descriptiv a dar s ,i comenzile
din programul Octave pentru culegerea datelor, sistematizarea datelor, reprezenta-
rea grac a a datelor s ,i pentru determinarea caracteristicilor numerice a variabilelor
cantitative respectiv calitative.
Studiile medicale se aplic a pentru un num ar redus de indivizi de aceea cu studiul
statisticii inferent ,iale s ,i a programului Octave am prezentat teste statistice pentru
obt ,inerea de informat ,ii asupra populat ,iei pornind de la un es ,antion dat.
Leg atura dintre variabilele statistice sunt prezentate teoretic cu analiza corelat ,iei
s,i a regresiei. Cu ajutorul programului Octave am determinat parametrii regresiilor
liniare s ,i neliniare.
^In ^ ncheiere mult umesc conduc atorului meu Lector doctor Radu Moleriu pentru
observat iile si ^ ndrum arilor f acute de-a lungul realiz ari a acestei luc ari de licent a.
59
Bibliograe
[1] Gheorghe Mihoc, Virgil Craiu, Tratat de statistic a: Select ie si estimat ie , vol.I,
Editura Academiei Rom^ ane, Bucure sti, 1976.
[2] Gabriela Beganu, Elemente de teoria probabilit at ilor si statistic a , Editura Meteor
Press, Bucure sti, 2003.
[3] Florin Gorunescu, Incursiune ^ n biostatistic a , Editura Cartea Albastr a, Cluj-
Napoca, 2014.
[4] Gheorghe Mihala s, Lungeanu Diana, Biostatic a , Editura Victor Babe s,
Timi soara,2011
[5] Iulian Stoleriu, Statistic a aplicat a ,https://www.math.uaic.ro/ stoleriu.
60
Copyright Notice
© Licențiada.org respectă drepturile de proprietate intelectuală și așteaptă ca toți utilizatorii să facă același lucru. Dacă consideri că un conținut de pe site încalcă drepturile tale de autor, te rugăm să trimiți o notificare DMCA.
Acest articol: PROGRAMUL DE STUDII DE LICENT A LUCRARE DE LICENT A COORDONATOR: ABSOLVENT: Lect. Dr. Moleriu Radu Nicoleta Maria TIMIS OARA 2020… [611970] (ID: 611970)
Dacă considerați că acest conținut vă încalcă drepturile de autor, vă rugăm să depuneți o cerere pe pagina noastră Copyright Takedown.
