Specializarea Matematic a-Informatic a [612305]

Ministerul Educat ¸iei Nat ¸ionale s ¸i Cercet ˘arii S ¸tiint ¸ifice
Universitatea OVIDIUS Constant ¸a
Facultatea de Matematic ˘a s ¸i Informatic ˘a
Specializarea Matematic ˘a-Informatic ˘a
Tehnici de inferent ¸ ˘a statistic ˘a: estimarea parametrilor
Lucrare de licent ¸ ˘a
Coordonator S ¸tiint ¸ific
Conf. univ. dr. Vernic Raluca
Absolvent: [anonimizat] ¸ ˘a Andreea
Constant ¸a
2019

Cuprins
1 Introducere 1
1.1 Motivat ¸ie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Not ¸iuni introductive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 Estimarea parametrilor 5
2.1 Repartit ¸ii de select ¸ie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.1 Media de select ¸ie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.1.2 Dispersia de select ¸ie . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.1.3 Principiile generale relative la repartit ¸iile de select ¸ie . . . . . . . . . . 7
2.2 Principiile generale ale estim ˘arii . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3 Matricea informat ¸ional ˘a Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.4 Estimarea mediei s ¸i dispersiei . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.4.1 Media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.4.2 Dispersia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3 Metode de estimare a parametrilor 11
3.1 Metoda momentelor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.2 Metoda verosimilit ˘at ¸ii maxime . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2.1 Propriet ˘at ¸i ale metodei verosimilit ˘at ¸ii maxime . . . . . . . . . . . . . . 16
3.2.2 Aspecte negative ale metodei verosimilit ˘at ¸ii maxime . . . . . . . . . . 23
3.3 Alte metode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.3.1 Metoda Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.3.2 Metoda distant ¸ei minime . . . . . . . . . . . . . . . . . . . . . . . . 25
3.3.3 Metoda celor mai mici p ˘atrate . . . . . . . . . . . . . . . . . . . . . . 27
3.4 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.4.1 Repartit ¸ii de tip discret . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.4.2 Repartit ¸ii de tip continuu . . . . . . . . . . . . . . . . . . . . . . . . . 32
4 Estimarea parametrilor ˆın R 35
4.1 Programul R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.2 Funct ¸ii R specifice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.3 Exemple numerice de utilizare a funct ¸iei fitdist . . . . . . . . . . . . . . . . . 37
4.4 Exemplu numeric pentru repartit ¸ia binomial ˘a: aplicarea direct ˘a a metodei verosimilit ˘at ¸ii
maxime . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.5 Aplicat ¸ie: analiza unui set real de date ( setul danish ) . . . . . . . . . . . . . . 54
4.6 Concluzii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

1 Introducere
1.1 Motivat ¸ie
Statistica este un subiect foarte larg, cu aplicat ¸ii ˆıntr-un num ˘ar variat de domenii, dar varietatea
acestora nu este un motiv ca aplicat ¸iile specifice s ˘a fie abordate separat, elabor ˆand tehnici noi
pentru fiecare problem ˘a nou ˘a, ci se caut ˘a permenent solut ¸ii de rezolvare a noilor provoc ˘ari
printr-o abordare unitar ˘a. Din acest motiv, s-a dezvoltat teoria statistic ˘a general ˘a, astfel ˆıncˆat
majoritatea problemelor s ˘a poat ˘a fi abordate ˆın acelas ¸i cadru.
Statistica matematic ˘a are ca obiect studiul informat ¸iei limitate obt ¸inut ˘a dintr-o populat ¸ie
printr-un mecanism aleator. Astfel, dup ˘a ceˆın faza de statistic ˘a descriptiv ˘a se descoper ˘a printr-
o analiz ˘a exhaustiv ˘a anumite tr ˘as˘aturi ale unui es ¸antion de date, ˆın etapa ce implic ˘a statis-
tica matematic ˘a se aplic ˘a metoda deductiv ˘a pentru a extrapola rezultatele obt ¸inute la ˆıntreaga
populat ¸ie din care provine es ¸antionul.
Interpretarea modului ˆın care funct ¸ioneaz ˘a un model este unul dintre aspectele de baz ˘a ale
analizei datelor. Construim un model care ofer ˘a rezultate impresionante, dar ˆıntrebarea care se
pune este Care a fost procesul din spatele lui? .
Una dintre problemele fundamentale ale statisticii matematice implic ˘a estimarea parametrilor
care caracterizeaz ˘a o populat ¸ie din informat ¸iile cont ¸inute ˆıntr-un es ¸antion. O problem ˘a de esti-
mare a parametrilor este de obicei formulat ˘a ca o problem ˘a de optimizare. Datorit ˘a existent ¸ei
diferitelor criterii de optimizare s ¸i a mai multor parametriz ˘ari posibile, o anumit ˘a problem ˘a
poate s ˘a fie rezolvat ˘aˆın mai multe feluri. Scopul acestei lucr ˘ari este de a trece ˆın revist ˘a mai
multe metode de estimare a parametrilor s ¸i de a ar ˘ata important ¸a alegerii unei metode adecvate.
Aceast ˘a alegere va influent ¸a acuratet ¸ea parametrilor estimat ¸i, eficient ¸a calculului, robustet ¸ea la
erorile previzibile sau imprevizibile.
Odat ˘a ce un model este specificat ˆımpreun ˘a cu parametrii s ˘ai, iar datele au fost colectate,
suntem ˆın m˘asur˘a s˘a evalu ˘am calitatea modelului de a se ajusta la acele date, adic ˘a, cˆat de bine se
potrives ¸te cu datele observate. Ajustarea este evaluat ˘a prin g ˘asirea acelor valori ale parametrilor
unui model care se potrivesc cel mai bine cu datele – o procedur ˘a numit ˘a estimarea parametrilor.
Exist ˘a dou ˘a metode generale de baz ˘a pentru estimarea parametrilor: metoda verosimilit ˘at ¸ii
maxime s ¸i metoda momentelor. Mai exist ˘aˆınc˘a alte c ˆateva metode specifice anumitor tipuri de
probleme, printre care: metoda Bayes, metoda celor mai mici p ˘atrate, metoda distant ¸ei minime.
ˆIn virtutea faptului c ˘a multe repartit ¸ii pot fi caracterizate prin momentele lor, metoda mo-
mentelor implic ˘a obt ¸inerea valorilor parametrilor ca solut ¸ie a ecuat ¸iilor obt ¸inute prin egalarea
momentelor populat ¸iei cu momentele de es ¸antionare; aceast ˘a metod ˘a va fi discutat ˘a pe larg ˆın
Sect ¸iunea 3:1. O alt ˘a metod ˘a general ˘a de estimare, metoda verosimilit ˘at ¸ii maxime, implic ˘a
obt ¸inerea valorilor parametrilor ca solut ¸ie a ecuat ¸iilor de estimare obt ¸inute prin maximizare,
ˆın raport cu parametrii, a probabilit ˘at ¸ii sau a funct ¸iei de verosimilitate a es ¸antionului; aceast ˘a
metod ˘a va fi prezentat ˘aˆın detaliu ˆın Sect ¸iunea 3:2.
Estim ˘arile obt ¸inute prin metoda momentelor sunt, de obicei, us ¸or de calculat, dar ele pot fi
ineficiente deoarece se pot obt ¸ine estim ˘ari mai exacte din aceleas ¸i date. Estim ˘arile din metoda
1

verosimilit ˘at ¸ii maxime sunt, pentru unele populat ¸ii, aceleas ¸i cu cele din metoda momentelor,
vezi exemplele din Sect ¸iunea 3:4. Din p ˘acate, estim ˘arile din metoda verosimilit ˘at ¸ii maxime sunt
deseori dificil de calculat s ¸i uneori sunt deplasate. Cu toate acestea, ˆın condit ¸ii de regularitate
generale, ele sunt asimptotic nedeplasate s ¸i de maxim ˘a precizie. Adic ˘a,ˆın es ¸antioane mari,
estim ˘arile prin verosimilitatea maxim ˘a sunt nedeplasate s ¸i pe deplin eficiente. De aceea, aceast ˘a
metod ˘a este folosit ˘a pe larg ˆın practic ˘a, fiind implementat ˘aˆın softurile statistice precum R,
SPSS, Statistica, etc.
Prin urmare, lucrarea este alc ˘atuit˘a din 4capitole. Primul capitol este Introducerea ˆın care
sunt prezentate s ¸i principalele not ¸iuni introductive, not ¸iuni teoretice necesare pentru capitolele
ce urmeaz ˘a.ˆIn Capitolul 2sunt relatate c ˆateva elemente despre select ¸ie s ¸i es ¸antion. Prin
studiul principalelor caracteristici de select ¸ie este introdus s ¸i conceptul de repartit ¸ie de select ¸ie.
Metodele de estimare a parametrilor s ¸i exemple de repartit ¸ii de tip continuu s ¸i discret sunt
prezentate ˆın detaliu ˆın Capitolul 3. Capitolul 4cont ¸ine o scurt ˘a introducere ˆın limbajul softului
R s ¸i numeroase exemple numerice de utilizare a funct ¸iilor acestuia pentru diverse repartit ¸ii.
2

1.2 Not ¸iuni introductive
V om reaminti ˆın aceast ˘a sect ¸iune c ˆateva not ¸iuni din teoria propus ˘a care sunt necesare ˆın cele ce
urmeaz ˘a.
Legea numerelor mari
Fie(
;F;P)un spat ¸iu de probabilitate, (Xn)nun s ¸ir de variabile aleatoare pe el s ¸i
Sn=nX
i=1Xi
Definit ¸ie. S ¸irul (Xn)neste supus (urmeaz ˘a) legea slab ˘a/ tare a numerelor mari dac ˘a:
SnESn
nP/ a.s!
n!10
Teorema limit ˘a central ˘a
S˘a presupunem c ˘aX1;X2;:::este o secvent ¸ ˘a de variabile aleatoare independente, identic
repatizate, av ˆandEXi=s ¸iVar(Xi) =2<1. Atunci c ˆandnse apropie de1, variabila
aleatoarepn(Sn)converge ˆın distribut ¸ie la o variabil ˘a aleatoare normal ˘a standardN(0;2)
astfel
pn(Sn)d !N(0;2)
ˆIn cazul ˆın care>0convergent ¸a ˆın distribut ¸ie ˆınseamn ˘a c˘a funct ¸iile de repartit ¸ie cumula-
tive ale luipn(Sn)converg ˆın sens punctual la funct ¸ia de repartit ¸ie cumulativ ˘a a distribut ¸iei
N(0;2)pentru fiecare num ˘ar realz
lim
n!1Pr(pn(Sn)6z) =z

unde(x)este funct ¸ia de repartit ¸ie a normalei standard evaluat ˘aˆınx. De ret ¸inut, convergent ¸a
este uniform ˘aˆınzˆın sensul c ˘a
lim
n!1sup
z2R Pr(pn(Sn)6z)z
 = 0
undesupˆınseamn ˘a cea mai mic ˘a limit ˘a superioar ˘a a setului.
Repartit ¸ia Hi-p ˘atrat
Dac˘aX1;X2;:::;Xnsunt variabile aleatoare standard independente, atunci suma p ˘atratelor
lor
Q=nX
i=1X2
i
3

urmeaz ˘a repartit ¸ia hi-p ˘atrat cungrade de libertate. Aceasta este, de obicei, notat ˘a prin
Q2(n)
sau
Q2
n
Repartit ¸ia hi-p ˘atrat are un parametru n, un num ˘arˆıntreg pozitiv, care specific ˘a num ˘arul de grade
de libertate (num ˘arulXi-lor) s ¸i densitatea de repartit ¸ie1
2n
2(n
2)xn
21en
2.
Funct ¸ia gamma
ˆIn matematic ˘a, funct ¸ia gamma (z)este o extensie a funct ¸iei factorial a tuturor numerelor
complexe, cu except ¸ia numerelor ˆıntregi negative. Pentru numere ˆıntregi pozitive este definit ˘a
ca fiind
(n) = (n1)!
Funct ¸ia gamma este definit ˘a pentru toate numerele complexe, dar nu este definit ˘a pentru
numere ˆıntregi negative s ¸i zero. Pentru un num ˘ar complex, a c ˘arui parte real ˘a nu este un num ˘ar
ˆıntreg negativ, funct ¸ia este definit ˘a de
(z) =1Z
0xz1exdx
Funct ¸ia gamma este o component ˘a a diferitelor funct ¸ii de repartit ¸ie a probabilit ˘at ¸ilor s ¸i, ca
atare, este aplicabil ˘aˆın domeniile probabilit ˘at ¸ii s ¸i statisticii, precum s ¸i combinatoricii.
Funct ¸ia indicator
Definit ¸ie. Funct ¸ia 1A=(
1;Aadev ˘arat˘a
0;Afals˘apoart ˘a denumirea de funct ¸ie indicator .
4

2 Estimarea parametrilor
2.1 Repartit ¸ii de select ¸ie
Definit ¸ie. Populat ¸ia (statistic ˘a) este mult ¸imea nevid ˘a de indivizi, obiecte sau m ˘asur˘atori care
se studiaz ˘aˆın leg ˘atur˘a cu un fenomen aleatoriu (la ˆıntˆamplare). Pentru a forma o populat ¸ie, o
mult ¸ime de elemente trebuie s ˘a aib ˘a o caracteristic ˘a comun ˘a. Conceptul de populat ¸ie este una
din not ¸iunile fundamentale ale statisticii. Populat ¸ia ˆın cauz ˘a trebuie s ˘a fie foarte atent definit ˘a
s ¸i este considerat ˘a complet definit ˘a numai atunci c ˆand se poate oferi lista tuturor elementelor
ei.
Mult ¸imea student ¸ilor unei universit ˘at ¸i este, spre exemplu, o populat ¸ie bine definit ˘a. Totus ¸i,
ˆın statistic ˘a, populat ¸ia poate fi s ¸i o colect ¸ie de animale, de obiecte manufacturate sau de m ˘asur˘atori.
Definit ¸ie. Es ¸antionul (sau select ¸ia) este o submult ¸ime a mult ¸imii populat ¸iei, alc ˘atuit ˘a din in-
divizii care s-au observat efectiv ˆın timpul unui studiu neexhaustiv ( ˆın mod exclusiv s ¸i total).
Definit ¸ie. Prin select ¸ie sausondaj ˆınt ¸elegem mult ¸imea operat ¸iilor de alegere sau selectare,
dintr-o populat ¸ie, a indivizilor care vor forma es ¸antionul.
Este necesar ca o select ¸ie s ˘aˆındeplineasc ˘a urm ˘atoarele condit ¸ii:
i) S˘a fie aleatoare (orice element s ˘a aib ˘a s ¸ansa de a fi ales; s ¸ansa poate fi calculat ˘a);
ii) Toate elementele colectivit ˘at ¸ii s ˘a aib ˘a aceeas ¸i probabilitate de a fi alese;
iii) Structura select ¸iei s ˘a fie c ˆat mai apropiat ˘a de structura populat ¸iei, adic ˘a select ¸ia trebuie s ˘a
fie reprezentativ ˘a;
iv) V olumul select ¸iei s ˘a fie suficient de mare.
Exist ˘a mai multe metode de construire a unui es ¸antion, printre care s ¸i select ¸ia aleatoare
simpl ˘a.
Definit ¸ie. Un es ¸antion se numes ¸te aleator cˆand probabilitatea ca un individ al populat ¸iei s ˘a
fac˘a parte din es ¸antion este aceeas ¸i, indiferent de individ. Es ¸antionul se numes ¸te aleator s ¸i
simplu dac˘a este aleator s ¸i dac ˘a select ¸iile indivizilor ce vor forma es ¸antionul se fac independent
una de alta (atunci el va fi s ¸i simplu).
Unul dintre procedeele cele mai folosite pentru realizarea unor astfel de es ¸antioane din
populat ¸ii finite sau infinite, este metoda numerelor aleatoare.
5

2.1.1 Media de select ¸ie
Fie un prim es ¸antion de nobservat ¸ii, (x1;:::;xn), pentru care s-a determinat media x=1
nnX
i=1xi.
Dac˘aˆıntr-o situat ¸ie asem ˘an˘atoare se selecteaz ˘a un al doilea es ¸antion de acelas ¸i volum, (x10;:::;xn0)
s ¸i cu media corespunz ˘atoarex0=1
nnX
i=1xi0, ea va fi diferit ˘a de prima medie observat ˘a. Analog
seˆıntˆampl ˘a s ¸i pentru mediile altor es ¸antioane extrase ˆın condit ¸ii similare: (x100;:::;xn00);(x1000;:::;xn000)
etc.
Fie s ¸irul infinit al observat ¸iilor de rang idin fiecare es ¸antion xi;xi0;xi00;xi000;:::ca fiind
observat ¸ii f ˘acute asupra unei aceleas ¸i variabile aleatoare Xi;i=1;n. Prin urmare valorile
medii observate x;x0;x00;:::devin s ¸i ele valori ale unei variabile aleatoare X, care depinde de
X1;:::;XnastfelX=1
nnX
i=1Xi.
Definit ¸ie.Xse numes ¸te medie de select ¸ie (unde variabilele aleatoare X1;:::;Xns ¸iXau
repartit ¸ii denumite repartit ¸ii de select ¸ie).
Deoarece select ¸ia este aleatoare s ¸i simpl ˘a, variabilele (X1;:::;Xn)sunt independente s ¸i
identic repartizate. V om nota cu mmedia lor real ˘a, iar cu2dispersia.
Propriet ˘at ¸ile mediei de select ¸ie :
(a)EX=m,Var(X) =2
n;
(b) Din Legea numerelor mari: Xa.s!
n!1m;
(c) Din Teorema limitei centraleXm
pnrepart.!
n!1o variabil ˘a aleatoare repartizat ˘a normal stan-
dardN(0;1).
2.1.2 Dispersia de select ¸ie
Dac˘a se act ¸ioneaz ˘a ca ˆın cazul mediei de select ¸ie, atunci se pot determina dispersiile pentru
es ¸antioane diferite:
s2=1
nnX
i=1(xix)2
s02=1
nnX
i=1(xi0x)2
6

aceste dispersii fiind considerate ca valori observate asupra variabilei aleatoare
S2=1
nnX
i=1(XiX)2
Definit ¸ie.S2se numes ¸te dispersie de select ¸ie .
Propriet ˘at ¸ile dispersiei de select ¸ie :
(a)ES2=n1
n2,Var(S2) =n1
n3
(n1)4(n3)4
, unde4este momentul
centrat de ordin 4al variabilei aleatoare Xi;
(b)S2=X2X2;
(c)S2a.s.!
n!12din Legea numerelor mari;
(d)S22pnp
44repart.!
n!1o variabil ˘a aleatoare repartizat ˘a normal standard N(0;1).
2.1.3 Principiile generale relative la repartit ¸iile de select ¸ie
Admitem c ˘a, pentru o populat ¸ie oarecare, se analizeaz ˘a un parametru , pentru care se pot ob-
serva valorile t;t0;t00;:::. Valorile acestea se pot extrage din es ¸antioane succesive, de acelas ¸i
volum, extrase independent unele de altele s ¸i ˆın condit ¸ii similare. Prin urmare, valorile pot fi
considerate ca fiind valori observate asupra unei aceleas ¸i variabile aleatoare T. De fapt, vari-
abilaTeste o funct ¸ie de variabilele aleatoare asociate indivizilor din es ¸antion: T(X1;:::;Xn).
Presupun ˆnd de asemenea c ˘a select ¸ia este aleatoare s ¸i totodat ˘a, simpl ˘a, vom urm ˘ari s˘a evalu ˘am
atˆat media, c ˆat s ¸i dispersia variabilei aleatoare T, dar, pe c ˆat posibil, s ¸i repartit ¸ia sa. Aceast ˘a
repartit ¸ie poart ˘a denumirea de repartit ¸ie de select ¸ie.
Deci, repartit ¸ia de select ¸ie este repartit ¸ia diferitelor valori pe care le poate lua parametrul T,
pentru es ¸antioane diferite de volum fixat, care se pot extrage din populat ¸ie. Eroarea standard
este, de fapt, abaterea medie p ˘atratic ˘a corespunz ˘atoare variabilei aleatoare T.
Este foarte important s ˘a nu existe confuzii ˆıntre datele din es ¸antion s ¸i cele din populat ¸ie,
ˆıntre variabile s ¸i constante:
–T;X 1;:::;Xnsunt variabile aleatoare relative la es ¸antioane;
–t;x1;:::;xnsunt valori observate asupra acestor variabile, relative la un es ¸antion fixat;
–este o constant ˘a relativ ˘a la populat ¸ie, care ˆın general este necunoscut ˘a;
–ET,Var(T)sunt constante relative at ˆat la populat ¸ie, c ˆat s ¸i la tipul de es ¸antion folosit.
7

Repartit ¸iile de select ¸ie pot fi observate fie ˆın mod exact, fie ˆın mod aproximativ, ˆın funct ¸ie de
ipotezele teoretice. Conceptul de normalitate asimptotic ˘a joac ˘a un rol important ˆın acest sens.
Spre exemplu, dac ˘a populat ¸ia analizat ˘a este normal ˘a(XiNormal ), iar es ¸antionul este
aleator simplu, atunci media de select ¸ie este repartizat ˘a normal, iar dispersia de select ¸ie prezint ˘a
repartit ¸ia2.
ˆIn cazul general al unei populat ¸ii aleas ˘a laˆıntˆamplare, repartit ¸iile de select ¸ie ale mediei s ¸i
dispersiei sunt doar asimptotic normale. Astfel, trebuie s ˘a se aib ˘aˆın vedere faptul c ˘a repartit ¸ia
normal ˘a asimptotic ˘a este doar o aproximare a unui alt tip de repartit ¸ie de select ¸ie necunoscut ˘a,
iar esent ¸ial este s ˘a se verifice ˆın toate cazurile dac ˘a volumul select ¸iei este destul de mare pentru
a asigura o aproximare suficient de bun ˘a conform Teoremei limit ˘a central ˘a.
2.2 Principiile generale ale estim ˘arii
Fie o populat ¸ie aleas ˘a laˆıntˆamplare a c ˘arei repartit ¸ie depinde de un parametru necunoscut
2Rks ¸i un es ¸antion extras din aceast ˘a populat ¸ie : (x1;:::;xn).
Definit ¸ie. O funct ¸ieT:Rn!care depinde de valorile observate s ¸i care poate ajuta la
estimarea parametrului ,T(X1;:::;Xn), se va numi estimator al parametrului . Estimat ¸iile
sunt valorile numerice t ale funct ¸iei t=T(X1;:::;Xn).
Pentru a fi un estimator bun, funct ¸ia trebuie s ˘aˆındeplineasc ˘a criterii c ˆat mai elementare
(naturale), astfel c ˘a nu orice funct ¸ie care depinde de valorile observate poate fi utilizat ˘a ca
estimator. Mai jos vor fi prezentate calit ˘at ¸ile necesare unui estimator pentru a putea fi c ˆat mai
bun.
Una dintre primele calit ˘at ¸i pentru a fi un estimator bun este lipsa (absent ¸a) erorii sistematice,
a inexactitudinii sau a deplas ˘arii. Acest lucru implic ˘a faptul c ˘a media estimatorului coincide cu
valoarea “adev ˘arat˘a” a parametrului.
Definit ¸ie.Tse numes ¸te estimator nedeplasat pentrudac˘aET=.
Cea de-a doua calitate pentru ca un estimator s ˘a fie c ˆat mai bun este de a avea o precizie sufi-
cient ˘a, adic ˘a valorile sale s ˘a nu se abat ˘a prea mult de la parametrul de estimat. Aceast ˘a precizie
se calculeaz ˘a cu ajutorul momentului de ordinul 2centrat in valoarea “adev ˘arat˘a” a parametru-
lui,E(T)2. Pentru estimatorul nedeplasat, momentul respectiv coincide cu dispersia.
Definit ¸ie.Tse numes ¸te estimator nedeplasat de dispersie minima (e.n.d.m.) dac˘aˆındeplines ¸te
urm˘atoarele 2condit ¸ii: este nedeplasat s ¸i dac ˘a pentru orice alt estimator nedeplasat Upentru
parametrul, avemVar(U)Var(T).
Avˆandˆın vedere c ˘a valorile unui estimator trebuie s ˘a fie c ˆat mai apropiate de valoarea
“adev ˘arat˘a” a parametrului, consider ˘am definit ¸ia:
Definit ¸ie.Tnse numeste estimator convergent (consistent) dac˘aTnprob.!
n!1()8" > 0,
P(jTnj")!
n!10.
8

Propozit ¸ie. ETn!
n!1s ¸iVar(Tn)!
n!10, atunciTneste un estimator convergent.
O alt ˘a calitate important ˘a pentru ca un estimator s ˘a fie “bun” este de a nu fi prea sensibil
la prezent ¸a posibilelor valori aberante sau anormale. Cu alte cuvinte, un estimator bun nu
trebuie s ˘a fie sensibil la diferent ¸ele care pot ap ˘area ˆıntre modelul teoretic presupus s ¸i populat ¸ia
observat ˘a efectiv. Spre exemplu, presupunem c ˘a populat ¸ia p ˘arinte este normal ˘a, des ¸i valorile
remarcate nu urmeaz ˘a tocmai o repartit ¸ie normal ˘a.
Definit ¸ie. Estimatorul robust este estimatorul care are proprietatea de a nu depinde ˆın totali-
tate de valorile aberante sau de modelul stabilit.
2.3 Matricea informat ¸ional ˘a Fisher
Definit ¸ie. Matricea informat ¸ional ˘a Fisher se defines ¸te prin In() =h
E
@lnL (;)
@i@lnL (;)
@ji
i;j=1;k
dac˘a mediile exist ˘a.
Funct ¸iaL(;)care intervine ˆın formul ˘a este funct ¸ia de verosimilitate care va fi definit ˘aˆın
sect ¸iunea 3:2.
Este important de ret ¸inut c ˘a informat ¸iile nu depind de o observat ¸ie special ˘ax.
Matricea informat ¸ional ˘a Fisher este utilizat ˘a pentru a calcula matricele de covariant ¸ ˘a asoci-
ate estim ˘arilor de probabilitate maxim ˘a.
2.4 Estimarea mediei s ¸i dispersiei
2.4.1 Media
Cea mai bun ˘a estimat ¸ie a mediei mpentru o populat ¸ie aleas ˘a laˆıntˆamplare, care poate fi dedus ˘a
dintr-un es ¸antion aleator simplu, este la prima vedere media es ¸antionului, notat ˘a cuxs ¸i scris ˘a
sub formabm=x.
C˘aciulit ¸a aflat ˘a deasupra mediei marat˘a c˘a este vorba despre o valoare estimat ˘a a acestui
parametru.
Consider ˆandu-se astfel toate es ¸antioanele de acest gen, se observ ˘a c˘a media de select ¸ie se
constituie ˆıntr-un estimator nedeplasat al lui m, deoarece EX=m.
Dispersia diferitelor estimat ¸ii posibile ˆın jurul lui meste m ˘asurat ˘a de eroarea standard a
mediei:
q
Var(X) =pn
O alt ˘a metod ˘a prin care putem s ˘a estim ˘am media este prin a calcula media celor dou ˘a valori
observate extreme: xmins ¸ixmaxdin datele observate din es ¸antion.
ex=xmin+xmax
2
9

Aceast ˘a cantitate are ˆıns˘a dezavantajul de a fi puternic dependent ˘a de existent ¸a posibilelor
valori anormale sau aberante. Viceversa, pentru a evita interferent ¸a valorilor aberante sau anor-
male, este posibil ˘a calcularea mediei tuturor observat ¸iilor, cu except ¸ia celor extreme, astfel
avem media1
n2n1X
i=2x(i)care poart ˘a denumirea de medie redus ˘a.
2.4.2 Dispersia
Dac˘a datele provin din es ¸antioane de volum redus s ¸i le utiliz ˘am pentru extinderea rezultatelor
la nivelul colectivit ˘at ¸ii generale (le folosim pentru o inferent ¸ ˘a statistic ˘a), atunci ˆın calculul dis-
persiei, la numitor se va folosi (n1)s ¸i nun,ˆıntruc ˆat dispersia es ¸antionului este un estimator
mai bun al dispersiei ˆın colectivitatea general ˘a:
b2=ns2
(n1)=1
(n1)nX
i=1(xix)2
deoarece media estimatorului asociat S2este mai mic ˘a dec ˆat dispersia populat ¸iei, adic ˘a
ES2=(n1)
n2. Conform propriet ˘at ¸iiEs2=2dispersia de select ¸ie este un estimator nede-
plasat al dispersiei.
Observ ˘amˆıns˘a c˘a, dac ˘a valoarea2este o estimat ¸ie bun ˘a pentru dispersie, radicalul s ˘au nu
este o bun ˘a estimat ¸ie pentru abaterea medie p ˘atratic ˘a. Se poate demonstra c ˘a rezultatele obt ¸inute
prin extragerea radicalului sunt ˆın mod evident mai mici dec ˆat abaterea medie p ˘atratic ˘a.
10

3 Metode de estimare a parametrilor
Printre cele mai cunoscute metode de estimare a parametrilor se num ˘ar˘a metoda momentelor
(MM), metoda verosimilit ˘at ¸ii maxime (MVM), metoda Bayes, metoda distant ¸ei 2minime,
metoda celor mai mici p ˘atrate (MCMP). Pe primele dou ˘a le vom aprofunda mai jos.
3.1 Metoda momentelor
Metoda momentelor const ˘aˆın a estima un parametru m-dimensional sau mai bine spus, ˆın a
estimamparametri, ceea ce presupune egalarea primelor mmomente empirice (de select ¸ie) ale
es ¸antionului (x1;:::;xn), cu primele mmomente teoretice ale populat ¸iei.
Primelemmomente ale repartit ¸iei populat ¸iei pot fi exprimate ˆın funct ¸ie de = (1;2;:::;m)
ce caracterizeaz ˘a repartit ¸ia variabilei aleatoare X. Momentul de ordin kal variabilei aleatoare
Xse defines ¸te prin :
k=Ek(X) =EXk=8
>>>>>><
>>>>>>:X
i1xk
iP(X=xi);dac˘aXvariabil ˘a aleatoare discret ˘a (ce ia valori x1;x2;:::)
+1Z
1xkf(x;)dx; dac˘aXvariabil ˘a aleatoare continu ˘a cu densitatea f(x;)
Pe de alt ˘a parte, momentul de select ¸ie de ordin keste:
bk=1
nnX
i=1Xik
pentru care se cunoas ¸te urm ˘atoarea proprietate.
Proprietate.
Ebk=E
1
nnX
i=1Xik!
=1
nnX
i=1EXik=1
nnX
i=1bk=nk
n=k
Egal ˆandbk=k, undek= 1;2;:::;m , s ¸i rezolv ˆandˆınsistemul de mecuat ¸ii ˆınm
necunoscute astfel obt ¸inut, determin ˘am solut ¸iak=gk(1;:::;m). Estimatorii astfel obt ¸inut ¸i
se numesc estimatori ai momentelor .
Definit ¸ie. Estimatorul lui 2Rmobt ¸inut prin metoda momentelor se numes ¸te estimator
de moment s ¸i este solut ¸ie a sistemului:
8
><
>:b1=1()
:::
bm=m()
11

Pe baza datelor X= (x1;:::;xn), scriem primele momente de es ¸antionare astfel:
8
>>>>>><
>>>>>>:b1=x=1
nnX
i=1xi
:::
bm=xm=1
nnX
i=1xim(3.1.1)
Folosind Legea numerelor mari, avem , pentru fiecare moment k= 1;:::;m ,kxk=bk
ceea ce justific ˘aˆınlocuirea momentelor de distribut ¸ie kprin momentele de es ¸antionare xk=
bk, iar solut ¸iak=gk(1;:::;m)ne d˘a formulele estim ˘arii momentelor (b1;b2;:::;bm).
Este rezonabil ca aceast ˘a metod ˘a s˘a furnizeze estim ˘ari bune, deoarece distribut ¸ia empiric ˘a
converge ˆıntr-un anumit sens la distribut ¸ia de probabilitate. Prin urmare, momentele core-
spunz ˘atoare ar trebui s ˘a fie egale.
ˆIn unele cazuri, dec ˆat s˘a folosim momentele de es ¸antionare din jurul originii, este mai us ¸or
s˘a folosim momentele de es ¸antionare din jurul mediei.
Ideea de baz ˘a din spatele acestei metode este s ˘a:
1. Egal ˘am primul moment al es ¸antionului fat ¸a de origine M1=1
nnX
i=1Xi=Xcu primul
moment teoretic E(X).
2. Egal ˘am al doilea moment al es ¸antionului fat ¸a de medie M
2=1
nnX
i=1(XiX)2cu cel
de-al doilea moment teoretic E[(Xi)2], adic ˘a cu dispersia.
3. Continu ˘am s ˘a punem ˆın ecuat ¸ie momentele de es ¸antionare fat ¸a de medie M
kcu mo-
mentele teoretice corespunz ˘atoare fat ¸a de medie E
(Xi)k
,k= 3;4;:::pˆan˘a cˆand
avem at ˆatea ecuat ¸ii c ˆat ¸i parametri sunt.
4. Rezolv ˘am sistemul obt ¸inut ˆın parametrii necunoscut ¸i.
Observat ¸ie. Din nou, valorile rezultate se numesc estimatori de moment.
Exemplu. Presupunem c ˘aX1;X2;:::;Xneste o variabil ˘a aleatoare dintr-o populat ¸ie N(;2),
undes ¸i2sunt parametri. Determinat ¸i estimatorii de moment, notat ¸i bs ¸ib2.
Solut ¸ie. Dac˘aXN(;2), atunci E(X) =s ¸iE(X2) =Var(X) + [E(X)]2=2+2s ¸i
as ¸a avem c ˘a1=E(X) =s ¸i c˘a2=E(X2) =2+2.
Mai mult, din 3:1:1avem c ˘a
b1=x=1
nnX
i=1Xi
12

s ¸i
b2=x=1
nnX
i=1X2
i
Dac˘a1=b1s ¸i2=b2, atunci rezult ˘a c˘a
=1
nnX
i=1Xi
s ¸i
2+2=1
nnX
i=1X2
i
Rezolvarea sistemului ne conduce la metoda estim ˘arii momentelor.
b=1
nnX
i=1Xi
b2=1
nnX
i=1X2
i1
n2 nX
i=1Xi!2
Putem prelucra expresia lui b2s ¸i obt ¸inem :
nX
i=1
XiX2=nX
i=1
X2
i2XXi+X2
=nX
i=1X2
i2XnX
i=1Xi+X2nX
i=11
=nX
i=1X2
inX2
Astfel ˆıncˆat:
nX
i=1X2
i1
n2 nX
i=1Xi!2
=1
n0
@nX
i=1X2
i1
n nX
i=1Xi!21
A
=1
n nX
i=1X2
inX2!
=1
nnX
i=1
XiX2
=n1
nS2
Adic ˘a,
b2=n1
nS2
13

Avantajele s ¸i dezavantajele metodei:
Avantaje:
Metoda momentelor este destul de simpl ˘a s ¸i ofer ˘a estimatori consistent ¸i ( ˆın ipoteze foarte
slabe), des ¸i aceste estim ˘ari sunt adesea part ¸iale.
Furnizeaz ˘a valori init ¸iale ˆın c˘autarea unor estim ˘ari mai bune, prin metoda de verosimilitate
maxim ˘a.ˆIn general, atunci c ˆand se estimeaz ˘a parametrii unei familii cunoscute de repartit ¸ii
de probabilitate, aceast ˘a metod ˘a a fost ˆınlocuit ˘a de metoda de verosimilitate maxim ˘a, deoarece
estimatorii de verosimilitate maxim ˘a au o probabilitate mai mare de a se apropia de cantit ˘at ¸ile
care trebuie estimate s ¸i sunt adesea impart ¸iali.
Cu toate acestea, ˆın unele cazuri, ecuat ¸iile de verosimilitate pot fi greu de rezolvat f ˘ar˘a
calculatoare, ˆın timp ce estimatorii metodei momentelor pot fi rapid s ¸i us ¸or de calculat de
mˆan˘a. Astfel c ˘a, uneori este mai us ¸or s ˘a calcul ˘am prin metoda momentelor, dec ˆat prin metoda
verosimilitat ¸ii maxime.
Dezavantaje:
ˆIn unele cazuri, foarte frecvent pentru es ¸antioanele mari, dar mai rar pentru es ¸antioanele
mici, estim ˘arile date de metoda momentelor sunt ˆın afara spat ¸iului parametrilor, de aceea nu
este bine s ˘a ne baz ˘am pe ele. Aceast ˘a problem ˘a nu apare niciodat ˘aˆın metoda verosimilit ˘at ¸ii
maxime. Estimarea componentei de variat ¸ie este un exemplu al acestei situat ¸ii.
De asemenea, estim ˘arile prin metoda momentelor nu sunt ˆın mod necesar statistic sufi-
ciente (uneori sunt ineficiente), adic ˘a uneori nu iau ˆın considerare toate informat ¸iile relevante
din es ¸antion. Acest lucru se datoreaz ˘a faptului c ˘aˆıncalc ˘a Principiul suficient ¸ei. Suficient ¸a
are o definit ¸ie formal ˘a, dar intuitiv ˆınseamn ˘a c˘a toate datele sunt relevante pentru estimarea
parametrului de interes utilizat.
Atunci c ˆand se estimeaz ˘a alt ¸i parametri structurali (de exemplu, parametrii unei funct ¸ii de
utilitate, ˆın locul parametrilor unei repartit ¸ii de probabilitate cunoscute), este posibil ca proba-
bilit˘at ¸ile de distribut ¸ie s ˘a nu fie cunoscute, iar estim ˘arile bazate pe momente pot fi de preferat,
fat ¸˘a de estimarea verosimilit ˘at ¸ii maxime.
ˆIn anumite situat ¸ii, rezultatul metodei momentelor poate s ˘a nu fie unic, poate fi o solut ¸ie
multipl ˘a pentru setul de ecuat ¸ii corespunz ˘ator.
3.2 Metoda verosimilit ˘at ¸ii maxime
Metoda verosimilit ˘at ¸ii maxime este aplicat ˘aˆın principal ˆın situat ¸iile ˆın care repartit ¸ia adev ˘arat˘a
a es ¸antionului este cunoscut ˘a, mai put ¸in valorile unui num ˘ar finit de parametri reali necunoscut ¸i.
Astfel, verosimilitatea maxim ˘a se aplic ˘a de obicei atunci c ˆand familia repartit ¸iilor posibile pe
spat ¸iul es ¸antionului poate fi etichetat ˘a cu un parametru care ia valori ˆıntr-un spat ¸iu euclidian
dimensional finit. ˆIn plus, aplicarea sa este ˆın general limitat ˘a la cazul ˆın care aceast ˘a familie
P:2posed ˘a funct ¸ie de densitate p:2cu privire la o anumit ˘a m˘asur˘a natural ˘a asupra
spat ¸iului es ¸antionului, cum ar fi m ˘asura de num ˘arare (dac ˘a spat ¸iul de es ¸antionare este discret)
sau m ˘asura Lebesgue (atunci c ˆand este de tip continuu); ˆın cazul discret, p(x)este probabi-
14

litatea punctului xcˆandeste parametrul adev ˘arat; ˆın cazul continuu, p(x)este densitatea de
repartit ¸ie ˆınxcˆandeste parametrul adev ˘arat.
Este mai us ¸or s ˘a schimb ˘am notat ¸iile s ¸i s ˘a scriemp(x;)ˆın loc dep(x); astfel, facem s ¸i o
distinct ¸ie ˆıntre funct ¸ia p(;)care este o funct ¸ie de densitate pe spat ¸iul simplu, s ¸i funct ¸ia p(x;)
care este o funct ¸ie pe spat ¸iul parametrului.
Fie o populat ¸ie aleas ˘a laˆıntˆamplare a c ˘arei repartit ¸ie depinde de un parametru necunoscut
2Rks ¸i un es ¸antion (x1;:::;xn)extras din aceast ˘a populat ¸ie, corespunz ˘ator variabilelor
aleatoare independente (X1;:::;Xn), identic repartizate ca variabile aleatoare X. Definim funct ¸ia
de verosimilitate ˆın cele dou ˘a cazuri particulare ale repartit ¸iei lui X, discret s ¸i continuu, ca fi-
ind probabilitatea, s ¸i, respectiv, densitatea relativ ˘a la valorile observate (x1;:::;xn), redat ˘aˆın
funct ¸ie de parametrul populat ¸iei.
Definit ¸ie. Numim funct ¸ie de verosimilitate L: !R+, unde
L(x1;:::;xn;) =8
>>>>>><
>>>>>>:P(X1=x1;:::;Xn=xn)indep.=nY
i=1P(Xi=xi);dac˘aXdiscret ˘a
f(x1;:::;xn)indep.=nY
i=1f(xi);dac˘aXcontinu ˘a de densitate f
Funct ¸ia de verosimilitate exprim ˘a posibilit ˘at ¸ile diferit ¸ilor parametri dup ˘a ce am observat x,
ˆın absent ¸a oric ˘aror altor informat ¸ii pe care le putem avea despre aceste valori diferite.
Metoda verosimilit ˘at ¸ii maxime are o interpretare intuitiv ˘a puternic ˘a, anume, s ˘a estim ˘am
adev ˘aratul parametru prin acel parametru care maximizeaz ˘a funct ¸ia de verosimilitate L(;x1;:::;xn);
un astfel de parametru apart ¸ine setului cel mai plauzibil dup ˘a ce am observat es ¸antionul (x1;:::;xn).
Adesea exist ˘a un parametru unic de maximizare care este cel mai plauzibil s ¸i acesta este esti-
marea maxim ˘a a verosimilit ˘at ¸ii.
Cum putem estima parametrul necunoscut ? Av ˆandˆın vedere c ˘a funct ¸ia de verosimilitate
reprezint ˘a plauzibilitatea diferitelor 2pentru es ¸antionul (x1;:::;xn), este natural s ˘a alegem
ca o estimare a lui cel mai plauzibil element din .
Fiex= (x1;:::;xn)o realizare a unui es ¸antion aleator dintr-o distribut ¸ie cu densitatea
f(x;)ˆın funct ¸ie de un parametru necunoscut 2. O estimare a verosimilit ˘at ¸ii maxime
=(x1;:::;xn)este deci un element al lui care maximizeaz ˘a valoarea:
L(b;x) =max2L(;x)
Astfel c ˘a, se va numi estimator de verosimilitate maxim ˘a valoarea lui bcare maximizeaz ˘a
funct ¸iaL(;x).
Este posibil s ˘a existe o unic ˘a estimare a verosimilit ˘at ¸ii maxime, mai multe astfel de estim ˘ari
sau niciuna.
15

3.2.1 Propriet ˘at ¸i ale metodei verosimilit ˘at ¸ii maxime
Propozit ¸ie. (condit ¸ie suficient ˘a pentru existent ¸ ˘a).ˆIn cazul ˆın care spat ¸iul parametrului este
compact s ¸i dac ˘a funct ¸ia de verosimilitate L(;x)este continu ˘a pe, atunci exist ˘a o estimare a
verosimilit ˘at ¸ii maxime.
Propozit ¸ie. (condit ¸ie suficient ˘a pentru unicitatea metodei). ˆIn cazul ˆın care spat ¸iul parametru-
luieste convex s ¸i dac ˘a funct ¸ia de verosimilitate L(;x)este strict concav ˘aˆın, atunci
estimarea verosimilit ˘at ¸ii maxime este unic ˘a cˆand ea exist ˘a.
16

Fig. 1: Exemple ilustrative al funct ¸iei log-verosimilitate
Adesea, maximizarea lui l(;x) = ln [L(;x)]este mai us ¸oar ˘a dec ˆat maximizarea direct ˘a a
luiL(;x).
Observat ¸ie. Logaritmul este o funct ¸ie monoton ˘a, deci valoarea bcare maximizeaz ˘aL(;x)
este aceeas ¸i cu cea care maximizeaz ˘al(;x):
L(b;x) =max2L(;x)()max2l(;x)
ˆIn cazul ˆın careL(;x)este diferent ¸iabil, estimarea verosimilit ˘at ¸ii maxime poate fi obt ¸inut ˘a
ca o solut ¸ie a ecuat ¸iei
@lnL(;x)
@= 0 (3.2.1)
numit ˘aecuat ¸ia de verosimilitate .
Cu toate acestea, aceast ˘a ecuat ¸ie 3:2:1trebuie deseori rezolvat ˘a numeric. O metod ˘a standard
de rezolvare a ecuat ¸iei de verosimilitate este metoda lui Newton sau o adaptare a acesteia.
Ecuat ¸ia de verosimilitate reprezint ˘a prima condit ¸ie necesar ˘a pentru maximizarea funct ¸iei de
verosimilitate logaritmic ˘a.
A doua condit ¸ie necesar ˘a pentru ca un punct s ˘a fie maximul local al funct ¸iei de verosimi-
litate logaritmic ˘a este ca Hessianul s ˘a fie negativ semidefinit ˆın acest punct. Pas ¸ii pentru a g ˘asi
estimat ¸ia prin metoda verosimilit ˘at ¸ii maxime:
1. Se scrie prima dat ˘a funct ¸ia de verosimilitate L(;x);
2. Se obt ¸ine logaritmul natural din funct ¸ia de verosimilitate l(;x) = ln [L(;x)];
17

3. Se diferent ¸iaz ˘a funct ¸ia de verosimilitate logaritmic ˘a cu privire la ;
4. Se egaleaz ˘a derivata cu 0;
5. Se rezolv ˘a ecuat ¸ia pentru ;
6. Se verific ˘a dac ˘a solut ¸ia obt ¸inut ˘a este punct de maxim.
Exemplu. Fiex= (x1;:::;xn)o realizare a unui es ¸antion aleatoriu dintr-o repartit ¸ie N(;2)
cus ¸inecunoscute. ˆIn acest caz = (;2)2RR+s ¸i funct ¸ia de verosimilitate este
L(;2;x) =1
(22)2exp"
1
22nX
i=1(xi)2#
Funct ¸ialog-verosimilitate este dat ˘a de
l(;2;x) =n
2ln 2n
2ln21
22nX
i=1(xi)2
Luˆand prima derivat ˘a (gradientul), avem c ˘a
8
><
>:@l(;x)
@=P(xi)
2
@l(;x)
@2=P(xi)2
24n
22
Egal ˘am
@lnl(;x)
@= 0
s ¸i rezolv ˘am pentru= (;2). Avemb= (b;b2) =
x;n1
ns2
, undex=Pxi
neste media
es ¸antionului s ¸i s2=P(xix)2
n1este variant ¸a (dispersia) de es ¸antion.
N-ar fi greu s ˘a se probeze dac ˘a valoris ¸i2ating un maxim global (nu doar local) al
funct ¸ieilog-verosimilitate, ˆın as ¸a fel ˆıncˆat valorile reprezint ˘a estim ˘ari maxime ale verosimilit ˘at ¸ii.
Observat ¸ie. ˆIn multe situat ¸ii este dificil s ˘a se identifice rezolvarea explicit ˘a a ecuat ¸iei de
verosimilitate, s ¸i, ca urmare este indicat s ˘a utiliz ˘am algoritmi iterativi care maximizeaz ˘al(;x),
ca Newton-Raphson sau scorul Fisher, care pentru fiecare itert ¸ie actualizeaz ˘a parametrul ˆıntr-
un mod adecvat p ˆan˘a la convergent ¸ ˘a.
Metoda Newton-Raphson :
S˘a admitem c ˘al(;x)este funct ¸ia de verosimilitate logaritmic ˘a pentru care intent ¸ion ˘am s ˘a o
maximiz ˘am. Fieg()un vector al primelor derivate ale lui l(;x)s ¸iH()matricea derivatelor
18

secundare, prin urmare componenta ia vectorului g()este@l(;x)
@is ¸i a(i;j)component ˘a a lui
H()este@2l(;x)
@i@j, undei;j= 1;2;:::;k . Se s ¸tie c ˘a matriceaH()este cunoscut ˘a drept matricea
Hessian ˘a.
Putem spune c ˘a0este o estimare init ¸iala a lui , iarbeste estimatorul de verosimilitate
maxim ˘a. Se poate extinde g()ˆın jurul lui0utiliz ˆand o dezvoltare ˆın serie Taylor, ca urmare
se obt ¸ine
g() =g0() + (0)TH(0) +::: (3.2.2)
Pentru=bavemg() = 0 s ¸iˆınlocuind ˆın ecuat ¸ia precedent ˘a3:4:10vom avea
0 =g0() + (bT
0H(0) +:::
iarbeste aproximat de
1=0g(0)H1(0) +:::
Dac˘aˆınlocuim0ˆın relat ¸ia 3:2:2cu1va rezulta o estimare optimizat ˘a
2=1g(1)H1(1) +:::
Se continu ˘a procedeul pentru a identifica 3;4;:::pˆan˘a la convergent ¸ei. Cu condit ¸ia c ˘a0
nu este prea departe de b, procedeul tinde la s ¸i va realiza acest ˘a act ¸iune rapid. ˆIn cazul ˆın care
0nu se apropie de b, atunci este posibil ca metoda s ˘a nu duc ˘a la realizarea convergent ¸ei, pentru
c˘aH(0)nu este pozitiv definit ˘a.
Definit ¸ie. Fie select ¸ia aleatorie X= (X1;:::;Xn)dintr-o repartit ¸ie cu densitatea f(x;)care
depinde de un parametru necunoscut 2. Un estimator n(X) =n(X1;:::;Xn)este un
estimator de verosimilitate maxim ˘apentrudac˘a pentru orice realizare particular ˘a
x= (x1;:::;xn), estimat ¸ia rezultat ˘an(x) = (x1;:::;xn)2este o estimat ¸ie a verosimilit ˘at ¸ii
maxime adic ˘a,
L(bn(x);x) =max2L(;x)
ˆIn continuare vom expune unele caracterisici ale metodei verosimilit ˘at ¸ii maxime cu condit ¸ia
cas˘a fie un singur parametru, adic ˘aR.
Invariant ¸a este una dintre propriet ˘at ¸ile definitorii.
Fiebn=bn(x)un estimator de verosimilitate maxim ˘a pentru. Dac ˘ag: !Reste o
funct ¸ie continu ˘a, atunci exist ˘a un estimator de verosimilitate maxim ˘a al luig()s ¸i este dat de
g(n(X)).
Exemplu. ˆIn condit ¸iile ˆın careg() =2estimarea sa de verosimilitate maxim ˘a esteg(bn) =
b2
n.
19

Nedesplasarea s ¸i eficient ¸a sunt alte propriet ˘at ¸i importante.
ˆIn unele condit ¸ii de regularitate, se poate dovedi c ˘a, dac ˘an(X)este un estimator nedeplasat
al luia c˘arui dispersie atinge marginea Rao-Cramer, atunci ecuat ¸ia de verosimilitate are o
solut ¸ie unic ˘a, egal ˘a cun(x).
Cu alte cuvinte, ˆın condit ¸iile ˆın care exist ˘a un estimator nedeplasat a c ˘arui dispersie atinge
limita inferioar ˘a, estimatorul este identic cu estimatorul de verosimilitate maxim ˘a.
Ca o confirmare, s ˘a presupunem c ˘a acest ˘a funct ¸ie de verosimilitate este neted ˘a s ¸i se com-
port˘aˆıntr-un mod regulat, as ¸a cum este ilustrat ˘aˆın urm ˘atoare figur ˘a, unde se observ ˘a c˘a ma-
ximul s ˘au este atins ˆıntr-un unic punct '.
Definit ¸ie. FieX= (X1;:::;Xn)un es ¸antion aleatoriu a c ˘arui densitate f(x;)este funct ¸ie de
un parametru real 2. Estimatorul n=n(X1;:::;Xn)se consider ˘a a fi consistent pentru
dac˘a
lim
n!1P(jbnj<") = 1
82s ¸i scriem c ˘abnP !.
Proprietate. Avem c ˘a pentru orice 
L()<L(0)
dac˘a s ¸i numai dac ˘a
1
nnX
i=1lnf(xi;0)
f(xi;)>0 (3.2.3)
20

Din Legea numerelor mari aceast ˘a sum ˘a3:2:3converge la E0h
lnf(X1;0)
f(X1;)i
care este mai
mare dec ˆat0.
Astfel, se obt ¸ine c ˘abn!cˆandn!1
Teorem ˘a.FieX= (X1;:::;Xn)un es ¸antion aleatoriu a c ˆarui densitate f(x;)este funct ¸ie de
un parametru real 2.ˆIn condit ¸ii adecvate de regularitate, estimatorul de verosimilitate
maxim ˘abn=bn(X1;:::;Xn)este un estimator consistent pentru .
Enunt ¸ul acestei teoreme nu este foarte precis, dar, mai degrab ˘a, scopul nostru este s ˘a ilustr ˘am
ideea principal ˘a.
Mai precis, din moment ce dou ˘a funci ¸iL(;x)s ¸il(;x)se apropie, punctele maxime ar
trebui s ˘a se apropie de asemenea, ceea ce ˆınseamn ˘a exact acest lucru: bn!.
Acum ˆıl consider ˘am peun vector de parametri.
Definit ¸ie. FieX= (X1;:::;Xn)un es ¸antion aleatoriu a c ˘arui densitate f(x;)este funct ¸ie de
vectorul de parametri 2Rk. Un estimator bn=bn(X1;:::;Xn)pentru, cu matricea
de covariant ¸ ˘aVn(),se spune c ˘a este asimptotic normal dac˘a
pn(bn)!DN(0;V())
undeV() = limn!1Vn()
Observat ¸ie. Dac˘abneste asimptotic normal, atunci este aproximativ bnN(;1
nV(). Ma-
tricea1
nV()se numes ¸te variant ¸ ˘a asimptotic ˘a.
21

Teorem ˘a.FieX= (X1;:::;Xn)un es ¸antion aleatoriu a c ˘arui densitate f(x;)este funci ¸e
de vectorul de parametri 2Rk.ˆIn condit ¸ii de regularitate adecvate, estimatorul de
verosimilitate maxim ˘abn=bn(x1;:::;xn)este asimptotic normal. Asta ˆınseamn ˘a c˘a
pn(bn0)!DN(0;la(0)1)
undela(0) = limn!1ln(0)
n(matricea informat ¸ional ˘a asimptotic ˘a)
ln(0) =E"
@2lnf(X;)
@@0
=0#
iar0este o adev ˘arat˘a valoare a parametrului.
Observat ¸ie. Deoarecela(0) = limn!1ln(0)
n=l1(0), avem c ˘apn(bn0)!DN(0;la(0)1)
Consecint ¸a practic ˘a a acestui rezultat este c ˘a, pentru es ¸antioanele mari, c ˆandneste suficient
de mare, estimatorul de verosimilitate maxim ˘aare aproximativ o repartit ¸ie normal ˘a cu vectorul
de medii0s ¸i matricea de variat ¸ie-covariant ¸ ˘al1(0)1
n; scris simbolic bN[;l1(0)1
n].
Definit ¸ie. FieX= (X1;:::;Xn)un es ¸antion aleatoriu a c ˘arui densitate f(x;)este funct ¸ie de
vectorul de parametri 2Rk. Un estimator consistent s ¸i asimptotic normal
bn=bn(X1;:::;Xn)pentru, cu variant ¸a asimptotic ˘a1
nVn(),se spune c ˘a este asimptotic efi-
cient dac˘a variant ¸a asimptotic ˘a a oric ˘arui alt estimator consistent, asimptotic normal distribuit,
dep˘as ¸es ¸te1
nV()printr-o matrice definit ˘a non-negativ ˘a.
Teorem ˘a.FieX= (X1;:::;Xn)un es ¸antion aleatoriu a c ˘arui densitate f(x;)este funci ¸e
de vectorul de parametri 2Rk.ˆIn condit ¸ii adecvate de regularitate , estimatorul de
verosimilitate maxim ˘abn=bn(x1;:::;xn)esteasimptotic eficient .
Proprietate. ˆIn anumite condit ¸ii de regularitate, estimatorul de verosimilitate maxim ˘a posed ˘a
multe propriet ˘at ¸i interesante:
1. este invariant ;
2. este consistent ;
3. este asimptotic normal ;
4. este asimptotic eficient .
22

3.2.2 Aspecte negative ale metodei verosimilit ˘at ¸ii maxime
Ecuat ¸iile de verosimilitate trebuiesc elaborate ˆın mod specific pentru o anumit ˘a problem ˘a de
repartit ¸ie s ¸i estimare. Rezolvarea matematic ˘a este adesea ne-trivial ˘a,ˆın special dac ˘a sunt de
dorit intervale de ˆıncredere pentru parametri.
Estimarea numeric ˘a este de obicei necesar ˘a. Cu except ¸ia c ˆatorva cazuri ˆın care formulele de
verosimilitate maxim ˘a sunt de fapt simple, ˆın general este bine s ˘a se recurg ˘a la softul statistic
deˆınalt˘a calitate pentru a obt ¸ine estim ˘ari prin metoda verosimilit ˘at ¸ii maxime. Din fericire,
software-ul de ˆınalt˘a calitate pentru metoda verosimilit ˘at ¸ii maxime devine din ce ˆın ce mai
comun. Un bun exemplu este softul R.
Funct ¸ia de verosimilitate nu este derivabil ˘aˆıntotdeauna ˆın raport cu .
Exemplu. Fie variabila aleatoare XUniform [0;], cu>0, cu densitatea de repartit ¸ie
f(x) =1
;06×6:
Fie(x1;:::;xn)select ¸ie asupra lui X. Atunci funct ¸ia de verosimilitate este
L(x1;:::;xn;) =1
n1(06min
i=1;nxi)1(max
i=1;nxi);unde 1A=(
1;Aadev ˘arat˘a
0;Afals˘a:
S˘a observ ˘am c ˘aLnu se poate deriva ˆın raport cu , dar este maxim ˘a pentruminim posibil,
adic˘ab(x1;:::;xn) = max
i=1;nxi.
Estim ˘arile de verosimilitate maxim ˘a pot fi puternic deplasate pentru probele mici. Pro-
priet ˘at ¸ile de optimitate nu se aplic ˘a probelor mici.
Exemplu. Consider ˘am exemplul anterior, deci b= max
i=1;nXi. Densitatea de repartit ¸ie a lui b
este
fb(x) =n[F(x)]n1f(x) =nxn1
n;06×6;
deci media sa este
Eb=Z
0nxn
ndx=n
n+ 16=
Un estimator nedeplasat este dat de
b=n+ 1
n=n+ 1
nmax
i=1;nXi
Estimatorul de verosimilitate maxim ˘a nu este neap ˘arat unic.
23

Exemplu. FieXUniform [;+ 1];> 0, cu densitatea de repartit ¸ie f(x) = 1;
6×6+ 1. Fie (x1;:::;xn)select ¸ie asupra lui X. Atunci funct ¸ia de verosimilitate este
L(x1;:::;xn;) = 1(6min
i=1;nxi)1(+1max
i=1;nxi)
Dac˘a not ˘am2= min
i=1;nxi,1= max
i=1;nxi1, atunci oriceb2[1;2]este estimator de verosimi-
litate maxim ˘a (vezi tabelul de mai jos). El va fi unic doar dac ˘a1=2
0121
1(62)1 1 1 1 0
1(1)1 1 1 1 1
L0 1 1 1 0
Verosimilitatea maxim ˘a poate fi sensibil ˘a la alegerea valorilor init ¸iale.
3.3 Alte metode
3.3.1 Metoda Bayes
Metodele de inferent ¸ ˘a statistic ˘a descrise anterior sunt adesea denumite metode clasice. Metodele
Bayesiane (numite dup ˘a matematicianul englez Thomas Bayes) ofer ˘a alternative care s ˘a permit ˘a
combinarea informat ¸iilor prealabile despre parametrul populat ¸iei cu informat ¸iile cont ¸inute
ˆıntr-un es ¸antion pentru a ghida procesul de inferent ¸ ˘a statistic ˘a. Astfel, este specificat ˘a mai ˆıntˆai
o repartit ¸ie de probabilitate apriori pentru un parametru de interes. Informat ¸iile din es ¸antion sunt
apoi obt ¸inute s ¸i combinate printr-o aplicat ¸ie a teoremei lui Bayes pentru a furniza o repartizare
aposteriori a probabilit ˘at ¸ii parametrului. Repartit ¸ia aposteriori ofer ˘a baza pentru inferent ¸ele
statistice referitoare la parametru s ¸i pentru a lua ulterior decizii mai bune.
O caracteristic ˘a cheie s ¸i oarecum controversat ˘a a metodelor Bayesiene este not ¸iunea de
repartit ¸ie de probabilitate pentru un parametru al populat ¸iei. Potrivit statisticii clasice, parametrii
sunt constant ¸i s ¸i nu pot fi reprezentat ¸i ca variabile aleatoare. Argumentele bayesiene sust ¸in c ˘a,
dac˘a o valoare a parametrului este necunoscut ˘a, atunci este logic s ˘a se precizeze o repartit ¸ie de
probabilitate care descrie valorile posibile ale parametrului, precum s ¸i probabilitatea lor. Abor-
darea Bayesian ˘a permite utilizarea unor date obiective sau a unei opinii subiective ˆın specifi-
carea unei repartit ¸ii apriori. Cu abordarea Bayesian ˘a, diferite persoane ar putea specifica diferite
repartit ¸ii apriori. Statisticienii clasici sust ¸in c ˘a, din acest motiv, metodele Bayesiene sufer ˘a de o
lips˘a de obiectivitate. Argumentele bayesiene sust ¸in c ˘a metodele clasice de inferent ¸ ˘a statistic ˘a
au o subiectivitate ˆıncorporat ˘a (prin alegerea unui plan de es ¸antionare) s ¸i c ˘a avantajul abord ˘arii
Bayesiene este c ˘a subiectivitatea este explicit ˘a.
Interpretarea Bayesian ˘a ofer ˘a un set standard de proceduri s ¸i formule pentru a efectua acest
calcul.
24

Utilizarea secvent ¸ial ˘a a formulei Bayes: atunci c ˆand devin disponibile mai multe date, se
calculeaz ˘a distribut ¸ia aposteriori folosind formula lui Bayes; ulterior, distribut ¸ia aposteriori
devine urm ˘atoarea. Pentru a alege o repartit ¸ie de probabilitate a unui parametru dup ˘a ce
s-au observat datele, trebuie s ˘a alegem o repartit ¸ie de probabilitate a parametrului ˆınainte de a
observa datele.
O probabilitate apriori este probabilitatea disponibil ˘aˆın prealabil s ¸i ˆınainte de a face observat ¸ii
suplimentare. O probabilitate aposteriori este probabilitatea obt ¸inut ˘a din probabilitatea apriori
dup˘a ce a fost f ˘acut˘a o observat ¸ie suplimentar ˘a cu privire la cunos ¸tint ¸ele anterioare disponibile.
Fieun parametru, unde P()va fi probabilitatea init ¸ial ˘a a acestuia, adic ˘aP()se mai
numes ¸te s ¸i probabilitatea apriori, ˆınainte ca datele s ˘a fie observate.
Notat ¸ie. CuP(d)not˘am probabilitatea init ¸ial ˘a a datelordcare vor fi observate.
P(dj)reprezint ˘a probabilitatea datelor d,ˆın raport cu ipoteza .
P(jd)reprezint ˘a probabilitatea aposteriori ipotezei , iar ea se calculeaz ˘a dup ˘a obser-
varea datelor d.
Observat ¸ie. Probabilitatea apriori P()este independent ˘a ded.
Cu toate notat ¸iile definite mai sus, putem s ˘a aplic ˘am Teorema lui Bayes pentru a calcula
probabilitatea aposteriori:
P(jd) =P(d;)P()
P(d)
Evaluarea Bayesian ˘a a parametrilor specific ˘a modul ˆın care ar trebui s ˘a ne actualiz ˘am convin-
gerile ˆın lumina probelor nou introduse.
3.3.2 Metoda distant ¸ei minime
FieX1;X2;:::;Xnun es ¸antion independent, identic repartizat dintr-o populat ¸ie cu funct ¸ia de
repartit ¸ieF(x;) :2s ¸iRk;(k1)s ¸i fieFn(x)funct ¸ia de repartit ¸ie empiric ˘a bazat ˘a
pe es ¸antion.
Fiebun estimator pentru . AtunciF(x;b)este un estimator pentru F(x;).
Fied[;]o funct ¸ie care ˆıntoarce o anumit ˘a masur ˘a a distant ¸ei dintre cele dou ˘a argumente;
ea mai poart ˘a denumirea s ¸i de funt ¸ie criteriu .
Dac˘a exist ˘ab2astfel ˆıncˆatdh
F(x;b);Fn(x)i
=inffd[F(x;);Fn(x)] ;2g,
atuncibse va numi estimator de distant ¸ ˘a minim ˘aal lui.
Metodele de distant ¸ ˘a minim ˘a ofer ˘a o mare categorie de proceduri de estimare care posed ˘a
analogii interesante fat ¸ ˘a de alte metode de estimare. Estimarea prin metoda distant ¸ei minime
conduce la o clas ˘a natural ˘a de teste de bun ˘a calitate s ¸i ofer ˘a o tehnic ˘a pentru construirea testului
de ajustare, f ˘ar˘a parametri asimptotici ˆın compozit ¸ia problemei de ajustare.
25

Testul Hi-p ˘atrat al lui Pearson foloses ¸te o m ˘asur˘a a ajust ˘arii care este suma diferent ¸elor
dintre frecvent ¸ele observate s ¸i cele as ¸teptate (adic ˘a num ˘arul de observat ¸ii), fiecare diferent ¸ ˘a
fiind la p ˘atrat s ¸i ˆımp˘art ¸i˘a la frecvent ¸a as ¸teptat ˘a
2=nX
i=1(OiEi)2
Ei
undeOieste o frecvent ¸ ˘a observat ˘a;
Eieste frecvent ¸a as ¸teptat ˘a (teoretic ˘a) pentru clasa iconform ipotezei nule a testului (pentru
aceast ˘a metod ˘a, spat ¸iul de es ¸antionare este ˆımp˘art ¸itˆınnclase, care sunt ˆın general intervale).
Frecvent ¸a as ¸teptat ˘aEieste calculat ˘a astfel:
Ei= (F(Yu)F(Yl))N
undeF=funct ¸ia de repartit ¸ie cumulativ ˘a pentru repartit ¸ia care este testat ˘a;
Yu=limita superioar ˘a pentru clasa i;
Yl=limita inferioar ˘a pentru clasa i;
N=dimensiunea es ¸antionului.
Valoarea rezultat ˘a poate fi comparat ˘a cu o repartit ¸ie hi-p ˘atrat pentru a determina calitatea
ajust ˘arii. Repartit ¸ia hi-p ˘atrat are (kc)grade de libertate, unde keste num ˘arul de celule care
nu sunt goale s ¸i ceste num ˘arul parametrilor estimat ¸i ai repartit ¸iei plus unu. De exemplu, pentru
o repartit ¸ie Weibull cu 3parametri,c= 4.
Revenind la metoda de estimare propriu-zis ˘a, spat ¸iul de es ¸antionare al lui Xesteˆımp˘art ¸itˆın
kclase, iarpi()este definit ˘a ca probabilitatea clasei i, cui= 1;2;:::;k , anume
pi() =Z
x2iclas˘af(x;)dx
Decipi()depinde de valoarea lui . De asemenea, bpieste proport ¸ia din es ¸antionul observat
care se ˆıncadreaz ˘aˆın clasai, cui= 1;2;:::;k . Atunci, estimarea minim ˘a2a luieste valoarea
luicare minimizeaz ˘a:
2=kX
i=1(bpipi())2
pi()
Astfel,face ca2s˘a fie statistic c ˆat mai mic ˘a cu putint ¸ ˘a. O versiune modificat ˘a a formulei
precedente, pentru care calculele pot fi mai simple, deoarece numai num ˘ar˘atorul ˆımplic ˘a, este
s˘a g˘asimcare minimizeaz ˘a:
kX
i=1(bpipi())2
bpi
26

3.3.3 Metoda celor mai mici p ˘atrate
Metoda celor mai mici p ˘atrate, numit ˘aˆın statistic ˘a s ¸i aproximarea celor mai mici p ˘atrate, este
o metod ˘a de estimare a valorii reale a unei anumite cantit ˘at ¸i, care se bazeaz ˘a pe examinarea
erorilor din observat ¸ii sau m ˘asur˘atori. ˆIn particular, consider ˆand dreapta yi=a+bxi, undexi
este valoarea pentru care s-a m ˘asuratyi,este minimizat ˘a suma tuturor abaterilor (yia+bxi)2
prin stabilirea derivatelor part ¸iale ale sumei ˆın raport cu as ¸ibs ¸i egalarea lor cu 0. Metoda poate
fi, de asemenea, generalizat ˘a pentru relat ¸ii neliniare.
Metoda celor mai mici p ˘atrate este o tehnic ˘a statistic ˘a important ˘a utilizat ˘a pentru a g ˘asi o
dreapt ˘a de regresie sau o dreapt ˘a optim ˘a pentru modelul dat. ˆIn analiza de regresie, aceast ˘a
metod ˘a este considerat ˘a a fi o abordare standard pentru aproximarea seturilor de ecuat ¸ii care
au mai multe ecuat ¸ii dec ˆat num ˘arul de necunoscute. Metoda celor mai mici p ˘atrate defines ¸te
de fapt solut ¸ia pentru minimizarea sumelor de abateri sau erori p ˘atratice ˆın rezultatul fiec ˘arei
ecuat ¸ii. Deci, s ˘a presupunem c ˘af(x)este curba de modelat s ¸i calcul ˘am o eroare sau o abatere
de la fiecare punct dat. Putem scrie c ˘a:
d1=y1f(x1)
d2=y2f(x2)
:::
dn=ynf(xn)
Cele mai mici p ˘atrate definesc curba care se potrives ¸te cel mai bine s ¸i este reprezentat ˘a de
proprietatea care spune c ˘a suma p ˘atratelor tuturor abaterilor de la valorile date trebuie s ˘a fie
minim ˘a:
S=nX
i=1d2
i=nX
i=1jyifxij2=d2
1+d2
2+:::+d2
n=minim ˘a
3.4 Exemple
3.4.1 Repartit ¸ii de tip discret
a)Repatit ¸ia Poisson
Variabila aleatoare Xurmeaz ˘a o repartit ¸ie Poisson de parametru , notat ˘aXPo(),
>0, dac ˘a ia valorile 0;1;2;:::cu probabilit ˘at ¸ile
P(X=n) =en
n!
Media s ¸i dispersia sunt egale cu
EX=Var(X) =
Metoda momentelor
27

Se egaleaz ˘aEX=x, deci solut ¸ia este b=x.
Metoda verosimilit ˘at ¸ii maxime
Fiex= (x1;:::;xn)un es ¸antion. Scriem funct ¸ia de verosimilitate ca fiind
L(;x) =nY
i=1P(X=xi)
=nY
i=1exi
xi!
=enPn
i=1xi
nY
i=1xi!(3.4.1)
Logaritm ˘am funct ¸ia de verosimilitate 3:4:1s ¸i obt ¸inem c ˘a
lnL(;x) =n+ nX
i=1xi!
lnln nY
i=1xi!!
(3.4.2)
Introducem notat ¸iaPxi=nxs ¸i deriv ˘am ecuat ¸ia 3:4:2ˆın raport cu s ¸i egal ˘am cu 0
@lnL(;x)
@=n+nx
= 0
de unde rezult ˘a c˘a
e=x
Deci, solut ¸ia metodei momentelor coincide cu solutia metodei verosimilit ˘at ¸ii maxime ˆın
acest caz.
b)Repatit ¸ia Binomial ˘a
Variabila aleatoare Xurmeaz ˘a o repartit ¸ie Binomial ˘a, notat ˘aXBin(m;p), unde
m2Ns ¸ip2[0;1], dac ˘a ia valorile 0;1;2;:::m cu probabilit ˘at ¸ile
P(X=k) =Ck
mpkqmk; undeq= 1p.
Media s ¸i dispersia sunt egale cu
EX=mp
Var(X) =mpq
28

ˆIn acest caz mnu se estimeaz ˘a ca fiind valoarea maxim ˘a din es ¸antion, deci mai r ˘amˆane
de estimat doar pcare va rezulta din egalarea mediei cu x
EX=x)mp=x)bp=x
m
Metoda verosimilit ˘at ¸ii maxime
Fiex= (x1;:::;xn)un es ¸antion s ¸i estim ˘am din nou doar p. Funct ¸ia de verosimilitate este
L(p;x) =nY
i=1P(X=xi)
=nY
i=1Cxi
mpxiqmxi
= nY
i=1Cxi
m!
pPxiqnmPxi(3.4.3)
Logaritm ˘am funct ¸ia de verosimilitate 3:4:1s ¸i obt ¸inem c ˘a
lnL(p;x) = lnY
Cxi
m
+X
xilnp+ (nmX
xi) lnq (3.4.4)
Deriv ˘am ecuat ¸ia 3:4:4ˆın raport cu ps ¸i o egal ˘am cu 0
@lnL(p;x)
@p=nx
p+nmnx
q(1) = 0
ˆınlocuindq= 1pva rezulta c ˘a
x
p=mx
1p
De unde obt ¸inem solut ¸ia
ep=x
m
adic˘a aceeas ¸i solut ¸ie ca la metoda momentelor.
c)Repartit ¸ia geometric ˘a
Aceast ˘a repartit ¸ie se poate defini ˆın dou ˘a moduri:
Metoda I
29

Variabila aleatoare Xurmeaz ˘a o repartit ¸ie geometric ˘a, notat ˘a cuXGeom (p), unde
p2(0;1), dac ˘a are densitatea de repartit ¸ie
P(X=k) = (1p)k1p undek= 1;2;3:::.
Media s ¸i dispersia sunt egale cu
EX=1
p
Var(X) =1p
p2
Metoda momentelor
Rezolv ˘am ecuat ¸ia EX=xcare este echivalent ˘a cux=1
p, de unde rezult ˘a solut ¸iabp=1
x
Metoda verosimilit ˘at ¸ii maxime
Fiex= (x1;:::;xn)un es ¸antion cu funct ¸ia de verosimilitate
L(p;x) =nY
i=1P(X=xi)
=nY
i=1(1p)xi1p
=pn(1p)Pn
i=1(xi1)(3.4.5)
Logaritm ˘am funct ¸ia de verosimilitate 3:4:5s ¸i obt ¸inem c ˘a
lnL(p;x) =nlnp+ nX
i=1(xi1)!
ln(1p) (3.4.6)
Deriv ˘am ecuat ¸ia 3:4:6ˆın raport cu ps ¸i o egal ˘am cu 0
@lnL(p;x)
@p=n
pPn
i=1(xi1)
1p= 0
astfel, vom avea
n
p=Pn
i=1(xi)n
1p)1
p=Pxi
n
Prin urmare, obt ¸inem solut ¸ia
ep=nPxi=1
x
30

deci, aceeas ¸i solut ¸ie cu solut ¸ia metodei momentelor.
Metoda II
Variabila aleatoare Xurmeaz ˘a o repartit ¸ie geometric ˘a, notat ˘a cuXGeom (p), unde
p2(0;1], dac ˘a are densitatea de repartit ¸ie
P(X=k) = (1p)kp undek= 0;1;2;3:::.
Media s ¸i dispersia sunt egale cu
EX=1p
p
Var(X) =1p
p2
Metoda momentelor
Rezolv ˘am ecuat ¸ia EX=xcare este echivalent ˘a cux=1p
p, de unde rezult ˘a solut ¸ia
bp=1
1x.
Metoda verosimilit ˘at ¸ii maxime
Fiex= (x1;:::;xn)un es ¸antion cu funct ¸ia de verosimilitate
L(p;x) =nY
i=1P(X=xi)
=nY
i=1(1p)xip
=pn(1p)Pn
i=1xi(3.4.7)
Logaritm ˘am funct ¸ia de verosimilitate 3:4:7s ¸i obt ¸inem c ˘a
lnL(p;x) =nlnp+ nX
i=1xi!
ln(1p) (3.4.8)
Deriv ˘am ecuat ¸ia 3:4:8ˆın raport cu ps ¸i o egal ˘am cu 0
@lnL(p;x)
@p=n
pPxi
1p= 0
31

astfel, vom avea c ˘a
n
p=Pxi
1p)p
1p=nPxi
S ¸tim c ˘anPxi=1
x, prin urmare, solut ¸ia pe care o obt ¸inem este
ep=1
1 +x
deci, s-a obt ¸inut aceeas ¸i solut ¸ie ca la metoda momentelor.
3.4.2 Repartit ¸ii de tip continuu
a)Repartit ¸ia exponent ¸ial ˘a
Variabila aleatoare Xurmeaz ˘a o repartit ¸ie exponent ¸ial ˘a, notat ˘aXExp(), > 0,
dac˘a are densitatea de repartit ¸ie
f(x) =ex; cˆandx>0:
Media sa este
EX=1

iar dispersia este
Var(X) =1
2
Metoda momentelor
Se rezolv ˘a ecuat ¸ia EX=x, care este echivalent ˘a cu1
=x. Astfel obt ¸inem solut ¸ia
b=1
x.
Metoda verosimilit ˘at ¸ii maxime
Fiex= (x1;:::;xn)un es ¸antion. Scriem funct ¸ia de verosimilitate ca fiind
L(;x) =nY
i=1f(xi) =nY
i=1exi
=nePn
i=1xi(3.4.9)
Logaritm ˘am funct ¸ia de verosimilitate 3:4:9s ¸i obt ¸inem c ˘a
lnL(;x) =nlnnX
i=1xi (3.4.10)
32

V om deriva ecuat ¸ia 3:4:10ˆın raport cu , apoi egal ˘am cu 0
@lnL(;x)
@=n
nx= 0
)n
=nx
de unde solut ¸ia
e=1
x
Deci, solut ¸ia metodei momentelor este aceeas ¸i cu solut ¸ia metodei verosimilit ˘at ¸ii maxime
ˆın acest caz.
b)Repartit ¸ia gamma
Variabila aleatoare Xeste repartizat ˘a gamma, notat ˘aXGamma ( ; ), cu ; > 0,
dac˘a are densitatea de repartit ¸ie
f(x) =
( )x 1e x; cˆandx>0: (3.4.11)
Media s ¸i dispersia sunt
EX=

Var(X) =
2
Metoda momentelor
Egal ˘am primele dou ˘a momente teoretice cu cele empirice
8
><
>:EX=x
Var(X) =S2()8
>>><
>>>:
=x

2=S2(3.4.12)
Din prima ecuat ¸ie a sistemului 3:4:12vom obt ¸ine
x
=S2)b =x
S2(3.4.13)
iar apoi vom ˆınlocui rezultatul obt ¸inut 3:4:13pentru a calcula b
b =b x)b =x2
S2
33

Deci, solut ¸ia sistemului 3:4:12este
8
>>><
>>>:b =x2
S2
b =x2
S2
Metoda verosimilit ˘at ¸ii maxime
Fiex= (x1;:::;xn)un es ¸antion. Scriem funct ¸ia de verosimilitate astfel
L( ; ;x) =nY
i=1f(xi) =nY
i=1
( )x 1
ie xi
= n
( )n nY
i=1xi! 1
e Pn
i=1xi(3.4.14)
Logaritm ˘am funct ¸ia de verosimilitate 3:4:14s ¸i obt ¸inem c ˘a
lnL( ; ;x) =n ln nln ( ) + ( 1) lnY
x1
nX
i=1xi (3.4.15)
Deriv ˘am ecuat ¸ia 3:4:15ˆın raport cu s ¸i s ¸i egal ˘am cu 0
8
>>>>><
>>>>>:@lnL( ; ;x)
@ =nln n
( )d( )
d + lnY
xi
= 0
@lnL( ; ;x)
@ =n
nX
i=1xi= 0(3.4.16)
Rezolv ˘am a doua ecuat ¸ie a sistemului 3:4:16s ¸iˆıl aflam pe
b =n Pxi=
(3.4.17)
ˆInlocuim rezultatul obt ¸inut 3:4:17ˆın prima ecuat ¸ie a sistemului 3:4:16, astfel, obt ¸inem
urm˘atoarea ecuat ¸ie care trebuie rezolvat ˘a numeric
nln
xn
( )d(( ))
d + lnY
xi
= 0 (3.4.18)
Aceast ˘a ecuat ¸ie 3:4:18se reprezint ˘a folosind un software matematic, iar ca valoare de
pornire pentru se poate folosi b obt ¸inut prin metoda momentelor.
34

4 Estimarea parametrilor ˆın R
4.1 Programul R
R poate fi privit ca o implementare a limbajului S, dezvoltat la Bell Laboratories de Rick Becker,
John Chambers s ¸i Allan Wilks, s ¸i constituie, de asemenea, baza sistemelor S-PLUS.
R const ˘aˆıntr-o serie de facilit ˘at ¸i software integrate pentru manipularea datelor, calcul s ¸i
afis ¸are grafic ˘a. Printre alte lucruri pe care le cont ¸ine, amintim:
– o unitate eficient ˘a de manipulare s ¸i stocare a datelor;
– o serie de operatori pentru calcule pe mult ¸imi s ¸i vectori, ˆın special pe matrici;
– o colect ¸ie larg ˘a, coerent ˘a s ¸i integrat ˘a de instrumente intermediare pentru analiza datelor;
– facilit ˘at ¸i grafice pentru analiza s ¸i afis ¸area datelor, fie direct pe ecran, fie la imprimant ˘a;
– un limbaj de programare bine dezvoltat, care include instruct ¸iuni de condit ¸ionare, de
ciclare, funct ¸ii recursive definite de utilizator s ¸i facilit ˘at ¸i de intrare s ¸i ies ¸ire.
Termenul mediu de programare este utilizat a-l prezenta ca un sistem complet planificat s ¸i
absolut coerent, mai mult dec ˆat ca pe o sum ˘a de instrumente specifice s ¸i inflexibile, as ¸a cum se
ˆıntˆampl ˘a deseori cu alte programe de analiz ˘a a datelor.
R este un program utilizat pentru metode de analiz ˘a interactiv ˘a a datelor. Acesta a luat
amploare s ¸i a cunoscut cres ¸teri semnificative printr-o multitudine de pachete. S ¸i totus ¸i, cele mai
multe programe scrise ˆın R sunt concepute doar pentru o singur ˘a analiz ˘a a datelor.
Majoritatea utilizatorilor programului R ˆıl folosesc drept sistem statistic deoarece au fost
implementate multe tehnici statistice clasice s ¸i moderne. Pogramul ˆınregistreaz ˘a aproximativ
25de pachete, numite pachete standard saurecomandate ,iar numeroase altele pachete sunt
disponibile prin familia CRAN.
Acest program este utilizat ˆın cele mai multe tehnici statistice clasice s ¸i ˆın multe din metodologi-
ile actuale, iar cei care le prefer ˘a trebuie s ˘a le identifice printre pachetele disponibile.
S-a constatat o diferent ¸ ˘a semnificativ ˘aˆıntre filozofia S (s ¸i, prin urmare, R) s ¸i celelalte sis-
teme statistice principale. ˆIn S, o analiz ˘a statistic ˘a se realizeaz ˘aˆın mod firesc ca o serie de
pas ¸i, iar rezultatele intermediare fiind stocate ˆın obiecte. As ¸adar, ˆın timp ce SAS s ¸i SPSS vor
genera rezultate numeroase dintr-o analiz ˘a de regresie, R va oferi rezultate minime s ¸i va stoca
rezultatele ˆıntr-un obiect adecvat pentru interogarea ulterioar ˘a prin alte funct ¸ii R.
O utilizare potrivit ˘a a programului R va determina un set cuprinz ˘ator de tabele statistice.
Funct ¸iile furnizate sunt construite pentru a evalua funct ¸ia de repartit ¸ie cumulativ ˘aP(X6x),
funct ¸ia densit ˘at ¸ii de probabilitate, funct ¸ia quantila (dat fiind q, cel mai mic xastfel ˆıncˆatP(X6
x)> qs ¸i pentru a simula din distribut ¸ie. Cele mai cunoscute repartit ¸ii puse la dispozit ¸ie de R
sunt prezentate ˆın urm ˘atorul tabel:
35

Repartit ¸ii denumire ˆın R argumente suplimentare
beta beta shape1, shape2, ncp
binomial ˘a binom size, prob
Cauchy cauchy location, scale
Hi-p ˘atrat chisq df, ncp
exponent ¸ial ˘a exp rate
F f df1, df2, ncp
Gamma gamma shape, scale
geometric ˘a geom prob
hipergeometric ˘a hyper m, n, k
log-normal lnorm meanlog, sdlog
logistic ˘a logis location, scale
binomial ˘a negativ ˘a nbinom size, prob
normal ˘a norm mean, sd
Poisson pois lambda
t Student t df, ncp
uniform ˘a unif min, max
Weibull weibull shape, scale
Wilcoxon wilcox m, n
ˆIn R sunt notate denumirea repartit ¸iei cu dpentru densitate, pentru funct ¸ia de repartit ,ie cu
p, pentru funct ¸ia quantil ˘a cuq, iar pentru simulare cu r. Dac ˘a numele este x, se va scrie dxxx ,
pxxx ,qxxx s ¸i respectivrxxx .
ˆIn pachetele SuppDists sunt disponibile s ¸i alte repartit ¸ii.
Programul R pune la dispozit ¸ie utilizatorului o serie de instrumente care ajut ˘a la ajustarea
modelelor statistice.
ˆIn utilizarea metodelor statistice, valorile init ¸iale ale parametrilo sunt foarte importante, iar
convergent ¸a depinde de calitatea acestor valori de pornire.
4.2 Funct ¸ii R specifice
Pentru o bun ˘a funct ¸ionare a programului R acesta trebuie s ˘a cont ¸in ˘a funct ¸iile de baz ˘a, funct ¸iile
statistice, graficele standard s ¸i seturile de date. Acestea se g ˘asesc ˆın mare parte ˆın pachetele
standar, considerate parte a codului surs ˘a R.
Cu scopul de a realiza ajustarea repartit ¸iilor parametrice univariate la date cenzurate sau
necenzurate se apeleaz ˘a la pachetul fitdistrplus , fiind un pachet general cu dou ˘a funct ¸ii gen-
erale. Prima funct ¸ie este fitdist care serves ¸te la ajustarea datelor necenzurate, iar cea de-a doua
serves ¸te la ajustarea datelor cenzurate s ¸i se numes ¸te fitdistcens . Selectarea repartit ¸iilor can-
didate ˆın vederea ajustarii poate fi condus ˘a folosind funct ¸iile descdist s ¸iplotdist pentru date
necenzurate s ¸i plotdistcens pentru datele cenzurate.
36

Funct ¸iile fitdist s ¸ifitdistcens pot folosi diverse metode pentru a estima parametrii de repartit ¸ie,
cum ar fi:
– estimarea prin metoda verosimilit ˘at ¸ii maxime, ˆın mod implicit ( mledist );
– estimarea prin metoda momentelor ( mmedist );
– estimarea prin metoda egal ˘arii cuantilelor ( qmedist );
– estimarea prin maximizarea ajust ˘arii (mgedist ).
Metoda verosimilit ˘at ¸ii maxime, potrivirea momentelor (mme), ajustarea cu cuantile (qme)
sau maximizarea ajust ˘arii (fit-fit) sunt metode care realizeaz ˘a ajustarea repartit ¸iilor univariate
la date necenzurate. Maximizarea ajust ˘arii (fit-fit) poart ˘a denumirea s ¸i de metoda minimiz ˘arii
distant ¸ei estimate. Funct ¸iile generice sunt print ,plot,rezumat ,quantile ,logLik ,vcov s ¸i
coef .
Utilizarea funct ¸iei fitdist :
Detalii asupra metodelor alese:
Dac˘a se alege metoda mle, se realizeaz ˘a estimarea prin metoda verosimilit ˘at ¸ii maxime, care
se concretizeaz ˘aˆın maximizarea probabilit ˘at ¸ii logaritmice. O optimizare numeric ˘a se realizeaz ˘a
ˆınmledist prin funct ¸ia optim pentru a identifica relevante valori.
ˆIn cazul ˆın care se alege metoda mme , estimarea se va realiza prin metoda momentelor s ¸i ca
urmare se egalarez ˘a momentelor teoretice cu cele empirice. Valorile estimate ale parametrilor de
distribut ¸ie sunt calculate printr-o formul ˘aˆınchis ˘a pentru urm ˘atoarele distribut ¸ii: norm ,lnorm ,
pois,exp,gamma ,nbinom ,geom ,beta,unif s ¸ilogis . Ca urmare, se vor potrivi numeric
momentele teoretice s ¸i cele empirice, minimiz ˆand sumele diferent ¸elor p ˘atrate dintre momentele
observate s ¸i cele teoretice.
4.3 Exemple numerice de utilizare a funct ¸iei fitdist
Repartit ¸ia Gamma
Pentru exemplificare se vor genera ˆın programul urm ˘ator1000 de valori din repartit ¸ia Gamma
de parametri: shape = 2 s ¸irate = 1:5. Se calculeaz ˘a utiliz ˆand funct ¸ia fitdist valorile esti-
mate ale parametrilor prin shape s ¸irate prin dou ˘a metode: metoda momentelor s ¸i metoda
verosimilit ˘at ¸ii maxime. Valorile ce se vor obt ¸ine se g ˘asesc ˆıntre liniile de cod. Se observ ˘a c˘a
37

aceste valori sunt diferite de valorile init ¸iale, as ¸a cum era de presupus, ˆın conformitate cu cal-
culelor din Sect ¸iunea 3:4:2. Se remarc ˘a faptul c ˘a din valorile afis ¸ate pentru funct ¸ia de verosimili-
tate, pentru cei doi coeficient ¸ii AIC s ¸iBIC se observ ˘a c˘a estimat ¸ia realizat ˘a cu ajutorul metodei
verosimilit ˘at ¸ii maxime este de preferat, cu toate c ˘a diferent ¸ele nu sunt semnificative.
ˆIn histograma urm ˘atoare am ilustrat grafic calitatea ajust ˘arii s ¸i am suprapus peste datele
generate curba densit ˘at ¸ii Gamma cu parametrii estimat ¸i prin metoda verosimilit ˘at ¸ii maxime
(shape = 1:960193 ,rate = 1:442275 ).
38

Repartit ¸ia exponent ¸ial ˘a
Pentru a ilustra repartit ¸ia exponent ¸ial ˘a de parametru rate = 1s-au generat 1000 de valori ˆın
urm˘atorul program. Utiliz ˆand funct ¸iafitdist se calculeaz ˘a prin cele dou ˘a metode aprofundate
ˆın prezenta lucrare, metoda momentelor s ¸i metoda verosimilit ˘at ¸ii maxime, valorile estimate ale
parametrului. Se poate observa c ˘a rezultatul obt ¸inut se afl ˘aˆıntre liniile de cod. Se remarc ˘a cum
valorile care au fost estimate sunt egale s ¸i foarte aproape de valoarea real ˘a as ¸a cum calculele
din Sect ¸iunea 3:4:2ne confirm ˘a.
Pentru a observa s ¸i grafic calitatea ajust ˘arii,ˆın figura ce urmeaz ˘a este prezentat ˘a histograma
datelor generate s ¸i cu linie punctat ˘a este trasat ˘a curba densit ˘at ¸ii exponent ¸iale cu parametrul
estimatrate = 0:9970628 .
39

Repartit ¸ia normal ˘a
ˆIn codul prezentat mai jos se exemplific ˘a repartit ¸ia normal ˘a. Sunt generate 1000 de valori
din aceast ˘a repartit ¸ie de parametri: mean = 0 s ¸isd= 1:5. Se efectueaz ˘a calculul cu ajutorul
funct ¸ieifitdist s ¸i vor rezulta valorile estimate ale parametrilor prin dou ˘a metode: metoda mo-
mentelor s ¸i metoda verosimilit ˘at ¸ii maxime. Cele dou ˘a valori rezultate se g ˘asesc ˆıntre liniile de
cod s ¸i sunt identice, asa cum demonstreaz ˘a s ¸i calculele ˆın exemplul din Sect ¸iunea 3:2:1.
ˆIn cele ce urmeaz ˘a sunt reprezentate grafic calitatea ajust ˘arii, mai precis histograma datelor
generate s ¸i trasat ˘a curba densit ˘at ¸ii normale cu parametrii ce au fost estimat ¸i mean = 0:02099012
s ¸isd= 0:99719439 .
40

Repartit ¸ia geometric ˘a
Pentru repartit ¸ia geometric ˘a se va genera cu ajutorul funct ¸iei rgeom 1000 de valori s ¸i
parametru:prob = 0:2. Se determin ˘a valorile estimate ale parametrului prob cu funct ¸iafitdist
prin metoda momentelor s ¸i metoda verosimilit ˘at ¸ii maxime. Se constat ˘a faptul c ˘a valori estimate
prin cele dou ˘a metode sunt identice, confir ˆamd calculele f ˘acute ˆın Sect ¸iunea 3.4.1.
As ¸adar, se trece la reprezentarea grafic ˘a a histogramei datelor generate s ¸i a curbei densit ˘at ¸ii
geometrice cu parametrul ce a fost estimat ca fiind mean = 0:2027575 .
41

Repartit ¸ia Poisson
ˆIn aceast ˘a sect ¸iune vom genera 1000 de date pentru repartit ¸ia Poisson c ˆand lambda ia val-
oarea 6s ¸i vom calcula lambda prin metoda momentelor s ¸i metoda verosimilit ˘at ¸ii maxime, ur-
mat˘a de reprezentarea histogramei s ¸i a curbei Poisson.
ˆIn comanda urm ˘atoare gener ˘am100de date pe care le putem reprezenta cu ajutorul funct ¸iei
barplot , adic ˘a diagrama cu bare.
42

Fig. 2: Histograma pentru 100de date generate din repartit ¸ia Poisson cu lambda egal 6
ˆIn cele ce urmeaz ˘a reprezent ˘am sub form ˘a de diagram ˘a cu bastonas ¸e probabilit ˘at ¸ile teoretice
pentru repatit ¸ia Poisson cu lambda egal cu 6. Calculul s-a f ˘acut p ˆan˘a la limita maxim ˘al= 13 ,
fiind surprins ˘a aproximativ 99:637% din probabilitate as ¸a cum se vede din comanda sum().
43

Fig. 3: Probabilit ˘at ¸ile pentru repartit ¸ia Poisson cu lambda egal 6
Cu ajutorul comenzii par(new =TRUE )putem suprapune oricare dou ˘a grafice. Prin ur-
mare, am suprapus histograma pentru datele generate cu probabilit ˘at ¸ile teoretice. Observ ˘am c ˘a
exist ˘a diferent ¸e ˆıntre cele dou ˘a grafice, care pot fi explicate prin num ˘arul mic de date generate,
doar100.
Fig. 4: Histograma s ¸i repartit ¸ia teoretic ˘a suprapuse pentru 100de date generate
44

S˘a vedem ce se ˆıntˆampl ˘a pentru mai multe date generate, astfel c ˘a,ˆın cele ce urmeaz ˘a
gener ˘am1000 de date pentru repartit ¸ia Poisson.
Fig. 5: Histograma s ¸i repartit ¸ia teoretic ˘a suprapuse pentru 1000 de date generate
Din cele dou ˘a Figuri 4s ¸i5, se observ ˘a cˆat de mare este impactul volumului de date: cu c ˆat
mai multe date avem ˆın studiu, cu at ˆat este mai bun ˘a ajustarea repartit ¸iei teoretice. De aceea
este recomandabil a se culege c ˆat mai multe date, recomandarea general ˘a fiind de minim 100,
dar observ ˘am c ˘a un volum mai mare de 1000 de date d ˘a rezultate mult mai bune.
45

Variat ¸ia lui :
Pentru diferitele valori luate de lambda ( ), adic ˘a5,10,15, funct ¸ia de probabilitate o s ˘a
varieze ˆın felul urm ˘ator:
Fig. 6: Probabilit ˘at ¸ile pentru repartit ¸ia Poisson c ˆand lambda variaz ˘a
4.4 Exemplu numeric pentru repartit ¸ia binomial ˘a: aplicarea direct ˘a a
metodei verosimilit ˘at ¸ii maxime
Metoda verosimilit ˘at ¸ii maxime este o tehnic ˘a statistic ˘a pentru estimarea parametrilor modelului.
ˆIn esent ¸ ˘a, se dores ¸te s ˘a se r ˘aspund ˘a laˆıntrebarea: ce parametri de model caracterizeaz ˘a cel mai
46

probabil un anumit set de date? Mai ˆıntˆai trebuie s ˘a select ˘am un model pentru date, iar modelul
trebuie s ˘a aib ˘a unul sau mai mult ¸i parametri (necunoscut ¸i). Dup ˘a cum sugereaz ˘a s ¸i numele,
estimarea verosimilit ˘at ¸ii maxime const ˘aˆın a maximiza o funct ¸ie de probabilitate, care la r ˆandul
s˘au maximizeaz ˘a acordul dintre model s ¸i date.
Cele mai multe exemple ilustrative ale metodei verosimilit ˘at ¸ii maxime urm ˘aresc s ˘a obt ¸in ˘a
parametrii pentru o funct ¸ie de densitate a probabilit ˘at ¸ii (FDP) a unei repartit ¸ii particulare. ˆIn
acest caz, funct ¸ia de probabilitate este obt ¸inut ˘a prin examinarea FDP-ului nu ca o funct ¸ie a vari-
abilei es ¸antionului, ci ca o funct ¸ie a parametrilor distribut ¸iei. Pentru fiecare punct din date avem
o funct ¸ie ce depinde de parametrii repartit ¸iei. Probabilitatea comun ˘a a setului complet de date
este rezultatul produsului acestor funct ¸ii. Acest produs este ˆın general foarte mic, astfel ˆıncˆat
funct ¸ia de probabilitate este ˆın mod normal ˆınlocuit ˘a de o funct ¸ie logaritmat ˘a. Maximizarea fie
a funct ¸iei probabilit ˘at ¸ii, fie a funct ¸iei de logaritmare d ˘a aceleas ¸i rezultate.
ˆIn continuare vom prezenta estimarea verosimilit ˘at ¸ii maxime a parametrului repartit ¸iei bi-
nomiale.
Un experiment Bernoulli este un experiment cu dou ˘a rezultate potent ¸iale, de exemplu: da /
nu, succes / es ¸ec, mort / ˆın viat ¸ ˘a, cap / coad ˘a etc.
Repartit ¸ia binomial ˘a d˘a probabilitatea a xsuccese ˆıntr-o secvent ¸ ˘a deNexperimente Bernoulli
independente, atunci c ˆand probabilitatea de succes ˆın fiecare ˆıncercare este egal ˘a cup.
Parametrii unei repartit ¸ii binomiale sunt:
N- num ˘arul de ˆıncerc ˘ari (ia valori ˆınN);
p- probabilitatea de succes ˆın fiecare ˆıncercare (ia valori in intervalul [0;1]).
Simularea numerelor aleatorii din repartit ¸ia binomial ˘a:
Pentru generarea de numere aleatoare se foloses ¸te funct ¸ia rbinom (). Urm ˘atoarea comand ˘a
genereaz ˘a30de numere aleatoare dintr-o repartit ¸ie binomial ˘a cup= 0;5s ¸iN= 10 . Setul de
date simulat va fi diferit pentru fiecare execut ¸ie ˆın parte datorit ˘a aleatoriului. Simularea ar putea
reprezenta, de exemplu, 30de student ¸i care arunc ˘a fiecare c ˆate10monede (N= 10 ) s ¸i num ˘ar˘a
num˘arul de monede care prezint ˘a cap (p= 0;5). Cu funct ¸ia table ()putem num ˘ara c ˆat de des
s-a produs fiecare num ˘ar de succese (adic ˘a, moneda care prezint ˘a capul).
Acum datele sunt vizualizate folosind barplot (diagrama cu bare).
47

Repartit ¸ia binomial ˘a:
Spre deosebire de funct ¸ia rbinom (), care genereaz ˘a numere aleatoare, funct ¸ia dbinom ()
caluleaz ˘a probabilitatea a xsuccese pentru valorile parametrilor ps ¸iN.ddin numele funct ¸iei
este derivat din densitate, deoarece pentru funct ¸iile de repartit ¸ie continu ˘a, cum ar fi repartit ¸iile
normale, aceast ˘a funct ¸ie se numes ¸te funct ¸ie de densitate de probabilitate. Totus ¸i, pentru repar-
tit ¸iile discrete, incluz ˆand repartit ¸iile binomiale, aceast ˘a funct ¸ie se numes ¸te funct ¸ia de mas ˘a
a probabilit ˘at ¸ii. Aceasta ˆınseamn ˘a c˘a, chiar dac ˘a aceast ˘a terminologie este confuz ˘a, funct ¸ia
dbinom ()asigur ˘a funct ¸ia de mas ˘a a probabilit ˘at ¸ii repartit ¸iei binomiale.
Maiˆıntˆai, vizualiz ˘am aceast ˘a funct ¸ie pentru un anumit set de parametri. Ret ¸inem c ˘a proba-
bilit˘at ¸ile trebuie s ˘a fie de p ˆan˘a la unu, prin definit ¸ie. C ˆand arunci zece monede, s ¸tii c ˘a cele dou ˘a
capete vor fi ˆıntre zero s ¸i zece, adic ˘a probabilitatea unui rezultat ˆıntre zero s ¸i zece este egal ˘a cu
unu.
48

Variat ¸ia lui p:
La urm ˘atorul pas evalu ˘am modul ˆın care arat ˘a funct ¸ia de probabilitate pentru diferite valori
ale luip.
49

Variat ¸ia lui N:
Acum, verific ˘am cum arat ˘a funct ¸ia pentru diferite valori ale lui N.
Calculul verosimilit ˘at ¸ii:
Verosimilitatea este definit ˘a ca probabilitatea datelor furnizate modelului. Cu dbinom ()
obt ¸inem probabilitatea pentru fiecare prob ˘a, presupun ˆand o anumit ˘a valoare a parametrului p.
ˆIn acest caz s ¸tim adev ˘arata valoare a lui p, pentru c ˘a am simulat datele . Cu toate acestea, c ˆand
avem date reale, de obicei nu cunoas ¸tem adev ˘arata valoare a lui p. Parametrul Neste definit de
obicei prin proiectarea experimentului sau din es ¸antion (se ia valoarea maxim ˘a din date).
50

Cu toate acestea, dorim s ˘a s ¸tim verosimilitatea ˆıntregului set de date s ¸i nu a fiec ˘arui punct
de date individual. Presupunem c ˘a valorile din setul de date s-au obt ¸inut independent. Pentru
valorile independente obt ¸inem probabilitatea general ˘a a setului de date prin ˆınmult ¸irea valorilor
unice.
Aparent, acesta este un num ˘ar foarte mic. Pentru a evita problemele numerice de obicei
este calculat ˘alog-verosimilitatea, care furnizeaz ˘a valori care sunt numeric mai maleabile (adic ˘a
valori negative care nu sunt la fel de aproape de zero).
Ne amintim c ˘alog(ab) = loga+ logb. Acest lucru indic ˘a faptul c ˘a trebuie s ˘a rezum ˘am
verosimilitatea unic ˘a a logaritmului ˆın loc s ˘a multiplic ˘am valorile de verosimilitate netransfor-
mate. De ret ¸inut c ˘a logaritmul se obt ¸ine egal ˆandlogcu argumentul Tˆın funct ¸iadbinom ().
Desigur, acest lucru d ˘a verosimilitatea unei valori specifice a parametrului. Pentru a putea
calcula verosimilitatea oric ˘aror valori ale parametrilor, definim o funct ¸ie pentru verosimilitatea
logaritmului cu parametri s ¸i datele ca argumente.
Estimarea metodei verosimilit ˘at ¸ii maxime:
ˆIn cele din urm ˘a, dorim s ˘a deriv ˘am estimarea verosimilit ˘at ¸ii maxime a lui p. Aceasta
ˆınseamn ˘a c˘a am dori s ˘a g˘asim modelul respectiv, respectiv setul de parametri care a generat
cel mai probabil datele.
Pentru a ˆınt,elege mai bine acest lucru, vizualiz ˘am mai ˆıntˆai datele cu modele de valori
diferite ale parametrilor. ˆIn acest scop, frecvent ¸ele absolute observate ˆın date sunt conver-
titeˆın proport ¸ii prin ˆımp˘art ¸irea la dimensiunea es ¸antionului. Ret ¸inet ¸i c ˘a frecvent ¸ele absolute
sumeaz ˘a la dimensiunea es ¸antionului ( 30ˆın acest exemplu), ˆın timp ce proport ¸iile sumeaz ˘a la
unu. Aceasta ˆınseamn ˘a c˘aci conversia de la frecvent ¸e absolute la proport ¸ii standardizeaz ˘a datele
s ¸i probabilit ˘at ¸ile teoretice la aceeas ¸i scal ˘a.
51

Aceast ˘a imagine furnizeaz ˘a o p ˘arere vizual ˘a despre cam ce valori ale parametrului ar putea
fi utile sau, cu alte cuvinte, care sunt valorile parametrului cele mai probabile pentru datele ge-
nerate. Pentru a obt ¸ine estimarea verosimilit ˘at ¸ii maxime a lui p, vom evalua funct ¸ia de verosimi-
litate pentru o secvent ¸ ˘a de valori ale parametrilor folosind o dimensiune fin ˘a a pasului. Ret ¸inet ¸i
c˘a valoarea maxim ˘a alog-verosimilit ˘at ¸ii este identic ˘a cu cea a verosimilit ˘at ¸ii maxime, deoarece
funct ¸ialogeste o funct ¸ie monoton ˘a cresc ˘atoare.
52

Evident, estimarea verosimilit ˘at ¸ii maxime se apropie, dar difer ˘a de valoarea real ˘a utilizat ˘a
pentru generarea datelor. Cu toate acestea, cu c ˆat dimensiunea es ¸antionului este mai mare, cu
atˆat mai mic ˘a va fi aceast ˘a diferent ¸ ˘a (ˆın medie).
ˆIn cele din urm ˘a, reprezent ˘am datele simultan cu repartit ¸ia teoretic ˘a de baz ˘a, precum s ¸i cu
repartit ¸ia bazat ˘a pe estimarea metodei verosimilit ˘at ¸ii maxime.
53

4.5 Aplicat ¸ie: analiza unui set real de date ( setul danish )
Setul de date danish se g˘ases ¸te ˆın pachetulSMPracticals s ¸i reprezint ˘a2492 de costuri pl ˘atite
de asigur ˘ariˆın urma incendiilor dintr-un an din Danemarca.
Am estimat parametrii pentru 4repartit ¸ii clasice: normal ˘a, exponent ¸ial ˘a, Gamma s ¸i lognor-
mal˘a.
54

Rezultatele sunt prezentate ˆın tabelul de mai jos.
Repartit ¸ii Parametrii LogVer AIC BIC
Exponent ¸ial ˘a rate=0.3265094 -5281.287 10564.57 10570.39
Gammashape=1.2582349
rate =0.4108976-5243.027 10490.05 10501.7
Normal ˘amean=3.062699
sd =7.975102-8710.195 17424.39 17436.03
Lognormal ˘ameanlog=0.6718537
sdlog =0.7323167-4433.891 8871.782 8883.423
Deoarece criteriile AIC s ¸iBIC aleg repartit ¸ia cu valoarea cea mai mic ˘a din tabelul prezen-
tat mai sus, se observ ˘a c˘aAIC s ¸iBIC se obt ¸in pentru repartit ¸ia lognormal ˘a. Aceasta va fi cea
mai bun ˘a repartit ¸ie pentru datele danish .
55

4.6 Concluzii
Estimarea parametrilor unui model statistic este una dintre problemele fundamentale ale statis-
ticii. Alegerea unui estimator corespunz ˘ator, adic ˘a un estimator care s ˘a fie cel mai bun din
anumite puncte de vedere, este o sarcin ˘a foarte important ˘a care necesit ˘a criterii de optimali-
tate, as ¸a cum s-a v ˘azut la metoda verosimilit ˘at ¸ii maxime. ˆIn acest sens , ˆın lucrarea de fat ¸ ˘a am
prezentat metodele de estimare cele mai frecvent folosite s ¸i mai eficiente, anume: metoda mo-
mentelor s ¸i metoda verosimilit ˘at ¸ii maxime. Am discutat pe scurt diverse propriet ˘at ¸i ale acestor
metode s ¸i am trecut ˆın revist ˘a s ¸i alte metode de estimare.
As ¸a cum s-a putut constata estimarea parametrilor necesit ˘aˆın general calcule complexe s ¸i
ca urmare utilizarea unor softuri specializate.
Prin exemplele anterioare am urm ˘arit s ˘a subliniez c ˆat de util este softul R ˆın analiza datelor
s ¸i pentru estimarea parametrilor s ¸i c ˆat de us ¸or este de folosit ˆın practic ˘a. De asemena, disponi-
bilitatea unui num ˘ar mare de funct ¸ii statistice s ¸i a facilit ˘at ¸ilor grafice, plus faptul c ˘a este un
soft gratuit, accesibil s ¸i ˆın continu ˘a dezvoltare, ˆıl face unul dintre softurile cele mai utilizate ˆın
prezent.
La acestea se adaug ˘a faptul c ˘a softul permite analiza unui num ˘ar foarte mare de date care
pot fi importate din diverse tipuri de fis ¸iere, cum ar fi fis ¸ierele Excel sau text.
Astfel, am observat modul ˆın care tehnicile noi sau existente pot fi aplicate ˆıntr-o zon ˘a de
interes curent folosind R, oferind o nou ˘a perspectiv ˘a a unor astfel de analize ˆın acest program,
care au un beneficiu dincolo de aplicarea specific ˘a.
56

Bibliografie
[1] Beganu, G. Elemente de teoria probabilit ˘at ¸ilor s ¸i statistic ˘a matematic ˘a. Editura, Meteor
Publishing, 2004.
[2] Mircea, I., Sibiceanu, M. s ¸i Tudor, M. Probabilit ˘at ¸i, statistic ˘a s ¸i aplicat ¸ii . Editura, ASE,
2009.
[3] Johnson N.L., Kemp, A.W., Kotz, S. Univariate Discrete Distributions . Editura, Wiley,
2005.
[4] Johnson, N.L., Kotz, S. Distributions in Statistics: Continuous Univariate Distributions,
Volume 2 . Editura, Houghton Mifflin, 1970.
[5] Statistics-Lecture One,
https://www.stat.berkeley.edu/\ ˜vigre/activities/bootstrap/
2006/wickham_stati.pdf
[6] Maximum Likelihood Estimation (MLE),
http://www.sherrytowers.com/mle_introduction.pdf
[7] An Introduction to R,
https://cran.r-project.org/doc/manuals/r-release/R-intro.
html#R-and-statistics
57

Similar Posts