Specializarea Matematic a-Informatic a [612305]
Ministerul Educat ¸iei Nat ¸ionale s ¸i Cercet ˘arii S ¸tiint ¸ifice
Universitatea OVIDIUS Constant ¸a
Facultatea de Matematic ˘a s ¸i Informatic ˘a
Specializarea Matematic ˘a-Informatic ˘a
Tehnici de inferent ¸ ˘a statistic ˘a: estimarea parametrilor
Lucrare de licent ¸ ˘a
Coordonator S ¸tiint ¸ific
Conf. univ. dr. Vernic Raluca
Absolvent: [anonimizat] ¸ ˘a Andreea
Constant ¸a
2019
Cuprins
1 Introducere 1
1.1 Motivat ¸ie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Not ¸iuni introductive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 Estimarea parametrilor 5
2.1 Repartit ¸ii de select ¸ie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.1 Media de select ¸ie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.1.2 Dispersia de select ¸ie . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.1.3 Principiile generale relative la repartit ¸iile de select ¸ie . . . . . . . . . . 7
2.2 Principiile generale ale estim ˘arii . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3 Matricea informat ¸ional ˘a Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.4 Estimarea mediei s ¸i dispersiei . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.4.1 Media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.4.2 Dispersia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3 Metode de estimare a parametrilor 11
3.1 Metoda momentelor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.2 Metoda verosimilit ˘at ¸ii maxime . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2.1 Propriet ˘at ¸i ale metodei verosimilit ˘at ¸ii maxime . . . . . . . . . . . . . . 16
3.2.2 Aspecte negative ale metodei verosimilit ˘at ¸ii maxime . . . . . . . . . . 23
3.3 Alte metode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.3.1 Metoda Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.3.2 Metoda distant ¸ei minime . . . . . . . . . . . . . . . . . . . . . . . . 25
3.3.3 Metoda celor mai mici p ˘atrate . . . . . . . . . . . . . . . . . . . . . . 27
3.4 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.4.1 Repartit ¸ii de tip discret . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.4.2 Repartit ¸ii de tip continuu . . . . . . . . . . . . . . . . . . . . . . . . . 32
4 Estimarea parametrilor ˆın R 35
4.1 Programul R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.2 Funct ¸ii R specifice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.3 Exemple numerice de utilizare a funct ¸iei fitdist . . . . . . . . . . . . . . . . . 37
4.4 Exemplu numeric pentru repartit ¸ia binomial ˘a: aplicarea direct ˘a a metodei verosimilit ˘at ¸ii
maxime . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.5 Aplicat ¸ie: analiza unui set real de date ( setul danish ) . . . . . . . . . . . . . . 54
4.6 Concluzii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
1 Introducere
1.1 Motivat ¸ie
Statistica este un subiect foarte larg, cu aplicat ¸ii ˆıntr-un num ˘ar variat de domenii, dar varietatea
acestora nu este un motiv ca aplicat ¸iile specifice s ˘a fie abordate separat, elabor ˆand tehnici noi
pentru fiecare problem ˘a nou ˘a, ci se caut ˘a permenent solut ¸ii de rezolvare a noilor provoc ˘ari
printr-o abordare unitar ˘a. Din acest motiv, s-a dezvoltat teoria statistic ˘a general ˘a, astfel ˆıncˆat
majoritatea problemelor s ˘a poat ˘a fi abordate ˆın acelas ¸i cadru.
Statistica matematic ˘a are ca obiect studiul informat ¸iei limitate obt ¸inut ˘a dintr-o populat ¸ie
printr-un mecanism aleator. Astfel, dup ˘a ceˆın faza de statistic ˘a descriptiv ˘a se descoper ˘a printr-
o analiz ˘a exhaustiv ˘a anumite tr ˘as˘aturi ale unui es ¸antion de date, ˆın etapa ce implic ˘a statis-
tica matematic ˘a se aplic ˘a metoda deductiv ˘a pentru a extrapola rezultatele obt ¸inute la ˆıntreaga
populat ¸ie din care provine es ¸antionul.
Interpretarea modului ˆın care funct ¸ioneaz ˘a un model este unul dintre aspectele de baz ˘a ale
analizei datelor. Construim un model care ofer ˘a rezultate impresionante, dar ˆıntrebarea care se
pune este Care a fost procesul din spatele lui? .
Una dintre problemele fundamentale ale statisticii matematice implic ˘a estimarea parametrilor
care caracterizeaz ˘a o populat ¸ie din informat ¸iile cont ¸inute ˆıntr-un es ¸antion. O problem ˘a de esti-
mare a parametrilor este de obicei formulat ˘a ca o problem ˘a de optimizare. Datorit ˘a existent ¸ei
diferitelor criterii de optimizare s ¸i a mai multor parametriz ˘ari posibile, o anumit ˘a problem ˘a
poate s ˘a fie rezolvat ˘aˆın mai multe feluri. Scopul acestei lucr ˘ari este de a trece ˆın revist ˘a mai
multe metode de estimare a parametrilor s ¸i de a ar ˘ata important ¸a alegerii unei metode adecvate.
Aceast ˘a alegere va influent ¸a acuratet ¸ea parametrilor estimat ¸i, eficient ¸a calculului, robustet ¸ea la
erorile previzibile sau imprevizibile.
Odat ˘a ce un model este specificat ˆımpreun ˘a cu parametrii s ˘ai, iar datele au fost colectate,
suntem ˆın m˘asur˘a s˘a evalu ˘am calitatea modelului de a se ajusta la acele date, adic ˘a, cˆat de bine se
potrives ¸te cu datele observate. Ajustarea este evaluat ˘a prin g ˘asirea acelor valori ale parametrilor
unui model care se potrivesc cel mai bine cu datele – o procedur ˘a numit ˘a estimarea parametrilor.
Exist ˘a dou ˘a metode generale de baz ˘a pentru estimarea parametrilor: metoda verosimilit ˘at ¸ii
maxime s ¸i metoda momentelor. Mai exist ˘aˆınc˘a alte c ˆateva metode specifice anumitor tipuri de
probleme, printre care: metoda Bayes, metoda celor mai mici p ˘atrate, metoda distant ¸ei minime.
ˆIn virtutea faptului c ˘a multe repartit ¸ii pot fi caracterizate prin momentele lor, metoda mo-
mentelor implic ˘a obt ¸inerea valorilor parametrilor ca solut ¸ie a ecuat ¸iilor obt ¸inute prin egalarea
momentelor populat ¸iei cu momentele de es ¸antionare; aceast ˘a metod ˘a va fi discutat ˘a pe larg ˆın
Sect ¸iunea 3:1. O alt ˘a metod ˘a general ˘a de estimare, metoda verosimilit ˘at ¸ii maxime, implic ˘a
obt ¸inerea valorilor parametrilor ca solut ¸ie a ecuat ¸iilor de estimare obt ¸inute prin maximizare,
ˆın raport cu parametrii, a probabilit ˘at ¸ii sau a funct ¸iei de verosimilitate a es ¸antionului; aceast ˘a
metod ˘a va fi prezentat ˘aˆın detaliu ˆın Sect ¸iunea 3:2.
Estim ˘arile obt ¸inute prin metoda momentelor sunt, de obicei, us ¸or de calculat, dar ele pot fi
ineficiente deoarece se pot obt ¸ine estim ˘ari mai exacte din aceleas ¸i date. Estim ˘arile din metoda
1
verosimilit ˘at ¸ii maxime sunt, pentru unele populat ¸ii, aceleas ¸i cu cele din metoda momentelor,
vezi exemplele din Sect ¸iunea 3:4. Din p ˘acate, estim ˘arile din metoda verosimilit ˘at ¸ii maxime sunt
deseori dificil de calculat s ¸i uneori sunt deplasate. Cu toate acestea, ˆın condit ¸ii de regularitate
generale, ele sunt asimptotic nedeplasate s ¸i de maxim ˘a precizie. Adic ˘a,ˆın es ¸antioane mari,
estim ˘arile prin verosimilitatea maxim ˘a sunt nedeplasate s ¸i pe deplin eficiente. De aceea, aceast ˘a
metod ˘a este folosit ˘a pe larg ˆın practic ˘a, fiind implementat ˘aˆın softurile statistice precum R,
SPSS, Statistica, etc.
Prin urmare, lucrarea este alc ˘atuit˘a din 4capitole. Primul capitol este Introducerea ˆın care
sunt prezentate s ¸i principalele not ¸iuni introductive, not ¸iuni teoretice necesare pentru capitolele
ce urmeaz ˘a.ˆIn Capitolul 2sunt relatate c ˆateva elemente despre select ¸ie s ¸i es ¸antion. Prin
studiul principalelor caracteristici de select ¸ie este introdus s ¸i conceptul de repartit ¸ie de select ¸ie.
Metodele de estimare a parametrilor s ¸i exemple de repartit ¸ii de tip continuu s ¸i discret sunt
prezentate ˆın detaliu ˆın Capitolul 3. Capitolul 4cont ¸ine o scurt ˘a introducere ˆın limbajul softului
R s ¸i numeroase exemple numerice de utilizare a funct ¸iilor acestuia pentru diverse repartit ¸ii.
2
1.2 Not ¸iuni introductive
V om reaminti ˆın aceast ˘a sect ¸iune c ˆateva not ¸iuni din teoria propus ˘a care sunt necesare ˆın cele ce
urmeaz ˘a.
Legea numerelor mari
Fie(
;F;P)un spat ¸iu de probabilitate, (Xn)nun s ¸ir de variabile aleatoare pe el s ¸i
Sn=nX
i=1Xi
Definit ¸ie. S ¸irul (Xn)neste supus (urmeaz ˘a) legea slab ˘a/ tare a numerelor mari dac ˘a:
Sn ESn
nP/ a.s !
n!10
Teorema limit ˘a central ˘a
S˘a presupunem c ˘aX1;X2;:::este o secvent ¸ ˘a de variabile aleatoare independente, identic
repatizate, av ˆandEXi=s ¸iVar(Xi) =2<1. Atunci c ˆandnse apropie de1, variabila
aleatoarepn(Sn )converge ˆın distribut ¸ie la o variabil ˘a aleatoare normal ˘a standardN(0;2)
astfel
pn(Sn )d !N(0;2)
ˆIn cazul ˆın care>0convergent ¸a ˆın distribut ¸ie ˆınseamn ˘a c˘a funct ¸iile de repartit ¸ie cumula-
tive ale luipn(Sn )converg ˆın sens punctual la funct ¸ia de repartit ¸ie cumulativ ˘a a distribut ¸iei
N(0;2)pentru fiecare num ˘ar realz
lim
n!1Pr(pn(Sn )6z) =z
unde(x)este funct ¸ia de repartit ¸ie a normalei standard evaluat ˘aˆınx. De ret ¸inut, convergent ¸a
este uniform ˘aˆınzˆın sensul c ˘a
lim
n!1sup
z2RPr(pn(Sn )6z) z
= 0
undesupˆınseamn ˘a cea mai mic ˘a limit ˘a superioar ˘a a setului.
Repartit ¸ia Hi-p ˘atrat
Dac˘aX1;X2;:::;Xnsunt variabile aleatoare standard independente, atunci suma p ˘atratelor
lor
Q=nX
i=1X2
i
3
urmeaz ˘a repartit ¸ia hi-p ˘atrat cungrade de libertate. Aceasta este, de obicei, notat ˘a prin
Q2(n)
sau
Q2
n
Repartit ¸ia hi-p ˘atrat are un parametru n, un num ˘arˆıntreg pozitiv, care specific ˘a num ˘arul de grade
de libertate (num ˘arulXi-lor) s ¸i densitatea de repartit ¸ie1
2n
2 (n
2)xn
2 1e n
2.
Funct ¸ia gamma
ˆIn matematic ˘a, funct ¸ia gamma (z)este o extensie a funct ¸iei factorial a tuturor numerelor
complexe, cu except ¸ia numerelor ˆıntregi negative. Pentru numere ˆıntregi pozitive este definit ˘a
ca fiind
(n) = (n 1)!
Funct ¸ia gamma este definit ˘a pentru toate numerele complexe, dar nu este definit ˘a pentru
numere ˆıntregi negative s ¸i zero. Pentru un num ˘ar complex, a c ˘arui parte real ˘a nu este un num ˘ar
ˆıntreg negativ, funct ¸ia este definit ˘a de
(z) =1Z
0xz 1e xdx
Funct ¸ia gamma este o component ˘a a diferitelor funct ¸ii de repartit ¸ie a probabilit ˘at ¸ilor s ¸i, ca
atare, este aplicabil ˘aˆın domeniile probabilit ˘at ¸ii s ¸i statisticii, precum s ¸i combinatoricii.
Funct ¸ia indicator
Definit ¸ie. Funct ¸ia 1A=(
1;Aadev ˘arat˘a
0;Afals˘apoart ˘a denumirea de funct ¸ie indicator .
4
2 Estimarea parametrilor
2.1 Repartit ¸ii de select ¸ie
Definit ¸ie. Populat ¸ia (statistic ˘a) este mult ¸imea nevid ˘a de indivizi, obiecte sau m ˘asur˘atori care
se studiaz ˘aˆın leg ˘atur˘a cu un fenomen aleatoriu (la ˆıntˆamplare). Pentru a forma o populat ¸ie, o
mult ¸ime de elemente trebuie s ˘a aib ˘a o caracteristic ˘a comun ˘a. Conceptul de populat ¸ie este una
din not ¸iunile fundamentale ale statisticii. Populat ¸ia ˆın cauz ˘a trebuie s ˘a fie foarte atent definit ˘a
s ¸i este considerat ˘a complet definit ˘a numai atunci c ˆand se poate oferi lista tuturor elementelor
ei.
Mult ¸imea student ¸ilor unei universit ˘at ¸i este, spre exemplu, o populat ¸ie bine definit ˘a. Totus ¸i,
ˆın statistic ˘a, populat ¸ia poate fi s ¸i o colect ¸ie de animale, de obiecte manufacturate sau de m ˘asur˘atori.
Definit ¸ie. Es ¸antionul (sau select ¸ia) este o submult ¸ime a mult ¸imii populat ¸iei, alc ˘atuit ˘a din in-
divizii care s-au observat efectiv ˆın timpul unui studiu neexhaustiv ( ˆın mod exclusiv s ¸i total).
Definit ¸ie. Prin select ¸ie sausondaj ˆınt ¸elegem mult ¸imea operat ¸iilor de alegere sau selectare,
dintr-o populat ¸ie, a indivizilor care vor forma es ¸antionul.
Este necesar ca o select ¸ie s ˘aˆındeplineasc ˘a urm ˘atoarele condit ¸ii:
i) S˘a fie aleatoare (orice element s ˘a aib ˘a s ¸ansa de a fi ales; s ¸ansa poate fi calculat ˘a);
ii) Toate elementele colectivit ˘at ¸ii s ˘a aib ˘a aceeas ¸i probabilitate de a fi alese;
iii) Structura select ¸iei s ˘a fie c ˆat mai apropiat ˘a de structura populat ¸iei, adic ˘a select ¸ia trebuie s ˘a
fie reprezentativ ˘a;
iv) V olumul select ¸iei s ˘a fie suficient de mare.
Exist ˘a mai multe metode de construire a unui es ¸antion, printre care s ¸i select ¸ia aleatoare
simpl ˘a.
Definit ¸ie. Un es ¸antion se numes ¸te aleator cˆand probabilitatea ca un individ al populat ¸iei s ˘a
fac˘a parte din es ¸antion este aceeas ¸i, indiferent de individ. Es ¸antionul se numes ¸te aleator s ¸i
simplu dac˘a este aleator s ¸i dac ˘a select ¸iile indivizilor ce vor forma es ¸antionul se fac independent
una de alta (atunci el va fi s ¸i simplu).
Unul dintre procedeele cele mai folosite pentru realizarea unor astfel de es ¸antioane din
populat ¸ii finite sau infinite, este metoda numerelor aleatoare.
5
2.1.1 Media de select ¸ie
Fie un prim es ¸antion de nobservat ¸ii, (x1;:::;xn), pentru care s-a determinat media x=1
nnX
i=1xi.
Dac˘aˆıntr-o situat ¸ie asem ˘an˘atoare se selecteaz ˘a un al doilea es ¸antion de acelas ¸i volum, (x10;:::;xn0)
s ¸i cu media corespunz ˘atoarex0=1
nnX
i=1xi0, ea va fi diferit ˘a de prima medie observat ˘a. Analog
seˆıntˆampl ˘a s ¸i pentru mediile altor es ¸antioane extrase ˆın condit ¸ii similare: (x100;:::;xn00);(x1000;:::;xn000)
etc.
Fie s ¸irul infinit al observat ¸iilor de rang idin fiecare es ¸antion xi;xi0;xi00;xi000;:::ca fiind
observat ¸ii f ˘acute asupra unei aceleas ¸i variabile aleatoare Xi;i=1;n. Prin urmare valorile
medii observate x;x0;x00;:::devin s ¸i ele valori ale unei variabile aleatoare X, care depinde de
X1;:::;XnastfelX=1
nnX
i=1Xi.
Definit ¸ie.Xse numes ¸te medie de select ¸ie (unde variabilele aleatoare X1;:::;Xns ¸iXau
repartit ¸ii denumite repartit ¸ii de select ¸ie).
Deoarece select ¸ia este aleatoare s ¸i simpl ˘a, variabilele (X1;:::;Xn)sunt independente s ¸i
identic repartizate. V om nota cu mmedia lor real ˘a, iar cu2dispersia.
Propriet ˘at ¸ile mediei de select ¸ie :
(a)EX=m,Var(X) =2
n;
(b) Din Legea numerelor mari: Xa.s !
n!1m;
(c) Din Teorema limitei centraleX m
pnrepart. !
n!1o variabil ˘a aleatoare repartizat ˘a normal stan-
dardN(0;1).
2.1.2 Dispersia de select ¸ie
Dac˘a se act ¸ioneaz ˘a ca ˆın cazul mediei de select ¸ie, atunci se pot determina dispersiile pentru
es ¸antioane diferite:
s2=1
nnX
i=1(xi x)2
s02=1
nnX
i=1(xi0 x)2
6
aceste dispersii fiind considerate ca valori observate asupra variabilei aleatoare
S2=1
nnX
i=1(Xi X)2
Definit ¸ie.S2se numes ¸te dispersie de select ¸ie .
Propriet ˘at ¸ile dispersiei de select ¸ie :
(a)ES2=n 1
n2,Var(S2) =n 1
n3
(n 1)4 (n 3)4
, unde4este momentul
centrat de ordin 4al variabilei aleatoare Xi;
(b)S2=X2 X2;
(c)S2a.s. !
n!12din Legea numerelor mari;
(d)S2 2pnp
4 4repart. !
n!1o variabil ˘a aleatoare repartizat ˘a normal standard N(0;1).
2.1.3 Principiile generale relative la repartit ¸iile de select ¸ie
Admitem c ˘a, pentru o populat ¸ie oarecare, se analizeaz ˘a un parametru , pentru care se pot ob-
serva valorile t;t0;t00;:::. Valorile acestea se pot extrage din es ¸antioane succesive, de acelas ¸i
volum, extrase independent unele de altele s ¸i ˆın condit ¸ii similare. Prin urmare, valorile pot fi
considerate ca fiind valori observate asupra unei aceleas ¸i variabile aleatoare T. De fapt, vari-
abilaTeste o funct ¸ie de variabilele aleatoare asociate indivizilor din es ¸antion: T(X1;:::;Xn).
Presupun ˆnd de asemenea c ˘a select ¸ia este aleatoare s ¸i totodat ˘a, simpl ˘a, vom urm ˘ari s˘a evalu ˘am
atˆat media, c ˆat s ¸i dispersia variabilei aleatoare T, dar, pe c ˆat posibil, s ¸i repartit ¸ia sa. Aceast ˘a
repartit ¸ie poart ˘a denumirea de repartit ¸ie de select ¸ie.
Deci, repartit ¸ia de select ¸ie este repartit ¸ia diferitelor valori pe care le poate lua parametrul T,
pentru es ¸antioane diferite de volum fixat, care se pot extrage din populat ¸ie. Eroarea standard
este, de fapt, abaterea medie p ˘atratic ˘a corespunz ˘atoare variabilei aleatoare T.
Este foarte important s ˘a nu existe confuzii ˆıntre datele din es ¸antion s ¸i cele din populat ¸ie,
ˆıntre variabile s ¸i constante:
–T;X 1;:::;Xnsunt variabile aleatoare relative la es ¸antioane;
–t;x1;:::;xnsunt valori observate asupra acestor variabile, relative la un es ¸antion fixat;
–este o constant ˘a relativ ˘a la populat ¸ie, care ˆın general este necunoscut ˘a;
–ET,Var(T)sunt constante relative at ˆat la populat ¸ie, c ˆat s ¸i la tipul de es ¸antion folosit.
7
Repartit ¸iile de select ¸ie pot fi observate fie ˆın mod exact, fie ˆın mod aproximativ, ˆın funct ¸ie de
ipotezele teoretice. Conceptul de normalitate asimptotic ˘a joac ˘a un rol important ˆın acest sens.
Spre exemplu, dac ˘a populat ¸ia analizat ˘a este normal ˘a(XiNormal ), iar es ¸antionul este
aleator simplu, atunci media de select ¸ie este repartizat ˘a normal, iar dispersia de select ¸ie prezint ˘a
repartit ¸ia2.
ˆIn cazul general al unei populat ¸ii aleas ˘a laˆıntˆamplare, repartit ¸iile de select ¸ie ale mediei s ¸i
dispersiei sunt doar asimptotic normale. Astfel, trebuie s ˘a se aib ˘aˆın vedere faptul c ˘a repartit ¸ia
normal ˘a asimptotic ˘a este doar o aproximare a unui alt tip de repartit ¸ie de select ¸ie necunoscut ˘a,
iar esent ¸ial este s ˘a se verifice ˆın toate cazurile dac ˘a volumul select ¸iei este destul de mare pentru
a asigura o aproximare suficient de bun ˘a conform Teoremei limit ˘a central ˘a.
2.2 Principiile generale ale estim ˘arii
Fie o populat ¸ie aleas ˘a laˆıntˆamplare a c ˘arei repartit ¸ie depinde de un parametru necunoscut
2Rks ¸i un es ¸antion extras din aceast ˘a populat ¸ie : (x1;:::;xn).
Definit ¸ie. O funct ¸ieT:Rn !care depinde de valorile observate s ¸i care poate ajuta la
estimarea parametrului ,T(X1;:::;Xn), se va numi estimator al parametrului . Estimat ¸iile
sunt valorile numerice t ale funct ¸iei t=T(X1;:::;Xn).
Pentru a fi un estimator bun, funct ¸ia trebuie s ˘aˆındeplineasc ˘a criterii c ˆat mai elementare
(naturale), astfel c ˘a nu orice funct ¸ie care depinde de valorile observate poate fi utilizat ˘a ca
estimator. Mai jos vor fi prezentate calit ˘at ¸ile necesare unui estimator pentru a putea fi c ˆat mai
bun.
Una dintre primele calit ˘at ¸i pentru a fi un estimator bun este lipsa (absent ¸a) erorii sistematice,
a inexactitudinii sau a deplas ˘arii. Acest lucru implic ˘a faptul c ˘a media estimatorului coincide cu
valoarea “adev ˘arat˘a” a parametrului.
Definit ¸ie.Tse numes ¸te estimator nedeplasat pentrudac˘aET=.
Cea de-a doua calitate pentru ca un estimator s ˘a fie c ˆat mai bun este de a avea o precizie sufi-
cient ˘a, adic ˘a valorile sale s ˘a nu se abat ˘a prea mult de la parametrul de estimat. Aceast ˘a precizie
se calculeaz ˘a cu ajutorul momentului de ordinul 2centrat in valoarea “adev ˘arat˘a” a parametru-
lui,E(T )2. Pentru estimatorul nedeplasat, momentul respectiv coincide cu dispersia.
Definit ¸ie.Tse numes ¸te estimator nedeplasat de dispersie minima (e.n.d.m.) dac˘aˆındeplines ¸te
urm˘atoarele 2condit ¸ii: este nedeplasat s ¸i dac ˘a pentru orice alt estimator nedeplasat Upentru
parametrul, avemVar(U)Var(T).
Avˆandˆın vedere c ˘a valorile unui estimator trebuie s ˘a fie c ˆat mai apropiate de valoarea
“adev ˘arat˘a” a parametrului, consider ˘am definit ¸ia:
Definit ¸ie.Tnse numeste estimator convergent (consistent) dac˘aTnprob. !
n!1()8" > 0,
P(jTn j") !
n!10.
8
Propozit ¸ie. ETn !
n!1s ¸iVar(Tn) !
n!10, atunciTneste un estimator convergent.
O alt ˘a calitate important ˘a pentru ca un estimator s ˘a fie “bun” este de a nu fi prea sensibil
la prezent ¸a posibilelor valori aberante sau anormale. Cu alte cuvinte, un estimator bun nu
trebuie s ˘a fie sensibil la diferent ¸ele care pot ap ˘area ˆıntre modelul teoretic presupus s ¸i populat ¸ia
observat ˘a efectiv. Spre exemplu, presupunem c ˘a populat ¸ia p ˘arinte este normal ˘a, des ¸i valorile
remarcate nu urmeaz ˘a tocmai o repartit ¸ie normal ˘a.
Definit ¸ie. Estimatorul robust este estimatorul care are proprietatea de a nu depinde ˆın totali-
tate de valorile aberante sau de modelul stabilit.
2.3 Matricea informat ¸ional ˘a Fisher
Definit ¸ie. Matricea informat ¸ional ˘a Fisher se defines ¸te prin In() =h
E
@lnL (;)
@i@lnL (;)
@ji
i;j=1;k
dac˘a mediile exist ˘a.
Funct ¸iaL(;)care intervine ˆın formul ˘a este funct ¸ia de verosimilitate care va fi definit ˘aˆın
sect ¸iunea 3:2.
Este important de ret ¸inut c ˘a informat ¸iile nu depind de o observat ¸ie special ˘ax.
Matricea informat ¸ional ˘a Fisher este utilizat ˘a pentru a calcula matricele de covariant ¸ ˘a asoci-
ate estim ˘arilor de probabilitate maxim ˘a.
2.4 Estimarea mediei s ¸i dispersiei
2.4.1 Media
Cea mai bun ˘a estimat ¸ie a mediei mpentru o populat ¸ie aleas ˘a laˆıntˆamplare, care poate fi dedus ˘a
dintr-un es ¸antion aleator simplu, este la prima vedere media es ¸antionului, notat ˘a cuxs ¸i scris ˘a
sub formabm=x.
C˘aciulit ¸a aflat ˘a deasupra mediei marat˘a c˘a este vorba despre o valoare estimat ˘a a acestui
parametru.
Consider ˆandu-se astfel toate es ¸antioanele de acest gen, se observ ˘a c˘a media de select ¸ie se
constituie ˆıntr-un estimator nedeplasat al lui m, deoarece EX=m.
Dispersia diferitelor estimat ¸ii posibile ˆın jurul lui meste m ˘asurat ˘a de eroarea standard a
mediei:
q
Var(X) =pn
O alt ˘a metod ˘a prin care putem s ˘a estim ˘am media este prin a calcula media celor dou ˘a valori
observate extreme: xmins ¸ixmaxdin datele observate din es ¸antion.
ex=xmin+xmax
2
9
Aceast ˘a cantitate are ˆıns˘a dezavantajul de a fi puternic dependent ˘a de existent ¸a posibilelor
valori anormale sau aberante. Viceversa, pentru a evita interferent ¸a valorilor aberante sau anor-
male, este posibil ˘a calcularea mediei tuturor observat ¸iilor, cu except ¸ia celor extreme, astfel
avem media1
n 2n 1X
i=2x(i)care poart ˘a denumirea de medie redus ˘a.
2.4.2 Dispersia
Dac˘a datele provin din es ¸antioane de volum redus s ¸i le utiliz ˘am pentru extinderea rezultatelor
la nivelul colectivit ˘at ¸ii generale (le folosim pentru o inferent ¸ ˘a statistic ˘a), atunci ˆın calculul dis-
persiei, la numitor se va folosi (n 1)s ¸i nun,ˆıntruc ˆat dispersia es ¸antionului este un estimator
mai bun al dispersiei ˆın colectivitatea general ˘a:
b2=ns2
(n 1)=1
(n 1)nX
i=1(xi x)2
deoarece media estimatorului asociat S2este mai mic ˘a dec ˆat dispersia populat ¸iei, adic ˘a
ES2=(n 1)
n2. Conform propriet ˘at ¸iiEs2=2dispersia de select ¸ie este un estimator nede-
plasat al dispersiei.
Observ ˘amˆıns˘a c˘a, dac ˘a valoarea2este o estimat ¸ie bun ˘a pentru dispersie, radicalul s ˘au nu
este o bun ˘a estimat ¸ie pentru abaterea medie p ˘atratic ˘a. Se poate demonstra c ˘a rezultatele obt ¸inute
prin extragerea radicalului sunt ˆın mod evident mai mici dec ˆat abaterea medie p ˘atratic ˘a.
10
3 Metode de estimare a parametrilor
Printre cele mai cunoscute metode de estimare a parametrilor se num ˘ar˘a metoda momentelor
(MM), metoda verosimilit ˘at ¸ii maxime (MVM), metoda Bayes, metoda distant ¸ei 2minime,
metoda celor mai mici p ˘atrate (MCMP). Pe primele dou ˘a le vom aprofunda mai jos.
3.1 Metoda momentelor
Metoda momentelor const ˘aˆın a estima un parametru m-dimensional sau mai bine spus, ˆın a
estimamparametri, ceea ce presupune egalarea primelor mmomente empirice (de select ¸ie) ale
es ¸antionului (x1;:::;xn), cu primele mmomente teoretice ale populat ¸iei.
Primelemmomente ale repartit ¸iei populat ¸iei pot fi exprimate ˆın funct ¸ie de = (1;2;:::;m)
ce caracterizeaz ˘a repartit ¸ia variabilei aleatoare X. Momentul de ordin kal variabilei aleatoare
Xse defines ¸te prin :
k=Ek(X) =EXk=8
>>>>>><
>>>>>>:X
i1xk
iP(X=xi);dac˘aXvariabil ˘a aleatoare discret ˘a (ce ia valori x1;x2;:::)
+1Z
1xkf(x;)dx; dac˘aXvariabil ˘a aleatoare continu ˘a cu densitatea f(x;)
Pe de alt ˘a parte, momentul de select ¸ie de ordin keste:
bk=1
nnX
i=1Xik
pentru care se cunoas ¸te urm ˘atoarea proprietate.
Proprietate.
Ebk=E
1
nnX
i=1Xik!
=1
nnX
i=1EXik=1
nnX
i=1bk=nk
n=k
Egal ˆandbk=k, undek= 1;2;:::;m , s ¸i rezolv ˆandˆınsistemul de mecuat ¸ii ˆınm
necunoscute astfel obt ¸inut, determin ˘am solut ¸iak=gk(1;:::;m). Estimatorii astfel obt ¸inut ¸i
se numesc estimatori ai momentelor .
Definit ¸ie. Estimatorul lui 2Rmobt ¸inut prin metoda momentelor se numes ¸te estimator
de moment s ¸i este solut ¸ie a sistemului:
8
><
>:b1=1()
:::
bm=m()
11
Pe baza datelor X= (x1;:::;xn), scriem primele momente de es ¸antionare astfel:
8
>>>>>><
>>>>>>:b1=x=1
nnX
i=1xi
:::
bm=xm=1
nnX
i=1xim(3.1.1)
Folosind Legea numerelor mari, avem , pentru fiecare moment k= 1;:::;m ,kxk=bk
ceea ce justific ˘aˆınlocuirea momentelor de distribut ¸ie kprin momentele de es ¸antionare xk=
bk, iar solut ¸iak=gk(1;:::;m)ne d˘a formulele estim ˘arii momentelor (b1;b2;:::;bm).
Este rezonabil ca aceast ˘a metod ˘a s˘a furnizeze estim ˘ari bune, deoarece distribut ¸ia empiric ˘a
converge ˆıntr-un anumit sens la distribut ¸ia de probabilitate. Prin urmare, momentele core-
spunz ˘atoare ar trebui s ˘a fie egale.
ˆIn unele cazuri, dec ˆat s˘a folosim momentele de es ¸antionare din jurul originii, este mai us ¸or
s˘a folosim momentele de es ¸antionare din jurul mediei.
Ideea de baz ˘a din spatele acestei metode este s ˘a:
1. Egal ˘am primul moment al es ¸antionului fat ¸a de origine M1=1
nnX
i=1Xi=Xcu primul
moment teoretic E(X).
2. Egal ˘am al doilea moment al es ¸antionului fat ¸a de medie M
2=1
nnX
i=1(Xi X)2cu cel
de-al doilea moment teoretic E[(Xi )2], adic ˘a cu dispersia.
3. Continu ˘am s ˘a punem ˆın ecuat ¸ie momentele de es ¸antionare fat ¸a de medie M
kcu mo-
mentele teoretice corespunz ˘atoare fat ¸a de medie E
(Xi )k
,k= 3;4;:::pˆan˘a cˆand
avem at ˆatea ecuat ¸ii c ˆat ¸i parametri sunt.
4. Rezolv ˘am sistemul obt ¸inut ˆın parametrii necunoscut ¸i.
Observat ¸ie. Din nou, valorile rezultate se numesc estimatori de moment.
Exemplu. Presupunem c ˘aX1;X2;:::;Xneste o variabil ˘a aleatoare dintr-o populat ¸ie N(;2),
undes ¸i2sunt parametri. Determinat ¸i estimatorii de moment, notat ¸i bs ¸ib2.
Solut ¸ie. Dac˘aXN(;2), atunci E(X) =s ¸iE(X2) =Var(X) + [E(X)]2=2+2s ¸i
as ¸a avem c ˘a1=E(X) =s ¸i c˘a2=E(X2) =2+2.
Mai mult, din 3:1:1avem c ˘a
b1=x=1
nnX
i=1Xi
12
s ¸i
b2=x=1
nnX
i=1X2
i
Dac˘a1=b1s ¸i2=b2, atunci rezult ˘a c˘a
=1
nnX
i=1Xi
s ¸i
2+2=1
nnX
i=1X2
i
Rezolvarea sistemului ne conduce la metoda estim ˘arii momentelor.
b=1
nnX
i=1Xi
b2=1
nnX
i=1X2
i 1
n2 nX
i=1Xi!2
Putem prelucra expresia lui b2s ¸i obt ¸inem :
nX
i=1
Xi X2=nX
i=1
X2
i 2XXi+X2
=nX
i=1X2
i 2XnX
i=1Xi+X2nX
i=11
=nX
i=1X2
i nX2
Astfel ˆıncˆat:
nX
i=1X2
i 1
n2 nX
i=1Xi!2
=1
n0
@nX
i=1X2
i 1
n nX
i=1Xi!21
A
=1
n nX
i=1X2
i nX2!
=1
nnX
i=1
Xi X2
=n 1
nS2
Adic ˘a,
b2=n 1
nS2
13
Avantajele s ¸i dezavantajele metodei:
Avantaje:
Metoda momentelor este destul de simpl ˘a s ¸i ofer ˘a estimatori consistent ¸i ( ˆın ipoteze foarte
slabe), des ¸i aceste estim ˘ari sunt adesea part ¸iale.
Furnizeaz ˘a valori init ¸iale ˆın c˘autarea unor estim ˘ari mai bune, prin metoda de verosimilitate
maxim ˘a.ˆIn general, atunci c ˆand se estimeaz ˘a parametrii unei familii cunoscute de repartit ¸ii
de probabilitate, aceast ˘a metod ˘a a fost ˆınlocuit ˘a de metoda de verosimilitate maxim ˘a, deoarece
estimatorii de verosimilitate maxim ˘a au o probabilitate mai mare de a se apropia de cantit ˘at ¸ile
care trebuie estimate s ¸i sunt adesea impart ¸iali.
Cu toate acestea, ˆın unele cazuri, ecuat ¸iile de verosimilitate pot fi greu de rezolvat f ˘ar˘a
calculatoare, ˆın timp ce estimatorii metodei momentelor pot fi rapid s ¸i us ¸or de calculat de
mˆan˘a. Astfel c ˘a, uneori este mai us ¸or s ˘a calcul ˘am prin metoda momentelor, dec ˆat prin metoda
verosimilitat ¸ii maxime.
Dezavantaje:
ˆIn unele cazuri, foarte frecvent pentru es ¸antioanele mari, dar mai rar pentru es ¸antioanele
mici, estim ˘arile date de metoda momentelor sunt ˆın afara spat ¸iului parametrilor, de aceea nu
este bine s ˘a ne baz ˘am pe ele. Aceast ˘a problem ˘a nu apare niciodat ˘aˆın metoda verosimilit ˘at ¸ii
maxime. Estimarea componentei de variat ¸ie este un exemplu al acestei situat ¸ii.
De asemenea, estim ˘arile prin metoda momentelor nu sunt ˆın mod necesar statistic sufi-
ciente (uneori sunt ineficiente), adic ˘a uneori nu iau ˆın considerare toate informat ¸iile relevante
din es ¸antion. Acest lucru se datoreaz ˘a faptului c ˘aˆıncalc ˘a Principiul suficient ¸ei. Suficient ¸a
are o definit ¸ie formal ˘a, dar intuitiv ˆınseamn ˘a c˘a toate datele sunt relevante pentru estimarea
parametrului de interes utilizat.
Atunci c ˆand se estimeaz ˘a alt ¸i parametri structurali (de exemplu, parametrii unei funct ¸ii de
utilitate, ˆın locul parametrilor unei repartit ¸ii de probabilitate cunoscute), este posibil ca proba-
bilit˘at ¸ile de distribut ¸ie s ˘a nu fie cunoscute, iar estim ˘arile bazate pe momente pot fi de preferat,
fat ¸˘a de estimarea verosimilit ˘at ¸ii maxime.
ˆIn anumite situat ¸ii, rezultatul metodei momentelor poate s ˘a nu fie unic, poate fi o solut ¸ie
multipl ˘a pentru setul de ecuat ¸ii corespunz ˘ator.
3.2 Metoda verosimilit ˘at ¸ii maxime
Metoda verosimilit ˘at ¸ii maxime este aplicat ˘aˆın principal ˆın situat ¸iile ˆın care repartit ¸ia adev ˘arat˘a
a es ¸antionului este cunoscut ˘a, mai put ¸in valorile unui num ˘ar finit de parametri reali necunoscut ¸i.
Astfel, verosimilitatea maxim ˘a se aplic ˘a de obicei atunci c ˆand familia repartit ¸iilor posibile pe
spat ¸iul es ¸antionului poate fi etichetat ˘a cu un parametru care ia valori ˆıntr-un spat ¸iu euclidian
dimensional finit. ˆIn plus, aplicarea sa este ˆın general limitat ˘a la cazul ˆın care aceast ˘a familie
P:2posed ˘a funct ¸ie de densitate p:2cu privire la o anumit ˘a m˘asur˘a natural ˘a asupra
spat ¸iului es ¸antionului, cum ar fi m ˘asura de num ˘arare (dac ˘a spat ¸iul de es ¸antionare este discret)
sau m ˘asura Lebesgue (atunci c ˆand este de tip continuu); ˆın cazul discret, p(x)este probabi-
14
litatea punctului xcˆandeste parametrul adev ˘arat; ˆın cazul continuu, p(x)este densitatea de
repartit ¸ie ˆınxcˆandeste parametrul adev ˘arat.
Este mai us ¸or s ˘a schimb ˘am notat ¸iile s ¸i s ˘a scriemp(x;)ˆın loc dep(x); astfel, facem s ¸i o
distinct ¸ie ˆıntre funct ¸ia p(;)care este o funct ¸ie de densitate pe spat ¸iul simplu, s ¸i funct ¸ia p(x;)
care este o funct ¸ie pe spat ¸iul parametrului.
Fie o populat ¸ie aleas ˘a laˆıntˆamplare a c ˘arei repartit ¸ie depinde de un parametru necunoscut
2Rks ¸i un es ¸antion (x1;:::;xn)extras din aceast ˘a populat ¸ie, corespunz ˘ator variabilelor
aleatoare independente (X1;:::;Xn), identic repartizate ca variabile aleatoare X. Definim funct ¸ia
de verosimilitate ˆın cele dou ˘a cazuri particulare ale repartit ¸iei lui X, discret s ¸i continuu, ca fi-
ind probabilitatea, s ¸i, respectiv, densitatea relativ ˘a la valorile observate (x1;:::;xn), redat ˘aˆın
funct ¸ie de parametrul populat ¸iei.
Definit ¸ie. Numim funct ¸ie de verosimilitate L: !R+, unde
L(x1;:::;xn;) =8
>>>>>><
>>>>>>:P(X1=x1;:::;Xn=xn)indep.=nY
i=1P(Xi=xi);dac˘aXdiscret ˘a
f(x1;:::;xn)indep.=nY
i=1f(xi);dac˘aXcontinu ˘a de densitate f
Funct ¸ia de verosimilitate exprim ˘a posibilit ˘at ¸ile diferit ¸ilor parametri dup ˘a ce am observat x,
ˆın absent ¸a oric ˘aror altor informat ¸ii pe care le putem avea despre aceste valori diferite.
Metoda verosimilit ˘at ¸ii maxime are o interpretare intuitiv ˘a puternic ˘a, anume, s ˘a estim ˘am
adev ˘aratul parametru prin acel parametru care maximizeaz ˘a funct ¸ia de verosimilitate L(;x1;:::;xn);
un astfel de parametru apart ¸ine setului cel mai plauzibil dup ˘a ce am observat es ¸antionul (x1;:::;xn).
Adesea exist ˘a un parametru unic de maximizare care este cel mai plauzibil s ¸i acesta este esti-
marea maxim ˘a a verosimilit ˘at ¸ii.
Cum putem estima parametrul necunoscut ? Av ˆandˆın vedere c ˘a funct ¸ia de verosimilitate
reprezint ˘a plauzibilitatea diferitelor 2pentru es ¸antionul (x1;:::;xn), este natural s ˘a alegem
ca o estimare a lui cel mai plauzibil element din .
Fiex= (x1;:::;xn)o realizare a unui es ¸antion aleator dintr-o distribut ¸ie cu densitatea
f(x;)ˆın funct ¸ie de un parametru necunoscut 2. O estimare a verosimilit ˘at ¸ii maxime
=(x1;:::;xn)este deci un element al lui care maximizeaz ˘a valoarea:
L(b;x) =max2L(;x)
Astfel c ˘a, se va numi estimator de verosimilitate maxim ˘a valoarea lui bcare maximizeaz ˘a
funct ¸iaL(;x).
Este posibil s ˘a existe o unic ˘a estimare a verosimilit ˘at ¸ii maxime, mai multe astfel de estim ˘ari
sau niciuna.
15
3.2.1 Propriet ˘at ¸i ale metodei verosimilit ˘at ¸ii maxime
Propozit ¸ie. (condit ¸ie suficient ˘a pentru existent ¸ ˘a).ˆIn cazul ˆın care spat ¸iul parametrului este
compact s ¸i dac ˘a funct ¸ia de verosimilitate L(;x)este continu ˘a pe, atunci exist ˘a o estimare a
verosimilit ˘at ¸ii maxime.
Propozit ¸ie. (condit ¸ie suficient ˘a pentru unicitatea metodei). ˆIn cazul ˆın care spat ¸iul parametru-
luieste convex s ¸i dac ˘a funct ¸ia de verosimilitate L(;x)este strict concav ˘aˆın, atunci
estimarea verosimilit ˘at ¸ii maxime este unic ˘a cˆand ea exist ˘a.
16
Fig. 1: Exemple ilustrative al funct ¸iei log-verosimilitate
Adesea, maximizarea lui l(;x) = ln [L(;x)]este mai us ¸oar ˘a dec ˆat maximizarea direct ˘a a
luiL(;x).
Observat ¸ie. Logaritmul este o funct ¸ie monoton ˘a, deci valoarea bcare maximizeaz ˘aL(;x)
este aceeas ¸i cu cea care maximizeaz ˘al(;x):
L(b;x) =max2L(;x)()max2l(;x)
ˆIn cazul ˆın careL(;x)este diferent ¸iabil, estimarea verosimilit ˘at ¸ii maxime poate fi obt ¸inut ˘a
ca o solut ¸ie a ecuat ¸iei
@lnL(;x)
@= 0 (3.2.1)
numit ˘aecuat ¸ia de verosimilitate .
Cu toate acestea, aceast ˘a ecuat ¸ie 3:2:1trebuie deseori rezolvat ˘a numeric. O metod ˘a standard
de rezolvare a ecuat ¸iei de verosimilitate este metoda lui Newton sau o adaptare a acesteia.
Ecuat ¸ia de verosimilitate reprezint ˘a prima condit ¸ie necesar ˘a pentru maximizarea funct ¸iei de
verosimilitate logaritmic ˘a.
A doua condit ¸ie necesar ˘a pentru ca un punct s ˘a fie maximul local al funct ¸iei de verosimi-
litate logaritmic ˘a este ca Hessianul s ˘a fie negativ semidefinit ˆın acest punct. Pas ¸ii pentru a g ˘asi
estimat ¸ia prin metoda verosimilit ˘at ¸ii maxime:
1. Se scrie prima dat ˘a funct ¸ia de verosimilitate L(;x);
2. Se obt ¸ine logaritmul natural din funct ¸ia de verosimilitate l(;x) = ln [L(;x)];
17
3. Se diferent ¸iaz ˘a funct ¸ia de verosimilitate logaritmic ˘a cu privire la ;
4. Se egaleaz ˘a derivata cu 0;
5. Se rezolv ˘a ecuat ¸ia pentru ;
6. Se verific ˘a dac ˘a solut ¸ia obt ¸inut ˘a este punct de maxim.
Exemplu. Fiex= (x1;:::;xn)o realizare a unui es ¸antion aleatoriu dintr-o repartit ¸ie N(;2)
cus ¸inecunoscute. ˆIn acest caz = (;2)2RR+s ¸i funct ¸ia de verosimilitate este
L(;2;x) =1
(22)2exp"
1
22nX
i=1(xi )2#
Funct ¸ialog-verosimilitate este dat ˘a de
l(;2;x) = n
2ln 2 n
2ln2 1
22nX
i=1(xi )2
Luˆand prima derivat ˘a (gradientul), avem c ˘a
8
><
>:@l(;x)
@=P(xi )
2
@l(;x)
@2=P(xi )2
24 n
22
Egal ˘am
@lnl(;x)
@= 0
s ¸i rezolv ˘am pentru= (;2). Avemb= (b;b2) =
x;n 1
ns2
, undex=Pxi
neste media
es ¸antionului s ¸i s2=P(xi x)2
n 1este variant ¸a (dispersia) de es ¸antion.
N-ar fi greu s ˘a se probeze dac ˘a valoris ¸i2ating un maxim global (nu doar local) al
funct ¸ieilog-verosimilitate, ˆın as ¸a fel ˆıncˆat valorile reprezint ˘a estim ˘ari maxime ale verosimilit ˘at ¸ii.
Observat ¸ie. ˆIn multe situat ¸ii este dificil s ˘a se identifice rezolvarea explicit ˘a a ecuat ¸iei de
verosimilitate, s ¸i, ca urmare este indicat s ˘a utiliz ˘am algoritmi iterativi care maximizeaz ˘al(;x),
ca Newton-Raphson sau scorul Fisher, care pentru fiecare itert ¸ie actualizeaz ˘a parametrul ˆıntr-
un mod adecvat p ˆan˘a la convergent ¸ ˘a.
Metoda Newton-Raphson :
S˘a admitem c ˘al(;x)este funct ¸ia de verosimilitate logaritmic ˘a pentru care intent ¸ion ˘am s ˘a o
maximiz ˘am. Fieg()un vector al primelor derivate ale lui l(;x)s ¸iH()matricea derivatelor
18
secundare, prin urmare componenta ia vectorului g()este@l(;x)
@is ¸i a(i;j)component ˘a a lui
H()este@2l(;x)
@i@j, undei;j= 1;2;:::;k . Se s ¸tie c ˘a matriceaH()este cunoscut ˘a drept matricea
Hessian ˘a.
Putem spune c ˘a0este o estimare init ¸iala a lui , iarbeste estimatorul de verosimilitate
maxim ˘a. Se poate extinde g()ˆın jurul lui0utiliz ˆand o dezvoltare ˆın serie Taylor, ca urmare
se obt ¸ine
g() =g0() + ( 0)TH(0) +::: (3.2.2)
Pentru=bavemg() = 0 s ¸iˆınlocuind ˆın ecuat ¸ia precedent ˘a3:4:10vom avea
0 =g0() + (b T
0H(0) +:::
iarbeste aproximat de
1=0 g(0)H 1(0) +:::
Dac˘aˆınlocuim0ˆın relat ¸ia 3:2:2cu1va rezulta o estimare optimizat ˘a
2=1 g(1)H 1(1) +:::
Se continu ˘a procedeul pentru a identifica 3;4;:::pˆan˘a la convergent ¸ei. Cu condit ¸ia c ˘a0
nu este prea departe de b, procedeul tinde la s ¸i va realiza acest ˘a act ¸iune rapid. ˆIn cazul ˆın care
0nu se apropie de b, atunci este posibil ca metoda s ˘a nu duc ˘a la realizarea convergent ¸ei, pentru
c˘aH(0)nu este pozitiv definit ˘a.
Definit ¸ie. Fie select ¸ia aleatorie X= (X1;:::;Xn)dintr-o repartit ¸ie cu densitatea f(x;)care
depinde de un parametru necunoscut 2. Un estimator n(X) =n(X1;:::;Xn)este un
estimator de verosimilitate maxim ˘apentrudac˘a pentru orice realizare particular ˘a
x= (x1;:::;xn), estimat ¸ia rezultat ˘an(x) = (x1;:::;xn)2este o estimat ¸ie a verosimilit ˘at ¸ii
maxime adic ˘a,
L(bn(x);x) =max2L(;x)
ˆIn continuare vom expune unele caracterisici ale metodei verosimilit ˘at ¸ii maxime cu condit ¸ia
cas˘a fie un singur parametru, adic ˘aR.
Invariant ¸a este una dintre propriet ˘at ¸ile definitorii.
Fiebn=bn(x)un estimator de verosimilitate maxim ˘a pentru. Dac ˘ag: !Reste o
funct ¸ie continu ˘a, atunci exist ˘a un estimator de verosimilitate maxim ˘a al luig()s ¸i este dat de
g(n(X)).
Exemplu. ˆIn condit ¸iile ˆın careg() =2estimarea sa de verosimilitate maxim ˘a esteg(bn) =
b2
n.
19
Nedesplasarea s ¸i eficient ¸a sunt alte propriet ˘at ¸i importante.
ˆIn unele condit ¸ii de regularitate, se poate dovedi c ˘a, dac ˘an(X)este un estimator nedeplasat
al luia c˘arui dispersie atinge marginea Rao-Cramer, atunci ecuat ¸ia de verosimilitate are o
solut ¸ie unic ˘a, egal ˘a cun(x).
Cu alte cuvinte, ˆın condit ¸iile ˆın care exist ˘a un estimator nedeplasat a c ˘arui dispersie atinge
limita inferioar ˘a, estimatorul este identic cu estimatorul de verosimilitate maxim ˘a.
Ca o confirmare, s ˘a presupunem c ˘a acest ˘a funct ¸ie de verosimilitate este neted ˘a s ¸i se com-
port˘aˆıntr-un mod regulat, as ¸a cum este ilustrat ˘aˆın urm ˘atoare figur ˘a, unde se observ ˘a c˘a ma-
ximul s ˘au este atins ˆıntr-un unic punct '.
Definit ¸ie. FieX= (X1;:::;Xn)un es ¸antion aleatoriu a c ˘arui densitate f(x;)este funct ¸ie de
un parametru real 2. Estimatorul n=n(X1;:::;Xn)se consider ˘a a fi consistent pentru
dac˘a
lim
n!1P(jbn j<") = 1
82s ¸i scriem c ˘abnP !.
Proprietate. Avem c ˘a pentru orice
L()<L(0)
dac˘a s ¸i numai dac ˘a
1
nnX
i=1lnf(xi;0)
f(xi;)>0 (3.2.3)
20
Din Legea numerelor mari aceast ˘a sum ˘a3:2:3converge la E0h
lnf(X1;0)
f(X1;)i
care este mai
mare dec ˆat0.
Astfel, se obt ¸ine c ˘abn!cˆandn!1
Teorem ˘a.FieX= (X1;:::;Xn)un es ¸antion aleatoriu a c ˆarui densitate f(x;)este funct ¸ie de
un parametru real 2.ˆIn condit ¸ii adecvate de regularitate, estimatorul de verosimilitate
maxim ˘abn=bn(X1;:::;Xn)este un estimator consistent pentru .
Enunt ¸ul acestei teoreme nu este foarte precis, dar, mai degrab ˘a, scopul nostru este s ˘a ilustr ˘am
ideea principal ˘a.
Mai precis, din moment ce dou ˘a funci ¸iL(;x)s ¸il(;x)se apropie, punctele maxime ar
trebui s ˘a se apropie de asemenea, ceea ce ˆınseamn ˘a exact acest lucru: bn!.
Acum ˆıl consider ˘am peun vector de parametri.
Definit ¸ie. FieX= (X1;:::;Xn)un es ¸antion aleatoriu a c ˘arui densitate f(x;)este funct ¸ie de
vectorul de parametri 2Rk. Un estimator bn=bn(X1;:::;Xn)pentru, cu matricea
de covariant ¸ ˘aVn(),se spune c ˘a este asimptotic normal dac˘a
pn(bn ) !DN(0;V())
undeV() = limn!1Vn()
Observat ¸ie. Dac˘abneste asimptotic normal, atunci este aproximativ bnN(;1
nV(). Ma-
tricea1
nV()se numes ¸te variant ¸ ˘a asimptotic ˘a.
21
Teorem ˘a.FieX= (X1;:::;Xn)un es ¸antion aleatoriu a c ˘arui densitate f(x;)este funci ¸e
de vectorul de parametri 2Rk.ˆIn condit ¸ii de regularitate adecvate, estimatorul de
verosimilitate maxim ˘abn=bn(x1;:::;xn)este asimptotic normal. Asta ˆınseamn ˘a c˘a
pn(bn 0) !DN(0;la(0) 1)
undela(0) = limn!1ln(0)
n(matricea informat ¸ional ˘a asimptotic ˘a)
ln(0) = E"
@2lnf(X;)
@@0
=0#
iar0este o adev ˘arat˘a valoare a parametrului.
Observat ¸ie. Deoarecela(0) = limn!1ln(0)
n=l1(0), avem c ˘apn(bn 0) !DN(0;la(0) 1)
Consecint ¸a practic ˘a a acestui rezultat este c ˘a, pentru es ¸antioanele mari, c ˆandneste suficient
de mare, estimatorul de verosimilitate maxim ˘aare aproximativ o repartit ¸ie normal ˘a cu vectorul
de medii0s ¸i matricea de variat ¸ie-covariant ¸ ˘al1(0) 1
n; scris simbolic bN[;l1(0) 1
n].
Definit ¸ie. FieX= (X1;:::;Xn)un es ¸antion aleatoriu a c ˘arui densitate f(x;)este funct ¸ie de
vectorul de parametri 2Rk. Un estimator consistent s ¸i asimptotic normal
bn=bn(X1;:::;Xn)pentru, cu variant ¸a asimptotic ˘a1
nVn(),se spune c ˘a este asimptotic efi-
cient dac˘a variant ¸a asimptotic ˘a a oric ˘arui alt estimator consistent, asimptotic normal distribuit,
dep˘as ¸es ¸te1
nV()printr-o matrice definit ˘a non-negativ ˘a.
Teorem ˘a.FieX= (X1;:::;Xn)un es ¸antion aleatoriu a c ˘arui densitate f(x;)este funci ¸e
de vectorul de parametri 2Rk.ˆIn condit ¸ii adecvate de regularitate , estimatorul de
verosimilitate maxim ˘abn=bn(x1;:::;xn)esteasimptotic eficient .
Proprietate. ˆIn anumite condit ¸ii de regularitate, estimatorul de verosimilitate maxim ˘a posed ˘a
multe propriet ˘at ¸i interesante:
1. este invariant ;
2. este consistent ;
3. este asimptotic normal ;
4. este asimptotic eficient .
22
3.2.2 Aspecte negative ale metodei verosimilit ˘at ¸ii maxime
Ecuat ¸iile de verosimilitate trebuiesc elaborate ˆın mod specific pentru o anumit ˘a problem ˘a de
repartit ¸ie s ¸i estimare. Rezolvarea matematic ˘a este adesea ne-trivial ˘a,ˆın special dac ˘a sunt de
dorit intervale de ˆıncredere pentru parametri.
Estimarea numeric ˘a este de obicei necesar ˘a. Cu except ¸ia c ˆatorva cazuri ˆın care formulele de
verosimilitate maxim ˘a sunt de fapt simple, ˆın general este bine s ˘a se recurg ˘a la softul statistic
deˆınalt˘a calitate pentru a obt ¸ine estim ˘ari prin metoda verosimilit ˘at ¸ii maxime. Din fericire,
software-ul de ˆınalt˘a calitate pentru metoda verosimilit ˘at ¸ii maxime devine din ce ˆın ce mai
comun. Un bun exemplu este softul R.
Funct ¸ia de verosimilitate nu este derivabil ˘aˆıntotdeauna ˆın raport cu .
Exemplu. Fie variabila aleatoare XUniform [0;], cu>0, cu densitatea de repartit ¸ie
f(x) =1
;06×6:
Fie(x1;:::;xn)select ¸ie asupra lui X. Atunci funct ¸ia de verosimilitate este
L(x1;:::;xn;) =1
n1(06min
i=1;nxi)1(max
i=1;nxi);unde 1A=(
1;Aadev ˘arat˘a
0;Afals˘a:
S˘a observ ˘am c ˘aLnu se poate deriva ˆın raport cu , dar este maxim ˘a pentruminim posibil,
adic˘ab(x1;:::;xn) = max
i=1;nxi.
Estim ˘arile de verosimilitate maxim ˘a pot fi puternic deplasate pentru probele mici. Pro-
priet ˘at ¸ile de optimitate nu se aplic ˘a probelor mici.
Exemplu. Consider ˘am exemplul anterior, deci b= max
i=1;nXi. Densitatea de repartit ¸ie a lui b
este
fb(x) =n[F(x)]n 1f(x) =nxn 1
n;06×6;
deci media sa este
Eb=Z
0nxn
ndx=n
n+ 16=
Un estimator nedeplasat este dat de
b=n+ 1
n=n+ 1
nmax
i=1;nXi
Estimatorul de verosimilitate maxim ˘a nu este neap ˘arat unic.
23
Exemplu. FieXUniform [;+ 1];> 0, cu densitatea de repartit ¸ie f(x) = 1;
6×6+ 1. Fie (x1;:::;xn)select ¸ie asupra lui X. Atunci funct ¸ia de verosimilitate este
L(x1;:::;xn;) = 1(6min
i=1;nxi)1(+1max
i=1;nxi)
Dac˘a not ˘am2= min
i=1;nxi,1= max
i=1;nxi 1, atunci oriceb2[1;2]este estimator de verosimi-
litate maxim ˘a (vezi tabelul de mai jos). El va fi unic doar dac ˘a1=2
0121
1(62)1 1 1 1 0
1(1)1 1 1 1 1
L0 1 1 1 0
Verosimilitatea maxim ˘a poate fi sensibil ˘a la alegerea valorilor init ¸iale.
3.3 Alte metode
3.3.1 Metoda Bayes
Metodele de inferent ¸ ˘a statistic ˘a descrise anterior sunt adesea denumite metode clasice. Metodele
Bayesiane (numite dup ˘a matematicianul englez Thomas Bayes) ofer ˘a alternative care s ˘a permit ˘a
combinarea informat ¸iilor prealabile despre parametrul populat ¸iei cu informat ¸iile cont ¸inute
ˆıntr-un es ¸antion pentru a ghida procesul de inferent ¸ ˘a statistic ˘a. Astfel, este specificat ˘a mai ˆıntˆai
o repartit ¸ie de probabilitate apriori pentru un parametru de interes. Informat ¸iile din es ¸antion sunt
apoi obt ¸inute s ¸i combinate printr-o aplicat ¸ie a teoremei lui Bayes pentru a furniza o repartizare
aposteriori a probabilit ˘at ¸ii parametrului. Repartit ¸ia aposteriori ofer ˘a baza pentru inferent ¸ele
statistice referitoare la parametru s ¸i pentru a lua ulterior decizii mai bune.
O caracteristic ˘a cheie s ¸i oarecum controversat ˘a a metodelor Bayesiene este not ¸iunea de
repartit ¸ie de probabilitate pentru un parametru al populat ¸iei. Potrivit statisticii clasice, parametrii
sunt constant ¸i s ¸i nu pot fi reprezentat ¸i ca variabile aleatoare. Argumentele bayesiene sust ¸in c ˘a,
dac˘a o valoare a parametrului este necunoscut ˘a, atunci este logic s ˘a se precizeze o repartit ¸ie de
probabilitate care descrie valorile posibile ale parametrului, precum s ¸i probabilitatea lor. Abor-
darea Bayesian ˘a permite utilizarea unor date obiective sau a unei opinii subiective ˆın specifi-
carea unei repartit ¸ii apriori. Cu abordarea Bayesian ˘a, diferite persoane ar putea specifica diferite
repartit ¸ii apriori. Statisticienii clasici sust ¸in c ˘a, din acest motiv, metodele Bayesiene sufer ˘a de o
lips˘a de obiectivitate. Argumentele bayesiene sust ¸in c ˘a metodele clasice de inferent ¸ ˘a statistic ˘a
au o subiectivitate ˆıncorporat ˘a (prin alegerea unui plan de es ¸antionare) s ¸i c ˘a avantajul abord ˘arii
Bayesiene este c ˘a subiectivitatea este explicit ˘a.
Interpretarea Bayesian ˘a ofer ˘a un set standard de proceduri s ¸i formule pentru a efectua acest
calcul.
24
Utilizarea secvent ¸ial ˘a a formulei Bayes: atunci c ˆand devin disponibile mai multe date, se
calculeaz ˘a distribut ¸ia aposteriori folosind formula lui Bayes; ulterior, distribut ¸ia aposteriori
devine urm ˘atoarea. Pentru a alege o repartit ¸ie de probabilitate a unui parametru dup ˘a ce
s-au observat datele, trebuie s ˘a alegem o repartit ¸ie de probabilitate a parametrului ˆınainte de a
observa datele.
O probabilitate apriori este probabilitatea disponibil ˘aˆın prealabil s ¸i ˆınainte de a face observat ¸ii
suplimentare. O probabilitate aposteriori este probabilitatea obt ¸inut ˘a din probabilitatea apriori
dup˘a ce a fost f ˘acut˘a o observat ¸ie suplimentar ˘a cu privire la cunos ¸tint ¸ele anterioare disponibile.
Fieun parametru, unde P()va fi probabilitatea init ¸ial ˘a a acestuia, adic ˘aP()se mai
numes ¸te s ¸i probabilitatea apriori, ˆınainte ca datele s ˘a fie observate.
Notat ¸ie. CuP(d)not˘am probabilitatea init ¸ial ˘a a datelordcare vor fi observate.
P(dj)reprezint ˘a probabilitatea datelor d,ˆın raport cu ipoteza .
P(jd)reprezint ˘a probabilitatea aposteriori ipotezei , iar ea se calculeaz ˘a dup ˘a obser-
varea datelor d.
Observat ¸ie. Probabilitatea apriori P()este independent ˘a ded.
Cu toate notat ¸iile definite mai sus, putem s ˘a aplic ˘am Teorema lui Bayes pentru a calcula
probabilitatea aposteriori:
P(jd) =P(d;)P()
P(d)
Evaluarea Bayesian ˘a a parametrilor specific ˘a modul ˆın care ar trebui s ˘a ne actualiz ˘am convin-
gerile ˆın lumina probelor nou introduse.
3.3.2 Metoda distant ¸ei minime
FieX1;X2;:::;Xnun es ¸antion independent, identic repartizat dintr-o populat ¸ie cu funct ¸ia de
repartit ¸ieF(x;) :2s ¸iRk;(k1)s ¸i fieFn(x)funct ¸ia de repartit ¸ie empiric ˘a bazat ˘a
pe es ¸antion.
Fiebun estimator pentru . AtunciF(x;b)este un estimator pentru F(x;).
Fied[;]o funct ¸ie care ˆıntoarce o anumit ˘a masur ˘a a distant ¸ei dintre cele dou ˘a argumente;
ea mai poart ˘a denumirea s ¸i de funt ¸ie criteriu .
Dac˘a exist ˘ab2astfel ˆıncˆatdh
F(x;b);Fn(x)i
=inffd[F(x;);Fn(x)] ;2g,
atuncibse va numi estimator de distant ¸ ˘a minim ˘aal lui.
Metodele de distant ¸ ˘a minim ˘a ofer ˘a o mare categorie de proceduri de estimare care posed ˘a
analogii interesante fat ¸ ˘a de alte metode de estimare. Estimarea prin metoda distant ¸ei minime
conduce la o clas ˘a natural ˘a de teste de bun ˘a calitate s ¸i ofer ˘a o tehnic ˘a pentru construirea testului
de ajustare, f ˘ar˘a parametri asimptotici ˆın compozit ¸ia problemei de ajustare.
25
Testul Hi-p ˘atrat al lui Pearson foloses ¸te o m ˘asur˘a a ajust ˘arii care este suma diferent ¸elor
dintre frecvent ¸ele observate s ¸i cele as ¸teptate (adic ˘a num ˘arul de observat ¸ii), fiecare diferent ¸ ˘a
fiind la p ˘atrat s ¸i ˆımp˘art ¸i˘a la frecvent ¸a as ¸teptat ˘a
2=nX
i=1(Oi Ei)2
Ei
undeOieste o frecvent ¸ ˘a observat ˘a;
Eieste frecvent ¸a as ¸teptat ˘a (teoretic ˘a) pentru clasa iconform ipotezei nule a testului (pentru
aceast ˘a metod ˘a, spat ¸iul de es ¸antionare este ˆımp˘art ¸itˆınnclase, care sunt ˆın general intervale).
Frecvent ¸a as ¸teptat ˘aEieste calculat ˘a astfel:
Ei= (F(Yu) F(Yl))N
undeF=funct ¸ia de repartit ¸ie cumulativ ˘a pentru repartit ¸ia care este testat ˘a;
Yu=limita superioar ˘a pentru clasa i;
Yl=limita inferioar ˘a pentru clasa i;
N=dimensiunea es ¸antionului.
Valoarea rezultat ˘a poate fi comparat ˘a cu o repartit ¸ie hi-p ˘atrat pentru a determina calitatea
ajust ˘arii. Repartit ¸ia hi-p ˘atrat are (k c)grade de libertate, unde keste num ˘arul de celule care
nu sunt goale s ¸i ceste num ˘arul parametrilor estimat ¸i ai repartit ¸iei plus unu. De exemplu, pentru
o repartit ¸ie Weibull cu 3parametri,c= 4.
Revenind la metoda de estimare propriu-zis ˘a, spat ¸iul de es ¸antionare al lui Xesteˆımp˘art ¸itˆın
kclase, iarpi()este definit ˘a ca probabilitatea clasei i, cui= 1;2;:::;k , anume
pi() =Z
x2iclas˘af(x;)dx
Decipi()depinde de valoarea lui . De asemenea, bpieste proport ¸ia din es ¸antionul observat
care se ˆıncadreaz ˘aˆın clasai, cui= 1;2;:::;k . Atunci, estimarea minim ˘a2a luieste valoarea
luicare minimizeaz ˘a:
2=kX
i=1(bpi pi())2
pi()
Astfel,face ca2s˘a fie statistic c ˆat mai mic ˘a cu putint ¸ ˘a. O versiune modificat ˘a a formulei
precedente, pentru care calculele pot fi mai simple, deoarece numai num ˘ar˘atorul ˆımplic ˘a, este
s˘a g˘asimcare minimizeaz ˘a:
kX
i=1(bpi pi())2
bpi
26
3.3.3 Metoda celor mai mici p ˘atrate
Metoda celor mai mici p ˘atrate, numit ˘aˆın statistic ˘a s ¸i aproximarea celor mai mici p ˘atrate, este
o metod ˘a de estimare a valorii reale a unei anumite cantit ˘at ¸i, care se bazeaz ˘a pe examinarea
erorilor din observat ¸ii sau m ˘asur˘atori. ˆIn particular, consider ˆand dreapta yi=a+bxi, undexi
este valoarea pentru care s-a m ˘asuratyi,este minimizat ˘a suma tuturor abaterilor (yi a+bxi)2
prin stabilirea derivatelor part ¸iale ale sumei ˆın raport cu as ¸ibs ¸i egalarea lor cu 0. Metoda poate
fi, de asemenea, generalizat ˘a pentru relat ¸ii neliniare.
Metoda celor mai mici p ˘atrate este o tehnic ˘a statistic ˘a important ˘a utilizat ˘a pentru a g ˘asi o
dreapt ˘a de regresie sau o dreapt ˘a optim ˘a pentru modelul dat. ˆIn analiza de regresie, aceast ˘a
metod ˘a este considerat ˘a a fi o abordare standard pentru aproximarea seturilor de ecuat ¸ii care
au mai multe ecuat ¸ii dec ˆat num ˘arul de necunoscute. Metoda celor mai mici p ˘atrate defines ¸te
de fapt solut ¸ia pentru minimizarea sumelor de abateri sau erori p ˘atratice ˆın rezultatul fiec ˘arei
ecuat ¸ii. Deci, s ˘a presupunem c ˘af(x)este curba de modelat s ¸i calcul ˘am o eroare sau o abatere
de la fiecare punct dat. Putem scrie c ˘a:
d1=y1 f(x1)
d2=y2 f(x2)
:::
dn=yn f(xn)
Cele mai mici p ˘atrate definesc curba care se potrives ¸te cel mai bine s ¸i este reprezentat ˘a de
proprietatea care spune c ˘a suma p ˘atratelor tuturor abaterilor de la valorile date trebuie s ˘a fie
minim ˘a:
S=nX
i=1d2
i=nX
i=1jyi fxij2=d2
1+d2
2+:::+d2
n=minim ˘a
3.4 Exemple
3.4.1 Repartit ¸ii de tip discret
a)Repatit ¸ia Poisson
Variabila aleatoare Xurmeaz ˘a o repartit ¸ie Poisson de parametru , notat ˘aXPo(),
>0, dac ˘a ia valorile 0;1;2;:::cu probabilit ˘at ¸ile
P(X=n) =e n
n!
Media s ¸i dispersia sunt egale cu
EX=Var(X) =
Metoda momentelor
27
Se egaleaz ˘aEX=x, deci solut ¸ia este b=x.
Metoda verosimilit ˘at ¸ii maxime
Fiex= (x1;:::;xn)un es ¸antion. Scriem funct ¸ia de verosimilitate ca fiind
L(;x) =nY
i=1P(X=xi)
=nY
i=1e xi
xi!
=e nPn
i=1xi
nY
i=1xi!(3.4.1)
Logaritm ˘am funct ¸ia de verosimilitate 3:4:1s ¸i obt ¸inem c ˘a
lnL(;x) = n+ nX
i=1xi!
ln ln nY
i=1xi!!
(3.4.2)
Introducem notat ¸iaPxi=nxs ¸i deriv ˘am ecuat ¸ia 3:4:2ˆın raport cu s ¸i egal ˘am cu 0
@lnL(;x)
@= n+nx
= 0
de unde rezult ˘a c˘a
e=x
Deci, solut ¸ia metodei momentelor coincide cu solutia metodei verosimilit ˘at ¸ii maxime ˆın
acest caz.
b)Repatit ¸ia Binomial ˘a
Variabila aleatoare Xurmeaz ˘a o repartit ¸ie Binomial ˘a, notat ˘aXBin(m;p), unde
m2Ns ¸ip2[0;1], dac ˘a ia valorile 0;1;2;:::m cu probabilit ˘at ¸ile
P(X=k) =Ck
mpkqm k; undeq= 1 p.
Media s ¸i dispersia sunt egale cu
EX=mp
Var(X) =mpq
28
ˆIn acest caz mnu se estimeaz ˘a ca fiind valoarea maxim ˘a din es ¸antion, deci mai r ˘amˆane
de estimat doar pcare va rezulta din egalarea mediei cu x
EX=x)mp=x)bp=x
m
Metoda verosimilit ˘at ¸ii maxime
Fiex= (x1;:::;xn)un es ¸antion s ¸i estim ˘am din nou doar p. Funct ¸ia de verosimilitate este
L(p;x) =nY
i=1P(X=xi)
=nY
i=1Cxi
mpxiqm xi
= nY
i=1Cxi
m!
pPxiqnm Pxi(3.4.3)
Logaritm ˘am funct ¸ia de verosimilitate 3:4:1s ¸i obt ¸inem c ˘a
lnL(p;x) = lnY
Cxi
m
+X
xilnp+ (nm X
xi) lnq (3.4.4)
Deriv ˘am ecuat ¸ia 3:4:4ˆın raport cu ps ¸i o egal ˘am cu 0
@lnL(p;x)
@p=nx
p+nm nx
q( 1) = 0
ˆınlocuindq= 1 pva rezulta c ˘a
x
p=m x
1 p
De unde obt ¸inem solut ¸ia
ep=x
m
adic˘a aceeas ¸i solut ¸ie ca la metoda momentelor.
c)Repartit ¸ia geometric ˘a
Aceast ˘a repartit ¸ie se poate defini ˆın dou ˘a moduri:
Metoda I
29
Variabila aleatoare Xurmeaz ˘a o repartit ¸ie geometric ˘a, notat ˘a cuXGeom (p), unde
p2(0;1), dac ˘a are densitatea de repartit ¸ie
P(X=k) = (1 p)k 1p undek= 1;2;3:::.
Media s ¸i dispersia sunt egale cu
EX=1
p
Var(X) =1 p
p2
Metoda momentelor
Rezolv ˘am ecuat ¸ia EX=xcare este echivalent ˘a cux=1
p, de unde rezult ˘a solut ¸iabp=1
x
Metoda verosimilit ˘at ¸ii maxime
Fiex= (x1;:::;xn)un es ¸antion cu funct ¸ia de verosimilitate
L(p;x) =nY
i=1P(X=xi)
=nY
i=1(1 p)xi 1p
=pn(1 p)Pn
i=1(xi 1)(3.4.5)
Logaritm ˘am funct ¸ia de verosimilitate 3:4:5s ¸i obt ¸inem c ˘a
lnL(p;x) =nlnp+ nX
i=1(xi 1)!
ln(1 p) (3.4.6)
Deriv ˘am ecuat ¸ia 3:4:6ˆın raport cu ps ¸i o egal ˘am cu 0
@lnL(p;x)
@p=n
p Pn
i=1(xi 1)
1 p= 0
astfel, vom avea
n
p=Pn
i=1(xi) n
1 p)1
p=Pxi
n
Prin urmare, obt ¸inem solut ¸ia
ep=nPxi=1
x
30
deci, aceeas ¸i solut ¸ie cu solut ¸ia metodei momentelor.
Metoda II
Variabila aleatoare Xurmeaz ˘a o repartit ¸ie geometric ˘a, notat ˘a cuXGeom (p), unde
p2(0;1], dac ˘a are densitatea de repartit ¸ie
P(X=k) = (1 p)kp undek= 0;1;2;3:::.
Media s ¸i dispersia sunt egale cu
EX=1 p
p
Var(X) =1 p
p2
Metoda momentelor
Rezolv ˘am ecuat ¸ia EX=xcare este echivalent ˘a cux=1 p
p, de unde rezult ˘a solut ¸ia
bp=1
1 x.
Metoda verosimilit ˘at ¸ii maxime
Fiex= (x1;:::;xn)un es ¸antion cu funct ¸ia de verosimilitate
L(p;x) =nY
i=1P(X=xi)
=nY
i=1(1 p)xip
=pn(1 p)Pn
i=1xi(3.4.7)
Logaritm ˘am funct ¸ia de verosimilitate 3:4:7s ¸i obt ¸inem c ˘a
lnL(p;x) =nlnp+ nX
i=1xi!
ln(1 p) (3.4.8)
Deriv ˘am ecuat ¸ia 3:4:8ˆın raport cu ps ¸i o egal ˘am cu 0
@lnL(p;x)
@p=n
p Pxi
1 p= 0
31
astfel, vom avea c ˘a
n
p=Pxi
1 p)p
1 p=nPxi
S ¸tim c ˘anPxi=1
x, prin urmare, solut ¸ia pe care o obt ¸inem este
ep=1
1 +x
deci, s-a obt ¸inut aceeas ¸i solut ¸ie ca la metoda momentelor.
3.4.2 Repartit ¸ii de tip continuu
a)Repartit ¸ia exponent ¸ial ˘a
Variabila aleatoare Xurmeaz ˘a o repartit ¸ie exponent ¸ial ˘a, notat ˘aXExp(), > 0,
dac˘a are densitatea de repartit ¸ie
f(x) =e x; cˆandx>0:
Media sa este
EX=1
iar dispersia este
Var(X) =1
2
Metoda momentelor
Se rezolv ˘a ecuat ¸ia EX=x, care este echivalent ˘a cu1
=x. Astfel obt ¸inem solut ¸ia
b=1
x.
Metoda verosimilit ˘at ¸ii maxime
Fiex= (x1;:::;xn)un es ¸antion. Scriem funct ¸ia de verosimilitate ca fiind
L(;x) =nY
i=1f(xi) =nY
i=1e xi
=ne Pn
i=1xi(3.4.9)
Logaritm ˘am funct ¸ia de verosimilitate 3:4:9s ¸i obt ¸inem c ˘a
lnL(;x) =nln nX
i=1xi (3.4.10)
32
V om deriva ecuat ¸ia 3:4:10ˆın raport cu , apoi egal ˘am cu 0
@lnL(;x)
@=n
nx= 0
)n
=nx
de unde solut ¸ia
e=1
x
Deci, solut ¸ia metodei momentelor este aceeas ¸i cu solut ¸ia metodei verosimilit ˘at ¸ii maxime
ˆın acest caz.
b)Repartit ¸ia gamma
Variabila aleatoare Xeste repartizat ˘a gamma, notat ˘aXGamma (;), cu; > 0,
dac˘a are densitatea de repartit ¸ie
f(x) =
()x 1e x; cˆandx>0: (3.4.11)
Media s ¸i dispersia sunt
EX=
Var(X) =
2
Metoda momentelor
Egal ˘am primele dou ˘a momente teoretice cu cele empirice
8
><
>:EX=x
Var(X) =S2()8
>>><
>>>:
=x
2=S2(3.4.12)
Din prima ecuat ¸ie a sistemului 3:4:12vom obt ¸ine
x
=S2)b=x
S2(3.4.13)
iar apoi vom ˆınlocui rezultatul obt ¸inut 3:4:13pentru a calcula b
b=bx)b=x2
S2
33
Deci, solut ¸ia sistemului 3:4:12este
8
>>><
>>>:b=x2
S2
b=x2
S2
Metoda verosimilit ˘at ¸ii maxime
Fiex= (x1;:::;xn)un es ¸antion. Scriem funct ¸ia de verosimilitate astfel
L(;;x) =nY
i=1f(xi) =nY
i=1
()x 1
ie xi
=n
()n nY
i=1xi! 1
e Pn
i=1xi(3.4.14)
Logaritm ˘am funct ¸ia de verosimilitate 3:4:14s ¸i obt ¸inem c ˘a
lnL(;;x) =nln nln () + ( 1) lnY
x1
nX
i=1xi (3.4.15)
Deriv ˘am ecuat ¸ia 3:4:15ˆın raport cu s ¸is ¸i egal ˘am cu 0
8
>>>>><
>>>>>:@lnL(;;x)
@=nln n
()d ()
d+ lnY
xi
= 0
@lnL(;;x)
@=n
nX
i=1xi= 0(3.4.16)
Rezolv ˘am a doua ecuat ¸ie a sistemului 3:4:16s ¸iˆıl aflam pe
b=nPxi=
(3.4.17)
ˆInlocuim rezultatul obt ¸inut 3:4:17ˆın prima ecuat ¸ie a sistemului 3:4:16, astfel, obt ¸inem
urm˘atoarea ecuat ¸ie care trebuie rezolvat ˘a numeric
nln
x n
()d( ())
d+ lnY
xi
= 0 (3.4.18)
Aceast ˘a ecuat ¸ie 3:4:18se reprezint ˘a folosind un software matematic, iar ca valoare de
pornire pentru se poate folosi bobt ¸inut prin metoda momentelor.
34
4 Estimarea parametrilor ˆın R
4.1 Programul R
R poate fi privit ca o implementare a limbajului S, dezvoltat la Bell Laboratories de Rick Becker,
John Chambers s ¸i Allan Wilks, s ¸i constituie, de asemenea, baza sistemelor S-PLUS.
R const ˘aˆıntr-o serie de facilit ˘at ¸i software integrate pentru manipularea datelor, calcul s ¸i
afis ¸are grafic ˘a. Printre alte lucruri pe care le cont ¸ine, amintim:
– o unitate eficient ˘a de manipulare s ¸i stocare a datelor;
– o serie de operatori pentru calcule pe mult ¸imi s ¸i vectori, ˆın special pe matrici;
– o colect ¸ie larg ˘a, coerent ˘a s ¸i integrat ˘a de instrumente intermediare pentru analiza datelor;
– facilit ˘at ¸i grafice pentru analiza s ¸i afis ¸area datelor, fie direct pe ecran, fie la imprimant ˘a;
– un limbaj de programare bine dezvoltat, care include instruct ¸iuni de condit ¸ionare, de
ciclare, funct ¸ii recursive definite de utilizator s ¸i facilit ˘at ¸i de intrare s ¸i ies ¸ire.
Termenul mediu de programare este utilizat a-l prezenta ca un sistem complet planificat s ¸i
absolut coerent, mai mult dec ˆat ca pe o sum ˘a de instrumente specifice s ¸i inflexibile, as ¸a cum se
ˆıntˆampl ˘a deseori cu alte programe de analiz ˘a a datelor.
R este un program utilizat pentru metode de analiz ˘a interactiv ˘a a datelor. Acesta a luat
amploare s ¸i a cunoscut cres ¸teri semnificative printr-o multitudine de pachete. S ¸i totus ¸i, cele mai
multe programe scrise ˆın R sunt concepute doar pentru o singur ˘a analiz ˘a a datelor.
Majoritatea utilizatorilor programului R ˆıl folosesc drept sistem statistic deoarece au fost
implementate multe tehnici statistice clasice s ¸i moderne. Pogramul ˆınregistreaz ˘a aproximativ
25de pachete, numite pachete standard saurecomandate ,iar numeroase altele pachete sunt
disponibile prin familia CRAN.
Acest program este utilizat ˆın cele mai multe tehnici statistice clasice s ¸i ˆın multe din metodologi-
ile actuale, iar cei care le prefer ˘a trebuie s ˘a le identifice printre pachetele disponibile.
S-a constatat o diferent ¸ ˘a semnificativ ˘aˆıntre filozofia S (s ¸i, prin urmare, R) s ¸i celelalte sis-
teme statistice principale. ˆIn S, o analiz ˘a statistic ˘a se realizeaz ˘aˆın mod firesc ca o serie de
pas ¸i, iar rezultatele intermediare fiind stocate ˆın obiecte. As ¸adar, ˆın timp ce SAS s ¸i SPSS vor
genera rezultate numeroase dintr-o analiz ˘a de regresie, R va oferi rezultate minime s ¸i va stoca
rezultatele ˆıntr-un obiect adecvat pentru interogarea ulterioar ˘a prin alte funct ¸ii R.
O utilizare potrivit ˘a a programului R va determina un set cuprinz ˘ator de tabele statistice.
Funct ¸iile furnizate sunt construite pentru a evalua funct ¸ia de repartit ¸ie cumulativ ˘aP(X6x),
funct ¸ia densit ˘at ¸ii de probabilitate, funct ¸ia quantila (dat fiind q, cel mai mic xastfel ˆıncˆatP(X6
x)> qs ¸i pentru a simula din distribut ¸ie. Cele mai cunoscute repartit ¸ii puse la dispozit ¸ie de R
sunt prezentate ˆın urm ˘atorul tabel:
35
Repartit ¸ii denumire ˆın R argumente suplimentare
beta beta shape1, shape2, ncp
binomial ˘a binom size, prob
Cauchy cauchy location, scale
Hi-p ˘atrat chisq df, ncp
exponent ¸ial ˘a exp rate
F f df1, df2, ncp
Gamma gamma shape, scale
geometric ˘a geom prob
hipergeometric ˘a hyper m, n, k
log-normal lnorm meanlog, sdlog
logistic ˘a logis location, scale
binomial ˘a negativ ˘a nbinom size, prob
normal ˘a norm mean, sd
Poisson pois lambda
t Student t df, ncp
uniform ˘a unif min, max
Weibull weibull shape, scale
Wilcoxon wilcox m, n
ˆIn R sunt notate denumirea repartit ¸iei cu dpentru densitate, pentru funct ¸ia de repartit ,ie cu
p, pentru funct ¸ia quantil ˘a cuq, iar pentru simulare cu r. Dac ˘a numele este x, se va scrie dxxx ,
pxxx ,qxxx s ¸i respectivrxxx .
ˆIn pachetele SuppDists sunt disponibile s ¸i alte repartit ¸ii.
Programul R pune la dispozit ¸ie utilizatorului o serie de instrumente care ajut ˘a la ajustarea
modelelor statistice.
ˆIn utilizarea metodelor statistice, valorile init ¸iale ale parametrilo sunt foarte importante, iar
convergent ¸a depinde de calitatea acestor valori de pornire.
4.2 Funct ¸ii R specifice
Pentru o bun ˘a funct ¸ionare a programului R acesta trebuie s ˘a cont ¸in ˘a funct ¸iile de baz ˘a, funct ¸iile
statistice, graficele standard s ¸i seturile de date. Acestea se g ˘asesc ˆın mare parte ˆın pachetele
standar, considerate parte a codului surs ˘a R.
Cu scopul de a realiza ajustarea repartit ¸iilor parametrice univariate la date cenzurate sau
necenzurate se apeleaz ˘a la pachetul fitdistrplus , fiind un pachet general cu dou ˘a funct ¸ii gen-
erale. Prima funct ¸ie este fitdist care serves ¸te la ajustarea datelor necenzurate, iar cea de-a doua
serves ¸te la ajustarea datelor cenzurate s ¸i se numes ¸te fitdistcens . Selectarea repartit ¸iilor can-
didate ˆın vederea ajustarii poate fi condus ˘a folosind funct ¸iile descdist s ¸iplotdist pentru date
necenzurate s ¸i plotdistcens pentru datele cenzurate.
36
Funct ¸iile fitdist s ¸ifitdistcens pot folosi diverse metode pentru a estima parametrii de repartit ¸ie,
cum ar fi:
– estimarea prin metoda verosimilit ˘at ¸ii maxime, ˆın mod implicit ( mledist );
– estimarea prin metoda momentelor ( mmedist );
– estimarea prin metoda egal ˘arii cuantilelor ( qmedist );
– estimarea prin maximizarea ajust ˘arii (mgedist ).
Metoda verosimilit ˘at ¸ii maxime, potrivirea momentelor (mme), ajustarea cu cuantile (qme)
sau maximizarea ajust ˘arii (fit-fit) sunt metode care realizeaz ˘a ajustarea repartit ¸iilor univariate
la date necenzurate. Maximizarea ajust ˘arii (fit-fit) poart ˘a denumirea s ¸i de metoda minimiz ˘arii
distant ¸ei estimate. Funct ¸iile generice sunt print ,plot,rezumat ,quantile ,logLik ,vcov s ¸i
coef .
Utilizarea funct ¸iei fitdist :
Detalii asupra metodelor alese:
Dac˘a se alege metoda mle, se realizeaz ˘a estimarea prin metoda verosimilit ˘at ¸ii maxime, care
se concretizeaz ˘aˆın maximizarea probabilit ˘at ¸ii logaritmice. O optimizare numeric ˘a se realizeaz ˘a
ˆınmledist prin funct ¸ia optim pentru a identifica relevante valori.
ˆIn cazul ˆın care se alege metoda mme , estimarea se va realiza prin metoda momentelor s ¸i ca
urmare se egalarez ˘a momentelor teoretice cu cele empirice. Valorile estimate ale parametrilor de
distribut ¸ie sunt calculate printr-o formul ˘aˆınchis ˘a pentru urm ˘atoarele distribut ¸ii: norm ,lnorm ,
pois,exp,gamma ,nbinom ,geom ,beta,unif s ¸ilogis . Ca urmare, se vor potrivi numeric
momentele teoretice s ¸i cele empirice, minimiz ˆand sumele diferent ¸elor p ˘atrate dintre momentele
observate s ¸i cele teoretice.
4.3 Exemple numerice de utilizare a funct ¸iei fitdist
Repartit ¸ia Gamma
Pentru exemplificare se vor genera ˆın programul urm ˘ator1000 de valori din repartit ¸ia Gamma
de parametri: shape = 2 s ¸irate = 1:5. Se calculeaz ˘a utiliz ˆand funct ¸ia fitdist valorile esti-
mate ale parametrilor prin shape s ¸irate prin dou ˘a metode: metoda momentelor s ¸i metoda
verosimilit ˘at ¸ii maxime. Valorile ce se vor obt ¸ine se g ˘asesc ˆıntre liniile de cod. Se observ ˘a c˘a
37
aceste valori sunt diferite de valorile init ¸iale, as ¸a cum era de presupus, ˆın conformitate cu cal-
culelor din Sect ¸iunea 3:4:2. Se remarc ˘a faptul c ˘a din valorile afis ¸ate pentru funct ¸ia de verosimili-
tate, pentru cei doi coeficient ¸ii AIC s ¸iBIC se observ ˘a c˘a estimat ¸ia realizat ˘a cu ajutorul metodei
verosimilit ˘at ¸ii maxime este de preferat, cu toate c ˘a diferent ¸ele nu sunt semnificative.
ˆIn histograma urm ˘atoare am ilustrat grafic calitatea ajust ˘arii s ¸i am suprapus peste datele
generate curba densit ˘at ¸ii Gamma cu parametrii estimat ¸i prin metoda verosimilit ˘at ¸ii maxime
(shape = 1:960193 ,rate = 1:442275 ).
38
Repartit ¸ia exponent ¸ial ˘a
Pentru a ilustra repartit ¸ia exponent ¸ial ˘a de parametru rate = 1s-au generat 1000 de valori ˆın
urm˘atorul program. Utiliz ˆand funct ¸iafitdist se calculeaz ˘a prin cele dou ˘a metode aprofundate
ˆın prezenta lucrare, metoda momentelor s ¸i metoda verosimilit ˘at ¸ii maxime, valorile estimate ale
parametrului. Se poate observa c ˘a rezultatul obt ¸inut se afl ˘aˆıntre liniile de cod. Se remarc ˘a cum
valorile care au fost estimate sunt egale s ¸i foarte aproape de valoarea real ˘a as ¸a cum calculele
din Sect ¸iunea 3:4:2ne confirm ˘a.
Pentru a observa s ¸i grafic calitatea ajust ˘arii,ˆın figura ce urmeaz ˘a este prezentat ˘a histograma
datelor generate s ¸i cu linie punctat ˘a este trasat ˘a curba densit ˘at ¸ii exponent ¸iale cu parametrul
estimatrate = 0:9970628 .
39
Repartit ¸ia normal ˘a
ˆIn codul prezentat mai jos se exemplific ˘a repartit ¸ia normal ˘a. Sunt generate 1000 de valori
din aceast ˘a repartit ¸ie de parametri: mean = 0 s ¸isd= 1:5. Se efectueaz ˘a calculul cu ajutorul
funct ¸ieifitdist s ¸i vor rezulta valorile estimate ale parametrilor prin dou ˘a metode: metoda mo-
mentelor s ¸i metoda verosimilit ˘at ¸ii maxime. Cele dou ˘a valori rezultate se g ˘asesc ˆıntre liniile de
cod s ¸i sunt identice, asa cum demonstreaz ˘a s ¸i calculele ˆın exemplul din Sect ¸iunea 3:2:1.
ˆIn cele ce urmeaz ˘a sunt reprezentate grafic calitatea ajust ˘arii, mai precis histograma datelor
generate s ¸i trasat ˘a curba densit ˘at ¸ii normale cu parametrii ce au fost estimat ¸i mean = 0:02099012
s ¸isd= 0:99719439 .
40
Repartit ¸ia geometric ˘a
Pentru repartit ¸ia geometric ˘a se va genera cu ajutorul funct ¸iei rgeom 1000 de valori s ¸i
parametru:prob = 0:2. Se determin ˘a valorile estimate ale parametrului prob cu funct ¸iafitdist
prin metoda momentelor s ¸i metoda verosimilit ˘at ¸ii maxime. Se constat ˘a faptul c ˘a valori estimate
prin cele dou ˘a metode sunt identice, confir ˆamd calculele f ˘acute ˆın Sect ¸iunea 3.4.1.
As ¸adar, se trece la reprezentarea grafic ˘a a histogramei datelor generate s ¸i a curbei densit ˘at ¸ii
geometrice cu parametrul ce a fost estimat ca fiind mean = 0:2027575 .
41
Repartit ¸ia Poisson
ˆIn aceast ˘a sect ¸iune vom genera 1000 de date pentru repartit ¸ia Poisson c ˆand lambda ia val-
oarea 6s ¸i vom calcula lambda prin metoda momentelor s ¸i metoda verosimilit ˘at ¸ii maxime, ur-
mat˘a de reprezentarea histogramei s ¸i a curbei Poisson.
ˆIn comanda urm ˘atoare gener ˘am100de date pe care le putem reprezenta cu ajutorul funct ¸iei
barplot , adic ˘a diagrama cu bare.
42
Fig. 2: Histograma pentru 100de date generate din repartit ¸ia Poisson cu lambda egal 6
ˆIn cele ce urmeaz ˘a reprezent ˘am sub form ˘a de diagram ˘a cu bastonas ¸e probabilit ˘at ¸ile teoretice
pentru repatit ¸ia Poisson cu lambda egal cu 6. Calculul s-a f ˘acut p ˆan˘a la limita maxim ˘al= 13 ,
fiind surprins ˘a aproximativ 99:637% din probabilitate as ¸a cum se vede din comanda sum().
43
Fig. 3: Probabilit ˘at ¸ile pentru repartit ¸ia Poisson cu lambda egal 6
Cu ajutorul comenzii par(new =TRUE )putem suprapune oricare dou ˘a grafice. Prin ur-
mare, am suprapus histograma pentru datele generate cu probabilit ˘at ¸ile teoretice. Observ ˘am c ˘a
exist ˘a diferent ¸e ˆıntre cele dou ˘a grafice, care pot fi explicate prin num ˘arul mic de date generate,
doar100.
Fig. 4: Histograma s ¸i repartit ¸ia teoretic ˘a suprapuse pentru 100de date generate
44
S˘a vedem ce se ˆıntˆampl ˘a pentru mai multe date generate, astfel c ˘a,ˆın cele ce urmeaz ˘a
gener ˘am1000 de date pentru repartit ¸ia Poisson.
Fig. 5: Histograma s ¸i repartit ¸ia teoretic ˘a suprapuse pentru 1000 de date generate
Din cele dou ˘a Figuri 4s ¸i5, se observ ˘a cˆat de mare este impactul volumului de date: cu c ˆat
mai multe date avem ˆın studiu, cu at ˆat este mai bun ˘a ajustarea repartit ¸iei teoretice. De aceea
este recomandabil a se culege c ˆat mai multe date, recomandarea general ˘a fiind de minim 100,
dar observ ˘am c ˘a un volum mai mare de 1000 de date d ˘a rezultate mult mai bune.
45
Variat ¸ia lui :
Pentru diferitele valori luate de lambda ( ), adic ˘a5,10,15, funct ¸ia de probabilitate o s ˘a
varieze ˆın felul urm ˘ator:
Fig. 6: Probabilit ˘at ¸ile pentru repartit ¸ia Poisson c ˆand lambda variaz ˘a
4.4 Exemplu numeric pentru repartit ¸ia binomial ˘a: aplicarea direct ˘a a
metodei verosimilit ˘at ¸ii maxime
Metoda verosimilit ˘at ¸ii maxime este o tehnic ˘a statistic ˘a pentru estimarea parametrilor modelului.
ˆIn esent ¸ ˘a, se dores ¸te s ˘a se r ˘aspund ˘a laˆıntrebarea: ce parametri de model caracterizeaz ˘a cel mai
46
probabil un anumit set de date? Mai ˆıntˆai trebuie s ˘a select ˘am un model pentru date, iar modelul
trebuie s ˘a aib ˘a unul sau mai mult ¸i parametri (necunoscut ¸i). Dup ˘a cum sugereaz ˘a s ¸i numele,
estimarea verosimilit ˘at ¸ii maxime const ˘aˆın a maximiza o funct ¸ie de probabilitate, care la r ˆandul
s˘au maximizeaz ˘a acordul dintre model s ¸i date.
Cele mai multe exemple ilustrative ale metodei verosimilit ˘at ¸ii maxime urm ˘aresc s ˘a obt ¸in ˘a
parametrii pentru o funct ¸ie de densitate a probabilit ˘at ¸ii (FDP) a unei repartit ¸ii particulare. ˆIn
acest caz, funct ¸ia de probabilitate este obt ¸inut ˘a prin examinarea FDP-ului nu ca o funct ¸ie a vari-
abilei es ¸antionului, ci ca o funct ¸ie a parametrilor distribut ¸iei. Pentru fiecare punct din date avem
o funct ¸ie ce depinde de parametrii repartit ¸iei. Probabilitatea comun ˘a a setului complet de date
este rezultatul produsului acestor funct ¸ii. Acest produs este ˆın general foarte mic, astfel ˆıncˆat
funct ¸ia de probabilitate este ˆın mod normal ˆınlocuit ˘a de o funct ¸ie logaritmat ˘a. Maximizarea fie
a funct ¸iei probabilit ˘at ¸ii, fie a funct ¸iei de logaritmare d ˘a aceleas ¸i rezultate.
ˆIn continuare vom prezenta estimarea verosimilit ˘at ¸ii maxime a parametrului repartit ¸iei bi-
nomiale.
Un experiment Bernoulli este un experiment cu dou ˘a rezultate potent ¸iale, de exemplu: da /
nu, succes / es ¸ec, mort / ˆın viat ¸ ˘a, cap / coad ˘a etc.
Repartit ¸ia binomial ˘a d˘a probabilitatea a xsuccese ˆıntr-o secvent ¸ ˘a deNexperimente Bernoulli
independente, atunci c ˆand probabilitatea de succes ˆın fiecare ˆıncercare este egal ˘a cup.
Parametrii unei repartit ¸ii binomiale sunt:
N- num ˘arul de ˆıncerc ˘ari (ia valori ˆınN);
p- probabilitatea de succes ˆın fiecare ˆıncercare (ia valori in intervalul [0;1]).
Simularea numerelor aleatorii din repartit ¸ia binomial ˘a:
Pentru generarea de numere aleatoare se foloses ¸te funct ¸ia rbinom (). Urm ˘atoarea comand ˘a
genereaz ˘a30de numere aleatoare dintr-o repartit ¸ie binomial ˘a cup= 0;5s ¸iN= 10 . Setul de
date simulat va fi diferit pentru fiecare execut ¸ie ˆın parte datorit ˘a aleatoriului. Simularea ar putea
reprezenta, de exemplu, 30de student ¸i care arunc ˘a fiecare c ˆate10monede (N= 10 ) s ¸i num ˘ar˘a
num˘arul de monede care prezint ˘a cap (p= 0;5). Cu funct ¸ia table ()putem num ˘ara c ˆat de des
s-a produs fiecare num ˘ar de succese (adic ˘a, moneda care prezint ˘a capul).
Acum datele sunt vizualizate folosind barplot (diagrama cu bare).
47
Repartit ¸ia binomial ˘a:
Spre deosebire de funct ¸ia rbinom (), care genereaz ˘a numere aleatoare, funct ¸ia dbinom ()
caluleaz ˘a probabilitatea a xsuccese pentru valorile parametrilor ps ¸iN.ddin numele funct ¸iei
este derivat din densitate, deoarece pentru funct ¸iile de repartit ¸ie continu ˘a, cum ar fi repartit ¸iile
normale, aceast ˘a funct ¸ie se numes ¸te funct ¸ie de densitate de probabilitate. Totus ¸i, pentru repar-
tit ¸iile discrete, incluz ˆand repartit ¸iile binomiale, aceast ˘a funct ¸ie se numes ¸te funct ¸ia de mas ˘a
a probabilit ˘at ¸ii. Aceasta ˆınseamn ˘a c˘a, chiar dac ˘a aceast ˘a terminologie este confuz ˘a, funct ¸ia
dbinom ()asigur ˘a funct ¸ia de mas ˘a a probabilit ˘at ¸ii repartit ¸iei binomiale.
Maiˆıntˆai, vizualiz ˘am aceast ˘a funct ¸ie pentru un anumit set de parametri. Ret ¸inem c ˘a proba-
bilit˘at ¸ile trebuie s ˘a fie de p ˆan˘a la unu, prin definit ¸ie. C ˆand arunci zece monede, s ¸tii c ˘a cele dou ˘a
capete vor fi ˆıntre zero s ¸i zece, adic ˘a probabilitatea unui rezultat ˆıntre zero s ¸i zece este egal ˘a cu
unu.
48
Variat ¸ia lui p:
La urm ˘atorul pas evalu ˘am modul ˆın care arat ˘a funct ¸ia de probabilitate pentru diferite valori
ale luip.
49
Variat ¸ia lui N:
Acum, verific ˘am cum arat ˘a funct ¸ia pentru diferite valori ale lui N.
Calculul verosimilit ˘at ¸ii:
Verosimilitatea este definit ˘a ca probabilitatea datelor furnizate modelului. Cu dbinom ()
obt ¸inem probabilitatea pentru fiecare prob ˘a, presupun ˆand o anumit ˘a valoare a parametrului p.
ˆIn acest caz s ¸tim adev ˘arata valoare a lui p, pentru c ˘a am simulat datele . Cu toate acestea, c ˆand
avem date reale, de obicei nu cunoas ¸tem adev ˘arata valoare a lui p. Parametrul Neste definit de
obicei prin proiectarea experimentului sau din es ¸antion (se ia valoarea maxim ˘a din date).
50
Cu toate acestea, dorim s ˘a s ¸tim verosimilitatea ˆıntregului set de date s ¸i nu a fiec ˘arui punct
de date individual. Presupunem c ˘a valorile din setul de date s-au obt ¸inut independent. Pentru
valorile independente obt ¸inem probabilitatea general ˘a a setului de date prin ˆınmult ¸irea valorilor
unice.
Aparent, acesta este un num ˘ar foarte mic. Pentru a evita problemele numerice de obicei
este calculat ˘alog-verosimilitatea, care furnizeaz ˘a valori care sunt numeric mai maleabile (adic ˘a
valori negative care nu sunt la fel de aproape de zero).
Ne amintim c ˘alog(ab) = loga+ logb. Acest lucru indic ˘a faptul c ˘a trebuie s ˘a rezum ˘am
verosimilitatea unic ˘a a logaritmului ˆın loc s ˘a multiplic ˘am valorile de verosimilitate netransfor-
mate. De ret ¸inut c ˘a logaritmul se obt ¸ine egal ˆandlogcu argumentul Tˆın funct ¸iadbinom ().
Desigur, acest lucru d ˘a verosimilitatea unei valori specifice a parametrului. Pentru a putea
calcula verosimilitatea oric ˘aror valori ale parametrilor, definim o funct ¸ie pentru verosimilitatea
logaritmului cu parametri s ¸i datele ca argumente.
Estimarea metodei verosimilit ˘at ¸ii maxime:
ˆIn cele din urm ˘a, dorim s ˘a deriv ˘am estimarea verosimilit ˘at ¸ii maxime a lui p. Aceasta
ˆınseamn ˘a c˘a am dori s ˘a g˘asim modelul respectiv, respectiv setul de parametri care a generat
cel mai probabil datele.
Pentru a ˆınt,elege mai bine acest lucru, vizualiz ˘am mai ˆıntˆai datele cu modele de valori
diferite ale parametrilor. ˆIn acest scop, frecvent ¸ele absolute observate ˆın date sunt conver-
titeˆın proport ¸ii prin ˆımp˘art ¸irea la dimensiunea es ¸antionului. Ret ¸inet ¸i c ˘a frecvent ¸ele absolute
sumeaz ˘a la dimensiunea es ¸antionului ( 30ˆın acest exemplu), ˆın timp ce proport ¸iile sumeaz ˘a la
unu. Aceasta ˆınseamn ˘a c˘aci conversia de la frecvent ¸e absolute la proport ¸ii standardizeaz ˘a datele
s ¸i probabilit ˘at ¸ile teoretice la aceeas ¸i scal ˘a.
51
Aceast ˘a imagine furnizeaz ˘a o p ˘arere vizual ˘a despre cam ce valori ale parametrului ar putea
fi utile sau, cu alte cuvinte, care sunt valorile parametrului cele mai probabile pentru datele ge-
nerate. Pentru a obt ¸ine estimarea verosimilit ˘at ¸ii maxime a lui p, vom evalua funct ¸ia de verosimi-
litate pentru o secvent ¸ ˘a de valori ale parametrilor folosind o dimensiune fin ˘a a pasului. Ret ¸inet ¸i
c˘a valoarea maxim ˘a alog-verosimilit ˘at ¸ii este identic ˘a cu cea a verosimilit ˘at ¸ii maxime, deoarece
funct ¸ialogeste o funct ¸ie monoton ˘a cresc ˘atoare.
52
Evident, estimarea verosimilit ˘at ¸ii maxime se apropie, dar difer ˘a de valoarea real ˘a utilizat ˘a
pentru generarea datelor. Cu toate acestea, cu c ˆat dimensiunea es ¸antionului este mai mare, cu
atˆat mai mic ˘a va fi aceast ˘a diferent ¸ ˘a (ˆın medie).
ˆIn cele din urm ˘a, reprezent ˘am datele simultan cu repartit ¸ia teoretic ˘a de baz ˘a, precum s ¸i cu
repartit ¸ia bazat ˘a pe estimarea metodei verosimilit ˘at ¸ii maxime.
53
4.5 Aplicat ¸ie: analiza unui set real de date ( setul danish )
Setul de date danish se g˘ases ¸te ˆın pachetulSMPracticals s ¸i reprezint ˘a2492 de costuri pl ˘atite
de asigur ˘ariˆın urma incendiilor dintr-un an din Danemarca.
Am estimat parametrii pentru 4repartit ¸ii clasice: normal ˘a, exponent ¸ial ˘a, Gamma s ¸i lognor-
mal˘a.
54
Rezultatele sunt prezentate ˆın tabelul de mai jos.
Repartit ¸ii Parametrii LogVer AIC BIC
Exponent ¸ial ˘a rate=0.3265094 -5281.287 10564.57 10570.39
Gammashape=1.2582349
rate =0.4108976-5243.027 10490.05 10501.7
Normal ˘amean=3.062699
sd =7.975102-8710.195 17424.39 17436.03
Lognormal ˘ameanlog=0.6718537
sdlog =0.7323167-4433.891 8871.782 8883.423
Deoarece criteriile AIC s ¸iBIC aleg repartit ¸ia cu valoarea cea mai mic ˘a din tabelul prezen-
tat mai sus, se observ ˘a c˘aAIC s ¸iBIC se obt ¸in pentru repartit ¸ia lognormal ˘a. Aceasta va fi cea
mai bun ˘a repartit ¸ie pentru datele danish .
55
4.6 Concluzii
Estimarea parametrilor unui model statistic este una dintre problemele fundamentale ale statis-
ticii. Alegerea unui estimator corespunz ˘ator, adic ˘a un estimator care s ˘a fie cel mai bun din
anumite puncte de vedere, este o sarcin ˘a foarte important ˘a care necesit ˘a criterii de optimali-
tate, as ¸a cum s-a v ˘azut la metoda verosimilit ˘at ¸ii maxime. ˆIn acest sens , ˆın lucrarea de fat ¸ ˘a am
prezentat metodele de estimare cele mai frecvent folosite s ¸i mai eficiente, anume: metoda mo-
mentelor s ¸i metoda verosimilit ˘at ¸ii maxime. Am discutat pe scurt diverse propriet ˘at ¸i ale acestor
metode s ¸i am trecut ˆın revist ˘a s ¸i alte metode de estimare.
As ¸a cum s-a putut constata estimarea parametrilor necesit ˘aˆın general calcule complexe s ¸i
ca urmare utilizarea unor softuri specializate.
Prin exemplele anterioare am urm ˘arit s ˘a subliniez c ˆat de util este softul R ˆın analiza datelor
s ¸i pentru estimarea parametrilor s ¸i c ˆat de us ¸or este de folosit ˆın practic ˘a. De asemena, disponi-
bilitatea unui num ˘ar mare de funct ¸ii statistice s ¸i a facilit ˘at ¸ilor grafice, plus faptul c ˘a este un
soft gratuit, accesibil s ¸i ˆın continu ˘a dezvoltare, ˆıl face unul dintre softurile cele mai utilizate ˆın
prezent.
La acestea se adaug ˘a faptul c ˘a softul permite analiza unui num ˘ar foarte mare de date care
pot fi importate din diverse tipuri de fis ¸iere, cum ar fi fis ¸ierele Excel sau text.
Astfel, am observat modul ˆın care tehnicile noi sau existente pot fi aplicate ˆıntr-o zon ˘a de
interes curent folosind R, oferind o nou ˘a perspectiv ˘a a unor astfel de analize ˆın acest program,
care au un beneficiu dincolo de aplicarea specific ˘a.
56
Bibliografie
[1] Beganu, G. Elemente de teoria probabilit ˘at ¸ilor s ¸i statistic ˘a matematic ˘a. Editura, Meteor
Publishing, 2004.
[2] Mircea, I., Sibiceanu, M. s ¸i Tudor, M. Probabilit ˘at ¸i, statistic ˘a s ¸i aplicat ¸ii . Editura, ASE,
2009.
[3] Johnson N.L., Kemp, A.W., Kotz, S. Univariate Discrete Distributions . Editura, Wiley,
2005.
[4] Johnson, N.L., Kotz, S. Distributions in Statistics: Continuous Univariate Distributions,
Volume 2 . Editura, Houghton Mifflin, 1970.
[5] Statistics-Lecture One,
https://www.stat.berkeley.edu/\ ˜vigre/activities/bootstrap/
2006/wickham_stati.pdf
[6] Maximum Likelihood Estimation (MLE),
http://www.sherrytowers.com/mle_introduction.pdf
[7] An Introduction to R,
https://cran.r-project.org/doc/manuals/r-release/R-intro.
html#R-and-statistics
57
Copyright Notice
© Licențiada.org respectă drepturile de proprietate intelectuală și așteaptă ca toți utilizatorii să facă același lucru. Dacă consideri că un conținut de pe site încalcă drepturile tale de autor, te rugăm să trimiți o notificare DMCA.
Acest articol: Specializarea Matematic a-Informatic a [612305] (ID: 612305)
Dacă considerați că acest conținut vă încalcă drepturile de autor, vă rugăm să depuneți o cerere pe pagina noastră Copyright Takedown.
