A.leahu Analiza Exploratorie A Datelor [604568]
1
ANALIZA EXPLORATORIE A DATELOR
Prof. univ. dr., Alexei LEAHU
c
Chi¸ sin ¼au
2018
2
Introducere
No¸ tiunea de statistic ¼ase na¸ ste odat ¼a cu apari¸ tia ¸ si dezvoltarea rela¸ ti-
ilor economce, pân ¼a în secolul XIX aceasta
ind tratat ¼a ca ¸ stiin¸ t ¼a politic ¼a.
Cuvântul în cauz ¼a provine de la latinescul status , care înseamn ¼a stare.
Începând cu secolul XIX, statistica prinde conturul ¸ stiin¸ tei care actual-
mente are drept obiect de studiu metodele, procedeele de colectare, organizare,
prelucrare, analiz ¼a ¸ si interpretare a datelor ce vizeaz ¼a rezultatele observ ¼arilor
facute asupra fenomenelor sau experimentelor aleatoare.
Acea parte a statisticii care are drept obiect de studiu metodele, procedeele
de colectare, organizare ¸ si prelucrare a datelor statistice este cunoscut ¼a sub
denumirea de Statistic ¼a Descriptiv ¼asauAnaliz ¼a Exploratorie a Datelor .
Statistica modern ¼a, mai exact, acea parte a Statisticii care se numeste Sta-
tistica matematica , bazându-se esen¸ tial pe realizarile ¸ stiin¸ telor matematice,
folose¸ ste din plin Teoria probabilit ¼a¸ tilor . Or, Teoria probabilit ¼a¸ tilor ¸ siStatis-
tica matematic ¼astudiaz ¼a modele matematice ale experimentelor (fenomenelor)
aleatoare.
Apari¸ tia Teoriei probabilit ¼a¸ tilor ca ramur ¼a a matematicii ce studiaz ¼a
modele matematice ale fenomenelor aleatoare dateaz ¼a din secolul XVII ¸ si
este legat ¼a de numele marilor matematicieni Blaise Pascal (1623-1662), Pierre
Fermat (1601-1665), Christian Huygens (1629-1695) ¸ si Jacob Bernoulli (1654-
1705).
Mul¸ timea de fenomene care se întâlnesc în lumea înconjur ¼atoare se îm-
parte în dou ¼a clase: fenomene deterministe sifenomene indeterministe sau
aleatoare .
Astfel, spunem ca fenomenul este determinist daca observatorul poate
anticipa cu certitudine evolu¸ tia acestuia. In calitate de exemplu putem lua
fenomenul atrac¸ tiei universale. Observa¸ tiile facute asupra acestui fenomen
i-au permis marelui matematician ¸ si
zician englez Isaac Newton (1642-1727)
sa formuleze legea atrac¸ tiei universale:
F=km1m2
r2.
Acesta este un exemplu tipic de model matematic a unui fenomen (in cazul
dat) determinist. Dealtfel, a modela matematic (spre a
cercetat) un fenomen,
proces, experiment, eveniment sau obiect oarecare înseamn ¼a a-l descrie cu
ajutorul no¸ tiunilor ¸ si formulelor matematice, adic ¼a a-l descrie în limbajul
matematic. Unul ¸ si acela¸ si model matematic poate descrie dou ¼a fenomene
3
diferite în esen¸ t ¼a. De exemplu, formula de mai sus poate servi in calitate de
model matematic ¸ si pentru fenomenul atrac¸ tiei a dou ¼a particule elementare
(legea lui Coulomb).
Spunem despre un fenomen c ¼a este indeterminist (aleator) – dac ¼a ob-
servatorul fenomenului nupoate anticipa cu certitudine evolu¸ tia lui. Din
punct de vedere al observatorului, observa¸ tiile f ¼acute asupra unui fenomen
sau m ¼asur¼atorile corespunz ¼atoare echivaleaz ¼a cu o experimentare legat ¼a de
fenomenul dat. Or, prin experiment vom în¸ telege observarea unui fenomen
dat. Experimentele indeterministe se împart la rândul lor în dou ¼a subclase:
(a)experimente nedeterministe (aleatoare) care posed ¼a proprietatea regular-
it¼a¸ tii statistice ¸ si (b) experimente aleatoare care nu posed ¼a proprietatea reg-
ularit ¼a¸ tii statistice .
Vom spune c ¼a un experiment aleator Eposed ¼aproprietatea regularit ¼a¸ tii
(stabilit ¼a¸ tii) statistice daca acesta veri
c ¼a urmatoarele propriet ¼a¸ ti:
1)poate
reprodus ori de câte ori dorim practic în acelea¸ si condi¸ tii;
2)pentru orice eveniment Aasociat lui Efrecven¸ ta lui relativ ¼a în n
probe
fn(A) =num arul de probe ^{n care s a produs A
num arul total de probe=n(A)
n
oscileaz ¼a în jurul unui num ¼ar notat cu P(A),P(A)2[0;1],fn(A)devenind ,
odat¼a cu cre¸ sterea lui n, tot mai aproape ¸ si mai aproape de P(A)";
3)pentru dou ¼a serii diferite, respectiv de n¸ simprobe, atunci când n¸ si
msunt foarte mari, avem c ¼afn(A)fm(A).
În concluzie, stabilitatea statistic ¼a a frecven¸ telor relative confer ¼a verosimil-
itate ipotezei, conform c ¼areia pentru orice eveniment A;posibil ca rezultat ob-
servabil al unui experiment aleator E, putem de
ni num ¼arulP(A)cu ajutorul
c¼aruia m ¼asur¼am gradul (¸ sansele) de realizare a lui Aîntr-un num ¼ar foarte
mare de probe. Astfel, în Teoria probabilit ¼a¸ tilor devine postulat a
rma¸ tia,
conform c ¼areia pentru orice eveniment Aasociat unui experiment aleator E
exist¼a (obiectiv) un num ¼arP(A)numit probabilitate a lui A. Proprietatea
reasc ¼a a acestui num ¼ar rezid ¼a în faptul c ¼a odat ¼a cu cre¸ sterea num ¼arului n
de probe (experimente) independentefrecven¸ ta relativ ¼afn(A)se apropie
tot mai mult de P(A):Num ¼arulP(A)se nume¸ ste probabilitate statistic ¼a (sau
frecven¸ tial ¼a) a evenimentului A .
4
Exemplul 1 Consider ¼am în calitate de experiment Earuncarea monedei o
singur ¼a dat ¼a. Fie Aevenimentul ce const ¼a în apari¸ tia stemei. Observ ¼am,
astfel, c ¼a.
f1000(A)1
2=P(A),f2000(A)1
2=P(A).
Prin urmare, putem a
rma ca probabilitatea (statistic ¼a) a apari¸ tiei stemei
la aruncarea monedei o singura dat ¼a este egal ¼a cu 1=2;ceea ce inseamn ¼a, ca
¼aruncând moneda de un num ¼ar su
cient de mare de ori, stema va apare în
aproximativ 50% de cazuri .
Putem aduce ¸ si alte exemple de fenomene aleatoare: rezultatele arunc ¼arii
unui zar, greutatea unui bob ge grâu ales la întâmplare, num ¼arul de bacterii
într-o pic ¼atur¼a de ap ¼a, durata vie¸ tii unui calculator produs de întreprinderea
dat¼a, num ¼arul de apeluri telefonice înregistrate la o sta¸ tie telefonic ¼a pe durata
unei zile, etc., etc. Enumerarea lor poate continua la nesfâr¸ sit, îns ¼a ele toate
vor avea acela¸ si caracter,
ind înso¸ tite de astfel de no¸ tiuni imprecise (deo-
camdat ¼a) ca aruncare onest ¼a , moneda perfect ¼a , probe independente ,
etc.
Observa¸ tia 1 Probabilitatea statistic ¼a nu poate
aplicat ¼a întotdeauna, deoarece
nu orice experiment poate
repetat în condi¸ tii identice ori de câte ori dorim.
Experimentele aleatoare care posed ¼a proprietatea regularit ¼a¸ tii statistice ¸ tin de
fenomenele de mas ¼a. Pentru studiul experimentelor care nu posed ¼a aceast ¼a
proprietate, putem folosi no¸ tiunea de probabilitate subiectiv ¼a.
De
ni¸ tia 2 Prin probabilitate subiectiv ¼avom în¸ telege acea regul ¼aPcon-
form c ¼areia o persoan ¼a dat ¼a îi asociaz ¼a
ec ¼arui eveniment Aun num ¼ar
P(A)2[0;1], numit probabilitatea evenimentului A.
Astfel, putem vorbi despre probabilitatea subiectiva, evaluata, s ¼a zicem,
de un expert, c ¼a pân ¼a în 2025 se va produce prima expedi¸ tie a omului pe
Marte.
Pentru studiul fenomenelor aleatoare indeterministe, în afar ¼a de probabil-
itate subiectiv ¼a¸ si probabilitate frecven¸ tial ¼a, exist ¼a ¸ si no¸ tiunile de probabili-
tate clasic ¼a, probabilitate geometric ¼a, probabilitate discret ¼a¸ si probabilitate
de
nit ¼a în sens axiomatic . Toate aceste no¸ tiuni au ca scop de
nirea unei
modalit ¼a¸ ti de m ¼asurare a ¸ sanselor (gradelor) de realizare a evenimentelor
aleatoare date, de
ni¸ tia axiomatic ¼a a probabilit ¼a¸ tii
ind , într-un anumit sens,
acoperitoare pentru toate celelate .
Capitolul 1
Elemente de statistic ¼a
descriptiv ¼a (anliza exploratorie
a datelor)
Statistica descriptiv a(analiza exploratorie a datelor sau analiza primar a
a datelor )are drept scop studierea metodelor de colectare, prelucrare ¸ si
prezentare a datelor statistice într-o form ¼a cât mai compact ¼a ¸ si propice anal-
izei ¸ si interpret ¼arii acestor date. Prezentarea vizeaz ¼a, de regul ¼a, o prezentare
a datelor in form ¼a numeric ¼a pentru a putea folosi din plin posibilit ¼a¸ tile cal-
culatoarelor moderne. Datele statistice reprezint ¼a rezultatele m ¼asur¼atorilor
sau observa¸ tiilor f ¼acute asupra unui fenomen aleator.
1.1 Popula¸ tie statistic ¼a. Unit ¼a¸ ti statistice.
E¸ santion de volum n
No¸ tiunile de baz ¼a cu care începe statistica descriptiv ¼a sunt cele din titlu.
De
ni¸ tia 3 Prin popula¸ tie (colectivitate) statistic ¼avom în¸ telege orice mul¸ time
nevid ¼a de elemente (obiecte, indivizi, etc.) supus ¼a cercet ¼arii. Elementele
!2
se numesc unit¼a¸ tiale popula¸ tiei statistice
.
Denumirea de popula¸ tie statistic ¼a este conven¸ tional ¼a ¸ si provine din fap-
tul c ¼a ini¸ tial statistica avea de-a face cu studiul popula¸ tiilor de persoane.
5
6CAPITOLUL 1. ELEMENTE DE STATISTIC ¼A DESCRIPTIV ¼A (ANLIZA EXPLORATORIE A DATELOR)
Unit¼a¸ tile unei popula¸ tii interesante din punct de vedere statistic sunt consid-
erate omogene în raport cu acea proprietate sau caracteristic ¼a care prezint ¼a
interes din punct de vedere al cercet ¼arii. O cercetare exhaustiv ¼a a unei pop-
ula¸ tii statistice în raport cu una sau mai multe caracteristici date se nume¸ ste
recens ¼amânt . Realizarea practic ¼a a unui recens ¼amânt este, de regul ¼a, extrem
de costisitoare, de aceea cercetarea se limiteaz ¼a doar la o parte a acestei
popula¸ tii.
De
ni¸ tia 4 Orice submul¸ time
nit ¼aAa unei popula¸ tii statistice
se nu-
me¸ ste e¸ santion. În cazul când card (A) =nspunem c ¼a e¸ santionul este de
volum n.
Pentru ca un studiu statistic s ¼a
e corect, procedeul de selectare a unui
e¸ santion reprezentativ de indivizi din popula¸ tia supus ¼a studiului trebuie s ¼a
asigure o e¸ santionare perfect aleatoare . Printre metodele de selec¸ tie a unui
e¸ santion enumer ¼am:
metoda selec¸ tiei aleatoare ce const ¼a în etichetarea tuturor indivizilor
dintr-o popula¸ tie ¸ si apoi selectarea lor în e¸ santion prin generarea de
numere aleatoare;
selec¸ tia sistematic ¼a din kînk , adic ¼a includerea unit ¼a¸ tilor din popu-
la¸ tie în e¸ santion se face pe baza unei progresii aritmetice cu pasul k,
alegând un num ¼ar de la care se realizeaz ¼a construirea progresiei;
selec¸ tia strati
cat ¼a, adica selec¸ tia este realizat ¼a astfel încât în e¸ santion
s¼a
e reprezentate toate straturile popula¸ tiei statistice (pentru aceast ¼a
metod ¼a trebuie cunoscut ¼a în prealabil propor¸ tia straturilor din popu-
la¸ tie);
selec¸ tia pe grupe (str ¼azi, careuri de teren, circumscip¸ tii, etc);
selec¸ tia ierarhic ¼a, de exemplu: se aleg aleator jude¸ te, apoi comune, apoi
str¼azi, apoi persoane
Exemplul 5 La alegerile preziden¸ tiale popula¸ tia statistic ¼a este format ¼a din
mul¸ timea tuturor persoanelor prezente la vot iar e¸ santion este orice sub-
mul¸ time de persoane votante (de exemplu 1500 de aleg ¼atori) alese conform
unei metode adecvate de selec¸ tie.
1.2. CARACTERISTICI STATISTICE 7
Scopul ¸ si sensul unei investig ¼ari statistice rezid ¼a în cercetarea e¸ santionului
¸ si extrapolarea concluziilor, ce vizeaza acest e¸ santion, asupra întregii popu-
la¸ tii. Sursele de erori cele mai importante într-un studiu statistic la nivelul
statisticii descriptive pot ap ¼area din cauza lipsei unor date semni
cative, în-
registr ¼arii gre¸ site a unor date sau din cauza c ¼a e¸ santionul nu are la baz ¼a
metode aleatoare de construire sau din cauza c ¼a acesta nu este "su
cient de
mare" ca volum (adica nu este reprezentativ).
1.2 Caracteristici statistice
De regul ¼a, din punctul de vedere al unei cercet ¼ari, nu unit ¼a¸ tile popula¸ tiei
statistice sunt cele care prezint ¼a interes, ci propriet ¼a¸ tile sau caracteristicile
acestora.
De
ni¸ tia 6 Prin caracteristic ¼a statistic ¼a,variabil ¼a statistic ¼asauvariabil ¼a
aleatoare asociat ¼a unei popula¸ tii vom in¸ telege orice însu¸ sire, tr ¼as¼atur¼a sau
proprietate caracteristic ¼a tuturor unit ¼a¸ tilor popula¸ tiei date. Caracteristicile
vor
notate cu litere latine mari X; Z; Y; ::: .
Exemplul 7 Consider ¼am în calitate de popula¸ tie statistic ¼a mul¸ timea
=f!j! student la Universitatea Tehnica a Moldovei
Fie caracteristica X, calitatea studentului de a
sau nu fum ¼ator, Y- cal-
itatea studentului de a
sau nu integralist, G- greutatea studentului, IQ
– coe
cientul lui de inteligen¸ t ¼a. Observ ¼am c ¼a
ec ¼arei caracteristici statis-
tice îi corespunde o mul¸ time de valori posibile. Astfel, X2 X =fF; NF g,
unde Fînseamn ¼a c¼a studentul este fum ¼ator, NF – nefum ¼ator; Y2 Y =
fI; NIP; NIN g, unde NIN înseamn ¼a c¼a studentul este neintegralist – ne-
promovat, NIP – neintegralist – promovat, iar I- integralist; G2 G =
fgjg >0g, unde prin gam notat greutatea studentului; IQ2 IQ =fiji= 0;1;2; :::; kg,
i
ind punctajul care caracterizeaz ¼a gradul de inteligen¸ t ¼a cu valoarea maxim ¼a
posibil ¼ak. Putem imagina caracteristica (G; IQ );unde G¸ siIQsunt cele
de
nite anterior. Pentru caracteristica (G; IQ )avem c ¼a
(G; IQ )2 G IQ =fgjg >0g f iji= 0;1;2; :::; kg:
Exemplele invocate arat ¼a c¼ao caracteristic ¼a statistic ¼a este , de fapt, o
func¸ tie de
nit ¼a pe mul¸ timea
cu valori în mul¸ timea de valori posibile . Astfel,
8CAPITOLUL 1. ELEMENTE DE STATISTIC ¼A DESCRIPTIV ¼A (ANLIZA EXPLORATORIE A DATELOR)
X:
7! X ,Y:
7! Y,G:
7! G,IQ:
7! IQ ,(G; IQ ) :
7! G IQ .
Acelea¸ si exemple de mai sus arat ¼a c¼a variabilele statistice pot
de dou ¼a
feluri:
1. -variabile statistice unidimensionale (univariate ), cum ar
X; Y; G; IQ
-variabile statistice multidimensionale (multivariate ), cum ar
vari-
abila bidimensional ¼a(G; IQ ).
Din punct de vedere al formei de prezentare a valorilor posibile, variabilele
statistice sunt de dou ¼a tipuri:
1. 1. categoriale (sau calitative ) dac ¼a valorile posibile se exprim ¼a cu aju-
torul unor nume sau simboluri care nu admit o interpretare numeric ¼a în
sensul c ¼a asupra lor nu sunt aplicabile opera¸ tiile aritmetice (de exemplu
variabilele X; Y descrise anterior sunt de tip categorial);
2.numerice (sau cantitative ) dac ¼a valorile posibile pot
interpretate
numeric (de exemplu variabilele G; IQ de mai sus sunt de tip numeric).
Variabilele statistice categoriale (calitative) sunt de 2 tipuri conforme cu
scala lor de masurare:
a.1. Nominal (Scala Nominala) – sunt acele variabile pentru care mul¸ timea
de valori posibile este
nit ¼a; valorile sunt exprimate prin intermediul unui
nume, simbol, cod, etc. Pentru valorile posibile ale unei variabile de tip nom-
inal nu poate
stabilit ¼a o ordine; de exemplu, variabila Xdin exemplul de
mai sus, sau variabila ce caracterizeaz ¼a apartenen¸ ta religioas ¼a (ateu, cre¸ stin
ortodox, catolic, musulman, etc.)
a.2. Ordinal (Scala Ordinala) – mul¸ timea de valori posibile este de ase-
mena
nit ¼a; îns ¼a poate
de
nit ¼a o rela¸ tie de ordine pe mul¸ timea valorilor
posibile, chiar dac ¼a scala lor de m ¼asurare nu este bine de
nit ¼a; de exem-
plu, variabila Ydin exemplul de mai sus este ordinal ¼a, deoarece perfor-
man¸ tele unui student pot
ordonate descresc ¼ator precum urmeaz ¼a: inte-
gralist, neintegralist-promovat, neintegralist-nepromovat);
Observatie. Scala nominala este inferioara scalei ordinale in sensul ca
valorile unei variabile de tip ordinal pot
masurate in scala nominala, dar
nu si invers.
In functie de puterea multimii lor de valori posibie variabilele numerice
(cantitative) sunt de 2 tipuri:
1.3. DISTRIBU ¸ TII (REPARTI ¸ TII) 9
1. de tip discret – este variabila care ia valori într-o mul¸ time
nit ¼a sau
in
nit ¼a, dar numarabila, valorile
ind, de regul ¼a, numere întregi care exprim ¼a
frecven¸ ta cu care se produce un fenomen (eveniment) dat (drept exemplu
putem lua num ¼arul de apeluri telefonice înregistrate pe parcursul a 24de ore
la o sta¸ tie de urgen¸ t ¼a medical ¼a);
2. de tip continuu – este variabila care ia valori într-o mul¸ time in
nit ¼a
nenumarabila ca, de exemplu variabila statistica G2 G =fgjg >0g.
Variabilele statistice numerice (cantitative) sunt, de asemenea, de 2 tipuri
conform cu scala lor de masurare:
b.1. Scala de interval – este variabila care ia valori dintr-o scal ¼a efectiv
continu ¼a , dar relativ slab de
nit ¼a. Deseori, pentru variabile de acest tip,
0nu înseamn ¼a lipsa caracteristicii, iar scala nu este liniar ¼a. Spre exemplu,
diferen¸ ta dintre valorile 5¸ si10poate s ¼a nu aib ¼a aceea¸ si semni
ca¸ tie ca ¸ si
diferen¸ ta dintre 80¸ si85. Poate, de asemenea, s ¼a nu însemne c ¼a40corespunde
cu20luat de 2ori sau cu jum ¼atate din 80. Drept exemplu tipic de variabila
de acest tip putem lua temperatura aerului. In acest caz 0nu inseamn ¼a lipsa
temperaturii, iar în ziua în care au fost inregistrate 40oCnu inseamn ¼a c¼a a
fost de dou ¼a ori mai cald decât în ziua care au fost inregistrate 20oC;
b.2.. Ratio (raport) continu ¼a-este variabila care ia valori dintr-o scal ¼a
efectiv continu ¼a ¸ si bine de
nit ¼a iar asupra valorilor posibile au sens toate
opera¸ tiile aritmetice (de exemplu, greutatea sau in ¼al¸ timea unui student).
1.3 Distribu¸ tii (reparti¸ tii)
Fie
o popula¸ tie statistic ¼a, de exemplu mul¸ timea tuturor studen¸ tilor de
la Universitatea Tehnica a Moldvei, ¸ si Xo caracteristic ¼a statistic ¼a,X:
7! X . Dac ¼aXeste, s ¼a zicem, calitatea de a
sau nu fum ¼ator, atunci
X2 fF; NF g=f0;1g;unde F$0; NF $1. Nu este exclus s ¼a existe
!i; !j2
,!i6=!j; i; j =1; N, astfel încât X(!i)X(!j),N
ind
volumul popula¸ tiei.
Frecven¸ ta relativ ¼a asociat ¼a valorii NF, adic ¼a ponderea nefumatorilor în
întreaga popula¸ tie
fN(NF) =X(!1) +X(!2) +: : :+X(!N)
N,
10CAPITOLUL 1. ELEMENTE DE STATISTIC ¼A DESCRIPTIV ¼A (ANLIZA EXPLORATORIE A DATELOR)
iar frecven¸ ta relativ ¼a asociat ¼a valorii F
fN(F) =(1 X(!1)) + (1 X(!2)) +: : :+ (1 X(!N))
N.
Astfel, tabelul
X:0 1
fN(F)fN(NF)
reprezint ¼adistribu¸ tia saureparti¸ tia valorilor caracteristicii Xîn popula¸ tia
statistic ¼a
.
De
ni¸ tia 8 Vom numi distribu¸ tie (reparti¸ tie) a unei caracteristici statis-
tice în popula¸ tia dat ¼a modelul, tabloul sau regula conform c ¼areia putem a a
frecven¸ ta relativ ¼a cu care
ecare valoare posibila (sau grup ¼a de valori posibile)
a acestei caracteristici apare în popula¸ tia dat ¼a.
Cunoasterea distribu¸ tiei variabilei statistice in popula¸ tia dat ¼a,
e ¸ si cu o
anumit ¼a "exactitate", este esen¸ tial ¼a pentru orice cercetare statistic ¼a.
1.4 Analiza exploratorie a datelor
Analiza exploratorie sau prelucrarea primar ¼a a datelor statistice este etapa
a doua de cercetare statistic ¼a, prima
ind etapa colect ¼arii acestor date.
Acest curs nu se ocup ¼a de prima etap ¼a. Presupunem, insa, ca rigorile colec-
tarii datelor, in special modul de esntionare aleatoriu, au fost respectate cu
strictete.
Etapa a doua are drept scop reprezentarea datelor colectate (care sunt, de
regul¼a, date numerice) într-o form ¼a cât mai compact ¼a, comod ¼a pentru etapa
urm¼atoare a cercet ¼arii statistice: analiza ¸ si interpretarea acestor date .
Formularea de intepret ¼ari pentru datele statistice ¸ tine de statistica infer-
en¸ tial ¼a,care ¸ tine, la rândul ei, de statistica matematic ¼a.
1.4.1 Reprezentarea tabelar ¼a a datelor
Reprezentarea tabelara a datelor legate de variabile unidimension-
ale
În cele ce urmeaz ¼a e¸ santionul (x1; x2; : : : ; x n)de volum ndin popula¸ tia sta-
tistic ¼a a caracteristicii Xva
notat cu (x1; x2; : : : ; x n)sX;iar mul¸ timea
1.4. ANALIZA EXPLORATORIE A DATELOR 11
de valori posibile pentru Xva
notat ¼a cuX. În func¸ tie de tipul variabilei
statistice X, reprezent ¼arile tabelare sunt diferite.
a) Dac ¼a variabila este categorial ¼aatunci valorile (categoriile) ei posibile
pot
grupate: X=G1[G2[: : :[Gk, unde Gi\Gj=;,8i6=j,
n1+n2+: : :+nk=n; n i=cardfx2 X j x2Gig,i,j=____
1; k. În acest
caz datele pot
reprezentate sub form ¼a de tabel de distribu¸ tie a frecven¸ telor
absolute
GiG1G2: : : Gk
nin1n2: : : nk
sau sub form ¼a de tabel de distribu¸ tie a frecven¸ telor relative
Gi G1 G2: : : Gk
ni=nn1=nn2=n: : : nk=n
b) Dac ¼a variabila este de tip numeric , atunci reprezentarea tabelar ¼a a
datelor este precedat ¼a de o prelucrare a datelor în c⸠tiva pa¸ si:
Pasul 1: Se construie¸ ste ¸ sirul varia¸ tional corespunz ¼ator e¸ santionului.
De
ni¸ tia 9 Se nume¸ ste ¸ sir varia¸ tional corespunz ¼ator e¸ santionului (x1,x2,
. . . ,xn)mul¸ timea ordonat ¼a de valori (x(1),x(2), . . . , x(n))care are urm ¼a-
toarele propriet ¼a¸ ti:
1.fx(1); x(2); : : : ; x (n)g f x1; x2; : : : ; x ng;
2.x(1)x(2): : :x(n).
Exemplul 10 Consider ¼am în calitate de variabil ¼a statistic ¼aXgreutatea (ex-
primata in kg) unui student de la Universitatea Tehnica a Moldovei, iar
(80,83,70,70,86)un e¸ santion de volum 5din popula¸ tia statistic ¼a a lui X.
Atunci ¸ sirul varia¸ tional corespunz ¼ator acestui e¸ santion este (70,70,80,83,86).
Pasul 2 : se construie¸ ste ¸ sirul varia¸ tional de valori distincte.
De
ni¸ tia 11 Se nume¸ ste ¸ sir varia¸ tional de valori distincte mul¸ timea ordo-
nat¼a de valori (x0
(1),x0
(2),: : :,x0
(k)),kn, în care valorile distincte ale ¸ sirului
varia¸ tional (x(1); x(2); : : : ; x (n))apar o singur ¼a data.
Exemplul 12 Pentru exemplu anterior, ¸ sirul varia¸ tional de valori distincte
este (70,80,83,86).
12CAPITOLUL 1. ELEMENTE DE STATISTIC ¼A DESCRIPTIV ¼A (ANLIZA EXPLORATORIE A DATELOR)
Trecerea de la ¸ sirul varia¸ tional la ¸ sirul varia¸ tional de valori distincte poate
avea ca efect pierderea de informa¸ tie care este recuperat ¼a la.
Pasul 3 : Construirea tabloului frecven¸ telor absolute:
De
ni¸ tia 13 Tabelul
x0
(1)x0
(2): : : x0
(k)
n1n2: : : n k
,ni0;kX
i=1ni=n;
se nume¸ ste distribu¸ tie a frecven¸ telor absolute sauserie statistic ¼a a frecven¸ telor
absolute , unde nieste frecven¸ ta absolut ¼a a valorii x0
(i)în e¸ santionul dat.
Pasul 4: Construirea tabloului frecven¸ telor relative.
De
ni¸ tia 14 Tabelul
bX:x0
(1)x0
(2): : : x0
(k)
n1
nn2
n: : :nk
n
,ni0;kX
i=1ni=n,(1)
se nume¸ ste distribu¸ tie a frecven¸ telor relative sauserie statistic ¼a a frecven¸ telor
relative . Evident,n1
n+n2
n++nk
n= 1.
Observa¸ tia 2 Trecerea de la seria statistic ¼a a frecven¸ telor absolute la seria
statistic ¼a a frecven¸ telor relative este justi
cat ¼a ¸ si de faptul c ¼a majoritatea
popula¸ tiilor statistice interesante din punct de vedere practic sunt mul¸ timi
in
nite. Atunci ponderea sau frecven¸ ta relativ ¼a cu care valoarea dat ¼a se
întâlne¸ ste în popula¸ tie este mai
reasc ¼a din punct de vedere al cercet ¼arii,
deoarece pentru populatii in
nite nu are sens sa vorbim despre frecven¸ ta ab-
solut¼a cu care valoarea dat ¼a se întâlne¸ ste în popula¸ tie . Mai mult decât atât,
atunci când avem de a face cu un fenomen care posed ¼a proprietatea regular-
it¼a¸ tii statistice, num ¼arul de observa¸ tii n
ind foarte mare, frecven¸ ta relativ ¼a
a evenimentuluin
X=x0
(i)o
tinde c ¼atre probabilitatea c ¼a variabila Xva lua
valoarea x0
(i), adic ¼a
fn(X=x0
(i))P(X=x0
(i)),i=1; k:
Prin urmare, putem, în consens cu scopul statisticii, sa extrapol ¼am distribu¸ tia
(1)asupra întregii popula¸ tii, considerând c ¼abXca func¸ tie de unit ¼a¸ tile e¸ san-
tionului de volum nse comporta, din punct de vedere probabilistic, ca ¸ si
variabila statistic ¼aX:
1.4. ANALIZA EXPLORATORIE A DATELOR 13
Pasul 5: Descrierea frecven¸ tei cumulate ca func¸ tie de x2R.
În prelucrarea primar ¼a a datelor statistice, scopul principal
ind prezentarea
acestora într-o form ¼a cât mai compact ¼a, sunt utilizate ¸ si frecven¸ tele cumu-
late.
De
ni¸ tia 15 Se nume¸ ste frecven¸ t ¼a absolut ¼a cumulat ¼a cresc ¼ator(descresc ¼ator)
corespunz ¼atoare valorii x2R, suma frecven¸ telor absolute ale tuturor valo-
rilor distincte din e¸ santion care sunt mai mici sau egale cu x(respectiv mai
mari sau egale cu x), adic ¼a
X
i:x0
(i)xni0
@X
i:x0
(i)xni1
A
Frecven¸ t ¼a relativ ¼a cumulat ¼a cresc ¼ator (descres ¼ator) corespunz ¼atoare valorii
x2Rse nume¸ ste suma frecven¸ telor relative ale tuturor valorilor distincte
din e¸ santion care sunt mai mici sau egale cu x(respectiv mai mari sau egale
cux), adic ¼a
X
i:x0
(i)xni=n0
@X
i:x0
(i)xni=n1
A
Frecven¸ ta relativ ¼a cumulat ¼a cresc ¼ator (descresc ¼ator) a unei valori x este
de
nit ¼a exact în aceea¸ si manier ¼a, ca
ind suma frecven¸ telor relative ale tu-
turor valorilor variabilei mai mici sau egale cu x(mai mari sau egale cu x)
adic¼a
X
yxny X
yxny!
Se observ ¼a c¼a frecven¸ ta relativ ¼a cumulat ¼a este raportul dintre frecven¸ ta
absolut ¼a cumulat ¼a ¸ si volumul popula¸ tiei. Dealtfel, no¸ tiunea de frecven¸ t ¼a rel-
ativ¼a cumulat ¼a cresc ¼ator coincide cu no¸ tiunea de func¸ tia empiric ¼a de repar-
ti¸ tie care va
, data
ind importan¸ ta ei, introdus ¼a ¸ si studiat ¼a într-un paragraf
aparte.
Pentru variabilele numerice, indeosebi de tip continue, atunci când volu-
mul e¸ santionului este foarte mare, este indicat ¼a gruparea datelor în clase (in-
tervale) disjuncte de valori ¸ si construirea tabelelor de distribu¸ tie a frecven¸ telor
14CAPITOLUL 1. ELEMENTE DE STATISTIC ¼A DESCRIPTIV ¼A (ANLIZA EXPLORATORIE A DATELOR)
pe baza acestor clase:
Clasa Frecven¸ ta absolut ¼aFrecven¸ ta relativ ¼a
[x1; x2) n1 n1=n
[x2; x3) n2 n2=n
[xl 1; xl) nl nl=nPn 1
Valoarea central ¼a(sau mijlocul ) clasei [xi 1; xi)este
ci=xi 1+xi
2,i=1; l
Reprezentarea tabelara a datelor legate de variabile bidimensionale
(tabele cu doua intrari sau tabele de contingen¸ t ¼a). Fie(X,Y) :
! X Y ;undeX=fx1,x2,: : :g, iarY=fy1,y2,: : :g. Valorile variabilei
bidimensionale (X,Y)suntX Y =f(x1,y1),(x1,y2),: : :g. Fie un e¸ santion de
valori ((xi1,yi1),(xi2,yi2),: : :,(xin,yin))s(X,Y). Not ¼amnstfrecven¸ ta absolut ¼a
a perechii (x0
(s),y0
(t))din e¸ santion, unde (x0
(1),x0
(2),…,x0
(l)),(y0
(1),y0
(2),…,y0
(m))sunt
¸ sirurile varia¸ tionale de valori distincte corespunz ¼atoare lui X¸ siY,l,mn,
s=1; l,t=1; m.
XnYy0
(1)y0
(2)::: y0
(m)mX
t=1nst=ns
x0
(1) n11n12::: n 1mn1
x0
(2) n21n22::: n 2mn2
……… :::……
x0
(l) nl1nl2::: n lmnl
lX
s=1nst=ntn1n2::: nmlX
s=1mX
t=1nst=mX
t=1nt=lX
s=1ns=n,
Acesta se mai nume¸ ste tabel de contingen¸ t ¼a (sau tabel de date incrucisate)
a frecven¸ telor absolute ce corespunde e¸ santionului de volum ndin popula¸ tia
statistic ¼a a variabilei (X,Y). Din acest tip de tabel se ob¸ tin cu u¸ surin¸ t ¼a
tabelele de distribu¸ tie ale
ec ¼arei caracteristici în parte, numite ¸ si distribu¸ tii
marginale:
x0
(1)x0
(2): : : x0
(l)
n1n2: : : n l
; ns0;lX
s=1ns=n;
1.4. ANALIZA EXPLORATORIE A DATELOR 15
y0
(1)y0
(2): : : y0
(m)
n1n2: : : nm
; nt0;mX
t=1nt=n.
Reprezentarea de tip Stem-and-Leaf. Acest tip de reprezentare a datelor
unidimensionale a fost introdusa de John W. Tukey in cartea sa Exploratory
Data Analysis , (Addison-Wesley, 1977). Tehnica respectiva urmareste, in
particular, depistarea valorilor extremale. Poate servi la formularea unor
noi intrebari, neprevazute inainte de a efectua acest tip de analiza. Tehnica
aceasta se aseamana cu cele ale unui explorator. Exploratorul are o idee unde
vrea sa ajunga, dar este consient ca se poate inalni cu situatii neasteptate,
situatii in care trebuie sa se descurce rapid pentru a se clari
ca. Aplicarea
ei se poate explica, apelind la urmatorul
Exemplul 16 Un studiu vizeaza greutatea bagajelor (in kg) cu care se prez-
inta la avion pasagerii care se intorc dintr-o vacanta in Hawaii. Drept baza
serveste urmatorul esantion de volum 40 de pasageri: (30, 27, 12, 42, 35,
47, 38, 36, 27, 35, 22, 17, 29, 3, 21, 0, 38, 32, 41, 33, 26, 45, 18, 43, 18,
32, 31, 32, 19, 21, 33, 31, 28, 29, 51, 12, 32, 18, 21, 26).
Pentru a construi un tablou de tip Stem-and-Leaf impartim cifrele pentru
ecare valoare inregistrata in doua parti. Prima grupa, care in cazul nostru
o reprezinta sirul variational de valor distincte a primelor cifre ale valorilor
inregistrate, se va numi Stem (tulpina), cea de a doua grupa numita Leaf vor
cifrele ramase ca se vor scri in dreptul primei cifre careia ii corespunde:
Unitatea de masura pentru Leaf=1kg
0j3 0
1j2 7 8 8 9 2 8
2j7 7 2 9 1 6 1 8 9 1 6
3j0 5 8 6 5 8 2 3 2 1 2 3 1 2
4j2 7 1 5 3
5j1
In aceasta reprezentare Stem-and-Leaf observam ca in intevalul 30-34 kg
nimeresc cele mai multe valori. Acest fapt este con
rmat vizual si cu ajutorul
histogramei.
Prin analogie se aplica aceasta reprezentare si atunci cand datele reprez-
inta numere scrise cu exactitatea de prima zecimala dupa virgula, in stem
ind inclusa partea intreaga.
16CAPITOLUL 1. ELEMENTE DE STATISTIC ¼A DESCRIPTIV ¼A (ANLIZA EXPLORATORIE A DATELOR)
1.4.2 Reprezentarea gra
c ¼a a datelor statistice
Fie(x1; x2; : : : ; x n)sXun e¸ santion de volum n.
1.Reprezentarea gra
ca sub forma de diagrame.
Acest tip de reprezentare gra
ca se aplica datelor statistice de tip cat-
egorial. Vom ilustra acest tip de reprezentare printr-un
Exemplul 17 In baza unui esantion ce include 91 de autoturisme
selectate din intreaga populatie de autoturisme a rezultat urmatoarea
reprezentare tabelara a variabilei categoriale X2 fCompact; L arge; Midsize; Small; Sporty; V an g,
valorile posibile reprezentand tipul/categoria autoturismului dat:
Atunci reprezentarea acestor date in forma de diagrama arata astfel:
1.4. ANALIZA EXPLORATORIE A DATELOR 17
2.Diagrame circulare (diagrame PIE)
Fiec¼arei categorii (clas ¼a interval) din tabelul de distribu¸ tie a frecven¸ telor
i se asociaz ¼a un sector de cerc al c ¼arui unghi (arie) este propor¸ tional cu
frecven¸ ta categoriei (clasei) respective. Pentru aceasta, pentru
ecare
categorie ise calculeaz ¼a unghiul la centru corespunz ¼ator dup ¼a formula:
i= 360ni
n.
Concluzie: Din descrierea de mai sus se vede ca acest tip de reprezentare
poate
aplicat oricarui tip de variabila statistica. De pilda, pentru
datele categoriale din exemplul anterior reprezentarea sub forma PIE
arata astfel:
18CAPITOLUL 1. ELEMENTE DE STATISTIC ¼A DESCRIPTIV ¼A (ANLIZA EXPLORATORIE A DATELOR)
3.Reprezentarea gra
c ¼a sub form ¼a de bastoane
Acestui tip de reprezentare se preteaz ¼a datele legate de variabilele sta-
tistice categoriale sau discrete. Astfel, pentru
ecare valoare (sau grup ¼a
de valori) distinct ¼a marcat ¼a pe axa Oxa sistemului cartezian de co-
ordonate xOy se ridic ¼a câte un segment vertical de lungime egal ¼a cu
frecven¸ ta absoluta/reativa corespunz ¼atoare valorii respective.
Exemplul 18 In baza unui esantion ce include 93 de autoturisme
selectate din intreaga populatie de autoturisme a rezultat urmatoarea
reprezentare tabelara a variabilei de tip discret X2 f2;3;4;5;6;7;8g,
valorile posibile reprezentand capacitatea autoturismului ca numar de
locuri pentru pasageri (inclusiv cel al soferului), a rezultat urmatoarea
reprezentare tabelara a datelor:
1.4. ANALIZA EXPLORATORIE A DATELOR 19
Atunci reprezentarea gra
ca sub forma de bastoane, corespunzatoare
acestor date este urmatoarea:
20CAPITOLUL 1. ELEMENTE DE STATISTIC ¼A DESCRIPTIV ¼A (ANLIZA EXPLORATORIE A DATELOR)
4.Reprezentarea gra
c ¼a sub form ¼a de histogram ¼a
Acest tip de reprezentare se aplic ¼a, de regul ¼a, în cazul variabilelor
continue atunci când volumul e¸ santionului este mare. Pentru realizarea
acestui tip de gra
c, datele trebuie grupate pe clase de intervale dis-
juncte de valori, iar tabelul de distribu¸ tie, s ¼a zicem, a frecven¸ telor rel-
ative s ¼a
e alc ¼atuit pentru aceste intervale:
[a1; a2) [a2; a3): : : [ak; ak+1)
n1
nn2
n: : :nk
n
unde (x1; x2; : : : ; x n)[a1; a2)[[a2; a3)[:::[[ak; ak+1). Dup ¼a aceasta
în sistemul cartezian de coordonate xOy marc ¼am pe axa Ox
ecare
interval [ai; ai+1);construind pe el un dreptunghi cu în ¼al¸ timea ni=n,i=
1; k.In acest caza spunem ca avem de a face cu Histograma frecventelor
relative.
Exemplul 19 Drept consecinta a cercetarii veniturilor lunare a popu-
latiei tuturor familiilor din orasul Detroit (SUA) a rezultat urmatorul
1.4. ANALIZA EXPLORATORIE A DATELOR 21
tabel al frecventelor relative pentru un volum al esantionului n= 1000 :
Atunci histograma frecventelor absolute (sau histograma frecventelor
relative cu scimbarea scarii de masurare pe axa ordonatelor) arata ast-
fel:
22CAPITOLUL 1. ELEMENTE DE STATISTIC ¼A DESCRIPTIV ¼A (ANLIZA EXPLORATORIE A DATELOR)
Din analiza vizual ¼a se pare c ¼a exist ¼a mai multe familii cu venituri mai
mare de 25000 $ decât familiile cu venituri mai mici de 7 $: 000! Gresit!
Aceasta concluzie se poate repara folosind un alt tip de histograma.
Intr-o varianta mai adecvata scopului a arii legit ¼a¸ tii caruia i se supun
datele statistice, se foloseste asa numita Histograma a densitatilor care
se deosebeste de histograma frecventelor relative prin faptul ca inaltim-
ile dreptunghiurilor ni=n,i=1; ksunt inlocuite cu valorile respective
hi, unde hi=ni
n=(ai+1 ai),i=1; k. Astfel suma ariilor tuturor
dreptunghiurilor va
egala cu suman1
n+n2
n+:::+nk
n= 1.
Drept exemplu aducem Histograma densitatilor conform cu datele aduse
in exemplul anterior arata astfel:
De fapt, propor¸ tia familiilor din clas ¼a (6000, 7000) este de 5% ¸ si, la
nivel global, propor¸ tia familiilor cu venituri mai mici de 7000 de dolari
este de 25% întrucât propor¸ tia familiilor din clasa (25000; 50000) este
de 8%; 8% <25%, dar l ¼a¸ timea intervalului din (25000; 50000) este mai
mare decât l ¼a¸ timea intervalului (0, 7000). Prin utilizarea histogramei
densit ¼a¸ tilor se ob¸ tine a reprezentare vizual ¼a mai demna de incredere.
Exemplul 20 Pre¸ tul de vânzare al unui anumit produs este înregis-
trat la 500 de puncte de vânzare distribuite pe tot parcursul anului in
toata ¸ tara. Cifrele ob¸ tinute sunt prezentate în urm ¼atoarea histogram ¼a
(valoarea densitat ¼a¸ tilor corespunz ¼atoare este a
¸ sat ¼a deasupra
ec ¼arei
bare).
1.4. ANALIZA EXPLORATORIE A DATELOR 23
Pre¸ tul
5.Poligonul frecven¸ telor se ob¸ tine prin unirea centrelor laturilor supe-
rioare ale dreptunghiurilor din histogram ¼a, indiferent ce tip de his-
togram ¼a este.
24CAPITOLUL 1. ELEMENTE DE STATISTIC ¼A DESCRIPTIV ¼A (ANLIZA EXPLORATORIE A DATELOR)
Iata un exemplu de astfel de poligon obtinut in baza unei histograme:
6.Reprezentarea gra
ca a seriilor de timp.
S¼a presupunem c ¼a lu¼am un e¸ santion aleatoriu de 100 de cutii dintr-o
nou¼a varietate de cereale. Dac ¼a noi colect ¼am date pentru e¸ santionul
nostru la un moment dat ¸ si cânt ¼arim
ecare cutie, iar m ¼asur¼atorile
ob¸ tinute sunt cunoscute, atunci avem de a face cu date incruci¸ sate. Cu
toate acestea, am putea colecta ¸ si m ¼asura un e¸ santion aleatoriu de 5
cutii la
ecare 15 minute sau 10 cutii la
ecare 20 de minute. Datele
m¼asurate la momente succesive în timp, vor
asa numitele date de tip
serie de timp. Un gra
c al datelor de tip serie de timp se nume te o
diagram ¼a de tip linie de timp sau, pur si simplu, o serie de timp.
O serie de timp este un set de m ¼asur¼atori, ordonate în timp, pe o
anumit ¼a cantitate ce prezinta interes din punctul de vedere al cerc-
etarii. Într-o serie de timp, secven¸ ta observa¸ tiilor este important ¼a.
Diagrama seriei de timp sau gra
cul evolutiei in timp, este o serie de
date reprezentate la un momente date pe anumite intervale. Timpul
de m ¼asurare de-a lungul axei orizontale ¸ si cantitatea numeric ¼a de in-
teres ce se a a de-a lungul axei verticale ofer ¼a un punct pe gra
c pentru
1.4. ANALIZA EXPLORATORIE A DATELOR 25
ecare observa¸ tie. Îmbinarea punctelor adiacente în timp cu linii drepte
produce o diagram ¼a a seriei de timp.
Exemplul 21 In gra
cul de mai jos, sub forma de gra
c serie de
timp, se vede cum a evoluat, de exemplu, Produsul Intern Brut (PIB-
ul)=Gross Domestic product (GDP-ul) Statelor Unite ale Americii in
perioada anilor 1929-1999, masurat anual si exprimat in miliarde de
dolari (vezi www.bea.gov):
Cresterea anuala PIB-ului poate
realizata (ca serie de timp) si in
forma de bastoane (vezi actualizarea de pe acelasi site):
26CAPITOLUL 1. ELEMENTE DE STATISTIC ¼A DESCRIPTIV ¼A (ANLIZA EXPLORATORIE A DATELOR)
7.Curba frecventelor cumulate (ogiva sau curba lui Galton).
Principiu de construc¸ tie a ogivei este similar cu cel al histogramei prin
dreptunghiuri cu deosebirea c ¼a pe ordonat ¼a se folosesc frecven¸ tele (ab-
solute sau relative, nu conteaza) cumulate (crescator sau descrescator).
Dac¼a se utilizeaz ¼a frecven¸ tele cumulate cresc ¼ator se ob¸ tine partea as-
cendent ¼a, iar dac ¼a se utilizeaz ¼a frecven¸ tele cumulate descresc ¼ator se
ob¸ tine partea descendent ¼a. De obicei este folosit ¼a în cazul seriilor sta-
tistice de distribu¸ tie dup ¼a intervale de varia¸ tie.
Metoda de construire consta in urmatoarele:
Pe abscis ¼a se ridica, din dreptul
ec ¼arui interval, dreptunghiuri ale
c¼aror în ¼al¸ time este propor¸ tional ¼a cu frecven¸ ta cumulat ¼a corespunz ¼a-
toare intervalului. Se pleaca din col¸ tul stânga-jos al primului drep-
tunghi ¸ si se unesc, prin segmente de dreapt ¼a, col¸ turile din dreapta sus
ale dreptunghiurilor, ob¸ tinându-se astfel ogiva.
Exemplul 22 In calitate baza de plecare vom lua reprezentarea tabelara
a datelor ce vizeaza greutatea coletelor po¸ stale transportate pe calea fer-
at¼a, ianuarie 2001 (Romania), tabel in care, alaturi de frecventele ab-
solute pe intervale sunt incluse si frecventele absolute cumulate cresca-
1.5. FUNC ¸ TIA EMPIRIC ¼A DE REPARTI ¸ TIE (DISTRIBU ¸ TIE) 27
tor, notate cu fc.
Atunci ogiva respectiva, construita in baza histogramei frecventelor
absolute, arata astfel (linia ingrosata):
1.5 Func¸ tia empiric ¼a de reparti¸ tie (distribu¸ tie)
Tipurile de reprezentare a datelor statistice expuse au,
ecare in parte, avan-
taje di dezavantaje in ceea ce priveste in redarea cat mai
dela a informatiei
28CAPITOLUL 1. ELEMENTE DE STATISTIC ¼A DESCRIPTIV ¼A (ANLIZA EXPLORATORIE A DATELOR)
continute in datele incluse in esantion. Exista insa o posibilitate de a intruni
toate avantajele reprezentarilor anterioare construind, in baza esantionului,
functia empirica de distributie, functie care in conditia ca volumul esan-
tionului creste la in
nit, aceasta functie devine tot mai a[proape de functia
corespunzatoare intregii populatii studiate.
Fie(x1,x2,:::,xn)Xun e¸ santion de volum n.
De
ni¸ tia 23 Vom numi func¸ tie empiric ¼a de reparti¸ tie (distributie) (f.e.r.)
func¸ tia^
Fn:R7 !R, unde
^
Fn(x1; x2; : : : ; x n;x) =num arul de valori observate x i:xix
num arul total de valori
=cardfxi2 fx1; x2; : : : ; x ng jxixg
n
Exemplul 24 Fie e¸ santionul (80,70,76,70,83)G, unde Geste greutatea
unui student luat la întâmplare. Atunci func¸ tia empiric ¼a de reparti¸ tie deter-
minata direct din de
nitia anterioara este :
^Fn(80;70;76;70;83;x) =8
>>>><
>>>>:0; x < 70
2
5;70x < 76
3
5;76x < 80
4
5;80x < 83
1; x83
Din gra
cul func¸ tiiei empirice de reparti¸ tie se vede ca aceasta este o
func¸ tie de tip scarat ¸ si are doar puncte de discontinuitate de spe¸ ta I. În plus,
observ ¼am c ¼a, având gra
cul func¸ tiei empirice de reparti¸ tie, putem restabili:
1. ¸ sirul varia¸ tional de valori distincte care coincide cu mul¸ timea de puncte
de discontinuitate (de salt);
2. frecven¸ tele relative cu care aceste valori apar in e¸ santion care coincid,
respectiv, cu m ¼arimile salturilor f.e.r. în punctele de discontinuitate.
Cu alte cuvinte, având o func¸ tia empiric ¼a de reparti¸ tie putem restabili
univoc seria statistic ¼a a frecven¸ telor relative (reparti¸ tia de selec¸ tie), unde
frecven¸ ta relativ ¼ani=na valorii x0
(i)coincide cu
^
Fn(x1; x2; ::: ; x n;x0
(i)) ^
Fn(x1; x2; ::: ; x n;x0
(i) 0); i=___
1; k
1.6. PARAMETRI DE POZI ¸ TIE 29
Urm¼atoarea propozi¸ tie,care poate
demonstrat ¼a cu u¸ surin¸ t ¼a, arat ¼a c¼a
este valabil ¼a ¸ si reciproca.
Propozi¸ tia 25 Pentru func¸ tia empiric ¼a de reparti¸ tie^
Fnau loc urm ¼atoarele
egalit ¼a¸ ti
^
Fn(x1; x2; ::: ; x n;x)1
nnX
i=1I( 1;x](xi)^
Fn(x(1); x(2); ::: ; x(n);x)
1
nnX
i=1I( 1;x]
x(i)
^
Fn(x0
(1); x0
(2); ::: ; x0
(k);x)
1
nkX
i=1niI( 1;x]
x0
(i)
kX
i=1ni
nI( 1;x]
x0
(i)
=X
i:xixni
n:
unde
I( 1;x](xi) =1; x ix
0; x i> x;
este indicatorul evenimentului fxi2( 1; x]g.
1.6 Parametri de pozi¸ tie
Sunt parametri care redau tendin¸ ta central ¼a a valorilor din e¸ santion, servind
în calitate de parametri de referin¸ t ¼a pentru aceste valori. Ace¸ stia sunt de
fapt, ni¸ ste statistici sauestimatori care, prin de
ni¸ tie, sunt func¸ tii reale
de
nite pe mu¸ timea de valori posibile a e¸ santionului (x1,x2,:::,xn)X. Cu
alte cuvinte, daca X2 X, atunci (x1,x2,:::,xn)2 X X ::: X =Xn
¸ si prin urmare estimatorul (statistica) este o func¸ tie f:Xn7!R. Valoarea
concret ¼af(x1,x2,:::,xn)a unui estimator fse nume¸ ste estima¸ tie . Originea
denumirilor de estimator siestima¸ tie o putem a a, luând drept exemplu cel
mai cunoscut parametru de pozi¸ tie, media de selec¸ tie.
De
ni¸ tia 26 Vom numi medie de selec¸ tie num¼arul x=1
nnP
i=1xi. Pentru
datele grupate în intervale, media se de
ne¸ ste folosind centrele intervalelor
30CAPITOLUL 1. ELEMENTE DE STATISTIC ¼A DESCRIPTIV ¼A (ANLIZA EXPLORATORIE A DATELOR)
astfel:
x=1
nkX
i=1cini=kXni
n
i=1ci,
unde cieste mijlocul intervalului de indice i,i=1; k.
Fie caracteristica X:
! X , unde
este o popula¸ tie
nit ¼a,
=
f!1,!2,: : :,!Ng. Valorile caracteristicii Xîn func¸ tie de unit ¼a¸ tile popula¸ tiei
sunt X(!1),X(!2),: : :,X(!N).
Media lor aritmetic ¼aX=1
NnP
i=1X(!i)este media popula¸ tiei statistice în
raport cu variabila statistic ¼aX:În contextul unei cercet ¼ari statistice este
resc s ¼a estim ¼am valoarea lui X, eventual necunoscut ¼a, prin intermediul
estimatorului x:
Propozi¸ tia 27 Fie(x1; x2; : : : ; x n)Xun e¸ santion de volum n. Atunci
media de selec¸ tie xposed ¼a urm ¼atoarele propriet ¼a¸ ti:
1.x=cdac¼ax1=x2=: : :=xn=c.
2. Media de selec¸ tie x0a e¸ santionului transformat (x1+,x2+,:::,xn+
)se calculeaz ¼a dup ¼a formula x0=x+pentru orice ,2R;
3.x(1)xx(n), unde x(1)= min
i=___
1;nxi,iarx(n)= max
i=___
1;nxi;
4. Dac ¼a dispunem de dou ¼a e¸ santioane: primul (x1,x2,: : :,xn)Xde
volum ncu media x0, al doilea (xn+1,xn+2,: : :,xn+m)Xde volum
mcu media x00, atunci media e¸ santionului ob¸ tinut prin concatenarea
celor dou ¼a e¸ santioane (x1,x2,: : :,xn,xn+1,xn+2,: : :,xn+m), este dat ¼a
de formula
x=nx0+mx00
n+m.
5.x1
nnP
i=1x(i)1
nkPni
i=1×1
(i)kPni
n
i=1×1
(i)
De
ni¸ tia 28 Mediana este acea valoare numeric ¼a care împarte ¸ sirul vari-
a¸ tional în dou ¼a par¸ ti egale, în sensul c ¼a de ambele p ¼ar¸ ti a acestei valori va
nimeri acela¸ si num ¼ar de valori ale ¸ sirului varia¸ tional. Modalitatea de calcul
a medianei depinde de paritatea num ¼arului de observa¸ tii din e¸ santion:
1.6. PARAMETRI DE POZI ¸ TIE 31
xm=(
x(k+1) ; dac a n= 2k+ 1
x(k)+x(k+1)
2; dac a n= 2k
Mediana are proprietatea de stabilitate: schimbarea valorii unei obser-
va¸ tii, dar nu ¸ si a rangului ei, nu afecteaz ¼a mediana. Calculul s ¼au se face în
func¸ tie de modul de grupare al datelor:
dac¼a datele sunt date în forma de e¸ santion (x1; x2;; xn)calculul
medianei se face folosind de
ni¸ tia;
dac¼a datele sunt în forma unui tabel de distribu¸ tie a frecven¸ telor, pa¸ sii
de parcurs sunt urm ¼atorii:
se calculeaz ¼a frecven¸ tele absolute cumulate cresc ¼ator;
se calculeaz ¼an+1
2;
se determin ¼a mediana , ca
ind valoarea minim ¼a a ¸ sirului vari-
a¸ tional de valori distincte pentru care frecven¸ ta absolut ¼a cumulat ¼a
cresc ¼ator este n+1
2.
dac¼a datele sunt grupate în intervale, a area medianei se face astfel:
se traseaz ¼a gra
c poligonul frecven¸ telor absolute cumulate cresc ¼a-
tor;
pentru valoarean+1
2de pe axa Oyse a ¼a acea valoare x;care
corespunde punctului poligonului nostru ce are ordonata egal ¼a cu
n+1
2.
Mediana reprezinta un caz particular al notiunilor de cuartile sau
procentile.
De
ni¸ tia 29 Cuartile se numesc cele trei valori care impart
sirul variational in patru parti egale, iar in cazul esantioanelor
de volum mare cele 99 de valori care impart sirul variational intr-
o 100 de parti egale se numesc percentile. Astfel valoarea notata
cuQ1si egala cu a1
4(n+ 1)-a valoare din sirul variational cand
1
4(n+ 1) este un numar intreg, sau, daca acesta nu este numar
intreg, Q1este egal cu media dintre valoarea sirului variational
de rang egal cu partea intreaga a valorii1
4(n+ 1) si valoarea de
32CAPITOLUL 1. ELEMENTE DE STATISTIC ¼A DESCRIPTIV ¼A (ANLIZA EXPLORATORIE A DATELOR)
rang urmator din acelas sir variational, se numeste quartila in-
ferioara , valoarea Q2ce coincide cu mediana se numeste quar-
tila mediana, valoarea notata cu Q3si egala cu a3
4(n+ 1)-a
valoare din sirul variational cand1
4(n+ 1) este un numar intreg,
sau, daca acesta nu este numar intreg, Q3este egal cu media dintre
valoarea sirului variational de rang egal cu partea intreaga a valorii
3
4(n+ 1) si valoarea de rang urmator din acelas sir variational se
numeste quartila superioara . Analogic, de exemplu,valoarea a
10
100(n+ 1)-a notata cu P10se numeste a 10-a percentila , iar val-
oarea a90
100(n+ 1)-a notata cu P90se numeste a 90-a percentila .
De
nim si distanta intercuantile =Q3 Q1:
A area cuartilelor inferioar ¼a si superioar ¼a si a percentilelor se face similar
cu a area medianei.
Exemplul 30 Sa se a e cuartilele Q1siQ3si distanta intercuartile in baza
urmatorului esantion: (80,70,76,70,83).
Cum n= 5atunci, deoarece (5+1)/4=1.5 rezulta ca Q1coincide cu me-
dia aritmetica dinre prima valoare si a doua valoare a sirului variational:
Q1= 70:Analogic, deoarece3
4(5 + 1) = 4 :5, rezulta ca Q3coincide cu media
aritmetica dintre a patra valoare si a cincea valoare a sirului variational:
Q3= (80 + 83) =2 = 81 :5:Prin urmare distanta intercuantile este egala cu
Q3 Q1= 81:5 70 = 11 :5:Distanta aceasta ne arata cat de imprastiate
sunt jumatatea din mijloc a datelor din sirul variational.
De
ni¸ tia 31 Moda (modul) este acea valoare xMdin e¸ santion care are
frecven¸ ta (absolut ¼a sau relativ ¼a) cea mai mare în e¸ santion. Exist ¼a dou ¼a vari-
ante:
1. moda exist ¼a ¸ si este unic ¼a, atunci spunem c ¼a suntem în cazul unimodal;
2. moda exist ¼a ¸ si nu este unic ¼a, atunci spunem c ¼a suntem în cazul multi-
modal.
Observa¸ tia 3 Mediana ¸ si modul, spre deosebire de media de selec¸ tie, nu au
propriet ¼a¸ ti de linearitate. Modalitatea de calcul pentru mod în cazul în care
dispunem de tabelul de distribu¸ tie a frecven¸ telor pe intervale de valori este
urm¼atoarea: mai întâi se identi
c ¼a clasa modal ¼a, adic ¼a intervalul [a; a+c)
1.6. PARAMETRI DE POZI ¸ TIE 33
c¼aruia îi corespunde frecven¸ ta (relativ ¼a sau absolut ¼a) cea mai mare. Apoi
folosind nota¸ tiile din
gur ¼a, formula de calcul este:
xM=a+d1
d1+d2c
Exemplul 32 Fie e¸ santionul (80,70,76,70,83)G, unde Geste greutatea
unui student luat la întâmplare, atunci media de selec¸ tie, mediana ¸ si moda
sunt egale, respectiv cu x= 75:8,xm= 76 ,xM= 70 .
Observa¸ tia 4 Exemplul anterior arat ¼a, dac ¼a e s¼a confrunt ¼am cu f.e.r.^
Fn(80,70,76,70,83;x)
a e¸ santionului dat (vezi exemplul din paragraful anterior), c ¼a mediana are
proprietatea c ¼a^
Fn(80,70,76,70,83;xm)1=2¸ si1^
Fn(80,70,76,70,83;xm
0)1=2, fapt ce con
rm ¼a a
rma¸ tia urm ¼atoare.
Propozi¸ tia 33 Dac¼axmeste mediana e¸ santionului (x1,x2,:::,xn)X,
atunci
^
Fn(x1; x2; ::: ; x n;xm)1=2¸ si
1 ^
Fn(x1; x2; ::: ; x n;xm 0)1=2;
34CAPITOLUL 1. ELEMENTE DE STATISTIC ¼A DESCRIPTIV ¼A (ANLIZA EXPLORATORIE A DATELOR)
unde prin f(x 0)se subîn¸ telege limita la stanga a func¸ tiei fîn punctul
x.
Demonstra¸ tie (optionala). Fiexmmediana e¸ santionului (x1,x2, …,xn)
X.Consider ¼am ¸ sirul varia¸ tional (x(1),x(2), … , x(n))corespunz ¼ator e¸ san-
tionului (x1,x2, …, xn):Cum neste par sau impar, analiz ¼am dou ¼a cazuri.
Dac¼an= 2r+ 1, atunci xm=x(r+1). Prin urmare, dat
ind faptul c ¼a
x(r+1)poate
o valoare care se repet ¼a de mai multe ori în ¸ sirul varia¸ tional
(x(1),x(2), … , x(n)),
^
Fn(x1; x2; ::: ; x n;xm) =Fn(x1; x2; :::; x n;x(r+1))
(r+ 1)=(2r+ 1)>1=2:
Din acelea¸ si motive,
^
Fn(x1; x2; ::: ; x n;xm 0) = Fn(x1; x2; :::; x n;x(r+1) 0)
< r= (2r+ 1):
Dar
1 ^
Fn(x1; x2; ::: ; x n;xm 0) = 1 ^
Fn(x1; x2; ::: ; x n;x(r+1) 0)
1 r=(2r+ 1) = ( r+ 1)=(2r+ 1) >1=2:
Dac¼an= 2r, atunci xm=
x(r)+x(r+1)
=2. În caz c ¼ax(r)6=x(r+1)e clar
c¼a
^
Fn(x1; x2; ::: ; x n;xm) =^
Fn(x1; x2; ::: ; x n;xm 0) = r=(2r) = 1 =2:
Presupunând ca x(r)=x(r+1);deducem c ¼axm=x(r)=x(r+1):
Prin urmare au loc inegalit ¼a¸ tile:
^
Fn(x1; x2; ::: ; x n;xm) =Fn(x1; x2; :::; x n;x(r+1))
(r+ 1)=(2r)>1=2;
1 ^
Fn(x1; x2; ::: ; x n;xm 0)
= 1 ^
Fn(x1; x2; ::: ; x n;x(r) 0)1 r=(2r) = 1 =2.
1.7. PARAMETRI DE ÎMPR ¼A¸ STIERE (VARIA ¸ TIE) 35
Box-Plot (Box-and-wisker plot)
In scopul reprezentarii gra
ce a datelor statistice, prin intermediul medianei
si cuartilelor putem construi diagrame de tip Box-Plot (Box-and-wisker plot).
Pentru a efectua o astfel de reprezentare trebuie urmati pasii urmatori.
Pasul 1. Trasam un segment vertical de dreapta pe care indicam valorile
de sus x(n)si jos x(1)ale esantionului;
Pasul 2. La dreapta de aceasta verticala, de la cuartila inferioara Q1pana
la cuartila superioara Q3desenam o cutie dreptunghiulara;
Pasul 3. La nivelul medianei trasam o linie groasa pe cutie;
Pasul 4. Tragem cate o line perpendicular pe cutie de la cea mai mica
valoarea de jos x(1)pana la guartial inferioara si de la cuartila superioara
pana la valoarea superioara.
1.7 Parametri de împr ¼a¸ stiere (varia¸ tie)
Fie(x1; x2; ::: ; x n)Xun e¸ santion de volum n:Parametrul de pozi¸ tie,
ind
o caracteristic ¼a (statistic ¼a) important ¼a a e¸ santionului, nu poate caracteriza
toate aspectele interesante din punct de vedere practic. Astfel, exemplul
urmator arat ¼a ca pot exista dou ¼a e¸ santioane diferite ca grad de împr ¼a¸ stiere
a valorilor, dar care au aceea¸ si medie de selec¸ tie: (2;4;6)¸ si(1;4;7). Or, se
impune introducerea unor parametri de împr ¼a¸ stiere (varia¸ tie). Vom incepe
cu cei mai simpli.
De
ni¸ tia 34 Vom numi amplitudine absolut ¼avaloarea A=x(n) x(1), unde
x(n)= max
i=1;nxi, iar x(1)= min
i=1;nxi.
Teoretic, din punct de vedere al împr ¼a¸ stierii, avem urm ¼atoarele situa¸ tii
posibile:
1. Valorile sirului variational sunt distribuite uniform fata de extremitati;
36CAPITOLUL 1. ELEMENTE DE STATISTIC ¼A DESCRIPTIV ¼A (ANLIZA EXPLORATORIE A DATELOR)
2. Valorile sirului variational sunt concentrate mai aproape de valoarea
minimala, valoarea maximala situindu-se mai departe de acestea;
3. Valorile sirului variational sunt concentrate mai aproape de valoarea
maximala, valoarea minimala situindu-se mai departe de acestea.
Amplitudinea absolut ¼a are urm ¼atoarele neajunsuri: ea nu este adecvat ¼a
distribu¸ tiei valorior în situa¸ tiile (2) ¸ si (3). În plus, având dou ¼a e¸ santioane
care corespund la dou ¼a caracteristici statistice diferitece ce se m ¼asoar ¼a în
unit¼a¸ ti de m ¼asur¼a diferite, amplitudinea absolut ¼a nu poate servi la compara-
rea gradul de împr ¼a¸ stiere a valorilor in aceste e¸ santioane.
Ultimul defect al amplitudinii absolute poate
, totu¸ si, reparat prin in-
troducerea no¸ tiunii de amplitudine relativ ¼a.
De
ni¸ tia 35 Vom numi amplitudinea relativ ¼avaloarea Arel=A = x, dac¼a
x6= 0.
Urm¼atorii trei parametri de împr ¼a¸ stiere au la baz ¼aabaterile individuale
ale valorilor e¸ santionului fa¸ t ¼a de medie, median ¼a sau mod , respectiv xi x,
xi xm,xi xM.
Abaterea medie liniar ¼a absolut ¼a fa¸ t¼a de medie se de
ne¸ ste ca
ind valoarea
Ax=1
nnP
i=1jxi xj.
Abaterea medie liniar ¼a absolut ¼a fa¸ t¼a de median ase de
ne¸ ste ca
ind val-
oarea
1.7. PARAMETRI DE ÎMPR ¼A¸ STIERE (VARIA ¸ TIE) 37
Axm=1
nnP
i=1jxi xmj.
Abaterea medie liniar ¼a absolut ¼a fa¸ t¼a de mod se de
ne¸ ste ca
ind valoarea
AxM=1
nnP
i=1jxi xMj.
Observa¸ tia 5 Observ ¼am c ¼a pentru abaterile individuale xi xa valorilor
xifa¸ t¼a de media x,i=1; n, întotdeaunanP
i=1(xi x) = 0 (Demonstra¸ ti!).
Faptul aceasta, ca ¸ si faptul c ¼a o m ¼asur¼a a gradului de împr ¼a¸ stiere trebuie
s¼a aib ¼a valori nenegative, explic ¼a de ce în de
ni¸ tiile abaterilor medii liniare
oper¼am cu valorile absolute ale abaterilor individuale. În plus, urm ¼atoarea
propozi¸ tie arat ¼a c¼a printre abaterile medii liniare absolute este preferabil ¼a
abaterea medie liniar ¼a absolut ¼a fa¸ t¼a de median ¼a.
Propozi¸ tia 36 Minimul func¸ tiei f(c) =1
nnP
i=1jxi cjse ob¸ tine pentru c=
xm, adic ¼amin
c2R1
nnP
i=1jxi cj=1
nnP
i=1jxi xmj
De
ni¸ tia 37 Vom numi Dispersie de selec¸ tie valoarea
S2=1
nnX
i=1(xi x)2=1
nkX
i=1ni
x0
(i) x2=kX
i=1ni
n
x0
(i) x2;
Acesta este cel mai des utilizat parametru de împr ¼a¸ stiere. Se mai nume¸ ste ¸ si
abatere medie p ¼atratic ¼asauvarian¸ t ¼a,iar valoarea
S=vuut1
nnX
i=1(xi x)2
se nume¸ ste abatere standard .
Observa¸ tia 6 Atât dispersia de selectie cat si abaterea standard masoara
gradul de imprastiere a valorilor incluse in esantion fata de media esan-
tionului,
ind cu atat mai mica cu cat imrastierea aceasta este mai mica
si viceversa. Avantajul de a lucra cu abaterea standard consta in faptul ca
aceasta se masoara in aceleasi unitati de masura ca si variabila statistica
corespunzatoare.
38CAPITOLUL 1. ELEMENTE DE STATISTIC ¼A DESCRIPTIV ¼A (ANLIZA EXPLORATORIE A DATELOR)
Exemplul 38 Consider ¼am dou ¼a e¸ santioane (2;4;6)X¸ si(1;4;7)X.
Atunci împr ¼a¸ stierea valorilor în primul esantion este caracterizat ¼a de urma-
toarele valori A0= 4; A0
rel= 1,A0
x= 4=3,A0
xm= 4=3,S2
1= 8=3;iar îm-
pr¼a¸ stierea valorilor în esantionul al doilea de valoprile A00= 6,A00
rel= 6=4,
A00
x= 6=3,A"
xm= 6=3,S2
2= 18 =3. Observ ¼am ca ambele e¸ santioane sunt
multimodale, prin urmare pentru ele abaterea medie liniar ¼a absolut ¼a fa¸ t¼a de
mod¼anu este de
nit ¼a univoc.
Exemplul 39 Dispersia de selec¸ tie posed ¼a urm ¼atoarele propriet ¼a¸ ti:
1.S20¸ siS2= 0,×1=x2=: : :=xn=c,c2R.
2. Dac ¼a e¸ santionul (x1; x2; : : : ; x n)Xare dispersia de selec¸ tie S2, atunci
e¸ santionul (x1+,x2+,: : :,xn+)X+va avea dispersia
S2
1=2S2;
3. Dac ¼a dispunem de dou ¼a e¸ santioane, primul (x1,x2,:::,xn)Xde
volum n;al doilea (xn+1,xn+2,:::,xn+m)Xde volum m¸ si not ¼am
cux0,S2
1,x00,S2
2media ¸ si dispersia corespunz ¼atoare acestor e¸ santioane,
atunci dispersia de selec¸ tie a e¸ santionului concatenat (x1,x2, …, xn,
xn+1,xn+2, …, xn+m)poate
calculat ¼a dup ¼a formula
S2=nS2
1+mS2
2
n+m+n(x0 x)2+m(x00 x)2
n+m;
unde xeste media de selec¸ tie a e¸ santionului concatenat.
Observa¸ tia 7 Din proprietatea 3 a dispersiei rezulta c ¼a dispersia de selec¸ tie
a e¸ santionului concatenat este suma a doi termeni: primul exprim ¼a varia¸ tia
în interiorul e¸ santioanelor ¸ si il vom nota cu 2
1;
2
1=nS2
1+mS2
2
n+m;
al doilea exprim ¼a varia¸ tia între grupe ¸ si îl vom nota cu 2
2;
2
2=n(x0 x)2+m(x00 x)2
n+m:
Atunci S2=2
1+2
2¸ si spunem, spre exemplu, c ¼a varia¸ tia în interiorul gru-
pelor este mult mai mare decât varia¸ tia între grupe dac ¼a2
1> 2
2. Ponderea
1.7. PARAMETRI DE ÎMPR ¼A¸ STIERE (VARIA ¸ TIE) 39
ec¼arui termen în dispersia e¸ santionului poate
exprimat ¼a procentual, re-
spectiv prin intermediul valorilor
2
1
2
1+2
2100% ;2
1
2
1+2
2100% .
Teorema (Inegalitatea lui Cebyshev). O teorema preluata din Teoria
Probabilit ¼a¸ tilor ¸ si aplicata în Analiza Exploratorie a datelor arat ¼a ca doar
cunoasterea a doua caracteristici numerice de selec¸ tie, mai exact, media ¸ si
dispersia de selec¸ tie sunt su
ciente pentru a caracteriza ponderea valorilor
e¸ santionului sau probabilitatea frecvential ¼a ca acestea se vor situa intr-un
anumit interval la stinga si la dreapta de media de selectie.
Inegalitatea lui Cebyshev. Daca sunt cunoscute media xsi disper-
siaS2calculate în baza e¸ santionului (x1,x2,…,xn)de volum nce vizeaz ¼a
popula¸ tia statistic ¼a a variabilei X, atunci frecven¸ ta relativa
fn(x kSXx+kS) =
=num¼arul de valori a e¸ santionului nimerite in intervalul x kS
n
satisace inegalitatea
fn(x kSXx+kS)1 1
k2
pentru orice numar real k > 1:
Consecin¸ t ¼a.Daca sunt cunoscute media xsi dispersia S2calculate în
baza e¸ santionului (x1,x2,…,xn)de volum nce vizeaz ¼a popula¸ tia statistic ¼a a
variabilei X, atunci pentru k > 1;atunci cel pu¸ tin (1 1
k2)100% din valorile
e¸ santionului vor nimeri in intervalul de valori (x kSXx+kS):
Exemplul 40 Luând k= 2;3;4, din consecin¸ ta deducem c ¼a, procentual, în
intervalul (x 2SXx+ 2S)vor nimeri, cel pu¸ tin, 75% din valorile
e¸ santionului; în intervalul (x 3SXx+ 3S)vor nimeri, cel pu¸ tin,
1 1
32= 88;8 9% din valorile e¸ santionului; în intervalul (x 4SXx+4S)
vor nimeri, cel pu¸ tin, 1 1
42= 93;7 5% din valorile e¸ santionului 1 1
k2:
40CAPITOLUL 1. ELEMENTE DE STATISTIC ¼A DESCRIPTIV ¼A (ANLIZA EXPLORATORIE A DATELOR)
1.7.1 Indicatorii formei (Asimetria, Boltirea sau Apla-
tizarea)
Pentru caracterizarea seriilor de distribu¸ tie se utilizeaz ¼a, al¼aturi de indica-
torii tendin¸ tei centrale ¸ si ai gradului de dispersare, ¸ si m ¼asuri pentru asimetrie
¸ si boltire. M ¼asurarea asimetriei ¸ si a boltirii unei serii de distribu¸ tie poate
f¼acut¼a atât prin intermediul unor parametri speci
ci, cât ¸ si pe cale gra
c ¼a.
Dac¼a metoda gra
c ¼a poate
utilizat ¼a ¸ si în cazul variabilelor calitative, in-
dicatorii de asimetrie ¸ si boltire sunt calcula¸ ti numai pentru caracteristici
numerice. Ambele metode au, în principiu, ca scop veri
carea caracteru-
lui normal al distribu¸ tiei. În urma prelucr ¼arii primare a datelor, se ob¸ tin
reparti¸ tii de frecven¸ te empirice, care se pot compara cu reparti¸ tiile teoret-
ice, pentru care s-au calculat indicatorii tendin¸ tei centrale ¸ si varia¸ tiei, ¸ si este
cunoscut ¼a forma lor de reparti¸ tie. Cea mai frecvent ¼a reparti¸ tie teoretic ¼a cu
care se compar ¼a seriile empirice este distribu¸ tia normal ¼a standard redata de
curba (clopotul) lui Gauss , ale c ¼arei frecven¸ te se distribuie simetric de o
parte ¸ si de alta a frecven¸ tei maxime plasate în centrul seriei, iar gra
cul
acesteia are forma de clopot (clopotul Gauss-Laplace).
În practica analizei exploratorii a datelor se pot întâlni serii de reparti¸ tie
de frecven¸ te simetrice, u¸ sor asimetrice sau cu tendin¸ t ¼a pronun¸ tat ¼a de asime-
trie. Pentru cazul în care varia¸ tia este simetric ¼a fa¸ t¼a de valoarea central ¼a a
caracteristicii, compensarea abaterilor se face nu numai pe ansamblul ei, ci ¸ si
în interiorul seriei, ca urmare a faptului c ¼a frecven¸ tele de apari¸ tie ale acestor
abateri sunt egale de ambele p ¼ar¸ ti ale valorii centrale. Dac ¼a frecven¸ tele de
apari¸ tie ale variantelor nu urmeaz ¼a aceast ¼a regularitate înseamn ¼a c¼a seria
prezint ¼a o tendin¸ t ¼a de asimetrie
e spre valorile mai mari,
e spre valorile
mai mici ale caracteristicii
O serie perfect simetric ¼a va corespunde acelei forme de varia¸ tie statistic ¼a
în care ¸ si in uen¸ ta factorilor întâmpl ¼atori urmeaz ¼a o anumit ¼a regularitate,
astfel încât are loc o reparti¸ tie uniform ¼a în ambele sensuri.
Faptul ca se face comparatia cu clopotul lui Gauss, caracterul de a
sau
nu simetric al distributieii de selectie poate servi, adesea, motiv de formulare
a unor ipoteze ca si distributia aceleiasi variabile statistice in intreaga pop-
ulatie are distributia normala, ipoteze ce pot
veri
cate in cadrul Analizei
Inferentiale.
Pentru determinarea tipului de asimetrie se poate recurge la metode ele-
mentare, precum: metoda gra
c ¼a¸ simomentul centrat de ordinul 3 .
Metoda gra
c ¼ala interpretarea gradului de asimetrie se porne¸ ste de la
1.7. PARAMETRI DE ÎMPR ¼A¸ STIERE (VARIA ¸ TIE) 41
pozi¸ tia ¸ si valoarea pe care le au cei trei indicatori ai tendin¸ tei centrale: media,
mediana ¸ si modul. Astfel, în func¸ tie de raportul dintre ace¸ sti indicatori,
putem avea una din urm ¼atoarele situa¸ tii:
-x=Mediana =Modul – serie simetric ¼a -
gura a);
-x < Mediana < Modul – serie cu asimetrie spre stânga (negativ ¼a)
gura b);
-x > Media > Modul – serie cu asimetrie spre dreapta (pozitiv ¼a)
gura
c).
.
Metoda bazat ¼a pe momentul centrat de ordinul 3 al esantionului – este o
metoda bazata pe calcularea in baza valorilor esantionului a numarului
m3=1
nnX
i=1(xi x)3=1
nkX
i=1ni
x0
(i) x3=kX
i=1ni
n
x0
(i) x3
Interpretarea acestui indicator porne¸ ste de la observa¸ tia c ¼a momentele
centrate de ordin impar ale seriilor de distribu¸ tie perfect simetrice sunt egale
cu zero (deci ¸ si m3= 0). Pentru seriile în care predomin ¼a termenii cu abateri
negative fa¸ t ¼a de medie ( x xi<0), vom avea m3<0, iar pentru seriile
în care predomin ¼a termenii cu abateri pozitive fa¸ t ¼a de medie ( x xi>0),
vom avea m3>0. Ca atare, în func¸ tie de valoarea lui m3vom avea:
– serie simetric ¼a pentru m3= 0;
– serie cu asimetrie spre stânga (negativ ¼a) pentru m3<0;
– serie cu asimetrie spre dreapta (pozitiv ¼a) pentru m3>0.
Pentru m ¼asurarea statistic ¼a a asimetriei se folosesc coe
cientul de asime-
trie al lui Pearson ¸ si coe
cientul lui Fisher.
42CAPITOLUL 1. ELEMENTE DE STATISTIC ¼A DESCRIPTIV ¼A (ANLIZA EXPLORATORIE A DATELOR)
Coe
cientul de asimetrie al lui Pearson este cel mai frecvent folosit
indicator pentru determinarea asimetriei ¸ si se ob¸ tine pe baza rela¸ tiei urm ¼a-
toare:
Cas=x xM
S:
Acest indicator are o valoare abstract ¼a, dar nu ¸ si lipsit ¼a de semni
ca¸ tie.
El ofer ¼a informa¸ tii atât asupra sensului asimetriei, cât ¸ si asupra intensit ¼a¸ tii
acesteia. Valorile pe care le ia sunt cuprinse în intervalul ( 1,1). Pentru
seriile de reparti¸ tie moderat asimetrice, coe
cientul de asimetrie ia valori în
intervalul [-0,3;0,3]. Semnul indicatorului arat ¼a sensul asimetriei, astfel:
-Cas<0- serie cu asimetrie spre stânga (negativ ¼a);
-Cas= 0- serie simetric ¼a;
-Cas>0- serie cu asimetrie spre dreapta (pozitiv ¼a).
Coe
cientul de asimetrie al lui Fisher:
Fas=m3
S3:
Deoarece numitorul va
întotdeauna pozitiv (nein uen¸ tând semnul indi-
catorului), interpretarea coe
cientului lui Fisher este asem ¼an¼atoare cu cea a
momentului centrat de ordinul 3 ( m3).
Iteresant este faptul ca se poate face o paralela intre box-plot-ul distrib-
utiei si asimetria ei. Vizual avem urmatoarele situatii:
1. Caz simetric
2. Asimetrie negativa
1.7. PARAMETRI DE ÎMPR ¼A¸ STIERE (VARIA ¸ TIE) 43
3. Asimetrie pozitiva
4. Distributia este uniforma (rectangulara)
O alta caracteristica a formei distributiei de selectie este Boltirea sau
Aplatizarea.
Coe
cientul de boltire (aplatizare) este numarul Cbol=m4
S4, unde
m4=1
nnX
i=1(xi x)4=1
nkX
i=1ni
x0
(i) x4=kX
i=1ni
n
x0
(i) x4
iarSeste abaterea standard a esantionulu. Deoarece o v.a. statistica normal
standard distribuita (curba lui Gauss) are coe
cientul de boltire aproximativ
44CAPITOLUL 1. ELEMENTE DE STATISTIC ¼A DESCRIPTIV ¼A (ANLIZA EXPLORATORIE A DATELOR)
egal cu 3 oricare, atunci putem compara boltirea oricarei altei distributii
simetrice cu acest numar 3. Se observa ca daca coe
cientul de boltire Cbol=
3;atunci avem potrivire cu distributia normala standard, inclusiv la capitolul
varian¸ t ¼a (dispersie). Daca Cbol<3, atunci gra
cul distributiei e sub cel
standard (e mai plat), adica va avea o dispersie marita, iar daca Cbol>
3;atunci gra
cul distributiei este peste cel standard (e mai ascutit/boltit)),
adica va avea o dispersie mai mica decat standardul 3.
Pe cale gra
c ¼a, boltirea se apreciaz ¼a comparând curba frecven¸ telor unei
distribu¸ tii empirice cu modelul corespunz ¼ator distribu¸ tiei normale standard.
Curba frecven¸ telor poate s ¼a apar ¼a în una din urm ¼atoarele trei situa¸ tii1 (
gura
de mai jos):
– curb ¼a mezocurtic ¼a coincide modelului (curba normal ¼a);
– curb ¼a platicurtic ¼a prezint ¼a o varia¸ tie puternic ¼a a variabilei X în paralel
cu o varia¸ tie
slab¼a a frecven¸ telor;
– curb ¼a leptocurtic ¼a – prezint ¼a o varia¸ tie slab ¼a a variabilei X în paralel cu
o varia¸ tie
puternic ¼a a frecven¸ telor.
1.8. PROBLEME PROPUSE 45
1.8 Probleme propuse
Pentru
ecare din exemplele prezentate mai jos descrie¸ ti popula¸ tia statistic ¼a
corespunz ¼atoare, e¸ santionul ¸ si volumul lui, caracteristica statistica si tipul
acesteia.
Exerci¸ tiul 1.8.1 Dispunem de urm ¼atorul e¸ santion, rezultat în urma cân-
t¼aririi a 12 mere:
86 88 100 86 87 100 105 100 86 86 87 86
1. Construi¸ ti ¸ sirul varia¸ tional.
2. Construi¸ ti ¸ sirul varia¸ tional de valori distincte, apoi alc ¼atui¸ ti tabelul de
distribu¸ tie (seria) al frecven¸ telor absolute, respectiv relative.
3. Construi¸ ti tabelul de distribu¸ tie (seria) frecven¸ telor absolute cumulate
cresc ¼ator, respectiv frecven¸ telor absolute cumulate descresc ¼ator.
4. Realiza¸ ti o diagram ¼a cu bastona¸ se care s ¼a reprezinte aceste date. Trasa¸ ti
poligonul frecven¸ telor.
5. Determina¸ ti mediana seriei statistice (valoarea din ¸ sirul varia¸ tional care
las¼a la stânga, respectiv la dreapta, un num ¼ar egal de valori).
6. Determina¸ ti modul seriei statistice (valoarea cu frecven¸ ta cea mai mare).
7. Determina¸ ti media seriei statistice.
8. Determina¸ ti dispersia seriei statistice.
9. Determina¸ ti func¸ tia empiric ¼a de reparti¸ tie si trasa¸ ti gra
cul ei.
46CAPITOLUL 1. ELEMENTE DE STATISTIC ¼A DESCRIPTIV ¼A (ANLIZA EXPLORATORIE A DATELOR)
Exerci¸ tiul 1.8.2 97de persoane au fost rugate s ¼a noteze num ¼arul de pro-
grame TV pe care le urm ¼aresc într-o s ¼apt¼amân ¼a. Rezultatele sunt centralizate
în tabelul urm ¼ator:
Num¼ar programe [0;9] [10 ;19] [20 ;29] [30 ;39] [40 ;49] [50 ;59]
Num¼ar persoane 3 16 36 21 12 9
1. Completa¸ ti tabelul cu frecven¸ tele relative, frecven¸ tele relative cumulate
cresc ¼ator ¸ si frecven¸ tele relative cumulate descresc ¼ator.
2. Trasa¸ ti histograma frecven¸ telor relative ¸ si mai apoi poligonul frecven¸ telor.
3. Determina¸ ti clasa modal ¼a. Determina¸ ti modul.
4. Determina¸ ti media.
Exerci¸ tiul 1.8.3 S-au m ¼asurat dimensiunile a 30de frunze ¸ si informa¸ tiile
ob¸ tinute s-au grupat astfel:
Lungimea frunzei [10;14] [15 ;19] [20 ;24] [25 ;29]
Num¼ar frunze 3 8 12 7
1. Completa¸ ti tabelul cu frecven¸ tele relative, frecven¸ tele absolute cumu-
late cresc ¼ator ¸ si frecven¸ tele absolute cumulate descresc ¼ator.
2. Câte frunze au avut lungimea mai mic ¼a sau egal ¼a cu 19cm ? Dar mai
mare de 19cm ?Dar mai mare de 14cm ?
3. S¼a se reprezinte histograma frecven¸ telor absolute cumulate cresc ¼ator.
Determina¸ ti media ¸ si modul distribu¸ tiei.
Exerci¸ tiul 1.8.4 Au fost intervieva¸ ti 68 de fum ¼atori în leg ¼atur¼a cu num ¼arul
de ¸ tig ¼ari pe care le fumeaz ¼a în
ecare zi. R ¼aspunsurile lor sunt centralizate
în tabelul urm ¼ator:
Num¼ar ¸ tig ¼ari [0;7] [8 ;15] [16 ;23] [24 ;31] [32 ;40]
Num¼ar persoane 4 18 28 14 4
1.8. PROBLEME PROPUSE 47
1. Determina¸ ti clasa modal ¼a. Determina¸ ti modul.
2. Trasa¸ ti histograma frecven¸ telor absolute.
3. Câte persoane fumeaz ¼a sub 16¸ tig¼ari pe zi ? Dar peste 32?
Exerci¸ tiul 1.8.5 Au fost cânt ¼arite 35de obiecte ¸ si rezultatele ob¸ tinute (ex-
primate în unit ¼a¸ ti de m ¼asur¼a a greut ¼a¸ tii) au fost grupate în tabelul urm ¼ator:
Greutate [6;9) [9 ;12) [12 ;18) [18 ;21) [21 ;30)
Num ¼ar obiecte 4 6 10 3 12
Trasa¸ ti histograma frecven¸ telor.
Exerci¸ tiul 1.8.6 Dobânda (în unit ¼a¸ ti monetare) pl ¼atit¼a la 460de persoane
într-un an este:
Dobând ¼a [25;30) [30 ;40) [40 ;60) [60 ;80) [80 ;110)
Num¼ar persoane 17 55 142 152 93
1. Trasa¸ ti histograma frecven¸ telor.
2. Determina¸ ti media dobânzii.
Exerci¸ tiul 1.8.7 38de copii au rezolvat o problem ¼a ¸ si a fost notat timpul
(în minute) de rezolvare pentru
ecare dintre ei. Rezultatele au fost grupate
în tabelul urm ¼ator.
Determina¸ ti clasa modal ¼a.
Exerci¸ tiul 1.8.8 Durata de sta¸ tionare (în ore) într-o parcare a fost notat ¼a
pentru 536 ma¸ sini. Rezultatele au fost grupate în tabelul urm ¼ator:
Durata [6;26) [26 ;61) [61 ;81) [81 ;106) [106 ;116) [116 ;151) [151;201)
Nr.ma¸ s. 62 70 88 125 56 105 30
Determina¸ ti clasa modal ¼a ¸ si modul.
48CAPITOLUL 1. ELEMENTE DE STATISTIC ¼A DESCRIPTIV ¼A (ANLIZA EXPLORATORIE A DATELOR)
Exerci¸ tiul 1.8.9 În tabelul urm ¼ator sunt trecute vânz ¼arile din anul 2001
pentru 5 companii.
Companie AB CDE
Vânz ¼ari 55 130 20 35 60
Realiza¸ ti o diagram ¼a pie care s ¼a reprezinte aceste date.
Exerci¸ tiul 1.8.10 Tabelul urm ¼ator reprezint ¼a vânz ¼arile unei companii pe
continentele unde are reprezentan¸ te, în doi ani succesivi. Realiza¸ ti o dia-
gram ¼a pie care s ¼a compare vânz ¼arile companiei.
Anul Africa America Asia Europa Total
2002 8 ;4 12 ;2 15 ;6 23 ;8 60
2003 5 ;5 6 ;7 13 ;2 19 ;6 45
Exerci¸ tiul 1.8.11 A a¸ ti media, mediana, modul, dispersia ¸ si devia¸ tia stan-
dard pentru urm ¼atoarele serii statistice:
1.7 7 2 3 4 2 7 9 31
2.36 41 27 32 29 38 39 42
3. Concatena¸ ti cele dou ¼a e¸ santioane ¸ si calcula¸ ti media ¸ si dispersia noului
e¸ santion.
Exerci¸ tiul 1.8.12 Calcula¸ ti mediana pornind de la urm ¼atorul tabel de dis-
tribu¸ tie a frecven¸ telor:
Num¼ar copii 012 345
Num¼ar familii 3512 942
Exerci¸ tiul 1.8.13 Calcula¸ ti mediana pornind de la urm ¼atorul tabel de dis-
tribu¸ tie a frecven¸ telor:
Nota 56 7 8 9 10
Num¼ar copii ( fabs)611 15 18 6 5
facc 617 32 50 56 61
1.8. PROBLEME PROPUSE 49
Exerci¸ tiul 1.8.14 A a¸ ti mediana ¸ si modul seriei statistice:
0;78 0 ;45 0 ;65 0 ;78 0 ;45 0 ;32 1 ;9 0;78
Exerci¸ tiul 1.8.15 Calcula¸ ti mediana pornind de la urm ¼atorul tabel de dis-
tribu¸ tie a frecven¸ telor:
x5 9 13 17 21
Exerci¸ tiul 1.8.16 A a¸ ti modul urm ¼atoarelor serii statistice:
1.4 5 5 1 2 9 5
2.1 8 9 19 2
Exerci¸ tiul 1.8.17 Determina¸ ti modul pentru notele a 330de elevi, sistem-
atizate în tabelul urm ¼ator:
Nota [11;20) [21 ;30) [31 ;40) [41 ;50) [51 ;60) [61 ;70) [71 ;80) [81 ;90)
Nr. 20 40 80 100 50 20 10 10
Exerci¸ tiul 1.8.18 Media de selec¸ tie a urm ¼atorului e¸ santion este 17. Cât
este c ?
12 18 21 c13
Exerci¸ tiul 1.8.19 A a¸ ti media ¸ si dispersia
ec ¼arui e¸ santion de mai jos:
4 5 2 6 8 ,
10 14 11 3
. Pentru e¸ santionul ob¸ tinut prin concatenarea lor calcula¸ ti media, dispersia,
amplitudinea absolut ¼a ¸ si cea relativ ¼a.
Exerci¸ tiul 1.8.20 Elevii unei ¸ scoli de muzic ¼a au fost întreba¸ ti la câte in-
strumente cânt ¼a
ecare. A a¸ ti ca câte instrumente cânt ¼a în medie un elev.
Num¼ar instrumente 1 2 345
Num¼ar elevi 11 10 531
50CAPITOLUL 1. ELEMENTE DE STATISTIC ¼A DESCRIPTIV ¼A (ANLIZA EXPLORATORIE A DATELOR)
Exerci¸ tiul 1.8.21 Media datelor din urm ¼atorul tabel de distribu¸ tie a frecven¸ telor
este 3;66. A a¸ ti valoarea a.
x 1234 56
fabs 39a11 87
Exerci¸ tiul 1.8.22 A a¸ ti media, dispersia ¸ si mediana
ec ¼arui e¸ santion de
mai jos
2 5 4 8 6 ,
6 11 9 8 :
Pentru e¸ santionul ob¸ tinut prin concatenarea lor calcula¸ ti media ¸ si dispersia.
Exerci¸ tiul 1.8.23 A a¸ ti media, dispersia ¸ si mediana
ec ¼arui e¸ santion de
mai jos:
11 23 17 14 29 ,
5 13 7 9 16 15 :
Pentru e¸ santionul ob¸ tinut prin concatenarea lor calcula¸ ti media ¸ si dispersia.
Exerci¸ tiul 1.8.24 Calcula¸ ti valoarea a¸ si devia¸ tia standard a e¸ santionului
urm¼ator ¸ stiind c ¼a media e¸ santionului este 8.
3 6 7 a14
Exerci¸ tiul 1.8.25 Pentru un set de 10numere (xi; i=1;10), se cunosc:Pxi= 290 ¸ siPx2
i= 8469 . A a¸ ti media, dispersia ¸ si devia¸ tia standard a
acestor numere.
Exerci¸ tiul 1.8.26 Fie urm ¼atorul e¸ santion: 3 6 7 9 10 .
1. Calcula¸ ti media, dispersia ¸ si devia¸ tia standard.
2. Calcula¸ ti media, dispersia ¸ si devia¸ tia standard dac ¼a adun ¼am3la
ecare
element al e¸ santionului din enun¸ t.
1.9. TESTE DE TIP MULTICHOICE PENTRU AUTOVERIFICARE 51
3. Calcula¸ ti media, dispersia ¸ si devia¸ tia standard dac ¼a înmul¸ tim cu 3
ecare element al e¸ santionului din enun¸ t.
Exerci¸ tiul 1.8.27 Fie urm ¼atorul e¸ santion: 1 2 3 4 5 6 7 .
1. Calcula¸ ti media, dispersia ¸ si devia¸ tia standard.
2. Folosind valorile ob¸ tinute, calcula¸ ti media, dispersia ¸ si devia¸ tia stan-
dard pentru urm ¼atoarele e¸ santioane:
(a) 101 102 103 104 105 106 107 ;
(b) 100 200 300 400 500 600 700 ;
(c) 2;01 3 ;02 4 ;03 5 ;04 6 ;05 7 ;06 8 ;07:
1.9 Teste de tip multichoice pentru autover-
i
care
Testul nr 1
Specializarile TI si TIA
Nota. A se incercui
ecare raspuns corect. Pentru raspunsul corect la
ecare subiect se acorda 1 punct. Total: 9 puncte +1 punct din o
ciu.Raspunsul
la subiect este considerat corect daca sunt marcate numai si numai raspun-
surile corecte, care pot varia intre 0 si 4 raspunsuri corecte.
1. Incercuiti a
rmatiile juste: a) Volumul populatiei statistice este, in-
totdeauna, mai mare decât volumul e¸ santionului corespunzator; b) Volumul
popula¸ tiei statistice poate
mai mic decât volumul e¸ santionului corespun-
zator. c) Volumul populatiei statistice este, intotdeauna,
nit.d) Volumul
e¸ santionului poate sa coincid ¼a cu cel al popula¸ tiei statistice in cazul recen-
s¼amântului.
2. Multimea de valori posibile ale unei variabile statistice (aleatoare)
discrete: a) Este, intotdeauna, o multime
nita. b) Este, intotdeauna, o
multime
nita sau, cel mult, in
nita numarabila.c) Este, intotdeauna o mul-
time in
nita nenumarabila.d) Nu poate
in
nita nenumarabila.
3. Reprezentarea tabelara sub forma de serie statistica a frecventelor
absolute/relative poate
realizata pentru variabile statistice: a) Categoriale,
52CAPITOLUL 1. ELEMENTE DE STATISTIC ¼A DESCRIPTIV ¼A (ANLIZA EXPLORATORIE A DATELOR)
nominale. b) Categoriale ordinale. c) Numerice, de interval. d) Numerice,
de raport.
4. Modul poate
calculat cand esantionul vizeaza o variabila statistica
(aleatoare): a) Categoriala, nominala. b) Categoriala, ordinala. c) Numerica,
de interval. b) Numerica, de raport.
5. Gradul de imprastiere a valorilor individuale din esantion fata de media
esantionului pot
exprimate prin intermediul:a) Medianei. b) Dispersiei de
selectie. c) Abaterii standard; d) Abaterii medii limiare absolute fata de
mediana.
6. Urmatorii parametri calculati in baza unui esantion de valori (x1,x2,…,
xn)Xnu sunt masurati in aceeasi unitate de masura ca si variabila X:
a) Amplitudinea absoluta. b) Abaterea standard. c) Abaterea medie liniara
absoluta fata de medie. d) Media de selectie.
7. Dac ¼a(x1,x2,…,xn)Xeste un e¸ santion de volum nce vizeaza
popula¸ tia statistica a variabilei Xcu media si dispersia de selectie egale,
respectiv, cu x0siS2
1iar(xn+1,xn+2,…,xn+m)Xeste un alt esantion de
volum mcu media si dispersia de selectie egale, respectiv, cu x00siS2
2, atunci
dispersia de selectie a e¸ santionului concatenat (x1,x2,…,xn,xn+1,xn+2,…,
xn+m)Xcu media de selectie xcunoscuta, coincide cu:
a)S2=n(x0 x)2+m(x00 x)2
n+m+nS2
1+mS2
2
n+m. b)S2=1
n+mn+mP
i=1(xi x)2. c)S2=
nS2
1+mS2
2
n+m. d)S2=S2
1+S2
2
2
8. Reprezentarea gra
ca Box-Plot are la baza: a) moda, mediana si media
de selectie. b) Cuartilele 1,2 si 3, media si mediana. c) Cea mai mica si cea
mai mare valoare ale esantionului, cuartilele 1,2 si 3. d) Cea mai mica si cea
mai mare valoare ale esantionului, mediana si cuartilele 1,2.
9. Incercuiti a
rmatiile juste: a) Cuartila 1 coincide cu media de selectie.
b) Pentru a putea calcula toate percentilele este necesar ca volumil esantionu-
luin > 100. c) Dispersia (gradul de imprastiere) a valorilor unui esantion a
carei distributie este simetrica este cu atat mai mare cu cat este mai mare
boltirea ei. d) Dispersia (gradul de imprastiere) a valorilor unui esantion a
carei distributie este simetrica este cu atat mai mare cu cat este mai mica
boltire
Tes-
tul nr 2
Specializarile TI si TIA
1.9. TESTE DE TIP MULTICHOICE PENTRU AUTOVERIFICARE 53
Nota. A se incercui
ecare raspuns corect. Pentru raspunsul corect la
ecare subiect se acorda 1 punct. Total: 9 puncte +1 punct din
o
ciu.Raspunsul la subiect este considerat corect daca sunt marcate numai
si numai raspunsurile corecte, care pot varia intre 0 si 4 raspunsuri corecte.
1. Incercuiti a
rmatiile juste: a) Orice variabil ¼a statistic ¼a categorial ¼a,
ordinal ¼a este, totodat ¼a,¸ si nominal ¼a. b) Orice variabil ¼a statistic ¼a categorial ¼a,
nominal ¼a este, totodat ¼a,¸ si ordinal ¼a. c) Orice variabil ¼a statistic ¼a numeric ¼a,
de interval este masurabila si in scala de raport. d) Orice variabil ¼a statistic ¼a
numeric ¼a, masurabila in scala de raport este masurabila si in scala de interval.
2. Multimea de valori posibile ale unei variabile statistice (aleatoare)
continue:a) Este, intotdeauna, o multime
nita. b) Este, intotdeauna, o mul-
time
nita sau, cel mult, in
nita numarabila.c) Este, intotdeauna o multime
in
nita nenumarabila.
d) Nu poate
in
nita nenumarabila.
3. Reprezentarea gra
ca sub forma de "placinta" se poate realiza pentru
variabile statistice: a) Categoriale, nominale. b) Categoriale ordinale. c)
Numerice, de interval. d) Numerice, de raport.
4. Media de selectie poate
calculata cand esantionul vizeaza o variabila
statistica (aleatoare): a) Categoriala, nominala. b) Categoriala, ordinala. c)
Numerica, de interval. b) Numerica, de raport.
5. Media de selectie xa unui esantion de valori (x1,x2,…,xn)X, unde
Xeste o variabila statistica numerica poate
calculata dupa formula:
a)x1
nnP
i=1xi:b)x=1
nkP
i=1nix0
(i), unde x0
(i)reprezinta valorile sirului
variational de valori distincte, iar nifrecventelor absolute a valorilor x0
(i),
i=1; k. c) x=kP
i=1fix0
(i), unde fireprezinta frecventa relativa a valorii x0
(i),
i=1; k. d) x= max( x1,x2,…,xn).
6. Frecventa relativa a unui eveniment Aasociat unui experiment (fenomen)
aleator ce poseda proprietatea Regularitatii Statistice:
a) oscileaza, atunci cand numarul probelor creste, in jurul unui numar
P(A)2[0;1], numit probabilitate frecventiala a evenimentului A. b) Este
un numar nenegativ si mai mic sau egal ca 1. c) Este un numar care,
ind
inmultit cu numarul probelor, da frecventa absoluta a evenimentului Ain
acest numar de probe (repetari a experimentului=obsevatii facute asupra
fenomenului). d) Este o marime scalara, neutra fata de orice unitate de
masura.
54CAPITOLUL 1. ELEMENTE DE STATISTIC ¼A DESCRIPTIV ¼A (ANLIZA EXPLORATORIE A DATELOR)
7. Construirea ogivei are la baza: a) Reprezentarea gra
ca sub forma
de "Pie". b) Histograma frecventelor. c) Histograma densitatilor. d) His-
tograma frecventelor cumulate crescator.
8. Reprezentarea Stem-and Leaf are la baza doar: a) Moda, mediana si
media de selectie. b) Cuartilele 1,2 si 3, media si mediana. c) Cea mai mica
si cea mai mare valoare ale esantionului, cuartilele 1,2 si 3. d) Doar valorile
incluse in esantion.
9. Dac ¼a(x1,x2,…,xn)Xeste un e¸ santion de volum nce vizeaza popu-
la¸ tia statistica a variabilei Xcu media de selectie si abaterea standard egale,
respectiv, cu xsiS, atunci procentul valorilor din esantion care nimeresc in
intervalul de valori situate intre x kSsix+kS:
a) intrece (1 1=22)100% = 75% pentru k= 2. b) intrece (1 1=23)
100% = 87 :5%pentru k= 3. c) b) intrece (1 1=24)100% = 93 :7 5pentru
k= 4. d) intrece 100% pentru k > 4.
Testul nr 3
Specializarile TI si TIA
Nota. A se incercui
ecare raspuns corect. Pentru raspunsul corect la
ecare subiect se acorda 1 punct. Total: 9 puncte +1 punct din o
ciu.Raspunsul
la subiect este considerat corect daca sunt marcate numai si numai raspun-
surile corecte, care pot varia intre 0 si 4 raspunsuri corecte.
1. In scala Nominal ¼a se m ¼asoar ¼a variabilele statistice:a) Discrete. b)
Continue. c) Categoriale; d) Numerice.
2. Scala Nominala se deosebeste prin faptul ca: a) In aceasta nu este
posibila nicio operatie aritmetica sau de ordine; b) Este posibila doar operatia
de ordonare.c) Au sens doar operatiile de ordonare, adunarea si scaderea. d)
Au sens toate operatiile aritmetice si cea de ordonare.
3. Reprezentarea gra
ca sub forma de bastoane se potriveste in cazul
variabilei statistice: a) Categoriale, nominale. b) Categoriale ordinale. c)
Numerice, de tip discret; d) Numerice, de tip continue.
4. Mediana poate
calculata cand esantionul vizeaza o variabila statistica
(aleatoare):a) Categoriala, nominala. b) Categoriala, ordinala cand volumul
esantonului este un numar impar. c) Numerica, de interval. b) Numerica, de
raport.
5. Dispersia de selectie xa unui esantion de valori (x1,x2,…,xn)X,
unde Xeste o variabila statistica numerica poate
calculata dupa formula:a)
1.9. TESTE DE TIP MULTICHOICE PENTRU AUTOVERIFICARE 55
S2=1
nnP
i=1(xi x)2. b) S2=1
nkP
i=1ni(x0
(i) x)2, unde xeste media de
selectie iar x0
(i)reprezinta valorile sirului variational de valori distincte, iar
nifrecventelor absolute a valorilor x0
(i),i=1; k. c)S2=kP
i=1fi(x0
(i) x)2,
unde fireprezinta frecventa relativa a valorii x0
(i),i=1; k. d)S2=1
nnP
i=1×2
i.
6. O esantionare este reprezentativa, la etapa colectarii datelor statistice,
daca procesul de colectare presupune c ¼a: a)
ecare unitate din populatia
statistica are aceleasi ¸ sanse (aceeasi probabilitate) de a nimeri in esantion.
b) identi
carea unitatii statistice incluse in esantion s-a facut pe baza uni
generator/tabel de numere aleatoare. c) volumul esantionului este su
cient
de mare. d) orice submultime de volum na populatiei statistice are, atunci
cand procesul de selectare este fara repetare, aceeasi sansa (probabilitate) de
a nimeri intr-un esantion de volum nde date inregistrate
7. Construirea poligonului frecventelor are la baza: a) Gra
cul functiei
empirice de distributie. b) Histograma frecventelor. c) Histograma densi-
tatilor. d) Histograma frecventelor cumulate crescator.
8. Incercuiti a
rmatiile juste: a) Mediana este mai instabila in comparatie
cu media de selectie in raport cu uctuatia valorilor extremale din esantion.
b) Mediana este mai stabila in comparatie cu media de selectie in raport
cu uctuatia valorilor extremale din esantion. c) Daca multimea de valori
posibile ale unei variabile statistice Xconsta dintr-o singura valoare egala
cu 10, atunci dispersia de selectie de selectie este egala cu 10. d) Daca
multimea de valori posibile a unei variabile statistice Xconsta dintr-o singura
valoare egala cu 10, atunci dispersia de selectie de selectie este egala cu 0.
9. Cunoscand functia empirica de distributie a unui esantion de valori ce
vizeaza variabila statistica numerica Xputem restabili univoc:
a) Volumul esantionului. b) ¸ Sirul variational de valori distincte din esan-
tion. c) frecventele relative ale
ecarei valori distincte din esantion. d) his-
tograma frecventelor pe intervale.
Testul nr 4
Specializarile TI si TIA
Nota. A se incercui
ecare raspuns corect. Pentru raspunsul corect la
ecare subiect se acorda 1 punct. Total: 9 puncte +1 punct din o
ciu.Raspunsul
56CAPITOLUL 1. ELEMENTE DE STATISTIC ¼A DESCRIPTIV ¼A (ANLIZA EXPLORATORIE A DATELOR)
la subiect este considerat corect daca sunt marcate numai si numai raspun-
surile corecte, care pot varia intre 0 si 4 raspunsuri corecte.
1.In scala de Interval se m ¼asoar ¼a variabilele statistice: a) Discrete. b)
Continue. c) Categoriale. d) Numerice.
2. Scala Ordinala se deosebeste prin faptul ca: a) In aceasta nu este posi-
bila nicio operatie aritmetica sau de ordine. b) Este posibila doar operatia
de ordonare. c) Au sens doar operatiile de ordonare, adunarea si scaderea.
d) Au sens toate operatiile aritmetice si cea de ordonare.
3.Reprezentarea gra
ca sub forma Histograma a frecventelor (absolute/relative)
pe interval se potriveste in cazul variabilei statistice:
a) Categoriale, nominale. b) Categoriale ordinale. c) Numerice, de tip
discret; d) Numerice, de tip continue.
4. Abaterea absolut ¼a si abaterea relativa pot
calculate cand esantionul
vizeaza o variabila statistica (aleatoare): a) Categoriala, nominala. b) Cate-
goriala, ordinala. c) Numerica, de interval. d) Numerica, de raport.
5. Media de selectie xa unui esantion de valori (x1,x2,…,xn)X, unde
Xeste o variabila statistica numerica poseda urmatoarele proprietati:
a)x>0. b) min(x1,x2,…,xn)xmax( x1,x2,…,xn). c) valoarea
absoluta jxj=1
nnP
i=1jxij. d) media de selectie a esantionului (x1+,x2+
…,xn+)X+coincide cu x+.
6. Consideram (1;4;2;1;3)Xun esantion de volum nin legatura cu
obsevatiile facute asupra variabilei statistice X. Atunci sirul variational de
valori scrise in ordine crescatoare, corespunzator esantionului, coincide cu
multimea: a) (1;2;3;4). b) (1;1;2;3;4). c) (12;;22;32;42). d) (4;3;2;1;1).
7. Cuartila 1 coincide cu: a) mediana. b) 25-percentila. c) 0.5-cuantila.
d) 0.25-cuantila.
8. O distributie de selectie unimodala a unei variabile statistice este simet-
rica daca: a) Media de selectie 6=moda6=mediana. b) Media de selectie <mediana <moda.
c) Media de selectie >mediana >moda.d) Media de selectie =moda =mediana.
9. Cunoscand functia empirica de distributie a unui esantion de valori ce
vizeaza variabila statistica numerica Xputem restabili univoc:
a) Media de selectie. b) sirul variational de valori distincte din esantion.
c) frecventele absolute ale
ecarei valori distincte din esantion. d) histograma
densitatilor.
Testul nr 5
Specializarile TI si TIA
1.9. TESTE DE TIP MULTICHOICE PENTRU AUTOVERIFICARE 57
Nota. A se incercui
ecare raspuns corect. Pentru raspunsul corect la
ecare subiect se acorda 1 punct. Total: 9 puncte +1 punct din o
ciu.Raspunsul
la subiect este considerat corect daca sunt marcate numai si numai raspun-
surile corecte, care pot varia intre 0 si 4 raspunsuri corecte.
1. Multimea de valori posibile ale unei variabile statistice (aleatoare)
categoriale: a) Este, intotdeauna, o multime
nita. b) Contine doar elemente
descrise in cuvinte. c) Poate contine si elemente descrise cu ajutorul unor
numere, dar care joaca rol de simboluri. d) Poate
si multime in
nita.
2. Scala de Interval se deosebeste prin faptul ca:a) In aceasta nu este
posibila nicio operatie aritmetica sau de ordine; b) Este posibila doar operatia
de ordonare. c) Au sens doar operatiile de ordonare, adunarea si scaderea.
d) Au sens toate operatiile aritmetice si cea de ordonare.
3. Reprezentarea gra
ca sub forma Histograma a densitatilor se potriveste
in cazul variabilei statistice:a) Categoriale, nominale. b) Categoriale, ordi-
nale. c) Numerice, de tip discret; d) Numerice, de tip continue.
4. Abaterea medie linara absoluta fata de mod/mediana/medie poate
calculata cand esantionul vizeaza o variabila statistica (aleatoare): a) Cat-
egoriala, nominala. b) Categoriala, ordinala. c) Numerica, de interval. b)
Numerica, de raport.
5. Dispersia de selectie S2a unui esantion de valori (x1,x2,…,xn)X,
unde Xeste o variabila statistica numerica poseda urmatoarele proprietati:
a) cand gradul de imprastiere este mic dispersia este negativa si este pozitiva
cand gradul de imprastiere este mare. b) dispersia de selectie a esantionului
(x1+,x2+…,xn+)X+coincide cu S2+. c) dispersia
de selectie a esantionului (x1+,x2+…,xn+)X+coincide
cuS2. d) coincide cu momentul centrat de ordinul 2 de selectie.
6. Consideram (1;4;2;1;3)Xun esantion de volum nin legatura
cu obsevatiile facute asupra variabilei statistice X. Atunci sirul variational
de valori distincte scrise in ordine crescatoare, corespunzator esantionului,
coincide cu multimea: a) (1;2;3;4). b) (1;1;2;3;4). c) (12;;22;32;42). d)
(4;3;2;1;1).
7. Cuartila 2 coincide cu: a) 50-percentila. b) 25-percentila. c) medianaa.
d) 0.25-cuantila.
8. O distributie de selectie unimodala a unei variabile statistice este
asimetrica pozitiv daca: a) Media de selectie 6=moda6=mediana. b) Media de
selectie <mediana <moda. c) Media de selectie >mediana >moda.d) Media de
selectie =moda =mediana.
58CAPITOLUL 1. ELEMENTE DE STATISTIC ¼A DESCRIPTIV ¼A (ANLIZA EXPLORATORIE A DATELOR)
9. Cunoscand functia empirica de distributie a unui esantion de valori ce
vizeaza variabila statistica numerica Xputem restabili univoc:a) Mediana.
b) Moda. c) Media de selectie . d) Daca este sau nu unimodala distributia
esantionului.
Testul nr 6
Examen Masterat. Specializarile TI si TIA
Nota. A se incercui
ecare raspuns corect. Pentru raspunsul corect la
ecare subiect se acorda 1 punct. Total: 9 puncte +1 punct din o
ciu.Raspunsul
la subiect este considerat corect daca sunt marcate numai si numai raspun-
surile corecte, care pot varia intre 0 si 4 raspunsuri corecte.
1. Multimea de valori sau date posibile ale unei variabile statistice (aleatoare)
discrete: a) Este, intotdeauna, o multime
nita. b) Este, intotdeauna, o mul-
time
nita sau, cel mult, in
nita numarabila. c) Este, intotdeauna o multime
in
nita nenumarabila. d) Nu poate
in
nita nenumarabila.
2. Scala de raport se deosebeste prin faptul ca: a) In aceasta nu este posi-
bila nicio operatie aritmetica sau de ordine. b) Este posibila doar operatia
de ordonare. c) Au sens doar operatiile de ordonare, adunarea si scaderea.
d) Au sens toate operatiile aritmetice si cea de ordonare.
3. Volumul esantionului se poate restabili univoc daca avem la baza:
a) Seria statistica a vrecventelor absolute. b) Seria statistica a frecventelor
relative. c) Histograma densitatilor. d) Functia empirica de distributie.
4. Dispersia de selectie si abaterea standard: a) Pot lua orice valoari nu-
merice. b) Iau numai valori numerice nenegative. c) Sunt egale cu zero daca
si numai daca valorile incluse in esantion sunt egale intre ele. d) Reprezinta
parametri de pozitie.
5. In aceeasi unitate de masura ca si variabila statistica cercetata se ex-
prima si: a) Media de selectie. b) Moda. c) Dispesia de selectie. d)Mediana.
6. Dac ¼a(x1,x2,…,xn)Xeste un e¸ santion de volum nce vizeaza
popula¸ tia statistica a variabilei Xcu media de selectie x0iar(xn+1,xn+2,…,
xn+m)Xeste un alt esantion de volum mcu media de selectie x00, atunci
media de selectie xa esantionului concatenat (x1,x2,…,xn,xn+1,xn+2,…,
xn+m)Xcoincide cu:
a)x=1
n+mn+mP
i=1xi. b)x=x0+x00
2. c)x=nx0+mx00
n+m. d)x=x0+x00
n+m.
1.9. TESTE DE TIP MULTICHOICE PENTRU AUTOVERIFICARE 59
7. Cuartila 3 coincide cu: a) 50-percentila. b) 75-percentila. c) 0.75-
cuantila. d) 0.25-cuantila.
8. O distributie de selectie unimodala a unei variabile statistice este
asimetrica negativ daca: a) Media de selectie 6=moda6=mediana. b) Media de
selectie <mediana <moda. c) Media de selectie >mediana >moda.d) Media de
selectie =moda =mediana.
9. Cunoscand functia empirica de distributie a unui esantion de valori ce
vizeaza variabila statistica Xputem restabili univoc:
a) Dispersia de selectie. b) Sirul variational de valori ale esantionului. c)
Abaterea standard. d) Abaterea absoluta .
60CAPITOLUL 1. ELEMENTE DE STATISTIC ¼A DESCRIPTIV ¼A (ANLIZA EXPLORATORIE A DATELOR)
BIBLIOGRAFIE
[1]:Andersen D. R., Sweeney D. J., Williams T.A., Statistics for bussiness
and economics (7-th Ed), Cincinnati SouthWestern College Pub., N-Y., 1999,
890 pp.
[2]. Paul Newbold, William L. Carlson, Betty M. Thorne, Statistics for
Business and Economics, by Pearson Education, Inc. publishing as Prentice
Hall., 2013, 797 pp.
Copyright Notice
© Licențiada.org respectă drepturile de proprietate intelectuală și așteaptă ca toți utilizatorii să facă același lucru. Dacă consideri că un conținut de pe site încalcă drepturile tale de autor, te rugăm să trimiți o notificare DMCA.
Acest articol: A.leahu Analiza Exploratorie A Datelor [604568] (ID: 604568)
Dacă considerați că acest conținut vă încalcă drepturile de autor, vă rugăm să depuneți o cerere pe pagina noastră Copyright Takedown.
