Îndrumar Bacalaureat la Informatică – Structurare, sugestii metodologice și teste [604524]

Îndrumar Bacalaureat la Informatică – Structurare, sugestii metodologice și teste

147
• Modulul (dominanta)
Fie șirul format din elemen tele x1, x2, x3, … , x n. Valoarea xi corespunzătoare frecvenței
celei mai mari poartă numele de mod ul. Repartiția poate avea mai multe maxime, dar de obicei
doar unul este global, celelalte fiind locale. Dacă există un singur maxim repartiția se numește
unimodală, cu două maxime se va numi bimodală, iar cu mai multe maxime este numită
polimodală sau multimodală.
Sunt situații în care datele sunt grupate pe clase. În acest caz intervalul corespunzător
frecvenței maxime se numește interval modal sau clasă modală. Modul se notează cu Mo.

• Valoarea centrală
Reprezintă media extremelor șirului de date studiat:

Dacă valorile din șirul de date sunt grupate pe clase, formula de calcul devine:

Este ușor de observat că valoarea centrală este dependentă de extreme și nu de valorile
tuturor datelor.

Proprietățile caracteristicilor de localizare
Putem enumera următoarele proprietăți specifice caracteristicilor de localizare:
• media aritmetică și media pătratică sunt influențate de valorile mari ale șirului ;
• media geometrică și media armonică sunt mai puternic influențate de valorile mici
ale șirului;
• mediana nu este influențată de valorile extreme;
• valoarea centrală nu depinde de toate valorile șirului de date, ci numai de cele
extreme;
• cel mai des indicato r de localizare folosit este media aritmetică.

Îndrumar Bacalaureat la Informatică – Structurare, sugestii metodologice și teste

148
Indicatori de variație
Indicatorii de localizare prezintă doar o singură trăsătură comună întregii colectivități. De
aceea se utilizează noi indicatori statistici care să evidențieze și alte aspecte ale populației supuse
studiului științific.
Categoria de indicatori de dispersie (variație) reprezintă o evaluare numerică a împrăștierii
datelor. Variația luată în considerare se poate raporta chiar la valoarea medie calculată.

• Dispersia (varianța)
Dispersia sau varianța reprezintă o mediere a pătratelor distanțelor față de valoarea medie
a șirului de date. Se notează cu σ2 sau D[x] și are următoarea formulă de calcul (pentru volumul n
al eșantionului de valori mari, n>30):

Dacă avem valorile x1, x2, x3, … , x m cu frecvențele absolute a1, a2, …, a m, atunci formula
de calcul devine:

Făcând apel la noțiunile de statistică , observăm că numărul de valori ce compun setul de
date, are influență asupra formulelor de calcul a indicatorilor statistici. D acă volumul eșantionului
este mai mic decât 30, atunci se aplică o corecție asupra numitorului formulei. În acest caz
ajustarea este în sensul că nu se împarte la n , ci la n -1 (numit și numărul gradelor de libertate).

• Abaterea pătratică medie (deviația s tandard)
Prin extragerea rădăcinii pătrate din dispersie se obține abaterea pătratică medie. Astfel,
deviația standard și indicatorii de localizare se exprimă cu aceleași unități de măsură. Formula:

Ținând cont de frecvențele absolute avem:

Îndrumar Bacalaureat la Informatică – Structurare, sugestii metodologice și teste

149

Putem exprima și astfel:

Pentru eșantioane mici se aplică formula de estimare prin împărțire la (n-1) în loc de n.

IV.1.4. Intervale de încredere (confidență)

În cazul realizării unor experimente de un număr repetat de ori se obține un număr fini t de
evenimente. Observațiile care se fac asupra populației pot fi totale (dacă se studiază toate
evenimentele, sau toți indivizii – exhaustiv) sau parțiale (dacă se studiază doar un eșantion din
total).
Cercetarea unitară a întregii populații în multe situați i este greu de realizat, uneori poate
chiar impracticabilă. O situație complementară o reprezintă accea în care numărul datelor obținute
în urma experimentelor este mic. Având la bază aceste informații trebuie deduse caracteristici
generale asupra fenomenu lui sau obiectului de studiu.
Eșantionul este considerat mic dacă volumul său are un număr de elemente până în 30 și
mare dacă numărul de elemente depășește valoarea 30. Acest prag este necesar pentru a estima cât
mai bine schimbările ce apar în tipul dis tribuției datelor și ca urmare , un volum mare al
eșantionului va avea implicații pozitive în rezultatele finale. Astfel, funcție de numărul de valori
disponibile, se aplică diferite teste, iar precizia estimărilor este cu atât mai bună cu cât avem mai
multe date de studiu. Obiectivul principal în cadrul culegerii datelor primare constă în a obține cu
un efort minim (volum minim de date) un volum maxim de informații.
Estimarea constă în operația de determinare a parametrilor populației pe baza eșantionului
studiat. Din cauza lipsei de informație generată de cercetarea uneori neunitară , cât și din cauza
dispersiei parametrilor doriți, se poate deduce cu o anumită probabilitate (de obicei acceptată la
valoarea de 95%), un anumit interval de încredere în care s e află parametrul studiat. Obiectivul
final al unui experiment constă, în majoritatea cazurilor, în a măsura valoarea unui parametru.
Valoarea măsurată (izolată de altfel) nu poate fi considerată satisfăcătoare sau valoare de referință
dacă nu se fac și pr ecizări referitoare la domeniul de variație precum și la probabilitatea
corespunzătoare.
În cadrul estimării parametrilor unei populații, valoarea calculată este de fapt o variabilă
aleatoare legată de eșantionul studiat. Cu cât se aleg mai multe eșantioa ne, cu atât avem mai multe

Îndrumar Bacalaureat la Informatică – Structurare, sugestii metodologice și teste

150
valori ale parametr ului care urmează a fi calculat . Chiar dacă teoretic putem extrage un număr
mare de eșantioane, aplicând metodele statisticii, se pot afla limitele de variație ale indicator ului
analizat , doar dintr -un singur e șantion de studiu.
Media , acest indicator statistic, este în centrul temei de estimare sau evaluare. Estimarea
ajută nu numai la stabilirea caracteristicilor unei populații, ci și la compararea diferitelor
eșantioane analizate (este important de menționat că media poate reprezenta și frecvența de apariție
a unui eveniment – conform legi numerelor mari).

IV.1.5. Teste statistice

În statistică obiectivul fundamental constă în luarea unei decizii, chiar în cazul existenței
unei incertitudini. Se emit mai m ulte ipoteze și prin decizie se acceptă doar aceea care se
încadrează în probabilitatea stabilită.
În vederea enunțării unei ipoteze există următoarele două posibilități:
• Ipoteza nulă notată H0, în care parametrii de comparat se consideră egali. Spre exem plu,
media populației 1 având date în eșantionul 1 este egală cu media populației 2 caracterizată
de eșantionul 2.
H0:
12=
Aceasta arată lipsa diferențelor parametrilor examinați sau a existenței unei relații.
• Ipoteza alternativă notată H1, în care se consideră cei doi parametri diferiți.
H1:
12
Această ipoteză este contrară ipotezei nule și arată existența diferențelor sau a relațiilor
posibile între parametri. Lucrând cu aceste ipoteze și cu o anumită probabilitate , decizia finală va
fi supusă erorii. Practic, între realitate și decizia luată vor exista două tipuri de erori posibile
prezentate în tabelul de mai jos.

Sistem decizional cu prag Situația adevărată
Ipotez a H 0 este adevărată Ipoteza H 1 este
adevărată

Decizie
prin test Acceptare ipoteză
H0 Nu există eroare
1- α
Adevărat pozitiv Eroare tip II
β
Fals negativ
Respingere ipoteză
H0
Acceptare ipoteza H 1 Eroare tip I
α (nivel de semnificație)
Fals pozitiv Nu există eroare
1-β (puterea testului)
Adevărat negativ

Îndrumar Bacalaureat la Informatică – Structurare, sugestii metodologice și teste

151
Nivelul de semnificație (eroarea de tip I) este determinat de valoarea α a probabilității și
are valori de 0.05 (5%) sau 0.01(1%). Acesta reprezintă eroarea de a accepta ipoteza alternativă în
mod eronat, când în realitate ipoteza H0 este adevărată. Eroarea de tip II exprimată prin
probabilitatea β, arată acceptarea ipotezei nu le, deci a lipsei diferențelor, când în realitate acestea
sunt confirmate. Puterea testului se definește prin 1− β . Valorile standard sunt de 0.8 sau 0.9 și
corespunzător β = 0.2 respectiv β = 0.1.
Funcție de tipul de studiu aplicat se poate ține cont de eroarea de tip I sau de ambele tipuri.
Pentru verificarea unei ipoteze se creează o statistică care este practic o funcție ce depinde de
ipoteza H0, respectiv H1. Datele astfel create respectă o distribuție cu un anumit specific.
Se creează apoi funcția discriminantă statistică (forma matematică a testului), a cărei
valoare calculată se compară cu valorile critice, valori tabelate corespunzătoare tipului de repartiție
în care se încadrează.

Pe scurt, etapele de urmat în verificarea prin test statistic sunt:
1. Enunțarea ipotezei. Se definesc ipotezele: nulă, respectiv alternativă. Acestea urmăresc
scopul cercetării, exprimând ceea ce avem de verificat.
2. Alegerea parametrului de studiu (poate să apară implicit în enunțarea ipotezei). Ca exemple
avem: media, varianța, relația exprimată prin corelație, parametrii de regresie, proporții în
cadrul populațiilor, etc.
3. Deducerea și calculul statisticii discriminante dorite aplicând regula de decizie.
De exemplu, la compararea mediilor se poate lua în calcul o nouă v ariabilă aleatoare
definită ca diferența între indicatori. În acest caz aceasta poate urma o distribuție de tip t
(Student) sau Z, deci normală.
4. Acceptarea sau respingerea ipotezei prin calculul semnificației p. Se calculează statistica
(spre exemplu t, Z sau Fisher) din datele eșantioanelor de lucru. Corespunzător se deduce
valoarea p, care reprezintă probabilitatea de a avea o eroare de tip I. Aceasta este o integrală
în cadrul distribuției de frecvență determinate și reprezintă semnificația testului.

Ca idee de bază, trăsătura populației studiate care este cuprinsă în eșantionul analizat poate
reprezenta o caracteristică majoritară, care dacă este observată în proporție de 95% (definită ca
standard), atunci este acceptată. În situația în care nu este î ntâlnită în această proporție (de exemplu
avem doar 90% din cazuri ce respectă regula), vom accepta mai degrabă ipoteza alternativă,
deoarece variația întâlnită (chiar dacă este în proporție de numai 10%) implică existența unui factor
ce a modificat trăsăt ura. Semnificația statistică este nivelul de probabilitate la care acceptăm

Îndrumar Bacalaureat la Informatică – Structurare, sugestii metodologice și teste

152
eroarea de tip I (este eroarea de a decide greșit că H1 este adevărată, deci există diferență falsă).
Aceasta este considerată puternică dacă are valoarea p = 5% (deci 95% din cazu ri nu s -au
modificat), este definită ca medie pentru valori între 5 -10% (deci peste 90% de cazuri
nemodificate) și nu este acceptată pentru p > 10% (deci sub 90% din cazuri nemodificate).
Lucrând cu o probabilitate de 95% avem deja anumite riscuri. Chiar dacă un procent destul
de mare de date au o anumită caracteristică, aceasta nu înseamnă că toate elementele populației
vor păstra proprietatea. Evident și normal de anticipat, așteptăm ca o proporție de 5% din date să
fie „anormale”. Trebuie să fim pregăti ți să tratăm problema exhaustiv și să ținem cont de această
posibilitate – cazurile limită. Metoda de lucru constă în determinarea distribuției, urmată de
statistica creată prin scopul nostru. Spre exemplu, dacă dorim să studiem diferența mediilor a două
populații, atunci în mod generic, putem produce un număr mare de eșantioane iar diferența
mediilor acestora va defini statistica de lucru. Avem practic un nou set de date care respectă o
anumită lege de distribuție ce ne ajută în determinarea semnificației statistice căutate.
Testele de ipoteză sunt foarte importante deoarece reprezintă o metodă statistică de decizie
bazată pe „cântărirea” cunoștințelor obiective, prin estimări probabilistice asupra setului de valori
determinate practic.
În funcție de natu ra datelor cu care se lucrează, testele de semnificație statistică se
încadrează în două categorii – teste parametrice , proiectate în general pentru date cantitative, a
căror distribuție de valori respectă legea normală, și care compară parametri statistic i cum ar fi
media sau varianța, și teste neparametrice , proiectate pentru date calitative sau date cantitative a
căror distribuție de valori nu respectă legea normală, și care compară mărimi statistice cum ar fi
frecvențele de apariție a anumitor valori.
Cele mai simple și mai frecvent utilizate teste de semnificație statistică sunt testele
parametrice , bazate pe compararea mediilor sau a varianțelor . Alegerea testului de
semnificație statistică care se va folosi pentru a compara valorile unui parametru în tre două sau
mai multe eșantioane se face strict în funcție de natura și de caracteristicile datelor cu care se
lucrează. Astfel, în cazul în care se lucrează cu un parametru cantitativ, a cărui distribuție de valori
respectă legea de repartiție normală (f apt verificat eventual prin aplicarea unui test de fi ltare a
datelor) apar de obicei următoarele posibilități:
• dacă se dorește compararea valorilor acestui parametru între două eșantioane diferite, sau
independente – caracterizate prin aceea că valorile pa rametrului cantitativ care se
analizează provin de la subiecți diferiți , se va folosi testul t de comparare a mediilor;
• dacă se dorește compararea valorilor unui parametru între două eșantioane diferite, dar
dependente – caracterizate prin aceea că valoril e parametrului cantitativ care se

Îndrumar Bacalaureat la Informatică – Structurare, sugestii metodologice și teste

153
analizează provin de la aceiași subiecți , se va folosi testul t corelat (t-pairs sau
pereche) ;
• dacă se dorește compararea valorilor unui parametru între mai mult de două eșantioane. În
acest caz avem următoarele soluții: să luăm eșantioanele două câte două și să comparăm
valorile parametrului analizat între acestea folosind testul t (ceea ce ar putea conduce la un
număr însemnat de comparații atunci când se lucrează cu relativ multe eșantioane – de
exemplu, la 5 eșantioane ar însemna 10 combinații posibile) sau să realizăm o comparare
globală între cele 𝑛 eșantioane folosind un test de semnificație adecvat, respectiv testul
ANOVA de analiză a varianțelor.

IV.1.5.1. Testul F (Fischer -Snedecor )

Pentru a determina, în fun cție de datele și caracteriticile studiului de efectuat, care este
tipul de Test t (Student) care trebuie aplicat, avem la dispoziție testul F (Ficher -Snedecor).
Categoriile de teste prezentate aici se bazează, aparent, pe compararea datelor de sondaj
din două eșantioane. Cum șansa de a se obține două eșantioane identice este extrem de redusă,
problema comparării eșantioanelor, luată în sensul strict al cuvântului, pare neimportantă. Un test
de comparare trebuie, însă, înscris în inferența statistică: fie două eșantioane extrase din două
populații P1 și respectiv P2. Prin utilizarea eșantioanelor se dorește de fapt compararea celor două
populații.
Dificultatea procedurii constă în aceea că diferențele dintre cele două eșantioane, ca și
similaritatea lor, s e pot datora:
• diferențelor dintre populații, și/sau
• diferențelor de sondaj dintre eșantioane.
Compararea mediilor populațiilor normale ia în considerare împrăștierea datelor în cele
două populații. De aceea, e ste important să se cunoască dacă dispersiile celor două populații pot fi
considerate egale, sau nu. Acest fapt se decide utilizând testul F, bazat pe repartiția teoretică F
(Fisher –Snedecor). Situația poate fi recunoscută prin:
• două populații, caracterizate de variabilele X 1 și X2;
• variabilele sunt repartizate normal, X 1 ~ N( 1;12) X2 ~ N( 2;22);
• din două eșantioane, unul din fiecare populație, dispunem de estimațiile
2
1s și
2
2s ale dispersiilor
populațiilor; eșantioanele au volume n1 și respectiv n2.
Ipotezele testului F sunt atât de tip bilateral , cât și de tip unilateral.

Îndrumar Bacalaureat la Informatică – Structurare, sugestii metodologice și teste

154
Testul bilateral:
(A)
22
0 1 2
22
1 1 2:
:H
H
=
22
0 1 2
' 2 2
1 1 2:
:H
H
=
Teste unilaterale :
(B) (C)
22
0 1 2
" 2 2
1 1 2:
:H
H
=
Când ipoteza nulă este confirm ată, atunci statistica
2
1
2
2sFs= este repartizată cu ν 1 = n1 −1 și
ν2 = n2 −1 grade de libertate și se pot utiliza valorile tabelate pentru F(ν1;ν2) în vederea
determin ării probabilităților critice.
Pentru simplificarea deciziei în test, în practică se utilizează
()
()22
12
22
12max ,
min ,ss
F
ss=

în așa fel încât sunt utilizabile doar testele (A) și (C). În acest caz se notează cu νmax numărul
gradelor de libertate pentru numărător și cu νmin numărul gradel or de libertate pentru numitor.
Decizia, la nivelul de semnificație α, pentru testul bilateral (A):
• se respinge ipoteza nulă H 0 în favoarea ipotezei alternative H 1 dacă
max min 1 2; ; FF  −
sau
max min2; ; FF  
Decizia, la nivelul de semnificație α, pentru testul unilateral (C):
• se respinge ipoteza nulă H 0 în favoarea ipotezei alternative H 1' dacă
max min 1 ; ; FF  −

IV.1.5.2. Testul t (Student)

Testul t (Student) de comparare a mediilor se folosește pentru a evidenția eventualele
diferențe între valorile parametrului urmărit în cele două eșantioane . Acest test a fost creat de
matematicianul William Gosset, care l -a publicat sub pseudonimul Student , de unde provine și
numele testului.
Presupunem că cele două eșantioane au dimensiunile
1n și
2n suficient de mari , iar
parametrul urmărit are mediile aritmetice corespunzătoare
1X și
2X . Se pune problema de a
decide dacă diferența î ntre aceste medii este suficient de mare pentru a se putea afirma că ea nu
este întâmplătoare, ci se datorează unor factori externi care acționează sistematic și afectează într –

Similar Posts