Îndrumar Bacalaureat la Informatică – Structurare, sugestii metodologice și teste [604523]
Îndrumar Bacalaureat la Informatică – Structurare, sugestii metodologice și teste
140
CAPITOLUL IV
CERCETAREA PEDAGOGICĂ
IV.1. ELEMENTE DE STATISTICĂ DESCRIPTIVĂ
Statistica este știința care se ocupă cu colectarea, analiza și interpretarea datelor cu privire
la un anumit fenomen, precum și cu formularea unor previziuni în ceea ce privește comporta mentul
viitor al acestuia. Ea este cea mai recomandată și exactă metodă de interpretare a fenomenelor de
masă, cu multiple posibile legături cauzale, unde legitatea se manifestă și se poate observa prin
consecințele unui număr mare de fapte luate în studiu.
Extragerea de informații statistice , din multitudinea de date , constă în prezentarea
descriptivă a acestora , atât prin calculul indicatorilor statistici , cât și prin realizarea distribu ției de
frecvență.
IV.1.1. Tipuri de variabile
Variabila este o caracteristică sau un atribut măsurabil, care diferă de la element la elemen t
printr -o variație intrinsecă, ea putându -și schimba valoarea în timp și/sau spațiu sub influența
diferitelor condiționări. Dacă nu ar exista această dispersie sau variație a datelor , rezultatul
experiențelor, fenomenelor sau proceselor ar fi exprimat înt r-o formă punctuală , iar aplicația
statistică nu ar mai avea sens.
Există două tipuri de variabile (date) ce definesc natura informației: calitative și
cantitative .
Datele de tip calitativ sunt cunoscute și sub numele de variabile categoriale sau
atributive . Valorile acestora variază ca sortiment, categorie sau clasă, și nu prin mărime, drept
urmare nu se poate realiza o ordonare între valorile acestor tipuri de date. De exemplu, putem
studia preferința fiecărei persoane asupra unei culori dintr -o paletă dată. Nu putem găsi o legătură
de tipul roșu este mai mic decât albastru .
Pentru a măsura o variabilă de tip categorial se folosesc scale nominale . Acestea vor defini
grupurile sau categoriile existente prin alocarea unor nume. Nefiind informație de tip cantitativ ,
este imposibil de realizat ordonarea acestora.
Datele sau variabilele de tip cantitativ se caracterizează prin variație în m ărime , de la
element la element. Astfel, acestea pot fi ordonate și relații de genul mai mic sau mai mare au se ns
Îndrumar Bacalaureat la Informatică – Structurare, sugestii metodologice și teste
141
în acest context. După tipul pasului de evaluare a relației mai mare sau mai mic , putem împărți
variabilele cantitative în discrete și continue .
O variabilă discretă poate lua valori numărabile sau izolate, cum ar fi: numărul de not e de
10 la examenul de admitere sau numărul de nou născuți într -o zi la o maternitate .
O variabilă de tip continuu poate lua orice valoare dintr -un interval definit. Spre exemplu
temperatura, valoarea presiunii arteriale, sau înălțimea unei persoane au valori de tip continu u.
Evident, precizia de măsurare depinde de utilitatea informației, astfel încât putem considera că
valoarea măsurată cu o exactitate de o zecimală este suficientă în exprimarea temperaturii, folosind
scara Celsius.
După legătura existentă între variabile , acestea se împart în dependente și independente .
Variabile independente (sau factori ) sunt de obicei în cadrul studiilor manipulate de
cercetător. Prin modificarea valorilor acestora, ca urmare a cauzalităților existente, se modifică și
variabilele dependente . Spre exemplu doza folosită pentru aplicarea unui anumit tratament este
variabila independentă , iar efectul severității maladiei este cea dependentă. Variabila independentă
este aceea ce se poate modifica de specialist, doctor, farmacist, iar va riabila dependentă este efectul
sau rezultatul urmărit.
IV.1.2. Reprezentarea datelor statistice
Datele obținute în urma efectuării experimentelor urmează a fi supuse analizei conform
metodelor statisticii. Aceste date se culeg , în general , dintr -o popu lație statistică sau colectivitate
statistică. Elementele populației sunt numite unități statistice sau indivizi. Dintr -o populație ne
interesează o trăsătură comună a indivizilor, numită variabilă sau caracteristică .
În general, informațiile care se culeg sunt numai de la o parte din indivizii care formează
entitatea statistică, și nu de la întreaga populație. Aceasta este o cercetare selectivă. Astfel de
indivizi formează eșantionul sau selecția de lucru .
O formă simplă de a obține informații re feritoare la populație din datele de pe eșantioane
este oferită de metodele statisticii descriptive . Aceasta implică culegerea datelor, prezentarea lor
sub formă de tabele sintetice sau analitice , întocmirea unor reprezentări grafice precum
histogramele și calculul indicatorilor statistici. Crearea tabelelor și a graficelor ajută la o
interpretare mai ușoară a datelor.
Prelucrarea statistică reprezintă sistematizarea preliminară a datelor statistice pe
colectivitatea generală, cât și pe unitățile statistice componente, inclusiv stabilirea mărimilor
indicatorilor absoluți și derivați, dar și reliefarea rezultatelor statistice obținute.
Îndrumar Bacalaureat la Informatică – Structurare, sugestii metodologice și teste
142
Așadar, etapele prelucrării statistice sunt: centralizarea, gruparea datelor, calculul
indicatorilor absoluți, cuantificarea indicatorilor derivați, prezentarea rezultatelor sub forma
tabelelor, graficelor și a seriilor statistice.
Gruparea reprezintă sistematizarea datelor după o variabilă (caracteristică) numerică. În
funcție de tipul variabilei de grupare (discretă sau cont inuă) și de plaja valorilor pe care le poate
lua caracteristica, gruparea se poate face:
– pe variante (atunci când grupăm datele după o variabilă discretă sau când plaja valorilor pe
care le poate lua caracteristica nu este foarte mare);
– pe intervale de v ariație (atunci când sistematizăm datele după o variabilă continuă, care are
o plajă largă de valori).
a) Gruparea datelor statistice pe variante
În acest caz, se va forma un număr de grupe egal cu numărul de variante. Prin numărarea
unităților incluse în fiecare grupă se obține frecvența grupei (numită și frecvență absolută).
b) Gruparea pe intervale de variație
Se poate efectua pe intervale de mărime egală sau diferită. În continuare vom trata numai
cazul grupării datelor statistice pe intervale egale de variație. Pentru realizarea grupării pe intervale
egale de variație se recomandă parcurgerea următorilor pași:
– se determină amplitudinea va riației caracteristic ii, ca diferență între valoarea
maximă și valoarea minimă a caracteristicii :
max min A X X=−
– se stabilește numărul de grupe :
În acest caz pot exista două situații:
• numărul de grupe (r) este prestabilit, pe baza experienței căpătate din studii anterioare
asupra domeniului de interes ;
• numărul de grupe (r) nu este prestabilit , caz în care, dacă unitățile se repartizează
aproximativ normal după caracteristica studiată, pentru determinarea numărul ui de
grupe se poate utiliza relația lui H. Sturges :
1 3,322 lnrn= +
, unde n este numărul total de unități ale colectivității .
Este recomandat a se folosi un număr potrivit de grupe (de regulă între 4 și 10). Utilizarea
unui număr prea mare ar duce la fărâmi țarea excesivă a colectivității, iar un număr prea mic ar
putea să nu pună în evidență principalele tipuri calitative ale populației după variabila urmărită).
– se determină mărimea intervalului de grupare (h), ca raport între amplitudinea
caracteristicii și numărul de grupe:
Îndrumar Bacalaureat la Informatică – Structurare, sugestii metodologice și teste
143
Ahr=
Pentru ușurarea calculelor, se recomandă a se folosi mărimi rotunjite de interval, de aceea,
dacă valoarea reieșită din calcul este fracționară, cu mai multe zecimale, ea se poate rotunji prin
adaos la o va loare imediat super ioară, aleasă în mod convenabil .
– se formează intervalele de grupare, prin precizarea limitelor exacte ale acestora :
()min min
min min
min min2
………………………………….
1X X h
X h X h
X r h X rh−+
+ − +
+ − − +
Limitele intervalelor vor avea același grad de precizie ca și datele grupate (același număr
de zecimale), primul interval putând începe chiar de la valoarea minimă a caracteristicii sau de la
o valoare ușor inferioară acesteia, aleasă în mod convenabil. Este bine să nu existe suprapuneri de
limite, astfel încât la efectuarea grupării să poa tă fi respectată condiția de unicitate.
– Dacă limita superioară a unui interval coincide cu limita inferioară a intervalului următor,
intervalele se numesc continue ;
– Dacă între limita superioară a unui interval și limita inferioară a intervalului urm ător
există o diferență de o unitate întreagă sau zecimală, intervalele se numesc discontinue sau
discrete.
Pentru a reprezenta datele sub o formă mai restrânsă se folosește gruparea acestora într -un
tabel cu două coloane pentru fiecare variabilă de inter es. În prima coloană se trece intervalul
variabilei de studiu, iar în a doua se trece numărul de apariții al acesteia în acel interval. Intervalele
trebuie să fie disjuncte și consecutive, astfel încât de la valoarea minimă până la valoarea maximă
să fie a coperită toată plaja de valori. Seria de distribuție de frecvențe unidimensională reprezintă
o serie în care primul șir cuprinde variantele/valorile sau intervalele de variație ale unei variabile,
iar al doilea șir – frecvențele de apariție ale variantelor sau volumul grupelor.
Centrul intervalului este determinat ca medie aritmetică simplă a limitelor intervalului și
este considerat reprezentativ pentru datele din acel interval. Se determină cu una din relațiile:
inf sup
2ii
iXXX+= sau
inf
2i
iihXX=+
unde:
–
ih este mărimea intervalului;
–
inf
iX și
sup
iX reprezintă limita inferioară, respectiv superioară a intervalului de variație ;
Îndrumar Bacalaureat la Informatică – Structurare, sugestii metodologice și teste
144
–
, 1,iX i r= sunt centrele intervalelor de variație.
Frecvența absolută a grupei este egală cu numărul de unități statistice care au valoarea
caracteristicii mai mare (sau egală) cu limita inferioară a intervalului și mai mică (sau egală) cu
limita superioară a acest uia. Suma frecvențelor absolute este notată cu n și reprezintă numărul total
de unități sau volumul eșantionului.
1r
i
inn
==
Frecvența relativă a unei grupe reprezintă ponderea unităților statistice în volu mul total
al colectivității care au valoarea caracteristicii cuprinsă între limita inferioară și cea superioară a
grupei respective. Se determină ca raport între frecvența absolută a grupei și volumul eșantionului
(eventual înmulțit cu 100).
1ii
i r
i
innnnn
===
, unde
()1,in i r= sunt frecvențele de apariție ale variantei
iX și se exprimă în
coeficienți, sau
%
1100 100ii
i r
i
innnnn
== =
și se exprimă în procente.
Suma frecvențelor relative este 1 sau 100, după cum sunt exprimate , în coeficienți sau în procente :
11r
i
in
==
sau
%
1100r
i
in
==
Frecvențele absolute și relative oferă o imagine de ansamblu asupra tendinței de distribuție
a valorilor în colectivitate, asupra normalității, sime triei ori asimetriei repartiției de frecvențe.
IV.1.3. Indicatori i statistici
Extragerea și obținerea de informații dintr -un set de date se realizează în prima etapă prin
calculul indicatorilor statistici, realizând u-se o formă descriptivă a cunoștințel or. Tot în această
etapă de lucru, reprezentarea repartiției de frecvențe poate aduce informații suplimentare asupra
tipului de distribuție .
În studiul distribuției de frecvențe a caracteristicii unei populații se observă o tendință de
variație cu două as pecte:
1 – de localizare (de poziție );
2 – de împrăștiere (de variație ).
Îndrumar Bacalaureat la Informatică – Structurare, sugestii metodologice și teste
145
Analiza cantitativă care să permită evaluări și comparații din punct de vedere al localizării
sau al împrăștierii datelor se poate efectua numai cu ajutorul indicatorilor statistici . Aceștia
exprimă numeric pe baza valorilor de studiu, fie localizarea, fie variația datelor.
Media deține un rol important, și anume acela de a sintetiza într -o singură expresie
numerică valorile individuale înregistrate pentru variabilele statistice cercetate, astfel încât să fie
posibilă substituirea acestora.
Indicatori de localizare sau de poziție
• Media aritmetică (simplă)
Este indicatorul de bază al tendinței de localizare. Considerăm șirul de date x1, x2, …,x n.
Media aritmetică se notează cu 𝑋 sau M(x) .
• Media aritmetică ponderată
Dacă avem frecvențele absolute a1, a2, … , a m corespunzătoare valorilor x1, x2,…., xm,
atunci media se poate calcula conform formulei:
• Media aritmetică ajustată
În situația în care avem posibile valor i eronate apropiate de extrema minimă , respectiv
maximă, este indicat să se folosească media aritmetică ajustată. Aceasta se va calcula folosind din
datele inițiale doar un procent de 90% sau 80%. Practic valorile extreme vor fi eli minate în
proporția dorită. Spre exemplu, d acă alegem să lucrăm cu 90% din volumul de date, atunci 5% ,
reprezentând valorile cele mai mici , și 5%, reprezentând valorile cele mai mari , vor fi eliminate
din calcul.
• Media armonică
Se utilizează în calculul v alorii medii pentru mai multe mărimi relative . Valoarea reciprocă
(inversă) a mediei armonice este media reciprocelor valorilor din lot. Pentru șirul de valori x1, x2,
x3, … , x n se notează cu MH media armonică. Formula de calcul este:
Îndrumar Bacalaureat la Informatică – Structurare, sugestii metodologice și teste
146
cu condiția xi ≠ 0 .
• Media geometrică
Se utilizează în calculul coeficienților de creștere medie a valorilor unei serii cronologice
logaritmice, sau a seriilor cu creștere progresivă (cu rație crescătoare). De exemplu, se folosește
în calculul ritmului mediu de creș tere anuală sau în dinamica sporului natural al populației.
Media ge ometrică a unui șir de valori x1, x2, x3, … , x n se notează de obicei cu
GM și se
calculează cu formula:
• Media pătratică
Fie șirul de valori x1, x2, x3, … , x n. Media pătratică se notează MP și se calculează cu
formula (radical din media pătratelor valorilor):
• Mediana
Notăm valorile unui șir cu x1, x2, x3, … , x n. Suplimentar, acest șir trebuie să fie ordonat.
Valoarea c are ocupă locul central (este independentă de tipul de ordonare crescătoare sau
descrescătoare) se numește mediană și se notează cu Me.
Dacă șirul are un număr impar de valori, adică n = 2 ⋅k+1, avem :
Dacă șirul are un număr par de valori, deci n = 2⋅k, cal culăm mediana cu formula:
Mediana este un indicator puternic, ea fiind mai puțin influențată de valorile extreme
(asemănător mediei a ritmetice ajustate) și este mai stabilă la fluctuațiile de selecție.
Îndrumar Bacalaureat la Informatică – Structurare, sugestii metodologice și teste
147
• Modulul (dominanta)
Fie șirul format din elemen tele x1, x2, x3, … , x n. Valoarea xi corespunzătoare frecvenței
celei mai mari poartă numele de mod ul. Repartiția poate avea mai multe maxime, dar de obicei
doar unul este global, celelalte fiind locale. Dacă există un singur maxim repartiția se numește
unimodală, cu două maxime se va numi bimodală, iar cu mai multe maxime este numită
polimodală sau multimodală.
Sunt situații în care datele sunt grupate pe clase. În acest caz intervalul corespunzător
frecvenței maxime se numește interval modal sau clasă modală. Modul se notează cu Mo.
• Valoarea centrală
Reprezintă media extremelor șirului de date studiat:
Dacă valorile din șirul de date sunt grupate pe clase, formula de calcul devine:
Este ușor de observat că valoarea centrală este dependentă de extreme și nu de valorile
tuturor datelor.
Proprietățile caracteristicilor de localizare
Putem enumera următoarele proprietăți specifice caracteristicilor de localizare:
• media aritmetică și media pătratică sunt influențate de valorile mari ale șirului ;
• media geometrică și media armonică sunt mai puternic influențate de valorile mici
ale șirului;
• mediana nu este influențată de valorile extreme;
• valoarea centrală nu depinde de toate valorile șirului de date, ci numai de cele
extreme;
• cel mai des indicato r de localizare folosit este media aritmetică.
Îndrumar Bacalaureat la Informatică – Structurare, sugestii metodologice și teste
148
Indicatori de variație
Indicatorii de localizare prezintă doar o singură trăsătură comună întregii colectivități. De
aceea se utilizează noi indicatori statistici care să evidențieze și alte aspecte ale populației supuse
studiului științific.
Categoria de indicatori de dispersie (variație) reprezintă o evaluare numerică a împrăștierii
datelor. Variația luată în considerare se poate raporta chiar la valoarea medie calculată.
• Dispersia (varianța)
Dispersia sau varianța reprezintă o mediere a pătratelor distanțelor față de valoarea medie
a șirului de date. Se notează cu σ2 sau D[x] și are următoarea formulă de calcul (pentru volumul n
al eșantionului de valori mari, n>30):
Dacă avem valorile x1, x2, x3, … , x m cu frecvențele absolute a1, a2, …, a m, atunci formula
de calcul devine:
Făcând apel la noțiunile de statistică , observăm că numărul de valori ce compun setul de
date, are influență asupra formulelor de calcul a indicatorilor statistici. D acă volumul eșantionului
este mai mic decât 30, atunci se aplică o corecție asupra numitorului formulei. În acest caz
ajustarea este în sensul că nu se împarte la n , ci la n -1 (numit și numărul gradelor de libertate).
• Abaterea pătratică medie (deviația s tandard)
Prin extragerea rădăcinii pătrate din dispersie se obține abaterea pătratică medie. Astfel,
deviația standard și indicatorii de localizare se exprimă cu aceleași unități de măsură. Formula:
Ținând cont de frecvențele absolute avem:
Îndrumar Bacalaureat la Informatică – Structurare, sugestii metodologice și teste
149
Putem exprima și astfel:
Pentru eșantioane mici se aplică formula de estimare prin împărțire la (n-1) în loc de n.
IV.1.4. Intervale de încredere (confidență)
În cazul realizării unor experimente de un număr repetat de ori se obține un număr fini t de
evenimente. Observațiile care se fac asupra populației pot fi totale (dacă se studiază toate
evenimentele, sau toți indivizii – exhaustiv) sau parțiale (dacă se studiază doar un eșantion din
total).
Cercetarea unitară a întregii populații în multe situați i este greu de realizat, uneori poate
chiar impracticabilă. O situație complementară o reprezintă accea în care numărul datelor obținute
în urma experimentelor este mic. Având la bază aceste informații trebuie deduse caracteristici
generale asupra fenomenu lui sau obiectului de studiu.
Eșantionul este considerat mic dacă volumul său are un număr de elemente până în 30 și
mare dacă numărul de elemente depășește valoarea 30. Acest prag este necesar pentru a estima cât
mai bine schimbările ce apar în tipul dis tribuției datelor și ca urmare , un volum mare al
eșantionului va avea implicații pozitive în rezultatele finale. Astfel, funcție de numărul de valori
disponibile, se aplică diferite teste, iar precizia estimărilor este cu atât mai bună cu cât avem mai
multe date de studiu. Obiectivul principal în cadrul culegerii datelor primare constă în a obține cu
un efort minim (volum minim de date) un volum maxim de informații.
Estimarea constă în operația de determinare a parametrilor populației pe baza eșantionului
studiat. Din cauza lipsei de informație generată de cercetarea uneori neunitară , cât și din cauza
dispersiei parametrilor doriți, se poate deduce cu o anumită probabilitate (de obicei acceptată la
valoarea de 95%), un anumit interval de încredere în care s e află parametrul studiat. Obiectivul
final al unui experiment constă, în majoritatea cazurilor, în a măsura valoarea unui parametru.
Valoarea măsurată (izolată de altfel) nu poate fi considerată satisfăcătoare sau valoare de referință
dacă nu se fac și pr ecizări referitoare la domeniul de variație precum și la probabilitatea
corespunzătoare.
În cadrul estimării parametrilor unei populații, valoarea calculată este de fapt o variabilă
aleatoare legată de eșantionul studiat. Cu cât se aleg mai multe eșantioa ne, cu atât avem mai multe
Îndrumar Bacalaureat la Informatică – Structurare, sugestii metodologice și teste
150
valori ale parametr ului care urmează a fi calculat . Chiar dacă teoretic putem extrage un număr
mare de eșantioane, aplicând metodele statisticii, se pot afla limitele de variație ale indicator ului
analizat , doar dintr -un singur e șantion de studiu.
Media , acest indicator statistic, este în centrul temei de estimare sau evaluare. Estimarea
ajută nu numai la stabilirea caracteristicilor unei populații, ci și la compararea diferitelor
eșantioane analizate (este important de menționat că media poate reprezenta și frecvența de apariție
a unui eveniment – conform legi numerelor mari).
IV.1.5. Teste statistice
În statistică obiectivul fundamental constă în luarea unei decizii, chiar în cazul existenței
unei incertitudini. Se emit mai m ulte ipoteze și prin decizie se acceptă doar aceea care se
încadrează în probabilitatea stabilită.
În vederea enunțării unei ipoteze există următoarele două posibilități:
• Ipoteza nulă notată H0, în care parametrii de comparat se consideră egali. Spre exem plu,
media populației 1 având date în eșantionul 1 este egală cu media populației 2 caracterizată
de eșantionul 2.
H0:
12=
Aceasta arată lipsa diferențelor parametrilor examinați sau a existenței unei relații.
• Ipoteza alternativă notată H1, în care se consideră cei doi parametri diferiți.
H1:
12
Această ipoteză este contrară ipotezei nule și arată existența diferențelor sau a relațiilor
posibile între parametri. Lucrând cu aceste ipoteze și cu o anumită probabilitate , decizia finală va
fi supusă erorii. Practic, între realitate și decizia luată vor exista două tipuri de erori posibile
prezentate în tabelul de mai jos.
Sistem decizional cu prag Situația adevărată
Ipotez a H 0 este adevărată Ipoteza H 1 este
adevărată
Decizie
prin test Acceptare ipoteză
H0 Nu există eroare
1- α
Adevărat pozitiv Eroare tip II
β
Fals negativ
Respingere ipoteză
H0
Acceptare ipoteza H 1 Eroare tip I
α (nivel de semnificație)
Fals pozitiv Nu există eroare
1-β (puterea testului)
Adevărat negativ
Îndrumar Bacalaureat la Informatică – Structurare, sugestii metodologice și teste
151
Nivelul de semnificație (eroarea de tip I) este determinat de valoarea α a probabilității și
are valori de 0.05 (5%) sau 0.01(1%). Acesta reprezintă eroarea de a accepta ipoteza alternativă în
mod eronat, când în realitate ipoteza H0 este adevărată. Eroarea de tip II exprimată prin
probabilitatea β, arată acceptarea ipotezei nu le, deci a lipsei diferențelor, când în realitate acestea
sunt confirmate. Puterea testului se definește prin 1− β . Valorile standard sunt de 0.8 sau 0.9 și
corespunzător β = 0.2 respectiv β = 0.1.
Funcție de tipul de studiu aplicat se poate ține cont de eroarea de tip I sau de ambele tipuri.
Pentru verificarea unei ipoteze se creează o statistică care este practic o funcție ce depinde de
ipoteza H0, respectiv H1. Datele astfel create respectă o distribuție cu un anumit specific.
Se creează apoi funcția discriminantă statistică (forma matematică a testului), a cărei
valoare calculată se compară cu valorile critice, valori tabelate corespunzătoare tipului de repartiție
în care se încadrează.
Pe scurt, etapele de urmat în verificarea prin test statistic sunt:
1. Enunțarea ipotezei. Se definesc ipotezele: nulă, respectiv alternativă. Acestea urmăresc
scopul cercetării, exprimând ceea ce avem de verificat.
2. Alegerea parametrului de studiu (poate să apară implicit în enunțarea ipotezei). Ca exemple
avem: media, varianța, relația exprimată prin corelație, parametrii de regresie, proporții în
cadrul populațiilor, etc.
3. Deducerea și calculul statisticii discriminante dorite aplicând regula de decizie.
De exemplu, la compararea mediilor se poate lua în calcul o nouă v ariabilă aleatoare
definită ca diferența între indicatori. În acest caz aceasta poate urma o distribuție de tip t
(Student) sau Z, deci normală.
4. Acceptarea sau respingerea ipotezei prin calculul semnificației p. Se calculează statistica
(spre exemplu t, Z sau Fisher) din datele eșantioanelor de lucru. Corespunzător se deduce
valoarea p, care reprezintă probabilitatea de a avea o eroare de tip I. Aceasta este o integrală
în cadrul distribuției de frecvență determinate și reprezintă semnificația testului.
Ca idee de bază, trăsătura populației studiate care este cuprinsă în eșantionul analizat poate
reprezenta o caracteristică majoritară, care dacă este observată în proporție de 95% (definită ca
standard), atunci este acceptată. În situația în care nu este î ntâlnită în această proporție (de exemplu
avem doar 90% din cazuri ce respectă regula), vom accepta mai degrabă ipoteza alternativă,
deoarece variația întâlnită (chiar dacă este în proporție de numai 10%) implică existența unui factor
ce a modificat trăsăt ura. Semnificația statistică este nivelul de probabilitate la care acceptăm
Îndrumar Bacalaureat la Informatică – Structurare, sugestii metodologice și teste
152
eroarea de tip I (este eroarea de a decide greșit că H1 este adevărată, deci există diferență falsă).
Aceasta este considerată puternică dacă are valoarea p = 5% (deci 95% din cazu ri nu s -au
modificat), este definită ca medie pentru valori între 5 -10% (deci peste 90% de cazuri
nemodificate) și nu este acceptată pentru p > 10% (deci sub 90% din cazuri nemodificate).
Lucrând cu o probabilitate de 95% avem deja anumite riscuri. Chiar dacă un procent destul
de mare de date au o anumită caracteristică, aceasta nu înseamnă că toate elementele populației
vor păstra proprietatea. Evident și normal de anticipat, așteptăm ca o proporție de 5% din date să
fie „anormale”. Trebuie să fim pregăti ți să tratăm problema exhaustiv și să ținem cont de această
posibilitate – cazurile limită. Metoda de lucru constă în determinarea distribuției, urmată de
statistica creată prin scopul nostru. Spre exemplu, dacă dorim să studiem diferența mediilor a două
populații, atunci în mod generic, putem produce un număr mare de eșantioane iar diferența
mediilor acestora va defini statistica de lucru. Avem practic un nou set de date care respectă o
anumită lege de distribuție ce ne ajută în determinarea semnificației statistice căutate.
Testele de ipoteză sunt foarte importante deoarece reprezintă o metodă statistică de decizie
bazată pe „cântărirea” cunoștințelor obiective, prin estimări probabilistice asupra setului de valori
determinate practic.
În funcție de natu ra datelor cu care se lucrează, testele de semnificație statistică se
încadrează în două categorii – teste parametrice , proiectate în general pentru date cantitative, a
căror distribuție de valori respectă legea normală, și care compară parametri statistic i cum ar fi
media sau varianța, și teste neparametrice , proiectate pentru date calitative sau date cantitative a
căror distribuție de valori nu respectă legea normală, și care compară mărimi statistice cum ar fi
frecvențele de apariție a anumitor valori.
Cele mai simple și mai frecvent utilizate teste de semnificație statistică sunt testele
parametrice , bazate pe compararea mediilor sau a varianțelor . Alegerea testului de
semnificație statistică care se va folosi pentru a compara valorile unui parametru în tre două sau
mai multe eșantioane se face strict în funcție de natura și de caracteristicile datelor cu care se
lucrează. Astfel, în cazul în care se lucrează cu un parametru cantitativ, a cărui distribuție de valori
respectă legea de repartiție normală (f apt verificat eventual prin aplicarea unui test de fi ltare a
datelor) apar de obicei următoarele posibilități:
• dacă se dorește compararea valorilor acestui parametru între două eșantioane diferite, sau
independente – caracterizate prin aceea că valorile pa rametrului cantitativ care se
analizează provin de la subiecți diferiți , se va folosi testul t de comparare a mediilor;
• dacă se dorește compararea valorilor unui parametru între două eșantioane diferite, dar
dependente – caracterizate prin aceea că valoril e parametrului cantitativ care se
Îndrumar Bacalaureat la Informatică – Structurare, sugestii metodologice și teste
153
analizează provin de la aceiași subiecți , se va folosi testul t corelat (t-pairs sau
pereche) ;
• dacă se dorește compararea valorilor unui parametru între mai mult de două eșantioane. În
acest caz avem următoarele soluții: să luăm eșantioanele două câte două și să comparăm
valorile parametrului analizat între acestea folosind testul t (ceea ce ar putea conduce la un
număr însemnat de comparații atunci când se lucrează cu relativ multe eșantioane – de
exemplu, la 5 eșantioane ar însemna 10 combinații posibile) sau să realizăm o comparare
globală între cele 𝑛 eșantioane folosind un test de semnificație adecvat, respectiv testul
ANOVA de analiză a varianțelor.
IV.1.5.1. Testul F (Fischer -Snedecor )
Pentru a determina, în fun cție de datele și caracteriticile studiului de efectuat, care este
tipul de Test t (Student) care trebuie aplicat, avem la dispoziție testul F (Ficher -Snedecor).
Categoriile de teste prezentate aici se bazează, aparent, pe compararea datelor de sondaj
din două eșantioane. Cum șansa de a se obține două eșantioane identice este extrem de redusă,
problema comparării eșantioanelor, luată în sensul strict al cuvântului, pare neimportantă. Un test
de comparare trebuie, însă, înscris în inferența statistică: fie două eșantioane extrase din două
populații P1 și respectiv P2. Prin utilizarea eșantioanelor se dorește de fapt compararea celor două
populații.
Dificultatea procedurii constă în aceea că diferențele dintre cele două eșantioane, ca și
similaritatea lor, s e pot datora:
• diferențelor dintre populații, și/sau
• diferențelor de sondaj dintre eșantioane.
Compararea mediilor populațiilor normale ia în considerare împrăștierea datelor în cele
două populații. De aceea, e ste important să se cunoască dacă dispersiile celor două populații pot fi
considerate egale, sau nu. Acest fapt se decide utilizând testul F, bazat pe repartiția teoretică F
(Fisher –Snedecor). Situația poate fi recunoscută prin:
• două populații, caracterizate de variabilele X 1 și X2;
• variabilele sunt repartizate normal, X 1 ~ N( 1;12) X2 ~ N( 2;22);
• din două eșantioane, unul din fiecare populație, dispunem de estimațiile
2
1s și
2
2s ale dispersiilor
populațiilor; eșantioanele au volume n1 și respectiv n2.
Ipotezele testului F sunt atât de tip bilateral , cât și de tip unilateral.
Îndrumar Bacalaureat la Informatică – Structurare, sugestii metodologice și teste
154
Testul bilateral:
(A)
22
0 1 2
22
1 1 2:
:H
H
=
22
0 1 2
' 2 2
1 1 2:
:H
H
=
Teste unilaterale :
(B) (C)
22
0 1 2
" 2 2
1 1 2:
:H
H
=
Când ipoteza nulă este confirm ată, atunci statistica
2
1
2
2sFs= este repartizată cu ν 1 = n1 −1 și
ν2 = n2 −1 grade de libertate și se pot utiliza valorile tabelate pentru F(ν1;ν2) în vederea
determin ării probabilităților critice.
Pentru simplificarea deciziei în test, în practică se utilizează
()
()22
12
22
12max ,
min ,ss
F
ss=
în așa fel încât sunt utilizabile doar testele (A) și (C). În acest caz se notează cu νmax numărul
gradelor de libertate pentru numărător și cu νmin numărul gradel or de libertate pentru numitor.
Decizia, la nivelul de semnificație α, pentru testul bilateral (A):
• se respinge ipoteza nulă H 0 în favoarea ipotezei alternative H 1 dacă
max min 1 2; ; FF −
sau
max min2; ; FF
Decizia, la nivelul de semnificație α, pentru testul unilateral (C):
• se respinge ipoteza nulă H 0 în favoarea ipotezei alternative H 1' dacă
max min 1 ; ; FF −
IV.1.5.2. Testul t (Student)
Testul t (Student) de comparare a mediilor se folosește pentru a evidenția eventualele
diferențe între valorile parametrului urmărit în cele două eșantioane . Acest test a fost creat de
matematicianul William Gosset, care l -a publicat sub pseudonimul Student , de unde provine și
numele testului.
Presupunem că cele două eșantioane au dimensiunile
1n și
2n suficient de mari , iar
parametrul urmărit are mediile aritmetice corespunzătoare
1X și
2X . Se pune problema de a
decide dacă diferența î ntre aceste medii este suficient de mare pentru a se putea afirma că ea nu
este întâmplătoare, ci se datorează unor factori externi care acționează sistematic și afectează într –
Îndrumar Bacalaureat la Informatică – Structurare, sugestii metodologice și teste
155
un mod semnificativ valorile parametrului în unul dintre eșantioane comparativ cu celălalt. Pentru
a soluționa această problemă, se formulează ipoteza de lucru că mediile aritmetice ale parametrului
analizat în cele două eșantioane sunt egale, adică
12XX= (IPOTEZA NULĂ) și se determină
valoarea de adevăr a aceste i ipoteze , calculând valoarea unui parametru statistic, notat cu t, care la
rândul său se determină în două moduri:
• pe baza următoare i formule , denumită și „formulă de bază”, și folosită în cazul în care
pentru cele 2 eșantioane varianțele σ1 și σ2 sunt eg ale:
• pe baza următoare i formule, denumită și „formulă separată ”, și folosită în cazul în care
pentru cele 2 eșantioane varianțele σ1 și σ2 sunt diferite:
Această valoare calculată, tcalculat , se compară apoi cu valori teoretice ale parametrului t,
determinate anterior de către statisticieni pentru eșantioane de diferite dimensiuni și anumite
intervale de încred ere prestabilite (de obicei = 0,05 sau = 0,01).
– dacă valoarea absolută a lui t calculat, tcalculat > t()tabel , înseamnă că ipoteza nulă
este infirmată , iar diferența mediilor aritmetice nu este întâmplătoare , fiind
semnificativă statistic (se datorează unor factori externi care acționează sistematic).
– în caz contrar, adică atunci când tcalculat < t()tabel , înseamnă că ipoteza nulă este
confirmată și nu avem mot ive să considerăm că diferența di ntre medii este
semnificativă (adică ea poate fi considerată ca o abatere întâmplătoare).
În practică, soft -urile de analiză statistică, deși calculează și valoarea parametrului t și o
compară cu valorile teoretice cunoscute, returnează, pentru această valoare, un coeficient de
încredere, notat cu p, referitor la confirmarea ipotezei nule , cu o probabilitate de 95% sau de 99%.
Acest fapt este valabil nu numai pentru testul t, ci p entru orice test de semnificație statistică ,
valoarea lui p fiind cea mai facilă de utilizat pentru interpretarea testului. Astfel:
– dacă p ≤ 0,05 înseamnă că diferența di ntre medii nu este întâmplătoare, fiind
semnificativă statistic, iar ipoteza nulă este infirmată;
– dacă p > 0,05 înseamnă că diferența di ntre medii este întâmplătoare, fiind
nesemnificativă statistic, iar ipoteza nulă este confirmată.
Copyright Notice
© Licențiada.org respectă drepturile de proprietate intelectuală și așteaptă ca toți utilizatorii să facă același lucru. Dacă consideri că un conținut de pe site încalcă drepturile tale de autor, te rugăm să trimiți o notificare DMCA.
Acest articol: Îndrumar Bacalaureat la Informatică – Structurare, sugestii metodologice și teste [604523] (ID: 604523)
Dacă considerați că acest conținut vă încalcă drepturile de autor, vă rugăm să depuneți o cerere pe pagina noastră Copyright Takedown.
