INTODUCERE ÎN BIOSTATISTICA. NATURA MĂSURĂRII ÎN BIOSTATISTICA. ORGANIZAREA [631541]
1
INTODUCERE ÎN BIOSTATISTICA. NATURA MĂSURĂRII ÎN BIOSTATISTICA. ORGANIZAREA
DATELOR.
1. Intoducere în biostatistică.
2. Sensul și semnificația termenului de măsurare .
3. Variabile discrete și continui. Niveluri de măsurare .
4. Bazele de date în SPSS – creare, salvare, deschidere .
5. Definire variabilelor în SPSS. Codare variabilelor. Principiile.
6. Sistematizarea datelor. Amplitudinea de variație. Diagrama în linii. Clase și intervale de grupare. Frecvențe.
Reprezentări grafice.
INTODUCERE ÎN BIOSTATISTICA. NATURA MĂSURĂRII ÎN BIOSTATISTICA.
Cuvântul statistică, provine din latinescul „statista” și desemna, pe vremuri, persoanele care se ocupau cu
afacerile statului, care numărau populația sau realizau alte acțiuni ce ajutau statul să gestioneze mai bine politica
de taxe și costurile războaielor. În perioada medievală, prin statistică, armatorii își calculau costurile echipării
corăbiilor, incluzând în calculele lor și probabilitatea ca acestea să fie atacate de pirați sau de a naufragia. În
practica științifică termenul “statistica” a fost acceptat în anul 1746 de către Gottfried Achenwall .
Statistica este știința socială care studiază aspectele cantitative ale fenomenelor sociale de masă într -o
legătură strânsă cu pa rticularitățile lor calitative în condiții concrete de spațiu și timp. Reieșind din definiție
putem evidenția că statistica nu se ocupă cu cazuri individuale ci numai cu fenomenele de masă și studiază diverse
fenomene în condiții concrete de spațiu și timp .
BIOSTATISTIC A – este statistica, ce studiază aspectele, legate de medicină și ocrotirea sănătății. Fondatorul
biostatisticii este John Graunt.
Biostatistica studiază ( obiectivele ):
1. Starea sănătății populației (reproducerea și mortalitatea populației, vorbiditatea și invaliditatea, parametrii
dezvoltării fizice):
2. Legătura dintre influența mediului ambiant și factorilor sociali asupra sănătății populației.
3. Acumularea și analiza datelor referitor la activitatea instituțiilor și cadrelor medicale.
4. Evaluarea eficacității metodelor de profilaxie și tratament.
5. Planificarea, economia și finanțarea ocrotirii sănătății.
Pornind de la obiective deosebim următoarele compartimente ale biostatisticii:
• Statistica sănătății populației;
• Stati stica ocrotirii sănătății;
• Statistica managementului de profilaxie, tratament și altor activități în medicină.
Statistica se referă la măsurare și probabilități . Foarte multe dintre conceptele statistice au avut rădăcini în
alte disci pline, unele complet diferite de matematică. Astfel, corelațiile provin din biologie, din analiza asemănării
dintre copii și părinții lor. Analiza de varianță provine din fabricile de bere și se folosea la alegerea tipului potrivit
de orz și a timpului opt im de fermentare, astfel încât berea să aibă un anumit gust. Mai interesant este faptul că
însăși teoria măsurării își are originea în psihologie, mai precis în studiul inteligenței și al personalității umane,
iar testele neparametrice provin din sociologi e. Unii statisticieni încercau chiar să demonstreze existența lui
Dumnezeu cu ajutorul numerelor, iar astăzi, statistica joacă un rol important în viața noastră, indiferent dacă ne
referim la medicina, psihologie, sociologie, științe economice sau alte dis cipline.
Statistica se axează în principal pe tratarea informațiilor numerice obținute la nivelul unor mulțimi de entități,
informații prelevate de la fiecare entitate în parte (sau de la o submulțime) și care conduc la rezultate cu referință
la ansamblu , și nu la entitățile componente luate individual (Rotariu, și alții, 2006)
Operațiile statistice presupun, prin urmare, un proces de măsurare . La o analiză atentă, sintagma „a măsura
un obiect” nu înseamnă altceva decât a măsura proprietățile unui obiect. Noi nu putem măsura obiectele, ci, pentru
a le cunoaște, măsurăm anumiți indicatori ai pr oprietăților acestora. Este ade vărat că, în anumite științe (fizica,
chimia etc.), măs urarea dobândește un caracter mai concret, deoarece obiectele și proprietățile acestora sunt mai
accesibile observării directe. Putem măsura cu ușurință lungimea și lățimea unei mese (deci indicatori ai
2
proprietăților lungime și lățime ale obiectului masă) , deoarece aceste două proprietăți sunt direct accesibile
observației noastre. Însă, în momentul în care discutăm de anxietate, depresie, inteligen ță, atenție,
responsabilitate, nivel de trai etc. constatăm că aceste proprietăți nu pot fi direct observate. Prin urmare, va trebui
să deducem aceste caracte ristici din observarea unor indicatori presupuș i ai proprietăților. Așadar, mă surarea
în științele socio -umane are un ca racter subtil, care scapă obser vării directe. (Vasilescu, 1992)
În științele socio -umane, noi nu cunoaștem și uneori nu putem cunoaște în mod precis semnificația mărimilor
pe care le determinăm, iar cifrele pe care le obținem sunt aproximări mai mult s au mai puțin exacte ale realită ții.
Acest lucru se întâmplă din cauza apariție i erorilor d e măsurare și a fap tului că realitatea socială nu are un caracter
fix, ci unul fluctuant, variabil. Cantitatea în care un obiect este saturat într -o caracteristică nu este reprezen tată
printr -un punct, ci printr -un nor de puncte, care oscilează într -un anu mit interval, în jurul unei valori. (Vasilescu,
1992)
Discutând despre sensul termenului de „a măsura”, acceptăm definiția dată de S. S. Stevens (1959) prin care,
„în sensul său larg, măsurarea în seamnă atribuirea de numere obiectelor sau evenimentelor, potrivit unor
reguli.” Măsurarea este, deci, o funcție prin care unui obiect îi corespunde un număr și numai unul, la o anumită
măsurare. Această funcție de atribuire va trebui să fie suficient de c lară, pentru a permite ca unui obiect să i se
atribuie un număr și numai unul și pentru a ne permite să decidem concret și corect ce număr va fi atribuit fiecărui
obiect, dar și suficient de simplă pentru a putea fi aplicată. (Vasilescu, 1992).
Spre exemplu, codificarea genului biol ogic al subiecților este o măsu rare; dacă persoana este bărbat, i se acordă
valoarea 1, iar dacă persoana este femeie, i se acordă valoarea 2. Observăm că regula de atribuire nu permite
confuzii – bărbatul este notat cu 1, iar femeia cu 2 –, oferă o selecție exhaus tivă de categorizare a oricărui element
care apare în mulțimea „gen biologic” și este suficient de simplă pentru a fi utilizată . Acesta este un proces de
măsu rare conform definiției lui Stevens, deși pute m constata cu ușurință lipsa po sibilității de ierarhizare. Nu
putem construi, la a cest nivel, o ierarhie a subiec ților, deoarece nivelul de măsurare este unul categorial. Despre
nivelurile și scalele de măsurare, vom discuta însă mai târziu.
Un alt exemplu de măsu rare îl reprezin tă codificarea gradelor didacti ce: notăm cu 0 preparatorul, cu 1
asistentul, 2 – lectorul, 3 – conferențiarul, 4 – profesorul. Observăm, din nou, univocitatea și simplitatea regulii;
într-o universitate, fiecare cadru didactic poate să facă parte dintr -o categorie și numai una, iar fiecare persoană
se află, la un moment dat, într -o asemenea categorie. În plus, observăm existența unei ierar hii; conferențiarul este
inferi or în grad profesorului și superior în grad lecto rului, fără însă a se pu tea preciza nici cu cât, nici de câte ori.
Aceasta este însă, din nou, o problemă a nivelului de măsurare , pe care o vom aborda ulterior.
Variabile
Am stabilit deja faptul că obiectele pot fi cunoscute prin măsurarea indicatorilor proprietăților sale. Așadar,
obiectele devin măsurabile prin stabilirea caracteristicilor lor. Caracteristica este, prin urmare, o
particularitate, o însușire a unui obiect sau fenomen, care constituie obiectul măsură rii. De exemplu, o masă
poate fi caracterizată prin lungime, lățime, înălțime, greutate, formă, culoare etc. Toate acestea constituie
caracteristici prin care încercăm să descriem cât mai exact obiectul măsurat. Cu cât avem mai multe asemenea
caracteristici, cu atât obiectul se conturează mai precis.
Caracteristicile prin care obiectul este descris, poartă numele de variabile. O variabilă reprezintă un concept –
cheie în statistică și nu este altceva decât un nume pentru un element a cărui principală proprietate este aceea
că variază, își modifică valorile. Prin această proprietate principală, variabilele se disting de constante,
elemente care au valori fixe. De exemplu, într -un studiu efectuat pe o populație genera lă, genul biologic poate fi
o variabilă dacă lotul de cercetare cuprinde atât bărbați, cât și femei. Dacă, însă, intenționăm să desfășurăm o
cercetare numai pe femei, atunci genul biologic devine o constantă, deoarece nu prezintă proprietatea principală
a variabilelor, aceea de a -și modifica valorile.
Modalitatea de realizare a unei variabile (modul în care îi sunt atribuite valorile) constituie un eveniment
întâmplător (probabilistic), de aceea variabila se mai numește și variabilă aleatoare sau variabilă stocastică.
De exemplu, înălțimea unor elevi dintr -o clasă este o variabilă care poate lua aleatoriu diferite valori pe care le
pot avea elevii la această caracteristică. Desigur, valorile pe care le poate lua variabila se grupează într -un anumit
interval de valori. Nu putem vorbi de elevi de 5 centimetri, după cum nu putem găsi elevi de 5 metri. De aceea,
putem considera că înălțimea elevilor din clasa a X -a este o variabilă stocastică ce poate lua aleatoriu valori din
dome niul de definiție 150 – 190 cent imetri.
3
Așadar, elementele de bază care compun domeniul de definiție al unei variabile aleatorii poartă numele de
valori sau scoruri . În momentul în care aceste elemente sunt numere, variabila se mai numește și variabilă
aleanumerică.
O variabilă aleatorie exprimă, așadar, variația unei caracteristici. După cum am spus, înălțimea elevilor
este o variabilă aleanumerică; la fel greutatea acestora, capacitatea toracică, temperatura corpului sau numărul de
la pantofi. Nu toate variabilele s unt însă aleanumerice. Culoarea ochilor, culoarea părului, genul biologic, tipul
temperamental etc. sunt variabile ale căror valori nu pot fi exprimate prin numere, deși sunt ș i ele variabile
aleato rii. Asemenea variabile nu sunt considerate variabile alea numerice.
Toate aceste caracteristici pot fi măsurate, înregistrate și catalogate și, de asemenea, diferă de la o persoană la
alta sau de la o situație la alta. De aceea, toate aceste concepte le vom include sub denumirea generică de
variabile .
De ce sun tem însă atât de interesați de aceste variabile, de ce sunt importante și la ce ne folosesc? Răspunsul
este acela că nu putem fi mulțumiți doar cu ideea că variabilele… variază. Ne interesează, în principiu, să
înțelegem de ce variază, când și în ce condiț ii variază , care este efectul acestor va riații ale lor. Pentru aceasta,
variabilele vor trebui mai întâi definite, apoi î nregistrate și, în final, supuse analizei, creân d premisele extragerii
unor con cluzii și, implicit, ale generalizării.
Realizarea unei variabile prin intermediul scorurilor creează posibili tatea abordării conceptului statistic de
frecvență . Frecvența reprezintă ră spunsul la întrebarea „câți indivizi, câte cazuri populează fiecare categorie a
sau, așa cum exprimă T. Rotariu, „numărul de i ndivizi statistici care populează fiecare clasă a caracteristicii”
(Rotariu, și alții, 2006).
Dacă ne propunem să înregistrăm persoanele dintr -o sală de curs sub aspectul culorii ochilor vom avea, spre
exemplu, 20 de persoane cu ochi albaștri, 13 persoane cu ochi verzi, 15 persoane cu ochi negri și 50 de persoane
cu ochi căprui. Valorile care însoțesc categoriile variabilei „culoarea ochilor” reprezintă tocmai frecvențele – mai
exact frecvențele absolute, deoarece mai pot exista frecvențe exprimate procent ual ( frecvențe relative ) și
frecvențe cumulate , despre care vom discuta în următorul capitol. O variabilă aleatoare poate fi discretă sau
continuă, după cum mulțimea de definiție a valorilor sale poate fi numărabilă (discontinuă) sau nenumărabilă
(continu ă).
Variabile discrete
În cazul variabilelor discrete (care, în funcție de nivelul de măsurare, pot fi categoriale sau ordinale – vom
vedea imediat ce înseamnă acest lucru), mulțimea de definiție a valorilor sale este o mulțime discontinuă
(elementele sale pot fi numărate), iar între două valori nu poate fi interpusă, în permanență , o valoare
intermediară.
Spre exemplu, variabila „culoarea ochilor” este o variabilă discretă; ea poate lua valorile: negru, căprui, verde,
albastru și putem clasifica subiecții într -una din aceste patru categorii. Iată că, mulțimea de definiție a valorilor
acestei variabile este una numărabilă (are doa r patru valori) și nu av em posi bilitatea ca între două valori să
includem, în permanență , o a treia valoare intermediară. Nu putem vorbi despre ochi verde -albastru și apoi verde –
verde -albastru și așa mai departe, la infinit.
Un asemenea exemplu de variabilă este o variabilă disc retă nominală sau variabilă discretă categorială,
deoarece permite doar clasificări, fără a putea vorbi de o relație de ordine sau ierarhie între valorile pe care le
poate lua respectiva variabilă.
Un alt exemplu de variabilă discretă este variabila „grad didactic”. Ea poate lua valorile: preparator, asistent,
lector, conferențiar, profesor. Sigur că, și în acest caz, putem clasifica subiecții în funcție de gradul lor didactic.
Nu putem însă vorbi, nici acum, de o nouă categorie intermediară, de exemplu as istent -lector și apoi asistent –
lector -lector și așa mai departe, lucru care îi conferă caracterul discret. De data aceasta însă, putem pune o relație
de ordine între valorile variabilei. Putem vorbi de faptul că asistentul este inferior în grad lectorului sau profesorul
este superior în grad conferențiarului. O ase menea variabilă se numește variabilă discretă ordinală sau
variabilă discretă de rang.
Variabile continui
În cazul variabilei continui, mulțimea de definiție a valorilor sale este una continuă, nenumărabilă. Aceste
variabile se mai numesc și variabile scalare (de interval sau de raport). În această situație, între două valori ale
variabilei continui putem găsi, oricând, o valoare intermediară. Cu alte cuvinte, o caracteristică cont inuă poate
lua orice valoare între anumite limite.
4
Spre exemplu, variabila „înălțimea subiecților” este o variabilă de tip scalar (continuu). Între un subiect de
178 cent imetri și un subiect de 180 cen timetri, putem găsi, oricând , un subiect de 179 centim etri, apoi între unul
de 178 și unul de 179 putem găsi un subiect de 178,5 centimetri și așa mai departe, la infinit.
O asemenea variabilă se caracterizează prin faptul că, tipul de date măsurat de aceasta este format din unități
de dimensiune egală. Ca e xemplu de variabile continui putem da greutatea subiectului, intervalul de tip petrecut
pentru a juca jocuri agresive pe computer etc. Astfel, înălțimea subiecților o putem măsura în centimetri, greutatea
în kilograme, timpul în minute sau ore, toate acest ea făcând referire la un înalt nivel de precizie, cu valori zero
abso-lute și posibilități de construire a scalelor de raport – putem spune, de exemplu, că un subiect este de două
ori mai greu decât altul sau de două ori mai înalt.
Scale (nivele) de măsur are
În capitolul anterior am văzut că variabilele discrete pot fi categoriale sau de rang; cele continui – de interval
sau de raport. Dacă acceptăm definiția lui Stevens, atunci putem intui că măsurarea poate fi realizată la diferite
niveluri de măsurare, organizate ca în figura de mai jos.
Reprezentarea schematică a nivelurilor de măsurare
Nivelul nominal de măsurare (clasificare) și nive lul ord inal (de rang sau ierar hic) se grupează în scala
neparametrică (nonmetrică) de măsurare. Nivelul de interval (intervale egale) și nivelul de raport (proporții)
formează scala parametrică (metrică) de măsurare.
Observăm că termenul de cuantificare dobândește sens începând cu scala ordinală, deoarece abia la acest
nivel ne permitem realizarea unor ierar hii. Scala nominală nu acceptă cuantificare, ci doar clasificare.
Se cuvine să facem mențiunea că propr ietățile scalelor sunt incremen tale, adică proprietățile unui nivel inferior
de măsurare sunt valide și la un nivel superior de măsurare, însă nu și reciproc.
Scale neparametrice
Grupează scala nominală și scala ordinală, scale l a nivelul cărora putem pune, cel mult, o relație de ordine între
nivelurile variabilei. Nu putem vorbi de parametri și nici de statistici metrice. Nu are sens calculul mediei sau al
altor indicatori din sfera metrică, deoarece nu putem stabili un interval (cu cât) față de care o valoare este mai
mare în comparație cu alta.
Scala nominală (de clasificare) r eprezintă primul nivel de măsurare și constă în clasificarea obiecte -lor în
funcție de existența sau inexistența unei caracteristici. Această clasificare presupune existența unor categorii
disjuncte, astfel încât fiecare obiect să -și găsească locul într -o categorie și numai în una (Vasilescu, 1992).
Pentru ca scala să aibă sens, trebuie să existe cel puțin două categorii. O variabilă nominală cu două categorii
poartă numele de dihotomie sau clasificare dihotomică . Dacă există mai multe categorii, vorbim de spre
polihotomii sau clasificări multiple (polihotomice). Împărțirea subiecților în bărbați și femei reprezintă o
clasificare dihotomică. Împărțirea în funcție de profesie, culoarea ochilor sau a părului, grupa sanguină etc. sunt
tot atâtea exemple de poli hotomii.
În mod curent, folosim această scală în vederea categorizării subiecților în funcție de unul sau mai multe criterii
(de obicei, în cercetarea psihologică sau sociologică) sau atunci când culegem date în urma anchetei sau
observației.
Proprietăți ale scalei nominale :
5
1. Transformările permise la nivelul acestei scale sunt (Vasilescu, 1992):
Redenumirea – atribuirea unor noi nume (în loc de masculin/feminin putem spune bărbat/femeie);
Permutarea – schimbarea ordinii elementelor, deoarece nu se po ate stabili o ierarhe între valorile unei variabile
pe această scală. Această proprietate este caracteristică doar scalei nominale.
2. Operații statistice permise – în prin cipal, operațiile de bază, deri vate din numărare, astfel:
Frecvența absolută și re lativă (procentul), câte observații au fost incuse în fiecare categorie (de exemplu 25 de
bărbați și 40 de femei sau 30% bărbați și 78% femei);
Valoarea modală (modul) , categoria cu frecvența cea mai mare (de exemplu, din 200 de subiecți, 150 au ochi
al-baștri, aceasta fiind categoria cu frecvența cea mai mare – modul);
Verificarea statistică prin χ2 – procedeu de comparare a frecvențelor și de verificare, dacă diferențele dintre ele
sunt întâmplătoare sau, din contra, semnificative, neîntâmplătoare;
Coeficienți de corelație între două variabile cu două valori fiecare, coeficientul υ, coeficientul tetragoric,
coeficientul de contingență, toate bazân du-se pe lucrul cu frecvențe ab solute sau relative.
Scala ordinală (de rang sau topologică)
Reprezintă al doilea nivel de măsurare și constă în ierarhizare, în funcție de mărimea unei caracteristici, fără
însă a se putea preciza cu cât un nivel ierarhic este superior sau inferior altuia și nici de câte ori.
Spre deosebire de scala nominală (ale cărei proprie tăți le include), scala ordinală permite stabilirea unei relații de
ordine între date.
Strict vorbind, acesta este nivelul la care ne situăm în științele socio -umane, în general, și în psihologie, în
particular. Din perspectiva statisticii, ca disciplină m atematică, nu putem vorbi de medie, abatere standard sau
alți indicatori care presupun un nivel de măsură cel puțin de interval, deoarece o asemenea scală nu există în
domeniul socio -uman la o rigoare (încă) demonstrabilă matematic. Scorurile testelor de i nteligență, aptitudini,
personalitate sunt variabile, având valori simplu ordonate la un nivel ordinal de măsură. Un test de inteligență nu
ne arată, de fapt, cantitatea de inteligență a subiecților, ci ierarhizarea acestora, poziția, rangul pe care îl ocu pă
fiecare într -o populație.
Lansarea, în 1905, a scalei metrice a inteligenței de către Alfred Binet, se făcea cu următoarea mențiune din
partea autorului: „calitățile intelectuale nu se măsoară precum lungimile, nu satisfac cerința aditivității; scala
permite un clasament ierarhic între inteligențe diferite și, din rațiuni practice, acest clasament echivalează cu o
măsurare.” (Radu, și alții, 1993) . Autorul a sesizat foarte bine limitele măsurării în științele socio -umane încă
din acea perioadă, limite pe care mulți psihologi actuali astăzi le ignoră. Nu ne miră faptul că matematicienii
consideră aplicarea statisticii în psihologie ca fiind defectuoas ă.
Datorită faptului că, dacă ne -am limita doar la o măsurare pe scala ordinală, metodologia psihologică și
psihosociologică ar fi sărăcită de aportul statisticilor parametrice („tari”), pentru anumite măsurători se acceptă
utilizarea scalei de interval – prima care permite calculul mediei și a abaterii standard – însă, acest lucru se face
printr -un important compromis statistico -matematic (Clocotici, și alții, 2000).
Variabile precum gradul didactic, gradul militar, nivelul de educație se găsesc la acest nivel de măsurare,
deoarece pe lângă posibilitatea clasificării, a includerii unui individ într -o categorie, avem și posibilitatea
ordonării categoriilor, putând afirma că o categorie este superioară sau inferioară alteia.
Dacă luăm, de exemplu, gradele militare, putem spune că într -o unita -te se află 30 de locotenenți, 10 maiori și
60 de căpitani sau 15% locotenenți, 5% maiori și 30% căpitani (ne aflăm la un nivel nominal de măsură), dar și
că maiorii sunt superiori în grad căpitanilor sau locotenenții sunt inferiori în grad căpitanilor (nivelul ordinal de
măsură). Nu putem preciza însă cu cât și nici de câte ori o categorie este superioară sau inferioară alteia. Nu
putem afirma că doi locotenenți fac cât un căpitan. De asem enea, este absurd să vorbim despre medie. Care este
media dintre un locotenent și un căpitan??!!!
Proprietăți ale scalei ordinale:
Așa cum am admis anterior, proprietățile specifice scalei ordinale le includ pe cele ale scalei nominale, astfel
încât la c ele ale scalei anterioare se adaugă (Vasilescu, 1992):
1. Transformările permise la nivelul acestei scale sunt cele care nu afectează ordinea inițială. Astfel de operații
sunt ridicarea la putere sau, inversa ei, extragerea de radicali . Din aceste operați i, derivă:
2. Operațiile statistice permise:
6
Frecvența sumelor în valori cumulate și procentuale , valorile categoriale și categoriale procentuale , valori
categoriale centile , valori de împrăștiere ;
Procedee bazate pe date categoriale : testul semnului, M ann-Whitney, Wilcoxon, Kolmogorov -Smirnov,
analiza de varianță Kruskal și Wallis;
Coeficienți de corelație de rang : ρ Spearman, τ Kendall.
Scale parametrice
Cuprind scalele de interval și de raport. Începând de la acest nivel, putem vorbi de statistici parametrice sau
metrice. Are sens de acum să calculăm media, abaterea standard sau alți indicatori care fac parte din stati sticile
numite și statistici „tari”.
Scale de interval (intervale egale)
Reprezintă al treilea nivel de măsurare și derivă din scala ordinală, la care se adaugă proprietatea că intervalele
dintre un nivel de valori și altul sunt egale. Este un tip de măsurare în care distanțele dintre treptele scării sunt
distanțe egale sub asp ectul cantității caracteristicii de măsurat.
În psihologie, practic, nu întâlnim această scală decât în domeniul psihofiziologiei, în care înregistrăm timpi
de reacție, număr de erori, forța unei reacții etc. Acest nivel de măsurare ne permite să răspunde m la î ntreba rea
„cu cât este mai mare”, dar nu și la întrebarea „de câte ori”, deoarece la nivelul acestei scale nu întâlnim un punct
zero absolut, ci unul arbitrar ales.
Un exemplu clasic de scală de interval este scala de temperatură Celsius. După cum ș tim, punctul de zero
grade Celsius este un punct arbitrar ales, definit ca punctul de îngheț al apei la presiunea atmosferică de la nivelul
mării. Intervalele acestei scale sunt egale, ceea ce ne permite să spunem că apa dintr -o găleată este mai caldă cu
10 grade Celsius decât apa dintr -o altă găleată, dar nu și că apa este de două ori mai caldă, deoarece punctul zero
nu este un zero absolut.
Prin analogie, ne putem referi și la scorurile unui test de inteligență, dacă admitem compromisul menționat în
subcapitolul anterior. Putem spune că, între un subiect cu un IQ de 60 și unul cu un IQ de 120 există o diferență
de 60 de puncte, dar nu că cel cu un IQ de 120 este de două ori mai inteligent decât cel cu un IQ de 60. În definitiv,
nu avem o inteligență zero. La o privire mai atentă, observăm și compromisul efectuat. Performanța la un test de
inteligență depinde de mai mulți factori, nu numai de cei legați de inteligență. Astfel, intervin motivația, memoria,
atenția, condițiile de examen etc. Este cert că cel de al doilea subiect este mai inteligent decât primul (ne situăm
acum la nivel ordinal), însă a afirma, chiar și că este mai inteligent cu 60 de unități pe scala IQ, consider că este
hazardat (la nivel de interval). În definitiv, la o reexaminare a celor d oi subiecți cu același test există o
probabilitate foarte mare ca această distanță, de 60 de puncte, să nu se păstreze. Iată o măsurare care, deși la prima
vedere pare la nivel de interval, totuși, mai exact, o putem situa la nivel ordinal. Diferența dintr e scala inteligenței
și scala temperatorilor Celsius este totuși foarte mare. Mai mult, intervalele pe o scală IQ sunt doar aparent egale.
Diferența de 5 „puncte IQ” dintre un subiect cu un IQ de 60 și unul cu un IQ de 65 are cu totul alt sens în
comparați e cu diferența dintre un subiect cu un IQ de 120 și altul cu un IQ de 125 și, de asemenea, se deosebește
de diferența dintre doi subiecți cu IQ 100 și 105. Cele 5 „puncte IQ” nu sunt, în aceste cazuri, egal distanțate.
Proprietăți ale scalei de interval:
1. Transformările permise la acest nivel sunt cele de tip liniar, caracteristice ecuației y=ax+b unde a>0 iar y este
valoarea transformată, x – valoarea care urmează a fi transformată, a – constanta de extindere și b – constanta de
deplasare (Vasilescu, 19 92).
Deplasări – prin mărirea punctului „zero” relativ la o altă valoare (modificarea constantei b);
Extinderi – amplificarea sau diminuarea intervalelor scalei cu același factor (modificarea constantei a), fără să
deteriorăm rezultatul măsurătorilor (de exemplu, transformarea din note „ z” în stanine sau sten).
2. Operații statistice permise:
Calculul mediei aritmetice , al abaterii standard , al boltirii și al simetriei ;
Statistici parametrice : testul „t” Student, „F” – Fisher, ana -liza de varianță;
Toate tipurile de corelații : „r” Pearson, raport de corelație (R), coeficientul de regresie (b).
Anumite operații statistice, deși presupun scala de interval, necesită și îndeplinirea altor condiții, și anume
respectarea unei legi de distribuție, în general legea distribuției normale (gaussiene). Prin urmare, în analiza
datelor, pe lângă cerința nivel ului de interval se impune și analiza distribuției datelor înregistrate. Transformările
7
permise la nivelul acestei scale au o importanță practică deosebită atunci când procedăm la normalizarea unei
distribuții statistice de date.
Scala de raport (proporți i)
Ultimul nivel de măsurare – și cel mai precis – este reprezentat de scala de raport care are toate caracteristicile
unei scale de interval la care se adaugă existența unui zero absolut. În sfârșit, această scală ne permite să răs –
pundem la întrebarea „ de câte ori”, deoarece existența unui zero absolut face posibilă compararea proporțiilor.
De exemplu, dacă un subiect are greutatea de 60 de kilograme, iar un altul 120 kilograme, putem spune că al
doilea subiect este cu 60 de kilograme mai greu decât pri mul, dar și că al doilea subiect este de două ori mai greu
decât primul, ambele afirmații având sens.
Din nefericire, un asemenea nivel de precizie nu poate fi atins în științele socio -umane, deoarece este imposibil
să găsim o variabilă care să admită un zero absolut. Este absurd să vorbim de o inteligență zero, de o emotivitate
zero, de depresie sau anxietate zero.
Proprietăți ale scalei de raport (Vasilescu, 1992) :
1. Transformările permise la acest nivel sunt cele de tip multiplicativ, caracteristice ecuației y=ax unde a>0, iar
y este valoarea transformată, x – valoarea ce va fi transformată, iar a – constanta de extindere. Observăm dispariția
constantei b, constanta de deplasare, deoarece punctul zero este un punct de referință absolut și nu unul arbi trar
ales. La fel ca și în cazul scalei de interval, putem amplifica sau diminua intervalul (prin modificarea constantei
a) însă nu putem opera deplasări, deoarece acest lucru ar determina scăderea preciziei către o scală de i nterval
(am stabili un punct z ero arbitrar și nu absolut).
2. Sunt permise toate operațiile statistice, inclusiv calculul mediei geometrice și al coeficientului de variație.
SPSS sub Windows reprezintă un pachet de programe interactiv, de utilitate generală, destinat analizelor de
date și include multiple facilități și tehnici de natură statistică. Pachetul de programe SPSS sub Windows
reprezintă o aplicație care folosește întreaga funcționalitate a sistem ului de operare Windows, regăsind în
structura sa utilizarea mausului, ferestrele redimensionabile și scalabile, meniuri derulante, casete de dialog etc.
Deși majoritatea utilizatorilor vor fi complet satisfăcuți utilizând doar interfața grafică pe care SP SS o pune la
dispoziție, totuși pachetul de programe dispune și de un puternic limbaj de comenzi prin care se pot realiza
activități automate (scripturi) ce determină eficientizarea acțiunilor utilizate în mod frecvent sau efectuarea unor
acțiuni complexe, indisponibile în interfața grafică (SPSS, 2001).
Programul SPSS, la fel ca orice altă aplicație sub sistemul de operare Windows, indiferent de versiunea
acestuia, la instalare își creează un grup de pictograme (iconuri) în secțiunea Programs a meniului Start din
sistemul de operare Windows. Pentru a putea lansa în execuție aplicația, va trebui ca mai întâi să efectuați clic cu
maus -ul pe butonul start al desktop -ului Windows, buton situat de obicei în partea din stânga jos a ecranului.
Apoi mergeți la se cțiunea Programs și se va deschide o nouă listă care conține toate programele instalate în
calculato rul dumneavoastră (ei bine, cel puțin programele la care aveți acces dumneavoastră). În această listă,
căutați grupul de programe SPSS for Windows , grup în care veți găsi pictogramele de lansare ale aplicației SPSS.
Probabil că ați identificat deja în acest grup de programe pictograma numită SPSS for Windows . Aceasta este
imaginea pe care va trebui să faceți clic pentru a porni aplicația.
SPSS este un program extrem de complex. Lansarea acestuia debutează cu prezentarea unei ferestre
introductive, denumită și fereastră „logo”. Ea cuprinde informații despre versiunea programului (în cazul nostru,
SPSS 16.0 Standard), deoarece există și versiuni server, mai comp lexe, versiuni demonstrative (ca aceea pe care
o puteți descărca gratuit de la http://www.spss.com) sau „student” pentru învățare etc., precum și despre posesorul
licenței de utilizare a acestui produs informatic. Se cunoaște faptul că, în conformitate cu legea dreptului de autor
și protecția creațiilor intelectuale, un produs software poate fi utilizat doar în cazul în care se posedă o licență de
utilizare pentru acesta, altfel riscându -se pedepse severe, contravenționale sau de natură penală.
După câteva secunde, fereastra de preze ntare se dezactivează, iar apli cația prezintă o interfață prietenoasă prin
care ne invită să trecem la treabă. Putem în această etapă să lansăm în execuție un program tutorial care ne va
forma abilitățile de bază în vederea util izării acestui pachet informatic com plex; de asemenea, putem trece direct
la introducerea datelor sau putem rula o cerere predefinită, se poate crea o nouă cerere de date sau se poate
deschide o bază de date existentă, situa ție în care va trebui să preci zăm locația acesteia. Nu în ultimul rând, putem
8
deschide o bază de date într -un alt format, de exemplu Excel, Statistica sau SAS, iar SPSS va ști să convertească
aceste date pen tru a le face disponibile.
Există, de asemenea, î n partea de jos a acestui formu lar introductiv, o casetă denumită „Don’t show this
dialog in the future”. Dacă o veți bifa, aveți posibilitatea ca, la viitoarea lansare a produsului, să nu se mai
afișeze formularul, caz în care prog ramul va trece direct în fereas tra principală SPSS.
Desigur, selectarea unei opțiuni dintr e cele prezentate mai sus nu în seamnă și executarea acesteia de către
SPSS. Pentr u a lansa în execuție opți unea aleasă, va trebui apăsat, obligatoriu, butonul OK. Apăsarea butonului
Cancel indică programului că trebuie s ă părăsească formularul introductiv și să lanseze fereastra principală SPSS
în modul de lucru configurat pentru o nouă bază de date. În acest moment, nu ne interesează nic iuna dintre
opțiunile predefini te, astfel încât vom apăsa butonul Cancel . Iată că fo rmularul prezentat mai sus a dispărut,
făcând loc ferestrei principale SPSS. Să privim cu atenție această nouă interfață cu utilizatorul.
Ca orice altă aplicație Windows, SPSS posedă o bară de titlu – bara albastră din partea de sus a ferestrei –, în
partea stângă a acesteia afișându -se mesajul Untitled – SPSS Data Editor . Acest mesaj ne informează că ne
aflăm în fereastra de date (editare a datelor) din SPSS și că baza de date nu a fost încă salvată (în momentul
salvării, textul „Untitled” este înlocuit cu nu mele fișierului salvat pe disc). În partea dreaptă a barei de titlu, avem
cele trei butoane clasice ale oricărei ferestre Windows: butonul de minimi zare sau de transfer al aplicației în bara
de sarcini, butonul de maximizare – extindere a aplicației pe întregul ecran sau de restaurare a a plicației la
dimensiunile iniți ale și butonul de închidere a aplicației, acel buton în formă de „X”. Sub bara de ti tlu, se află
meniurile, serii de etichete purtând fiecare un nume (în limba engleză), prin intermediul cărora putem co manda
SPSS și putem efectua ope rațiile și prelucrările de care acesta este capabil. Nu vom insista acum asupra explicării
tuturor meniuril or, acest lucru îl vom face pe parcursul prezentului curs. Bara de meniuri este urmată de bara de
instrumente – mici butoane cu aspectul unor pictograme care, în general, du blează anumite funcții din meni uri,
funcții mai des folosite. SPSS prezintă o bară de instrumente dinamică, adică aspectul butoanelor și, desigur,
funcționalitatea acestora se modifică relaționat contextului în care ne aflăm. De exemplu, vom avea anumite
butoane în modul de introducere a datelor și alte butoa ne în modul de definire a var iabilelor ori în modul de
afișare a rezultate lor analizelor de date.
După bara de instrumente, apare secțiu nea de editare a datelor. Aceas ta este formată dintr -o parte needitabilă,
informativă, partea din stânga, în care se afișează în permanență poziția c elulei active (celulă pe care am selec tat-
o). Formatul acestui identificator este un număr urmat de două puncte și apoi numele variabilei (spre exemplu,
8:time înseamnă că suntem poziționați pe rândul 8 – a opta înregistrare – a variabilei timp). Partea ed itabilă arată
9
întotdeauna valoarea acestei variabile în poziția specificată (în cazul nostru, la rândul 8 al variabilei timp se află
valoarea 34).
Cea mai mare parte a ferestrei principale SPSS este dedicată secțiunii de date. Observăm că datele, în SPSS,
sunt org anizate tabelar, pe linii și co loane, analog altor aplicații mai cunoscute, cum ar fi foile de calcul tabelar
(Excel) sau bazele de date (FoxPro sau Access). Liniile (înregistrările) sunt identificate prin numere, iar coloanele
reprezintă variabil ele. Într -o bază de date „goală”, toate variabilele sunt denumite implicit „var” , iar această
denumire este scrisă cu culoarea gri, reprezentând faptul că acestea nu au fost încă definite. Navigarea prin baza
de date se poate face cu cele două casete de de rulare (numite și lifturi sau controale de derulare), situate în partea
dreaptă, respectiv în partea de jos a ferestrei de date, la fel ca în orice program Win dows.
Secțiunea de date conține, în partea din stânga -jos, doi marcatori de secțiune foarte impo rtanți: Data View și
Variable View. Aceste elemente permit co mutarea între modul de vizualizare a datelor dintr -o bază de date
(secțiunea Data View) și modul de definire a variabilelor (secțiunea Variable View).
În partea de jos a programului SPSS, se afl ă bara de status cu două secțiuni: secțiunea de informații, în partea
stângă, unde se afișează scurte instrucțiuni despre diferitele funcții ale meniur ilor sau ale barei de instrumen te, și
secțiunea de stare a procesorului SPSS un de se afișează informații referitoare la rularea unor sarcini mari
consumato are de timp. În general, începe rea unei prelucrări statistice se poate face doar în condițiile în care vedeți
mesajul SPSS Processor is ready în această secțiune.
Părăsirea programului SPSS se poate face f ie apăsând butonul de în chidere al aplicației „X” din colțul din
dreapta sus al ferestrei principale, fie folosind meniul File și apoi Exit. Dacă ați fă cut prelucrări de date sau
modi ficări în baza de date, programul vă va solici ta mai întâi salvarea documentu lui, ca măsură de protecție
împotriva pierderii de informație. Despre salvare, însă, discutăm în subcapitolul următor.
Bazele de date – creare, salvare, deschidere
După ce ne-am familiarizat cu interfața programului SPSS, este momentul să vedem cum putem deschide o
bază de date existentă și care sunt elementele componente ale acesteia. SPSS vine însoțit de o serie de baze de
date demonstrative în scopul facilitării procesul ui de învățare. Pe parcursul acestor exerciții, vom folosi, din
rațiuni de compatibilitate, aceste exemple de baze de date oferite de către producătorii programului SPSS.
Deschiderea unei baze de date în scopul efectuării prelucrărilor statistice se poate face prin mai multe metode,
rămânând la latitudinea dumneavoastră și potrivit experienței pe care o aveți să alegeți metoda care vă convine
mai mult.
Prima metodă este aceea prin care apelăm la meniul File (Fișier) și apoi poziționăm cursorul mausului pe
submeniul Open (Deschide). Apare o listă de unde putem deschide o bază de date ( Data), o procedură de sintaxă
(Syntax ) o foaie de rezultate ( Output ) sau un set de comenzi ( Script ). Pentru a deschide o bază de date, va trebui
selectată opțiunea Data. Se va deschide o nouă fereastră, de unde va trebui să alegeți ceva sau să furnizaț i anu mite
informații programului pentru a putea executa comanda respectivă.
O altă metodă prin care puteți deschide o bază de date este folosirea așa – numitelor „taste rapide”. D e obicei,
meniurile sunt însoțite de combinații de taste prin care puteți efectua direct o anumită sarcină. În loc să apelăm la
meniul File, apoi Open și apoi Data, putem pur și simplu să ținem apăsată tasta Ctrl în timp ce apăsăm tasta O
(de la Open). O astfel de combinație se notează prin Ctrl+O , notație pe care o vom folosi pe întreg parcursul
acestui curs. Vom observa că această combinație are același efect ca și parcurgerea primei metode, avantajul fiind
acela că este mult mai rapidă.
A treia metodă apelează la numitele „taste fierbinți” (hot -keys). O „tastă fierbinte” este o tastă folosită în
combinație cu tasta Alt. Dacă veți privi cu atenție meniurile, veți putea observa că unele litere sunt subliniate –
de exemplu, în meniul File e ste subliniată litera F. Ținând apăsată tasta Alt și apăsând apoi tasta F, vom obține
deschiderea meniului File, ca și când am efectua clic pe acesta. În mod analog, notarea acestei combinaț ii se face
folosind convenția Alt+F . Deci, pentru a deschide o baz ă de date, putem folosi combinațiile Alt+F – deschiderea
meniului File și apoi Alt+O – deschiderea submeniului Open, iar, în final, Alt+A – accesarea opțiunii Data.
Aceasta este, dacă doriți, o navigare prin meniuri fără maus.
Ultima metodă se referă la f olosirea barei de instrumente pentru a deschide o bază de date. Pur și simplu
apăsați pe primul buton de pe bara de instrumente, acela care are aspectul unui dosar deschis.
10
Indiferent de metoda folosită, efectul va fi același: deschiderea unei caset e de dialog, din care puteți alege baza
de date pe care o veți încărca (vă mai amintiți nota referitoare la punctele de suspensie?).
Să analizăm puțin această nouă fereastră. În partea de sus avem o listă derulantă intitulată Look in: Apăsând
săgeata orientată în jos din partea dreaptă a acestei casete, vom putea alege directorul în care este localizată baza
noastră de date. Ob servăm că directorul curent este directorul aplicației (SPSS), iar în secțiunea de sub această
casetă este afișat conținutul ac estui dosar. Puteți astfel selecta orice director în care aveți fișiere recunoscute de
SPSS, pentru a le putea afișa și/sau deschide. Alături de caseta Look in, se află o serie de butoane care controlează
naviga rea prin structura de directoare de pe discul dumneavoastră. Primul buton , de forma unui dosar cu o săgeată
11
orientată în sus, permite navigarea ascendentă prin arborele de directoare. La o primă apăsare, vă veți deplasa în
directorul Program Files, la următoarea vă veți situa în directorul rădăcină C și așa mai departe.
Al doilea buton permite crearea unui nou director în directorul curent. Apăsând pe el, veți putea crea un nou
director, numit New Folder, denumire pe care o veți putea modifica după dorință. În sfârșit, Cel de -al treilea și
al pa trulea butoane controlează modul în care se afișează pictogramele în caseta centrală.
Fereastra centrală afișează, după cum am menționat, structura de subdirectoare și fișiere a directorului curent.
Puteți efectua dublu clic pe numele unui director pentru a afișa conținutul acestuia sau pe numele unui fișier
pentru a -l deschide în mod direct (fără a mai apăsa butonul Open). Dacă efectuați doar un simplu clic, numele
fișierului selectat va fi afișat în caseta File name și va trebui să folosiți apoi butonul Open pentru a-l deschide.
Caseta derulan tă Files of type reprezintă un filtru pentru fișierele afișate. Dacă o vom deschide, efectuând clic pe
săgeata orientată în jos din partea dreaptă a acesteia, vom putea alege ce anume tip de fișiere să se afișeze în
secțiunea centrală. Observăm că, deși directorul SPSS conține mai multe fișiere, sunt afișate doar fișierele cu
extensia .sav, adică fișierele care conțin baze de date SPSS, deoarece în această casetă de filtrare s -a ales extensia
.sav. Putem alege alte ex tensii de fișiere care sunt afișate, de exemplu formatul Excel (. xls) sau dBase (. dbf), iar
SPSS va afișa doar fișierele ce au această extensie.
Deschiderea propriu -zisă a unui fișier se face fie efectuând clic pe acesta și apăsând butonul Open, fie
efect uând dublu clic pe numele fișierului. Spre exemplu, vom încărca baza de date „Cars” din directorul implicit
SPSS, bază de date ce reprezintă un inventar al diferitelor tipuri de mașini și al caracteristicilor acestora.
După deschidere, observăm că s -a mod ificat aspectul ferestrei princi pale SPSS. În primul rând, în bara de titlu
a apărut mesajul Cars – SPSS Data Editor, mesaj ce ne informează că am deschis baza de date „Cars” și că ea
este pregătită pentru analiză. De asemenea, constatăm că structura acest eia este compusă din opt variabile, fiecare
dintr e ele reprezentând o anumită ca racteristică a mașinilor. Ultima variabilă, variabila „Filter_$” este o variabilă
internă folosită de programul SPSS pentru o filtrare anterioară a datelor, variabilă pe care n e propunem să o
ștergem. Cum? Efectuând clic pe numele acesteia. Observăm că întregul conținut al coloanei „Filter_$” s -a
selectat. În continuare, apăsăm tasta Delete , situată pe tastatură, în partea dreaptă a grupului principal de taste,
iar variabila a f ost eliminată împreună cu toate datele acesteia. Felicitări. Iată și prima dumneavoastră intervenție
12
reală în SPSS. După cum bine știm, orice primă intervenție într -un program înseamnă o „ștergere a ceva”. Nici
noi nu puteam face excepție!
Baza de date deschisă de
către dumneavoastră a fost
afișată în secțiunea Data
view , fapt care ne atrage
atenția că în acest mod putem
afișa și urmări conținutul
datelor din baza de date.
Dacă vom efectua clic pe
secțiunea Variable view,
vom intra în modul de
definire a datelor. După cum
ne spune și numele secțiunii,
aici putem vizualiza și edita
denumirea, tipul și alte
informații referitoare la
variabile. Ca să folosim un
limbaj mai tehnic, dacă în
Data view ne aflăm în
secțiunea datelor propriu –
zise, în Variable view ne
aflăm în secțiunea meta –
datelor, adică în secțiunea informațiilor despre date, unde putem interveni asupra structurii lor interne. Vom
clarifica imediat, prin câteva exemple, aceste aspecte.
Astfel, prima variabilă, denumită „mpg” este o va riabilă numerică , ce acceptă maximum 4 caractere
(Width=4, adică cifre între 0 și 9999) și fără zecimale (Decimals are valoare 0) . Numele „mpg” nu este însă un
nume intuitiv și nu ne putem da seama cu precizie la ce se referă această variabilă. Din păcate nu se permite
includerea spațiilor sau a altor semne de punctuație în denumirea acestora și de aceea va trebui să fim foarte
restrictivi în momentul în care le creăm. Pentru a înțelege mai ușor la ce anume se referă o anumită variabilă
avem posibilitatea d e a o eticheta, adică de a include un text descriptiv asociat numelui ei. În cazul nostru, eticheta
variabilei ( Label ) ne informează că „mpg” se referă la „Miles per Gallon”, adică la consumul automobilului
exprimat în distanța pe care acesta o poate parcu rge cu un galon de combustibil.
Următoarea secțiune prezintă valorile pe care le putem defini pentru respectiva variabilă. Iată, în cazul
variabilei „origin”, care se referă la țara de producție a mașinilor, observăm că s -a asociat valoarea 1 pentru
mașin ile de producție americană, valoarea 2 pentru cele de producție europeană și valoarea 3 pentru cele japoneze
(coloana Values ).
În spațiul destinat definirii variabilel or, avem, de asemenea, posibili tatea de a controla modul de tratare a
cazurilor lipsă, alinierea datelor în cadrul celulelor și definirea tipului de variabilă – nominală, ordinală și scalară.
Efectuând clic pe aceste secțiuni, ați observat că, uneori, apare î n par tea dreaptă a acestora fie un buton cu
punctele de suspensie care va deschide o casetă de dialog unde se pot controla parametrii valorilor acceptate, fie
un buton de incrementare/decrementare cu ajutorul căruia puteți mări, respectiv micșora o anumită valoare, fie o
casetă de s elecție – săgeata orientată în jos – prin care puteți deschide o listă, de unde să selectați anumite valori.
Exercițiu practic:
În exercițiul care urmează vom traduce pur și simplu în românește structura acestei baze de date și vom salva baza
de date sub un nou nume, „Masini” (atenție, nu folosiți diacriticele românești în scrierea literelor, prin urmare, în
acest caz, nu folosiți litera ș, ci s. Deci nu vom salva cu „Mașini”, ci „Masini”), într -un director nou creat având
calea „C: \Exercitii SPSS” (aceea și mențiune referitoare la diacritice).
În cazul primei variabile, numele va rămâne același, iar noi vom modifica doar descrierea. Vom da clic în
secțiunea Label, acolo unde se află afișat textul „Miles per Gallon” și vom scrie textul „Mile per galon”.
13
A doua variabilă se numește „engine”. Vom schimba numele acesteia în „cilindree” (ne -am încadrat în 8
caractere), făcând clic în coloana Name și scriind noul nume. Eticheta va deveni, pentru a doua variabilă,
„Capacitate cilindrică”, pe care o veți modific a după exemplul primei variabile.
Procedăm la fel în cazul variabilelor 2, 3, 4, 5 și 6, lăsând traducerea din engleză în română la latitudinea
dumneavoastră. Atenție, însă, la acel maximum de 8 caractere când redenumiți o variabilă.
Variabila numărul 7 se referă la țara de origine a mașinilor. O vom rede numi „origine” și vom modifica,
desigur, eticheta. Există însă, la acest nivel, un element în plus, și anume coloana Values . Vă mai amintiți probabil
de mașini -le americane, europene ș i japoneze. Dacă vom da clic pe celula corespunzătoare coloanei Values pentru
această variabilă, constatăm apariția unui mic buton cu puncte de suspensie în partea dreaptă a celulei. Apăsând
acest buton se deschide o nou ă fereastră, fereastra de confi gurar e a valorilor asociate. Vorbeam anterior despre
mașini de producție americană, europeană și japoneză. În această casetă vedem lista acestor aso cieri în partea de
jos. În stânga listei, există 3 butoane: Add cu ajutorul căruia putem crea o nouă asociere, Change prin care putem
modifica o asociere selectată și Remove care șterge, elimină asocierea selectată. Noi ne -am pro -pus să traducem
această structură de date în limba
română. Vom efectua clic pe prima
asociere 1 = „American”. Constatăm că,
automat, în cas eta Value a apărut cifra 1,
iar în caseta Value Label textul
„American”. Putem deduce cu ușurință
că valorii 1 i s -a asociat textul
„American” (apropo, la ce nivel de
măsurare ne aflăm aici și ce fel de
variabilă este aceasta?). De asemenea, s –
a activat bu tonul Remove , SPSS
presupunând că dorim să eliminăm
această asociere din moment ce am
selectat -o. Pentru a modifica textul,
efectuăm clicîn interiorul casetei Value Label și scriem în loc de „American”, „America” (mai bine spus, ștergem
un „n”). De data ac easta, se activează și butonul Change , SPSS depistând modificarea efectuată și presupunând
că vom dori să o și aplicăm efectiv. Dacă veți apăsa acest buton (Change), veți constata că eticheta s -a modificat
din 1 = American în 1 = America. Felicitări. Ați r eali-zat prima traducere. Acum procedați la fel pentru „Europa”
și „Japonia”. De -sigur, oricând puteți include o nouă asociere. Tastați cifra 4 în caseta Value (deoarece ar urma
4 în ordine logică) și textul „România” în caseta Value Label, apoi apăsați bu tonul Add care ați observat că a
devenit activ. Astfel ați asociat valoarea 4 mașinilor de producție românească. În momentul în care ați terminat
de efectuat toate asocierile, apăsați butonul OK pentru a le memora și a părăsi formularul. Rețineți că apăsar ea
butonului Cancel duce la părăsirea formularului fără memorarea asocierilor.
Apare totuși o întrebare. De ce să folosim aceste asocieri în loc de a scrie pur și simplu în baza de date
„America”, „Europa” și „Japonia”? În primul rând, pentru că este mai ușor. Imaginați -vă că aveți de introdus un
număr de 3000 de date în baza dumneavoastră de date. În loc să scrieți de fiecare dată un text format din 6 -8
caractere, veți tasta pur și simplu 1 atunci când vă referiți la America, 2 când vă referiți la Europa și 3 când vă
referiți la Japonia. SPSS va ști, de fiecare dată, în urma asocierilor realizate în etapa anterioară, la ce anume se
referă 1, 2 și 3. În al doilea rând, deși 1, 2 și 3 sunt doar niște etichete pentru America, Europa și Japonia, se
pretează mu lt mai bine la prelucrările statistice ulterioare, fiind date numerice.
Procedați la fel și cu ultima variabilă, referitoare la numă rul de ci lindri ai motorului, pentru ca, în final, să
obțineți structura completă a bazei de date.
Prin acest exercițiu, ne -am deprins cu unele elemente ale configurării structurii bazei de date. În continuare,
vom salva baza de date modificată sub denumirea de „Masini”. Directorul folosit va fi „C: \Exercitii SPSS”
(atenție la diacritice!).
Puteți alege meniul File și opțiunea Save sau Save as , puteți apăsa combinația de taste Ctrl+S sau Alt+F ,
Alt+S sau puteți apăsa butonul de salvare de pe bara de instrumente (acela care are o dischetă drept pictogramă).
Dar atenție! Diferența dintre opțiunea Save și Save as este aceea că, folosind Save, se vor salva modificările
efectuate tot în baza de date inițială, în cazul nostru baza de date „Cars”. Noi ne -am propus să salvăm baza de
14
date sub un alt nume și într -un alt loc, deci nu vom
putea folosi decât opțiunea Save as (Salvează ca). Se
va deschide caseta de salvare a unei baze de date care
are același aspect ca și caseta de deschidere a unei baze
de date, cu ex -cepția butonului Open , în acest caz
denumirea acestuia fiind Save . Folosind cunoștin țele
dobândite an terior, va tre bui să vă poziționați cu
ajutorul casetei Save in (echivalenta casetei Look in
din fereastra de deschidere a bazei de date) în
directorul rădăcină C:\, să creați un nou director
folosind butonul de creare a unui director din acest
formular pe care să -l denumiți Exerciții SPSS , să
efectuați dublu clic pe acesta pentru a -l deschide și să
introduceți numele bazei de date Masini în caseta File
name . Apăsați apoi butonul Save pentru a salva efectiv
fișierul pe disc. Ați reușit, nu -i așa?
În urma a cestor operațiuni, în bara de titlu SPSS va apărea mesajul Masini – SPSS Data Editor, care ne
informează că programul a salvat cu succes baza de date pe disc și a activat -o.
Reamintim faptul că, la crearea unei noi baze de date, folosirea oricăror opțiuni de salvare (meniul File, butonul
de pe bara de instrumente sau tastele rapide) duce la apariția ferestrei Save as, deoarece fiind o bază de date nouă,
acesteia nu i -a fost at ribuit încă un nume printr -o operație de salvare. Puteți cu ușurință identifica dacă o bază de
date are un nume (a fost salvată) sau nu, urmărind bara de titlu. Bazele de date noi sunt identificate prin mesa -jul
Untitled – SPSS Data Editor, în timp ce baze le de date salvate au afișat numele acestora în bara de titlu. Ați
observat că, la lansarea programului SPSS, acesta creează automat o bază de date nouă și nedefinită și așteaptă
din partea noastră definirea variabilelor și salvarea acesteia. Odată salvată baza de date, orice modificări efectuăm
în ea, la salvare ele vor fi scrise automat în fișierul al cărui nume este afișat în bara de titlu, fără a mai apărea
fereastra de salvare de mai sus. Singura
modalitate prin care putem da un alt
nume bazei de date sau prin care o putem
salva într -un alt loc este folosirea opțiunii
Save as .
Crearea unei noi baze de date se poate
face folosind meniul File, submeniul
New și opțiunea Data , combinațiile de
taste Ctrl+N sau Alt+F, Alt+N, Alt+A .
În oricare dintre aceste si tuații, SPSS va
crea o bază de date goală și nedefinită, la
fel ca în cazul lansării programului.
Ca exercițiu, folosind cunoștințele
dobândite, vă propunem crearea unei noi
baze de date având următoarea structură
și salvarea acesteia sub numele de „IQ”
în directorul C: \Exercitii SPSS”:
,Variabila „nume” va fi de tip șir de
caractere (string) ș i va stoca nu mele
subiecților, toate celelalte variabile fiind
numerice. Există două definiții de
asocieri, și anume variabila „sexul” (1 -Masculin 2 -Feminin) și „sc oala” (1 -Primare 2 -Gimnaziu 3 -Liceul 4 –
15
Postliceala 5 -Facultate) . Ne propunem în continuare aprofundarea definirii variabilelor în SPSS. Pentru aceasta,
ne vom folosi de baza de date „IQ” creată
și salvată în exercițiul anterior. În
secțiunea Data View, am remarcat deja
prezența a zece caracteristici prin care se
poate defini o varia bilă în SPSS. Prima
dintre aces tea se referă la numele
variabilei (Name), caracteristică ce nu
presupune prea multe explicații. Numele
variabilei reprezintă modul în care
aceast a va fi ape lată în toate prelucrările
efectuate folosind baza de date. Nu
putem însă să nu precizăm că SPSS
impune o serie de restricții în denumirea
variabilelor . Nu pot fi folosite spații sa u
semne de punctuație în denumi rea
variabilelor, putând fi însă folosită linia
de subliniere pentru cazurile în care
dorim să abreviem o variabilă formată
din două cuvinte. De exemplu, dacă avem
o variabilă care se referă la anul nașterii,
o vom putea abrevia de -numind -o
an_naste . Nu contează dacă scriem
numele variabi lelor cu litere mari sau cu litere mici, deoarece, în final, SPSS le con -vertește automat în litere
mici. Din punctul de vedere al primei caracteristici, baza noastră de date IQ nu creează probleme, fiind definite
cinci nume de variabile: numele, varsta, s exul, scoala și iq.
A doua caracteristică se referă la tipul de date ce va fi stocat în aceste variabile ( Type ). Această secțiune
conține un buton cu trei puncte de suspensie, pe care îl putem apăsa pentru a deschide fereastra de configurare a
tipului de date. Aceasta conține o serie de butoane de opțiuni, dintre care putem selecta tipul de date pe care
variabila noastră îl va stoca, după cum urmează:
Tipul de date „Numeric” – se referă la numere. Valorile acceptate vor fi, deci, numere, în format standard.
Alegând acest tip de date, putem stabili și dimensiu nea acestora – valoarea maximă pe care SPSS o poate accepta
– prin precizarea numărului de caractere în câmpul Width și numărul de caractere după virgulă în câmpul Decimal
Places. De exemplu, numărul ma xim de caractere 3 și 2 caractere zecimale înseamnă că acea variabilă poate stoca
valori numerice de la 0 până la 999,99. Ac est tip de date v a scrie valori le numerice fără nici o separație între sute
și mii și folosind ca separator ze cimal separatorul configurat al sistemului. Un exemplu de număr scris în acest
format ar fi 78457845.57
Tipul de date „Comma” – se referă, de asemenea, la numere ș i pot fi definite la fel ca tipul anterior, numai că
acestea vor fi afișate folosindu se virgula ca separator între valoarea sutelor și valoarea miilor și punctul ca se –
parator al valorilor zecimale. De exemplu, o valoare numerică în acest format ar arăta a stfel: 9,999.89. Este,
practic, formatul numeric clasic american.
Tipul de date „Dot” – identic cu tipul de date anterior, doar că se in versează rolul punctului și al virgulei.
Reluând același exemplu, numărul de mai sus va fi scris astfel: 9.999,89 În acest caz recunoaștem formatul româ –
nesc.
Tipul de date „Scientific notation” – se referă la modul științific de afișare a cifrelor, folosind litera E pentru
a reprezenta puterile lui 10. Modul de configurare a dimensiunii var iabilei este același, iar un exemplu de număr
folosind această reprezentare poate fi 1.23E2 ceea ce semnifică de fapt 123.00.
Tipul de date „Date” – se referă la date calendaristice. Alegând această opțiune, va trebui să configurați, selec –
tând din lista c e se va deschide, modul de afișare a d atei calendaristice dintr -o mul țime de formate care vi se
oferă.
16
Tipul de date „Dollar” – se refe ră la val ori monetare, avându -se în
vede re moneda americană. Puteți alege și particulariza valoarea maximă
pe care o po ate accepta variabila din lista ce se afișează sau puteți
particulariza această valoare, la fel ca în cazul valorilor numerice.
Tipul de date „Custom currency” – permite definirea unor valori
monetare particularizate, valabile pentru alte țări în afara Sta telor Unite.
Se poate defini forma de prezentare a variabilei și valoarea maximă
acceptată, la fel ca la tipul anterior.
Tipul de date „String” – stochează doar șiruri de caractere, cu alte
cuvinte texte, fără nici o posibilitate de prelucrare statistică. Poate fi
definită și aici dimensiunea maximă pe care o poate avea variabila din
punctul de vedere al numărului de caractere acceptate. În cazul nostru, variabila „nume” este un exemplu excelent
de variabilă de tip string.
Caracteristica a treia și caracter istica a patra a unei variabile, respectiv Width și Decimals se referă exact la
valorile maxime pe care le pot accepta variabilele și la numărul de zecimale, element e pe care le -am discutat
anteri or, iar aceste două caracteristici nu fac decât să creeze o altă posibilitate de definire a variabilelor sub acest
aspect.
În cazul exemplului nostru, constatăm că avem o singură variabilă de tip string, variabila „nume” care poate
accepta maxim 20 de caractere, toate celelalte variabile fiind de tip numeric; variabilele „sexul” și „școala” pot
accepta doar o singură cifră făr ă zecimale, iar variabilele „varsta” și „iq” pot accepta 3 cifre fără zecimale. Această
definiție permite stocarea subiecților cu numele format din maxim 20 de litere, vârsta poate lua valori de până la
999, suficient, deci, pentru scopurile noastre, acela și lucru fiind valabil și pentru coeficientul de inteligență. Sexul
și nivelul de școlarizare acceptă doar o sin -gură cifră, deoarece am convenit să asociem valoarea 1 cu sexul
masculin și 2 cu sexul feminin, în mod analog procedând și cu nivelul de școlar izare. Date le au fost definite ca
numerice pentru a crea posib ilitatea interpretării lor ulte rioare, cunoscându -se faptul că datele de tip st ring nu pot
fi interpretate sta tistic.
Următoarea caracteristică, caracteristica Label, permite includerea unei de numiri mai intuitive a variabilei,
prin care să poată fi mai ușor identificată și recunoscută. Astfel, variabilei „nume” îi putem da eticheta „Numele
subiecților”, variabila „iq” o putem eticheta drept „Coeficientul de inteligență” și așa mai departe. Putem include
orice etichetă descriptivă dorim pentru numele unei variabile, cu condiția ca lungimea acesteia să nu depășească
255 de caractere. Deci atenție la scrierea romanelor în descrierea variabilelor!!! Această caracteristică mai are
însă o funcție impo rtantă; SPSS include etiche ta variabilelor în rapoartele finale rezultate în urma prelucrării
datelor. Dacă creați un tabel de frecvență, SPSS nu va afișa numai numele variabilei, de exemplu „iq”, ci va
include și descrierea acest eia, „Coeficientul de inte ligen ță”, făcând astfel mult mai estetice și mai inteligibile foile
de raport.
Caracteristica Values am discutat -o pe larg în secțiunile anterioare și nu vom mai reveni asupra ei. Menționăm
doar că ea permite clasificări (deci variabile categoriale) și as ocieri de valori. Spre exemplu, putem asocia valoa –
rea 1 sexului masculin și valoarea 2 sexului feminin, pentru a putea introduce mai ușor datele și pentru a putea
efectua prelucrări statistice la nivel de varia -bile nominale.
Caracteristica Missing permite
definirea modului în care vor fi tratate
valorile lipsă din cadrul unei variabile.
Uneori, este important să cunoaștem de
ce lipsesc valori dintr -o variabilă. Datele
lipsă se pot datora, spre exemplu,
faptului că subiectul refuză să răspundă
la o anumită întrebare sau fap tului că
întrebarea nu este adresată acelui
subiect. Iată două situații care ar necesita
un tratament separat al valorilor lipsă.
Datele pe care le veți trata în mod
explicit ca date lipsă pot fi supuse apoi
17
unei analize statistice separate, fiind inițial excluse din cele mai multe calcule. Un alt exe mplu, frecvent întâlnit
în ches tionarele sociologice, se referă la codificarea răspunsurilor de tip „Nu știu/Nu răspund”. Majoritatea
cercetătorilor codează a ceste variante cu 9 sau 99. Evident, variantele incerte nu vor face obiectul pre lucrării
inițiale a datelor. Fo losind această secțiune se pot include aceste valori (9 sau 99) ca valori lipsă, SPSS
eliminându -le din analiză. Definirea valorilor lipsă poate accepta trei situații. Situ ația „No missing values”, când
comunicăm programului că nu dorim un tratament special pentru valorile lipsă, acestea fiind tratate ca atare în
cursul fiecărei prelucrări de date pe care o realizăm, situația „Discrete missing values”, când putem defini până
la trei valori care vor fi tratate ca valori lipsă în cursul prelucrărilor statistice ulterioare (de exemplu, la un
chestionar cu 3 variante de răspuns, dorim ca doar răspunsurile 1 și 3 să fie luate în calcul, răspunsul 2 fiind tratat
ca non -răspuns. Pen tru aceasta, vom include cifra 2 în prima dintre cele trei casete ale acestei secțiuni.) și situația
„Range plus one optional discrete missing value”, în care putem stabili un interval pentru care valorile vor fi
tratate ca va lori lipsă (spre exemplu, coef icienții de inteligență cuprinși între 10 și 75), în plus existând
posibilitatea de a include și o valoare particulară (discretă), ca și în situația anterioară. În exemplul nostru de bază
de date, nu avem nici un motiv de a trata în vreun fel valorile lips ă, deci nu vom configura această caracteristică.
Caracteristica Columns permite specificarea lățimii coloanei în care se vor afișa valorile variabilelor în modul
Data View. Implicit, coloanele au o lățime egală cu 8 caractere. Putem include aici o altă va loare sau putem redi –
mensiona lățimea coloanelor în modul Data View, prin „tragerea” cu ajutorul mausului a liniei de separație dintre
două coloane. Introducerea diferitelor valori pentru această caracteristică permite ajustarea și redimensionarea
pre-cisă a lățimii coloanelor. În cazul nostru, pe ntru variabila „nume”, dimensiu nea implicită de 8 caractere va fi
insuficientă pentru prezentarea unui subiect cu numele „Popescu Valentin”, afișându -se doar primele 8 caractere
și anume „Popescu ”. Pentru a vedea întregul nume, fie introduceți valoarea 16 pentru caracteristica Columns a
variabilei „nume”, fie trageți cu ajutorul maus -ului linia de demarcație dintre coloana „nume” și coloana „varsta”,
pentru a mări lățimea coloanei de afișare a numelui subiecților. Această caracteristică, ca și următoarea, nu
influențează în niciun fel modul de prelucrare a datelor, ci doar aspectul tabelului de date din Data View.
Caracteristica Align controlează modul în care sunt aliniate valorile variabilelor în tabelul de date. Puteți opta
pentru o aliniere la stânga, centrare sau aliniere la dreapta a valorii variabilelor în cadrul coloanelor din Data
View, fără a influența în vreun fel modul de prelucrare al variabilelor. Ca regulă generală, variabilele de tip string
se alinia ză la stânga, iar variabilele de tip numeric sau dată calendaristică se aliniază la dreapta pentru o mai bună
lizibilitate în cadrul tabelelor de date.
Caracteristică, Measure, este î n același timp și una foarte im portantă, permițând alegerea nivelului de
măsurare al variabilei. Se poate opta pentru două sau trei niveluri de măsurare, în funcție de tipul de variabilă.
Astfel, pentru variabila „nume”, care este o variabilă de tip stri ng, sunt dis ponibile doar nivelur ile nominal și
ordinal de măsurare. Stocarea numelui și a prenumelui are o valoare pur informativă și nu permite nici măcar o
clasifica re a acestora. Nivelul de măsură va fi deci nivelul nominal. Variabila „varsta” este variabila numerică
prin care se stoc hează vârsta subiecților. Această va riabilă are intervale egale, zero absolut și permite rapoarte în
cadrul scalei, deci poate fi considerată la un nivel de măsurare scalar4. Variabila „sexul” nu este altceva decât tot
o variabilă nominală, care nu permite decât o clasificare a persoanelor în funcție de genul lor biologic. Variabila
„scoala” poate fi pri -vită ca o variabilă nominală, dacă intenționăm doar să clasificăm subiecții în funcție de
studiile absolvite, sau se poate accepta un nivel ordinal de măsu ra-re la nivelul acesteia, dacă ierarhizăm subiecții
în funcție de gradul lor de școlarizare. Vom lua în considerare a doua situație și o vom accepta ca varia -bilă
ordinală. În sfârșit, variabila „iq” este fără discuție o variabilă de tip ordinal.
Iată că , parcurgând aceste etape, am reu șit în cele din urmă să constru im structura unei baze de date simple în
acord cu principiile și domeniile de definiție ale variabilelor și cu nivelul lor de măsurare.
Un aspect important pe care merită să -l menționăm se re feră la procesul de codare al variabilelor (proces pe
care l -am întâlnit la codarea variabile lor sex și nivel de școlarizare). În general, cercetătorii cu experiență cunosc
intuitiv modalitatea de codare optimă a unei variabile. Pentru a veni în sprijinul debutanților, Newton și Rudestam
(1999) propun, în lucrarea „ Your sta tistical consultant ”, un set de reguli folosite în acest proces (Field, 2005).
Toate datele trebuie codate numeric. Pentru a coda, de exemplu, sexul, am putea folosi și „M” pentru masculin,
respectiv „F” pentru feminin. Un asemenea proces de codare ar fi complet eronat, deoarece ar limita radical
posibilitățile de prelucrare statistică a datelor. Recomandarea este aceea că, atunci când suntem în astfel de
situații, este de preferat să folosim, de exemplu, 1 pentru Masculin și 2 pentru Feminin. Aceste cifre nu au decât
o valoare de etichetă și nu reprezintă un proces de ierarhizare (nu spunem că masculinul este „mai jos” decât
18
femininul deoarece are valoarea 1). La fel de bine putem să scriem 2 masculin și 1 feminin sau 5 masculin și 7
feminin. Acest proces de codare poartă numele de codare dummy. Tot ceea ce trebuie să faceți este să rețineți
codu rile atribuite.
Fiecare variabilă trebuie să ocupe o coloană distinctă în baza de date și fiecare subiect va ocupa o singură
înregistrare. Este foarte important ca datele unui subiect (unit ății statistice ) să ocupe un singur rând în baza de
date SPSS, iar fiecare coloană să se refere doar la o singură variabilă. În cazul în care o variabilă este m ăsurată
de mai mul te ori (tipic pentru experimente de tip testare inițială – testare finală), se vor aloca două coloane pentru
acea variabilă, una care să se refere la testarea in ițială și una vizând testarea finală. De exemplu, dacă avem un
experiment prin care, în urma unei tehnici oarecare, presupunem că îmbunătățim memoria, va trebui să testăm
memoria subiecților înainte de aplicarea tehnicii, să aplicăm tehnica și apoi să test ăm din nou memoria subiecților,
pentru a vedea dacă au apărut modificări. În acest caz, putem defini cele două variabile prin mem_ini care
reprezintă testul inițial de memorie și mem_fin care se referă la testul final. Astfel, nu încălcăm această regulă,
iar datele vor fi consistente.
Toate codurile pentru o variabilă trebuie să fie mutual exclu sive. Cu alte cuvinte, nu trebuie să existe decât
un singur număr ce poate fi stocat într -o variabilă. În anumite chestionare pot exista itemi care permit alegeri
multiple (de exemplu, la solicitarea: „Bifați din următoarea listă partidele cu care în mod sigur nu veți vota la
următoarele alegeri:” pot fi variantele de răspuns „PSD”, „PD”, UDMR”, „PNG” etc. În acest caz, subiectul
poate alege un singur partid, două partide sau le poate alege pe toate). O aseme nea situație impune crearea unui
număr de variabile ega l cu vari antele de răspuns (de exemplu nu_PSD, nu_PD, nu_UDMR, nu_PNG ) cu categorii
dihotomice de genul 0 – Neselectat, 1 – Selectat care vor fi analizate ulterior. De obicei, asemenea itemi au și o
categorie de genul Altul. Care_______ prin intermediul căreia subiectul poate să -și exprime liber opțiunea. În
mod normal, această categorie se analizează prin alte metode și nu folosind SPSS, deoarece variabilitatea
răspunsurilor conferă o valoare statistică foarte redusă.
Fiecare variabilă trebuie codată astfel încât să se obțină ma ximum de informații. Categoriile s au valorile
variabilei nu trebu ie sintetizate în prima variantă, ci trebuie i ncluse exact așa cum apar pe formularele de colectare
a datelor. Sintetizarea valorilor și cumularea categoriilor poate fi făcut ă mai târziu, utilizând funcții le specifice
SPSS. De exemplu, se preferă introducerea exactă a valorii pentru vârsta subiectului , în ani, și nu încadrarea
subiectu lui în categorii de vârstă (sub 14 ani, între 14 și 20 de ani, peste 20 de ani etc.). Inițial, se va proiecta o
variabilă, varsta, care va stoca vârsta exactă a subiecților. Ulterior, dacă se va dori transformarea acestei variabile
scalare într -o variabilă discretă, ordinală, numită grup_varsta , se pot folosi tehnici specifice de conversie. Ca idee
generală, întotdeauna când este posib il, se vor folosi variabile con tinui la un nivel de măsură cât mai aproape de
scala de ra port. Este ușor să transformăm o variabilă continuă într -una discretă, însă imposibil să trecem de la o
variabilă discretă la una continuă. După cum știți deja, valoarea informativă cea mai ridicată o au totuși variabilele
continui, astfel încât profitați de ele.
Fiecare subiect trebuie să aibă o valoare pentru fiecare variabilă. Uneori nu este posibil să includem valori
în fiecare coloană, fie deoarece subiectul nu a răspuns, fie pentru că itemul respectiv nu i se adresează. În acest
caz, se recomandă să lăsați acea celulă liberă, deoarece SPSS este astfel proiectat încât să trateze celulele goale
drept cazuri lipsă. Introducerea altor valori p entru cazurile lipsă poate crea confuzii. Respectați întotdeauna regula
„ceea ce e cel mai simplu este și cel mai bun”.
Regulile de codare se vor aplica tuturor subiecților. Acest lucru înseamnă că nu puteți aplica reguli valabile
doar pentru anumiți part icipanți. De exemplu, dacă doriți ca anumite valori să fie trata te ca valori lipsă pentru un
anumit subiect, nu puteți face acest lucru. Valorile lipsă vor fi tratate similar pentru toți subiecții.
Folosiți coduri în concordanță cu sensul scalei. Unele ch estionare presupun tipuri de scale ordinale (de exemplu
1 – niciodată, 2 – rareori, 3 – uneori, 4 – deseori, 5 – întotdeauna). Deși scalele pot fi codate și invers (1 –
întotdeauna, 2 – deseori, 3 – uneori, 4 – rareori, 5 – niciodată), se recomandă păstrar ea sensului natural al scalei
pentru evitarea problemelor ulterioare referitoare la interpretare. Mai ușor asociem niciodată cu 1 decât niciodată
cu 5. Oricum, chiar dacă ulterior există suficiente posibilități de recoda -re a valorilor astfel încât analiza să fie
consistentă, proiectarea adecvată a cercetării și codării vă poate scuti de bătăi de cap și muncă inutilă.
19
După proiec tarea bazei de date, se recoman dă listarea structurii acesteia (a meta -informațiilor) în vederea
consultării ulterioare. Dacă nu veți lucra câteva luni cu baza de date, probabil că nu veți reține la ce se referă
mem_ini sau mpg și nici de ce tip este.
SPSS prezintă o modalitate ușoară d e a
afișa structura bazei de date cu informații
complete. Nu trebuie decât să accesați
meniul File și apoi opțiunea Display
Data File Information.
Se va deschide o nouă secțiune care vă
invită să alegeți între a afișa informațiile
bazei de date curente ( Working File ) sau
cele ale unei alte baze de date de pe disc
(Ex-ternal File… ). Noi suntem interesați
de afișarea structurii bazei noastre de date
(IQ.sav) și vom alege, așadar, prima
opțiune.
În fereastra de rezultate ( Output ), vor
apărea o serie de tabel e cores punzătoare
definițiilor variabilelor din baza de date,
astfel:
Tabelul Variable Information
conține informații despre variabile. Prima
coloană conține numele variabilelor,
urmează apoi poziția acestora în
structura de date, eticheta, nivelul de
măsură, lățimea coloanei și alinierea.
Tabelul Variable Values conține
variabilele codate. În cazul nostru, avem
două variabile codate : sexul (conține
valorile 1 – Masculin și 2 – Feminin ) si
ninelul de școlarizare (conține 5 categorii)
Vă recomand ăm ca, după ce proiectați
baza de date, să imprimați structura
acesteia și să o stocați pentru a o putea
consulta ori ce câte ori aveți nevoie.
Concluzie:
Măsurătorile sunt aproximări ale
realității, deoarece sunt supuse în
permanență surselor de eroare, iar
realitatea socială are un caracter
fluctuant;
După S. S. Stevens, „în sensul său larg, a măsura înseamnă a atribui numere obiectelor sau evenimentelor
potrivit unor reguli.”
Regula de atribuire trebuie să fie:
Suficient de clară pentru a permite atribuirea univocă, la un moment dat, a unui număr unui obiect și
numai a unui singur număr;
Suficient de simplă pentru a fi utilizată;
Variabilă este un num e pentru un element a cărui caracteristică este aceea că va riază, își modifică valorile;
Variabilă este aleatorie și poate lua valori numerice (aleanumerică) sau ne numerice;
Variabilă se caracterizează printr -un domeniu de definiție, o mulțime de valori pe care aceasta le poate lua.
În funcție de acest domeniu de definiție, variabilele pot fi discrete sau continui;
20
Variabilă discretă nu permite existența unor valori intermediare între valorile pe care le poate lua
variabila. Ea este definită pe o mulțime numărabilă de valori în baza unei funcții de probabilitate;
Variabilă continuă permite existența unor valori intermediare între două valori ale acesteia, iar acest
lucru poate continua la infinit. Ea este defini -tă pe un interval de valori, mulțimea fiind infinită, iar legea de
distribuție este o densitate de probabilitate;
Scalele de măsurare se grupează în scale neparametrice (nominală și ordinală) și scale parametrice (de
interval și de raport);
Termenul de cuantificare are sens începând cu scala ordinală;
Scala nominală prezintă doar posibilitatea unor cla sificări, a unor grupări ale da telor în categorii;
Scala ordinală permite, în plus, ierarhizarea datelor în funcție de apartenența lor la o categorie. Strict,
aceasta este sc ala utilizată în psihologie;
Scala de interval este o scală ordinală în care intervalele sunt egale. Ea permite să răspundem „cu cât o
cantitate este mai mare decât o alta”, însă nu și „de câte ori”;
Scala de raport este o scală de interval la care exist ă un zero absolut. Ea permite să răspundem la întrebarea
„de câte ori o cantitate este mai mare decât cealaltă”.
21
ORGANIZAREA DATELOR
Orice experiment, evaluare psihologică, observație sau convorbire pornește de la o întrebare care -și propune
să rezolve o anumită problemă. De cele mai multe ori, problema în științele socio -umane nu transpare imediat
într-o formă cuantificabilă. Avem nevo ie de o serie de etape intermediare pentru a stabili ce dimensiuni
măsurabile sunt în relație cu problema sau tema studiată. Procesul prin care transformăm o dimensiune generală,
necuantificabilă, în indicatori măsurabili și apoi construim itemi pentru ace i indicatori poartă numele de
operaționalizare a conceptelor . Dacă, de exemplu, dorim să studiem nivelul de trai al populației dintr -un oraș,
o asemenea abordare este mult prea generală. Ce înseamnă, în definitiv, nivel de trai? Dimensiunea nu poate fi
cunoscută direct, astfel încât apelăm la anumiți indicatori care au legătură cu nivelul de trai (bugetul alocat pentru
achiziționarea de produse electronice, bugetul pentru concediu etc.) Urmează apoi să construim itemi, întrebări
referitoare la indicatorii s tabiliți („Unde vă petreceți concediile?”, „Ce produse electronice ați cumpărat în
ultime le trei luni?” și așa mai depar te). Studiind răspunsurile la aceste întrebări, putem avea o imagine generală
asupra nivelului de trai. Acești indicatori nu reprezintă altceva decât variabile rezultate în urma operaționalizării
conceptului general de nivel de trai și care pot fi populate cu datele rezultate din răspunsurile subiecților la
întrebările stabilite.
În urma procesului de operaționalizare a conceptelor, rezult ă una sau mai multe variabile, reprezentative pentru
studiul propus, variabile ce vor trebui „populate” cu date în vederea verificării ipotezelor și a găsirii răspunsului
la întrebarea formulată inițial. Datele cu care urmează a fi „populată” respectiva va riabilă pot proveni din (Radu,
și alții, 1993):
Lectura unor aparate;
Măsurători antropometrice și/sau biofiziologice;
Notele brute (răspunsurile subiecților) la anumite teste psiho -logice sau chestionare;
Protocolul de observație sau interviu;
Analiza de conținut sau analiza produselor activității etc.
În practică, putem fi interesați de modul în care se grupează datele în jurul unor valori, de variabilitatea acestora
sau de stabilirea poziției relative a unui individ sau a unui rezultat în cadrul unui gru p mai mare de indivizi sau
rezultate.
Fie că desfășurăm o evaluare psihologică, un studiu sau o cercetare experimentală, fie că inițiem un proces de
colectare a datelor prin observație, rezultatul constă într -o colecție (set) de date brute . La acest nivel, nu avem
nicio modalitate prin care putem trage concluzii asupra semnificației datelor pe care le avem la dispoziție. Putem
doar constata că unele valori se repetă și … cam atât. De aceea, prima etapă în inițierea unei proceduri statistice
de analiză a dat elor constă în clasificarea, ordonarea, condensarea acestora învederea conturării unei imagini cât
mai precise. Valorile măsurate trebuie așezate într -o anumită ordine (crescătoare sau descrescătoare), care să
permită și o eventuală reprezentare grafică a acestora.
Exemplu: Presupunem că măsurăm înălțimea unor subiecți în centimetri și obținem următoarele rezultate:
182, 175, 174, 189, 177, 177, 180, 173, 188, 171, 184, 192, 180, 172, 177, 193, 184, 192, 172, 177, 174, 171,
172, 179, 185, 179, 183, 172, 17 9, 188.
Întrebare: Ce tip de variabilă este variabila menționată mai sus și la ce nivel de măsurare se află?
Dacă privim șirul de date de mai sus, observăm că nu putem extrage nici o informație utilă. Unele valori se
repetă, e adevărat, însă nu putem spune, în lipsa unei organizări, nici care este cel mai înalt subiect, nici care este
cel mai scund, nici ce înălț ime au cei mai mulți subiecți. Acest lucru va deveni posibil abia în urma unui proces
de organizare a acestor date .
La volume mici de date, acest proces nu pune probleme deosebite. Operațiunea devine însă greoaie și mare
consumatoare de timp pentru volume mari de date și, de aceea, se recomandă utilizarea unui program computer
care poate efectua aproape instantaneu aces te operații.
Sistematizarea datelor
Primul pas în sistematizarea datelor îl reprezintă stabilirea valorilor extreme. Prin inspecție vizuală, verificăm
cea mai mică valoare din șirul de date ( Xmin ) și cea mai mare valoare din șirul de date ( Xmax ), pentru a putea
22
calcula poate cel mai simplu indicator statistic, și anume amplitudinea de variație. Numim amplitudine de
variație (Range) diferența dintre valoarea maximă și valoarea minimă a distribuției de date. (A = Xmax – Xmin) .
În exemplul nostru, subiectul cel mai scund (cu înălțimea cea mai mică) are 171 centimetri, iar subiectul cel mai
înalt are 193 centimetri. Prin urmare, Xmin = 171 centimetri, Xmax = 193 centimetri, iar amplitudinea de variație
devine A = 193 – 171 = 22 centimetri.
Dacă amplitudinea de variație este mică în comparație cu numărul de valori din
șirul de date, atunci șirul de date poate fi ușor reprezentat fără necesitatea grupării
valorilor. În cazul nostru, putem sistematiza datele scriind într -o coloană valorile în
ordine crescătoare și notând în dreptul fiecăreia, prin linii verticale, de câte ori se repetă
în șirul inițial. Dacă reconsiderăm exemplul anterior, obținem datele grupate în tabelul
alăturat:
De data aceasta, obținem un protocol sistematizat numit diagrama în linii. Putem
acum observa că toți cei 30 de subiecți (n=30) au fost repartizați crescător, în funcție
de înălțimea lor, și putem afirma că cei mai scunzi subiecți au 171 cm, iar cel mai înalt
193 cm. De asemenea, cei mai mulți subiecți au 172 cm și 177 cm. Iată, așada r, că
această diagramă ne aduce un plus de informație în raport cu șirul nesistematizat
prezentat anterior.
Această sistematizare a unui protocol reprezintă o procedură statistică liminară,
deoarece se află la limita analizei statistice, pregătind aplicar ea tehnicilor ulterioare de
prelucrare a datelor.
Diagrama în linii reprezintă o metodă intuitivă de reprezentare grafică a datelor.
Următorul pas este acela prin care vom număra liniile trasate în vederea stabilirii
efectivului (frecvența absolută) fiecă rei valori din ansamblul rezultatelor. Observăm
că efectivul valorii 171 cm este de 2 subiecți, adică doi subiecți au înălțimea de 171
cm, efectivul valorii 172 cm este de 4 subiecți, patru subiecți au înălțimea 172 cm și
așa mai departe. Stabilirea efecti velor prin acest procedeu este posibilă în momentul
în care amplitudinea de variație este relativ mică (de exemplu pentru notele școlare, de la 1 la 10). La o
amplitudine mai mare, acest procedeu este extrem de laborios și inutil deoarece variabilitatea di stribuției devine
prea mare și se pierde viziu -nea de ansamblu. Deja, în exemplul nostru, constatăm o serie de tendințe, dar care
sunt însă abia conturate. În plus, găsim multe valori pentru care efectivul este zero. Prin urmare, ar fi util să facem
distri buția mai compactă prin gruparea valorilor în clase, astfel încât să putem releva regularitatea ansamblu –
lui de date. Vom alege, spre exemplu, gruparea datelor din patru în patru, astfel:
171, 172, 173, 174 sau 171 – 174
175, 176, 177, 178 sau 175 – 178
179, 180, 181, 182 sau 179 – 182
183, 184, 185, 186 sau 183 – 186
187, 188, 189, 190 sau 187 – 190
191, 192, 193 sau 191 – 193
A rezultat un număr de șase clase care cuprind, fiecare, patru valori,
ultima clasă fiind formată din trei valori.
Iată că acum lucrurile sunt ceva mai clare. Observăm că cei mai mulți
subiecți au înălțimea cuprinsă între 171 cm și 174 cm, în timp ce destul de
puțini subiecți pot fi considerați ca fiind înalți. Este mai ușor de sesizat
acum imaginea de ansamblu, modali tatea în care se organizează datele. Un
aseme nea procedeu pune în evidență, compact, regularitatea de ansamblu a
datelor.
La acest nivel va trebui să facem o serie de precizări, deoarece au apărut
două concepte noi: conceptul de clasă și conceptul de inter val de grupare. În cazul nostru, numărul de clase a fost
stabilit la șase. Intervalul de grupare (i) se referă la numărul de valori pe care le poate conține o clasă, cu alte
cuvinte lărgimea unei clase. Practic, intervalul de grupare se exprimă ca raport d intre amplitudinea de variație și
numărul claselor. Dacă notăm intervalul de grupare cu „i” și numărul de clase cu „k”, avem formula:
23
i = 𝑋𝑚𝑖𝑛 +𝑋𝑚𝑎𝑥
𝑘
În cazul nostru i = 193 −171
6= 4
În exemplul anterior am rotunjit intervalul de grupare „i” la valoarea 4. Datorită faptului că înălțimea este o
variabi lă continuă, ar fi corect să re prezentăm clasele și astfel:
171,00 – 174,67 (171,00 + 3,67 = 174,67)
174,68 – 178,35 (174,68 + 3,67 = 178,35)
178,36 – 182,03 (178,36 + 3,67 = 182,03)
182,04 – 185,71 (182,04 + 3,67 = 185,71)
185,72 – 189,39 (185,72 + 3,67 = 189,39)
189,40 – 193,07 (189,40 + 3,67 = 193,07)
Totuși, de ce ne -am rezumat la șase clase și de ce nu am folosit opt clase sau 3 clase? Care a fost argumentul
pe baza căruia am decis utilizarea unui număr de 6 clase? Există vreo metodă prin care putem stabili numărul de
clase necesare sau le alegem noi arbitrar?
Atunci când numărul de măsurători (n) nu este prea mare, numărul claselor (k) poate fi calculat pe baza
formulei Hahn -Shapiro (Vasilesc u, 1992) :
𝑘=𝐼𝑁𝑇 (𝑛
5)
unde INT înseamnă „partea întreagă”
În cazul nostru, numărul subiecților (n) este 30. Dacă împărțim 30 la 5, obținem valoarea 6. Evident că partea
întreagă a lui 6 este tot 6, pe baza acestei formule stabilindu -se numărul optim de clase în care pot fi grupate
valorile. Cunoscând numărul claselor, am stabilit, după cum s -a precizat mai sus, intervalul de grupare.
Dacă volumul măsurătorilor este mare, se utilizează specif icațiile lui Kolker referitoare la numărul de clase:
O altă metodă prin care putem stabili intervalul de distribuție, dar și numărul claselor, cunoscând amplitudinea
de variație și numărul de măsură -tori, o reprezintă utilizarea formulei lui Sturges (Vasilescu, 1992) :
i = 𝑋𝑚𝑖𝑛 −𝑋𝑚𝑎𝑥
1+3,332 ∗𝑙𝑔(𝑛)
În situația noastră, logaritmul zecimal din 30 este 1,47. În mod curent, putem găsi logaritmul zecimal în
tabelele de logaritmi sau utilizând un calculator științific. Cunoscând această valoare, in tervalul de distribuție
devine:
i = 193 −171
1+3,332 ∗1.47= 22
5.88 =3.74 = 4
Observăm că valoarea obținută aici se apropie foarte mult de valoarea stabilită prin formula anterioară. Această
formulă poate fi folosită pentru valori destul de mari ale lui n, respectând însă limita de 20 de clase.
Referitor la numărul claselor și la intervalele de grupare, se impun următoarele observații:
1. Dacă alegem intervale de g rupare prea mici, gruparea date lor scoate în evidență lucruri de amănunt care
estompează tendi nța de ansamblu a datelor și deci a procesului pe care îl studiem;
2. Intervalele de grupare prea mari pot estompa iregularitățile distribuției și atenuează specificul fenomenului
studiat, pierzându -se precizia cu ca re identificăm o valoare indivi duală;
3. În mod obișnuit, vom utiliza, dacă măsurătoarea s -a făcut folosind numere întregi, limite de interval
exprimate tot în numere întregi. Limita inferioară a intervalului superior va trebui să fie mai mare cu o unitate
decât limita superioară a intervalului inferior. De exemplu:
171 – 174 și nu 171 – 174
175 – 178 174 – 178
deoarece nu vom ști unde să încadrăm valoarea 174. La fel,
171,00 – 174,67 și nu 171,00 – 174,67
24
174,68 – 178,35 174,67 – 178,35
După cum put em însă observa, măsurătorile inițiale s -au efectuat în numere întregi. Un exces de precizie la
acest nivel este exagerat și poate produce confuzii. Un subiect cu înălțimea de 174 centimetri unde va fi inclus?
În primul caz, evident, în prima clasă. În al doilea caz însă, poate fi inclus și în prima și în a doua clasă. De aceea,
niciodată precizia claselor nu va depăși precizia
măsurătorilor efectuate.
Gruparea în clase fiind încheiată, obținem așa -numita
distribuț ie statistică ce formează baza prelucrărilor de date
ulterioare. În exemplul nostru vom avea următoarea
distribuție statistică:
Însumând efectivele (frecvențele) tuturo r intervalelor, va
rezulta, evi dent, numărul total de măsurători (n). Este, de
asemenea, posibil să calculăm frecvențele cumulate, fie ascendent, fie descendent, ca expresie a adunării
frecvenței intervalului curent la frecvența cumulată a intervalului anterior. Astfel, pentru primul interval, atât
frecvența, cât și frecvența cumulată ascen dentă au valoarea 9. Pentru al doilea interval, frecvența absolută este 5,
iar frecvența cumulată ascendentă devine 9+5=14. Al treilea interval are frecvența absolută 6, iar frecvența
cumulată ascendentă 14+6=20 și așa mai departe. Procedura de calcul este a naloagă și în cazul frecvențelor
cumulate descen -dent, cu singura deosebire că adunarea se face începând de la ultimul interval.
Rolul frecvențelor cumulate este acela de a „ordona” crescător sau descrescător datele grupate în intervale și
de a indica numă rul de cazuri, câți subiecți se află până la o anumită valoare (frecvențele cumulate ascendente)
sau câți subiecți au depășit o anumită valoare (frecvențele cumulate descendente). Dacă discutăm de ordonare,
este evident că variabila trebuie să se afle cel puțin la un nivel ordinal de măsură, calculul frecvențelor cumulate
în cazul variabilelor nominale fiind un nonsens.
Putem exprima, de asemenea, frecvențele relative , ca proporție a scorurilor dintr -o clasă. Cele mai utilizate
frecvențe relative sunt proce ntele (%) și promilele (‰). Ca modalitate de calcul al procentelor sau al promilelor
vom folosi regula de trei simplă, astfel p entru prima clasă vom avea următoarea valoare:
dacă 30 reprezintă 100%
atunci 9 reprezintă x
𝑑𝑒 𝑢𝑛𝑑𝑒 𝑥=9×100
30=30%
Reprezentarea grafică a datelor
Sintagma „o imagine face mai mult decât o mie de cuvinte” este valabilă și în statistică. Uneori, este mai
convenabil să reprezentăm grafic datele pentru a ne forma intuitiv o reprezentare a acestora. Nu trebuie să uităm
însă faptul că, în statistică, afirmațiile pe care le facem trebuie demonstrate, iar demonstrația se poate face doar
cifric.
Există multe moduri prin care putem reprezenta grafic datele pe care le
vom discuta în momentul în care tematica le va impune. Pentru moment, ne
vom rezuma la graficele cu bare, histograma, poligonul frecvențelor,
poligonul fre cvențelor cumulate și plăcinta .
Reprezentarea prin graficele cu bare constă în ridicarea unei
perpendiculare de lungime egală cu
frecvența pentru fiecare valoare sau
clasă așezată pe axa Ox. Cu
ajutorul barelor, putem reprezenta
atât datele negrupate, câ t și datele
grupate. Astfel, pentru exemplul
nostru, prezentăm reprezentarea
prin grafice cu bare a înălțimii
subiecților sub formă de valori. Un
tip particular de reprezentare a
graficelor cu bare este histograma .
25
O histogramă se deosebește de un grafic c u bare prin aceea că, în locul liniilor, sunt ridicate dreptunghiuri cu
baza egală cu intervalul folosit. Pentru a putea folosi histogramele, datele trebuie să fie grupate, așadar, pe
intervale egale.
Dacă unim prin linii vârfurile graficelor cu bare sau mijlocul bazei de sus a histogramelor obținem un alt tip
de grafic, și anume poligonul frecvențelor absolute sau relative. Poligonul frecvențelor absolute se referă la
exprimarea cifri -că directă a efectivelor, în timp ce poligonul frecvențelor relative conți -ne exprimarea
procentuală a acestora.
De asemenea, este posibilă construirea poligonului frecvențelor
cumulate ca reprezentare grafică a funcției de repartiție cumulativă. La fel
ca în cazul graficului cu bare, în dr eptul fiecărei valori se înalță o
perpendiculară de mărime egală cu frecvența cumulată. Unind vârfurile
acestor perpendiculare se obține poligonul frecvențelor cumulate, care poate
fi exprimat absolut sau relativ.
Uneori este mai convenabil să
repre zentăm , mai ales atunci
când lu crăm cu procente,
compoziția măsurătorilor printr -o structură radială.
Uneori este mai convenabil să reprezentăm, mai ales atunci când lu –
crăm cu procente, compoziția măsurătorilor printr -o structură radială. Un
asemenea grafic se numește plăcintă (pie) și este util atunci când ne
interesează să urmărim proporția cu care fiecare clasă participă la
construcția „ întregu lui”.
Pentru o variabilă continuă, deoarece avem o densitate de
probabilitate pe intervalul de valori, reprezentarea grafică se face sub
forma unei curbe numită curbă de distribuție , însă acest aspect va face obiectul unui capitol viitor.
În concluzie
Colecție de date are o valoare informativă extrem de redusă. În vederea extragerii unor informații
preliminare, este necesară ordonarea și gruparea datelor;
La o amplitudine de variație mică, pot fi ordonate valorile și numărate efectivele fiecărei valori,
realizându -se astfel un protocol sistematizat;
La o amplitudine de variație mare și la măsurători numeroase, se va realiza gruparea datelor în clase, pe
baza unui interval de grupare. Atât numărul claselor, cât și intervalul de grupare pot fi calculate î n baza
unor formule sau a unor tabele de referință;
Distribuție statistică reprezintă un protocol de date sistematizat și organizat care conține clasele,
diagramele în linii (puncte, steluțe etc.) și frecvențele absolute. Alte informații care mai pot fi i ncluse sunt
frecvențele relative (procentuale), frecvențele cumulate absolute și relative;
Distribuțiile statistice pot fi reprezentate și grafic, folosindu -se graficele cu bare, histogramele,
poligoanele de frecvențe sau graficele plăcintă .
Copyright Notice
© Licențiada.org respectă drepturile de proprietate intelectuală și așteaptă ca toți utilizatorii să facă același lucru. Dacă consideri că un conținut de pe site încalcă drepturile tale de autor, te rugăm să trimiți o notificare DMCA.
Acest articol: INTODUCERE ÎN BIOSTATISTICA. NATURA MĂSURĂRII ÎN BIOSTATISTICA. ORGANIZAREA [631541] (ID: 631541)
Dacă considerați că acest conținut vă încalcă drepturile de autor, vă rugăm să depuneți o cerere pe pagina noastră Copyright Takedown.
