SERIA PSIHOLOGIE EXPERIMENTALĂ ȘI APLICATĂ [311493]
OVIDIU LUNGU
SERIA PSIHOLOGIE EXPERIMENTALĂ ȘI APLICATĂ
FAMILIARIZAREA CU PROGRAMUL SPSS 10.0
Cuprins:
– [anonimizat]
– [anonimizat]
– [anonimizat]-ul
Banalități importante pentru studenții poeți.
Mulți studenți vin la psihologie pentru a [anonimizat] "se joace" cu cuvintele. Probabil că așa se întâmplă și cu dumneavoastră. [anonimizat], [anonimizat]. [anonimizat], [anonimizat], chiar dacă anterior au avut eșecuri în domeniu. Și voi veți învăța statistică și o veți face bine.
Cuvântul statistică provine din limba italiană (statista) și, [anonimizat]. Se referea la indivizii care numărau populația sau alte elemente ce ajutau statul să gestioneze mai bine politica de taxe și costurile războaielor.
Statistica, [anonimizat], unele chiar inedite. Ideea de bază de a aduna date provine de la necesitățile celor ce guvernau (pentru a stabili taxele), [anonimizat] (folosind probabilitatea de a fi atacate de pirați sau de a naufragia). Teoria modernă a [anonimizat]; [anonimizat] a timpului potrivit de fermentare permitea promovarea unui anumit gust al berii (dar și supraviețuirea a sute de ferme mici); [anonimizat].
[anonimizat], [anonimizat] a reușit să obțină ajutorul Olandei în Războiul de Independență demonstrând statistic că populația coloniilor este în creștere și poate să ofere 20.000 [anonimizat]?
[anonimizat], are nevoie de instrumente specializate pentru a-[anonimizat]. O [anonimizat], este pachetul informatic SPSS (Statistical Package for Social Sciences), ajuns în prezent la versiunea 10.0. Scopul manualului de față este de a vă oferi un ghid de bază privind utilizarea acestei resurse importantă în realizarea prelucrărilor statistice. [anonimizat], la adresa www.spss.com.
Pentru beneficiarii unor versiuni mai vechi ale acestui program, informațiile din ghidul de față sunt totuși folositoare, chiar dacă anumite operații sau aranjarea output-ului (foaia de prezentare a rezultatelor) sunt diferite.
Deschiderea programului și părțile componente.
Ca orice instrument modern, programul SPSS nu poate fi folosit până nu este mai întâi activat sau deschis. Accesul la program se poate face în două modalități.
Mai întâi, fi puteți accesa prin efectuarea unui click-dublu asupra pictogramei programului, care arațã ca în imaginea de mai jos și se găsește pe desktop-ul computerului, în eventualitatea cã ați creat un short-cut pentru program.
O a doua modalitate de a pune în funcțiune SPSS-ul este cu ajutorul meniului START-PROGRAMS prezent în orice versiune WINDOWS mai recentă. Astfel, apăsați butonul START, apoi un click-simplu pe opțiunea PROGRAMS, de unde veți alege opțiunea SPSS FOR WINDOWS – SPSS 10.0 FOR WINDOWS, ca în imaginea următoare:
deschiderea programului SPSS din meniul START
Oricare metodă veți folosi, programul se va activa, iar pe ecranul dumneavoastră va apărea un tabel, ca în imaginea de mai jos:
așa se prezintă programul SPSS la deschidere
Observați că aveți pe ecran un tabel, deci linii si coloane. Este bine să rețineți că întotdeauna coloanele tabelului reprezintă variabilele cercetării, în timp ce liniile tabelului, numerotate, reprezintă subiecții sau participanții la cercetare. Acest lucru sugerează felul în care datele trebuie introduse în tabel.
Să analizăm acum mai detaliat fereastra, pornind din partea superioară, către partea inferioară. Banda colorată din marginea superioară a ferestrei vă informează asupra numelui fișierului si al programului aflat în uz. Urmează apoi o bandă cu meniurile uzuale ale programului si o bară cu butoane, butoane care nu reprezintă altceva decât „scurtături" ale opțiunilor ce pot fi activate si din meniurile uzuale. Vom analiza mai detaliat unele comenzi din aceste meniuri, pe măsură ce avansăm cu acest ghid.
Deschiderea unei baze de date
De multe ori dorim să lucrăm cu baze de date pe care le-am creat anterior sau pe care altcineva înaintea noastră a lucrat. Pentru aceasta vom activa meniul FILE – OPEN si vom alege opțiunea DATA.
Odată activată comanda, computerul va deschide o fereastră-dialog care vă permite să selectați atât directorul unde se găsește baza voastră de date, cât si fișierul dorit, în exemplul ce urmează, am selectat fișierul pretestare din directorul S.P.S.S. Observați în imaginea ce urmează că terminația fișierelor cu date din SPSS este sav.
fereastră-dialog pentru deschiderea unei baze de date
Deschiderea propriu-zisă a bazei de date se face prin apăsarea butonului OPEN din fereastra-dialog prezentată anterior, în momentul în care baza de date a fost încărcată, ecranul va apare astfel:
Aceasta este fereastra care vă prezintă datele brute.
Observați variabilele din studiu, coloanele tabelului adică; de exemplu, variabila GEN descrie genul subiecților (masculin sau feminin), variabila CONDIȚIE arată condiția experimentală în care se aflau participanții la studiu, G l sunt notele obținute de subiecți la o anume probă, ș.a.m.d.
Fiecare linie a tabelului arată rezultatele unui singur subiect. Astfel, dacă observăm linia a 11-a, vedem că rezultatele acestei persoane se găsesc în fișa cu numărul 11, că este o persoană de sex feminin, în condiția „neactivat", care a obținut nota 7 la variabila Gl, nota 7 la G2, nota 13 la G3 etc.
Dacă dorim să aflăm informații despre tipul variabilelor aflate în baza noastră de date, trebuie să activăm opțiunea VARIABLE VIEW din partea inferioară a ecranului. Astfel va apare imaginea următoare:
aici aflăm informații despre variabile
Acum, variabilele sunt așezate pe rânduri, iar coloanele reprezintă diverși parametri, diverse calități pe care le au variabilele noastre. De exemplu, variabila G3 este de tip numeric, are 8 caractere, dintre care două sunt zecimale, iar ceea ce descrie această variabilă se referă la comportamentul „înclină capul", ș.a.m.d.
Crearea unei baze de date noi
Crearea unei baze noi se face din perspectiva DATA VIEW. Observați că în tabel avem un cursor-text sub forma unui contur mai îngroșat care înconjură o celulă. Acesta fi mutat în tabel cu ajutorul butoanelor cu săgeți, din partea dreaptă-jos a tastaturii. Dacă dorim putem să introducem în computer baza de date redată în tabelul de mai jos, care arată scorurile IQ la un test de inteligență aplicat unor adolescenți, frați de acelasi sex:
aceasta este baza de date ce dorim să o creăm
Observați că avem trei variabile si zece perechi de subiecți. Variabilele sunt: numărul fisei (NRFISA) care arată numărul fișelor completate de cei doi frați, coeficientul de inteligentă al primului născut (QI1) si coeficientul de inteligentă al celui de-al doilea născut (QI2).
Duceți cursorul-text la începutul bazei de date (celula cea mai din stânga-sus a tabelului) si apoi tipăriți de la tastatură „l" si apăsați ENTER sau butonul cu săgeata în jos. Pe ecran va apărea imaginea de mai jos:
Observați că programul definește automat variabila (var000l), cursorul coboară pe celula următoare, iar indicativul primei linii devine activ (cifra l de pe margine nu mai este gri). Continuați să introduceți astfel toate datele corespunzătoare primei variabile, până ce ajungeți la cifra 10.
Aceasta este faza introducerii datelor sau creării unei noi baze de date. Dar pentru a putea folosi aceste date mai ușor, avem nevoie să definim variabilele cu care lucrăm. Este ceea ce vom prezenta în continuare.
Definirea variabilelor
Definirea variabilelor se face din perspectiva VARIABLE VIEW. Aici se poate ajunge prin două metode:
1.- executând un dublu-click pe numele variabilei (var000l), cel scris în capul
gri al tabelului
2.- apãsând pe opțiunea VARIABLE VIEW din partea stângă-jos a ribctalui;
Oricare metodă ar fi folosită rezultatul este același și pe ecran va apare imaginea urmãtoare:
aici se definesc variabilele
Ajunși în acest punct, trebuie să definim anumiți parametri ai variabilei, în cazul nostru, vom defini doar numele variabilei (așa cum este el recunoscut de programul SPSS) și eticheta variabilei (LABEL), care este de fapt o descriere mai detaliată a acesteia, folositoare mai ales când avem nevoie să ne reamintim ce anume măsoară respectiva variabilă. Astfel, vom alege numele NRFISA, iar în dreptul etichetei vom scrie „numărul fișei" căci asta măsoară sau descrie variabila aleasă de noi.
aici am definit numele (NAME) și eticheta (LABEL) variabilei alese.
După ce am stabilit parametrii doriți (în alte capitole vom vorbi si despre alți parametri, nu numai despre nume si etichetă), vom reveni din nou la perspectiva DATA VIEW, ca să introducem si celelalte date, la celelalte două variabile, urmând aceeași procedură, în acest moment, pe ecran veți avea următoarea imagine, cu datele introduse la prima variabilă si coloana acesteia definită ca atare.
Continuați să introduceți datele si să definiți în mod adecvat cele două variabile, atât ca nume, cât si ca etichetă.
Salvarea fișierelor
Salvarea fișierelor are un dublu scop. Pe de o parte salvăm datele pe discul dur al computerului (hard-disk) pentru a le conserva în memoria de lungă durată, permanentă a computerului în vederea folosirii lor ulterioare, pe de altă parte salvăm datele pentru a nu le pierde în eventualitatea apariției unei pene de curent sau a unei întreruperi inoportune a computerului.
Salvarea datelor se face ca pentru orice fișier, fie acționând butonul SAVE (al doilea din bara de butoane, cel care seamănă cu o dischetă), fie din meniul FILE-SAVE, precum în imaginea de mai jos:
salvarea datelor din meniul FILE
Oricare ar fi metoda, atunci când se activează pentru prima dată comanda SAVE, se deschide o fereastră-dialog, precum cea următoare:
fereastra-dialog pentru salvarea bazei de date
Aici alegem directorul în care dorim să salvăm fișierul nostru (folosind câmpul SAVE IN din partea superioară a ferestrei) si denumim fișierul (în cazul nostru cu numele FRAȚI) în câmpul FILE NAME din partea inferioară a ferestrei. Apăsam apoi butonul SAVE al ferestrei și operațiunea a luat sfârșit.
Ouput-ul
Până acum am analizat pe scurt două din perspectivele programului SPSS: DATA VIEW și VARIABLE VIEW. Trebuie însă să știți că mai există o perspectivă, o fereastră de fapt, unde programul vă prezintă rezultatele analizei statistice. Această perspectivă sau fereastră, denumită OUTPUT, apare numai ca urmare a folosirii meniului ANALYZE (unde se analizează datele) sau GRAPHS (unde se realizează ilustrațiile grafice).
Pentru a ilustra modul în care apare această perspectivă, vom alege din meniul ANALYZE opțiunea DESCRIPTIVE STATISTICS și comanda DESCRIPTIVES ca în imaginea de mai jos, fără a intra în detalii privind situațiile în care se folosește această comandă (detalii ce vor fi prezentate ulterior):
activarea comenzii DESCRITIVES
Odată activată comanda DESCRIPTIVES pe ecran va apare o fereastră-dialog, tipică pentru prelucrarea datelor în SPSS. Să o analizăm puțin:
fereastra-dialog DESCRIPTIVES
Oricare fereastra-dialog, folosită la prelucrarea datelor, cuprinde patru zone importante:
(1) câmpul ce cuprinde variabilele existente deja în baza de date,
(2) câmpul ce cuprinde variabilele pe care dorim să le analizăm,
(3) butoane sau câmpuri privind opțiunile de analiză
(4) butoanele obișnuite ale oricărei ferestrei.
Butonul cu săgeată (5) este folosit pentru a „transfera" variabilele între câmpurile (1) si (2). în exemplul de față, vom transfera variabila QI1 din câmpul (1) în câmpul (2), pentru a o analiza. Pentru aceasta o vom selecta mai întâi, executând un click simplu pe numele variabilei. Astfel, numele va fi încadrat într-un câmp albastru, faptul indicând că acea variabilă a fost selectată. Apoi, apăsam pe săgeata (5) si vom observa că variabila se va transfera în câmpul (2), ca în imaginea următoare:
„transferul” unei variabile în câmpul pentru analizat
Observați acum cã sãgeata dintre câmpuri și-a schimbat sensul; ea va avea mereu sensul în funcție de câmpul în care a fost selectatã variabila. Mai observați de asemenea cã și butonul OK,care înainte nu era activat a devenit activ. Nu vom folosi acum butoanele sau câmpurile cu opțiunile suplimentare pentru analiză, ci vom apăsa direct butonul OK pentru a observa cum se activează fereastra sau perspectiva OUTPUT a programului.
perspectiva sau fereastra OUTPUT
Mai întâi, observați că această nouă perspectivă vă deschide cu adevărat o nouă fereastră, în sensul că apare în mod distinct în bara de sarcini din partea inferioară a ecranului. Revenirea la meniul cu date se face fie prin comanda ALT+TAB (apăsând simultan, scurt, aceste butoane) sau apăsând cu mouse-ul pe numele ferestrei din bara de sarcini.
Observați că această nouă fereastră e organizată în două câmpuri:
● câmpul (1) – indică structura sau cuprinsul OUTPUT-ului,
● câmpul (2) – arată conținutul acestuia.
Este ca si cum am avea în partea stângă un catalog ce indică volumele aflate într-o bibliotecă, iar în partea dreaptă am avea conținutul acelor volume.
Nu insistăm acum asupra conținutului acestei analize, acesta fiind obiectul capitolelor viitoare.
Exercițiu:
Realizați o analiză similară si pentru variabila QI2
STATISTICA DESCRIPTIVA (1)
cum să dăm un înțeles datelor brute –
Cuprins:
1.- Generalități
2.- Identificarea tendinței centrale
3.- Analiza variabilității
– Folosirea SPSS: meniul ANALYZE – FREQUENCIES
– Folosirea SPSS: meniul ANALYZE – DESCRIPTIVES Folosirea SPSS:
– Grafice – histograme, bare, linii, „plăcintă", box-plot
Cum vă place berea, cu etichetă sau fără etichetă?
Multe departamente de marketing ale firmelor producătoare de alimente sunt interesate de preferințele consumatorilor. Una din cele mai acerbe concurențe pe piață este între firmele producătoare de bere. Bani grei au fost alocați de marile firme pentru a testa gustul clienților fideli. Nu e puțin lucru să știi ce apreciază băutorul de bere la o anumită marcă.
în general, două tipuri de informații sunt de interes pentru departamentele de marketing: (1) preferința consumatorilor (estimată pe o scală) pentru marca proprie față de cele ale competitorilor atunci când sticlele sunt clar etichetate și (2) preferința acelorași consumatori atunci când servesc băutura din sticle neetichetate, când singurul indiciu de apreciere rămâne gustul. Având aceste informații, departamentele de marketing sunt capabile să determine dacă preferința pentru o anume marcă depinde de calitățile fizice ale produsului sau doar de imaginea mărcii, promovată prin reclamă (care este și ea, în ultimă instanță rodul muncii celor de la marketing, nu?).
Un studiu faimos, folosind astfel de date a fost realizat de R. Allison și K. Uhl, în 1965, în Statele Unite. Ei au ales un eșantion reprezentativ de 326 băutori de bere (bărbați ce consumau bere de cel puțin trei ori pe săptămână). In prima săptămână ei le-au dat să bea bere din sticle etichetate ale diverselor mărci de prestigiu din domeniu. La sfârșit ei au apreciat pe o scală preferința pentru fiecare dintre acele mărci de bere. în săptămâna următoare experimentul s-a repetat, de data aceasta însă consumatorii nemaiavând la îndemână etichetele pe sticlele de bere. La sfârșit, ei au apreciat din nou preferința pentru o anume bere, fără a ști cărei marcă aparține. Rezultatele obținute de cei doi cercetători au arătat că consumatorii nu au fost capabili să identifice o anume marcă de bere numai pe baza gustului. Mai mult, metodele statistice le-au permis acestora să infereze faptul că rezultatul este apHcabil băutorilor de bere în general, nu numai celor 326 luați în calcul în studiu. Ulterior, astfel de studii s-au făcut și pentru băuturi răcoritoare (Coca-Cola și Pepsi), precum și pentru mărci celebre de cafea.
Concluzia studiilor este aceea că noi, ca și consumatori, suntem mult mai ml itfle imaginea unei mărci, a unui produs decât de calitățile fizice, "reale" ale uia. Aviz departamentelor de marketing și cheltuielilor publicitare, nu?
Deci, cum vă place berea: cu etichetă sau fără etichetă?
Există câteva motive pentru care este necesară studierea statisticii în psihologie si în științele sociale în general. Mai întâi, înțelegerea metodelor statistice este crucială pentru înțelegerea si citirea corectă a articolelor de specialitate. Cel ce nu cunoaște metodele statistice nu va putea să citească aceste materiale decât superficial și nu va fi capabil să înțeleagă tabelele, graficele și corectitudinea concluziilor deduse din cercetare. Al doilea motiv pentru care e necesară studierea statisticii este acela că, fără a avea deprinderile necesare în mânuirea metodelor statistice, nu se poate face cercetare experimentală, în fine, înțelegerea metodelor statistice ajută la dezvoltarea gândirii analitice și critice.
Generalități
Ce este însă statistica? Ea este un instrument care a evoluat din pornind de la procesele de bază ale gândirii: atunci când observăm un fapt ne întrebăm ce anume 1-a determinat, care a fost cauza. Astfel, avem o anume intuiție asupra a ceea ce a provocat acel fapt, facem o presupunere și în continuare încercăm să ne testăm ipoteza printr-o altă observație, uneori încercând să facem unele mici modificări pentru a ne testa intuiția. Ceea ce ne interesează este dacă noua noastră observație este exactă, dacă ceea ce observăm din nou este un fapt regulat și nu unul cauzat de întâmplare și dacă avem dreptate în ceea ce privește intuiția noastră. În același mod, statistica este o metodă de a testa sau stabili adevărul. Desigur nu este vorba de adevărul absolut, ci de stabilirea probabilității ca observația efectuată să aibă cauze precise și să nu fie provocată doar de întâmplare.
Să considerăm un exemplu hazliu, care ilustrează însă foarte bine care este rolul metodelor statistice. Imaginati-va că fierbem o oală de fasole. După un timp, după ce am pus fasolele pe foc, trebuie să verificăm dacă acestea au fiert. Ce facem? Luăm într-o lingură câteva boabe și le gustăm. Dacă acestea sunt fierte, decidem că și restul fasolelor sunt fierte. Este acest raționament corect? De unde știm că nu am luat din întâmplare tocmai pe cele mai fierte dintre boabe? Ei bine, metodele statistice fac tocmai acest lucru. Ele ne pot spune, cu oarecare precizie, pornind de la aceste câteva boabe de fasole, dacă și celelalte din toată oala sunt fierte. Cu alte cuvinte, statistica ne ajută să facem generalizări ale unor efecte la nivelul unor populații largi, pornind de la rezultatele obținute pe eșantioane sau grupuri mici de oameni.
Există două ramuri principale privind metodele statistice în psihologie:
• statistica descriptivă – cuprinde metodele ce ajută psihologii să descrie si să grupeze în diferite moduri grupurile de rezultate obținute în cercetări, metode ce ajută la descrierea scorurilor.
• statistica inferențială – cuprinde metodele ce ajută psihologii să tragă concluzii pe baza rezultatelor obținute si să le generalizeze la populații mai largi decât cele testate inițial.
In general, într-o cercetare este preferabil să utilizăm ambele metode, pentru că fiecare dintre ele ne oferă anumite tipuri de informații. De regulă, metodele inferențiale nici nu se utilizează dacă nu se aplică mai întâi cele descriptive,
în cercetarea psihologică se lucrează cu variabile. O variabilă este acea proprietate a unui fenomen, obiect sau proces care poate să ia diferite valori, deci care poate să varieze.
Spre exemplu, notele care se pot lua la scoală, zilele săptămânii, vârsta etc. sunt toate variabile. O variabilă este descrisă de valori. Spre exemplu, pentru variabila "nota școlară" valorile acesteia sunt toate notele de la l la 10 pe care le poate cineva lua la scoală. Pentru variabila "zilele săptămânii" valorile sunt toate cele 7 zile ale săptămânii, în psihologie se face distincția între valori si scoruri. Un scor este valoarea obținută de o persoană, fenomen, obiect, proces situație atunci când ne referim la o anume variabilă. Spre exemplu, nota pe care o ia George la scoală (să zicem 7) este un scor al acestui subiect la variabila "nota școlară". Cu toate acestea, valorile variabilei menționate sunt în număr de zece: l, 2, 3, 4, 5, 6, 7, 8, 9 și 10. Dar un subiect nu poate avea decât una din aceste valori, iar aceea este numită scor.
De obicei, rezultatele unui experiment psihologic sunt date de un grup de scoruri.
Un procedeu prin care se poate analiza acest grup de scoruri este acela de a folosi dubele de frecvență. Un tabel de frecvență arată câți subiecți obțin sau au o anume valoare la o variabilă. Spre exemplu, un tabel de frecvență făcut pentru variabila "nota scolarã" arată câți elevi dintr-un grup au obținut o notă anume, ca în tabelul de mai jos:
Există trei pași în realizarea unui tabel de frecvențe fără ajutorul calculatorului:
• se face o listă cu toate valorile posibile pe care le poate lua variabila si se trec într-o coloană, unele sub altele, în ordine descrescătoare.
• se parcurg toate scorurile obținute corespunzătoare fiecărei valori ale variabilei si se bifează.
• se trece în tabel numărul de bifări astfel obținut.
Un tabel de frecvență realizează o descriere a grupului prin aceea că arată care sunt tendințele, cum au subiecții tendința de a se grupa în jurul anumitor valori.
Tabelele de frecvență se pot reprezenta si grafic prin histograme, caz în care tendințele dintr-un grup de rezultate se observă mai bine.
Histograma tabelului de frecvență de mai sus este prezentată în continuare:
Existã patru etape în realizarea unei histograme, fãrã ajutorul calculatorului:
• se face mai întâi un tabel de frecvențe.
• pe axa orizontală (X) se trec toate valorile pe care le poate lua variabila.
• pe axa verticală (Y) se marchează frecvența sau numărul de subiecți ce au obținut un anume rezultat.
• se trasează bare verticale pentru fiecare valoare în parte a variabilei, ce vor avea înălțimea egală cu numărul de subiecți ce au obținut o anume valoare.
O altă modalitate grafică de a reprezenta un tabel de frecvențe este prin poligoanele de frecvență. Acestea se obțin din histograme, prin unirea mijloacelor părților superioare ale barelor sau histogramelor, așa cum este arătat mai jos.
Un poligon de frecvență exprimă o distribuție a rezultatelor, în sensul că arată cum se distribuie sau cum se "împrăștie" rezultatele în jurul anumitor valori ale unei variabile. De aceea, forma pe care o ia această distribuție este un alt mod de a descrie un pup de rezultate.
Există trei parametri, trei caracteristici prin care este descrisă o distribuție:
1.- modalitatea – este un aspect important al distribuției care arată câte "vârfuri" are o distribuție. Cu alte cuvinte, arată câte valori sunt în jurul cărora se grupează foarte mulți subiecți. Din acest punct se vedere, distribuțiile pot fi unimodale, adică au un singur vârf, sau ele pot fi multimodale, adică au mai multe vârfuri.
2.- înclinarea – este un aspect al distribuției care arată dacă scorurile subiecților testați au tendința de a fi mai mari sau mai mici. Spre exemplu, notele școlare au o distribuție înclinată spre dreapta, adică elevii au tendința de a lua mai mult note mari decât note mici. Atunci când înclinarea curbei este spre dreapta, spunem că avem o distribuție înclinată pozitiv. Atunci când distribuția este înclinată spre stânga, spunem că aceasta este negativă. Dacă nu se observă nici o tendință de înclinare, atunci distribuția este simetrică.
3.- turtirea- este un aspect ce se referă la faptul dacă o distribuție este foarte turtită (adică scorurile din cadrul ei variază foarte mult) sau este mai ascuțită (adică scorurile variază foarte puțin). Vom reveni asupra acestui aspect atunci când vom discuta despre curba normală.
Definiții:
• Variabilă: o proprietate a unui fenomen care poate lua diferite valori.
• Valoare: o măsură calitativă sau cantitativă a unui fenomen.
• Scor: o valoare particulară obținută de un anumit subiect.
• Distribuție: modul în care se prezintă un grup. de rezultate.
Criterii de clasificare a variabilelor:
a) după natura măsurii:
– cantitative (variază cantitatea);
– calitative (variază felul).
b) după felul variației:
– continui (între oricare două valori mai găsim o a treia);
– discrete (variază luând valori dinainte specificate).
c) după scopul folosirii lor în studii:
– independente (manipulate sau invocate de experimentator, stimuli);
– dependente (observate la subiecți, răspunsuri).
Identificarea tendinței centrale
Dacă o parte din metodele descriptive ne folosesc uneori să organizăm rezultatele sau scorurile noastre, alteori avem nevoie de metode pentru a putea descrie mult mai pe scurt ceea ce se întâmplă în distribuția noastră. Avem astfel nevoie de metode ce arată tendința centrală (ce tendințe apar) într-o mulțime de scoruri. Astfel, matematicienii s-au gândit să descrie un grup de scoruri printr-un singur număr. Media aritmetică este un astfel de număr.
Media aritmetică este considerată a fi o metodă descriptivă pentru că ea descrie tendința centrală într-un grup de rezultate sau arată valoarea tipică sau reprezentativă pentru acele scoruri. Formula matematică a mediei aritmetice este:
M= Σx (1)
N
Ce arată sau care este mai precis semnificația mediei?
Să luăm un exemplu. Mai jos vă prezentăm un grup de scoruri care arată preferința studenților față de statistică, pe o scală de la l (nu-mi place deloc) până la 6 (îmi place foarte mult): 4,6,2,2,1,2,3,2,4,4
Calculul mediei, conform formulei (1) este:
M= Σx = 30 = 3
N 10
Care este semnificația acestui "3"? Ce arată el dincolo de suma scorurilor împãrțitã la numărul total de scoruri? Ne vom folosi de histograma acestei distribuții pentru a defini media, într-un mod intuitiv.
Imaginați-vã cã pe o scândurã așezãm niște cuburi, egale ca dimensiune unul cu altul, la diferite distanțe, ca în imaginea de mai jos:
Observați că aceste cuburi sunt așezate similar cu segmentele din histogramă, în aceleași poziții. Acum urmează întrebarea: unde anume trebuie să așezăm un buștean astfel încât scândura și cuburile de pe ea să rămână în echilibru? Răspunsul este în dreptul mediei.
Pornind de la această constatare ajungem și la semnificația acestei măsurători statistice: media este punctul fată de care scorurile sunt egal depărtate, cu alte cuvinte, abaterile de la medie într-o direcție (ex. ale scorurilor mai mici ca ea) sunt egale cu abaterile în cealaltă direcție (ex. scorurile mai mari).
O altă metodă de a descrie tendința centrală a unui grup de scoruri este mediana. Și ea împarte distribuția în două părți, dar de data aceasta din punctul de vedere al frecventelor. Astfel, jumătate dintre scorurile dintr-o distribuție vor avea valori mai mici decât mediana, iar restul – valori mai mari.
Pentru a calcula mediana sunt necesare două etape:
1) ordonăm scorurile crescător sau descrescător
2) împărțim numărul de scoruri (N) la 2.
Dacă N este par, atunci "mijlocul" distribuției "cade" între scorurile situate la mijloc; dacă N este impar, atunci mediana este chiar scorul situat la mijloc.
Să urmăm acești pași pentru scorurile prezentate mai sus, care reprezintă părerea studenților fată de statistică.
Pasul 1: ordonarea scorurilor.
Pornind de la distribuția:
4,6,2,2,1,2,3,2,4,4
prin ordonare ajungem la distribuția
1,2,2,2,2,3,4,4,4,6
Fiind 10 scoruri (deci număr de subiecți par, iar jumătatea lui 10 fiind 5), mediana se va găsi între scorurile din mijloc, deci între scorurile al 5-lea si al 6-lea. Săgeata de mai jos arată poziția medianei, care este astfel 2,5 (media dintre aceste scoruri din mijloc).
1,2,2,2,2,3,4,4,4,6
Uneori, deși mai rar, obișnuim să descriem o distribuție prin modul. Acesta este valoarea cu frecvența cea mai mare.
În exemplul de mai sus, valoarea 2 este întâlnită cel mai frecvent (apare de 4 ori), deci modulul distribuției noastre va fi 2.
Când folosim totuși una din aceste metode pentru a descrie tendința centrală a unei distribuții? Care dintre ele este mai "bună" și în ce condiții? Pentru a răspunde la această întrebare să analizăm ce factori influențează pe fiecare din ele.
● Dacă la exemplul de mai sus mai adăugăm încă un scor (să zicem un 5), observați ce se modifică:
Media va fi 3,18;
Mediana va fi 3;
Modulul va fi tot 2.
●Dacă luăm din distribuție un scor, un 4 spre exemplu, schimbările vor fi:
Media va fi 2,88;
Mediana va fi 2;
Modulul va fi tot 2.
●Dacă adăugăm 2 scoruri, un 2 și un 5, spre exemplu, vom avea următoarele
Media va fî 3,08;
Mediana va fi 2,5;
Modulul va fi tot 2.
Din cele de mai sus, constatăm că modulul este una dintre mărimile ce sunt cel mai mult afectate de schimbări în structura distribuției (număr de scoruri sau mărimea acestora ).
Mediana este și ea destul de stabilă, însă media este cea mai "sensibilă" dintre toate aceste mărimi. Concluzia este aceea că media este cea mai descriptivă (întrucât arată orice modificare survenită în distribuție), dar este recomandat să se folosească mai mult în distribuțiile simetrice și unimodale, în timp ce mediana și modulul, mai stabile sunt recomandabile în descrierea distribuțiilor asimetrice și multimodale. Un exemplu concret ar fi de folos:
Exemplu
Pe o plantație de cafea lucrează 99 oameni care câștigă 100 dolari lunar (deci într-o lună ei câștigă 9.900 dolari). Patronul plantației are un venit lunar de 2.100 dolari, în total, cele 100 persoane (patronul și angajații) de pe plantație câștigă 12.000 dolari lunar, deci în medie 120 dolari/lună/persoană. Cu toate acestea, dacă ne deplasăm pe plantație, în 99% de cazuri vom întâlni persoane care câștigă sub valoarea medie, abia în 1% din cazuri găsind pe cineva cu venituri peste medie (patronul). Dacă însă calculăm mediana (ordonând cei 99 de 100 și valoarea de 2100 – venitul patronului) vom vedea că valoarea ei este exact 100 (mijlocul distribuției va "cădea" exact între două scoruri de 100), la fel și modulul. Deci aceste două din urmă măsurători sunt mult mai aproape de realitate în cazul unei distribuții anormale, asimetrice.
Cu toate aceste diferențe între cele trei metode de stabilire a tendințelor centrale a unei distribuții, media aritmetică rămâne metoda cel mai des utilizată și ea intră în componența multora dintre metodele statistice cunoscute. Există însă cazuri (ex. testele neparametrice), unde mediana și modulul sunt metodele folosite.
Analiza variabilității
Cunoașterea mediei (sau a medianei) nu ne este uneori de folos în a descrie complet o distribuție.
Să presupunem că știm despre un grup de persoane că are media de vârstă de 20 ani. Ce înseamnă acest lucru? Au toți membrii grupului exact 20 de ani fiecare? Sau poate jumătate dintre ei au 10 ani și jumătate 30? Ori poate un sfert au 18, un sfert – 19, un sfert 21 și restul 22? Fiecare din aceste situații ne arată lucruri diferite, nu-i așa?
După cum observați, cunoașterea doar a mediei nu este suficientă pentru a ne oferi informații complete despre "realitatea" din grup; avem nevoie să cunoaștem și gradul de variabilitate din scorurile noastre. Mai precis, avem nevoie să știm cât de mult (și eventual cu cât) se împrăștie scorurile în jurul valorii medii, a tendinței centrale.
Un exemplu din viața cotidiană care să vă arate că avem nevoie de cunoașterea variabilității, în general, este acela al pungilor de cafea (sau orice alt produs alimentar livrat într-un ambalaj). O privire atentă pe pungă ne arată gramajul conținutului sub forma greutate netă l00g ± 5 g. Ce înseamnă această indicație? Faptul că pungile de cafea, deși ambalate de o mașinărie, nu sunt toate de greutate egală și că majoritatea pungilor au greutatea conținutului cuprinsă între 95 și 105 grame. Suntem sau nu mai bine informați?
Varianta
Varianta unei distribuții arată cât de "împrăștiate" sunt scorurile în jurul valorii centrale, care este gradul de variabilitate în grupul nostru de rezultate.
Să vedem etapele calculării variantei. Vom utiliza ca exemplu niște date culese de la o companie care are 10 departamente. Scorurile prezentate mai jos arată câte persoane lucrează în fiecare departament în parte:
2, 8, 12, 10, 20, 3, 7, 14, 6, 18
Să vedem care sunt etapele de calcul ale variantei.
• calcularea mediei
In primul rând avem nevoie de cunoașterea mediei. Ea se obține pe calea obișnuită, împărțind suma scorurilor la numărul lor. în cazul nostru, media este m=10.
• calculul abaterilor simple de la medie
Prima dată când s-au gândit să calculeze varianta, matematicienii au pornit de la calculul abaterilor simple de la medie. Pentru aceasta ei au realizat un tabel, diferit de cel al frecvențelor, în sensul că folosea scorurile și nu valorile variabilei.
Inițial matematicienii au dorit să lucreze cu aceste abateri simple de la medie, dar după cum observați unele sunt pozitive, altele sunt negative, astfel că adunate, ele se anulează una pe alta (aceasta este de altfel si proprietatea mediei, nu?).
Atunci o soluție a fost să ridicăm la pătrat aceste abateri simple de la medie, pentru a obține prin adunare un număr pozitiv.
• calculul pătratului abaterilor de la medie
Continuând tabelul mai adăugăm încă o coloană unde vom calcula pătratul abaterilor de la medie.
Adunând aceste pătrate obținem o valoare pozitivă (notată cu SS, din englezescul sum of squares – suma pătratelor, întâlnită uneori în cărțile românești de statistică sub prescurtarea SP, suma pătratelor), în cazul nostru,
SS = 326.
Ce se întâmplă însă cu SS? Poate fi el folosit ca o măsură a variabilității? Încă nu, pentru că el depinde de numărul de scoruri.
Observați că dacă mai adăugăm un scor la cele existente se schimbă media, iar acest nou scor va abate probabil de la noua medie cu o oarecare cantitate, ce, ridicată la pătrat, face ca SS să crească.
Similar, dacă eliminăm un scor, SS scade. Pentru a obține o valoare care să nu depindă de numărul de scoruri, vom împărți pe acesta la N, tocmai la numărul de scoruri.
• divizarea la numărul de scoruri sau cazuri pentru ca SS să nu depindă de N
Această valoare nouă, obținută prin împărțirea lui SS la N este tocmai varianta, notată SD².
Deci,
SD² = (2)
În exemplul nostru SD² = 32,6
Aceasta este tocmai varianta. Repet, ea este o măsură a gradului de variabilitate a scorurilor și arată cât de mult se abat ele de la tendința centrală. Cu cât este mai mare această valoare, cu atât mai mult se împrăștie scorurile în jurul valorii centrale. Este ca și cum am cunoaște strălucirea unui bec (în sensul că e foarte strălucitor sau mai puțin strălucitor), dar nu am ști câți wați are el (75 sau 100?). Pentru a cunoaște exact cu cât variază, scorurile în medie (acele 5 grame în plus sau în minus de pe punga de cafea), este nevoie să calculăm deviația standard.
Deviația standard
Deviația standard ne este mult mai utilă. Ea arată cu cât se împrăștie scorurile în jurul valorii centrale și – fapt poate mai important – se măsoară în aceleași unități de măsură ca și variabile inițială, X. Ea este pur și simplu rădăcina pătrată a variantei, deci
SD= (3)
În exemplul nostru valoarea lui SD este 5,70.
Semnificația deviației standard
Acum, având la dispoziție și media și deviația standard putem descrie mult mai bine distribuția scorurilor din exemplul nostru. Cunoaștem astfel că numărul de persoane ce lucrează la departamentele firmei sus-pomenite este de 10 ± 5,7. Cu alte cuvinte știm că limita minimă a variației normale a scorurilor este 4,3 (obținută din 10-5,7), iar limita maximă este 15,7 (obținută din 10+5,7). Aproximând la numere întregi, deși pierdem câte ceva din vedere în acest fel, putem afirma că la firma respectivă lucrează între 5 și 15 persoane în fiecare departament. Dacă valoarea mediei descria doar un singur departament din totalul de 10, observăm că acest interval obținut de m ± SD descrie 6 departamente (deci 60% din totalul populației).
Acesta este un aspect important al deviației standard, în mod obișnuit, în intervalul cuprins de o parte și alta a mediei de deviația standard găsim aproximativ 2/3 din totalul scorurilor, deci în acest interval vom avea scorurile considerate tipice sau normale pentru acea distribuție. Imaginea de mai jos este mai sugestivă.
Din această cauză numim această deviație "standard", pentru că orice am măsura, oricare ar fi forma distribuției, găsim mereu aproximativ 2/3 din scoruri în acest interval.
Deviația standard joacă un rol foarte important în calcularea notelor z, denumite si note standard. Prezentarea notelor z se va face însă în capitolul următor.
Folosirea SPSS: meniul ANALYZE – FREQUENCIES
Vom arăta în continuare cum se calculează parametrii unei distribuții (media si abaterea standard) folosind SPSS, mai precis, meniul ANALYZE – FREQUENCIES.
Mai întâi să deschidem sau să încărcăm fișierul denumit employee data.sav. Pentru aceasta folosim comanda FILE -> OPEN -> DATA, comandă prezentată în capitolul anterior. Din fereastra care se deschide (prezentată mai jos), alegem fișierul dorit (employee data.sav) făcând click asupra lui, apoi apăsând butonul OPEN.
selectarea fișierului dorit din meniul FILE – OPEN
Baza de date prezintă rezultatele unei anchete realizată în Statele Unite în anii '90 si reprezintă datele referitoare la angajații unor bănci.
Să ne alegem pentru prelucrare variabila salbe gin. Reamintim că numele variabilelor sunt scrise în capul de tabel, de culoare gri. Ce reprezintă această variabilă? Nu putem ști în mod direct. Pentru a afla acest lucru, trebuie să procedăm ca si cum am dori să definim variabila. De aceea, facem dublu-click în capul coloanei , acolo unde scrie numele variabilei. Va apãrea astfel perspectiva VARIABLE VIEW (ca în imaginea de mai jos):
descrierea variabilei SALBEGIN în perspectiva VARIABLE VIEW
Pentru a vedea ce reprezintă salbegin ne uităm în câmpul LABEL, unde citim "beggining salary", ceea ce înseamnă "salariul inițial sau de început". Vom lucra astfel cu date ce arată salariul inițial al subiecților analizați.
Să calculăm unii parametrii ai distribuției. Vom folosi pentru aceasta comanda ANALYZE-SUMMARIZE-FREQUENCIES care deschide fereastra FREQUENCIES
de unde ne vom putea alege opțiunile: calculul mediei, medianei, modulului, precum si al deviației standard.
O datã aleasã aceastã opțiune, pe ecran va apãrea fereastra de mai jos care vã permite alegerea variabilelor de analizat, precum și opțiunile de analizã:
Aici selectãm variabila doritã ( ca în imagine ) și acționând sãgeata dintre câmpuri, vom transfera variabila aleasã în câmpul cu variabile de analizã. Pentru mai multe detalii revedeți ultima parte a capitolului precedent.
Vom prezenta detaliat această fereastră, urmând ca la altele asemănătoare să nu mai insistăm detaliat ulterior, întrucât aproape toate ferestrele de analiză au această structură. Unde va fi însă cazul vom prezenta elementele de noutate.
(1) reprezintă câmpul unde sunt prezentate variabilele din baza de date;
(2) aceasta este o opțiune; seninul din pătrățel (similar cu sigla Nike sau Rexona) indică faptul că opțiunea este activă, în cazul de față, activarea opțiunii permite realizarea tabelului de frecvențe; menționăm că, din start, opțiunea este activă, iar dezactivarea ei atrage după sine un mesaj de avertisment din partea programului;
(3) este săgeata care permite transferul variabilelor din câmpul cu lista din baza de date, în cel de analiză;
(4) este câmpul unde trebuie transferate variabilele de analizat;
(5) este un buton care deschide o fereastră cu opțiunile de prelucrare statistică (va fi prezentată în continuare);
(6) un buton care permite realizarea graficelor concomitent cu prelucrarea statistică;
(7) este un buton ce permite modificarea formei OUTPUT-ului;
(8) acestea sunt butoanele comune, obișnuite ale ferestrei.
După ce am ales variabila sau variabilele pe care dorim să le analizăm, trebuie selectate opțiunile de analiză statistică, apăsând butonul STATISTICS. Pe ecran va apare fereastra de mai jos:
Observați că fereastra cuprinde opțiuni, grupate în patru câmpuri. Aceste câmpuri au un titlu si sunt delimitate de o linie gri-deschis. Din titlul câmpurilor puteți deduce la ce se referă opțiunile respective:
• percentile values: permite calcularea diferitelor valori percentile corespunzătoare împărțirii subiecților în grupuri egale sau în funcție de un anumit procentaj ales;
• dispersion: permite calculul diferiților parametri referitori la dispersia sau împrăștierea datelor în jurul valorii centrale (media, de obicei);
• central tendency: permite calculul parametrilor ce arată tendințele centrale ale distribuției (media, mediana, etc.)
• distribution: permite calcularea turtirii și înclinării distribuției pentru a fi comparată cu cea normală (vom reveni ulterior cu detalii, atunci când vom vorbi despre curba normală).
Din această fereastră vom alege pentru moment (bifând sau făcând click cu mouse-ul în pătrățelul opțiunii) doar: media, mediana, modul, varianta, deviația standard, minimul si maximul. Apăsați apoi CONTINUE si deschideți fereastra CHARTS. Pe ecran va apare o fereastră precum cea următoare:
Observați că si aici avem două câmpuri. Unul permite alegerea tipului de grafic (cu bare, plăcinte sau histograme), iar al doilea permite alegerea tipului de valori din grafic (frecvențe sau procentaje). Vă recomandăm să nu alegeți acum nici o opțiune si să realizați graficele separat, întrucât astfel vom avea o libertate mai mare în realizarea lor. Apăsați CANCEL si activați fereastra FORMAT prin apăsarea pe butonul cu același nume, care deschide fereastra:
Și aici avem două câmpuri: unul pentru opțiuni privind aranjarea rezultatelor în ordine crescătoare sau descrescătoare, etc.) si altul privind compararea variabilelor sau organizarea separată a foii de rezultate, în funcție de variabile.
Fereastra de mai sus ilustrează modul în care se prezintă foia de rezultate (OUTPUT), după ce ați revenit în fereastra principală DESCRIPTIVES si ați apăsat butonul OK.
Observați organizarea ei: în partea superioară se află o bară de butoane; în stânga este un câmp care vă arată structura OUTPUT-ului, iar în câmpul din partea dreaptă – conținutul OUPTUT-ului.
După titlul foii de rezultate (FREQUENCIES), observați că sunt prezentate două tabele: primul arată parametrii statistici pe care i-am cerut prin activarea ferestrei STATISTICS, iar a doua fereastră prezintă tabelul frecvențelor.
Observați că numărul din primul tabel, din dreptul mențiunii VARIANCE (care arată varianta rezultatelor) nu este prezentat normal, ci prescurtat, din cauza lățimii prea mici a coloanei. Pentru a modifica orice dimensiune a tabelului, ca de altfel a oricărei forme de prezentare a rezultatelor, executați un click-dublu asupra zonei dorite, în acel moment, un cadru special sau chiar o fereastră nouă va încadra zona aleasă si cu ajutorul mouse-ului puteți modifica dimensiunile (similar cu modificarea tabelelor în WORD sau EXCEL).
cadrul de modificare al tabelului
Tabelul următor prezintă tabelul frecvențelor realizat pentru variabila aleasă. El are cinci coloane:
● prima prezintă rezultatele valide (adică nu si cazurile lipsă),
● a doua coloană arată frecvența propriu-zisă (ex. 4 persoane au un venit inițial de $9000),
● a treia coloană arată ce procentaj au aceste persoane raportat la numărul total al subiecților,
●a patra coloană – procentajul raportat la numărul total al scorurilor valide (fără cazuri lipsă adicã),
● a cincea coloanã aratã procentajul cumulat de cel mai mic scor pânã la cel prezent.
tabelul frecvențelor
EXERCIȚIU: faceți aceeași analizã pentru variabila CURRENT SALARY
Folosirea SPSS: meniul ANALYZE – DESCRIPTIVES
Acum să prezentăm analiza descriptivă a rezultatelor realizată cu ajutorul comenzii DESCRIPTIVES. După cum veti vedea, există similarități cu comanda precedentă, dar si diferențe. Din meniul ANALYZE activați comanda DESCRIPTIVES, care va deschide fereastra de mai jos:
Ea este similară cu cea de la FREQUENCIES, doar că are mai puține butoane cu opțiuni (unul în loc de trei). Alegeți variabila pentru analiză (BEGINNING SALARY) si transferați-o în câmpul pentru analiză, folosind săgeata dintre câmpuri. Opțiunea din partea stângă-jos vă permite salvarea în baza de date a unei noi variabile care va conține note z ale variabilei analizate. Apãsați apoi butonul OPTIONS care va deschide fereastra urmãtoare:
Aici observați că găsim mai puține opțiuni de analiză statistică decât în cazul meniului anterior, sunt doar cele de bază; de aici si concluzia: comanda DESCRIPTIVES se aplică atunci când avem de analizat din punct de vedere descriptiv, simultan, mai multe variabile sau când ne interesează doar parametrii de bază ai variabilelor, fără tabelele de frecvențe.
Apăsam CONTINUE si apoi butonul OK pentru a face să vă apară pe ecran OUTPUT-ul:
fereastra cu rezultatele analizei DESCRIPTIVES
De această dată apare doar un singur tabel care vă prezintă parametrii statistici solicitați. Observați că, din nou, varianta și deviația standard nu sunt prezentate complet datorită lățimii mici a coloanelor.
Executați click-dublu asupra tabelului și modificați-i dimensiunile, la fel ca în WORD.
Folosirea SPSS: Grafice – histograme, bare, linii, „plăcintă", box-plot
Se spune că o imagine face cât o mie de cuvinte. Vom prezenta în continuare diferite moduri de reprezentare grafică a rezultatelor. Toate se găsesc în meniul GRAPHS, dar apar uneori și ca opțiuni în unele ferestre de prelucrare statistică din meniul ANALYZE.
1.- Histograme
Vom alege pentru început opțiunea HISTOGRAM, ca în imaginea de mai jos:
alegerea meniului pentru histograme
O datã activatã aceastã opțiune, ea va deschide urmãtoarea fereastrã:
fereastra histogramelor
În cadrul acestei ferestre alegem o singură variabilă pentru care dorim să facem reprezentarea grafică sub forma histogramei, în cazul nostru SALBEGIN (beginning salary) si o introducem – cu ajutorul butonului cu săgeată – în câmpul denumit VARIABLE. Putem bifa opțiunea DISPLAY NORMAL CURVE, opțiune care va afișa curba normală a populației de eșantioane din care provine eșantionul nostru, în cazul nostru nu vom bifa această opțiune. Pentru a obține graficul, după aceste operații apăsam butonul OK.
histograma variabilei SALBEGIN
O histogramă, așa cum se vede si în imaginea de mai sus, este un grafic în care barele sunt lipite una de alta. în ceea ce privește variabila prezentată grafic mai sus, constatăm că ea are o distribuție asimetrică, valorile mici predominând ca frecvență. Această distribuție este tipică pentru reprezentarea grafică a venitului în rândul oricărei populații. Explicația constă
în aceea că în orice populație există câțiva indivizi care câștigă mult, în timp ce majoritatea câștigă la un nivel mediu sau scăzut, comparativ cu acești indivizi. Observăm în exemplul de mai sus că în timp ce marea majoritate câștigă până la 20.000 dolari anual, există câteva persoane (barele de frecvență din partea dreaptă abia se zăresc pe grafic) care câștigă și până la 80.000 dolari anual.
Este posibil să dorim să modificăm diferite aspecte ale graficului realizat de SPSS. Pentru aceasta trebuie să efectuăm un dublu-click pe grafic si vom observa că se deschide o altă fereastră numită CHART EDITOR, care are în partea de sus o bară cu meniuri si o alta cu butoane ce folosesc la modificarea diferiților parametrii ai graficului (ex. culoarea barelor, hașura lor, adăugarea sau modificarea titlului, etc.), ca în imaginea de mai jos.
unele butoane utile ale editorului de grafice
Pentru a modifica un anume parametru al graficului, se selectează zona pe care dorim să o modificăm (ex. dacă dorim modificarea barelor, facem un click simplu pe ele) si apoi se activează unul din butoane. Am selectat mai sus doar patru din butoanele mai importante. Ele vor deschide mici ferestre de unde puteți modifica parametrii, după care apăsați pe butonul APPLY si închideți mica fereastră.
(1) acest buton va modifica hașura barelor
(2) de aici se modifică culoarea barelor
(3) acest buton servește la modificarea tipului și mărimii literelor titlurilor sau mențiunilor-text din grafic
(4) butonul permite afișarea valorilor numerice pe bare.
Să luăm un exemplu și să vedem cum putem adăuga un titlu graficului nostru. Vom face acest lucru din meniul CHART, comanda TITLE, ca în imaginea de mai jos.
În fereastra care se va deschide tipăriți titlul SALARIUL DE LA ÎNCEPUT si apăsați butonul OK. Titlul va apare deasupra graficului.
Mai putem, de asemenea, să modificăm si alți parametri. De exemplu, un dublu-click asupra axei orizontale a graficului deschide fereastra de mai jos de unde putem modifica aranjamentul titlului axei (opțiunea TITLE JUSTIFICATION), titlul în sine, etichetele (adică sumele corespunzătoare fiecărei bare a histogramei), etc.
Într-un mod similar putem modifica parametrii legați de axa verticală, efectuând un dublu-click pe aceasta, acțiune care va deschide fereastra de mai jos.
Aici putem modifica intervalul de măsură, titlul axei si putem cere trasarea unor linii orizontale la diferite niveluri.
Pentru a modifica parametrii oricărui titlu, efectuați un click-dublu, care va deschide fereastra de mai jos, de unde se modifică stilul si mărimea literelor. După care apăsați butonul APPLY si apoi CLOSE.
2.- Grafice cu bare
Pentru a realiza grafice cu bare trebuie activat meniul urmãtor:
Imediat, apare fereastra de mai jos, de unde trebuie selectat tipul de grafic cu bare ce dorim sã-l realizãm.
Două sunt opțiunile ce le putem face aici:
(1) alegerea graficului în funcție de variabilele din cercetarea noastră
• simple: alegem această opțiune când dorim să prezentăm variabila sau variabilele dependente din cercetarea noastră în funcție de una din variabilele independente.
• clustered: se folosește pentru a reprezenta una sau mai multe variabile dependente în funcție de două variabile independente.
• stacked: se folosește la fel ca opțiunea de mai sus, doar graficul este realizat altfel.
(2) alegerea graficului în funcție de date
• summariesfor groups of cases: este opțiunea cea mai frecventă și dacă este aleasă, atunci fiecare bară reprezintă rezultatele unui grup de cazuri (ex. numai pentru grupul subiecților femei).
• summaries of separate variables: fiecare bară reprezintă în acest caz o variabilă; această opțiune e folosită mai ales în studiile de tip test-retest sau pentru variabilele care măsoară de obicei același lucru (sau măcar se exprimă în aceleași unități de măsură).
• values of individual cases: după cum spune și numele, această opțiune face ca barele să reprezinte valoarea cazurilor individuale; în acest caz graficul va semăna mult cu o histogramă.
Pentru exemplul nostru, vom alege să reprezentăm variabila dependentă SALBEGIN (salariul inițial), în funcție de sexul subiecților (GENDER). Vom alege astfel tipul de grafic simplu (simple) si opțiunea de grafic pentru grupuri de cazuri (adică fiecare bară va reprezenta valorile pentru unul din sexe). Apăsam apoi butonul DEFINE si pe ecran va apare fereastra:
Observați că această fereastră este împărțită în mai multe zone (câmpuri) pe care le vom descrie sumar mai jos:
(1) – este câmpul în care se găsesc variabilele existente în baza de date si
de unde alegem pe acelea care trebuie reprezentate grafic;
(2)- acest câmp precizează ce anume dorim să reprezinte variabilele noastre (ex. numărul cazurilor, procentaje, etc.). în exemplul nostru, dorim să reprezentăm media câștigului salarial pe sexe. Deoarece media nu se găsește în opțiuni, vom alege OTHER SUMMARY FUNCTION și în momentul în care introducem variabila aleasă în câmpul respectiv (cu ajutorul butonului cu săgeată), vom constata că acolo apare cuvântul MEAN (adică media). Dacă însă am dori să reprezentăm altceva decât media, spre exemplu mediana, atunci ar trebui să apăsam pe butonul CHANGE SUMMARY.
(3) – odată apăsat acest buton, el deschidă o altă fereastră, cu multe opțiuni. Fereastra este prezentată mai jos și constatăm că ea conține foarte multe opțiuni (ex. să reprezentăm deviația standard sau doar procentajele cazurilor ce depășesc o anume valoare, etc.)
de aici ne alegem mai detaliat ceea ce vrem sã reprezentãm grafic
(4) în acest câmp vom introduce variabila independentă în funcție de care facem reprezentarea grafică, în cazul nostru sexul subiecților (GENDER).
(5) – este o opțiune ce permite ca setările (aranjamentele) pe care le-am folosit într-un grafic executat anterior să fie aplicate si în cazul graficului de față. Dacă bifați această opțiune trebuie apoi să folosiți butonul FILE pentru a selecta fișierul de unde doriți să „împrumutați" setările.
(6) – folosind aceste butoane puteți adăuga un titlu graficului (butonul TITLE) sau să activați alte opțiuni (OPTIONS). De altfel, acest din urmă buton, care deschide fereastra prezentată în continuare, este important pentru a dezactiva opțiunea DISPLAY GROUPS DEFINED BY MISSING VALUES, care realizează graficul si pentru subiecții care nu prezintă valori ale variabilei independente (în cazul nostru pentru subiecții la care am uitat să completăm în baza de date care este sexul lor).
fereastra butonului OPTIONS
Dupã ce am selectat variabilele și opțiunile , vom apãsa butonul OK și computerul va realiza graficul cu bare, ca în imaginea de mai jos:
grafic cu bare
Atenție mare la graficele realizate! Prin construcția lui, programul SPSS alege diferite intervale de reprezentare si – ca urmare – puteți fi induși în eroare în ceea ce privește magnitudinea diferențelor.
Spre exemplu, dacă nu am fi atenți la intervalul de reprezentare (de la 12.000 USD/an la 22.000 USD/an), am putea crede că femeile câștigă de vreo 5 ori mai puțin decât bărbații (ceea ce este fals, desigur), când în realitate, bărbații câștigă de doar l ,5 ori mai mult.
Pentru a remedia o astfel de distorsiune grafică, putem modifica intervalul de reprezentare. Faceți dublu-click pe grafic, apoi pe axa verticală a graficului și în fereastra ce apare, modificați limitele minime și maxime. O astfel de fereastră, numita SCALE AXIS este prezentată în capitolul HISTOGRAME.
3.- Grafice cu linii.
Pentru graficele cu linii nu trebuie să intrăm în detalii, întrucât realizarea lor este extrem de similară cu cea a graficelor cu bare.
Odată selectată opțiunea din meniul GRAPHS, apare fereastra:
de aici selectãm tipul de grafic
Urmați aceeași pași ca și în cazul graficul cu bare și veți obține în final o reprezentare precum cea de mai jos. Atenție, nu uitați să dezactivați opțiunea DISPLAY GROUPS DEFINED B Y MISSING VALUES de la butonul OPTIONS!
așa aratã graficul cu linii
Și aici trebuie sã aveți în vedere problema scalãrii rezultatelor ( intervalul de reprezentare).
4.- Grafice „plãcintã”
Graficele de tip „plăcintă" sunt folosite mai ales pentru a reprezenta grafic valorile (mai ales procentuale) pe diferite categorii, dintr-un întreg dat.
Ele sunt denumite „plăcintă" pentru că valorile sunt reprezentate grafic ca si felii dintr-un tort.
Activarea opțiunii din meniul GRAPHS deschide fereastra de mai jos, care conține doar jumătate din opțiunile ce apar la graficele cu bare sau cu linii. Nu le mai prezentăm întru cât am vorbit despre ele la tipurile anterioare de grafice.
Vom alege prima dintre opțiuni, ca și în cazurile anterioare. Întrucât prezentãm pãrți dintr-un întreg nu putem folosi media ca în graficele anterioare, ci vom folosi suma, așa cum e reprezentat în pagina de mai jos:
Alegerea opțiunii pentru folosirea sumei se face din butonul CHANGE SUMMARY.
Iatã cum aratã un grafic plãcintã:
5.- Graficul „box-plot”
Numele acestui tip specific de grafic este dificil de tradus în limba română, așa că vom folosi numele preluat din limba engleză.
Box-plot-urile sunt grafice speciale, care sunt folosite la reprezentarea simultană a indicatorilor de nivel (medie, mediană) și a celor de dispersie. Vom explica în continuare, detaliat ce înseamnă acest lucru.
Odată activată opțiunea BOXPLOT din meniul GRAPHS, va apare fereastra:
De aici putem alege aproape aceleași opțiuni de reprezentare graficã ca și în meniul de reprezentare cu bare, doar cã avem la dispoziție mai puține opțiuni.
Pentru exemplul nostru vom alege graficul SIMPLE și opțiunea SUMMARIES FOR GROUPS OF CASES.
Dupã ce apãsãm butonul DEFINE activãm fereastra urmãtoare:
Întrucât ceea ce este reprezentat grafic este dinainte presetat cu acest tip de grafice, nu mai avem așa multe opțiuni în această fereastră. Alegem variabilele ca în imaginea de mai sus si apăsam OK.
Graficul rezultat arată astfel:
Cinci sunt elementele graficului care trebuie să ne atragă atenția:
(1) – linia îngroșată din interiorul „cutiei" reprezintă mediana, deci tendința centrală. Dacă ea este mai apropiată de marginea de jos, atunci distribuția este înclinată spre stânga (predomină valorile mici si sunt puține cazuri cu valori mari, dar extreme), dacă e mai apropiată de marginea superioară, atunci distribuția este înclinată spre dreapta.
(2) – „cutia" propriu-zisă reprezintă distribuția a 50% dintre subiecți. Astfel, marginea de jos a cutiei arată valoarea percentilului 25%, iar marginea superioară – pe cea a percentilului 75%. Cu cât „cutia" este mai mare, cu atât variabilitatea rezultatelor este mai mare.
(3) – limitele exterioare ale graficului, acele linii orizontale deasupra dedesubtul cutiei (numite în engleză whiskers, adică „mustăți c pisică") sunt trasate de la cea mai mică la cea mai mare valoare situate în limitele a 1,5 lungimi de „cutie". Și ele reprezintă o măsuri a variabilității rezultatelor.
(4) – cazurile extreme situate în intervalul 1,5-3 lungimi de „cutie", sui reprezentate prin mici o – uri care au trecute în dreptul lor numărul cazului sau al subiectului respectiv.
(5) – cazurile extreme situate la distanțe mai mari de 3 lungimi de „cutie sunt reprezentate prin mici * (asteriscuri), care au trecute în drepți lor numărul cazului sau al subiectului respectiv.
Exerciții:
• Realizați reprezentarea grafică similară, cu toate tipurile de grafice si pentru variabila SALARY, care arată salariul curent al subiecților
• Comentați în special graficul box-plot.
STATISTICA DESCRIPTIVĂ (2)
sau cum să mai dăm un înțeles datelor brute –
Cuprins:
Notele z Corelația
– Folosirea SPSS: meniul ANALYZE – CORRELATE – BIVARIATE
– Folosirea SPSS: meniul DATA – SELECT CASES
– Folosirea SPSS: meniul DATA – SPLIT FILES
– Folosirea SPSS: meniul GRAPHS – SCATTER
British Club
Francis GaJton este considerat a fi inventatorul corelației statistice, deși
Karl Pearson și alți matematicieni au conceput de fapt formulele de calcul. Galton era văr cu Charles Darwin, coleg cu Pearson și profesor al lui Gosset (inventatorul testului t), în secolul XIX, după cum observați, statistica era apanajul unui mic "club" britanic organizat informai în rândul unor studenți de la Cambridge. Mai mult chiar, la vremea respectivă, mulți savanți din alte științe făceau parte din acest "club britanic".
Unul din membrii "clubului", Galton, era un gentleman bogat, independent și deosebit de excentric. Dincolo de contribuția sa în statistică, el avea studii medicale, participase la explorări în Africa, a inventat ochelarii pentru citit subacvatic, a făcut descoperiri în meteorologie și antropologie, ba chiar a scris un articol despre captarea semnalelor inteligente de pe alte planete.
Dincolo însă de toate acestea, Galton a fost un "numărător" înfocat. El număra aproape orice; de exemplu, el a numărat odată de câte ori cască audiența la o conferință, în funcție de plictiseala indusă de vorbitor. Altă dată, în timp ce un pictor îi făcea portretul, a numărat de câte ori trage acesta cu pensonul pe pânză (el a constatat că un pictor dă cu pensula cam de 20.000 ori în timp ce face un portret). Ajunsese chiar să-și construiască un mic dispozitiv de numărat, pe categorii. Pe acesta din urmă 1-a folosit în timp "ce călătorea în coloniile britanice din Pacific, înregistrând frumusețea localnicelor de acolo ca fiind "atrăgătoare", "medie" și "neatrăgătoare".
Dar corelația s-a născut din preocuparea lui Galton de a număra criminalii, geniile și alte tipuri extreme umane în diverse familii. Adept al eugeniei (nașterea sau creșterea controlată a oamenilor) Galton dorea să vadă în ce măsură caracteristicile genetice se transmit de la părinți la copii. Astfel el a descoperit o metodă de a măsura faptul că "un lucru merge împreună cu alt lucru" – de fapt corelația, însă în acele vremuri, stabilirea legăturii dintre două variabile era echivalentă cu stabilirea unei legături cauzale. Astfel, Galton trăgea concluzia că din moment ce putem arăta matematic că oamenii cei mai deștepți provin din câteva familii înstărite, de viță nobilă, iar majoritatea celor puțin inteligenți – din familii
sărace, inteligența este cauzată de anumite gene.
Era el oare îndreptățit să afirme astea ? Voi din ce fel de familii vă trageți?
Am văzut în capitolul anterior că pentru a descrie complet o distribuție trebuie să cunoaștem nu numai tendința centrală (de obicei media), ci si gradul de împrăștiere a scorurilor în jurul acestei valori. Necesitatea cunoașterii ambelor valori rezidă în faptul că în științele sociale avem de-a face cu mărimi variabile, ca urmare trebuie să luăm în considerație și variabilitatea, nu numai valoarea medie.
Notele z și funcțiile lor
După ce au descoperit formula de calcul a variantei și a deviației standard, statisticienii au simțit nevoia calculării unei mărimi care să sintetizeze atât tendința centrală, cât și variabilitatea și care să, descrie scorurile unei distribuții din ambele perspective simultan. Această nevoie a apărut astfel din necesitatea de a putea compara un scor cu o distribuție (de a estima de fapt poziția scorului în raport cu celelalte) și din trebuința de a compara două distribuții diferite.
Estimarea unui scor în cadrul unei distribuții
Caz:
Gică este psihoterapeut. El este specializat în tratarea depresiei. La o bere, el îi povestește unui coleg că ultimul său pacient s-a vindecat în 5 ședințe de terapie. "Avea depresie gravă sau ușoară?" întreabă colegul. Gică dă să răspundă, dar își dă seama că pentru a fi sigur de răspuns ar avea nevoie de statistică. Scoate un carnețel în care avea notați ultimii săi pacienți și constată că ei s-au vindecat în medie în 8 ședințe. E suficientă media pentru a stabili că pacientul care s-a vindecat în 5 ședințe avea o depresie ușoară?
Din moment ce deviația standard și media ne spun care sunt scorurile tipice sau medii, putem să stabilim dacă un nou scor se abate de la distribuția noastră într-un sens mai mic decât limita minimă de variație (m-SD) sau în altul mai mare decât limita maximă (m+SD).
În cazul lui Gică, cunoașterea mediei nu e suficientă pentru a stabili că 5 ședințe sunt anormal de puține pentru pacienții săi, deci că acest ultim pacient avea o depresie ușoară. Pentru a stabili acest fapt avem nevoie și de deviația standard.
Calculați singuri media și deviația standard cunoscând că distribuția scorurilor pentru ultimii 10 pacienți ai lui Gică este cea de mai jos:
4, 12, 8, 8, 8, 9, 9, 6, 12, 4
Calculele arată că media este 8, iar deviația standard este 2,64. Refăcând schema, vedem că scorurile tipice sunt cuprinse în intervalul 5,32 și 10,64.
Rotunjind valorile la numere întregi, aceasta înseamnă că în mod obișnuit, pacienții lui Gică au nevoie de 6-10 ședințe pentru a se trata de depresie. Din moment ce intervalul 6-10 este considerat tipic, atunci ceea ce este în afara acestuia vor fi scoruri considerate atipice.
Astfel, cei care se tratează de depresie în mai puțin de 6 ședințe vor fi pacienții cu depresie ușoară, iar cei care se vindecă în mai mult de 10 ședințe pot fi considerați ca având o depresie gravă. Acum, avem și răspunsul la cazul nostru: pacientul care s-a vindecat în 5 ședințe a avut într-adevăr o depresie ușoară. Dar dacă el s-ar fi vindecat în 6 sau chiar 7 ședințe, el era cu depresie normală, întrucât scorul său s-ar fi încadrat în intervalul tipic de variație. Este la fel cum punga de cafea de 96 grame este normală pentru intervalul de variație 100 ± 5, abia una de 94 de grame abătându-se de la standard.
Vedeți așadar că în statistică, unde lucrăm cu variabile, nu totdeauna un număr poate fi considerat "mai mic" sau "mai mare" decât altul (în general decât media). Este necesar să ținem cont și de variabilitate. Situația seamănă cu aceea a cunoașterii intervalului de variație a adâncimii unui râu. Acesta nu are mereu aceeași adâncime; uneori este mai adânc, alteori este mai puțin adânc. Pe noi ne interesează care sunt fluctuațiile normale pentru a ști dacă mai putem naviga pe el ori dacă va fi secetă (limita minimă a adâncimii), precum și dacă nu cumva se anunță vreo inundație (limita maximă a adâncimii, dincolo de care apele se revarsă). La fel este cazul și cu variabilele în statistică. Ne interesează nu doar media (adâncimea medie a râului), ci si deviația standard pentru a putea vedea limitele de variație tipică.
Pentru a nu face apel mereu la schema desenată anterior ori de câte ori dorim să comparăm un scor cu o distribuție (să spunem dacă el este mic, mediu sau mare), statisticienii au inventat notele Z. Formula pentru nota Z este:
(4)
Dacă "citim" în cuvinte această formulă vedem că nota Z, numită si notă sau scor standard, arată deviația unui scor (x) de la medie (m), iar această abatere este exprimată în deviații standard (SD).
Mai precis, nota standard arată cu câte deviații standard se abate un scor de la medie.
Să vedem, pe schema de mai jos, ce note standard corespund mediei, precum si limitelor de variație, maximă si minimă.
Înlocuind datele în formula (4) constatăm că mediei îi corespunde mereu (oricare ar fi ea si orice am măsura) scorul standard Z = 0. Similar, limitei minime de variație tipică îi corespunde scorul standard Z = -1 , iar limitei maxime de variație normală îi corespunde nota standard Z = +1.
Acum putem stabili niște reguli simple, care ne permit să stabilim imediat ce fel de scor este x în raport cu o distribuție la care cunoaștem media (m) și abaterea sau deviația standard (SD) pe baza calculării scorului Z corespunzător lui:
• un scor x va ficonsiderat "mic"în raport cu o distribuție la care cunoaștem media și deviația standard, dacă scorul său Z va fi mai mic decât -1;
• un scor x va fi considerat "mediu" în raport cu o distribuție la care cunoaștem media si deviația standard, dacă scorul său Z va fi cuprins în intervalul [-l, +11].
• un scor x va fi considerat "mare" în raport cu o distribuție la care cunoaștem media si deviația standard, dacă scorul său Z va fi mai mare decât +1.
Din regulile de mai sus deducem prima funcție pe care o joacă scorurile Z: aceea de a compara un scor cu o distribuție la care cunoaștem parametrii (media si deviația standard), cu alte cuvinte de a preciza dacă un scor este mic, mediu sau mare.
Interesant este de știut că notele Z arată nu numai poziția unui scor față de o distribuție, dar și de câte ori acel scor este mai mare sau mai mic decât media (ținând cont și de variabilitate).
Spre exemplu, dacă scorurile la un test de inteligență într-o populația sunt descrise de media m=100 și deviația standard SD=15, o persoană considerată "de două ori mai deștept ca ceilalți" nu va avea un coeficient de inteligență de 200, cum am fi tentați să credem la prima vedere (inteligența nu e o constantă, nu?), ci doar unul de 130 (Z = +2; adică el se abate de la medie cu două deviații standard în plus).
Compararea a două distribuții diferite
Dar notele Z mai au o funcție: aceea de a compara scorurile aceleiași persoane obținute la probe diferite.
EX:
O educatoare vine la psihologul grădiniței afirmând că un copil din clasa ei este handicapat și ar trebui transferat la o altă grădiniță, cu program special. Psihologul nu poate da o recomandare fără investigarea prealabilă a copilului. Astfel, el/ea îi aplică copilului o probă de inteligență (ex. testul WISC – Wechsler Intelligence Scale for Children) și o probă de interacțiuni sociale (ex. de câte ori copilul ia inițiativa în timp de o oră atunci când se joacă cu alți copii). Pot fi rezultatele de la cele două probe comparate sau considerate împreună? Scorurile lor brute nu pot fi comparate direct (la urma urmei, ele măsoară lucruri diferite, nu?), dar scorurile lor standard – da.
Să presupunem că la testul WISC, copii de vârsta subiectului investigat în exemplul de mai sus obțin în general media ml=60 cu o deviație standard de SD1=14. Copilul investigat de psiholog obține la această probă scorul x l =81. Dacă transformăm acest scor în notă standard, conform formulei (4), obținem nota Z 1=1,5. Ea ne spune că, comparativ cu ceilalți copii, copilul nostru este de 1,5 ori mai inteligent. Deci problema mizată de educatoare nu se găsește la nivelul inteligenței.
La proba de interacțiuni sociale să presupunem că distribuția scorurilor în populația de copii preșcolari are următorii parametri: m2 = 16 si SD2 = 4, care arată numărul de inițiative într-o oră dejoacă cu alți copii. Aplicând proba copilului investigat obținem scorul x2 = 8. Exprimând acest scor brut în scor standard obținem valoarea 72=-2. Deci, din punct de vedere al interacțiunilor sociale, copilul nostru este de două ori mai timid, mai puțin sociabil.
întrucât notele Z arată raporturi si sunt adimensionale (ele nu depind de ceea ce măsurăm), putem să calculăm un scor Z total, al celor două probe. Astfel Z=Z1+Z2 ne oferă valoarea Z=-0,5. Acest scor standard fiind unul mediu (cuprins în intervalul -1/+1) ne permite să afirmăm că subiectul investigat este normal pe ansamblu si nu necesită o educație specială.
Cauza problemelor sale sociale poate fi în cadrul familiei sau poate că stă în marginalizarea sa de către educatoare.
Corelația
Cunoașteți că a doua funcție a scorurilor Z este de a compara scorurile obținute de aceeași persoană la probe diferite (vă mai amintiți de exemplul cu copilul considerat handicapat de educatoare?). Să vedem cum putem să ne folosim de această funcție pentru a studia relația dintre două variabile.
Caz:
Un psiholog de la o firmă este interesat să stabilească dacă între numărul de subordonați și gradul de stres al managerilor există vreo legătură. Pentru aceasta alege 6 manageri de la diferite departamente ale firmei, aplică un chestionar care măsoară stresul și apoi măsoară câți subordonați are fiecare dintre managerii aleși. Obține tabelul de rezultate de mai jos, unde xl este scorul la chestionarul de stres și x2 este numărul de subordonați.
Observați că numerele din cele două coloane, nu numai că sunt diferite ca ordin de mărime (prima coloană nu depășește valoarea 20, iar a doua are aproape toate scorurile mai mari de această valoare), dar ele măsoară în plus lucruri diferite. Cum am putea atunci să le asociem? Cel mai bine ar fi dacă am transforma aceste scoruri brute (x1 și x2) în note Z (Ziși Z2).
Atunci, fiecare notă Z ar arăta poziția scorului în cadrul distribuției din care face parte și putem apoi compara poziția scorurilor (adică să vedem, spre exemplu, dacă scorurile "mici" de la o variabilă sunt asociate scorurilor "mici" la cealaltă variabilă, iar scorurile "mari" – celor "mari").
Pentru aceasta avem nevoie de tabelul de mai jos, după ce în prealabil am calculat mediile celor două variabile. Astfel, avem ml=9, iar m2=21.
SS1= 96, iar SS2=554. Putem calcula apoi varianta si deviația standard. Astfel, SD1=4, iar SD2=9,60. Având valorile mediei si deviațiilor standard putem completa ultimele două coloane ale tabelului.
Urmăriți cu atenție si comparați ultimele două coloane ale tabelului. Ce fel de scoruri avem în ele. Conform semnificației scorurilor Z putem să "reformulăm" ultimele două coloane astfel:
Observăm astfel că pare să existe o relație între cele două variabile: întâlnim cam aceleași tipuri de scoruri la ambele variabile (scoruri mici asociate cu scoruri mici, iar cele mari); singurul caz în care nu avem această "potrivire" este la managerul al treilea, care are scoruri de tipuri diferite. Pe ansamblu însă putem spune că există o relație.
Cum putem face să ilustrăm mai ușor relația ce există între cele două variabile? Cum am putea avea doar un singur număr care să ne arate această relație? Simplu, înmulțind scorurile Z și apoi adunându-le. în acest fel, dacă ele sunt de același tip (ambele pozitive sau ambele negative) rezultatul acestei operații va fi pozitiv, dacă ele sunt de tipuri opuse (unul negativ și altul pozitiv) – rezultatul va fi unul negativ, iar dacă nu există o tendință de asociere, atunci numărul obținut va fi apropiat de zero.
Să procedăm în consecinț
∑ (Z1*Z2) = 5,66
Adunând aceste produse (Z1*Z2) obținem numărul 5,66. Însă acest număr nu este suficient pentru a arăta relația de care avem nevoie. De ce? Pentru că el depinde într-o oarecare măsură de numărul de perechi de cazuri pe care le-am luat în calcul. Gândiți-vă că el ar creste dacă am fi aplicat măsurătorile folosind 10 manageri în loc de 6. Ca să nu mai depindă acest număr de numărul de cazuri, trebuie să divizăm suma obținută prin
N. Si astfel, obținem formula corelației Pearson:
r = (5)
în cazul nostru, r=0,94.
Coeficienții de corelație au valori cuprinse între -l (care arată existenta unei legături perfectă si invers proporțională între variabile), O (care arată independența totală a variabilelor luate în analiză) și +1 (care arată existența unei legături perfecte, direct proporțională).
Acum calculați singuri coeficientul de corelație dintre greutatea (în kg.) si înălțimea (în cm.) colegilor din subgrupa voastră.
Folosirea SPSS: meniul ANALYZE – CORRELATE – BIVARIATE
Corelația este o metodă statistică descriptivă, întrucât ea descrie ce se petrece într-un grup de rezultate, "cine cu cine merg împreună", dar nu arată o relație cauzală.
Pentru a putea exemplifica cum folosim SPSS pentru calculul corelației, avem nevoie de o bază de date. Așa că vom lucra cu o baza de date pe care o vom crea acum, dar care va fi similară cu cea denumită "frați", pe care am creat-o în primul capitol. Vom deschide programul SPSS si vom introduce datele în computer, ca în tabelul de mai jos:
Reamintim că datele arată coeficientul de inteligență măsurat la perechi de frați (primul născut – QI1 si al doilea născut – QI2) de același sex.
Salvați baza de date cu numele „corei". Folosiți pentru aceasta butonul de salvare sau comanda SAVE din meniul FILE.
Observați că am codificat sexul subiecților folosind cifrele „l" (pentru „feminin") si „2" (pentru „masculin"). Aceste cifre sunt la libera noastră alegere, ele fiind pur si simplu coduri si fără să aibă semnificația de număr (adică, în acest caz l nu este de două ori mai mic decât 2, ci pur si simplu un alt cod). La fel de bine puteam să avem 23 si 68, în loc de l si 2.
În programul SPSS, această bază de date ar trebui să arate astfel, după ce definiți în prealabil si numele variabilelor:
În cazul în care avem variabile categoriale sau independente (variabile care arată categorii de scoruri, cum ar fi sexul subiecților, mediul de proveniență, zilele săptămânii, categorii de vârstă, tipuri de boli, etc.), este indicat să definim aceste categorii pentru a ne
ușura munca de analiză a rezultatelor si pentru a nu uita care scoruri corespund fiecărei valori (în cazul nostru care sunt rezultatele femeilor si care sunt ale bărbaților).
Definirea valorilor se face din perspectiva VARIABLE VIEW activată din josul paginii (revedeți primul capitol dacă ați uitat cum se face acest lucru). Odată activată perspectiva VARIABLE VIEW, pe ecran va apare imaginea:
Observați că în dreptul variabilei SEX, pe coloana VALUES avem mențiunea NONE. Aici trebuie să definim noi valorile acestei variabile (adică să asociem codurile l si 2 cu cele două sexe). Pentru aceasta executați un click pe coloana VALUES în dreptul variabilei SEX. Va apare fereastra de mai jos:
Observați cã butonul AD s-a activat dupã ce ați scris. Drept urmare el trebuie apãsat pentru a activa codul și eticheta astfel alese.Dupã apãsare fereastra va arãta ca în imaginea urmãtoare:
Se observã cã 1 este un cod care are semnificația „feminin” și nu semnificația sa obișnuitã de numãr. La fel se procedeazã și pentru celãlalt cod, ca în imaginea de mai jos:
Reveniți apoi în perspectiva DATA VIEW. Constatați că nu apare nici oschimbare vizibilă. Si totuși, dacă doriți să vizualizați etichetele alese, activați comanda VALUE LABELS din meniul VIEW, ca mai jos:
Astfel, pe ecran va apãrea eticheta aleasã, în dreptul variabilei SEX:
Să vedem acum cum calculăm corelația cu ajutorul programului SPSS. Toate prelucrările statistice se fac, reamintim, din meniul ANALYZE. De aici alegem comanda CORRELATE, opțiunea BIVARIATE (adică corelația între două variabile), ca în imaginea următoare:
Activarea comenzii va deschide o fereastrã din care putem alege opțiunile ca în imaginea de mai jos:
Să analizăm puțin fereastra:
(1) – este, ca de obicei, câmpul ce prezintă variabilele din baza de date
(2) – este câmpul în care introducem variabilele de analizat. Atenție! Putem introduce aici mai mult de două variabile, chiar dacă metoda se cheamă BIVARIATE. Programul va calcula apoi corelațiile între toate variabilele, luate două câte două.
(3) – de aici putem selecta tipul corelației pe care dorim să-1 folosim. Ele au la bază diferite formule. Corelația PEARSON se folosește pentru date parametrice (rezultate din măsurători ce au la bază scale ordinale, de interval sau de raport). Corelațiile Kendall si Spearman sunt folosite pentru variabile categoriale, ordinale sau atunci când datele noastre se abat puternic de la distribuția normală.
(4) – permite selectarea pragului de semnificație în funcție de tipul ipotezei de cercetare. Recomandarea mea este însă să folosiți totdeauna pragul bidirecțional, TWO-TAILED, pentru a avea mai multă încredere în rezultatele astfel obținute.
(5) – bifarea acestei opțiuni (care este activă din start) face ca în dreptul corelațiilor ce sunt semnificative să apară un asterisc (*).
Introduceți variabilele pentru analiză, ca în imaginea de mai jos:
Puteți folosi butonul OPTIONS pentru a solicita programului sã facã o micã analizã descriptivã a rezultatelor sau pentru a preciza cum sã trateze valorile lipsã.
Observați în imaginea de mai sus că există două modalități de a trata valorile lipsă (câmpul MISSING VALUES). Prima opțiune (EXCLUDE CASES PAIRWISE) exclude de la analiză perechile de rezultate pentru care nu avem una din valori, în timp ce a doua opțiune (EXCLUDE CASES LISTWISE) exclude de la analiză un rând întreg din baza de date dacă doar una din valori lipsește. De obicei, mai frecventă este prima opțiune, cea care si este activă din start.
Apăsați CONTINUE si apoi butonul OK. Programul va deschide automat fereastra OUTPUT unde vă sunt prezentate rezultatele.
Să vedem acum în ce mod se citesc si se interpretează informațiile de pe ecran, în primul rând, observați dispunerea rezultatelor: ele seamănă cu datele despre distanța dintre orașe pe care le găsim în mod obișnuit în agende. Pe rândul orizontal de sus sunt așezate toate variabilele alese pentru corelație (așa cum erau scrise orașele între care calculam distantele în agende); pe verticală, de asemenea avem toate variabilele. Corelația dintre două variabile se citește la intersecția numelor lor pe verticală și orizontală (la fel cum citeam distanțele).
Desigur, între o variabilă și ea însăși nu putem avea corelație (de fapt ea există, dar are valoarea l , adică corelație perfect pozitivă), fapt observat prin absența lui p (despre p vom discuta ulterior), deci nu vom lua în seamă corelațiile de pe această diagonală.
Mai observați că ceea ce se găsește în dreapta diagonalei este identic cu ceea ce se află în stânga ei (adică corelația dintre variabilele A și B este aceeași cu cea dintre variabilele B și A).
Prag de semnificație
Să comentăm puțin ce este pragul de semnificație. În statistică, avem nevoie să generalizăm concluziile studiilor, chiar și ale acelora descriptive, cum este corelația. Astfel, ne interesează să vedem dacă relația găsită de noi (la un grup de oameni) poate fi extinsă la întreaga populație. Mai precis, ne interesează să știm în ce măsură rezultatele noastre se datorează întâmplării și în ce măsură – nu. Ei bine, acest p (prescurtare de la procent) ne arată în ce măsură ne înșelăm atunci când afirmăm ceva (în cazul corelației: că există o legătură între două sau mai multe variabile).
În cercetarea științifică se lucrează de obicei cu două praguri de semnificație, corespunzătoare procentajului de eroare: pragul de 0,01 (1% eroare) și pragul de 0,05 (5% eroare).Când folosim unul sau altul? Să luăm un exemplu.
Exemplu:
Să presupunem că sunteți angajat de un împărat despotic ca și prezicător oficial. împăratul se folosește de "puterile" voastre pentru a-și impresiona supușii, în general, atunci când facem predicții se pot întâmpla patru situații, conform tabelului de mai jos:
Observați cã sunt douã situații în care putem sã greșim:
– afirmãm cã un eveniment se produce când în realitate nu se produce;
– afirmãm cã un eveniment nu se produce atunci când el se produce.
Când va fi împãratul mai supãrat cã greșim?
R: În situația (I); atunci el apare prost în ochii supușilor săi, mai mult decât în situația (II). De altfel, dacă sunteți atenți, situația (I) corespunde cu minciuna, iar situația (II) – cu ignoranța.
Și în știință există aceste două situații în care noi putem greși. Deoarece prima greșeală are consecințe mai grave, preferăm în cazul acesta pragul de semnificație de 0,01; dacă dorim însă să avem mai multe șanse în a demonstra ceva și consecințele nu sunt așa grave în caz de greșeală, atunci preferăm pragul de eroare de 5%, deci un p=0,05
În concluzie, vom considera un test statistic ca fiind semnificativ dacă pragul de semnificație este mai mic sau egal cu valoarea 0,05.
Interpretarea corelației
Revenind la exemplul nostru (rezultatele, așa cum sunt ele prezentate în SPSS) să vedem acum cum anume se interpretează corelația, cunoscând si felul în care se interpretează pragul de semnificație.
Cele trei numere prezentate de computer la intersecția dintre numele variabilelor sunt, în ordine de sus în jos: coeficientul de corelație (în exemplul nostru r=0,50), pragul de semnificație (în exemplul nostru p=0,02) si numărul de subiecți (în exemplul nostru, numărul 20).
Trei sunt elementele ce contează în interpretarea corelației:
• pragul de semnificație: dacă este mai mic de 0,05, atunci putem considera că există o relație între variabilele studiate; în cazul nostru putem spune că există o legătură între coeficientul de inteligentă al primului născut si al celui de-al doilea născut de același sex. Reamintim că pragul de semnificație arată probabilitatea de a greși atunci când afirmăm că între variabile ar fi o legătură. Deci el trebuie să fie cât mai mic pentru a putea face această afirmație.
• semnul corelației: arată natura legăturii care există: direct proporțională, dacă semnul este pozitiv sau invers proporțională când semnul este negativ, în cazul nostru, semnul este pozitiv, deci legătura este direct proporțională sau, dacă interpretăm folosind cuvintele: dacă primul născut are un coeficient de inteligență ridicat, atunci există tendința ca si al doilea să aibă un coeficient similar,
• mărimea absolută a coeficientului: descrie tăria legăturii ce există între variabile; se consideră astfel că legătura este slabă dacă valoarea absolută a lui r nu depășește 0,30; legătura este de tărie medie la o valoare cuprinsă între 0,30-0,50 si vorbim de legături puternice dacă mărimea absolută este mai mare de 0,50. în exemplul nostru, tăria legăturii este medie, pentru că nu depășește cu mult valoarea de 0,50.
Toate aceste elemente trebuie să apară în interpretare, pentru ca ea să fie completă.
OBS: Ați observat că în interpretare am folosit cuvântul "există tendința". De ce? Pentru
că relația descoperită nu este întâlnită exact, în toate cazurile (nu uitați că noi lucrăm cu
variabile, fenomene sociale care sunt influențate de mai mulți factori), ci este vorba de o
relație probabilistică.
Și arunci, în ce măsură găsim relația în realitate?
Coeficientul de corelație ridicat la pătrat ne indică proporția de variantă explicată de relația găsită, mai precis ce procentaj din populația generală prezintă exact relația, în cazul nostru, se observă că abia 25% din variația observată în populație o întâlnim în realitate, deci relația găsită este prezentă exact în acest mod (direct proporțional) la 25% dintre frați.
Folosirea SPSS: meniul DATA – SELECT CASES
Uneori ne este util să selectăm anumite cazuri din populație pentru a face o prelucrare statistică. Spre exemplu, credeți că același coeficient de corelație îl vom găsi în egală măsură si la femeile si la bărbații din studiul nostru? Nu, desigur. Spre exemplu, dacă la o petrecere 25% dintre participanți se îmbată (astfel că toată lumea a avut impresia că "s-a băut, nu glumă!"), iar petrecerea a avut loc în trei camere, vom găsi în fiecare din acele trei camere exact 25% de persoane în stare de ebrietate? Nu se poate ști. Este posibil, dar la fel de bine, cei beți se puteau găsi doar între-o singură cameră, nu-i așa?
La fel și în exemplul nostru. Suntem interesați să vedem dacă relația dintre coeficienții de inteligență a celor doi frați o găsim, să zicem, la subiecții de sex feminin?
Pentru aceasta vom folosi comanda SELECT CASES din meniul DATA, ca în imaginea următoare (atenție!, pentru a avea meniul DATA activ, trebuie să reveniți la perspectiva DATA VIEW. Faceți click pe numele fișierului din bara de sarcini situată la baza ecranului, cea care are butonul START în stânga sau activați numele fișierului din meniul WINDOWS).
Odatã activatã acestã comandã deschide fereastra:
Fereastra este organizatã într-un mod tipic: are în partea stângã variabilele din baza de date, iar în dreapta diverse opțiuni. Pe noi ne intereseazã doar opțiunea IF CONDITION IS SATISFIED, pentru cã dorim sã selectãm cazurile care îndeplinesc condiția cã pentru variabila SEX au valoarea 1 ( femeilor li s-a atribuit acestã valoare în cadrul variabilei SEX). Prin urmare vom alege acestã opțiune și vom activa butonul IF care deschide fereastra urmãtoare:
Aici, selectăm variabila SEX, o trecem în câmpul din dreapta cu ajutorul săgeții si adăugăm condiția SEX-1 (de la tastatură sau folosind butoanele din mijlocul ferestrei). Observați că putem scrie aici condiții mult mai complicate si putem folosi pentru aceasta diferite funcții (precizate în câmpul FUNCTIONS din partea dreaptă-jos a ferestrei). Apăsam apoi butonul CONTINUE, apoi pe OK si observați ce se întâmplă în fereastra SELECT CASES:
În dreptul butonului IF a apărut condiția specificată de noi. Atenție! Aveți grijă ca în partea de jos a ferestrei în câmpul UNSELECTED CASES ARE să fie marcată opțiunea FILTERED si nu DELETED, altfel programul va șterge datele neselectate!
Apăsați butonul OK si observați ce se întâmplă în baza de date:
Vedeți că apare o nouă variabilă la sfârșit, intitulată FILTER_$, după care se realizează selecția. Mai observați că pe margine apar cazurile neselectate ca fiind "tăiate", adică ele vor fi ignorate de la analiză, iar în partea din dreapta-jos a ecranului apare anunțul FILTER ON, care vă informează că selecția după variabila filtru este activă.
Atenție! Mulți se așteaptă ca odată datele selectate computerul să efectueze și analiza statistică dorită. Nu este așa! Selectarea datelor nu implică si efectuarea analizei statistice! De aceea, după ce ați selectat, faceți din nou prelucrarea, în cazul nostru corelația. Pentru aceasta repetați pașii efectuați anterior; adică activați comanda ANALYZE-CORRELATE-BIVARIATE. Observați că variabilele se găsesc deja în râmpul pentru analiză. Ele au rămas așa de la prelucrarea anterioară, așa că nu rămâne decât să apăsați butonul OK și va apare rezultatul:
Interpretați singuri rezultatul astfel obținut, respectând cele trei elemente ale interpretării, în ce proporție relația găsită o întâlnim în realitate la femei?
După ce folosiți acest "filtru" în prelucrarea statistică, este indicat să îl dezactivați imediat pentru a nu-1 uita activ pentru alte prelucrări la care nu aveți nevoie de o analiză, doar pentru femei. Pentru dezactivarea selecției, mergeți din nou în meniul inițial DATA-SELECT CASES si în fereastra respectivă, în partea de jos, găsiți un buton denumit RESET (atenție! nu e butonul cu care resetați calculatorul). Apăsați-1 si indicația FILTER ON din dreapta-jos trebuie să dispară, la fel si „tăieturile" din partea stângă a bazei de date, ceea ce indică faptul că acum analizăm toate cazurile.
Folosirea SPSS: meniul DATA – SPLIT FILE
Uneori însă dorim să vedem ce se întâmplă pentru fiecare subgrup de subiecți în parte; în cazul nostru, de exemplu, dorim să știm ce se întâmplă cu relația găsită de noi în general nu numai la femei, ci si la bărbați.
Pentru a nu repeta comanda SELECT CASES de multe ori (imaginați-vă ce ar fi dacă am avea o variabilă de grupare legată de zilele săptămânii: ar trebui să repetăm comanda SELECT CASES de 7 ori) vom apela la o altă comandă din meniul DATA (după ce am revenit în prealabil în perspectiva DATA VIE W), anume SPLIT FILE, pe care o activăm ca în imaginea următoare:
Odatã activatã, comanda SPLIT FILE deschide o fereastrã precum cea de mai jos, de unde putem alege opțiunea noastrã:
Dintre opțiunile din dreapta alegem ORGANIZE OUTPUT BY GROUPS si apoi, cu ajutorul săgeții, introducem variabila de grupare (SEX, în cazul nostru) în câmpul GROUPS BASED ON. După ce apăsați OK. În partea dreaptă-jos apare anunțul SPLIT FILE ON, care vă informează că baza de date este deja împărțită după condițiile variabilei de grupare, ca în imaginea de mai jos:
La fel ca si în cazul comenzii SELECT CASES, simpla împărțire a bazei de date nu vă asigură si prelucrarea statistică. De aceea, trebuie să faceți din nou corelația după ce ați împărțit baza de date, pentru a vedea care este situația în grupul de femei și în cel de bărbați.
Pe ecran va apare OUTPUT-ul:
Interpretați rezultatele astfel obținute! Observați că relația găsită inițial apare doar pentru subiecții de sex feminin și nu pentru cei de sex masculin! Cum puteți interpreta aceste rezultate? Ce ați putea spune unor părinți care v-ar ruga să precizați cum va fi al doilea născut al lor (mai inteligent sau mai puțin inteligent), dacă primul lor născut este foarte inteligent, precoce chiar?
Folosirea SPSS: meniul GRAPHS – SCATTER
Relația dintre două variabile poate fi reprezentată grafic sub forma unui nor de puncte. Practic, graficul îl alegem din meniul GRAPHS, comanda SCATTER, care deschide fereastra:
De aici trebuie să selectăm tipul graficului pe care dorim să-1 facem, în cazul nostru dorim un grafic simplu, cară să arate relația dintre două variabile. Observați că opțiunea SIMPLE este deja selectată (conturul mai gros din jurul opțiunii).
Apãsãm apoi butonul DEFINE, care deschide urmãtoarea fereastrã:
Cele două variabile se introduc în câmpul cu cele două axe (nu contează prea mult care variabilă se introduce pe care axă) și apoi se apasă OK. Înainte de asta însă dezactivați comanda DISPLAY GROUPS DEFINED BY MISSING VALUES din butonul OPTIONS a cărui fereastră este prezentată mai jos:
Graficul va apare astfel:
Graficul corelației este un nor de puncte crescător (de la stânga-jos spre dreapta-sus) dacă relația este pozitivă sau direct proporțională. Dacă relația ar fi fost invers proporțională, norul ar fi fost orientat descrescător (din stânga-sus spre dreapta-jos). În cazul în care nu ar fi nici o relație, punctele ar fi fost distribuite uniform pe grafic.
ELEMENTE DE STATISTICĂ INFERENTIALĂ
– sau cum să vedem dacă BOABELE DE FASOLE sunt fierte –
CUPRINS:
Distribuția normală
– Etapele testării unei ipoteze. Testul Z pentru a compara un caz cu o populație cunoscută
– Testul Z pentru a compara un eșantion cu o populație cunoscută
– Testul t pentru a compara un eșantion cu o populație la care știm doar media
– Folosirea SPSS: meniul ANALYZE – COMPARE MEANS '- ONE-SAMPLE T-TEST
– Folosirea SPSS: meniul TRANSFORME – RECODE
Când nu amestecăm bine legumele din oală
Anul 1948 a fost un an nefast pentru cele mai mari trei institute de sondare a opiniei publice în Statele Unite: Gallup, Crossley și Roper. Toate trei au prezis victoria în alegerile prezidențiale a a republicanului Dewey față de Truman, democratul. Rezultatul a infirmat toate prezicerile: Truman a câștigat alegerile, victoria sa punând sub semnul întrebării modalitatea de eșantionare folosită.
Ce se întâmplase de fapt? Până atunci, institutele de sondare a opiniei publice foloseau o metodă de eșantionare „pe cote". Fiecărui operator de teren i se aloca un număr fix de interviuri pe care trebuia să-1 realizeze și i se dădea libertatea să aleagă persoanele intervievate, cu condiția să respecte anumite categorii sociale (vârstă, sex, status economic, rasă, etc.). Nimeni nu a realizat atunci că republicanii aveau șanse mai mari decât democrații să fie aleși în interviurilor pentru că ei erau mai ușor de găsit; aveau telefon mai frecvent decât democrații, trăiau în case mai bune, etc.). Acest fapt a distorsionat rezultatele sondajelor din 1948 în ciuda faptului că au fost folosiți zeci de mii de subiecți (e\. Gallup a intervievat 50.000 persoane).
De atunci, sondajele nu au mai greșit atât de grosolan, chiar dacă eșantioanele folosite de institute nu depășesc de regulă câteva mii de persoane. Spre exemplu, eșantionul reprezentativ folosit astăzi de institutul Gallup numără aproximativ 4100 persoane, eșantion reprezentativ pentru cele 300 milioane de americani. Metoda de eșantionare folosită azi este probabilistică și pornește de la principiul că fiecare cetățean cu drept de vot trebuie să aibă aceeași probabilitate de a fi selectat pentru interviu. Astfel, erorile în predicție nu vor fi mai mari de 3%.
Metoda inițială folosită până în 1948 era ca și cum, dorind să vedem dacă legumele din oală sunt fierte, nu am amesteca bine conținutul și le-am lua în lingură doar pe cele mai fierte sau mai puțin fierte.
Distribuția normală
Lumea în care trăim nu este constantă, ci mai degrabă variabilă. Cu toate acestea ea nu este haotică. Deci variabilitatea de care vorbeam urmează totuși niște reguli care pot fi modelate matematic. Să luăm un exemplu. Să presupunem că aruncați o greutate de mai multe ori și măsurați distanța la care o aruncați. Desigur că aceasta va varia; câteodată veți arunca mai departe, alteori – mai aproape. Făcând măsurătorile, veți observa o distanțe medie la care ați aruncat mai des, dar și abateri de la ea. Mai mult, dacă ar fi să desenăm un poligon al frecvențelor, care să arată de câte ori am aruncat greutatea la o anume distanță am observa că el ar avea forma unui clopot răsturnat (numit adesea distribuție gaussiană) precum în imaginea de mai jos.
Această distribuție are o descriere matematică foarte precisă, dar nu este scopul manualului de față de a o detalia (există de altfel suficiente lucrări de statistică matematică care pot fi consultate pentru doritori). Ceea ce este importat de reținut este faptul că dacă fenomenul social observat este aleatoriu si este urmărit o perioadă de timp mai îndelungată, atunci distribuția rezultatelor se face după curba normală, iar acest lucru poate fi demonstrat matematic. Dar nu este scopul volumului de față de a face acest lucru.
Unele caracteristici ale curbei normale
Atunci când am menționat prima dată poligoanele de frecvență care arată distribuția rezultatelor, am precizat că există trei parametri, trei caracteristici prin care este descrisă orice distribuție, pe care îi reamintim în continuare:
• modalitatea – este un aspect important al distribuției care arată câte "vârfuri" are o distribuție. Cu alte cuvinte, arată câte valori sunt în jurul cărora se grupează foarte mulți subiecți. Din acest punct se vedere, distribuțiile pot fi unimodale, adică au un singur vârf, sau ele pot fi multimodale, adică au mai multe vârfuri.
• înclinarea – este un aspect al distribuției care arată dacă scorurile subiecților testați au tendința de a fi mai mari sau mai mici. Spre exemplu, notele școlare au o distribuție înclinată spre dreapta, adică elevii au tendința de a lua mai mult note mari decât note mici. Atunci când înclinarea curbei este spre dreapta, spunem că avem o distribuție înclinată pozitiv. Atunci când distribuția este înclinată spre stânga, spunem că aceasta este negativă. Dacă nu se observă nici o tendință de înclinare, atunci distribuția este simetrică.
• turtirea- este un aspect ce se referă la faptul dacă o distribuție este foarte turtită (adică scorurile din cadrul ei variază foarte mult) sau este mai ascuțitã (adică scorurile variază foarte puțin).
Din perspectiva celor trei parametri, curba normală este unimodală, simetrică si mediu turtită.
În plus, curba normală mai posedă anumite proprietăți speciale. Astfel, maticienii au pus la punct formule care permit calcularea diferitelor suprafețe ale curbei, iar acestea sunt foarte importante pentru statisticieni.
Pentru a înțelege mai ușor despre ce este vorba, să luăm drept exemplu distribuirea rezultatelor la un test de inteligență. Aceste teste sunt construite astfel încât la aplicații repetate, pe multe persoane, distribuția rezultatelor să fie normală, în plus, ele sunt astfel construite ca media rezultatelor să fie 100, iar abaterea sau deviația standard să fie de 16 puncte. Să analizăm puțin această distribuție, care e prezentată în imaginea urmãtoare:
Scoruri brute 68 84 100 116 132
Scoruri Z -2 -1 0 +1 +1
distribuirea normalã a rezultatelor obținute la un test de inteligențã
Întrucât distribuția normală este simetrică, exact 50% din cazuri vor avea scoruri sub valoarea medie (scorul 100); mai mult, aproximativ 34% din cazuri se vor afla între medie si o abatere standard la stânga sau la dreapta. De altfel, dacă urmăriți cu atenție forma curbei normale veți constata prezența unor „puncte de inflexiune", adică puncte în care linia curbă își modifică forma (mai precis, tangenta la curbă trece din exterior spre interior sau invers). Ei bine, aceste puncte corespund tocmai deviațiilor standard.
Dar la ce ne folosește cunoașterea acestor procentaje? In exemplul cu testul de inteligență cunoscând că rezultatele se distribuie normal vom ști că 34% dintre oameni au scorul cuprins între medie (100) și o deviație standard deasupra sau dedesubtul acestei valori. Știind că deviația standard e 16 știm astfel că 34% dintre indivizi vor avea scorul cuprins între 100 și 116 (cei cu IQ situat deasupra mediei) sau între 84 și 100 (cei cu IQ situat dedesubtul mediei). Observați de asemenea că si mai puține cazuri sunt mai depărtate de medie; mai precis, abia 16% din cazuri vor avea scoruri mai mici sau mai mari de o deviație standard. Cu alte cuvinte, numai 16% dintre oameni au coeficientul de inteligență mai scăzut de 84 sau mai ridicat de 116. Mai mult, doar aproximativ 2% dintre indivizi vor avea scoruri și mai extreme, mai mici sau mai mari decât două deviații standard față de medie (adică sub 68 sau peste 132).
Observați astfel că există o strânsă legătură între scorurile standard (notele z) și diferite procentaje sau frecvențe relative. Cunoscând nota z a unui subiect și știind că rezultatele la probă se distribuie normal, putem cunoaște cu precizie câți indivizi din populație au scoruri mai mici sau mai mari decât al subiectului investigat.
Orice manual de statistică are la sfârșit un tabel care permite calcularea acestor procentaje cu precizie, în acel tabel, pentru fiecare notă z, este precizat un procent, care arată câți subiecți au scorurile cuprinse între medie si nota z căutată de noi.
Să luăm un exemplu. Să presupunem că o persoană obține la testul de inteligență scorul 125. știind că media la test este 100 și deviația standard 16, putem calcula ușor nota z a acestui subiect care este 1,56 – din formula: (l25-100)716 (dacă ați uitat formula de calcul a notelor z și semnificația lor, re vedeți capitolele anterioare). Dacă vom consulta unul din tabelele de care aminteam anterior, vom vedea în dreptul lui 1,56 valoarea 44,06%. Aceasta înseamnă că de la medie (100) și până la scorul nostru (125) sunt 44,06% dintre subiecți. Aceasta arată că doar 5,94% dintre indivizi vor avea scoruri mai mari (50%-44,06%) și 94,06% (50%+44,06%) vor avea scoruri mai mici decât subiectul ales de noi.
Populație si eșantion. Logica inferenței statistice.
Vă vom introduce acum în domeniul inferenței statistice pornind de la exemplul cu fiertul boabelor de fasole. Să presupunem că fierbem fasole; la un moment dat luați câteva boabe într-o lingură și vedeți dacă ele sunt fierte, trăgând apoi concluzii despre cum sunt fierte toate fasolele din oală. în acest exemplu, fasolele din oală reprezintă populația (întregul set de obiecte sau lucruri care ne interesează), iar cele din lingură – eșantionul (un subset la care avem de fapt acces), în ce măsură însă sunteți sigur că și restul oalei de fasole are aceleași calități ca si boabele pe care le gustați?
Pentru a vedea cum se realizează inferența statistică, vom lua cel mai simplu exemplu, testul z pentru a compara un singur caz cu o populație a căror parametri sunt cunoscuți. Exemplul are la bază următoarea istorioară (adaptată după Aron & Aron,1995):
Un grup de farmaciști au sintetizat o vitamină care se presupune că accelerează procesele de asimilație la copii nou-născuți, astfel că aceștia vor cunoaște o dezvoltare mai rapidă. Unul dintre efecte este scăderea vârstei la care copii încep să meargă. Farmaciștii au dorit să omologheze vitamina, dar Ministerul Sănătății din Statele Unite le-a cerut să demonstreze că într-adevăr vitamina-lor accelerează mersul copiilor. Pentru aceasta farmaciștilor li s-a dat voie să o administreze numai unui singur copil nou-născut, ales aleatoriu din populație. Copilul respectiv, după administrarea vitaminei a mers la vârsta de 8 luni. Pot farmaciștii să susțină că vârsta precoce la care a mers copilul se datorează vitaminei lor știind că vârsta la care merg copii prima dată, în populația normală este de 14 luni, cu o abatere standard de 3 luni? în ce măsură se poate afirma că efectul obținut se datorează vitaminei și nu altor factori?
Pentru a răspunde cu dovezi statistice la o astfel de întrebare, trebuie să facem apel la distribuția normală a variabilei alese în cadrul populației si să respectăm anumite etape în raționamentul nostru.
Prezentăm în continuare curba normală corespunzătoare vârstei de debut al mersului la copiii din populația normală.
8 luni 11 luni 14 luni 17 luni 20 luni
Scoruri Z – 2 – 1 0 +1 +2
distribuția normalã a vârstei de debut a mersului la copil
În primul rând, trebuie să vedem care e semnificația procentajelor prezentate pe curba normală.
Pe de o parte, ele arată – așa cum precizam anterior – câți subiecți din populații normală au scoruri cuprinse între anumite valori. De exemplu, în cazul de fată, 34 dintre copii încep să meargă între 11 si 14 luni (de la medie la o abatere standard spre stânga), sau 16% (14%+2%) dintre copii merg după vârsta de 17 luni (scoruri situate peste valoarea unei abateri standard).
Pe de altă parte, aceste procentaje pot fi privite si ca prob abilități. De exemplu care este probabilitatea ca, alegând un copil la întâmplare, el să meargă între 11 si 14 luni? Răspunsul este 34% (adică procentul de copii care merg în mod normal între aceste vârste). Sau: care este probabilitatea ca un copil ales la întâmplare să meargă mai țâra» de 17 luni? Răspunsul este: 16%. Observați că am subliniat faptul că acel copil trebuie ales la întâmplare (ceea ce înseamnă că el nu e supus unor condiții speciale de creștere L altfel aceste procente nu pot fi considerate drept probabilități.
Să revenim la exemplul nostru cu farmaciștii. Reamintim că după ce copilul, ala la întâmplare, a luat vitaminele el a mers la vârsta de 8 luni. Să vedem acum, care este probabilitatea ca în condiții normale fărã vitamine – un copil să meargă la 8 luni sau mai devreme de această vârstă? Observați că vârsta de 8 luni corespunde pe curba normală unui scor z = -2 si că doar 2% dintre copii merg înainte de această vârstă în condiții normale. Deci, probabilitatea ca un copil, ales la întâmplare din populație, să meargă fără nici un ajutor extern, fără nici o condiție specială înainte de 8 luni este de 2%. O probabilitate foarte mică, nu? în exemplul nostru, copilul a mers la 8 luni după ce a luat vitaminele. Deci putem respinge argumentul că vitamina nu a avut efect si să acceptăm faptul că ea a avut într-adevăr un efect (probabil că mai trebuie să citiți această propoziție încă o dată). In ce măsură a avut vitamina efect? In proporție de 98%.
Cum judecăm? Dacă fără vitamină doar 2% dintre copii mergeau până la 8 luni,probabilitatea ca acel copil investigat de farmaciști să facă parte dintre acești copii precoce era de 2%. Numai atunci ne-am înșela în concluzia noastră când din întâmplare am da tocmai peste un astfel de copil precoce. Ar fi ca si cum am dori să testăm efectul unei băuturi alcoolice asupra unei persoane care ar fi deja în stare de ebrietate; atunci nu ne-am mai putea da seama cât din starea sa se datorează băuturii testate si cât se datorează stării sale inițiale, întrucât în cazul de față avem 2% șanse să dăm peste un copil precoce, această valoare arată care este de fapt probabilitatea de eroare. Deci vom avea dreptate în proporție de 98%.
Acesta este un exemplu despre logica inferenței statistice. Este necesar să-1 aprofundați pentru a înțelege mecanismul care stă la baza testării ipotezelor în științele sociale.
Etapele testării unei ipoteze. Testul Z pentru a compara un caz cu o populație cunoscută
Vom descrie etapele testării unei ipoteze folosind exemplul de mai sus, cu vitaminele. Reamintim că scopul farmaciștilor era să demonstreze că prin administrarea vitaminelor, copiii care le iau vor merge mai devreme decât cei care nu le iau. Sunt cinci etape în procesul testării unei ipoteze.
1.- Reformularea întrebărilor termenii ipotezelor de cercetare si de nul.
O ipoteză, în statistică, este o afirmație despre parametrii unei populații, pentru că scopul inferenței statistice este să descrie populații pornind de la eșantioane. Două sunt ipotezele cu care lucrăm:
• ipoteza de cercetare (notată H1): este o afirmație generalizată la populația supusă investigării, în cazul nostru, HI este că vitamina va accelera mersul tuturor copiilor care o iau sau – cu alte cuvinte – toți copiii care vor lua vitamina vor merge mai devreme decât cei care nu o vor lua.
• ipoteza de nul (notată H0): este de fapt ceea ce noi testăm în realitate si descrie situația de la care se pornește, situația în care intervenția nu ar avea nici un efect, în cazul de față, H0 afirmă că vitamina nu va accelera mersul copiilor care o iau, cu alte cuvinte, copiii care iau vitamina vor merge la fel ca și cei care nu o iau.
Observații că cele două ipoteze sunt mutual exclusive: dacă una este adevărată, atunci cealaltă este falsă. Mai mult, ipoteza de nul se consideră implicit adevărată. Inferența statistică se face cu referire la ea, iar probabilitățile statistice (pragurile de semnificație) care însoțesc orice test statistic fac referire tocmai la ipoteza de nul.
Să facem acum o mică incursiune în logica simbolică (nu dați pagina și nu treceți mai departe, nu e o chestie prea dificilă pentru voi!).
Există o regulă în logică numită modusponens. Vom lua exemplul clasic:
A→B Dacã cineva este om (A), atunci (→) el este muritor (B).
A Socrate este om.
B De aceea, Socrate este muritor.
Raționamentul de mai sus este perfect rezonabil, nu? Dar existã o greșealã care apare frecvent în legãturã cu acest raționament, eroare numitã afirmarea consecinței. Ea este:
A→B Dacã cineva este om (A), atunci (→) el este muritor (B)
A Iatã ceva ce este muritor.
B De aceea, acel ceva este un om.
Constatați că un astfel de raționament e greșit, pentru că acel ceva poate fi orice ființă vie (ex. un măgar). Dacă vom exprima raționamentul de mai sus în termenii celor două ipoteze statistice, eroarea va apare astfel:
A→B Dacã H0 este adevãratã atunci probabilitatea sau pragul statistic (p) este mare.
B Probabilitatea este mare.
A? De aceea H0 este adevãratã.
Ceea ce este greșit. Dar existã o soluție pentru aceasta pe care tot logica ne-o pune la îndemânã: regula denumitã modus tolens.
A→B Dacã cineva este om (A), atunci (→) el este muritor (B)
non B Iatã ceva ce nu este muritor.
non A De aceea, acel ceva nu este un om.
Aceasta este o interferențã validã, care se folosește de disconformare. În termenii ipotezelor statistice vom avea:
A→B Dacã H0 este adevãratã atunci probabilitatea sau pragul statistic (p) este mare.
non B Probabilitatea nu este mare.( deci p, pragul de semnificație, este mic).
nonA De aceea H0 este falsã.
Și dacă ipoteza de nul este falsă, atunci cea de cercetare este adevărată. Acesta este modul în care ne confirmăm ipotezele în statistică si în cercetare în general. Apropo, aceasta este si ideea ce stă la baza filosofici științei a lui Karl Popper: că progresul în știință se obține numai prin disconfirmare.
Încheiem aici incursiunea noastră în logica simbolică și vă reamintesc că rolul acestei prime etape este doar stabilirea celor două ipoteze.
2.- Stabilirea caracteristicilor distribuției de comparat (cea specificată prin ipoteza de nul)
După ce am stabilit ipotezele si populațiile la care fac ele referire, trebuie să ne stabilim cadrul de referință, distribuția de comparat, întrucât ceea ce testăm noi este ipoteza de nul, evident că distribuția de referință va fi cea a populației corespunzătoare ipotezei de nul.
în exemplul nostru, ipoteza de nul este aceea că vitamina nu are nici un efect, deci copiii care iau vitamina vor merge la fel de devreme ca si cei care nu o iau. Distribuția la care ne referim astfel este cea a vârstei de debut a mersului la copiii normali (care nu iau vitamina si nici nu urmează vreun altfel de tratament special), deci avem o distribuție normală, care are media 14 luni si abaterea standard de 3 luni.
Faptul că știm forma si parametrii distribuției la care ne referim ne permite să cunoaștem tocmai probabilitățile cu care diferite scoruri pot să apară atunci când alegem la întâmplare indivizi din această populație. Pe acest fapt se bazează testele statistice.
3.- Determinarea pragului de semnificație și a „zonei de respingere" a ipotezei de nul.
În această etapă trebuie să stabilim care sunt acele valori extreme care ne permit respingerea ipotezei de nul. Pentru aceasta trebuie să ne fixăm un prag de semnificație (o probabilitate) sub care să respingem ipoteza de nul, prag pe care îl vom fixa pe curba normală corespunzând distribuției de comparat.
8 luni 11 luni 14 luni 17 luni 20 luni
Scoruri Z – 2 – 1 0 +1 +2
distribuția normalã a vârstei de debut a mersului la copil
Reamintim că sunt două tipuri de praguri de semnificație (am discutat despre ele în capitolul anterior), cel de 1% si cel de 5%. în cazul de față, cercetătorii ar trebui să-și aleagă un prag de semnificație mai strâns, mai sever, pe cel de l % (consecințele în cazul unei erori sunt foarte mari). Din tabelele care însoțesc orice manual de statistică vom constata că punctului ce împarte distribuția normală în două părți, una de 1% si restul de 99% îi corespunde nota z – 2,33. în cazul nostru, vom avea z = -2,33 pentru că ne referim la cele mai mici l % dintre valorile populației, cele marcate de săgeată si hașură pe figura anterioară.
Aceasta reprezintă si zona de respingere a ipotezei de nul. Ce înseamnă acest lucru? înseamnă că dacă în urma intervenției noastre (vitamina) vom obține un scor atât de extrem încât el se va încadra în această zonă, atunci vom fi siguri că doar în 1% din cazuri el ar fi fost obținut dacă ipoteza de nul ar fi fost adevărată, întrucât ipoteza de nul e adevărată în 1% din cazuri, atunci în 99% din cazuri ea poate fi respinsă si ipoteza de cercetare acceptată.
4.- Determinarea scorului eșantionului analizat în cadrul distribuției de comparat
În această etapă colectăm datele de la eșantionul analizat și localizăm scorul astfel obținut în cadrul distribuției de comparat.
Revenind la exemplul nostru, farmaciștii trebuie să măsoare la ce vârstă începe să meargă copilul ales pentru cercetare. El merge la 8 luni. întrucât distribuția este normală, iar notele z folosesc la a stabili poziția unui scor într-o distribuție, trebuie să transformăm această notă brută în notă standard, în exemplul nostru, după cum observați și pe curba normală trasată anterior, notei 8 îi corespunde scorul z = -2.
5.- Luarea deciziei de acceptare sau respingere a ipotezei de nul.
Acum, trebuie luată decizia. Comparăm scorul obținut pentru zona de respingere a ipotezei de nul (z = -2,33) cu cel obținut în cursul cercetării (z =-2). Pentru a respinge ipoteza de nul cu o probabilitate de eroare de doar 1%, noi ar fi trebuit să obținem un scor standard mai mic sau cel mult egal cu z =-2,33. Din datele noastre, observăm că scorul obținut este z = -2. În acest caz, nu putem respinge ipoteza de nul cu o probabilitate de eroare de 1%, deci farmaciștii noștri au eșuat în a demonstra eficacitatea vitaminei lor.
Alt exemplu:
Să considerăm un alt exemplu, pentru a înțelege mai bine și a recapitula etapele testării ipotezei. Exemplul are la bază povestioara:
Un ziar studențesc afirmă că studenții Universității „Al.I.Cuza" Iași au petrecut în luna martie 20 ore în medie la discotecă, abaterea standard fiind de 3 ore. Deci, studenții petrec în medie între 17 și 23 ore pe lună la discotecă. Cunoscându-i pe cei din căminul C12 din complexul Codrescu, un student la psihologie consideră că cei din acel cămin sunt mai petrecăreți, deci că ei petrec mai mult timp la discotecă. Așa că alege la întâmplare un student din căminul C12 și îl întreabă cât timp a stat la discotecă în luna martie 24 ore la discotecă. Poate sau nu studentul nostru să afirme, cu o probabilitate de eroare de 5% că cei din C12 sunt mai petrecăreți decât cei din universitate în general?
Etapa I:
• ipoteza de cercetare (notată Hi):toți studenții din C12 petrec mai mult timp la
. discoteca decât cei din universitate, m general.
• ipoteza de nul (notată HO): studenții din C12petrec același timp la discotecă ca și cei din universitate în general.
Etapa II:
Distribuția de comparat este una normală, care are media 20 ore și abaterea standard de 3 ore.
Etapa III:
Pragul de semnificație este de 5%, adică dorim să ne argumentăm sau susține ipoteza de cercetare cu o probabilitate de eroare de 5%. Pentru aceasta zona de respingere a ipotezei de nul va începe de la z = +1,64 (valoare luată din tabelele cu note z din cărțile de statistică, calculate pentru o proporție de 45% de cazuri de la medie). Pe curba normală am reprezentat zona de respingere printr-un câmp hașurat. Deci, ca să respingem ipoteza de nul cu o probabilitate de 5% trebuie să obținem din datele noastre o notă z de cel puțin l ,64 sau mai mult.
14 ore 17 ore 20 ore 23 ore 26 ore
Etapa IV
Culegem propriu-zis datele. Din exemplul oferit observăm că am obținut la întâmplare o notă brută de 24 ore. Vom transforma această notă brută în notă standard, folosind formula (4) din capitolul anterior.
(4)
Astfel scorul Z pentru cazul nostru va fi:
(4)
Etapa V:
Comparăm acum nota astfel obținută (z=l,33) cu cea corespunzătoare zonei de respingere a ipotezei de nul (z=l,64) si constatăm că suntem „în afara" acesteia (trebuia să obținem o notă mai mare sau cel puțin egală cu z=l,64). Astfel, nu putem respinge
ipoteza de nul, deci nu putem demonstra că cei din C12 sunt mai petrecăreți.
Ce s-ar întâmpla însă dacă am lua în calcul nu un singur caz, ci un eșantion? De ce să nu întrebăm mai mulți studenți din C12 cât timp petrec la discotecă? Să vedem ce se schimbă în acest caz.
Testul Z pentru a compara un eșantion cu o populație cunoscută
Vom utiliza aceeași povestire ca si cea anterioară, doar că vom lua în calcul rezultatele a 10 studenți aleși la întâmplare din căminul C12. Să presupunem că media celor 10 persoane este 23, deci cei zece studenți petrec în medie 23 ore la discotecă.
Vom folosi tot testul z, doar că vom compara un eșantion cu o populație.
Să vedem dacă cele cinci etape se schimbă cumva.
Etapa I:
• ipoteza de cercetare (notată HO:toți studenții din C12 petrec mai mult timp la discotecă decât cei din universitate, în general.
• ipoteza de nul (notată H0): studenții din C12 petrec același timp la discotecă ca si cei din universitate în general.
Observați că prima etapă rămâne neschimbată.
Etapa II:
Aici nu mai putem lucra cu aceeași distribuție de comparat. De ce? Pentru că acum noi avem de comparat rezultatele unui eșantion de 10 persoane care se comportă ca un grup, cu rezultatele obținute de studenți, măsurați ca indivizi izolați. Ori așa ceva nu este corect. Să presupunem că avem în livadă o grămadă de mere pe jos, de mai multe soiuri. Luăm la întâmplare o lădiță cu mere. Nu putem compara caracteristicile lădiței de mere (să zicem că avem în ladă 80% mere ionatane și 20% – mere parmen auriu) cu cele ale 'grămezii de mere (mere care sunt fie ionatane, fie parmen auriu). Pentru a le putea compara, ar trebui să aranjăm și merele din grămadă în lădițe de aceeași dimensiune.
În același mod, comportamentul grupului nostru de 10 studenți trebuie comparat cu cel al altor grupuri similare. Astfel, distribuția noastră va fi o distribuție de eșantioane de câte 10 persoane, extrase din populația de indivizi izolați. Mai precis, noua distribuție va conține mediile tuturor acestor eșantioane, drept pentru care ea mai este denumită distribuție de medii.
Care vor fi caracteristicile acestei noi distribuții, provenite din cea inițială? Imaginea următoare este sugestivă în acest sens:
20
Mai sus avem reprezentată populația inițială, formată din indivizi, care are o distribuție normală, cu media 20 ore si abaterea standard de 3 ore. Dacă vom extrage din ea toate eșantioanele de 10 persoane (toate combinațiile posibile) si vom calcula media acestor eșantioane, apoi vom reprezenta grafic această nouă distribuție, vom obține distribuția de mai jos:
20
Observați că media acestei distribuții de medii este tot 20. Ceea ce se schimbă este însă deviația sau abaterea standard. De ce? Explicația este simplă: comportamentul unui grup este totdeauna mai puțin variabil decât comportamentul individual. Exprimat în termeni de probabilitate, probabilitatea ca într-un grup de 10 persoane extras la întâmplare, să avem cazurile cele mai extreme din populație (indivizii cei mai petrecăreți, de exemplu) este foarte mică, dat fiind că ei nu sunt așa numeroși în populația inițială.
Cât va fi abaterea standard a acestei noi distribuții? Matematicienii au calculat acest lucru pentru noi: dacă extragem eșantioane de N persoane din populația inițială, atunci varianta distribuției de eșantioane va fi de N ori mai mică decât varianta inițială.
Varianta este pătratul deviației standard. Deci, varianta distribuției de medii va fi de 10 ori mai mică decât varianta distribuției inițiale (care este 9), deci va avea valoarea 0,90. Dacă varianta distribuției de medii este 0,90, deviația sa standard va fi rădăcina pătrată a acestei valori, deci va fi 0,94 (ore).
Acum, avem toate datele pentru a stabili care va fi distribuția de comparat. Ea este o distribuție normală care are media 20 ore și abaterea standard de 0,94 ore. Deci,
grupurile de câte 10 studenți petrec în medie 20 ore la discotecă, cu o abatere standard de aproape o oră.
Etapa III:
Pragul de semnificație este de 5%, adică dorim să ne argumentăm sau susține ipoteza de cercetare cu o probabilitate de eroare de 5%. Pentru aceasta zona de respingere a ipotezei de nul va începe de la z = +1,64 ca și în exemplul anterior Deci, ca să respingem ipoteza de nul cu o probabilitate de 5% trebuie să obținem din datele noastre o notă z de cel puțin 1,64 sau mai mult. Dar, atenție, această zone de respingere este pe distribuția de medii, nu pe cea a indivizilor izolați!
Zona hașuratã este zona de
respingere.
Etapa IV
Culegem propriu-zis datele. Din exemplul oferit observăm că am obținut la întâmplare o notă brută de 23 ore. Vom transforma această notă brută în notă standard, folosind formula (4) din capitolul anterior.
(4)
Astfel, scorul z pentru cazul nostru va fi:
(4)
Atenție! Deviația standard folosită în formula de mai jos este cea a distribuției de medii!
Etapa V
Comparăm acum nota astfel obținută (z=3,19) cu cea corespunzătoare zonei de respingere a ipotezei de nul (z=l,64) si constatăm că suntem în acest interval (cel hașurat
din imaginea anterioară). Astfel, putem respinge ipoteza de nul, deci am demonstrat cu o probabilitate de eroare de 5% că cei din C12 sunt mai petrecăreți decât cei din universitate în general.
Testul t pentru a compara un eșantion cu o populație la care știm doar media
De cele mai multe ori însă, nu cunoaștem toți parametrii distribuției. Folosind exemplul de mai sus, cel cu studenții și discoteca, să presupunem că citim în ziarul studențesc numai faptul că în luna martie studenții de la „Al.I.Cuza" au petrecut în medie 23 de ore la discotecă, fără ca autorul articolului să precizeze abaterea standard. Ce facem în acest caz? Noi avem nevoie de abaterea standard pentru a cunoaște toți parametrii ce descriu curba normală. Sunăm la redacție, dar aflăm că ei nu mai dispun de datele brute. S-ar părea că suntem într-o situație fără ieșire. Dar nu este așa.
Eșantionul la care noi avem acces, cei 10 studenți din căminul C12, fac și ei parte din populația tuturor studenților de la „Al.I.Cuza", nu? Și atunci, probabil că o parte din caracteristicile acestui eșantion, mai ales cele referitoare la varianta sa, se vor regăsi și în populația inițială, nu? E ca si cum am lua niște boabe de fasole într-o lingură si, pe baza calităților lor, decidem că si cele din oală vor fi similare (la fel de fierte). Desigur că în populația inițială variabilitatea este mai mare decât în eșantion, la fel cum în oală probabil că vom găsi boabe mai fierte sau mai puțin fierte decât cele din lingură.
Să vedem acum care etapă se schimbă în acest caz. Prezentăm mai jos modalitatea de testare a ipotezei:
Etapa I:
• ipoteza de cercetare (notată Hi):toți studenții din C12petrec mai mult timp la discotecă decât cei din universitate, în general.
• ipoteza de nul (notată HO): studenții din C12petrec același timp la discotecă ca si cei din universitate în general.
Observați că prima etapă rămâne neschimbată.
Etapa II:
Aici, distribuția de comparat va fi una de medii, nu de indivizi, după cum am văzut și în exemplul analizat anterior, când cunoșteam varianta populației inițiale. Aici apare însă problema estimării distribuției inițiale, mai precis a variantei sale. Pentru aceasta avem nevoie de datele brute ale eșantionului nostru.
Să presupunem că rezultatele celor 10 studenți din căminul C12 sunt următoarele:
Observați că media lor este aceeași ca si în exemplul anterior, m=23. Cum calculăm varianta?
Vom folosi aceeași metodă ca și cea prezentată într-unul din capitolele anterioare:
Ca să putem calcula varianta trebuie să calculăm S S (suma pătratelor abaterilor de la medie), în cazul nostru, adunând coloana a treia vom obține SS=84. Dacă am dori să calculăm varianta din eșantion, ar trebui să împărțim acest număr la 10 (numărul cazurilor). Această informație, varianta eșantionului, este ceea ce obținem noi în lingură când vrem să vedem dacă legumele din oală sunt fierte. Dar vă reamintesc că noi trebuie să calculăm varianta populației din care a fost extras, deci trebuie să estimăm ce se află în oală. Cum facem? Nu putem decât să estimăm această valoare, fără a o putea măsura exact. O vom obține astfel cu probabilitate, iar matematicienii au stabilit că varianta populației din care provine un eșantion este cu puțin mai mare decât cea a eșantionului. Mai exact, în loc să dividem SS la numărul de cazuri din eșantion, pentru a afla varianta populației, vom împărți pe SS la N-l. Formula de calcul a variantei populației va fi astfel:
Observați că am folosit litere grecești în loc de litere latine. Convenția în statistică este aceea ca parametrii populației să fie notați cu litere grecești, iar cei ai eșantioanelor – cu litere latine. Deci în loc de m (pentru medie), vom nota media populației cu μ deviația standard în loc de SD se notează σ, iar varianta în loc de SD2 se notează cu σ2.
Varianța populației va fi astfel . Deviația standard în acestã populație va fi
Populația astfel estimată, care are media 20 ore si deviația standard de 3,05 ore va fi aproximativ normală. Am subliniat cuvântul „aproximativ" pentru a reaminti că noi am estimat varianta acestei populații, nu am măsurat-o. Ca urmare, ea va fi aproximativ normală; mai precis, ea va fi o distribuție simetrică, unimodală, dar mai turtită decât cea normală. Această curbă de distribuție este denumită curbă t si a fost descrisă prima dată de William Gosset, un statistician care și-a spus Student (despre care veți putea citi mai multe în povestioara de la începutul capitolului următor) si care a inventat testul t. Faptul că este mai turtită decât curba normală permite o ajustare a testării ipotezei care ține cont de mărimea eșantionului folosit în estimare. Astfel, cu cât vom avea un eșantion mai mare de pe baza căruia estimăm populația, cu atât vom avea o curbă t mai apropiată de cea normală.
Dar aceasta nu este decât populația de indivizi, ori noi comparăm un eșantion cu o distribuție de eșantioane (revedeți subcapitolul anterior dacă ați uitat de ea). Ca urmare,
trebuie să comparăm media eșantionului nostru cu o distribuție tot de medii, a unei populații de eșantioane de zece persoane extrase din populația individuală.
Știm, din capitolul antenor, ca aceasta distribuție de eșantioane va avea aceeași medie ca si media de indivizi izolați (X = 0), dar o variantă de N ori mai mică ().
Am folosit indicii m pentru a distinge între populația de indivizi si cea de eșantioane (medii). Astfel, înlocuind în formule, populația de eșantioane va avea media 20 ore și abaterea standard de 0,96 ore.
În concluzie la această mai degrabă lungă etapă a Il-a din testarea ipotezelor, să amintim că distribuția de comparat este în acest caz o distribuție t, de eșantioane, care are media 20 ore si abaterea standard de 0,96 ore.
Etapa III
În această etapă ne stabilim pragul de semnificație (5%) si zona de respingere a ipotezei de nul. Până acum am folosit notele z si tabelele corespunzătoare de la sfârșitul cărților de statistică pentru a determina de la care valoare a lui z vom respinge ipoteza de nul. Dar cum acum nu mai avem o distribuție normală, va trebui să folosim alte note, notele t, care nu sunt altceva decât notele standard ale distribuției t. Fiind note standard, ele vor avea o formulă similară, în cazul nostru:
În această formulă, m reprezintă media eșantionului nostru de zece studenți (23 ore) μm este media populației de eșantioane de 10 studenți studențești de la „Al.I.Cuza", iar am este deviația standard a populației de medii sau a distribuției de eșantioane. Acest din urmă termen mai este numit eroarea standard a mediei.
Ce valoare vom lua în calcul pentru a stabili valoarea lui notei t de la care respingem ipoteza de nul? Depinde de numărul persoanelor din eșantion. Să vedem cum arată un astfel de tabel, pe care orice manual de statistică îl are la sfârșit. Prezentăm mai jos un fragment:
Două sunt elementele care ne interesează pentru a determina valoarea lui t:
(A)- gradul de libertate, (calculat după formula df =N-l)Acesta arată numărul de observații independente necesare pentru a determina omedie (dacă cunoaștem N-l scoruri si media, al al N-lea este determinat de primele, nu mai poate lua orice valoare), în cazul nostru df =9.
(B)- pragul de semnificație, stabilit de noi anterior la 5%. Valoarea lui t se va găsi astfel în tabel la „intersecția" acestor două elemente. Constatăm că t = l,83, deci zona de respingere a ipotezei de nul va fi reprezentată descorurile mai mân de aceasta valoare, așa cum este reprezentat m figura de mai jos (zona hașurată):
Etapa IV:
Este etapa culegerii datelor pentru a afla media eșantionului nostru (m=23) si a afla poziția sa în cadrul populației de eșantioane. Pentru a afla această din urmă informație, vom folosi formula pentru scorurile t (reamintim că lucrăm cu o curbă t si că notele standard în acest caz sunt note t):
Etapa V:
Pe baza notei t calculate în etapa anterioară (3,12) si a notei t care stabilește zona de respingere a ipotezei de nul (1,83) vom trage concluzia cercetării noastre, întrucât nota t a eșantionului se găsește în zona de respingere (a se vedea imaginea următoare), vom concluziona că, cu o eroare de 5% putem respinge ipoteza de nul, ceea ce înseamnă acceptarea ipotezei de cercetare cu o aceeași probabilitate de a greși.
În concluzie, putem afirma cu o eroare de 5% că cei din căminul C12 sunt mai petrecăreți decât studenții de la Universitatea „Al.I.Cuza", în general.
Folosirea SPSS: meniul ANALYZE – COMPARE MEANS – ONE-SAMPLE T-TEST
Să vedem acum cum reușim să aplicăm testul t pentru a compara un eșantion cu o populație la care cunoaștem doar media folosind programul SPSS. Introducerea teoretică expusă anterior (și pe care nu o vom mai repeta în cele ce urmează cu alte metode statistice) a avut rolul de a vă familiariza cu logica testării oricărei ipoteze.
Prezentăm în continuare baza de date cu care vom lucra mai departe si pe care trebuie să o introduceți în programul SPSS (revedeți capitolele anterioare dacă aveți dificultăți în introducerea datelor):
Este vorba despre o cercetare în care psihologul a măsurat gradul de anxietate al unor studenți la un examen (variabila ANX, măsurată pe o scală de la l – deloc anxios, la 9 – foarte anxios), precum si notele înregistrate de acești studenți la examen (variabila NOTA). Psihologul a mai înregistrat si ziua din săptămână în care a avut loc examinarea (variabila ZI_EXAM, cu valorile l="luni" si 2="miercuri"). Observați că avem 30 de cazuri si nu uitați să definiți valorile l si 2 pentru variabila ZI_EXAM din coloana VALUES, perspectiva VARIABLE VIE W (așa cum arătam în capitolul anterior).
După ce a cules datele și le-a introdus în SPSS, psihologul a fost interesat să vadă dacă cei 30 de studenți au obținut note mai ridicate decât 5. Cu alte cuvinte el dorește să afle dacă studenții investigați se deosebesc fundamental de o populație studențească carear obține media 5 la materia la care s-a dat examenul, întrucât accesul la o astfel de populație studențească este imposibil, deci nu putem măsura alți parametri în afara mediei, trebuie să estimăm variabilitatea sa, deci va trebui să aplicăm testul t pentru a compara un eșantion cu o populație, așa cum am făcut anterior cu cei 10 studenți și timpul petrecut la discotecă.
Aplicarea testului t pentru a compara un eșantion se face din meniul ANALYZE, activând comanda ONE SAMPLE T TEST, ca în imaginea de mai jos:
Odatã activatã comanda, pe ecran apare fereastra de mai jos:
Fereastra are elemente pe care le cunoaștem din exemplele anterioare de folosire a programului SPSS, dar si elemente noi. Astfel:
– este câmpul cu variabilele prezente în baza de date;
(2) – este câmpul unde vom introduce variabilele pentru analizat (folosind butonul cu săgeată dintre cele două câmpuri si selectând anterior variabila/variabilele cu ajutorul mouse-ului);
(3) – reprezintă valoarea la care testăm noi ipoteza de nul, este media populației la care ne referim, cu care facem comparația eșantionului.
Observați un buton cu opțiuni (OPTIONS) în partea dreaptă-jos a ferestrei. Activat, acest buton va deschide la rândul său o fereastră precum cea de mai jos:
De aici putem modifica pragul de semnificație (pentru 5% vom lăsa 95% în câmpul CONFIDENCE INTERVAL, pentru un prag mai strâns, de 1%, vom modifica valoarea din acest câmp la 99). Indicat este să nu modificăm setările din această fereastră.
Apăsați CONTINUE si apoi butonul OK din fereastra principală. Programul va deschide automat o nouă fereastră, în care vă sunt prezentate rezultatele, ca în imaginea următoare:
Observați că rezultatele sunt grupate în două tabele. Unul conține elemente de statistică descriptivă (ONE SAMPLE STATISTICS), iar celălalt cuprinde date despre testul t propriu-zis.
Să analizăm detaliat elementele OUTPUT-ului.
(1) – în această celulă este prezentată media eșantionului nostru, m=7,80;
(2) – deviația standard a eșantionului investigat, SD=1,54, este trecută aici;
(3) – ultima celulă a acestui prim tabel cuprinde eroarea standard a mediei, mai precis deviația standard a populației de eșantioane de câte 30 de subiecți din care ar proveni un eșantion precum este cel investigat de noi, σm =0,28;
(4) – este nota t a eșantionului nostru raportat la populația de eșantioane care ar avea media μ = 5 (valoarea la care ne raportăm) și abaterea standard σm = 0,28. Valoarea lui t=9,95 a fost obținută după formula:
(5) – aici sunt trecute gradele de libertate pentru care a fost calculată valoarea lui t și probabilitatea de respingere a ipotezei de nul;
(6) – aici este trecut pragul de semnificație real (numai primele trei zecimale). Pragul de semnificație arată care este probabilitatea de a greși atunci când respingem ipoteza de nul, deci probabilitatea de a greși în susținerea ipotezei de cercetare, în exemplul nostru, valoarea p=0,000 nu arată că suntem perfecți în ceea ce susținem (computerul nu a mai avut loc să arate toate zecimalele), ci doar că probabilitatea de eroare este foarte mică. într-un astfel de caz, atunci când raportăm valoarea lui p vom scrie „p<0,01" arătând că eroarea este mai mică de 1%; când avem un număr valid în dreptul lui p, vom trece primele două zecimale.
(7) – aici este pur și simplu trecută diferența dintre media eșantionului nostru și cea a populației la care ne raportăm
(8) – reprezintă intervalul de încredere al diferenței dintre cele două medii (7,80 și 5) corespunzător pragului de semnificație de 5%. Cum se interpretează el? Diferența reală dintre media populației din care provine eșantionul investigat de noi și cea a populației de referință se va găsi în intervalul 2,22 – 3,37. Deci între cele două populații am fi găsit, cu o probabilitate de eroare de doar 5% măcar o diferență de 2,22 puncte și una de cel mult 3,37.
În interpretarea statistică a testului t, oricare ar fi tipul de test ales, elementele pe care ne bazăm interpretarea sunt:
• pragul de semnificație: care este probabilitatea de eroare atunci când acceptăm ca adevărată ipoteza noastră de cercetare. Pentru a ne confirma ipoteza de cercetare, pragul de semnificație trebuie să fie mai mic sau cel mult egal cu 0,05; eroarea nu trebuie să depășească 5%.
• gradul de libertate: arată care este mărimea eșantionului pe care s-a făcut testarea ipotezei; cu cât este mai mare, cu atât mai mult putem avea încredere în rezultatele obținute, indiferent dacă ele confirmă sau nu ipoteza de cercetare.
• sensul diferenței: este dat de valoarea mediilor comparate și arată în ce sens apare diferența (care medie este mai mare sau mai mică).
în exemplul nostru, diferența dintre medii este obținută în favoarea eșantionului nostru.
Valoarea testului – t(29)=9,95 – și a pragului de semnificație p<0.01, arată că această diferență este semnificativă, deci studenții noștri sunt semnificativ diferiți de cei care ar avea media 5 la materia respectivă, deci ei provin dintr-o populație diferită. Această concluzie poate fi afirmată cu o probabilitate de eroare mai mică de 1%.
Folosirea SPSS: meniul TRANSFORM – RECODE
Ceea ce vă prezentăm în continuare nu se referă propriu-zis la prelucrarea statistică a datelor, ci la diferite operații de transformare a variabilelor de care s-ar putea să avem nevoie pe parcursul analizelor noastre. Transformarea variabilelor nu înseamnă modificarea datelor, ci realizarea unor combinații valide pe seama variabilelor existente.
Recodificarea într-o variabilă nouă.
Spre exemplu, să presupunem că pentru o analiză ulterioară am dori să împărtim studenții din cercetarea descrisă mai sus în două grupuri: pe de o parte pe cei care au luat 8 sau mai puțin la examen, iar pe de alta pe cei care au luat peste 8. Cum facem?
Va trebui să recodificãm variabila NOTA într-o nouă variabilă, s-o notăm NOTATIP, iar pentru aceasta vom folosi comanda RECODE – INTO DIFFERENT VARIABLE din meniul TRANSFORM.
Prezentăm în continuare meniul corespunzător acestei comenzi:
Aceastã comandã va activa fereastra de mai jos:
Să analizăm puțin această fereastră:
(1) – este câmpul ce conține variabilele din baza de date;
(2) – este un buton ce activează diferite condiții (similar cu butonul IF descris în capitolul anterior la comanda SELECT CASES);
(3) – este câmpul în care introducem numele noii variabile pe care dorim să o creăm. El se va activa imediat ce introducem o variabilă în câmpul INPUT VARIABLE – OUTPUT VARIABLE;
(4) – aici stabilim valorile noii variabile prin raportare la valorile vechii variabile. Selectați acum variabila NOTA, introduceți-o în câmpul din dreapta, cu ajutorul butonului cu săgeată de pe fereastră. Alegeți apoi numele noii variabile si apăsați butonul CHANGE. Veți constata astfel schimbarea care se produce, la fel ca în imaginea următoare:
Odată ajunși în etapa ilustrată de imaginea de mai sus, apăsam butonul OLD AND NEW VALUES pentru a stabili care sunt valorile pe care dorim să le recodificăm in noua variabilă. Apăsarea butonului deschide fereastra:
Să analizăm mai amănunțit fereastra pentru a vedea cum o vom folosi:
(1) – este opțiunea marcată implicit si care permite înlocuirea unei singure valori din vechea variabilă cu una din noua variabilă;
(2) – permite înlocuirea unui întreg interval (la care cunoaștem limitele inferioară si superioară) cu o singură valoare;
(3) – permite înlocuirea unui interval pornind de la valoarea minimă până la o valoare selectată de noi, inclusiv aceasta din urmă, cu o valoare nouă;
(4) – permite înlocuirea unui interval pornind de la o valoare selectată, exclusiv, până la valoarea maximă cu o valoare nouă;
(5) – este butonul folosit pentru a pune în legătură două valori, una de la vechea variabilă cu una de la variabila nou definită.
În cazul nostru, avem nevoie de opțiunile (3) si (4). Vom seta intervalul de la valoarea minimă la valoarea 8 să aibă valoarea l în noua variabilă si intervalul de la 8 la valoarea maximă – valoarea 2, ca în imaginea de mai jos:
Dacã am procedat corect, în final ar trebui sã obținem fereastra urmãtoare:
Apăsam butonul CONTINUE si apoi butonul OK pe fereastra principală. Observați apoi ce se întâmplă în baza de date:
Observați că variabila nouă apare în stânga ultimei variabile din baza de date. Observați de asemenea si corespondența dintre valorile noii variabile si cele vechi (ex. că în dreptul studenților care au note sub valoarea 8 apare valoarea l la variabila NOTATIP si valoarea 2 acolo unde notele sunt peste 8).
Recodificarea aceleiași variabile
Alteori ne este util să recodificăm o aceeași variabilă, fără a fi necesar să creăm una nouă. Spre exemplu, să presupunem că nu avem nevoie de scorurile brute obținute de studenții din exemplul anterior la testul de anxietate (variabila ANX), ci de împărțirea lor în două grupuri, grupul de studenți care nu sunt anxioși (care au scorul mai mic sau egal cu 5) si cei cărora examenul le provoacă anxietate (scorul la variabila ANX să fie mai mare ca 5). De obicei, o astfel de împărțire se face prin raportare la mediană.
Meniul pentru această transformare este următorul:
Comanda va fi activatã din fereastra de mai jos:
Observați că această fereastră este asemănătoare cu cea discutată anterior, când recodificam variabila sub un nume diferit. Mai mult, avem opțiuni mai puține. Aici, singurul buton mai important, dar care exista si în cealaltă fereastră, este butonul IF, descris mai jos:
Observați că alcătuirea acestei ferestre, activată de butonul IF este identică cu cea prezentată în capitolul anterior, pentru comanda SELECT CASES. De aceea, nu mai "prezentăm detalii acum, mai ales că pentru exemplul de față nu avem nevoie de o parte din cazuri, ci dorim să le transformăm pe toate.
Revenim la butonul OLD AND NEW VALUES care deschide fereastra:
Observați că aici, această fereastră este identică cu cea prezentată la comanda anterioară când recodificam variabila sub un alt nume. Diferența constă aici că ne referim la valoarea 5 si nu la 8. După ce am efectuat modificările dorite, apăsam CONTINUE si apoi OK în fereastra principală si vom constata faptul că valorile variabilei ANX au fost schimbate în baza de date în conformitate cu criteriile stabilite de noi:
Exercițiu:
Codificați și variabila NOTA în același fel.
TESTE DE COMPARAȚIE (DIFERENȚĂ) PENTRU
VARIABILE CANTITATIVE
(scale de interval sau de raport)
Cuprins:
Comparația variabilelor cantitative
Folosirea SPSS: meniul ANALYZE -COMPARE MEANS – PAIRED SAMPLES T TEST
Folosirea SPSS: meniul ANALYZE -COMPARE MEANS-INDEPENDENT SAMPLES T
TEST
Folosirea SPSS: meniul TRANSFORME – COMPUTE
Gosset, statisticianul berar
Când William S. Gosset a absolvit Universitatea Oxford cu o diplomă în matematică și alta în chimie, faimosul producător de bere Guinness din Dublin, Irlanda, căuta tineri savanți pentru a produce bere după metode științifice, o premieră în acele vremuri. Astfel, tânărul Gosset s-a trezit de pe băncile școlii între cazane și butoaie cu bere.
Problema cu care se confrunta Gosset a fost aceea de a face berea cât mai puțin variabilă și de a găsi cauza erorilor (ex. de ce unele tranșe de bere nu aveau gustul așteptat). Orice savant i-ar fi recomandat lui Gosset să realizeze experimente. Dar ce producător de bere își permitea să cheltuie sume importante de bani pentru a supune experimentelor zeci de butoaie cu bere? Astfel, Gosset trebuia să se mulțumească cu cele câteva butoaie care dădeau greș și să calculeze probabilitatea ca un anumit soi de cereale folosit să fi cauzat eroarea. La asta se mai adăuga și faptul că el nu avea nici o idee despre variabilitatea diferitelor soiuri de cereale (ex. poate regiunea în care creșteau influența caracteristicile lor).
Situația 1-a forțat astfel pe Gosset să găsească o metodă simplă prin care să poată compara diferitele soiuri de bere, o formulă pe care s-o poată ține minte ușor și folosi adecvat. Pentru aceasta a trebuit să se descurce pe cont propriu. Pentru colegii săi de la fabrica de bere, el era un profesor de matematică; pentru colegii săi de la Laboratorul Biometric al Universității din Londra el nu era decât un simplu berar.
Forțat să aplice ce a învățat în școală la situațiile întâlnite în fabrica de bere, Gosset a descoperit distribuția t și a inventat testul t – simplicitatea însăși – pentru situațiile când avem eșantioane mici și variabilitatea populației este necunoscută. Cea mai mare parte din munca sa statistică s-a petrecut în biroul său din curtea fabricii, printre butoaie și anvelope uzate, în final, metoda sa a fost recunoscută și foarte apreciată de comunitatea statistică după ce – la insistențele unor editori – a publicat un articol despre „metode de realizare a berii".
Până azi, cei mai mulți statisticieni numesc testul t ca fiind „testul lui Student" pentru că Gosset a scris articolul cu pricina sub numele anonim de „Student"; firma Guinness n-ar fi admis niciodată că în butoaiele sale se poate produce bere proastă!
Comparația variabilelor cantitative
Cum menționam în primele capitole, variabilele sunt de mai multe tipuri, în funcție de natura mărimii care variază, ele pot fi cantitative si calitative. De fapt, dacă facem referire la scalele de măsură cele mai cunoscute (nominală, ordinală, de interval si de raport), observăm că variabilelor calitative le corespund scalele de măsură nominală si ordinală, în timp ce variabilelor cantitative – scalele de interval si cele de raport.
în psihologie, majoritatea variabilelor dependente pe care le măsurăm sunt cantitative. Chiar si acele variabile care descriu calități psihologice sunt, pentru statistică, tot variabile cantitative, pentru că mărimea care variază este o cantitate.
Spre exemplu, variabile extrovesiune – introversiune nu este o variabilă calitativă, așa cum s-ar aștepta un novice în ale psihologiei; oamenii nu se împart în două categorii: în introvertiți și extravertiți. Nu, mai degrabă există un continuum care are la cei doi poli trăsăturile extreme, iar oamenii se situează undeva pe acest continuum:
introvertit extravertit
De altfel, acest lucru este observabil si dacă analizăm construcția instrumentului de măsură, a chestionarului care arată cât de introvertit sau extravertit este un individ, întrebările sunt aceleași pentru ambele calități psihologice, ceea ce diferă este răspunsul subiecților," care sunt rugați să estimeze frecvența cu care fac anumite comportamente (ex: De câte ori mergeți la petreceri?}, deci avem același criteriu de variație, un criteriu cantitativ.
Dat fiind natura măsurătorilor psihologice și comoditatea folosirii scalelor de interval și de raport (care oferă cele mai multe informații), majoritatea metodelor statistice pe care le vom întâlni în psihologie sunt metode cantitative, care folosesc ca măsurători dependente variabile cantitative, spre deosebire de sociologie, de exemplu, unde metodele sunt adaptate variabilelor ordinale sau nominale, folosite preponderent în sondajele de opinie.
În capitolul anterior am văzut cum procedăm atunci când dorim să comparăm un individ sau un eșantion cu o populație despre care cunoaștem unele informații (de obicei numai media). Situațiile cu care ne confruntăm în viata de zi cu zi sunt însă de altă natură: de cele mai multe ori, noi comparăm două eșantioane între ele și dorim apoi să generalizăm rezultatele la populațiile din care provin aceste eșantioane, într-o astfel de situație, nu cunoaștem nimic despre populațiile din care provin ele; nimic cu excepția datelor din eșantioane și asta este suficient ca, aplicând metoda dezvoltată de Gosset, să putem constata diferențele.
Compararea a două eșantioane perechi
Cea mai simplă situație de comparare a eșantioanelor este situația de tip test – retest, în care dorim să măsurăm dacă ceva se schimbă ca urmare a unor intervenții. Spre exemplu, măsurăm pacienții înainte de terapie și apoi îi măsurăm la ceva timp după ce au început terapia pentru a constata dacă tratamentul a avut vreun efect.
Cum procedăm într-o atare situație? Care este ipoteza de nul și care este populația la care ne referim?
Să ne gândim puțin. Să presupunem că tratăm pacienții de depresie. Noi nu cunoaștem nici nivelul (media) depresiei populației de pacienți înainte de a veni la terapie (știm doar media depresiei celor care au venit, nu a populației din care ei provin) și nici nivelul populației după terapie. Dar nici nu ne interesează acest lucru (!). Noi suntem de fapt interesați de diferența dintre cele două populații, oricare ar fi nivelul lor absolut. Este ca și cum nu am cunoaște adâncimea unui râu, dar putem măsura totuși nivelul de variație al apei, dacă plasăm un reper pe mal.
Deci ipoteza noastră de nul și cea de cercetare trebuie să se refere tocmai la scorul diferentelor dintre cele două măsurători. Astfel, ipoteza de nul va fi aceea că nu există nici o diferență între măsurători, deci media populației de diferente va fi nulă, iar ipoteza de cercetare va fi aceea că totuși media diferențelor nu va fi zero.
Cum procedăm mai departe? Noi avem rezultatele a două eșantioane perechi (măsurătorile înainte de terapie și măsurătorile după terapie) și ne raportăm la o singură distribuție, cea a diferențelor. Pentru a putea să facem această raportare ar trebui să avem tot un eșantion, acela al diferentelor. Astfel, vom crea un nou eșantion (este ca și cum am recodifica variabilele) ale cărui scoruri vor fi tocmai diferențele dintre scorurile finale si cele inițiale obținute de la pacienții noștri.
Astfel, ajungem în situația dinainte, unde comparam un eșantion (acela al diferențelor dintre scorurile finale și cele inițiale) cu o populație la care cunoaștem medie (media va fi 0 – zero, conform ipotezei de nul că nu vor fi diferențe semnificative).
Aceasta este logica testului t pentru eșantioane perechi; similar vom judeca și în cazul în care eșantioanele sunt independente. Nu vom mai insista asupra aspectelor teoretice, ci vom trece la aplicațiile practice folosind SPSS-ul.
Folosirea SPSS: meniul ANALYZE – COMPARE MEANS – PAIRED SAMPLES T TEST
Vom folosi un set de date pentru a putea să aplicăm analizele statistice. Prezentăm mai jos aceste date, precizând că ele sunt imaginare si ar descrie salariul inițial, la angajare si cel după cinci ani, pe care îl aveau angajații unei firme, în plus, în baza de date mai este trecută, ca variabilă ce grupează subiecții, nivelul studiilor acestora.
Menționăm că salariul este specificat în mii de lei. Valorile variabilei STUDII sunt: l-primare, 2-medii si 3-superioare. Aceste valori trebuie trecute în câmpul VALUES din perspectiva VARIABLE VIEW (revedeți primele capitole pentru aceasta).
Scopul analizei noastre este de a argumenta statistic dacă salariul după 5 ani este semnificativ mai mare decât cel inițial, de la angajare. Ipoteza de nul este aceea că între cele două măsurători nu vom avea diferențe semnificative, deci că salariul nu creste semnificativ.
Să vedem cum analizăm cu ajutorul programului SPSS.
Pentru a activa comanda necesară analizei statistice deschidem meniul ANALYZE si alegem comanda PAIRED SAMPLES T TEST, ca în imaginea de mai jos:
Odatã activatã comanda se deschide urmãtoarea fereastrã:
Analizând fereastra mai în detaliu vom constata următoarele:
(1)- variabilele existente în baza de date sunt trecute, ca de obicei la orice fereastra de analizăm SPSS, în acest câmp;
(2) – câmpul de mai jos arată selecția curentă, variabilele selectate pentru analiză. Atenție! Spre deosebire de alte analize, pentru acest test se selectează două variabile (o pereche); selecția se face consecutiv.
(3) – este câmpul unde se va introduce perechea de variabile pentru analiză.
După selecție si introducere în câmpul de analiză, fereastra de mai sus ar trebui să arate precum cea următoare:
Butonul OPTIONS este identic cu cel din fereastra testului t pentru compararea unui eșantion cu o populație, discutat în capitolul anterior. De aici putem selecta intervalul de încredere (stabilit implicit la 95%).
Apăsând butonul OK, programul încarcă fereastra cu rezultate (OUTPUT) ca mai jos:
Output-ul este organizat în trei tabele. Prezentăm detaliat primele două:
(1) – aici este trecută perechea de variabile analizată. Atenție! Pentru a putea face analiza, variabilele trebuie într-adevăr să fie „perechi". Asta înseamnă pe de o parte că ele trebuie să provină de la aceeași subiecți, sau de la perechi de subiecți care au o legătură între ei (ex. frați). Pe de altă parte, întrucât facem diferența între variabile, ele trebuie să se măsoare în aceleași unități de măsură.
(2) – în această coloană sunt trecute mediile celor două eșantioane
(3) – numărul de subiecți luat în calcul la analiză din fiecare eșantion este
reprezentat aici
(4) – deviațiile standard ale rezultatelor fiecărui eșantion sunt trecute în această coloană.
(5) – aici sunt reprezentate erorile standard ale mediilor sau, mai precis, deviația standard a populației de eșantioane de N subiecți din care provin eșantioanele noastre
În al doilea tabel al foii de rezultate este trecut rezultatul corelației dintre cele două variabile. Astfel:
(6) – arată coeficientul de corelație dintre cele două variabile
(7) – arată pragul de semnificație al corelației, care este probabilitatea de eroare atunci când afirmăm că ar exista o legătură între variabilele analizate.
Al treilea tabel conține propriu-zis date despre testul statistic. Să-1 privim cu atenție si să-1 analizăm detaliat.
(1) – arată numele perechii de variabile luată în calcul. Observați că se ia în calcul diferența dintre salariul inițial si cel final (notați semnul minus ce există între variabile, nu este o simplă liniuță)
(2) – aici este trecută media diferenței dintre mediile celor două eșantioane, deci aici apare diferența dintre medii. Faptul că este o valoare negativă arată că salariul final este mai mare decât cei inițial.
(3) – în această celulă este trecută deviația standard a eșantionului rezultat din diferențele celor două eșantioane.
(4) – reprezintă deviația standard a populației de eșantioane de diferențe de scoruri (revedeți partea teoretică de la începutul capitolului dacă vă este neclar)
(5) – reprezintă intervalul de încredere al diferenței dintre mediile celor două eșantioane, apreciat cu o probabilitate de 95%. Cu alte cuvinte, folosind alți 33 de subiecți de la aceeași firmă diferența dintre salariile lor inițiale si finale s-ar fi încadrat cu o probabilitate de 95% în intervalul de încredere.
(6) – este valoarea testului t, de fapt nota t a eșantionului de diferențe în cadrul populației de eșantioane obținute prin diferența dintre scoruri.
(7) – reprezintă gradele de libertate pentru care a fost calculată nota t, deci arată caracteristicile curbei t la care ne-am raportat.
(8) – arată pragul de semnificație sau probabilitatea de eroare atunci când respingem ipoteza de nul. în cazul de față, valoarea sa foarte mică ne îndreptățește să respingem ipoteza de nul într-o foarte mare măsură.
Cum interpretăm rezultatele concret obținute?
Vom spune că analiza statistică realizată a permis identificarea unor diferențe semnificative între nivelul salariului după cinci ani și cel al salariului inițial; testul t pentru eșantioane perechi t(32)=5,31 pentru p<0.01 argumentează statistic această ipoteză. Observați că am trecut valoarea absolutã a testului t și nu pe cea cu semnul minus. Așa se procedează în general, semnul plus sau minus pe care-1 poate avea nota t fiind determinat de sensul în care facem diferența. Așa că trebuie să precizăm în interpretarea noastră în ce sens apare diferența; în cazul nostru trebuie să spunem că salariul final, după cinci ani este mai mare semnificativ decât cel inițial. Acest fapt se observă din primul tabel unde sunt trecute mediile eșantioanelor.
Si corelația joacă rolul său în analiza datelor de fată. Ea arată dacă subiecții își schimbă ierarhia unii fată de alții, nu numai nivelul variabilei dependente de la o măsurătoare la alta. Avem aici trei cazuri posibile: nu avem corelație semnificativă: în acest caz nu există nici o legătură între ierarhia subiecților la prima măsurătoare și cea obținută la a doua măsurătoare. Un astfel de rezultat, care arată că cele două variabile perechi luate în calcul sunt independente una de alta, ar putea fi interpretat în sensul că diferențele obținute nu sunt sistematice, intervenția noastră afectând subiecții într-un mod oarecum haotic corelație semnificativă, pozitivă: este cazul pe care îl avem de față. Arată faptul că ierarhia subiecților se păstrează într-o oarecare proporție de la o măsurătoare la alta (ex. chiar dacă salariul final crește la toată lumea, cei care aveau salariul inițial mare comparativ cu restul, îl vor avea mare și în final, comparativ cu ceilalți), în acest caz, am putea aprecia că intervenția noastră (în cazul de față simpla trecere a timpului) afectează pe toată lumea în același grad
corelație semnificativă, negativă: ilustrează inversarea ierarhiei subiecților de la o măsurătoare la alta; chiar dacă nivelul general se schimbă, cei care aveau scoruri inițiale mici comparativ cu restul vor ajunge în final să aibă scoruri mari față de ceilalți și invers. Un astfel de rezultat ar arăta ca intervenția este mai puternică la cei care aveau inițial scoruri mici, pattern întâlnit adesea în testele care măsoară eficacitatea unor tratamente.
Atenție! Testul t arată dacă de la starea inițială la cea finală se schimbă nivelul general, în timp ce corelația arată dacă avem în același timp și o schimbare de ierarhiei
Folosirea SPSS: meniul ANALYZE –COMPARE MEANS -INDEPENDENT SAMPLES T TEST
Este ideală situația experimentală unde subiecții sunt și propriul lor grup de control (situația test-retest). în alte situații însă pur și simplu nu avem cum să măsurăm subiecții folosind metoda test-retest. De exemplu, folosind datele prezentate anterior, să presupunem că ne-ar interesa să vedem dacă nivelul studiilor afectează câștigul salarial. Cu alte cuvinte, ne interesează să vedem dacă o variabilă independentă (în cazul de față nivelul studiilor) afectează sau influențează o variabilă dependentă (venitul).
Nu avem cum să măsurăm câștigul subiecților sub forma test-retest, pe măsură ce ei trec da la un nivel de educație la altul, deoarece o astfel de trecere este – de obicei – continuă, fără pauze în câmpul muncii. Nici nu putem manipula direct variabila nivel de studii, putem cel mult să o invocăm , să o folosim pentru a împărți subiecții pe grupuri independente.
În acest caz avem nevoie de o altă metodă, de testul t pentru eșantioane independente. Menționăm că nu este necesar ca cele două eșantioane să aibă același număr de subiecți.
Folosind SPSS, din meniul ANALYZE activăm comanda INDEPENDENT SAMPLES T TEST, ca în imaginea de mai jos:
Odatã activatã comanda , se va deschide fereastra:
Sã analizãm aceastã fereastrã:
(1) – este câmpul unde se află toate variabilele existente în baza de date
(2) – este câmpul unde vom introduce variabilele dependente (observați că putem introduce mai mult de o singură variabilă, deci putem vedea simultan efectul unei variabile independente asupra variabilelor dependente). Rețineți că în acest câmp introducem ceea ce măsurăm noi, variabila asupra căreia dorim să observăm influența variabilei independente.
(3) – este câmpul unde se introduce variabila independentă sau variabila de grupare, a cărei influență va afecta variabila sau variabilele de măsurat.
(4) – variabilele independente sau de grupare au, de obicei, mai multe nivele de măsură, în cazul nostru, avem trei nivele, trei grupuri, corespunzătoare celor trei nivele de studii (primare, medii si superioare). Folosind butonul DEFINE GROUPS noi trebuie să precizăm doar două dintre niveluri, între care dorim să facem diferentele.
Odată activat, butonul DEFINE GROUPS deschide fereastra de mai jos:
Să presupunem că dorim să facem diferența între câștigul salarial al celor cu studii primare si al celor cu studii medii, în căsuțele corespunzătoare grupurilor, vom trece valorile variabilei independente care definesc acele grupuri. Astfel, vom trece l pentru cei cu studii primare (așa i-am definit când am introdus datele) și 2 pentru cei cu studii medii. Vă reamintesc că aceste valori (l și 2) nu sunt numerice; pur și simplu ele sunt două coduri ce permit diferențierea celor două grupuri. Noi puteam să fi avut orice alte două numere diferite.
După ce vom introduce valorile corespunzătoare grupurilor apăsați butonul CONTINUE și observați ce se schimbă în fereastra inițială:
Abia acum se activeazã și butonul OK, care va deschide urmãtorul OUPUT:
Să analizăm rezultatele în detaliu, rezultate prezentate în doar două tabele:
(1) – arată variabila dependentă (salariul inițial) care este analizată în funcție de nivelurile sau grupurile determinate de cea independentă (studii)
(2) – arată numărul de subiecți din fiecare grup independent luat în calcul
(3) – ilustrează media fiecărui grup sau eșantion independent luat în calcul, în cazul de fața putem observa cat câștiga cei cu studii primare și cat câștiga în medie cei cu studii medii.
(4) – arată care este deviația standard în fiecare eșantion în parte. Observăm astfel că există o mai mare variație a câștigurilor pentru cei cu studii medii decât pentru cei cu studii primare
(5) – precizează care este deviația standard pentru populațiile de eșantioane de N subiecți din care ar proveni grupurile noastre. Observați și aici diferențe între cele două grupuri.
Facem aici o mică și necesară intervenție, prin care să arătăm cât de importante sunt informațiile de la punctul (4) și (5), făcând apel din nou la exemplul cu oala de fasole Să presupunem că dorim să arătăm că două soiuri de fasole, (să zicem albe și negre) fierb diferit. Cum procedăm? Le punem pe amândouă în aceeași oală, le fierbem un timp, apoi luăm într-o lingură boabe din ambele soiuri (după ce amestecăm în prealabil foarte bine) și gustăm. Dacă vom simți diferențe (adică cele două soiuri de fasole se sfarmă diferit), atunci concluzionăm că ele fierb diferit. E corect raționamentul? Parțial, pentru că diferențe privind consistența boabelor puteau exista de la început (un soi să fie mai tare decât celălalt, nefiert). Și atunci? Ar trebui să ținem cont de acest fapt cumva.
În acest punct vom folosi testul lui Levene (punctele 6, 7 și 8 din explicațiile ferestrei) care testează egalitatea variantelor populațiilor din care provin eșantioanele noastre (prezentată la punctul 5 din explicații). Testul lui Levene, notat cu F, testează ipoteza de nul care afirmă că variantele populațiilor din care provin cele două eșantioane sunt egale.
Să continuăm cu explicațiile ferestrei de OUTPUT:
(6) – precizează cele două situații posibile: când variantele sunt egale sau când ele sunt inegale;
(7) – arată valoarea testului F, a lui Levene (vom discuta despre aceasta la capitolul despre analiza de variantă)
(8) – arată pragul de semnificație sau probabilitatea de eroare pentru respingerea ipotezei de nul în cazul testului lui Levene. în exemplul nostru, întrucât valoarea este mai mică de 0,05, ipoteza de nul a egalității variantelor este respinsă, deci putem accepta faptul că variantele nu sunt egale.
Ajunși aici știm dacă va trebui să ne uităm în continuarea tabelului pe primul sau pe al doilea rând (aceste situații/rânduri sunt descrise la punctul 6 al explicațiilor), în cazul nostru, ne vom uita pe rândul EQUAL VARIANCES NOT ASSUMED, adică ne aflăm în situația când cele două eșantioane provin din populații cu variantă diferită.
(9) – este valoarea testului t. Ea se ia în considerație în valoarea absolută și aceasta se raportează în cercetări; semnul notei t arată pur și simplu sensul diferenței, dar de acesta din urmă ne putem da seama uitându-ne la valoarea mediilor celor două eșantioane.
(10) – arată gradele de libertate pentru care a fost calculată semnificația notei t. Această valoare se raportează în articolele științifice între paranteze. Chiar
' dacă ne uităm pe linia EQUAL VARIANCES NOT ASSUMED, unde avem valoarea lui df=12,26, de obicei se raportează prima valoare a lui df, cea care este 20.
(11) – aici este trecut pragul de semnificație sau probabilitatea de eroare care apare atunci când respingem ipoteza de nul și acceptăm ipoteza noastră de cercetare, în cazul de față vom avea p=0,005. Această valoare arată faptul că există o probabilitate de 5 la mie de a greși atunci când respingem ipoteza de nul, deci putem accepta ipoteza de cercetare cu aceeași probabilitate de eroare
Cum interpretăm rezultatele concret obținute? Vom spune că analiza statistică realizată a permis identificarea unor diferențe semnificative între nivelul salariului inițial la cele două grupe de subiecți sau, altfel spus, că variabila nivel de studii influențează nivelul salarial inițial; testul t pentru eșantioane independente t(20)=3,45 pentru p<0.01 argumentează statistic această ipoteză. Observați că am trecut valoarea absolută a testului t și nu pe cea cu semnul minus. Așa se procedează în general, semnul plus sau minus pe care-1 poate avea nota t fiind determinat de sensul în care facem diferența. Așa că trebuie să precizăm în interpretarea noastră în ce sens apare diferența; în cazul nostru trebuie să spunem că salariul inițial al celor cu studii medii este semnificativ mai mare decât al celor cu studii primare. Acest fapt se observă din primul tabel unde sunt trecute mediile eșantioanelor.
Ca exercițiu, demonstrați aceeași ipoteză în legătură cu salariul final, după 5 ani.
Folosirea SPSS: meniul TRANSFORM – COMPUTE
Uneori, pe parcursul prelucrării datelor este necesar să lucrăm cu o combinație formată din variabilele deja existente în baza noastră de date. Spre exemplu, dacă vom aplica testul 16PF (un inventar de personalitate) si vom introduce în computer datele brute (răspunsurile subiecților la cele peste 400 si ceva de întrebări), va trebui să grupăm cumva aceste întrebări pentru a obține scorurile pentru cei 16 factori măsurați de test.
Programul SPSS oferă o comandă complexă care este folosită tocmai pentru astfel de transformări. O vom folosi ilustrativ în cele ce urmează.
Să presupunem că, folosind baza de date discutată anterior, ne-ar interesa câștigul salarial mediu din cei cinci ani. Cu alte cuvinte, ar trebui să creăm o nouă variabilă în baza noastră de date care să fie media salariului inițial si a celui final, după cinci ani.
Pentru aceasta vom activa comanda COMPUTE din meniul TRANSFORME, ca în imaginea de mai jos:
Odată activată această comandă va deschide o fereastră de unde vom putea face orice combinații din variabilele deja existente în baza de date. Fereastra este prezentată în continuare:
Să analizăm această fereastră în detaliu:
(1) – este manele noii variabile. Nu trebuie să depășească 8 caractere si nu trebuie sã conțină caractere speciale (ex, spații, virgule, etc.)- îi alegem după dorința.
(2) – folosind acest buton vom activa o fereastră de unde putem modifica tipul noii variabile si putem atribui o etichetă. Reamintim că eticheta este o descriere mai detaliată a variabilei. Este opțională această comandă.
(3) – este câmpul ce conține variabilele existențe în baza de date
(4) – acesta este câmpul unde vom edita combinația de variabile care va sta la baza noii variabile. După cum observați este vorba de combinații numerice.
(5)- este un câmp cu butoane care permit realizarea diferitelor combinații numerice realizate cu numele variabilelor, în realizarea combinațiilor se aplică regulile tradiționale referitoare la ordinea operațiilor.
(6) – este un buton IF identic cu cel descris într-un capitol anterior, la comanda SELECT CASES.
(7) – este un câmp care prezintă diverse funcții matematice. Ele se selectează, ,apoi se introduc în câmpul unde scriem combinațiile numerice, cu ajutorul butonului cu săgeată de deasupra acestui câmp. Funcțiile sunt prezentate în ordine alfabetică, iar în paranteze este trecută modalitatea în care trebuie scrise argumentele funcției).
În exemplul nostru, unde dorim să realizăm media celor două variabile menționate, putem să folosim o formulă matematică de tipul celei deja scrisă în câmpul NUMERIC EXPRESSION din fereastra prezentată anterior.
Dar, același rezultat îl putem avea folosind si funcția MEAN. Avantajul acesteia constă în faptul că este mult mai facilă atunci când dorim să calculăm media a foarte multe variabile.
Cum procedăm? Selectăm funcția MEAN din câmpul FUNCTIONS, ca în imaginea de mai jos:
Observați care este forma argumentelor acestei funcții (ceea ce este scris în paranteze). Aceasta indică faptul că variabilele la care vom calcula media trebuie trecute între paranteze, iar numele lor trebuie separat prin virgule. Vom proceda în consecință; alegem funcția, o transferăm în câmpul NUMERIC EXPRESSION si vom scrie numele variabilelor între paranteze.
După ce scriem formula completă, apăsam butonul OK si vom constata imediat urmările în baza de date. Vom vedea că la sfârșitul bazei, programul adaugă noua variabilă, precum în imaginea de mai jos:
EXERCIȚIU: Încercați să creați o nouă variabilă care să fie suma celor două variabile, salariul inițial și cel după 5 ani. Aplicați funcția SUM.
REGRESIALINIARĂ
sau cum reușim să prezicem –
Cuprins:
Regresia liniară – elemente teoretice
Regresia bivariată vs. Multivariată
Folosirea SPSS: Meniul ANALYZE – REGRESSION – LINEAR Regresia cu dummy variables
Pascal și-a început predicțiile statistice la masa de joc, apoi a învățat să parieze pe Dumnezeu în timp ce în Anglia statistica a început să fie folosită de timpuri pentru a ține evidența populației, a măsura influența bolilor și a dovedi existența lui Dumnezeu, francezii și italienii și-au adus propria lor contribuție în statistică, dar la … masa de joc!
În mod special, „problema punctelor", cum era ea numită a atras atenția: împărțirea punctelor într-un joc de cărți, după ce acesta s-a întrerupt, cunoscând numărul partidelorjucate până atunci și numărul total de partide dejoc planificate.
Problema a fost pusă încă din 1494 de Luca Pacioli, un prieten de-al lui Leonardo da Vinci, dar a rămas nerezolvată până în 1654, când Blaise Pascal, celebrul geniu francez, i-a găsit rezolvarea cu ajutorul teoriei probabilităților.
Fiind în corespondență cu Pierre Fermat, un alt celebru matematician francez, Pascal nu a rezolvat numai „problema punctelor", ci a progresat mult în teoria probabilităților aducându-și contribuții importante în descrierea curbei normale.
Interesant este că imediat după rezolvarea acestei probleme, Pascal a devenit brusc religios. Aflat într-o trăsură, a scăpat de la înec după ce s-a rupt un pod imediat ce trăsura 1-a traversat, iar hamurile cailor au rezistat până în ultimul moment.
Pascal a considerat această întâmplare drept un avertisment divin de a-și abandona munca matematică în favoarea scrierilor religioase, astfel că mai târziu el a formulat „principiul pariului lui Pascal": valoarea unui joc este valoarea premiului obținută prin câștigarea sa înmulțită cu probabilitatea de a-1 câștiga.
De aceea, chiar dacă probabilitatea ca Dumnezeu să există ar fi extrem de mică, ar trebui să credem în el pentru că valoarea premiului ar fi infinită, în timp ce dacă nu credem, valoarea Jocului" se reduce la o finită plăcere lumească.
Regresia – elemente teoretice
Până acum nu ne-am pus problema predicției în tot ceea ce am discutat anterior. Cu toate acestea, în viața de zi cu zi, ca psihologi sau cercetători în domeniul științelor sociale apare adesea situația prognosticării unor anumite rezultate. Cum procedăm atunci?
Să luăm un exemplu. Să presupunem că vi se cere să faceți un studiu asupra pieței imobiliare din orașul Iași. în acest caz v-ar interesa să puteți prezice care sunt prețurile practicate pe această piață pentru diferite tipuri de apartamente. Din ceea ce am învățat până acum, am putea proceda astfel: luăm la întâmplare un eșantion de apartamente dintre acelea expuse pentru vânzare și calculăm media prețului de vânzare a lor. Să presupunem că media prețului de vânzare astfel obținută ar fi de 125 milioane lei. Am putea folosi această valoare pentru a face predicții asupra prețului de vânzare? Sigur că da, numai că apar aici anumite probleme: utilizând această procedură – care e mai bună totuși decât situația în care nu am avea nici o informație – ignorăm alți factori ce ar putea avea legătură cu prețul de vânzare al apartamentelor, cum ar fi suprafața locuibilă, zona de rezidență a orașului, etc.
În exemplul de mai sus, ca și în situațiile descrise în capitolele anterioare, media a fost tratată ca și un parametru constant, fix ce descrie o distribuție. Această abordare însă, după cum am văzut, are limite. Mai degrabă ne-ar fi de folos să tratăm media ca o variabilă ce ia valori într-un anumit interval. Putem face acest lucru dacă luăm în seamă deviația standard a prețului de vânzare. Să zicem că variația, adică deviația standard, a prețului de vânzare ar fi de 50 milioane lei. Deja știm mai multe: prețul de vânzare al aproximativ două treimi dintre apartamentele din Iași este acum cuprins în intervalul de la 75 milioane lei și până la 175 milioane lei (125±50). Acum șansele noastre de a prezice prețul unui apartament anume din Iași au crescut.
Mult mai acurați în ceea ce prezicem am fi însă dacă am ține cont, de exemplu, de suprafața locuibilă a apartamentului. Spre exemplu, dacă am avea o formulă de genul:
Media prețului de vânzare = 40 milioane lei + 1,2 milioane lei * suprafața locuibilă (mp)
Ce ne-ar spune o astfel de formulă? Că prețul de vânzare al unui apartament ar porni de la suma minimă de 40 milioane lei, în condițiile în care ar avea 0 (zero) metri pătrați de suprafață locuibilă. Desigur, o astfel de situație este imposibilă, în cel mai rău caz, o garsonieră are suprafața de cel puțin 16-20 metri pătrați, în acest caz prețul unei garsoniere ar fi:
Preț = 40 milioane + 1,2 milioane * 20 mp – 64 milioane lei.
Dacă am avea un apartament cu două camere, de 40 metri pătrați ca suprafață, prețul ar fi:
Preț = 40 milioane + l,2 milioane *40mp = 88 milioane lei.
Observați că acum suntem mult mai preciși în predicția noastră. Acum, valoarea mediei pe care o prezicem pentru costul apartamentului este variabilă si ajustată în funcție de suprafața apartamentului. Desigur, predicția nu este nici în acest caz perfectă, dar oricum e mult mai aproape de realitate. Chiar dacă nu toate apartamentele de 40 mp. costă 88 milioane lei, variația prețului în jurul acestei valori va fi de 15-20 milioane lei si nu de 50 de milioane, ca
În situația în care suprafața apartamentului nu este luată în calcul.
În acest capitol vom vorbi despre metodele care ne ajută să putem face astfel de predicții. Reamintim că predicția pe care o vom realiza este una de tip probabilistic, nu exactă sau precisă, întrucât orice fenomen social este determinat de cauze multiple si este practic imposibil de cunoscut variația tuturor acestor factori-cauză. Dar, modelele noastre probabilistice sunt oricum mult mai bune decât situația în care nu am avea nici un instrument la dispoziție.
Modelele probabilistice
Așa cum precizam anterior, modelele noastre de predicție sunt probabilistice. Să vedem ce înseamnă acest lucru.
Să luăm un exemplu. Se știe că o componentă importantă în vânzarea unui produs o reprezintă suma de bani cheltuită pentru reclamă. Să presupunem că ne interesează să realizăm un model care să prezică, să modeleze deci, nivelul profitului obținut lunar din vânzarea unui produs, în funcție de cheltuielile alocate pentru reclama produsului respectiv.
Prima întrebare care ne vine în minte atunci când dorim să realizăm acest model este dacă si ce fel de relație există între cele două variabile (profit si cheltuiala pe reclamă)? Putem prezice exact valoarea profitului cunoscând cheltuielile pe reclamă? Trebuie să admitem că acest lucru nu este posibil de cunoscut exact pentru că vânzările depind si de alți factori, alții decât cheltuielile de reclamă (ex. sezonul, starea generală a economiei, structura prețului, etc.). Chiar dacă am ține cont de toți acești factori tot nu am putea prezice exact-exact. Vor exista variații cauzate pur si simplu de fenomene aleatorii care fie nu pot fi explicate, fie nu pot fi anticipate. Vom defini aceste influențe aleatorii drept eroare aleatorie care va include totalitatea influențelor întâmplătoare asupra variabilei care ne interesează.
Dacă ar fi să construim un model exact, care să prezică exact valorile unei variabile cunoscând toate valorile factorilor sau variabilelor ce ar putea să o afecteze, atunci am avea un model deterministic. Spre exemplu, dacă considerăm că profitul va fi exact de 10 ori mai mare decât cheltuielile cu reclama, atunci putem scrie:
y=10*x,
unde : y – arată profitul,
x – cheltuielile de reclamă.
Dar întrucât profitul depinde si de alți factori, nu numai de cheltuielile de reclamă, atunci trebuie să folosim un model probabilistic de predicție, care să țină cont si de influența factorilor aleatorii. Un astfel de model ar fi:
y=10*x + eroarea aleatorie
unde: y – arată profitul,
x – cheltuielile de reclamă
termenul de eroare aleatorie include toate celelalte influențe ce nu pot fi prezise, măsurate, în acest caz termenul 10*y este numit componenta deterministică a modelului probabilistic.
În general, în științele sociale modelele de predicție sunt probabilistice, iar forma generală a acestora este:
y= componenta deterministică + eroarea aleatorie
Așa cum vom observa în continuare, termenul aleatoriu joacă un rol important în predicție pentru că el ne va ajuta să stabilim magnitudinea de variație a termenului deterministic din model, permițând astfel o predicție cât mai precisă (dar, reamintim, niciodată perfectă).
Regresia bivariată vs. regresia multivariată
Cel mai simplu model de predicție este regresia bivariată. Termenul de „regresie" denumește metoda folosită, iar termenul „bivariată" arată că în model sunt doar două variabile. Acest model folosește rezultatele obținute de subiect la o variabilă pentru a prezice rezultatele sale la o altă variabilă. Prezumția care stă la baza acestei metode este că între cele două variabile există o legătură, o corelație, de fapt.
Cum arătam în capitolele anterioare, atunci când vorbeam de corelație, reprezentarea grafică a unei corelații se făcea cu ajutorul unui nor de puncte. Să luăm în considerație un exemplu. Să presupunem că am fi interesați să reprezentăm grafic nivelul stresului unor manageri în funcție de numărul subalternilor supervizați. Datele ar fi următoarele:
Reprezentarea graficã ar fi urmãtoarea:
Observați că norul de puncte care descrie relația este crescător, deci relația dintre variabile este pozitivă: cu cât numărul de angajați supervizați creste, cu atât si nivelul stresului managerului care îi supervizează este mai mare. Mai observați însă că relația nu este perfectă; punctele nu se înșiruie toate pe o linie dreaptă, ci în jurul unei linii drepte. Ei bine, sarcina regresiei liniare este tocmai de a găsi această linie dreaptă fațã de care punctele sunt cel mai puțin depărtate.
Să vedem care este criteriul după care stabilim că punctele sunt cel mai puțin depărtate de linie, ceea ce în limbajul tehnic al statisticienilor înseamnă „a potrivi linia".
Criterii posibile pentru a „potrivi linia"
Vom lua pentru aceasta un exemplu mai simplu, cu doar trei puncte.
Minimalizarea sumei tuturor erorilor
Aceasta ar însemna ca abaterile simple de la linie să fie, însumate, la un nivel minim.
Am ilustrat mai sus faptul că acest criteriu, de minimalizare a erorilor sau abaterilor simple de la linie nu este unul potrivit. Și în figura din stânga si în cea din dreapta erorile sunt minime (în sensul că cele pozitive le anulează pe cele negative), dar liniile sunt diferite. Observăm astfel că un astfel de criteriu nu distinge între liniile care „ar potrivi" punctele, ori noi avem nevoie de o singură linie si numai una.
Minimalizarea sumei pătratelor tuturor erorilor
Este un criteriu mult mai bun, pentru că anulează semnul abaterilor si un punct care se abate cu o distantă deasupra liniei va conta la fel de mult ca si altul care se abate cu aceeași distantă, dar dedesubtul ei. Observați că dacă am ridica la pătrat erorile (abaterile de la linie) din figurile de mai sus, în imaginea din stânga am obține o sumă mai mică decât în cea din dreapta. Deci linia din dreapta, cea crescătoare pare mai potrivită pentru a descrie norul de puncte.
Mai mult, matematic se poate demonstra că utilizând acest criteriu există numai și numai o singură linie care „potrivește" cel mai bine toate punctele.
Deci acest criteriu stă la baza găsirii liniei de regresie.
* * *
Fără a intra în detaliile matematice legate de calculul coeficientului de regresie care presupun cunoașterea algebrei matriceale, din clasa a Xl-a de liceu) vom preciza că prin aplicarea regresiei liniare vom obține ecuația algebrică a liniei care îndeplinește criteriul menționat anterior (acela de minimalizare a sumei pătratelor distanțelor tuturor punctelor până la linie).
Regresia bivariatã folosind notele Z
Vom reveni acum la exemplul cu managerii și subalternii. Dacă vom calcula coeficientul de corelație, vom obține r=0,94.
Cel mai simplu model de regresie sau predicție bivariată este cel folosind scorurile z: cunoscând nota z a unei persoane la o variabilă să încercăm să prezicem valoarea notei z a aceleiași persoane obținută pentru cealaltă variabilă. Acest din urmă scor îl vom afla multiplicând prima notă z cu un coeficient (numit coeficient de regresie),ca în formula de mai jos:
Žy = β * Zx
În cuvinte, formula s-ar traduce astfel: scorul standard prezis pentru variabila y (Žy) obținut de o persoană va fi obținut prin înmulțirea scorului standard obținut de aceeași persoană la variabila x (Zx)cu valoarea coeficientului de regresie standardizat (β).
Observați tilda care se află deasupra scorului standard a variabilei y; ea arată că valoarea astfel obținută nu este cea reală, măsurată, ci este valoarea prezisă.
Variabila y din model, cea a căror valori dorim să le prezicem, se numește variabilă dependentă sau criteriu, în timp ce variabila x, cea pe baza căreia facem predicția, se numește variabilă independentă sau predictor.
Fără a intra în detaliile matematice, trebuie să precizăm că valoarea coeficientului standardizat de regresie este tocmai valoarea coeficientului de corelație dintre variabilele x și y.
Astfel, în exemplul cu managerii vom avea ecuația de regresie:
Žy = 0,94 * Zx
Cum interpretăm rezultatul? Să presupunem că vom dori să prezicem nivelul stresului managerilor cunoscând numărul de subalterni supervizați. Deci variabila y este nivelul stresului, iar variabila x va fi numărul de subordonați. Vom spune că scorul standard care arată nivelul stresului managerului va fi 0,94 din scorul standard ce descrie numărul subalternilor.
Cu alte cuvinte, dacă unui manager i se mărește numărul subalternilor cu valoarea unei deviații standard din acea distribuție (adică scorul său , Zx, va crește cu 1), nivelul stresului va crește de 0,94 ori. Altfel spus, dacă avem o variație de 100% a numărului de subalterni repartizați unui manageri, nivelul stresului său variază doar 94%. De aceea metoda se cheamă regresie, pentru că neavând o relație perfectă între două variabile (coeficientul de corelație să fie +1 sau -1), variației dintr-o variabilă îi va corespunde o variație mai mică în cadrul celeilalte, deci variația regresează.
Regresia bivariată folosind notele brute
Folosirea scorurilor standard este însă anevoioasă și ne este mai util să folosim direct scorurile brute pentru a face predicțiile. Desigur am putea transforma scorurile brute în scoruri standard și invers, dar asta ar fi o operație care ne ia timp.
În plus, folosirea scorurilor brute este mult mai apropiată de înțelesul regresiei liniare (de a găsi o linie care să „potrivească" punctele).
Ecuația regresiei bivariate liniare folosind scorurile brute este:
Ŷ = B0 + B1 * X
Observați că această ecuație este foarte apropiată de ecuația generală a unei linii, y=a + bx, iar înțelesul coeficienților de regresie este același ca și al coeficienților din ecuația unei linii.
Coeficientul a arată intersecția liniei cu axa OY, iar coeficientul b este valoarea tangentei unghiului d, adică arată cu câte unități crește variabila Y atunci când variabila X crește cu o singură unitate.
La fel, coeficientul B, arată care este valoarea cu care crește Y atunci când variabila X crește cu o unitate. Mai precis, pentru cazul regresiei bivariate, el este dat de formula:
unde – r este coeficientul de corelație,
– SD arată, deviațiile standard pentru cele două variabile.
Coeficientul B0 se calculează cu formula:
B0 = My – B1* Mx
Revenind la exemplul cu managerii și subalternii avem:
r = 0,94
MY = 5
Mx = 24
SDY = 2,23
SDX = 9,27
Nu are importanțã cum am calculat aceste valori. Ideea este sã vedem cum anume calculãm coeficienții de regresie:
Astfel,
Deci, ecuația de regresie va fi:
Cum interpretăm ecuația? Pur și simplu înlocuim valorile lui X în ecuație și aflăm valoarea prezisă a lui Y. Spre exemplu, un manager care supervizează 10 angajați, va avea valoarea stresului de (-0,28+0,22*10), adică 1,92, în timp ce un manager care supervizează 30 angajați va avea stresul 6,32.
Observați că valoarea coeficientului de regresie ne spune mai multe decât valoarea coeficientului de corelație: cu câte unități crește variabila Y (stresul), când variabila X (numărul subalternilor) crește cu o unitate. Sau putem interpreta situația și altfel: coeficientul de regresie Bl arată care este diferența în nivelul stresului la doi manageri atunci când ei sunt identici din toate punctele de vedere, iar unul dintre ei are cu un subaltern mai mult în subordine.
Regresia multivariată
Pana acum am prezentat situația m care am prezis rezultatele obținute de subiecți la o variabilă în funcție de rezultatele lor măsurate la o altă variabilă. Dar în viața reală, o variabilă este în legătură cu mai multe variabile, nu numai cu una singură și atunci predicția noastră s-ar îmbunătăți dacă am ține cont de relația existentă între toate variabilele si cea pe care dorim sa o prezicem.
Coeficientul de corelație multiplă – asocierea dintre o variabilă și două sau mai multe variabile – notat cu R, ne arată tocmai cât de mult putem noi să prezicem rezultatele variabilei dependente cunoscând pe cele ale variabilelor predictori. Mai precis, valoarea lui R2 arată care este variația din variabila Y (variabila dependentă) explicată de variația din variabila (variabilele) X (variabilele predictori sau independente).
În diagramele prezentate anterior am reprezentat cazul regresiei bivariate (stânga) față de cazul regresiei multiple (dreapta). Cercurile reprezintă variația totală a variabilelor.
Ceea ce noi putem explica prin modelele noastre de regresie este tocmai zona delimitată cu a. Iar valoarea lui R2 se referă tocmai la această porțiune de variantă. Zona notată cu b este varianta fenomenului Y pe care modelul nostru nu o explică, deci influența altor factori pe care nu-i putem prevedea sau măsura.
Observați că la regresia multiplă, avem avantajul că fiecare din variabilele predictori explică (sau ar trebui să explice) câte o porțiune din varianta variabilei dependente Y, astfel că pe ansamblu vom explica mai bine fenomenul (zona b se micșorează).
Nu intrăm acum în detalii legate de posibilele erori care pot apare în modelele de regresie multiplă (ex. multicolinearitatea sau existența relațiilor supraordonate) si care fac obiectul analizei reziduurilor sau a erorilor (elemente de statistică avansată).
Menționăm că ecuația de regresie pentru cazul regresiei liniare multiple se obține prin extinderea ecuației de regresie bivariată după cum urmează:
Prezentăm în continuare cum se realizează o analiză de regresie folosind programul SPSS (pentru a ști care este meniul si opțiunile ce le avem la dispoziție), lăsând la latitudinea cititorului să aprofundeze domeniul regresiei folosind lucrările de specialitate deja existente pe piață (vedeți lista cărților recomandate la sfârșitul acestui volum).
Folosirea SPSS; meniul ANALYZE – REGRESSION – LINEAR
Pentru a putea demonstra modalitatea în care programul SPSS se folosește la regresie, vom lucra cu o bază de date concepută pentru acest scop.
Datele arată informații culese despre fumători (informații imaginare), referitoare la numărul de țigări fumat zilnic (NRCIGZI), vârsta inițială la care persoana a început să fumeze (VIRSTINI), venitul persoanei (VENIT) si nivelul studiilor, măsurat prin anii de studiu (STUDII).
Baza de date este prezentată în tabelul următor, iar introducerea ei în bază se face după cum am prezentat si în capitolele anterioare.
După ce am introdus datele, le vom defini (folosind perspectiva VARIABLE VIEW), așa cum este prezentat în imaginea de mai jos:
Definirea se face în coloana LABEL, ca mai sus. Nu vom mai face alte modificări. Observați că toate variabilele sunt dependente (adică le-am măsurat pe toate și nici una nu grupează subiecții în vreo categorie) și exprimate numeric, cantitativ. Reamintim că datele nu sunt reale, ci imaginare.
În acest exemplu, dorim să prezicem cantitatea de țigări fumată zilnic de o persoană la vârsta de 40 ani (NRCIGZI), în funcție de celelalte variabile cunoscute: vârsta de debut a fumatului, venitul și educația respectivei persoane.
Vom aplica pentru aceasta regresia liniară. Activarea meniului pentru regresia liniară se face cu ajutorul comenzii LINEAR din meniul ANALYZE -> REGRESSION, ca în imaginea de mai jos:
Odată apelată, comanda va activa fereastra următoare, pe care o vom explica în detaliu, dar fără a folosi ulterior toate opțiunile (ar trebui să dedicăm un întreg volum numai acestei metode, foarte complexe).
Să analizăm fereastra anterioară în detaliu:
(1) – este câmpul ce cuprinde toate variabilele existente în baza de date;
(2) – este câmpul unde trebuie introdusă variabila dependentă, cea pe care dorim să o prezicem;
(3) – desemnează butoanele folosite pentru a construi modele de regresie construite ierarhic, prin adăugarea sau scoaterea, pe rând a câte unei variabile independente (sau grup de variabile independente) din model;
(4) – este câmpul folosit pentru inserarea variabilelor independente, în cazul folosirii modelelor ierarhice, în care variabilele sunt adăugate una câte una în model, se introduce procedează astfel: se introduce prima variabilă (bloc de variabile), apoi se apasă butonul NEXT de deasupra, se introduce următoarea variabilă si iar se apasă NEXT, etc.
(5) – în acest spațiu vom preciza metoda aleasă pentru a face regresia (este o opțiune pentru cunoscătorii avansați), si este folosită tot la modelele de regresie ierarhică, când dorim să analizăm influența variabilelor independente adăugate sau scoase pe rând din model. Varianta implicit este suficient de bună pentru modelele simple. Pentru o mai bună informare să comentăm opțiunile din acest spațiu, menționând că rolul acestei opțiuni este de a analiza influența separată a unei variabile (sau grup de variabile) asupra variabilei dependente:
a. ENTER: toate variabilele independente care se găsesc în câmpul de mai sus vor fi tratate ca un bloc comun de variabile si introduse ca atare în analiză;
b. STEPWISE: fiecare bloc de variabile independente care nu este încă inclus în ecuație este raportat la criteriul de selecție (despre acesta vom vorbi mai departe la butonul OPTIONS), apoi variabila (blocul de variabile) este introdusă în ecuație sau scoasă din model. Procedeul se repetă până când toate variabilele independente sunt introduse în model sau excluse.
c. REMOVE: exclude de la analiză variabilele dintr-un bloc.
d. BACKWARD: Variabilele deja existente în ecuație sunt excluse una câte una, dacă îndeplinesc criteriul de excludere, până când nici o variabilă din ecuație nu mai satisface acest criteriu.
e. FORWARD: Este un procedeu invers celui anterior: variabilele ce nu se găsesc în ecuație sunt evaluate conform cu criteriul de excludere si sunt introduse în ecuație una câte una.
(6) – în acest câmp putem introduce variabile pentru a selecta anumite cazuri sau anumite condiții. De obicei se introduc variabile categoriale, dar pot fi introduse si variabile cantitative, specificând cu ajutorul butonului RULE, regula după care să se facă selecția cazurilor luate în calcul (ex. pentru scoruri egale sau mai mici decât o anumită valoare, etc.).
(7) – în acest câmp se introduc de obicei variabile categoriale, programul va executa regresia în mod obișnuit, doar că la executarea graficelor (de tip scatter-plot, ca si cele ale corelației), punctele vor fi etichetate (vor primi un nume), în funcție de valorile variabilei selectate în acest câmp;
(8) – prescurtarea WLS provine din englezescul WEIGHTED LEAST SQUARES si reprezintă o variantă a metodei obișnuite de regresie numită prescurtat OLS (ORDINARY LEAST SQUARES).
(9) – cuprinde butonul care permite calcularea diferiților parametri despre care vom vorbi detaliat în continuare.
(10) – permite realizarea diferitelor grafice prin care se analizează reziduurile sau erorile modelului pentru a vedea validitatea și puterea de predicție a acestuia.
(11) – acest buton activează comenzile pentru crearea a noi variabile în baza de date, în funcție de modelul regresiei. Vom analiza detaliat opțiunile în cele ce urmează.
(12) – de aici vom selecta criteriile folosite pentru metodele de selecție a variabilelor în model, descrise la punctul (5).
În exemplul ales demonstrativ, vom alege un model mai simplu de regresie. Vom construi, în pași, trei modele teoretice de predicție, adăugând pe rând variabilele independente. Prima dată, primul model va conține ca variabilă independentă variabila VIRSTINI, vârsta la care persoana s-a apucat de fumat. Pentru aceasta vom introduce variabila dependentă (NRCIGZI) în câmpul pentru variabile dependentă si VIRSTINI în câmpul cu variabile independente, ca în imaginea de mai jos:
Apăsam butonul NEXT, pentru a construi următorul bloc de variabile independente, următorul model de regresie. Observați că prin apăsarea lui NEXT, câmpul cu variabile independente se golește. Acum vom pune în el variabilele VIRSTINI si VENIT, acestea două formând acum al doilea bloc, al doilea model de regresie. Fereastra de pe ecran ar trebui să fie ca în imaginea următoare:
Vom apăsa din nou butonul NEXT si vom construi al treilea si ultimul bloc, punând în final, în câmpul cu variabile independente toate cele trei variabile predictor : VIRSTINI, VENIT, STUDII ca în imaginea de mai jos:
Observați că pentru fiecare dintre blocuri am folosit metoda ENTER, astfel că variabilele independente din fiecare din ele vor fi tratate ca un grup, iar modelul de predicție va fi construit pornind de la această asumpție.
Întrucât folosim metoda clasică, OLS, nu vom activa butonul WLS, care presupune atribuirea unui număr cu care să ajustăm valoarea coeficienților de regresie. Nu intrăm în detalii privind această opțiune.
Programul SPSS calculează implicit anumiți parametri ai modelului de regresie. Cu toate acestea, opțiunile pe care le avem la îndemână sunt mult mai variate. Ele se găsesc în fereastra activată de butonul STATISTICS, pe care o vom analiza detaliat în cele ce urmează.
Pentru a solicita programului să calculeze anumiți parametri trebuie să bifați în pătrățelul corespunzător fiecăruia dintre aceștia.
Să analizăm pe rând opțiunile:
☻ ESTIMATES: pentru fiecare variabilă independentă introdusă în model programul calculează coeficienții standardizați si cei nestandardizați de regresie, eroarea standard a acestora, si pragul de semnificație pentru testul t care testează ipoteza de nul că valoarea acestui coeficient este zero.
☻CONFIDENCE INTERVALS: pentru fiecare coeficient nestandardizat de regresie este calculat intervalul de încredere corespunzând lui 95% (probabilitatea ca valoarea reală a coeficientului să se găsească în intervalul de încredere este de 95%).
☻COVARIANCEMATRIX: pentru modelele de regresie multiplă (cum este si cazul nostru) programul SPSS afișează o matrice pătrată, care conține covananțele coeficienților nestandardizați de regresie dispuse sub diagonala principală, corelațiile – deasupra diagonalei principale și variantele -pe diagonala.
☻MODEL FIT: solicită calcularea coeficientului de corelație multiplă R și a pătratului acestuia R2 care arată cât de mult din var^ia variabilei dependente este prezis de modelul nostru.
☻R SQUARE CHANGE: arată, pentru modelele ierarhice, în care variabilele independente sunt introduse pe rând, cât de mult se schimbă valoarea lui R2 de la un model la altu1, permițând astfel să estimăm dacă introducerea unei variabile sau bloc de variabile independente îmbunătățește puterea de predicție a modelului.
☻DESCRIPTIVES: arată media si abaterea standard pentru toate variabilele selectate si o matrice de corelație.
☻PART AND PARȚIAL CORRELATIONS: arată coeficienții de corelație parțiali între variabilele independente si cei parțiali dintre fiecare variabilă independentă si cea dependentă.
☻COLLINEARITY DIAGNOSTIC: pentru regresia multiplă permite efectuarea unor teste de colinearitate (o condiție ce trebuie evitată) între variabilele independente.
☻DURBIN-WATSON: este un test care măsoară corelația serială între reziduuri (erori), fapt ce trebuie evitat pentru a avea un model acurat de predicție.
☻CASEWISE DIAGNOSTICS: arată cazurile pentru care erorile de predicție depășesc 3 abateri standard și care trebuie reconsiderate.
În funcție de necesitățile de analiză și având descrierea detaliată de mai sus, selectați opțiunile de care aveți nevoie. Pentru exemplul nostru nu am bifat decât ESTIMATES, MODEL FIT, R SQUARE CHANGE și CONFIDENCE INTERVALS.
Următoarea opțiune se referă la reprezentarea grafică a modelului. Activând butonul PLOTS, pe ecran va apare fereastra:
Opțiunile din fereastra anterioară ne permit să solicităm programului să realizeze grafice cu puncte (scatterplots) dintre variabila sau variabilele dependente si oricare din reziduurile (erorile) din listă. Erorile sau reziduurile sunt abateri ale modelului predicției de la realitate, iar pentru a fi siguri că modelul nostru este unul corect, ar trebui să nu avem nici o legătură între variabilele reprezentate grafic, deci norul de puncte trebuie să fie aleatoriu.
Graficele se realizează alegând oricare dintre perechile de variabile si introducând-o în câmpul destinat axei X sau Y. Realizarea mai multor grafice se face folosind butonul NEXT.
Să prezentăm pe scurt fiecare variabilă cu care se poate realiza graficul:
●DEPENDNT: este variabila dependentă (prezisă), scorul brut al acesteia
●ZPRED: sunt valorile standardizate ale variabilei prezise, dependente.
●ZRESID: sunt valorile standardizate ale erorilor (reziduurilor sau abaterilor de la model)
●DRESID: sunt reziduurile șterse sau excluse de la analiză (unde este cazul)
●ADJPRED: este valoarea ajustată si prezisă a unui caz atunci când este exclus de la analiză.
●SRESID: notele t ale reziduurilor
●SDRESID: notele t ale reziduurilor excluse de la analiză.
Observați că în fereastră mai sunt niște opțiuni. Să le discutăm si pe acestea:
●PRODUCE ALL PARȚIAL PLOTS – sunt grafice care arată corelația dintre oricare două variabile independente, pentru a verifica că acestea nu se corelează unele cu altele, fapt care ar distorsiona modelul de predicție.
●HISTOGRAM – realizează histograma reziduurilor standardizate pentru a vedea dacă ele sunt normal distribuite (cum ar trebui să fie pentru ca modelul nostru să fie valid).
●NORMAL PROBABILITY PLOT – (numită si P-PPLOT) are aceeași funcție ca și opțiunea anterioară, doar că verifică normalitatea distribuției prin comparație chiar cu abaterile de la curba normală.
În exemplul nostru vom bifa doar NORMAL PROBABILITY PLOT și HISTOGRAM, apoi apăsam butonul CONTINUE.
În continuare vom analiza fereastra care apare la apăsarea butonului SAVE, prezentată mai jos:
Această fereastră conține opțiuni ce permit salvarea în baza de date a unor noi variabile, bazate pe modelul nostru de predicție sau calculul unor parametri care arată influența unor cazuri individuale (suspectate de a fi atipice) asupra modelului de predicție, în vederea eliminării sau ajustării lor.
Vom prezenta această fereastră la un nivel mai general. Astfel,
(1)- este câmpul ce conține opțiuni pentru salvarea în baza de date a variabilei dependente (prezise). Se pot salva astfel scorurile brute, cele standard, cele ajustate sau eroarea standard a mediei.
(2)- folosind opțiunile din acest câmp vom salva în baza de date abaterile scorurilor prezise față de cele reale, pe baza cărora s-a făcut predicția. Aceste abateri se numesc reziduuri sau erori.
(3)- aici sunt niște parametri ce măsoară „potrivirea" unui caz în model, sau – cu alte cuvinte – cât de mult influențează acesta predicția.
a. MAHALANOBIS: măsoară distanța de la un caz până la media valorilor tuturor variabilelor independente.
b. COOK'S: arată cât de mult se schimbă erorile sau reziduurile tuturor scorurilor, dacă un anume caz este exclus de la analiză.
c. LEVERAGE VALUES: măsoară cât de mult un caz poate afecta „potrivirea" modelului de regresie (R2)
(4)- în acest câmp avem opțiuni ce permit calcularea unor parametri sau salvarea unor variabile care arată care ar fi schimbările survenite în model dacă un scor ar fi omis de la analiză.
(5)- opțiunile din acest câmp permit salvarea în baza de date a câte două variabile (fiecare opțiune) conținând marginea inferioară și cea superioară a intervalului de încredere (stabilit implicit la 95%) pentru medie (opțiunea MEAN) sau pentru un caz individual (opțiunea INDIVIDUAL), date fiind valorile actuale ale variabilelor independente.
În exemplul nostru vom marca opțiunile ADJUSTED (din câmpul PREDICTED VALUES) si INDIVIDUAL (din câmpul PREDICTION INTERVALS) apoi apăsam butonul CONTINUE.
Ultimul buton din fereastra principală este butonul OPTIONS, care activat va deschide fereastra de mai jos:
Trei sunt elementele principale ale acestei ferestre:
(1) – alegerea criteriului de selecție a variabilelor în model în cazul în care folosim altă metodă decât ENTER. Valorile stabilite implicit de program sunt cele folosite adesea, așa că recomandabil este să nu modificați aceste opțiuni.
Acest F despre care se vorbește in acest câmp arata daca proporția de varianta din variabila prezisă explicată de variabila sau grupul de variabile independente introduse în model este o proporție semnificativă.
(2) – permite să modificăm ecuația de regresie prin introducerea sau eliminarea coeficientului B0.
(3) – arată modul în care sunt luate în calcul valorile lipsă.
a. EXCLUDE CASES LISTWISE : este opțiunea recomandată și aleasă implicit. Se referă la eliminarea de la analiză a rezultatelor subiecților cărora le lipsește fie si o singură valoare din lista de variabile independente.
b. EXCLUDE CASES PAIRWISE: va exclude de la analiză perechile de scoruri pentru care lipsește o valoare. De exemplu, dacă aveai trei variabile independente, A, B și C, iar un subiect nu are scorul la variabila B, acest subiect nu este exclus de la analiză (ca în primul caz, LISTWISE), ci sunt excluse pentru acest subiect numai acele perechi de scoruri ce conține variabila lipsă, în cazul nostru nu vor fi analizate AB și BC pentru această persoană, dar va fi luată în calcul perechea AC pentru care subiectul are scoruri.
c. REPLACE WITH MEAN: înlocuiește scorurile lipsă cu media grupului din care face parte subiectul.
În exemplul nostru, vom lăsa aceste opțiuni așa cum sunt ele stabilite implicit, așa că apăsam CONTINUE, apoi OK în fereastra principală pentru a obține OUTPUT-ul, adică foaia de rezultate.
În continuarea foii de rezultate ne sunt prezentate într-un tabel informații referitoare la puterea de predicție a modelului nostru, la „potrivirea" sa cu realitatea pe care dorim să o prezicem.
Să analizăm mai detaliat tabelul de mai sus:
(1) – arată câte modele de regresie avem si le atribuie un cod numeric acestora
(2) – arată coeficientul de corelație multiplă R, pentru fiecare din modele
(3) – arată valoarea coeficientului de corelație multiplă ridicat la pătrat, R2 valoare care arată ce proporție din variația variabilei dependente sau prezise este explicată de un model.
(4) – este valoarea ajustată a lui R2; ea trebuie luată în calcul atunci când judecăm „potrivirea" unui model sau puterea sa de predicție.
(5) – arată eroarea standard a variabilei dependente, prezise. Cu alte cuvinte arată care este deviația standard a numărului țigărilor fumate zilnic de o persoană de 40 ani, cunoscând valoarea variabilelor independente din model. Observați că modelele 2 și 3, unde numărul variabilelor independente este mai mare, permite o apreciere mai bună a numărului de țigări fumate zilnic (intervalul de variație fiind mai mic).
(6) – arată cât de mult se schimbă valoarea lui R2 atunci când în model mai adăugăm variabile.
(7) – este testul F al lui Fisher (vom discuta despre el la capitolul cu analiza de variantă), care arată dacă schimbarea lui R2 , măsurată la Punctul (6) este semnificativă, în cazul nostru, ne vom uita în coloana SIG F CHANGE, unde este trecut pragul de semnificație pentru testul F și unde constatăm că schimbarea este semnificativă doar pentru primele două modele. Concluzia ar fi că al treilea model (ce conține în plus fată de al doilea variabila STUDII) nu contribuie semnificativ la puterea de predicție a regresiei. Mai mult, dacă vă uitați la coloana unde avem valoarea ajustată a lui R2 veți constata o scădere a puterii de predicție. Rezultatul se datorează probabil faptului că variabila independentă VENIT corelează cu variabila STUDII, deci a doua variabilă nu mai aduce multă informație nouă în plus, fată de prima.
La fel ca și în tabelul anterior, indicii care se găsesc în tabel sunt explicați în observațiile menționate sub acesta, în cazul nostru, indicii a, b si c arată care sunt variabilele predictor pentru fiecare din cele trei modele, iar indicele d precizează care este variabila dependentă prezisă.
În continuarea output-ului urmează un tabel conținând analiza de variantă pentru fiecare model de regresie, analiză care arată cât de eficientă este predicția modelului cunoscând variabilele independente, comparate cu situația în care nu am cunoaște nimic.
Acest tabel este prezentat în continuare, dar nu vom intra în detalii legate de el, întrucât nu am prezentat până acum analiza de variantă (ANOVA).
Să analizăm puțin acest tabel:
(1)- aici sunt prezentate modelele de regresie si componentele variantei: cât este explicată de model (pe rândul notat REGRESSION), cât este reziduală, neexplicată de model (pe rândul RESIDUAL) si câtă variantă are în total variabila dependentă (rândul notat TOTAL). Pe baza elementelor componente ale variantei se calculează valoarea notei F (despre ea vom vorbi în capitolul cu analiza de variantă), care arată dacă variația explicată de model este semnificativ mai mare decât cea reziduală, deci dacă modelul nostru este eficient în predictie.
(2) – în acest câmp este trecută valoarea notei F.
(3)- această coloană cuprinde pragul de semnificație pentru testul F; un prag mai mic de 0,05 arată că putem afirma cu o probabilitate eroare de 5% că modelul nostru explică semnificativ mai multă variație decât cea datorată altor factori, neprevăzuți sau necontrolați.
În exemplul ales de noi, toate cele trei modele sunt eficiente, în sensul că explică o cantitate semnificativă de variație din cea totală. Mai mult, observați că valoarea pragului de semnificație este cea mai mică pentru modelul al doilea, fapt care arată că acesta este modelul cel mai bun dintre toate trei. Indicii prezenți în dreptul fiecărui prag de semnificație sunt explicați sub tabel si arată pe baza căror variabile independente se face predicția.
În continuarea prezentării rezultatelor urmează unul din tabelele cele mai importante ale output-ului:
Să analizăm pe îndelete acest tabel important:
(1) – pe această coloană este trecută descrierea fiecărui model în parte. In cele ce urmează, vom analiza mai detaliat modelul al doilea care, așa cum reiese din analiza de până acum a rezultatelor, este cel mai bun în termeni de predicție.
(2) – un model are inclusă în el o constantă, o valoare cu care predicția noastră este ajustată.
(3) – partea cea mai importantă a modelului se referă la variabilele independente incluse în el, la predictorii modelului. Observați că în modelul al doilea pe care 1-am luat în discuție avem două variabile independente: vârsta inițială la care a debutat fumatul si venitul persoanei exprimat în mii de lei.
(4) – este, poate, partea cea mai importantă a tabelului întrucât conține coeficienții nestandardizați de regresie, pe baza cărora putem construi ecuația de regresie. Valoarea 7,0E-02 nu este o anomalie, ci este stilul programului SPSS de a afișa uneori numerele foarte mici sau foarte mari. Valoarea aceasta se citește 7,0 * 102, adică de fapt este valoarea 0,07. Dacă ar fi fost 7,0E + 04 atunci se face referire la valoarea 7,0 * 104, adică valoarea 70.000.
Ajunși aici se impune o observație. Cu datele trecute în acest câmp trebuie să redactăm ecuația de regresie. Reamintim că pentru regresia multiplă ( când avem mai mult de două variabile independente sau predictor ), ecuația generală de regresie folosind notele brute este:
unde B0 reprezintă constanta modelului, iar B1……..Bn sunt coeficienți nestandardizați de regresie, calculați pentru fiecare variabilă independentă în parte.
În cazul nostru, ecuația de regresie este:
nr țigări/zi la 40 ani = (-1,30) + (-0,40)*vârstă inițială + (0,07)*venit.
Cum interpretăm acești coeficienți?
În primul rând trebuie să precizăm că scopul unei astfel de ecuații este acela de a prezice. Deci, fără prea multe interpretări, putem folosi ecuația să prezicem câte țigări va fuma zilnic o persoană de 40 ani cunoscând la ce vârstă a început să fumeze, precum si venitul lunar al său*.
OBS: Atenție! Datele referitoare la venit sunt raportate la câștigurile românilor din anul 1996, când dolarul american era la aproximativ 3000 lei. Dacă ați dori să aplicați ecuația la salariile actuale, ele trebuie ajustate la cursul dolarului, altfel predicția nu are sens, întrucât ordinele de mărime ale acestei variabile s-au schimbat și ele afectează coeficienții nestandardizați de regresie. O altă variantă ar fi să utilizați coeficienții standardizați și astfel problema aceasta va dispărea.
Spre exemplu, pentru o persoană care a început să fumeze la 20 ani și are un venit lunar de 300 mii lei, vom prezice că ea fumează cu aproximație 11-12 țigări zilnic [(-l,30)+(-0,40)*20+(0,07)*300].
În al doilea rând, o informație prețioasă ne oferă coeficienții nestandardizați de regresie. Ei arată cu cât se modifică variabila dependentă, cea prezisă, dacă variabila independentă se modifică cu o unitate, în condițiile în care toate celelalte rămân constante. Spre exemplu, dacă la 40 de ani două persoane au același venit, dar una dintre ele a început să fumeze mai devreme cu 10 ani decât cealaltă, atunci vom prezice că cea care a început mai de timpuriu să fumeze va fuma cu 4 țigări mai mult decât cea care a început mai târziu.
Să revenim acum cu explicațiile detaliate legate de tabelul anterior.
(5) – în această coloană sunt trecute abaterile standard ale coeficienților nestandardizați de regresie. Ele arată care este intervalul în care variază predicția noastră în mod obișnuit. De exemplu, pentru coeficientul nestandardizat al vârstei inițiale de debut al fumatului, deviația standard este de 0,45, ceea ce arată că valoarea acestui coeficient variază de la o persoană la alta cu 0,45.
(6) – în acest câmp sunt trecuți coeficienții standardizați de regresie, care descriu modelul nostru, atunci când luăm în calcul notele standard (z) ale variabilelor.
(7) – coloana aceasta conține testul t aplicat coeficienților nestandardizați de regresie, pentru a testa ipoteza conform căreia ei sunt semnificativ diferiți de zero. Mai precis, aceste note t arată care este importanța relativă în model a predictorilor noștri. Pentru a putea fi important, un predictor trebuie să aibă scorul t cel puțin mai mare decât +2 sau mai mic decât -2. Observați că în cazul nostru numai variabila „venit" este importantă pentru model, celelalte având și ele o contribuție, dar mai puțin importantă.
(8) – pe această coloană este trecut pragul de semnificație al testului t menționat anterior. Valorile semnificative, ca la orice test statistic, trebuie se situează sub nivelul de 0,05.
(9) – ultimele coloane ale tabelului prezentat conțin limitele inferioară și superioară ale intervalului de încredere pentru coeficienții nestandardizați de regresie, corespunzător probabilității de 95%. Cu alte cuvinte, aici sunt trecute limitele de variație ale coeficienților; de exemplu, coeficientul de regresie pentru variabila „venit" este cuprins în proporție de 95% în intervalul 0,009 și 0,132.
După prezentarea parametrilor corespunzători modelului, în foaia de rezultate urmează un tabel nu mai puțin important referitor la reziduuri, mai precis la valorile variabilei dependente, cea prezise, comparate cu valorile reale. Aceste date sunt prezentate într-un tabel identic cu cel următor:
Coloanele tabelului conțin elementele descriptive (media, minimul, maximul, deviația standard si numărul cazurilor din studiu) ale variabilei dependente, prezisă de modelul nostru. Să analizăm câteva din elementele mai importante ale tabelului:
• PREDICTED VALUE: este valoarea brută prezisă de model. De exemplu, pe baza sa, media țigărilor fumate zilnic de o persoană de 40 de ani la care cunoaștem vârsta de debut al fumatului, venitul si studiile este de 18 tigări/zi, cu un minim de 3 si un maxim de 38.
• STD PREDICTED VALUE: este valoarea notei standard obținută prin convertirea notelor brute menționate anterior.
• RESIDUAL: arată abaterile modelului nostru de la realitate. Astfel observăm că ne putem abate fie în minus (prezicând un număr de țigări mai mic cu 14 țigări decât cel fumate în realitate), fie în plus (prezicând un număr cu până la 17 țigări în plus). Dacă însă observăm cât este media acestei variabile (o valoare foarte mică, foarte apropiată de zero) si abaterea standard (aproximativ 7), atunci putem afirma că modelul nostru prezice în fapt destul de bine numărul țigărilor fumate de un individ de 40 ani zilnic cu o abatere medie de ±7. Cam acestea sunt elementele ce sunt de interes din acest tabel.
În continuarea foii de rezultate sunt prezentate graficele pe care le-am solicitat programului. Mai întâi este prezentată histograma notelor standard ale reziduurilor (erorilor sau abaterilor modelului de la realitate).
Observăm că ea nu respectă curba normală, mai ales pentru valorile foarte scăzute (sub -1,5 deviații standard), ceea ce arată că modelul nostru are probleme în a prezice comportamentul celor care fumează puțin, dar este bun, pe de altă parte, pentru a prezice valorile pentru cei care fumează mult.
Mai departe, în foaia de rezultate este prezentat graficul probabilităților cumulate ale notelor standard ale reziduurilor. Dacă acestea s-ar distribui aproximativ normal (pentru un model bun), ele ar trebui să urmeze linia procentelor cumulate descrisă de curba normală (o linie dreaptă situată pe diagonala graficului din stânga-jos, până în dreapta-sus).
După cum se distribuie punctele noastre pe graficul de mai sus , observăm că în partea inferioară a graficului ( stânga), punctele depășesc diagonala, în timp ce în partea superioară avem o tendință opusă. Aceasta arată că pentru valori mici ale variabilei dependente, modelul nostru de regresie are tendința de a supraestima realitatea, în timp ce pentru valori mari apare tendința de subestimare a realității.
Concluzie:
În exemplul analizat până acum am observat că dintre cele trei variabile independente pe care le putem folosi ca predictori pentru variabila dependentă (numărul de țigări fumate zilnic), vârsta inițială și venitul ne ajută cel mai bine în predicție. Desigur, predicția noastră nu se suprapune total pe realitate, existând abateri de la ea (abaterea medie este de 7 țigări/zi) și mai apare tendința de a supraestima valorile mici și a subestima valorile mari. Cu toate acestea , modelul nostru este mai bun decât lipsa acestuia, fapt dovedit de valoarea destul de ridicată a coeficientului de corelație multiplă pătrat (R2).
Regresia cu variabile dummy
De multe ori se întâmplă ca informațiile pe care le avem la îndemână pentru a face predicții să nu fie cantitative, ci categoriale, măsurate pe scale ordinale sau nominale. Spre exemplu, dacă am dori să prezicem prețul apartamentelor pe piața imobiliară din Iași, o variabilă independentă care ne-ar putea fi utilă în predicție (pe lângă suprafața locativă) ar putea fi zona de rezidentă a imobilului, știut fiind că anumite zone din oraș sunt mai căutate decât altele.
Cum reușim să construim un model în care să folosim drept predictori variabile de tip categorial? Capitolul de fată încearcă să ilustreze tocmai acest lucru.
OBS:
* dummy este un termen englezesc ce se referă la manechinele de plastic folosite pentru vitrinele magazinelor de haine și suzeta/biberonul copiilor sugari. De asemenea, expresia englezească dummy run care desemnează o repetiție sau intenția de a încerca ceva este mai apropiată de sensul pe care-1 are acest cuvânt în contextul de față.
Pentru a fi mai ilustrativi, vom lucra cu un exemplu, o serie de date care sunt prezentate în tabelul de mai jos:
Introduceți tabelul în SPSS. Vom recapitula cu această ocazie noțiunile prezentate anterior în acest capitol. Aceste date (imaginare) reprezintă situația timpului, măsurat în luni, în care o inovație legată de management este adoptată de diverse firme variabila LUNI). Concomitent cu această măsurătoare, cercetătorul mai are următoarele informații despre aceste firme: numărul de angajați (variabila ANGAJAȚI) si tipul firmei (variabila TIPUL, care are valorile O = „firmă de stat" si l = „firmă particulară").
Problema pe care și-o pune cercetătorul este aceea de a prezice timpul în care va fi adoptată o nouă strategie de management cunoscând numărul de angajați pe care îl are
Pentru aceasta, vom aplica metoda regresiei si ne propunem să aflăm coeficienții ecuației de regresie, care în cazul nostru este:
unde Y este valoarea prezisă a timpului de adoptare a noii strategii manageriale k firmă, X- numărul de angajați al acelei firme, iar B0,B1 sunt coeficienții ecuației de gresie.
Vom folosi comanda ANALYZE – LINEAR…, care activează fereastra tipică pentru analiza, regresiei liniare, ca mai jos:
Vom selecta variabila LUNI si o vom introduce în câmpul pentru variabile dependente, iar variabila ANGAJAȚI – în câmpul pentru variabile independente. Metoda folosită va fi metoda implicită, ENTER, așa cum apare ea sub câmpul pentru variabile independente.
Activăm apoi butonul STATISTICS pentru a solicita calculul anumitor parametri, ca în imaginea următoare:
Pe lângă opțiunile marcate implicit de program (ESTIMATES si MODEL FIT), vom mai bifa opțiunea CONFIDENCE INTERVALS, după care vom apăsa butonul CONTINUE. Opțiunea R SQUARED CHANGE nu o bifăm în acest caz întrucât nu avem mai multe variabile independente cu care să construim mai multe modele de regresie, ci doar o singură variabilă predictor.
Din fereastra principală a regresiei vom activa apoi butonul PLOTS pentru a realiza unele reprezentări grafice. De aici vom bifa opțiunea NORMAL PROBABILITY PLOT, astfel că, în final, fereastra trebuie să arate precum cea din continuare:
După aceste operațiuni apăsăm butonul CONTINUE și apăsăm butonul SAVE din fereastra principală pentru a activa fereastra de mai jos:
De aici vom bifa opțiunea STANDARDIZED din câmpul RESIDUALS pentru a salva în baza de date o nouă variabilă ce reprezintă scorurile standard ale abaterilor modelului nostru de la „realitate".
Vom apăsa apoi butonul CONTINUE din această fereastră si butonul OK din fereastra principală astfel ca programul să ne arate foia de rezultate (output).
Primele informații oferite de program se referă la modelul folosit si estimarea generală a eficienței sale:
Trei sunt elementele care ne interesează din aceste două tabele:
(1) – care sunt variabilele ce intră în model
(2) – coeficientul de corelație multiplă (care aici este identic cu cel de corelație bivariată întrucât avem doar două variabile în model)
(3) – coeficientul de corelație multiplă pătratic ajustat, care arată gradul total de „potrivire" a modelului, eficiența sa.
Observăm astfel că modelul nostru, care folosește doar o singură variabilă independentă (nr. de angajați), explică 71% din variația variabilei dependente (timpul de adoptare a noii strategii).
Tabelul ce urmează ne arată dacă această proporție de variantă explicată de modelul nostru este semnificativă.
Valoarea pragului de semnificație, pe care îl citim în coloana (1), este mai mică decât 0,05, ceea ce ne permite să afirmăm cu o probabilitate de eroare de doar 5% că modelul nostru explică semnificativ de mult din variația variabilei dependente.
Tabelul următor descrie ecuația de regresie:
Din coloana notată cu (1) putem deduce ecuația de regresie, care este:
nr. luni = 37,91 + (-0,09) * nr. angajați
Reamintim că numărul -9,826E-02 înseamnă -9,82*102, adică -0,09. Putem folosi această ecuație pentru a face predicții; astfel, o firmă cu 100 de angajați va adopta o inovație managerială în aproximativ 29 luni (37,91-9).
Desigur, predicția noastră nu este perfectă, în tabelul următor, sunt trecute date ce permit evaluarea abaterilor modelului de la realitate:
Spre exemplu, observam ca abaterea medie de la realitate a modelului nostru predictiv este de aproximativ 5 luni (1), în plus sau în minus. Oricum, modelul nostru este mult mai precis sau mai aproape de realitate decât situația în care nu am cunoaște variabila ANGAJAȚI.
În acel caz, când nu am ști numărul angajaților, cea mai bună predicție ce o putem face ar fi situația în care am cunoaște doar rezultatele timpului de adoptare a noii strategii pentru cele 20 de firme luate în calcul și care este de 20 luni, cu o abatere standard de aproximativ 10 luni.
Aceste date le obținem dacă aplicăm metoda DESCRIPTIVES din meniul ANALYZE – DESCRIPTIVE STATISTICS, ca în imaginea de mai jos:
In cazul în care cunoaștem si numărul de angajați, observați că variația medie (deviația standard) scade la jumătate (de la 10 luni la 5 luni), în timp ce media valorii prezise este identică (19,95 în ambele cazuri, după cum arată tabelele anterioare). Deci este mai „rentabil" să folosim modelul nostru de regresie.
În continuarea output-ului regresiei programul ne arată distribuția reziduurilor standardizate comparativ cu distribuția normală.
După cum observăm, punctele corespunzătoare probabilităților cumulate obținute în urma modelului nostru de regresie urmează îndeaproape pe cele ale curbei normale, deci modelul nostru este valid.
Vă reamintiți că am solicitat programului să salveze în baza de date o variabilă care să arate notele standard ale erorilor modelului. Să reprezentăm acum grafic, sub forma unui nor de puncte, aceste note standardizate în funcție de variabila independentă. Dacă modelul este valid, norul de puncte astfel obținut trebuie să arate aleatoriu.
Activăm comanda SCATTER, din meniul GRAPHS. Vom alege un grafic simplu din fereastra care va apare, după aceea vom apăsa pe butonul DEFINE pentru a stabili ce variabile vor fi reprezentate grafic, ca în imaginea:
Vom stabili să reprezentăm pe axa Y variabila ce conține notele standard ale reziduurilor, în funcție de variabila ANGAJAȚI, pe care o vom reprezenta pe axa X. Apăsam butonul OK si în fereastra de output va apare graficul:
Observați că norul de puncte astfel obținut este unul aleatoriu. Deci modelul nostru este valid.
Până aici toate sunt bune si frumoase. Am recapitulat noțiunile referitoare la regresia liniară. Dar credeți că informația legată de tipul firmei (de stat sau particulară, variabila TIPUL) nu are nici o importanță? Credeți că vom obține o aceeași ecuație de regresie pentru fiecare tip de firmă? Cu alte cuvinte, credeți că o inovație este adoptată cu aceeași viteză la o firmă de stat'ca și la una particulară, chiar dacă cele două firme au același număr de angajați?
Pentru a răspunde la această întrebare să reprezentăm din nou norul de puncte, dar marcând de data aceasta punctele care provin de la firmele de stat și pe cele care . provin de la firmele particulare.
Vom activa din nou comanda SCATTER din meniul GRAPHS și vom introduce variabila TIPUL în câmpul SET MARKERS BY, ca în imaginea:
Apăsam din nou butonul OK si pe ecran va apare același grafic ca si cel anterior, doar că punctele provenite de la cele două tipuri de firme vor fi acum colorate diferit (verde si roșu). Pentru a le diferenția în alb-negru, am preferat în graficul care este prezentat în continuare să stabilesc diferite senine pentru cele două tipuri. Astfel, firmele de stat vor fi reprezentate cu cercuri, iar cele particulare – cu triunghiuri:
Observați că de data aceasta nu mai avem o dispunere aleatorie a punctelor; ele se separă clar, astfel că modelul nostru de regresie nu va mai descrie în mod corect relația care există între numărul de angajați si viteza de adoptare a inovației pentru cele două tipuri de firme.
Vedem că modelul nostru subestimează timpul pentru firmele de stat (abaterile sunt pozitive, situate deasupra axei) si îl supraestimează pe cel din firmele particulare (punctele sunt situate în majoritate dedesubtul axei).
Din această cauză este necesar să ținem cont de tipul firmei (variabila TIPUL) în ecuația noastră de predicție.
Modelul dummy
O variabilă dummy este o variabilă categorială care poate să ia doar valorile 0 si l, atribuite în mod convențional doar pentru două din stările variabilei, în cazul nostru, valoarea 0 este atribuită firmelor de stat, iar valoarea l – firmelor particulare (nu contează cui atribuim valorile, contează ca ele să fie l si 0). Este posibilă folosirea si a altor valori decât l si 0, dar veți vedea în continuare care este avantajul acestei notații.
Mai precizăm că în eventualitatea în care avem o variabilă categorială ce are mai mult de două categorii (să zicem variabila „studii", cu trei categorii: studii primare, medii și superioare), ea trebuie reprezentată prin variabile dummy cu numai două categorii. Ca regulă, trebuie să știți că avem nevoie de n-1 variabile dummy pentru a reprezenta o variabilă categorială cu n categorii. De exemplu pentru variabila studii, care are trei categorii, vom avea nevoie de două variabile dummy, prin a căror valori combinate diferit rezultă toate valorile variabilei categoriale:
Să revenim însă la exemplul cu viteza de inovație în cele două tipuri de firme. Variabila TIPUL este variabila noastră categorială; întrucât ea are deja două categorii care sunt notate cu 1 si 0, ea poate fi folosită ca variabilă dummy. La ecuația de regresie inițială care era:
Ŷ = fl0 + B1 * X
va trebui să adaugăm noua variabilă independentă, tipul firmei. Astfel, ecuația noastră de regresie cu variabilă dummy va fi:
Ŷ = B0 + B1 * X1 + B2 * X2
Acum, X1, este variabila ANGAJAȚI, iar X2 este variabila TIPUL (variabila dummy). Observați că ecuația nu are nimic deosebit de ceea ce am învățat până acum. Dar variabila X2 poate să ia doar două valori. Să vedem ce se întâmplă în fiecare caz în parte dacă înlocuim valorile 1 si 0 în ecuația originală:
Cu ajutorul programului SPSS ecuația originală de regresie se obține în mod obișnuit, introducând variabila dummy în câmpul pentru variabile independente, ca orice alte variabile independente:
Pentru a vedea dacă obținem ceva în plus prin folosirea variabilei dummy, vom introduce cele două variabile independente într-un alt bloc, apăsând butonul NEXT din fereastra principală a comenzii de regresie (revedeți părțile anterioare ale capitolului în caz că ați uitat). Comenzile celelalte rămân neschimbate, doar că din fereastra butonului STATISTICS vom bifa opțiunea R SQUARED CHANGE care arată cât de mult se îmbunătățește modelul folosind încă o variabilă independentă (în cazul nostru pe cea dummy). Apăsam CONTINUE, apoi OK din fereastra principală si vom obține foaia de
rezultate (output).
Vom analiza numai ceea ce ne interesează în mod special din output. Astfel, ne interesează tabelul prezentat în continuare, care arată dacă modelul ce conține si variabila dummy este mai eficient decât cel care conține numai variabila ANGAJAȚI.
Două sunt elementele ce ne permit să estimăm că modelul cu variabila dummy este mai eficient:
(1)- observați că valoarea ajustată a coeficientului pătrat de corelație multiplă este mai mare în al doilea model.
(2)- nu numai că valoarea lui R2 este mai mare pentru modelul dummy' dar „saltul" de la un model la altul este statistic semnificativ.
Până aici, concluzia este că variabila dummy, tipul firmei, ne îmbunătățește predicția. Următorul tabel care ne interesează este cel ce prezintă coeficienții ecuațiilor de regresie corespunzătoare celor două modele:
Din acest tabel ne interesează următoarele elemente:
(1) – coeficienții nestandardizați de regresie.
Astfel, ecuația originală de regresie va fi:
nr. luni = 42,79 + (-0,10)* nr. angajați + (-7,21)* tipul firmei
Acum putem să precizăm ecuațiile separate pentru cele două tipuri de forme făcând apel la tabelul prezentat la pagina 144:
Revenind la tabelul din output, de la pagina anterioară, elementele (2) si (3), precizează rezultatele testului t, care ne arată importanța relativă a coeficienților de regresie.
Dacă ar fi să reprezentăm grafic liniile corespunzătoare modelului de predicție ce corespunde fiecărui tip de firmă în parte, atunci am avea graficul:
Observăm că așa cum am construit modelul nostru, am presupus că intensitatea (natura) relației dintre numărul de angajați si viteza de inovare este aceeași, între cele două tipuri de firme diferind doar nivelul (viteza) de implementare. Această diferență între modele este dată de coeficientul B2, corespunzător variabilei dummy. Întrucât acestui coeficient îi corespunde o valoare semnificativă a testului t (a se vedea elementele 2 și 3 ale tabelului de la pagina anterioară), vom spune că tipul firmei afectează nivelul vitezei de implementare a inovației, în cazul în care natura relației dintre numărul angajaților și timpul de adoptare a inovației ar rămâne aceeași.
Din următorul tabel al foii de rezultate (prezentat mai sus), ne interesează să vedem dacă precizia predicției noastre a crescut. Răspunsul este pozitiv la această întrebare: comparând elementul (1) din tabelul de mai sus cu elementul similar din tabelul de la pagina 145 vom vedea că abaterea de la „realitate" s-a redus de la 5,18 luni la 3,68 luni atunci când am luat în calcul si variabila dummy, deci erorile în predicție au scăzut. Observați că si intervalul delimitat de erorile minime si maxime a scăzut.
O altă modalitate de a vedea dacă ne-am îmbunătățit precizia folosind variabila dummy este graficul probabilităților cumulate ale reziduurilor standardizate:
Comparativ cu același grafic în situația în care nu țineam cont de variabila dummy (graficul similar de la pagina 140) observați că punctele din graficul anterior sunt mult mai apropiate de linia corespunzătoare probabilităților cumulate ale curbei normale, încă un element ce susține puterea ridicată de predicție a modelului cu variabila dummy.
Dar mai există si alte două variante de modele ce pot exista atunci când folosim variabile dummy: modelul în care avem constante identice (graficul din stânga, prezentat mai jos) si modelul în care avem interacțiune (graficul din dreapta, unde atât constantele, cât si pantele liniilor sunt diferite).
Recomandat este modelul de interacțiune (cel prezentat în dreapta) pentru că ia în calcul toate posibilele diferențe introduse de variabila dummy. Pentru a afla coeficienții de regresie într-un astfel de caz, în baza de date trebuie creată o variabilă nouă obținută prin înmulțirea variabilei dummy cu variabila (variabilele) independente. Acest produs, X1*X2 se numește termen de interacțiune.
Astfel, ecuația generală de regresie (cea pe care o obținem folosind SPSS) cu variabile dummy si interacțiune devine:
Ŷ = B0 + B1*X1 + B2*X2 + B3*X1*X2
Pentru a afla apoi ecuațiile specifice, vom înlocui în ecuație variabila dummy, X2, cu valorile 0 si l. Folosind exemplul cu firmele vom avea:
Observați că în acest caz diferența dintre constantele celor două ecuații este B2, iar diferența dintre pantele celor două linii este dată de coeficientul B3.
ANALIZA DE VARIANTĂ
(sau cum diferențiem în contexte mai complexe)
Cuprins:
– Analiza de variantă – elemente teoretice
Folosirea SPSS: Meniul ANALYZE – COMPARE MEANS – ONEWAY ANO VA
– Folosirea SPSS: Meniul ANALYZE – GENERAL LINEAR MODEL – UNTVARIATE
Șir Ronald Fisher – geniul caustic al statisticii
Fisher, contemporan cu alți statisticieni britanici faimoși, a fost – probabil –
dacă nu cumva cel mai strălucit, atunci cu siguranță unul din cei mai productivi
statisticieni ai tuturor timpurilor. Cu 300 de articole și 7 cărți la activ, Fisher a
dezvoltat multe dintre conceptele de bază ale statisticii moderne: analiza de
variantă, pragul de semnificație, ipoteza de nul, randomizarea subiecților, etc.
Legenda spune că Fisher a dovedit aptitudini pentru matematică încă de la 3
ani, când și-a întrebat bona „Cât e o jumătate dintr-o jumătate?". Când i s-a
răspuns că aceasta face un sfert, copilul a continuat „Și cât e o jumătate dintr-un
sfert?" După ce i s-a spus că asta e o optime și apoi că o jumătate dintr-o optime e
o șaisprezecime, micul Fisher a continuat fără să mai întrebe: „Și bănuiesc că o
jumătate de șaisprezecime e o trezecidoime, nu?"
în viața adultă, Fisher a fost un singuratic; nu se putea abține să facă
comentarii caustice la adresa celor din jur, indiferent de poziția ocupată de aceștia,
astfel încât cei din jur îl apreciau mai mult prin munca lui decât prin manierele
sale.
Ca și Gosset, o mare parte din conceptele teoretice propuse de Fisher își au
originea în cei 14 ani în care el a lucrat la o fermă agricolă experimentală din
nordul Londrei, unde făcea studii privind productivitatea cartofilor și a cerealelor.
Dar Fisher a devenit foarte cunoscut în cei cinci ani în care a fost invitat să
petreacă verile în mijlocul Statelor Unite la lowa State College din Ames, unde
exista un puternic departament agronomic. Aici, unde se zice că verile erau așa
toride încât Fisher își ținea toată ziua cearceafurile în frigider, el i-a cunoscut pe G.
Snedecor și pe E.F. Lindquist care au popularizat și cizelat ideile brute ale lui
Fisher răspândindu-le atât în științele exacte, cât și în domeniul educației și
psihologiei.
Poate că fără verile fierbinți din Ames, Ronald Fisher, un adept înfocat al controlului
nașterilor (eugenia), nu și-ar fi extins așa repede ideile valoroase dincolo de creșterea
cartofilor…
Analiza de variantă – elemente teoretice
Se spune că cine stă cu capul în apă nu poate să vadă apa. Cu analiza de variantă s-a produs un fenomen similar: ea face atât de mult parte din felul nostru de a judeca lumea în care trăim, încât este de mirare de ce a fost descoperită așa târziu în statistică.
Să luăm câteva exemple:
Să zicem că intrați la o recepție, într-o sală foarte mare, plină de invitați. Brusc, chiar dacă oamenii sunt amestecați unii cu alții, fără a se separa într-un fel anume, aveți impresia că în sală sunt trei grupuri de persoane. Cum v-ați dat seama de asta? Probabil pentru că cei care fac parte din același grup (de exemplu asiaticii) sunt mult mai puțin diferiți între ei decât cei care fac parte din grupuri diferite. Fără să vă fiți conștienți, ați aplicat aici principiul pe care se bazează analiza de variantă.
Alt exemplu. Să presupunem că mergeți într-o țară nouă. în prima zi, observați o femeie cu părul scurt care pune o scrisoare într-o cutie rotundă, albastră. Dacă pe măsură ce călătoriți în acea țară veți vedea că și alte femei tunse scurt vor pune scrisori în cutii de tot felul de dimensiuni și culori, veți concluziona că ceea ce contează sunt sexul și lungimea părului persoanei. Dacă însă veți observa că toată lumea, indiferent de sex și lungimea părului, pune scrisorile numai în cutii rotunde și albastre, atunci cutiile poștale sunt cele ce contează, în timp ce persoanele sunt neimportante pentru concluziile noastre privind obiceiurile din acea țară. Am folosit din nou, fără să știm, principiul analizei de variantă.
Dacă sunteți familiarizați cu psihologia dezvoltării și cu teoria lui Jean Piaget, atunci vă veți da seama că analiza de variantă este un tip de gândire, de raționament, care face parte din ceea ce el a numit „operații formale", un stil de gândire abstractă ce se achiziționează în jurul vârstei de 14 ani.
Deci ar trebui să nu aveți nici o problemă în a asimila logica analizei de variantă; o folosiți implicit de atâția ani!
ANOVA
ANOVA nu este numele vreunui italian; este doar acronimul pentru analiza de variantă (din englezescul ANalysis Of VAriance). Pentru a putea deprinde logica acestei metode statistice, să luăm un exemplu imaginar. Să presupunem că un cercetător este interesat în a arăta că oamenii de pe trei continente (să zicem Asia, America de Nord si Africa) ar fi diferiți între ei din punctul de vedere al înălțimii, în sensul că înălțimea depinde de continentul în care trăiește persoana.
Cum ar putea această persoană să demonstreze acest lucru? Dacă înălțimea nu ar fi o entitate care variază, atunci ar fi simplu: am lua câte un individ din fiecare continent, i-am măsura pe cei trei si am stabili dacă există diferențe. Dar înălțimea este o proprietate care variază nu numai când comparăm persoanele de la un continent la altul, ci si pentru indivizii din interiorul unui continent.
Astfel, deși presupunem că asiaticii vor fi în general mai mici de statură decât americanii, de exemplu, în realitate vom întâlni si asiatici mai înalți decât unii americani, si invers.
Dacă am încerca o reprezentare grafică a situației descrisă de exemplul nostru, ea ar arăta ca în imaginea de mai sus. Astfel, cele trei linii curbe mici diferite descriu distribuția înălțimii în cele trei continente (Asia, Africa si America, de la stânga la dreapta). Linia mai mare descrie distribuția înălțimii pe toate trei continentele luate la un loc. Observați că avem trei medii (notate aici cu litere latine în loc de litere grecești, pentru a fi mai ușor de citit) corespunzătoare mediei înălțimii pe fiecare continent în parte (M1 – pentru Asia, M2 – pentru Africa și M3 – pentru America). Mai avem și o medie a înălțimii populației totale, de pe cele trei continente, notată aici cu GM (din englezescul grand mean – marea medie).
În partea dreaptă a desenului am reprezentat poziția unui scor x din populația americană față de media grupului din care face parte (distanța notată cu a pe desen) și față de media totală a populației celor trei continente (distanța notată cu b).
Cum ar trebui să judecăm pentru a ne confirma ipoteza conform căreia oamenii de pe cele trei continente au înălțimi ce diferă semnificativ, sau – altfel spus – continentul de proveniență afectează înălțimea locuitorilor săi?
Putem face aici o analogie cu un aparat de radio la care încercăm să distingem trei posturi de radio, trei stații ce emit pe frecvențe apropiate. Ca să putem să le distingem, ar trebui ca semnalele emise de fiecare stație să depășească în intensitate „zgomotul" produs de interferențe (zonele unde se intersectează semnalul de la două stații).
În cazul nostru, variația totală a înălțimii populației celor trei continente poate fi descompusă în două părți: o parte din variație se datorează abaterilor fiecărui scor de la media grupului din care face (distanța a), iar cealaltă parte de variație este produsă de abaterile fiecărui scor de la media totală a populației (distanța b ). Pentru a putea distinge între grupuri, ar trebui ca prima componentă a variației să fie mai mică decât cea de-a doua. Cu alte cuvinte, ar trebui ca persoanele aflate în același grup (pe același continent) să difere mai puțin între ele, decât persoanele aflate pe continente diferite. Atunci când variația inter-grupuri o depășește pe cea intra-grupuri vom putea distinge bine între cele trei grupuri.
Analiza de variantă, ANOVA, realizează tocmai acest lucru: calculează raportul dintre variația provocată de diferențele inter-grupuri și variația cauzată de diferențele intra-grup și stabilește dacă acest raport este suficient de mare pentru a putea distinge între grupuri.
Să luăm în continuare un exemplu numeric simplu pentru a vedea exact logica ANOVA în acțiune.
Exemplu:
Un psiholog social este interesat să măsoare influența informațiilor anterioare (dacă are sau nu antecedente) pe care o persoană le are despre un infractor în evaluarea gradului de vinovăție într-o infracțiune. Astfel, la 15 subiecți le este arătată o casetă video care prezintă procesul unei persoane condamnată pentru falsificare de cecuri bancare. Anterior subiecții au primit dosarul inculpatului care conținea aceleași informații pentru toți subiecții, cu excepția faptului că pentru 5 dintre aceștia inculpatul era prezentat ca având antecedente, pentru alți 5 – era menționat că inculpatul era la prima abatere, iar pentru restul de 5 subiecți nu era făcută nici o mențiune (grupul de control). După vizionarea casetei, subiecții trebuiau să evalueze gradul de vinovăție al persoanei inculpate pe o scală de la l – „sunt complet sigur Că inculpatul e inocent" până la 10 -„sunt complet sigur că inculpatul e vinovat".
Scopul cercetării este de a arăta că gradul de vinovăție evaluat de subiecții din cele trei grupuri este diferit semnificativ. Ipoteza de nul în acest caz este că cele trei grupuri de subiecți nu diferă semnificativ, deci ele provin de fapt din aceeași populație.
Rezultatele acestui studiu imaginar sunt prezentate în tabelul de mai jos:
Pentru fiecare grup în parte am calculat media și varianta populației din care presupunem că provine acest grup. Reamintim că estimarea variantei populației din care face parte un grup pe baza rezultatelor din acel grup se face folosind formula:
Pe baza ipotezei de nul, că cele trei grupuri provin toate din aceeași populație, putem calcula varianta acestei populații totale care este determinată de variantele intra-grup.
Aceasta va fi de fapt media aritmetică a celor trei variante intra-grup:
MSw=(Sl2+S22+S32)/3=(4,5+5+6,5)/3=16/3=5,33
Simbolul „w" desemnează tocmai termenul intra-grup (din cuvântul englezesc within-groups).
Acum ar trebui să determinăm componenta inter-grupuri a variantei populației totale. Vom calcula această valoare pornind de la valorile mediilor fiecărui grup în parte si considerând abaterile acestora de la marea medie.
Tabelul următor ne ajută să realizăm acest lucru:
Acum trebuie să estimăm varianta populației totale cauzată de diferențele dintre mediile celor trei grupuri. Acum trebuie să inversăm unul din procedeele prezentate în capitolul patru (paginile 92-94). Acolo estimam varianta unei populații (distribuții) de medii pornind de la rezultatele unei populații individuale. Pentru aceasta, împărțeam varianta populației de cazuri individuale la numărul de cazuri din fiecare eșantion, conform formulei:
unde este varianta distribuției de medii (eșantioane), iar este varianta populației de cazuri individuale.
În cazul nostru, situația este tocmai inversă: cunoaștem varianta distribuției de medii (notată cu S ) si dorim să o estimăm pe cea a populației. Deci va trebui să înmulțim această variantă cu numărul cazurilor din fiecare eșantion (în exemplul de mai sus, cu 5, pentru că avem 5 subiecți în fiecare eșantion).
Astfel,
MSB= S2*N=4,34*5=21,7.
Acum avem toate elementele – cele două componente ale variantei populației totale – pentru a calcula testul F (ANOVA).
Formula testului este:
Numele testului vine, evident, de la numele descoperitorului său, Sir Ronald Fisher. Distribuția testului (după care se calculează probabilitatea ca un anume rezultat să fie rodul întâmplării sau al unor factori de variație sistematică) este prezentă de obicei la sfârșitul oricărui manual de statistică si se calculează în funcție de doi parametri: gradele de libertate inter-grup (valoare dată de numărul de grupuri minus unu) si gradele de libertate intra-grup (valoare dată de numărul total de subiecți mai puțin numărul grupurilor). Se alege astfel valoarea-prag pentru care respingem ipoteza de nul si acceptăm ipoteza de cercetare (la fel ca si testul t). Evident, această valoare trebuie să fie supraunitară.
În cazul exemplului nostru, F=21,7/5,33=4,07. Valoarea-prag a lui F trebuie căutată în tabele în dreptul lui 2 (gradele de libertate inter-grup) si 12 (gradele de libertate intra-grup), pentru un prag de semnificație de 0,05.
Întrucât aici obținem valoarea 3,89, iar rezultatele noastre sunt mai mari, mai extreme decât valoarea prag, vom putea respinge ipoteza de nul conform căreia cele trei grupuri provin din aceeași populație și accepta ipoteza de cercetare care afirmă că ele provin din populații diferite. Implicit, acest rezultat susține ideea că informațiile anterioare au influențat semnificativ evaluarea vinovăției inculpatului.
Folosirea SPSS: Meniul ANALYZE – COMPARE MEANS – ONE-WAY ANOVA
Să vedem acum cum folosim programul SPSS pentru a calcula testul F. Vom utiliza ca bază de date, rezultatele de la pagina 98, unde prezentam nivelul salarial la angajare si la cinci ani după aceea pentru 30 de subiecți, dintre care 10 aveau studii primare, 10 – studii medii si 10 – studii superioare.
Există mai multe tipuri de analiză de variantă. Cel despre care am discutat până în prezent se mai numește ANOVA unifactorial, întrucât evidențiem existența/influenta unui singur factor de variație (în exemplul nostru, informația anterioară) asupra unei variabile dependente.
Să încărcăm baza de date (dacă ați salvat-o în cursul parcurgerii capitolului 5) sau să o reintroducem în computer si să definim valorile variabilei STUDII după cum urmează: valoarea l desemnează studiile primare, valoarea 2 – studiile medii si valoarea 3 – studiile superioare. Baza de date ar trebui să arate astfel (dacă în prealabil ați marcat opțiunea VALUE LABELS din meniul VIEW).
Observați că avem trei variabile în baza de date: STUDII (variabilă independentă, cu trei grade de intensitate, deci care împarte subiecții în trei grupuri), SAL_INI (salariul inițial la angajare, exprimat în mii lei, variabilă dependentă) si SAL_FIN5 (salariul după cinci ani, exprimat tot în mii lei, tot variabilă dependentă).
Scopul cercetării este să stabilim dacă variabila independentă, nivelul studiilor subiecților, influențează nivelul salarial al subiecților (1-am luat în calcul numai pe cel inițial).
Întrucât avem trei grupuri vom aplica testul F, ANOVA unifactorial. Dacă am fi avut de comparat doar două grupuri, atunci am fi aplicat, ca de obicei, testul t.
Întrucât în esență ajungem să stabilim dacă grupurile diferă între ele, deci dacă au mediile diferite, comanda pentru ANOVA unifactorial o vom găsi în submeniul COMPARE MEANS din meniul ANALYZE, ca în imaginea de mai jos:
Odată activată această comandă, ea va încărca pe ecran fereastra de mai jos:
Să analizăm detaliat fereastra:
(1)- este, ca de obicei în SPSS, câmpul ce prezintă toate variabilele din baza de date.
(2)- este câmpul unde vom introduce variabilele dependente (în cazul nostru SAL_INI)
(3)- aici se introduce variabila independentă (pentru noi STUDII)
(4)- butonul acesta permite planificarea dinainte a unor comparații între grupurile generate de variabila independentă. Dacă nu bifam nimic din fereastra care se deschide prin apăsarea butonului, atunci programul va lua în calcul toate comparațiile posibile, dar post-hoc.
(5)- este butonul ce stabilește tipul testelor de contrast post-hoc (vom discuta detaliat în continuare)
(6)- este un buton obișnuit ce conține elemente de statistică descriptivă.
Dacă ați introdus corect variabila dependentă și pe cea independentă, fereastra ar trebui să arate astfel:
Prezentăm în continuare fereastra corespunzătoare butonului CONTRASTS, deși nu vom marca nici una din opțiunile ei.
Ar trebui să intrăm în prea multe detalii de statistică superioară, legate si de analiza de variantă si de regresie pentru a explica cum se folosesc opțiunile din această fereastră. Pentru uzul comun însă, neluarea în seamă a opțiunilor acestui buton nu afectează rezultatele obținute. Apăsați CANCEL si reveniți la fereastra principală.
Activăm butonul POST-HOC, de care avem nevoie si care deschide pe ecran fereastra de mai jos:
Nu vă speriați că sunt atât de multe opțiuni, atât de multe teste! Toate fac în principiu același lucru: ajustează sau confirmă faptul că diferențele obținute pe ansamblu prin analiza testului F se regăsesc si la nivelul comparațiilor dintre grupuri, luate două câte două. Este logic să aplicăm aceste teste. Gândiți-vă că am aplica ANOVA unifactorial pentru o variabilă care are 100 de grade de intensitate, deci vom avea 100 de grupuri ce vor trebui comparate nu numai în ansamblu (ceea ce face testul F), ci si două câte două (cu testul t, de exemplu). Chiar dacă în realitate nu variabila independentă nu ar avea nici un efect (fapt confirmat sau infirmat de testul F), la comparațiile dintre grupuri luate două câte două avem șanse ca măcar pentru cinci dintre acestea să găsim diferențe, care apar din întâmplare.
Astfel, pragurile de semnificație pentru aceste teste t trebuie ajustate în funcție de numărul grupurilor, tocmai ceea ce realizează testele de comparație multiplă din fereastra POST-HOC.
În cazul nostru vom alege BONFERRONI, unul din testele obișnuite în acest caz.
După ce apăsați CONTINUE și reveniți în fereastra principală, activați butonul OPTIONS pentru a vedea că puteți calcula unii parametri descriptivi bifând opțiunile din fereastra care astfel se deschide:
Apăsați din nou butonul CONTINUE si apoi butonul OK din fereastra principală pentru a activa foaia de rezultate.
Să analizăm fiecare componentă a foii de rezultate. Mai întâi, apare un tabel, precum cel care urmează si care este tabelul principal al analizei:
Elementele acestui tabel sunt:
(1)- sursele de variație. Pe această coloană sunt trecute componentele variantei populației totale.
(2)- aici sunt notate deviațiile pătratice care intră în componența fiecărui tip de variantă (intra-grup si inter-grup)
(3)- în această coloană programul arată gradele de libertate corespunzătoare modelului nostru experimental si pentru care se calculează valoarea-prag a testului F.
(4)- acestea sunt componentele testului F, adică MSW și MSB. Dacă observați cu atenție, împărțind suma pătratelor de pe un rând la numărul gradelor de libertate corespunzător, obținem valorile pentru MS-uri.
(5)- aici este valoarea testului F, obținută prin împărțirea mediei variației inter-grup la valoarea mediei variației intra-grup (MSBj MS\j)
(6)- este valoarea pragului de semnificație pentru testul F, sau probabilitatea de a greși atunci când respingem ipoteza de nul. în cazul de față, pentru că valoarea lui p este foarte mică (mai mică de 0,05), putem să respingem ipoteza de nul si să acceptăm ipoteza de cercetare.
Până acum, din datele foii de rezultate putem concluziona că, pe ansamblu, studiile afectează nivelul de salarizare avut inițial de subiecții noștri. Vedeți că am subliniat „pe ansamblu" pentru că rezultatul analizei de variantă ANOVA unifactorial se referă la diferențele globale ce apar între grupuri, care se reflectă în variația populației totale, fără a preciza între care anume grupuri apar diferențele.
Tabelul următor din foaia de rezultate precizează tocmai acest lucru, făcând comparațiile multiple între toate perechile de două grupuri (testul Bonferroni).
Tabelul conține câteva elemente mai importante:
(1)- nivelul de referință al variabilei independente, față de care se face
comparația. El este notat aici cu I
(2)- este coloana ce arată celelalte nivele ale variabile independente ce sunt
comparate cu nivelul de referință (aceste nivele sunt notate cu J)
(3)- în această coloană este prezentată diferența dintre nivelele I si J, în această ordine. Spre exemplu, diferența salarială medie dintre cei cu studii primare (nivelul I) si cei cu studii superioare (nivelul J) este de – 158,90 mii lei, așa cum arată explicația (3)
(4)- steluța care apare în dreptul valorilor de pe coloana (3) este explicată sub tabel si arată unde anume, între care grupuri apare o diferență semnificativă (pragul de semnificație mai mic de 0,05) între medii.
(5)- valoarea exactă a pragului de semnificație este trecută în această coloană.
Din tabelul de mai sus vedem că apare doar o singură diferență semnificativă între două grupuri, între cei cu studii primare si cei cu studii superioare.
O ilustrare grafică ar fi mai utilă. Graficele ANOVA se reprezintă de obicei, corect, sub forma graficelor-bară, unde barele arată categoriile sau grupurile determinate de variabila independentă, iar înălțimea barelor reprezintă nivelul acestor grupuri din perspectiva variabilei dependente măsurate.
Vom activa fereastra pentru grafice cu bare, simple, unde datele reprezintă grupuri de cazuri (dacă ați uitat cum se face acest lucru, revedeți primele capitole). Fereastra ar trebui să arate precum cea de mai jos:
Vom introduce variabila independentă în câmpul notat CATEGORY AXIS, iar variabila dependentă (SAL_INI) va fi introdusă în câmpul VARIABLE. Reamintim că, la început, acest câmp nu este activ. Pentru a-1 putea activa este necesar să marcați opțiunea OTHER SUMMARY FUNCTION situată deasupra sa.
Imediat ce am făcut aceste modificări, apăsam butonul OK si graficul cu bare va apare imediat în foaia de rezultate, ca în imaginea următoare:
Observați că scala de măsură a variabilei dependente debutează de la valoarea 100, nu de la O, astfel că nu trebuie să apreciați, „ochiometric", diferențele, până nu aduceți scala de măsură la valoarea de origine. Orice modificare a graficului se face după ce în prealabil activați modul de editare, efectuând un dublu-click asupra sa. Apoi selectați zona pe care doriți să o modificați (tot cu dublu-click) si modificați parametrii din fereastra astfel apărută.
Din grafic, din modul de dispunere a barelor si din informațiile pe care le avem din foaia de rezultate, observăm că salariul inițial creste pe măsură ce creste si nivelul studiilor. Cu toate acestea, diferențe semnificative găsim doar între nivelurile extreme de educație, cei cu studii medii situându-se la mijloc.
Interpretând plastic aceste rezultate, imaginați-vă că cele trei bare ar reprezenta niște trepte. Atunci când între două niveluri (trepte) nu este o diferență semnificativă este ca si cum coborând sau urcând treptele nu ați simți diferența de nivel. Când însă diferența este semnificativă, atunci ar fi ca ți cum trecând de la o treaptă la alta ați depune un efort considerabil, în cazul de față, trecând de la o treaptă la alta, nu simțim nici o diferență; numai când sărim câte două trepte (cum este trecerea de la „studii primare" la „studii superioare") vom simți o diferență.
Folosirea SPSS: Meniul ANALYZE – GENERAL LINEAR MODEL –UNIVARIATE
Uneori ne interesează să aflăm care este influența mai multor factori (variabile independente) asupra unei variabile dependente. Folosind doar ceea ce am învățat până acum (testul t si ANOVA unifactorial) nu putem să evidențiem decât influența separată a fiecărui factor în parte. Am putea utiliza regresia cu variabile dummy, dar ar fi destul de complicat pentru că ar trebui să lucrăm cu multe variabile dummy si modelul ecuației de regresie ar fi foarte complex si greu de interpretat.
Pentru astfel de cazuri a fost inventată analiza de variantă factorială (ANOVA SIMPLE FACTORIAL este denumirea încetățenită în cărțile de statistică englezești). Logica acestei metode este identică cu cea prezentată anterior; coeficientul F al testului ANOVA măsoară raportul dintre variația cauzată de împărțirea pe grupuri si variația intrinsecă a grupurilor.
Dacă logica testului este aceeași, nu identic este rezultatul: în analiza de variantă simplu factorială sunt două tipuri de note F care ne interesează, corespunzătoare celor două tipuri de efecte pe care le putem măsura. Cele două tipuri de efecte sunt:
• efecte principale: măsoară influența unei variabile independente asupra celei
dependente, indiferent de acțiunea celorlalte variabile independente
• efecte de interacțiune: măsoară influența combinată a două sau mai multor variabile
independente asupra variabilei dependente.
Nu vom insista asupra detaliilor legate de combinațiile acestor efecte pe care le putem întâlni în științele sociale. O trecere detaliată în revistă a acestora poate di consultată în volumul Metodologia cercetării în științele sociale (Cornel Havârneanu, 2000, EROTA TIPO).
Noi vom prezenta în continuare modul de folosire al programului SPSS pentru calcularea testului F în analiza de variantă simplu factorială.
Vom utiliza pentru aceasta o bază de date imaginară, referitoare la nota obținută de niște studenți la un examen, în condițiile în care ținem cont de ziua examinării și nivelul lor de anxietate.
Vă prezentăm mai jos datele, pentru a le putea introduce în programul SPSS:
Observați că avem două variabile independente (ANX – nivelul de anxietate și ZI_EXAM – ziua examinării), fiecare din ele având două grade de intensitate.
Valorile variabilelor independente sunt: pentru
anxietate – l="mică" și 2="mare",
ziua examinării – l="luni" și 2="vineri".
Variabila dependentă este nota obținută la examen.
Odată introdusă în computer baza de date ar trebui să arate ca în imaginea de mai jos, în condițiile în care activăm comanda VALUE LABELS din meniul VIEW:
Scopul cercetării noastre ar fi să arătăm care este efectul nivelului anxietății si a zilei de examinare (la începutul sau la sfârșitul săptămânii) asupra notei obținute de studenți la examen. Desigur, nota la un examen nu depinde prea mult de acești factori, dar folosind ANOVA simplu factorial putem vedea în ce măsură ei o influențează.
Activarea comenzilor pentru ANOVA simplu factorial se face din meniul ANALYZE – GENERAL LINEAR MODEL – UNIVARIATE, ca în imaginea de mai jos:
Faptul că metoda se găsește sub meniul GENERAL LINEAR MODEL, arată legătura dintre analiza de variantă si regresie (pe care nu o vom discuta aici), iar opțiunea UNIVARIATE indică faptul că avem doar o singură variabilă dependentă pe care o măsurăm.
Odată activată comanda UNIVARIATE, pe ecran apare fereastra de mai jos:
Vom explica această fereastră în detaliu, mai puțin butoanele cu opțiuni din partea sa dreaptă pe care le vom detalia mai târziu:
(1)- este câmpul ce conține variabilele din baza de date
(2)- aici se introduce variabila dependentă. Observați că avem loc doar pentru o singură variabilă dependentă
(3)- în acest câmp introducem variabilele independente (factorii) care ne interesează si al căror efect îl controlăm sau îl considerăm fix, necauzat de întâmplare
(4)- variabilele ce pot fi considerate independente, care nu ne interesează în mod direct sau a căror acțiune nu o putem controla se introduc în acest câmp
(5)- dacă în studiu avem variabile independente sau alte variabile dependente care bănuim că ar fi în legătură sau ar influența variabila dependentă ce ne interesează, le vom introduce în acest câmp. Prin această operațiune vom putea să vedem dacă factorii ficși (cei din câmpul FIXED FACTORS) influențează variabila dependentă indiferent de acțiunea factorilor covarianți.
(6)- aici se trec valorile pe care le putem folosi atunci când bănuim că unele variabile independente (factori) ar corela între ei ceea ce ar afecta rezultatele. Este însă o opțiune pentru utilizatorii avansați si recomandăm nefolosirea ei fără cunoașterea precisă a semnificației sale.
În cazul nostru, un exemplu simplu, vom considera cele două variabile independente ca pe factori ficși și îi vom introduce în câmpurile corespunzătoare, ca în imaginea următoare:
Observați că în partea dreaptă fereastra principală are o serie de butoane ce conțin opțiuni complexe de analiză. Le vom discuta pe rând, încercând să explicăm cât mai multe din opțiunile apărute pe ferestrele acestor butoane. Cu toate acestea, precizăm de la început că nu vom folosi în analiză atât de multe opțiuni; ele sunt pentru utilizatorii avansați si pentru design-uri experimentale mult mai complexe, în situațiile cele mai frecvente, opțiunile de care avem nevoie sunt mult mai puține.
Butonul MODEL activează o fereastră precum cea prezentată mai sus. Opțiunile din această fereastră folosesc la construirea unor modele care interesează pe experimentator, în condițiile în care situația investigată este prea complicată (ex. sunt foarte multe variabile luate în calcul) si mai importante sunt niște modele mai simple, folosind factori mai puțini. Să analizăm puțin fereastra:
(1)- este opțiunea marcată implicit, care ia în calcul toate efectele posibile si toate combinațiile de factori. Pentru modelele simple este recomandat să o lăsați așa
(2)- în cazul în care doriți să simplificați modelul cu care lucrați și vă interesează numai anumite efecte sau numai anumiți factori vom bifa această opțiune care va activa automat câmpurile și butoanele ce se găsesc dedesubt.
(3)- folosind opțiunile ce se deschid din câmpul în care scrie INTERACTION, alegem efectele care ne interesează să le analizăm, iar cu ajutorul butonului cu săgeată vom selecta factorii pentru care dorim să se calculeze acele efecte.
(4)- sunt opțiuni ce permit alegerea tipului de interacțiune dintre variabilele independente (cât de complexă să fie interacțiunea) și permit calculul unor coeficienți de regresie ai modelului (am precizat anterior că între regresie și ANOVA există o legătură strânsă)
Pentru exemplul nostru, nu vom alege nici una din opțiunile din această fereastră; vom lăsa marcată doar opțiunea implicită, FULL-FACTORIAL. Apăsați CONTINUE si reveniți în fereastra principală, pentru a activa următorul buton, CONTRAST, care v-a deschide o fereastră ca cea de mai jos:
De opțiunile acestei ferestre avem nevoie: ele compară între ele diferitele grupuri rezultate din împărțirea subiecților după valorile sau categoriile variabilelor independente. Observați că doar variabilele independente sunt trecute aici. Cum se lucrează cu aceste opțiuni? Alegeți mai întâi variabila independentă pentru care doriți să calculați contrastul (diferența dintre nivelele sale de variație). Apoi, alegeți tipul de contrast din câmpul CONTRAST. De aici, tipul de contrast recomandat este DIFFERENCE. Ca exemplu, am ales, variabila ANX, nivelul anxietății. Prin marcarea tipului de contrast prin diferență, noi cerem programului să vadă dacă între cele două nivele de anxietate pe care le pot avea subiecții noștri există diferențe în ceea ce privește notele obținute (adică vom verifica dacă cei mai anxioși obțin note semnificativ diferite de cei mai puțin anxioși).
Pentru a activa un anume tip de contrast, după ce 1-ați ales trebuie să apăsați butonul CHANGE. Mai puteți modifica și categoria de referință, alegând-o pe prima sau pe ultima dintre categoriile ce descriu o anume variabilă independentă. Apăsați CONTINUE după ce ați ales tipul de contrast pentru a reveni la fereastra principală.
Butonul PLOTS, care activează fereastra de mai jos, este dedicat reprezentărilor grafice:
Menționăm totuși că deși reprezentarea rezultatelor ANO VA folosind grafice cu linii nu este corectă din punct de vedere conceptual (cele mai indicate fiind graficele cu bare), dată fiind popularitatea de care se bucură aceste tipuri de grafice, realizatorii programului SPSS au inclus aici numai grafice cu linii.
Vom folosi și noi această fereastră pentru a ilustra grafic influența celor doi factori pe care i-am luat în calcul (anxietatea și ziua examinării) asupra variabilei dependente (notă la examen).
Observați că avem trei câmpuri:
☻ HORIZONTAL AXIS: aici se introduce variabila independentă ale cărei categorii dorim să le reprezentăm pe axa X
☻ SEPARATE LINES: liniile diferite ale graficului vor reprezenta categorii diferite ale factorului care este introdus în acest câmp
☻ SEPARATE PLOTS: dacă mai avem un al treilea factor și acesta este introdus în acest câmp, vom obține tot atâtea grafice câte categorii descriu factorul, grafice care arată relația dintre variabilele introduse anterior pentru diferite niveluri ale factorului al treilea.
Pe noi ne interesează să reprezentăm interacțiunea dintre cei doi factori luați în calcul în modelul nostru. Ca urmare, vom reprezenta rezultatele la examen în funcție de anxietate (trecută pe axa X) si pentru cele două zile de examinare (reprezentate prin linii separate). Pentru aceasta vom introduce variabilele independente ca în imaginea de mai jos:
Apăsam apoi butonul ADD, care abia acum s-a activat, iar imaginea va fi:
În acest fel putem realiza mai multe grafice, întrucât după apăsarea butonului ADD, câmpurile ferestrei s-au golit.
Revenim din nou în fereastra principală pentru a activa butonul POST-HOC care va deschide fereastra:
Acest buton are opțiuni similare cu butonul cu același nume din fereastra ANOVA ONE-WAY. El se folosește numai atunci când una sau mai multe dintre variabilele independente are/au mai mult de două nivele de variație (deci împart subiecții în mai mult de două grupuri). Se vor realiza astfel toate comparațiile între toate perechile de grupuri și aceste teste ajustează pragul de semnificație în funcție de numărul grupurilor de comparat (revedeți ANOVA unifactorial dacă ați uitat la ce folosesc aceste teste). Ca și în cazul anterior, vom recomanda de aici folosirea testului Bonferroni.
Pentru exemplul nostru nu avem nevoie de comparații POST-HOC. De altfel, dacă marcați vreo opțiune aici, programul va afișa pe foaia de rezultate un mesaj de eroare prin care vă spune că nu a putut aplica testele întrucât sunt mai puțin de trei categorii ale variabilei/variabilelor independente.
Deci vom reveni în fereastra principală fără să activăm nici o opțiune. Butonul SAVE din fereastra principală va activa o fereastra precum cea prezentată în continuare:
Observați că opțiunile de aici sunt identice cu cele ale butonului SAVE din fereastra pentru regresia liniară. Nu vom mai comenta opțiunile de aici, care sunt identice cu cele de la regresie; menționăm doar faptul că ele facilitează tratarea analizei de variantă ca un model particular de regresie. Nu recomandăm folosirea opțiunilor de aici decât celor care cunosc bine regresia.
Următorul buton din fereastra principală, care activează o fereastra precum cea de mai jos, este unul specific analizei de variantă simplu factoriale, așa că îl vom analiza mai în detaliu.
Ca orice buton denumit OPTIONS din SPSS si acesta de față oferă opțiuni pentru calcularea anumitor parametri statistici. Astfel:
(1)- prezintă toate combinațiile de factori pentru care avem grupuri diferite de subiecți si va permite apoi calcularea mediei fiecărui grup de subiecți în parte. Opțiunea OVERALL se referă la media calculată atunci când subiecții nu sunt împărțiți în grupuri, când rezultatele lor sunt luate în calcul nediferențiind între nivelurile factorilor din model
(2)- este câmpul în care se trec factorii pentru care dorim să calculăm mediile grupurilor de subiecți
(3)- reprezintă opțiuni ce permit calcularea mai multor parametri.
Dintre toate, ne interesează calculul parametrilor descriptivi (media, deviația standard, minimul si maximul), precum si testele de omogenitate (acestea trebuie să nu fie semnificative pentru a putea aplica ANOVA simplu factorial).
Dacă selectați corect opțiunile corespunzătoare pentru această fereastră, atunci ea ar trebui să arate precum cea de mai jos:
Reveniți apoi în fereastra principală si apăsați OK pentru ca să obțineți foaia de rezultate.
Primele elemente ale output-ului se referă la parametrii descriptivi ai modelului:
Astfel, primul tabel precizează numărul de subiecți folosiți în cercetare pentru fiecare grup în parte determinat de nivelurile fiecărei variabile independente (factor). Al doilea tabel precizează mediile totale (cele din treimea inferioară a tabelului), precum si cele corespunzătoare fiecărui subgrup de subiecți, subgrup determinat de categoriile factorilor din model.
Ceea ce ne-a fost prezentat până acum este rezultatul opțiunilor marcate de noi din fereastra butonului OPTIONS.
Mai departe, în foaia de rezultate sunt prezentate elementele cele mai importante ale outputului, rezultatele testului F:
Tabelul cu testul lui Levene reprezintă tocmai testul de omogenitate de care vorbeam la fereastra butonului OPTIONS.
În analiza de variantă simplu factorială, cele mai importante elemente se referă la testul F, prezentat în tabelul anterior. Din tot tabelul pe noi ne interesează numai cele trei linii, marcate prin acolade.
(1)- arată variabilele (factorii) ale căror efecte le luăm în calcul. Astfel, linia cu ANX arată efectul principal al acestui factor, indiferent de acțiunea celuilalt factor, linia ZI_EXAM arată efectul principal pentru această variabilă, iar linia ANX*ZI EXAM se referă la efectul de interacțiune dintre cei doi factori, dacă ei își combină efectele atunci când acționează asupra variabilei dependente .
(2)- aici sunt prezentate testele sau notele F corespunzătoare efectelor principale si de interacțiune din model
(3)- acestea sunt pragurile de semnificație pentru testele F corespunzătoare. Analiza acestui tabel, în exemplul de față, arată că dintre cele trei note sau teste F, doar unul singur este semnificativ (p<0,05) si anume cel corespunzător rândului ANX, deci cel corespunzător efectului principal al variabilei „anxietate". Restul efectelor sunt nesemnificative.
Interpretarea generală a acestui efect principal este aceea că anxietatea influențează nota obținută de subiecți la examen, indiferent de ziua de examinare.
Pentru a vedea în ce fel nivelul anxietății afectează nota la examen, trebuie să ne uităm în tabelele de contrast (opțiunile activate din fereastra butonului CONTRAST):
Din primul tabel de mai sus vedem că testul de contrast a făcut diferența dintre nota la examen obținută de subiecții cu nivel ridicat de anxietate si cei cu un nivel scăzut (LEVEL 2 vs. LEVEL1). Această diferență a fost comparată cu situația în care cele două grupuri ar fi obținut valoarea zero (HYPOTHESIZED VALUE). Pragul de semnificație (notat cu SIG) ne arată că diferența a fost semnificativă, iar sensul diferenței (faptul că am obținut o valoare negativă, -1,93) indică faptul că cei cu anxietate mare (LEVEL 2) aveau note semnificativ mai mic decât cei cu anxietate mică (LEVEL 1).
În tabelul al doilea este prezentat suportul statistic pentru testul de contrast; observați că si aici pragul de semnificație este mai mic de 0,05, deci diferențele constatate sunt si ele semnificative, anxietatea afectând nota obținută la examen.
Tabelele următoare (prezentate mai sus) reiau analiza contrastelor pentru celălalt factor, ziua examinării. De observat că aici nu mai avem diferențe semnificative (fapt confirmat si de lipsa unui efect principal pentru această variabilă), deci ziua examinării nu afectează nota obținută.
Tabelele ce urmează în continuare prezintă mediile obținute pe ansamblu (tabelul l, obținut pentru că am selectat OVERALL din butonul OPTIONS), obținute pentru fiecare factor în parte (tabelele 2 si 3) si cele pentru grupurile de subiecți rezultate prin combinarea nivelurilor celor două variabile independente.
în cazul în care nu știți să interpretați sensul diferențelor la testele de contrast sau în cazul interacțiunii variabilelor, aceste tabele cu mediile pe grupuri si subgrupuri vă vor ajuta să stabiliți în ce sens diferă mediile.
Pe lângă valorile mediilor, tabelele următoare mai prezintă si deviațiile standard, precum si limitele valorii medii corespunzătoare intervalului de încredere de 95%.
Ultima parte a foii de rezultate este rezervată reprezentărilor grafice:
TESTE PENTRU DATE NEPARAMETRICE
(sau cum analizăm cele mai multe din chestionare)
Cuprins:
– Datele neparametrice
Folosirea SPSS: Meniul ANALYZE – NONPARAMETRIC TESTS – BINOMIAL Folosirea SPSS: Meniul ANALYZE – NONPARAMETRIC TESTS – CHI-SQUARE Folosirea SPSS: Meniul ANALYZE – NONPARAMETRIC TESTS – 2 RELATED
SAMPLES Folosirea SPSS: Meniul ANALYZE – NONPARAMETRIC TESTS – 2
INDEPENDENT SAMPLES
Karl Pearson – un statistician la extreme
Născut în 1857, se zică că Pearson se lăuda adesea cu spiritul său rebel manifestat încă de timpuriu. El însuși se lăuda că cea mai veche amintire din copilărie o avea de la vârsta de 5 ani când, somat de părinți să nu-și mai sugă degetul arătător „că o să ți se topească", micul Karl a răspuns uitându-se la degetele sale: „nu văd că degetul pe care-1 sug e mai mic ca celelalte și eu cred că mă păcăliți".
Mai târziu, imediat ce a ajuns la Cambridge cu o bursă pentru a studia matematica, Pearson a făcut o cerere pentru a fi scutit de prezența obligatorie de la orele de religie și slujbele de la capela universității. După ce i-a fost aprobată cererea, el a început să se prezint regulat la cursurile de religie și la capelă, fapt care 1-a determinat pe decan să-i ceară o explicație. Pearson a explicat că el a cerut să fie scutit nu de prezența la capelă, ci de „prezența obligatorie la capelă".
Karl Pearson, inventatorul testului chi-pătrat, s-a apucat de statistică din necesitatea de a demonstra că și științele sociale pot fi la fel de precise și „științifice" ca și cele exacte. Preocupat de ereditate și teoriile evoluționiste, el a căutat metode matematice pentru a-și susține ipotezele. Ceea ce 1-a deosebit de alți statisticieni contemporani a fost faptul că el nu credea că statistica, corelația în special, poate dovedi cauzalitatea. „Nici un fenomen nu este cauzal, toate sunt contingente, iar ce putem noi face cel mai bine este să apreciem tocmai gradul de contingență", spunea Pearson.
în viața de zi cu zi, el era omul extremelor: ori era prieten devotat, ori un dușman înverșunat. Astfel, în timp ce pentru Gosset (inventatorul testului t), Pearson era un prieten de încredere, pentru Fisher (inventatorul analizei de variantă) era un dușman de moarte.
Chiar și în anul morții sale, 1936, Pearson s-a certat rău cu Fisher, spre disperarea lui Gosset, prieten bun cu amândoi, iar unii afirmă că primul ar fi murit de inimă rea când a aflat că la retragerea sa de la conducerea catedrei de eugenie de la University College din Londra, Fisher i-ar fi luat locul…
Datele neparametrice
Mai frecvente în sociologie decât în psihologie, scalele de măsură ordinale sau nominale stau la baza conceptelor măsurate prin cele mai multe dintre chestionare. Dat fiind că avem de-a face cu scale nominale sau ordinale, parametrii obișnuiți pe care i-am folosit până acum în analiză (media, abaterea standard, etc.) nu ne mai sunt de nici un folos aici.
Datele pe care le obținem folosind aceste scale de măsură nu mai pot fi deci analizate cu metodele prezentate până acum, întrucât ele nu se distribuie normal si nici nu sunt corespunzătoare unor variabile continui.
Cum le putem analiza în acest caz? Întrucât în analiza lor nu ne mai putem folosi de parametrii care descriu curba normală aceste date se numesc date neparametrice. Ele se analizează pornind de la frecvențele de apariție ale diferitelor categorii ce sunt comparate cu frecvențe teoretice de apariție sau de la probabilitățile de apariție ale acestor categorii.
Pentru datele neparametrice avem nevoie de teste specifice, denumite deci neparametrice; chiar dacă aplicarea acestor teste e mai facilă decât folosirea testelor parametrice întrucât nu există restricții legate de distribuirea normală a rezultatelor, principalul dezavantaj al acestor metode constă în faptul că pot eșua mai ușor, comparativ cu testele parametrice, în a demonstra diferentele acolo unde acestea există în realitate. De aceea, recomandarea noastră este ca atunci când vă concepeți instrumentele de măsură pentru cercetările voastre să utilizați în special scalele de interval și de raport și nu pe cele nominale sau ordinale.
De exemplu, în loc să măsurați preferința unei persoane pentru un anume tip de muzică folosind o scală ordinală de tipul „deloc, puțin, mediu, mult, foarte mult", este mai indicat să măsurați preferința pe o scală de interval de tipul „deloc l-2-3-4-5foarte mult" solicitând subiecților să încercuiască un număr pe scală corespunzător preferinței. date fiind capetele intervalului, în acest fel, nu numai că măsurați mai precis, dar puteți detecta mai ușor diferențele, acolo unde ele există, folosind metodele parametrice.
În continuare, vom prezenta doar câteva din metodele neparametrice, foarte pe scurt, fără a intra foarte mult în detaliile teoretice privind aceste teste. Prezentarea va cuprinele trei părți: explicarea principiului de bază al testului, aplicarea sa folosind SPSS și interpretarea rezultatelor.
Pentru toate metodele neparametrice vom folosi baza de date intitulată voter.sav care se găsește în directorul unde este instalat programul SPSS, făcând parte din pachetul software care se livrează împreună cu acest program.
Această bază de date conține rezultate reale ale unui eșantion de 1847 de alegători americani. Sunt șase variabile măsurate:
1.PRES92 – cu cine a votat alegătorul la alegerile prezidențiale din 1992 (cu BUSH,
PEROT sau CLINTON) – variabilă nominală
2.AGE – vârsta respondentului – variabilă măsurată cantitativ
3.AGECAT – categoria de vârstă – variabilă ordinală
4.EDUC – anii de educație – variabilă cantitativă
5.DEGREE – tipul de educație – variabilă ordinală
6.SEX – sexul respondentului – variabilă nominală.
Întrucât în această cercetare predomină variabilele ordinale și nominale, testele cele mai potrivite pentru analiza acestor rezultate vor fi cele neparametrice.
'
Folosirea SPSS: Meniul ANALIZE – NONPARAMETRIC TESTS -BINOMIAL
Principiul de bază al testului
Orice am măsura, nu vom putea niciodată să luăm în calcul toți subiecții dintr-o populație. Eșantioanele pe care noi le obținem nu sunt nici pe departe cele mai reprezentative pentru populația din care ele provin, astfel că niciodată parametrii calculați pentru eșantion nu se vor regăsi identic în populație. Dacă extragem din populație un alt eșantion, probabil că vom obține parametri diferiți, chiar dacă cele două eșantioane provin din aceeași populație.
Pentru a decide dacă un eșantion este tipic sau reprezentativ pentru o populație avem nevoie să cunoaștem distribuția parametrilor măsurați în populație pentru a putea cunoaște care este probabilitatea de a obține o valoare identică cu cea a eșantionului extras.
Testul binomial se referă la compararea rezultatelor obținute de un grup la o variabilă care are doar două niveluri de măsurare (ex. sexul subiecților, admis/respins, vindecat/bolnav, etc.) cu o anumită proporție presupusă a exista în populație. Pentru aceasta, proporția celor două niveluri de măsurare este calculată pentru eșantion și apoi comparată cu distribuția binomială pentru o anume valoare a proporției, o distribuție teoretică care precizează care este probabilitatea de a obține un anumit rezultat în mod aleatoriu.
Aplicarea sa
În exemplul de față ne propunem să vedem dacă proporția de bărbați/femei din eșantionul nostru este apropiată sau diferă semnificativ de proporția 50/50 care ar trebui să există în populația ideală.
Vom folosi testul binomial activat din meniul ANALYZE NONPARAMETRIC TESTS – BINOMIAL, comandă ce deschide fereastra:
În fereastră vom selecta variabila de interes (sexul subiecților) si o vom trece în câmpul de analizat. Observați că putem folosi orice proporție dorim (în caz că nu dorim să utilizăm distribuția standard de 50/50) modificând numărul din câmpul TEST PROPORTION. Mai mult, programul ne permite să analizăm si o variabilă cantitativă definind o valoare limită față de care dorim să testăm distribuția proporțiilor.
De exemplu, poate că suntem interesați să vedem dacă alegătorii americani sub 40 de ani sunt semnificativ mai mulți sau mai puțini decât cei peste 40 de ani. Astfel, vom selecta varabila AGE (cantitativă), iar în câmpul DEFINE DICHOTOMY vom alege valoarea 40 si o vom trece în câmpul din dreptul opțiunii CUT POINT (după ce în prealabil o marcăm).
Dar în cazul de față ne limităm la a testa dacă în eșantionul nostru proporția de femei si bărbați este 50/50.
Interpretarea
Rezultatele obținute sunt prezentate în tabelul de mai jos:
Primele trei coloane ale tabelului sunt descriptive, în timp ce ultimele trei conțin elementele ce permit interpretarea testului. Vedem astfel că proporțiile observate pentru distribuția pe sexe sunt 0,44/0,56. Acestea, comparate cu distribuția 0,50/0,50 sunt diferite semnificativ, după cum testul de semnificație (prezentat în ultima coloană) ne arată. Notați că valoarea sa este mai mică de 0,05, deci proporțiile din eșantionul nostru diferă semnificativ de cele ideale, femeile predominând într-o proporție semnificativă.
Folosirea SPSS: Meniul ANALIZE – NONPARAMETRIC TESTS – CHI-SQUARE
1 Principiul de bază al testului
Alteori, în analiza datelor neparametrice, avem de-a face cu variabile nominale sau ordinale care au mai mult decât două valori posibile pe care le pot lua. Testul chi-pătrat este o metodă, similară testului binomial, dar care permite compararea distribuției frecvențelor unei variabile pe mai multe categorii, prin raportare la o distribuție teoretică stabilită de cercetător.
Testul compară abaterile de la această distribuție teoretică obținute în realitate si estimează care este probabilitatea ca ele să apară aleatoriu.
În exemplul nostru, dorim să vedem dacă alegătorii și-au format o părere despre cei trei candidați, dacă preferă vreunul comparativ cu ceilalți.
2 Aplicarea sa
Vom activa fereastra specifică testului din meniul ANALYZE – NON PARAMETRIC TESTS – CHI-SQUARE. Fereastra este prezentată în continuare:
Vom introduce variabila de interes (votul) în câmpul pentru analiză. Observați că în câmpul EXPECTED VALUES este bifată opțiunea ALL CATEGORIES EQUAL. Este cazul care ne interesează pe noi. Adică noi comparăm situația reală a votului cu situația în care cei trei candidați ar obține același număr de voturi.
Dacă însă doream să comparăm distribuția cu o alta, în care categoriile nu s-ar mai fi distribuit egal, atunci foloseam opțiunea VALUES si butonul ADD, acum inactive. Și aici putem compara variabile cantitative, dacă în prealabil specificăm intervalele la care raportăm categoriile noastre (folosind opțiunea EXPECTED RANGE).
3 Interpretarea
Rezultatul testului este prezentat sub forma a două tabele, precum cele de mai
În primul tabel sunt trecute elementele descriptive ale testului, categoriile sale, frecvența observată, cea teoretică la care se face raportarea și abaterile frecvenței observate de la frecvența teoretică (coloana RESIDUALS).
Observați aici că, în timp ce frecvența celor ce votează cu Bush nu diferă prea mult de la frecvența teoretică, cei care votează cu Perot sunt foarte puțini, iar cei care îl votează pe Clinton sunt foarte mulți.
Valoarea statistică a testului, prezentată în tabelul al doilea, este semnificativă (rândul ASYMP. SIG), ceea ce înseamnă că votanții au o preferință formată, iar din datele obținute în primul tabel știm că ei sunt orientați către Clinton (ceea ce s-a și confirmat la alegerile prezidențiale din SUA, în 1996).
Folosirea SPSS: Meniul ANALIZE – NONPARAMETRIC TESTS –
2 INDEPENDENT SAMPLES
1 Principiul de bază al testului
Aceste teste sunt echivalentul testului t pentru eșantioane independente, doar că în acest caz variabila dependentă măsurată nu este cantitativă, ci calitativă si ordinală.
Dintre testele neparametrice folosite în acest caz, vom alege testul Mann-Whitney.
Toate testele neparametrice ce compară două eșantioane independente au la bază comparații ale rangurilor diferitelor intervale observate.
Pentru a ilustra aplicarea testului vom încerca să vedem dacă femeile și bărbații diferă semnificativ între ei din punctul de vedere al nivelului educațional (DEGREE -variabilă ordinală).
2 Aplicarea sa
Testul se activează din meniul ANALYZE – NON-PARAMETRIC TESTS -TWO INDEPENDENT SAMPLES, comandă ce deschide fereastra:
Observați că fereastra seamănă foarte mult cu cea a testului t pentru eșantioane independente. Vom selecta variabila dependentă (DEGREE) în câmpul TEST VARIABLE LIST, iar variabila independentă (SEX) în câmpul GROUPING VARIABLE. Definiți grupurile variabilei independente folosind butonul DEFINE GROUPS, la fel ca si în cazul testului t.
Observați că sunt patru tipuri de teste posibile, toate arătând același lucru:
● MANN-WHYTNEY U: se bazează, pe ierarhia rangurilor observațiilor din cele două grupuri;
●MOSES EXTREME REACTIONS: verifică dacă intervalul variabilei ordinale (mai puțin cele 5% cele mai extrem de mici sau cele mai extrem de mari scoruri) este același pentru ambele grupuri
●KOLMOGOROV-SMIRNOV Z: se bazează pe diferențele maxime dintre distribuțiile cumulate observate la cele două grupuri.
●WALD-WOLFOWITZ RUNS: se bazează pe numărul de combinații necesar pentru a așeza cazurile dintr-un grup în ordine crescătoare sau descrescătoare.
3 Interpretarea
Să alegem pentru analiza noastră doar testul Mann-Whytney. Rezultatele sunt prezentate mai jos:
Observați că stilul de prezentare al rezultatelor este similar cu cel de la testul chi-pătrat. în primul tabel este prezentată situația „descriptivă" (media rangurilor), iar valoarea pragului de semnificație a testului este dată în tabelul al doilea (linia denumită ASYMP. SIG).
Observând că această valoare este nesemnificativă (p=0,351), deci putem trage concluzia că femeile si bărbații din studiul nostru nu diferă semnificativ în ceea ce privește nivelul studiilor. Dacă diferențele ar fi fost semnificative (p<0,05), sensul diferenței ar fi fost dat de semnul notei Z, cea scrisă imediat deasupra valorii pragului de semnificație.
Folosirea SPSS: Meniul ANALIZE – NONPARAMETRIC TESTS –
2 RELATED SAMPLES
1 Principiul de bază al testului
Metodele ce compară două eșantioane perechi sunt similare cu aplicarea testului t pentru eșantioane perechi, prezentat anterior. Pentru a ilustra aplicarea testului (care ca si principiu se bazează tot pe comparații de ranguri) vom folosi o bază de date nouă, pe care va trebui să o creăm.
Datele sunt prezentate în tabelul următor. Ele sunt imaginare si reprezintă următoarele:
• NRSUB: este o variabilă-cod ce arată numărul subiectului analizat
• VOT: este răspunsul subiecților la întrebarea „Dacă duminica viitoare ar fi alegeri, v-ați prezenta la vot?". Valoarea l arată răspunsurile DA, iar valoarea 0 corespunde valorilor NU.
• ILIESCU: este răspunsul subiecților la întrebarea „Dacă acest candidat câștigă, cum va fi situația României?", la care răspunsurile posibile sunt 1-mai rea, 2-la fel, 3-mai bună.
• CONSTANTINESCU: este o întrebare similară cu cea de mai sus, dar raportată la acest candidat.
Datele despre care vorbeam sunt prezentate mai jos:
3 Aplicarea sa
Dorim să vedem dacă subiecții au o părere mai bună despre vreunul din candidați, întrucât subiecții răspund la întrebări referitoare la ambii candidați (deci dau perechi de valori la fiecare măsurătoare), trebuie să aplicăm o metodă care folosește compararea de eșantioane perechi. Dat fiind că scala de măsură este ordinală, vom aplica o metodă neparametrică.
Vom activa fereastra corespunzătoare meniului ANALYZE – NON PARAMETRIC TESTS – TWO RELATED SAMPLES ca în fereastra prezentată în continuare:
Observați că fereastra de mai sus seamănă cu cea a testului t pentru eșantioane perechi. Ca si pentru testul t, trebuie selectată o pereche de variabile pentru analiză, altfel butoanele ferestrei nu se activează. Vom selecta si noi cele două variabile de interes: ILIESCU si CONSTANT, ca în imaginea de mai jos:
Observați că si aici putem aplica mai multe tipuri de teste. Să le analizăm pe scurt pe fiecare în parte:
• WILCOXON: se bazează pe rangul valorilor absolute al diferențelor dintre două variabile, comparând separat diferențele pozitive și negative
• SIGN: se bazează pe comparația diferențelor pozitive și negative dintre cele două variabile utilizând apoi testul binomial pentru a compara proporția de
diferențe negative cu cea a diferențelor pozitive.
• McNEMAR: testează dacă oricare două combinații posibile de valori extreme au o aceeași probabilitate de apariție. Aplicarea sa se face numai dacă variabilele testate sunt dihotomice.
În cazul nostru nu putem aplica testul McNemar, ci doar testul semnului sau Wilcoxon. Vom alege pe ultimul dintre acestea.
3 Interpretarea
Așa cum ne-am obișnuit, prezentarea rezultatelor testului se face în două tabele, unul pentru valorile descriptive și altul pentru semnificația testului, ca mai jos:
În primul tabel sunt prezentate media și suma rangurilor diferențelor pozitive și negative, precum și cazurile în care scorurile sunt la egalitate. Indicii de sub acest tabel arată sensul diferențelor.
Din al doilea tabel observăm că testul este semnificativ (p<0,05). După cum observați, în coloana a doua din acest ultim tabel apare notația CONSTANT-ILIESCU, ceea ce înseamnă că valorile absolute ale diferențelor (și pozitive și negative) sunt în defavoarea lui Constantinescu.
Concluzia este că acești subiecți consideră că situația României se va îmbunătăți mai mult dacă câștigă Iliescu decât dacă câștigă Constantinescu.
Volumul de față nu este o trecere în revistă, exhaustivă, nici a metodelor statistice, nici în ceea ce privește folosirea programului SPSS. Pentru un astfel de scop nobil ne-ar fi trebuit, fără exagerare, mii de pagini.
Aveți în mână un ghid practic, dar introductiv, pentru a folosi pachetul statistic SPSS (sau altele asemănătoare), ghid care explică noțiunile de bază din statistică și pune accent pe metodele folosite în special în științele sociale, cu precădere în psihologie.
Autorul
Copyright Notice
© Licențiada.org respectă drepturile de proprietate intelectuală și așteaptă ca toți utilizatorii să facă același lucru. Dacă consideri că un conținut de pe site încalcă drepturile tale de autor, te rugăm să trimiți o notificare DMCA.
Acest articol: SERIA PSIHOLOGIE EXPERIMENTALĂ ȘI APLICATĂ [311493] (ID: 311493)
Dacă considerați că acest conținut vă încalcă drepturile de autor, vă rugăm să depuneți o cerere pe pagina noastră Copyright Takedown.
