Modele de Raspuns la Item In Evaluarea Psihologica
Cuprins
Capitolul I. Aspecte generale referitoare la testarea psihologică. Abordare istorică
I.1 Abordare istorică a testării psihologice
I.2 Apariția și dezvoltarea teoriei clasice a testului
I.3 Apariția și dezvoltarea teoriei răspunsului la item
I.4 Diferențe între teoria clasică a testului și teoria răspunsului la item
I.4.1 Abordarea erorii standard de măsurare
I.4.2 Abordarea raportului dintre lungimea testului și fidelitatea acestuia
I.4.3 Abordarea problemei formelor paralele
I.4.4 Abordarea problemei evaluării caracteristicilor itemilor
I.4.5 Abordarea problemei semnificației scorurilor standard
I.4.6 Problema stabilirii proprietăților scalei de măsură
I.4.7 Problema itemilor micști
I.5 Test versus item
Capitolul II. Modele de răspuns la item
II.1 Asumpțiile modelelor de răspuns la item
II.1.1 Unidimensionalitatea
II.1.2 Independența locală
II.2 Modele unidimensionale de răspuns la item
II.2.1 Modelul logistic cu un parametru (1PL)
II.2.2 Modelul logistic cu doi parametri (2PL)
II.2.3 Modelul logistic cu trei parametri (3PL)
II.2.4 Alte modele unidimensionale de răspuns la itemi dihotomici
II.2.5 Modele unidimensionale de răspuns la itemi polihotomici
II.3 Modele multidimensionale de răspuns la item
II.3.1 Modele multidimensionale dihotomice
II.3.2 Modele multidimensionale polihotomice
II.4 Alte modele de răspuns la item
II.5 Criterii de selecție a modelelor de răspuns la item
II.5.1 Caracteristicile datelor colectate
II.5.2 Analiza statistico-matematică
Capitolul III. Construcția probelor IRM
III.1 Considerații generale privind construcția probelor psihologice
III.1.1 Definirea hărții constructelor
III.1.2 Designul itemilor
III.1.3 Spațiul de răspunsuri
III.1.4 Alegerea modelului de măsură
III.2 Semnificația și proprietățile scalelor de măsură în IRT
III.2.1 Sistemul de ancorare
III.2.2 Tipuri de scale
III.3 Estimarea parametrilor itemilor. Calibrarea itemilor
III.3.1 Metode euristice
III.3.2 Metode bazate pe probabilitatea maximală (maximum likelihood)
III.4 Estimarea nivelului factorului latent al persoanelor
III.4.1 Scorarea prin metoda probabilității maximale (maximum likelihood – ML)
III.4.2 Scorarea prin metoda maximum a posteriori (MAP)
III.4.3 Scorarea prin metoda probabilității așteptate a posteriori (expected a posteriori –EAP)
III.4.4 Scorarea prin metoda Owen
III.4.5 Funcția informațională a testului
Capitolul IV. Construcția probelor auto-adaptive
IV.1 Principii de construcție a instrumentelor computerizate de evaluare psihologică
IV.1.1 Cerințe impuse de interfața om-computer
IV.1.2 Cerințe impuse de sistemul de management a datelor
IV.2 Dezvoltarea bazelor (băncilor) de itemi
IV.2.1 Proiectul unei bănci de itemi
IV.3 Auto-adaptarea itemilor
IV.3.1 Calibrarea inițială
IV.3.2 Calibrarea online și deviația parametrilor
IV.4 Selecția automată a itemilor și construcția testelor
IV.4.1 Intrarea în probă. Selecția primului item
IV.4.2 Selecția următorilor itemi și estimările intermediare
IV.4.3 Finalizarea evaluării și estimarea nivelului factorului latent final
IV.4.4 Controlul expunerii și balansarea itemilor
IV.4.5 Detectarea paternurilor de răspuns aberant
Capitolul V. Influența modelului de evaluare psihologică asupra preciziei și fiabilității rezultatelor
V.1 Scopul și obiectivele cercetării
V.2 Designul de cercetare
V.2.1 Ipotezele cercetării
V.2.2 Planul cercetării
V.2.3 Lotul de cercetare. Caracteristici și selecție
V.2.4 Instrumentele cercetării
V.2.5 Metode de analiză a datelor
V.3 Primul studiu – Analiza inventarului de personalitate BigFive Plus, verificarea asumpțiilor, alegerea modelului de măsură și calibrarea itemilor
V.3.1 Lotul de cercetare
V.3.2 Analize univariate de normalitate a distribuției
V.3.3 Analiza consistenței scalare
V.3.4 Analiza factorială pe componente principale
V.3.5 Considerații asupra includerii itemilor în modele de răspuns la itemi
V.3.6 Studiul unidimensionalității inventarului de personalitate BigFive Plus și estimarea parametrilor itemilor.
V.3.7 Concluzii generale referitoare la calibrarea itemilor
V.4 Al doilea studiu – Comparații și relații între probele construite pe baza teoriei clasice a testului și cele construite pe baza modelelor de răspuns la item
V.4.1 Lotul de cercetare
V.4.2 Analiza ipotezelor de cercetare
V.4.3 Concluzii generale privind cel de-al doilea studiu
V.5 Limite ale cercetării, perspective, discuții
Capitolul VI. Concluzii și discuții
Index de figuri
Figura I-1 Regresia scorurilor standard la scorurile brute în cazul teoriei clasice 37
Figura I-2 Regresia scorurilor standard la scorurile brute în cazul IRT 38
Figura I-3 Evoluția fidelității la creșterea numărului de itemi 39
Figura I-4 Evoluția erorii standard pentru diferite modele bazate pe IRT 40
Figura I-5 Echivalarea prin regresie a scorurilor la două teste 41
Figura I-6 Regresia scorurilor observate la nivelul factorului latent în CTT 42
Figura I-7 Regresia scorurilor observate la nivelul factorului latent în IRT 42
Figura I-8 Dificultatea unui item în IRT 43
Figura I-9 Dificultatea unui item în CTT 43
Figura I-10 Semnificația scorurilor brute în CTT 44
Figura I-11 Semnificația scorurilor brute în IRT 45
Figura I-12 Distanța dintre scoruri în cazul CTT 46
Figura I-13 Distanța dintre scoruri în cazul IRT 47
Figura I-14 Analiza unui item cu patru variante de răspuns, conform IRT 49
Figura I-15 Analiza unui item cu opt variante de răspuns, conform IRT 50
Figura II-1 Analiza unidimensionalității unui set de itemi după Eigenvalues 56
Figura II-2 Curba caracteristică a itemului în cazul modelului logistic cu un parametru (1PL) – b=0,5 67
Figura II-3 Itemi cu diferite valori ale parametrului b (-1; 0,25; 1,75) 68
Figura II-4 Itemi cu diferite valori ale parametrului b (0,5; 0; -1,2) și diferite valori ale parametrului a (0,7; 1,4; 0,56) 70
Figura II-5 Curba caracteristică a itemului în cazul modelului logistic cu trei parametri (3PL) – a=1,8; b=1,5; c=0,16 71
Figura II-6 Relația dintre nivelul factorului latent (ϴ) și scorul observat 73
Figura II-7 Scală de răspuns de tip Likert abordată după teoria răspunsului la item 77
Figura II-8 Funcțiile de răspuns ale intervalelor categoriale pentru un item polihotomic cu cinci categorii 78
Figura II-9 Funcția de răspuns pentru un item polihotomic cu cinci categorii 78
Figura II-10 Dihotomizarea itemilor polihotomici în cadrul teoriei răspunsului la item 79
Figura II-11 Funcțiile de răspuns la categoriile itemului în cazul modelului NRM 81
Figura II-12 Funcțiile de răspuns la categoriile itemului în cazul modelului PCM 83
Figura II-13 Funcțiile de răspuns ale intervalelor categoriale în cazul modelului PCM 83
Figura II-14 Funcțiile de răspuns ale categoriilor itemilor cu factorii b neordonați 84
Figura II-15 Funcțiile de răspuns ale categoriilor itemilor pentru a = 0,68 85
Figura II-16 Funcțiile de răspuns ale categoriilor itemilor pentru a = 1,07 86
Figura II-17 Funcțiile de răspuns ale categoriilor itemilor pentru a = 1,49 86
Figura II-18 Funcțiile de răspuns ale categoriilor itemilor pentru b = -0,44 88
Figura II-19 Funcțiile de răspuns ale categoriilor itemilor pentru b = 0,30 88
Figura II-20 Funcțiile de răspuns ale intervalelor categoriale pentru un item (a=1; b1=-2, b2=-1, b3=0,7, b4=2) 90
Figura II-21 Funcțiile de răspuns ale categoriilor pentru un item (a=1; b1=-2, b2=-1, b3=0,7, b4=2) 90
Figura II-22 Funcțiile de răspuns ale categoriilor pentru doi itemi identici sub aspectul parametrului b și cu discriminări diferite (b1=-2, b2=-1, b3=0,7, b4=2) (a=1; a=1,5) 91
Figura II-23 Item bidimensional cu a1=0,5, a2=1,5 și d=-0,7 94
Figura II-24 Item bidimensional cu a1=1,3, a2=1,4, d=-1 și c=0,2 95
Figura II-25 Item bidimensional cu a1=0,7, a2=1,1, b1=-0,5, b2=0,5 și c=0,2 96
Figura II-26 Item bidimensional – model generalizat cu credit parțial βiu=0, -2,5, -1,5, 0,5; ai=[1,2; 0,7] 99
Figura II-27 Item bidimensional – model cu credit parțial b1=-1; b2=1 101
Figura II-28 Item bidimensional – model cu răspuns gradual a1=1,2; a2=0,7; d1=0,5; d2=-1,5; d1=-2,5 102
Figura II-29 Algoritmul de alegere a modelelor de răspuns în funcție de tipul datelor 104
Figura III-1 Reprezentarea hărții constructului 109
Figura III-2 Baza numerică de comparație în IRT 120
Figura III-3 Comparație între logit și probit 123
Figura III-4 Probabilitatea de răspuns activ la itemi pentru fiecare grup 126
Figura III-5 Raporturile logistice probabilistice pentru răspunsurile la item în cazul fiecărui grup 128
Figura III-6 Probabilitatea logistică generală pentru un item inclus într-un patern de răspuns 131
Figura III-7 Aproximarea funcției de densitate prin cvadratura Hermite-Gauss 146
Figura III-8 – Funcția informațională a unui item 162
Figura III-9 Funcția informațională a unui test 163
Figura IV-1 Funcția informațională a unui item Rasch 177
Figura IV-2 Număr de itemi necesari pentru diferite niveluri ale factorului latent la un θ=-1 178
Figura IV-3 Număr de itemi necesari pentru diferite niveluri ale factorului latent la un θ=-1 și θ=0,5 179
Figura IV-4 Număr de itemi necesari pentru o bancă de itemi 0,95 p-optimală, test fix cu 20 de itemi 179
Figura IV-5 Distribuția numărului de itemi pentru o bancă de itemi 0,95 p-optimală, test fix cu 20 de itemi 180
Figura IV-6 Paradoxul atenuării funcției informaționale 187
Figura V-1 Reprezentarea consistenței interne la nivel de factori (linia verde reprezintă pragul ideal de 0,70 iar linia portocalie pragul minimal de 0,60 255
Figura V-2 Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Afectivitate 324
Figura V-3 Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Sociabilitate 327
Figura V-4 Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Asertivitate 329
Figura V-5 Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Activitate 332
Figura V-6 Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Excitabilitate 335
Figura V-7 Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Veselie 337
Figura V-8 Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Încredere 340
Figura V-9 Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Moralitate 342
Figura V-10 Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Altruism 345
Figura V-11 Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Cooperare 348
Figura V-12 Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Modestie 350
Figura V-13 Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Compasiune 352
Figura V-14 Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Anxietate 355
Figura V-15 Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Furie 357
Figura V-16 Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Depresie 359
Figura V-17 Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Timiditate 362
Figura V-18 Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Vulnerabilitate 364
Figura V-19 Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Eficiență personală 367
Figura V-20 Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Ordine și planificare 369
Figura V-21 Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Perseverență 372
Figura V-22 Curbele caracteristice și funcțiile informațiocțiile de răspuns ale categoriilor pentru un item (a=1; b1=-2, b2=-1, b3=0,7, b4=2) 90
Figura II-22 Funcțiile de răspuns ale categoriilor pentru doi itemi identici sub aspectul parametrului b și cu discriminări diferite (b1=-2, b2=-1, b3=0,7, b4=2) (a=1; a=1,5) 91
Figura II-23 Item bidimensional cu a1=0,5, a2=1,5 și d=-0,7 94
Figura II-24 Item bidimensional cu a1=1,3, a2=1,4, d=-1 și c=0,2 95
Figura II-25 Item bidimensional cu a1=0,7, a2=1,1, b1=-0,5, b2=0,5 și c=0,2 96
Figura II-26 Item bidimensional – model generalizat cu credit parțial βiu=0, -2,5, -1,5, 0,5; ai=[1,2; 0,7] 99
Figura II-27 Item bidimensional – model cu credit parțial b1=-1; b2=1 101
Figura II-28 Item bidimensional – model cu răspuns gradual a1=1,2; a2=0,7; d1=0,5; d2=-1,5; d1=-2,5 102
Figura II-29 Algoritmul de alegere a modelelor de răspuns în funcție de tipul datelor 104
Figura III-1 Reprezentarea hărții constructului 109
Figura III-2 Baza numerică de comparație în IRT 120
Figura III-3 Comparație între logit și probit 123
Figura III-4 Probabilitatea de răspuns activ la itemi pentru fiecare grup 126
Figura III-5 Raporturile logistice probabilistice pentru răspunsurile la item în cazul fiecărui grup 128
Figura III-6 Probabilitatea logistică generală pentru un item inclus într-un patern de răspuns 131
Figura III-7 Aproximarea funcției de densitate prin cvadratura Hermite-Gauss 146
Figura III-8 – Funcția informațională a unui item 162
Figura III-9 Funcția informațională a unui test 163
Figura IV-1 Funcția informațională a unui item Rasch 177
Figura IV-2 Număr de itemi necesari pentru diferite niveluri ale factorului latent la un θ=-1 178
Figura IV-3 Număr de itemi necesari pentru diferite niveluri ale factorului latent la un θ=-1 și θ=0,5 179
Figura IV-4 Număr de itemi necesari pentru o bancă de itemi 0,95 p-optimală, test fix cu 20 de itemi 179
Figura IV-5 Distribuția numărului de itemi pentru o bancă de itemi 0,95 p-optimală, test fix cu 20 de itemi 180
Figura IV-6 Paradoxul atenuării funcției informaționale 187
Figura V-1 Reprezentarea consistenței interne la nivel de factori (linia verde reprezintă pragul ideal de 0,70 iar linia portocalie pragul minimal de 0,60 255
Figura V-2 Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Afectivitate 324
Figura V-3 Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Sociabilitate 327
Figura V-4 Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Asertivitate 329
Figura V-5 Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Activitate 332
Figura V-6 Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Excitabilitate 335
Figura V-7 Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Veselie 337
Figura V-8 Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Încredere 340
Figura V-9 Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Moralitate 342
Figura V-10 Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Altruism 345
Figura V-11 Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Cooperare 348
Figura V-12 Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Modestie 350
Figura V-13 Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Compasiune 352
Figura V-14 Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Anxietate 355
Figura V-15 Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Furie 357
Figura V-16 Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Depresie 359
Figura V-17 Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Timiditate 362
Figura V-18 Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Vulnerabilitate 364
Figura V-19 Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Eficiență personală 367
Figura V-20 Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Ordine și planificare 369
Figura V-21 Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Perseverență 372
Figura V-22 Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Prudență 374
Figura V-23 Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Imaginație 376
Figura V-24 – Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Interes artistic 379
Figura V-25 Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Emoționalitate 382
Figura V-26 Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Spirit de aventură 384
Figura V-27 Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Intelect 386
Figura V-28 Curbele caracteristice ale itemilor pentru factorul latent Liberalism 389
Figura V-29 Reprezentarea generică a modelului cubic 396
Figura V-30 Reprezentarea generică a modelului cvadratic 397
Figura V-31 Reprezentarea generică a modelului logistic 397
Figura V-32 Relația cvadratică dintre discriminarea itemilor clasici și cea a itemilor IRT în cazul dimensiunii Agreabilitate 401
Figura V-33 Relația cubică dintre discriminarea itemilor clasici și cea a itemilor IRT în cazul dimensiunii Agreabilitate 403
Figura V-34 Relația cubică dintre discriminarea itemilor clasici și cea a itemilor IRT în cazul dimensiunii Conștiinciozitate 405
Figura V-35 Relația cubică dintre discriminarea itemilor clasici și cea a itemilor IRT în cazul dimensiunii Deschidere 406
Figura V-36 Relația cubică dintre discriminarea itemilor clasici și cea a itemilor IRT în cazul întregului instrument 408
Figura V-37 Relația cubică dintre nivelul de acoperire în factor latent al itemilor clasici și cel al itemilor IRT în cazul dimensiunii Extraversiune 411
Figura V-38 Relația cubică dintre nivelul de acoperire în factor latent al itemilor clasici și cel al itemilor IRT în cazul dimensiunii Agreabilitate 412
Figura V-39 Relația cubică dintre nivelul de acoperire în factor latent al itemilor clasici și cel al itemilor IRT în cazul dimensiunii Nevrozism 413
Figura V-40 Relația cubică dintre nivelul de acoperire în factor latent al itemilor clasici și cel al itemilor IRT în cazul dimensiunii Conștiinciozitate 415
Figura V-41 Relația cubică dintre nivelul de acoperire în factor latent al itemilor clasici și cel al itemilor IRT în cazul dimensiunii Deschidere 416
Figura V-42 Relația cubică dintre nivelul de acoperire în factor latent al itemilor clasici și cel al itemilor IRT în cazul întregului set de itemi 418
Index de tabele
Tabel I-1 Principalele diferențe între teoria clasică a testului și teoria răspunsului la item . (Hambleton & Jones, 1993) 52
Tabel III-1 Matricea de bază 126
Tabel III-2 Matricea de date a rapoartelor logistice probabilistice, mediile marginale și estimarea parametrilor 127
Tabel III-3 – Stabilirea grupurilor factorului latent. 140
Tabel III-4 – Derivatele parțiale pentru cele trei modele dihotomice principale de răspuns la item 143
Tabel III-5 – Coordonatele cvadraturilor gaussiene (Stroud & Secrest, 1966) 147
Tabel III-6 – Construcția cvadraturii gaussiene pentru un număr de 10 noduri (Baker, Item response theory: Parameter estimation techniques., 1992) 148
Tabel IV-1 Exemplu de tabel de clasificare pentru proiectarea băncii de itemi 174
Tabel V-1 Structura lotului de cercetare sub aspectul vârstei 208
Tabel V-2 Distribuția subiecților după variabila „Gen biologic” 208
Tabel V-3 Distribuția subiecților după variabila „Studii” 209
Tabel V-4 Distribuția scorurilor pentru factorii dimensiunii „Extraversiune” 210
Tabel V-5 Distribuția scorurilor pentru factorii dimensiunii „Agreabilitate” 213
Tabel V-6 Distribuția scorurilor pentru factorii dimensiunii „Nevrozism” 216
Tabel V-7 Distribuția scorurilor pentru factorii dimensiunii „Conștiinciozitate” 219
Tabel V-8 Distribuția scorurilor pentru factorii dimensiunii „Deschidere” 222
Tabel V-9 Centralizarea distribuției scorurilor pentru factorii și dimensiunile inventarului de personalitate BigFive Plus 225
Tabel V-10 Corelația item-scală pentru factorul Afectivitate 230
Tabel V-11 Corelația item-scală pentru factorul Sociabilitate 231
Tabel V-12 Corelația item-scală pentru factorul Asertivitate 231
Tabel V-13 Corelația item-scală pentru factorul Activitate 232
Tabel V-14 Corelația item-scală pentru factorul Excitabilitate 233
Tabel V-15 Corelația item-scală pentru factorul Veselie 234
Tabel V-16 Corelația item-scală pentru dimensiunea Extraversiune 235
Tabel V-17 Corelația item-scală pentru factorul Încredere 236
Tabel V-18 Corelația item-scală pentru factorul Moralitate 236
Tabel V-19 Corelația item-scală pentru factorul Altruism 237
Tabel V-20 Corelația item-scală pentru factorul Cooperare 238
Tabel V-21 Corelația item-scală pentru factorul Modestie 238
Tabel V-22 Corelația item-scală pentru factorul Compasiune 239
Tabel V-23 Corelația item-scală pentru dimensiunea Agreabilitate 240
Tabel V-24 Corelația item-scală pentru factorul Anxietate 241
Tabel V-25 Corelația item-scală pentru factorul Furie 242
Tabel V-26 Corelația item-scală pentru factorul Depresie 243
Tabel V-27 Corelația item-scală pentru factorul Timiditate 243
Tabel V-28 Corelația item-scală pentru factorul Exagerare 244
Tabel V-29 Corelația item-scală pentru factorul Vulnerabilitate 244
Tabel V-30 Corelația item-scală pentru dimensiunea Nevrozism 245
Tabel V-31 Corelația item-scală pentru factorul Eficiență personală 246
Tabel V-32 Corelația item-scală pentru factorul Eficiență personală 247
Tabel V-33 Corelația item-scală pentru factorul Rigiditate morală 247
Tabel V-34 Corelația item-scală pentru factorul Ambiție 248
Tabel V-35 Corelația item-scală pentru factorul Perseverență 249
Tabel V-36 Corelația item-scală pentru factorul Prudență 249
Tabel V-37 Corelația item-scală pentru dimensiunea Conștiinciozitate 250
Tabel V-38 Corelația item-scală pentru factorul Imaginație 251
Tabel V-39 Corelația item-scală pentru factorul Interes artistic 251
Tabel V-40 Corelația item-scală pentru factorul Emoționalitate 252
Tabel V-41 Corelația item-scală pentru factorul Spirit aventurier 252
Tabel V-42 Corelația item-scală pentru factorul Intelect 253
Tabel V-43 Corelația item-scală pentru factorul Liberalism 253
Tabel V-44 Corelația item-scală pentru dimensiunea Deschidere 254
Tabel V-45 Centralizarea consistenței interne pe factori 255
Tabel V-46 Istoricul iterațiilor pentru factorul „Afectivitate” 258
Tabel V-47 Coordonatele variabilelor în raport cu dimensiunile 259
Tabel V-48 Saturația în factori pentru scala „Afectivitate” 259
Tabel V-49 Istoricul iterațiilor pentru factorul „Sociabilitate” 261
Tabel V-50 Coordonatele variabilelor în raport cu dimensiunile 262
Tabel V-51 Saturația în factori pentru scala „Sociabilitate” 263
Tabel V-52 Istoricul iterațiilor pentru factorul „Asertivitate” 264
Tabel V-53 Coordonatele variabilelor în raport cu dimensiunile 265
Tabel V-54 Saturația în factori pentru scala „Asertivitate” 265
Tabel V-55 Istoricul iterațiilor pentru factorul „Activitate” 267
Tabel V-56 Coordonatele variabilelor în raport cu dimensiunile 268
Tabel V-57 Saturația în factori pentru scala „Activitate” 269
Tabel V-58 Istoricul iterațiilor pentru factorul „Excitabilitate” 270
Tabel V-59 Coordonatele variabilelor în raport cu dimensiunile 270
Tabel V-60 Saturația în factori pentru scala „Excitabilitate” 271
Tabel V-61 Istoricul iterațiilor pentru factorul „Veselie” 272
Tabel V-62 Coordonatele variabilelor în raport cu dimensiunile 272
Tabel V-63 Saturația în factori pentru scala „Veselie” 273
Tabel V-64 Istoricul iterațiilor pentru factorul „Încredere” 273
Tabel V-65 Coordonatele variabilelor în raport cu dimensiunile 274
Tabel V-66 Saturația în factori pentru scala „Încredere” 275
Tabel V-67 Istoricul iterațiilor pentru factorul „Moralitate” 276
Tabel V-68 Coordonatele variabilelor în raport cu dimensiunile 276
Tabel V-69 Saturația în factori pentru scala „Moralitate” 277
Tabel V-70 Istoricul iterațiilor pentru factorul „Altruism” 278
Tabel V-71 Coordonatele variabilelor în raport cu dimensiunile 278
Tabel V-72 Saturația în factori pentru scala „Altruism” 279
Tabel V-73 Istoricul iterațiilor pentru factorul „Cooperare” 280
Tabel V-74 Coordonatele variabilelor în raport cu dimensiunile 280
Tabel V-75 Saturația în factori pentru scala „Cooperare” 281
Tabel V-76 Istoricul iterațiilor pentru factorul „Modestie” 282
Tabel V-77 Coordonatele variabilelor în raport cu dimensiunile 283
Tabel V-78 Saturația în factori pentru scala „Modestie” 283
Tabel V-79 Istoricul iterațiilor pentru factorul „Compasiune” 284
Tabel V-80 Coordonatele variabilelor în raport cu dimensiunile 284
Tabel V-81 Saturația în factori pentru scala „Compasiune” 285
Tabel V-82 Istoricul iterațiilor pentru factorul „Anxietate” 286
Tabel V-83 Coordonatele variabilelor în raport cu dimensiunile 286
Tabel V-84 Saturația în factori pentru scala „Anxietate” 287
Tabel V-85 Istoricul iterațiilor pentru factorul „Furie” 287
Tabel V-86 Coordonatele variabilelor în raport cu dimensiunile 288
Tabel V-87 Saturația în factori pentru scala „Furie” 288
Tabel V-88 Istoricul iterațiilor pentru factorul „Depresie” 289
Tabel V-89 Coordonatele variabilelor în raport cu dimensiunile 289
Tabel V-90 Saturația în factori pentru scala „Depresie” 290
Tabel V-91 Istoricul iterațiilor pentru factorul „Timiditate” 291
Tabel V-92 Coordonatele variabilelor în raport cu dimensiunile 291
Tabel V-93 Saturația în factori pentru scala „Timiditate” 292
Tabel V-94 Istoricul iterațiilor pentru factorul „Exagerare” 292
Tabel V-95 Coordonatele variabilelor în raport cu dimensiunile 293
Tabel V-96 Saturația în factori pentru scala „Exagerare” 294
Tabel V-97 Istoricul iterațiilor pentru factorul „Vulnerabilitate” 294
Tabel V-98 Coordonatele variabilelor în raport cu dimensiunile 295
Tabel V-99 Saturația în factori pentru scala „Vulnerabilitate” 295
Tabel V-100 Istoricul iterațiilor pentru factorul „Eficiență personală” 296
Tabel V-101 Coordonatele variabilelor în raport cu dimensiunile 297
Tabel V-102 Saturația în factori pentru scala „Eficiență personală” 297
Tabel V-103 Istoricul iterațiilor pentru factorul „Ordine și planificare” 298
Tabel V-104 Coordonatele variabilelor în raport cu dimensiunile 298
Tabel V-105 Saturația în factori pentru scala „Ordine și planificare” 299
Tabel V-106 Istoricul iterațiilor pentru factorul „Rigiditate morală” 300
Tabel V-107 Coordonatele variabilelor în raport cu dimensiunile 300
Tabel V-108 Saturația în factori pentru scala „Rigiditate morală” 301
Tabel V-109 Istoricul iterațiilor pentru factorul „Ambiție” 302
Tabel V-110 Coordonatele variabilelor în raport cu dimensiunile 302
Tabel V-111 Saturația în factori pentru scala „Ambiție” 303
Tabel V-112 Istoricul iterațiilor pentru factorul „Perseverență” 304
Tabel V-113 Coordonatele variabilelor în raport cu dimensiunile 304
Tabel V-114 Saturația în factori pentru scala „Perseverență” 305
Tabel V-115 Istoricul iterațiilor pentru factorul „Prudență” 306
Tabel V-116 Coordonatele variabilelor în raport cu dimensiunile 306
Tabel V-117 Saturația în factori pentru scala „Prudență” 307
Tabel V-118 Istoricul iterațiilor pentru factorul „Imaginație” 308
Tabel V-119 Coordonatele variabilelor în raport cu dimensiunile 308
Tabel V-120 Saturația în factori pentru scala „Imaginație” 309
Tabel V-121 Istoricul iterațiilor pentru factorul „Interes artistic” 309
Tabel V-122 Coordonatele variabilelor în raport cu dimensiunile 310
Tabel V-123 Saturația în factori pentru scala „Interes artistic” 310
Tabel V-124 Istoricul iterațiilor pentru factorul „Emoționalitate” 311
Tabel V-125 Coordonatele variabilelor în raport cu dimensiunile 312
Tabel V-126 Saturația în factori pentru scala „Emoționalitate” 312
Tabel V-127 Istoricul iterațiilor pentru factorul „Spirit aventurier” 313
Tabel V-128 Coordonatele variabilelor în raport cu dimensiunile 314
Tabel V-129 Saturația în factori pentru scala „Spirit aventurier” 314
Tabel V-130 Istoricul iterațiilor pentru factorul „Intelect” 315
Tabel V-131 Coordonatele variabilelor în raport cu dimensiunile 316
Tabel V-132 Saturația în factori pentru scala „Intelect” 317
Tabel V-133 Istoricul iterațiilor pentru factorul „Liberalism” 317
Tabel V-134 Coordonatele variabilelor în raport cu dimensiunile 318
Tabel V-135 Saturația în factori pentru scala „Liberalism” 318
Tabel V-136 Structura dimensională a inventarului de personalitate BigFive Plus 319
Tabel V-137 – Configurarea seturilor AT și PT pentru testul T Stout 321
Tabel V-138 – Rezultatele analizei unidimensionalității pentru factorul latent Afectivitate 322
Tabel V-139 – Parametrii itemilor pentru factorul latent Afectivitate 323
Tabel V-140 – Rezultatele analizei unidimensionalității pentru factorul latent Sociabilitate 325
Tabel V-141 – Parametrii itemilor pentru factorul latent Sociabilitate 325
Tabel V-142 Rezultatele analizei unidimensionalității pentru factorul latent Asertivitate 328
Tabel V-143 – Parametrii itemilor pentru factorul latent Asertivitate 328
Tabel V-144 Rezultatele analizei unidimensionalității pentru factorul latent Activitate 330
Tabel V-145 – Parametrii itemilor pentru factorul latent Activitate 331
Tabel V-146 Rezultatele analizei unidimensionalității pentru factorul latent Excitabilitate 333
Tabel V-147 – Parametrii itemilor pentru factorul latent Excitabilitate 333
Tabel V-148 Rezultatele analizei unidimensionalității pentru factorul latent Veselie 335
Tabel V-149 – Parametrii itemilor pentru factorul latent Veselie 336
Tabel V-150 Rezultatele analizei unidimensionalității pentru factorul latent Încredere 338
Tabel V-151 – Parametrii itemilor pentru factorul latent Încredere 338
Tabel V-152 Rezultatele analizei unidimensionalității pentru factorul latent Moralitate 341
Tabel V-153 – Parametrii itemilor pentru factorul latent Moralitate 341
Tabel V-154 Rezultatele analizei unidimensionalității pentru factorul latent Altruism 343
Tabel V-155 – Parametrii itemilor pentru factorul latent Altruism 344
Tabel V-156 Rezultatele analizei unidimensionalității pentru factorul latent Cooperare 346
Tabel V-157 – Parametrii itemilor pentru factorul latent Cooperare 346
Tabel V-158 Rezultatele analizei unidimensionalității pentru factorul latent Modestie 348
Tabel V-159 – Parametrii itemilor pentru factorul latent Modestie 349
Tabel V-160 Rezultatele analizei unidimensionalității pentru factorul latent Compasiune 350
Tabel V-161 – Parametrii itemilor pentru factorul latent Compasiune 351
Tabel V-162 Rezultatele analizei unidimensionalității pentru factorul latent Anxietate 353
Tabel V-163 – Parametrii itemilor pentru factorul latent Anxietate 353
Tabel V-164 Rezultatele analizei unidimensionalității pentru factorul latent Furie 355
Tabel V-165 – Parametrii itemilor pentru factorul latent Furie 356
Tabel V-166 Rezultatele analizei unidimensionalității pentru factorul latent Depresie 358
Tabel V-167 – Parametrii itemilor pentru factorul latent Depresie 358
Tabel V-168 Rezultatele analizei unidimensionalității pentru factorul latent Timiditate 360
Tabel V-169 – Parametrii itemilor pentru factorul latent Timiditate 360
Tabel V-170 Rezultatele analizei unidimensionalității pentru factorul latent Vulnerabilitate 362
Tabel V-171 – Parametrii itemilor pentru factorul latent Vulnerabilitate 363
Tabel V-172 Rezultatele analizei unidimensionalității pentru factorul latent Eficiență personală 365
Tabel V-173 – Parametrii itemilor pentru factorul latent Eficiență personală 366
Tabel V-174 Rezultatele analizei unidimensionalității pentru factorul latent Ordine și planificare 368
Tabel V-175 – Parametrii itemilor pentru factorul latent Ordine și planificare 368
Tabel V-176 Rezultatele analizei unidimensionalității pentru factorul latent Perseverență 370
Tabel V-177 – Parametrii itemilor pentru factorul latent Perseverență 370
Tabel V-178 Rezultatele analizei unidimensionalității pentru factorul latent Prudență 372
Tabel V-179 Parametrii itemilor pentru factorul latent Prudență 372
Tabel V-180 Rezultatele analizei unidimensionalității pentru factorul latent Imaginație 375
Tabel V-181 – Parametrii itemilor pentru factorul latent Imaginație 375
Tabel V-182 Rezultatele analizei unidimensionalității pentru factorul latent Interes artistic 377
Tabel V-183 – Parametrii itemilor pentru factorul latent Interes artistic 377
Tabel V-184 Parametrii itemilor pentru factorul latent Emoționalitate 379
Tabel V-185 – Parametrii itemilor pentru factorul latent Emoționalitate 380
Tabel V-186 Parametrii itemilor pentru factorul latent Spirit de aventură 382
Tabel V-187 – Parametrii itemilor pentru factorul latent Spirit aventurier 383
Tabel V-188 Parametrii itemilor pentru factorul latent Intelect 385
Tabel V-189 – Parametrii itemilor pentru factorul latent Intelect 385
Tabel V-190 Parametrii itemilor pentru factorul latent Liberalism 387
Tabel V-191 – Parametrii itemilor pentru factorul latent Liberalism 387
Tabel V-192 Structura lotului de cercetare sub aspectul vârstei 392
Tabel V-193 Distribuția subiecților după variabila „Gen biologic” 392
Tabel V-194 Medii și abateri standard pentru niveluri ale factorului latent – itemi IRT 393
Tabel V-195 Amplitudini ale distribuției pentru scorurile z – itemi clasici 394
Tabel V-196 Diferențe între nivelurile factorului latent pentru probe IRT și cotele z ale scorurilor brute pentru probele clasice 395
Tabel V-197 Corelații liniare între nivelurile factorului latent pentru probe IRT și cotele z ale scorurilor brute pentru probele clasice 395
Tabel V-198 Relații între nivelurile factorului latent pentru probe IRT și cotele z ale scorurilor brute pentru probele clasice 396
Tabel V-199 Medii și abateri standard în cazul dimensiunii Extraversiune 399
Tabel V-200 Estimarea relațiilor dintre cele două modele de discriminare în cazul dimensiunii Extraversiune 399
Tabel V-201 Medii și abateri standard în cazul dimensiunii Agreabilitate 400
Tabel V-202 Medii și abateri standard în cazul dimensiunii Agreabilitate 400
Tabel V-203 Estimarea relațiilor dintre cele două modele de discriminare în cazul dimensiunii Agreabilitate 401
Tabel V-204 Medii și abateri standard în cazul dimensiunii Nevrozism 402
Tabel V-205 Estimarea relațiilor dintre cele două modele de discriminare în cazul dimensiunii Nevrozism 403
Tabel V-206 Medii și abateri standard în cazul dimensiunii Conștiinciozitate 404
Tabel V-207 Estimarea relațiilor dintre cele două modele de discriminare în cazul dimensiunii Conștiinciozitate 404
Tabel V-208 Medii și abateri standard în cazul dimensiunii Deschidere 405
Tabel V-209 Estimarea relațiilor dintre cele două modele de discriminare în cazul dimensiunii Deschidere 406
Tabel V-210 Medii și abateri standard în cazul întregului instrument 407
Tabel V-211 Estimarea relațiilor dintre cele două modele de discriminare în cazul întregului instrument 407
Tabel V-212 Medii și abateri standard în cazul dimensiunii Extraversiune 409
Tabel V-213 Estimarea relațiilor dintre cele două modele ale nivelului factorului latent în cazul dimensiunii Extraversiune 410
Tabel V-214 Medii și abateri standard în cazul dimensiunii Agreabilitate 411
Tabel V-215 Estimarea relațiilor dintre cele două modele ale nivelului factorului latent în cazul dimensiunii Agreabilitate 412
Tabel V-216 Medii și abateri standard în cazul dimensiunii Nevrozism 413
Tabel V-217 Estimarea relațiilor dintre cele două modele ale nivelului factorului latent în cazul Nevrozism 414
Tabel V-218 Medii și abateri standard în cazul dimensiunii Conștiinciozitate 414
Tabel V-219 Estimarea relațiilor dintre cele două modele ale nivelului factorului latent în cazul dimensiunii Conștiinciozitate 415
Tabel V-220 Medii și abateri standard în cazul dimensiunii Deschidere 416
Tabel V-221 Estimarea relațiilor dintre cele două modele ale nivelului factorului latent în cazul dimensiunii Deschidere 416
Tabel V-222 Medii și abateri standard în cazul întregului set de itemi 417
Tabel V-223 Estimarea relațiilor dintre cele două modele ale nivelului factorului latent în cazul întregului set de itemi 417
Argument
Pot fi măsurate caracteristicile psihice precum mărimile fizice? Iată o întrebare care a preocupat gândirea psihologică mai bine de un secol și care nu are, deocamdată, un răspuns ferm. Au existat numeroase încercări, au fost propuse mii de cercetări, au rezultat teorii, paradigme explicative și modele matematice, totuși concluzia este departe de a fi trasată în mod cert. Punctul de vedere cvasi-unanim este acela al unei limite în măsurare, limită introdusă de imposibilitatea depășirii nivelului de măsură ordinal în cuantificarea psihologică. Putem doar compara performanțele ființei umane, sub diferite aspecte, însă mai departe nu putem merge, deoarece nu avem la dispoziție un zero absolut, un punct de referință. Măsurarea în psihologie este departe de măsurarea practicată în științele naturii.
La o analiză mai atentă, chiar măsurarea fizică îndeplinește cu greu cerințele acelui zero absolut. În definitiv, ce înseamnă lungime sau greutate zero? Ne aflăm în fața unei abstracțiuni care ne conduce în domeniul calculului infinitezimal. Vom putea constata o limită infinită către zero, chiar și atunci când vorbim despre lungime sau greutate. Însuși conceptul de lungime conduce la ideea existenței unei valori diferite de zero, punctul de referință astfel ales reprezentând un concept teoretic și nu o valoare concretă. Pentru a exista lungimea, aceasta trebuie să fie mai mare de zero, chiar dacă „mai mare” poate însemna un sfert din diametrul nucleului unui atom.
Dacă în sfera fizicului referința este o abstracțiune, în mod cert și în domeniul psihic lucrurile stau la fel. Nu poate exista inteligență zero, altminteri conceptul nu ar avea sens. Până și piatra are o inteligență diferită de zero, prin simplul fapt că există, prin ceea ce face ca atomii componenți să formeze structura acesteia. Ceea ce diferențiază însă lumea fizică de cea psihică sunt tocmai extraordinara complexitate și caracterul dinamic al celei din urmă. Dacă lungimea are un caracter relativ fix, acesta conservându-se între două măsurători consecutive, nu putem spune la fel și despre inteligență, anxietate, emotivitate etc., caracteristici aparținând ființei umane. În științele naturii putem folosi metrul și astfel am definit o convenție relativ stabilă și universal aplicabilă cu ajutorul căreia vom măsura lungimile. Un metru va genera aceeași reprezentare indiferent de ce măsurăm și va conduce la ideea parametrului lungime. Astfel, transformăm reperul abstract într-un element concret, direct utilizabil, chiar dacă plătim acest lucru cu diminuarea preciziei.
În psihologie nu avem la dispoziție „metrul” inteligenței. Acest lucru se întâmplă din două motive. În primul rând nu avem de a face cu unități egale. Centimetrul lungimii nu este același lucru cu „centimetrul” inteligenței. Unitățile de bază nu sunt egale. Dacă în cazul lungimii, un centimetru înseamnă un centimetru, indiferent dacă ne referim la centimetrul 20 sau la centimetrul 145 din lungimea unei bare de metal, la inteligență, diferența dintre un IQ de 75 și un IQ de 76 nu înseamnă același lucru ca diferența dintre un IQ de 120 și un IQ de 121. Aceste intervale nu mai sunt egale. În alți termeni, chiar dacă inteligența este o funcție crescătoare, nu este o funcție monotonă. În al doilea rând, este foarte greu să izolăm inteligența atunci când o măsurăm. Lungimea unei bare de metal este ușor de izolat. O măsurăm pur și simplu. Inteligența unei persoane, deși latent există, este mai dificil de izolat, pentru că depinde de foarte mulți factori. Motivația, memoria, experiența personală, dispoziția de moment, chiar și locul sau condițiile meteo pot exercita influențe care să conducă la variații importante ale acestei caracteristici psihice. Așadar, inteligența are un caracter dinamic, în interdependență cu alte dimensiuni psihice, fiind dificil de izolat.
Dacă vom adăuga la toate acestea și imperfecțiunile instrumentelor de măsură, marjele de eroare relativ ridicate ale acestora, vom avea imaginea unei măsurări psihologice imprecise, imperfecte, marcată de subiectivism și fără repere bine definite. Iată de ce foarte multă vreme s-a considerat că în psihologie singura metodă de măsurare este comparația, renunțându-se la ideea aflării cantității de factor latent. Putem spune doar că o persoană este mai inteligentă decât alta, mai anxioasă sau mai puțin anxioasă, fără a putea afla cât de inteligentă este. În mod curent, raportarea nu se face între persoane, ci între o persoană și un grup de referință, aspect cunoscut sub numele de etalon sau normă.
Întrebarea inițială rămâne totuși. Putem afla cantitatea de construct psihologic? Din punctul nostru de vedere, răspunsul este pozitiv în condițiile în care renunțăm la paradigma clasică și avem în vedere un nou model de măsurare în psihologie, model cunoscut sub numele de teoria răspunsului la item. Vom încerca să demonstrăm acest lucru în următoarele secțiuni și să creăm premisele apariției unor instrumente de măsură în psihologie mai precise, mai scurte, și care se apropie de dezideratul oricărei măsurători – scala de interval.
Aspecte generale referitoare la testarea psihologică. Abordare istorică
Evaluarea psihologică reprezintă „vârful de lance” al psihologiei aplicate. Nu este doar o caracteristică a epocii moderne dorința de a cunoaște ființa umană în vederea obținerii de la aceasta a optimului de performanță într-o activitate socială. Originile „evaluării” abilităților se pierd în zorii civilizației umane. Probabil că și omul cavernelor utiliza o serie de criterii pentru a decide care dintre semenii săi sunt apți de vânătoare și pot fi implicați în această activitate, fără riscul de a eșua. Cele mai vechi mențiuni referitoare la testarea ființei umane datează din mileniul III înainte de Hristos, aproximativ din anii 2200, în China antică. Încă de atunci, guvernanții instituiau evaluarea funcționarilor din trei în trei ani pentru a detecta compatibilitatea lor cu posturile pe care le ocupau .
Forme ale testelor întâlnim în toate culturile lumii. De la triburile amazoniene, unde statutul de adult, membru cu drepturi depline, se dobândește în urma unui ritual de inițiere, dureros și riscant pentru participant , până la civilizațiile avansate, care folosesc probe computerizate, scopul central al acestor demersuri rămâne neschimbat – cunoașterea persoanei.
Nu vom încerca să construim o istorie a testului psihologic. Există nenumărate lucrări care tratează acest subiect. Vom menționa, totuși, principalele repere în evoluția evaluării psihologice, pentru a putea identifica traseul parcurs de la cunoașterea empirică la evaluarea computerizată.
Abordare istorică a testării psihologice
Începuturile testării moderne sunt legate de preocupările psihiatrilor germani și englezi din secolul XIX de a investiga diferențele interumane, testarea psihologică, în sensul științific al termenului, fiind, astfel, rezultatul laboratoarelor de psihologie experimentală și de psihiatrie.
În anul 1885, medicul german Hubert von Grashey a dezvoltat un „cilindru al memoriei”, un fel de test de memorie folosit în cazul pacienților cu traumatisme craniene. Subiecților li se prezentau cuvinte, imagini sau simboluri derulate lent printr-o fantă îngustă. S-a constatat că aceștia puteau recunoaște stimulii în cazul în care erau prezentați în totalitate, însă aveau dificultăți în recunoaștere la prezentarea stimulilor prin fantă.
Imediat după acest experiment, un alt psihiatru german, Conrad Rieger, a dezvoltat o baterie de teste folosite în evaluarea deteriorării mintale, a cărei administrare dura nu mai puțin de 100 de ore.
Spre sfârșitul secolului XIX, cu mult înainte de apariția conceptului modern de test psihologic, psihiatrii au facilitat obținerea unor rezultate obiective, standardizate, separându-se de metodele introspective, subiective, caracteristice cercetării din acea perioadă. A fost epoca celor mai mari controverse în privința posibilității existenței testului psihologic, în accepțiunea de atunci, și, de asemenea, perioada în care psihologia se contura ca știință.
De altfel, cu doar șase ani înainte de experimentul doctorului Hubert von Grashey, în Leipzig, în 1879, Wilhelm Wundt fondează primul laborator psihologic din lume, moment considerat debutul psihologiei ca știință. Puțini cunosc că încă din 1862 Wilhelm Wundt a construit un prim instrument de măsură a proceselor mentale. Acesta se prezenta ca un pendul având o serie de știfturi care, calibrate într-un anumit mod, făceau să sune un clopoțel. Sarcina subiectului era să noteze poziția pendulului atunci când sună clopoțelul. S-a constatat existența unor diferențe între poziția reală a pendulului și poziția apreciată de către subiect, acesta fiind considerat primul experiment în psihologie, creându-se premisele măsurătorilor parametrice.
În laboratorul de la Leipzig au fost efectuate experimente legate de percepție, timpi de reacție etc., fiind cunoscute cercetările referitoare la subiectivitatea percepției observatorului în astronomie.
Dacă în Germania inițiatorul psihologiei experimentale a fost Wundt, în Anglia Sir Francis Galton abordează problematica măsurătorilor psihologice, acesta fiind de părere că, cel puțin ipotetic, se poate măsura orice, răspunzând, astfel, opiniei unora conform căreia trăsăturile psihice nu pot fi cunoscute prin măsurare.
Sunt foarte bine știute cercetările lui Galton în domeniul timpilor de reacție și al discriminării senzoriale, care, mai mult decât atât, a încercat să măsoare și aspecte subtile precum frumusețea, personalitatea, ba chiar și eficiența rugăciunilor sau plictiseala lecturilor.
În realitate, Galton a fost interesat mai degrabă de evoluția umană și de studiul factorilor genetici implicați în performanțele deosebite și genialitate. Plecând de aici, savantul englez a demonstrat că diferențele dintre indivizi nu numai că există, dar pot fi și măsurate.
Termenul de „test mintal”, așa cum îl cunoaștem astăzi, apare în anul 1890, fiind creația profesorului american James McKeen Cattell. Acesta s-a orientat către noua direcție a psihologiei experimentale, studiind atât cu Wundt cât și cu Galton, profesorul universității Columbia New York impunându-se timp de 26 de ani ca lider de necontestat al psihologiei americane.
În faimoasa sa lucrare, „Mental Tests and Measurements”, apărută în anul 1890, descrie zece teste mentale care pot fi folosite de publicul larg, consfințind, astfel, apariția testelor psihologice.
În perioada imediat următoare, conceptul va fi preluat și dezvoltat de către numeroși adepți ai punctului de vedere expus de Cattell, dintre care mulți doctoranzi sau studenți ai acestuia. Astfel, remarcăm contribuțiile unor savanți precum E. L. Thorndike (1898) în domeniul teoriilor învățării, ale lui R.S. Woodworth (1899) în psihologia experimentală, E.K. Strong (1911) în evaluarea vocațională, C. Wissel (1901) în prezicerea performanței academice, asta ca să-i menționăm doar pe cei mai cunoscuți.
Începutul secolului XX marchează depășirea unui prag evolutiv în domeniul testelor psihologice, prin contribuția de excepție adusă de psihologul francez Alfred Binet. De formație medic, Binet renunță la medicină și se orientează către psihologie, colaborând cu John Stuart Mill și, mai apoi, cu J. M. Charcot, redutabilul savant din cadrul spitalului Salpetrière. Începând cu anul 1891, Binet lucrează voluntar la Sorbona, ca asistent, desfășurând o serie de cercetări care culminează cu crearea cunoscutei scale de inteligență Binet-Simon.
Ideea acestui instrument provine de la cercetările doctorului Blin (1902), care urmăreau crearea unui instrument de evaluare a retardului mintal, compus din 20 de dimensiuni investigate, precum: limbajul vorbit, cunoașterea diferitelor părți ale corpului, executarea unor comenzi simple, numirea obiectelor, capacitatea de a citi, scrie și de a efectua operații aritmetice elementare. Deși inițial a criticat această scală din cauza subiectivismului, a dependenței de nivelul educațional și a formatului dihotomic impus răspunsurilor, lui Binet i-a plăcut ideea, preluând-o și dezvoltând-o.
Profitând de faptul că, în anul 1904, Ministerul Educației Publice din Franța căuta o modalitate de evaluare a măsurilor educaționale adoptate, Binet împreună cu Simon, un coleg de-al său, prezintă autorităților ideea creării unei scale de evaluare a inteligenței și obține susținerea oficială necesară. Astfel, în 1905 apare prima formă a scalei de inteligență Binet-Simon, instrument care va suferi mai multe revizuiri, fiind valabil și astăzi. În varianta din 1905, scala conținea 30 de teste, urmărind o arie aptitudinală variată, de la simple probe senzoriale la probe verbale cu un nivel ridicat de abstractizare. Este interesant de menționat că scala de inteligență nou creată a fost construită în absența unor concepte solide privind inteligența. Este antologică replica lui Binet în momentul în care a fost întrebat ce este inteligența: „… inteligența este ceea ce măsoară testul meu”.
Din cauză că în scala din 1905, mai mult de jumătate dintre itemi vizau evaluarea retardului mintal, Binet și Simon publică în 1908 o versiune revizuită a instrumentului, destinată și evaluării subiecților cu intelect liminar și normal. Astfel, scala din 1908 conține 58 de teste, aproape dublu față de versiunea anterioară, multe dintre acestea fiind probe noi. Poate cele mai importante noutăți științifice ale scalei din 1908 sunt reprezentate de introducerea conceptului de nivel mintal și de standardizarea instrumentului, folosind un număr de 300 de copii normali, cu vârste cuprinse între 3 și 13 ani. Sistemul de evaluare a instrumentului a reprezentat o altă inovație absolută, conceptul de nivel mintal dobândind o determinare concretă, sub forma vârstei mintale, aceasta fiind o consecință directă a numărului de itemi pe care îi putea rezolva un subiect, itemi standardizați pentru diferite vârste cronologice. Apare, astfel, primul test real de inteligență, intens folosit, cu toate că însuși Binet susținea că vârsta mintală nu trebuie luată foarte în serios, nu este o măsură exactă a nivelului mintal, ci are un rol orientativ. Diferența dintre nivelul mintal și vârsta cronologică putea fi considerată un indicator al întârzierii mintale, retardului mintal sau, din contră, unul care exprimă o inteligență superioară.
La scurt timp după publicarea reviziei din 1911 a scalei Binet-Simon, psihologul german William Stern are, în anul 1912, ideea genială a raportării vârstei mintale la vârsta cronologică, deoarece – afirmă el – semnificația retardului mintal este diferită în funcție de vârsta cronologică; într-un fel este perceput un subiect cu vârsta mintală de 3 ani și cu vârsta cronologică de 5 ani și în alt fel unul cu vârsta mintală de 5 ani și cu vârsta cronologică de 13 ani. Astfel, simpla diferență dintre vârsta mintală și vârsta cronologică nu reprezintă un indicator relevant al retardului mintal, însă raportul acestora poate fi o măsură pertinentă.
Ideea a prins atât de bine, încât Terman și asociații săi de la Universitatea Stanford, adaptând scala Binet-Simon în 1916, au renunțat la sistemul inițial de cotare și au preluat varianta lui Stern, înmulțind raportul cu 100, astfel rezultând cunoscutul coeficient de inteligență.
Atât scala lui Alfred Binet, cât și conceptul de coeficient de inteligență au suscitat și continuă să suscite numeroase controverse. În ciuda punctelor de vedere și a opiniilor divergente, un lucru este cert: scala Binet-Simon a creat un punct de cotitură în evaluarea psihologică și a permis apariția teoriilor și a instrumentelor destinate acestui scop, create la rândul lor pe baze obiective.
Adaptarea și folosirea scalei în Statele Unite ale Americii a extins posibilitatea utilizării instrumentelor de diagnostic psihologic dincolo de sfera educațională, acestea fiind preluate în multe domenii, inclusiv în cele militare. Totuși, predominanța itemilor verbali a condus destul de repede la identificarea unor probleme serioase în evaluarea persoanelor analfabete, cu dizabilități auditive sau a celor nevorbitoare a limbii engleze. Mai târziu, după cel de-al doilea război mondial, existența unor cercetări care pretindeau superioritatea intelectuală a rasei albe, în defavoarea altor rase, va conduce la măsuri extreme de interzicere a psihologiei în țările comuniste, acuzată că ar promova interese de clasă. În realitate, acele cercetări au fost defectuos și tendențios proiectate, evaluându-se mai curând gradul de educație și cultură, decât inteligența propriu zisă.
Plecând de la limitările impuse de caracterul predominant verbal al testelor de inteligență, trebuia găsită o formulă care să permită și evaluarea categoriilor de subiecți pentru care înțelegerea limbajului se făcea cu dificultate. Deși au existat o serie de tentative anterioare, este notabilă contribuția lui Knox, care, în 1914, a propus un set de probe nonverbale de performanță destinate evaluării imigranților. Caracterul non-verbal al probelor se regăsea atât la nivelul consemnului de administrare, cât și sub aspectul itemilor (probe de tip puzzle și de înlocuire a cifrelor cu simboluri, similare celor din bateriile Wechsler). Câțiva ani mai târziu, în 1917, Pintner și Paterson propun bine cunoscuta baterie de probe, formată din 15 probe non-verbale, instrumentul reprezentând o sursă de inspirație pentru nenumărate alte teste, folosindu-se și în prezent într-o formă adaptată.
În anul 1920, Kohs propune cuburile care-i poartă numele, sarcina subiectului fiind aceea de a forma anumite modele, folosind cuburi divers colorate. Această idee va fi promovată, mai târziu, în mai toate bateriile de probe care vizează evaluarea inteligenței prin metode non-verbale, ca și itemii de tip labirint propuși de Porteus în 1915.
Toată această efervescență ideatică în domeniul testării psihologice de la începutul secolului XX a avut, incontestabil, startul în scala lui Binet și în versiunea adaptată a acesteia de la Stanford. Așa cum remarca Goodenough în 1949, „Publicarea versiunii Stanford marchează sfârșitul unei perioade de incertitudine și experimentare. Odată pentru totdeauna, testarea inteligenței se află pe baze solide”.
Scala Stanford-Binet a reprezentat etalonul testării inteligenței o perioadă foarte lungă, majoritatea testelor noi care măsurau această dimensiune validându-se concurent prin raportare la instrumentul menționat. În anii `60, supremația scalei Stanford-Binet va fi atacată de alte instrumente, care propuneau nu doar un simplu coeficient de inteligență, ci un număr de 10-12 scoruri de inteligență grupate în două categorii: scale verbale și scale de performanță. Este vorba despre bateriile Wechsler (WPPSI, WISC și WAIS).
Deși problema multiculturalismului a fost parțial rezolvată prin conceperea și introducerea probelor non-verbale, la începutul secolului XX, scorarea și, mai ales, interpretarea rezultatelor testelor au fost marcate de un grad ridicat de subiectivism. Mai mult, administrarea probelor presupunea un consum de timp semnificativ, iar toate aceste elemente făceau destul de dificilă testarea unor grupuri mari de subiecți. În contextul celor două războaie mondiale, armata nu putea să rămână indiferentă față de noile tendințe în evaluarea psihologică, însă se confrunta cu problema găsirii unei metode rapide și eficiente de testare, cu atât mai mult cu cât itemii cu alegere multiplă erau rar utilizați. În momentul în care, în anul 1917, Statele Unite ale Americii intră în Primul Război Mondial, se pune întrebarea în ce măsură armata poate evalua în timp util, sub aspectul inteligenței, aproape 2 milioane de recruți. Soluția vine de la profesorul universității Harvard, Robert Yerkes, care în 1919 înființează Comisia de Examinare a Recruților și implică alți cercetători, printre care Goddard și Terman, în crearea unor teste colective de inteligență destinate evaluării rapide a unui număr mare de subiecți. Astfel apar primele teste de inteligență destinate examinării colective: Army Alpha și Army Beta.
Army Alpha se bazează pe ideile lui Otis (1918) și conține un număr de 8 scale verbale formate din itemi care vizează: executarea unor instrucțiuni verbale, raționament aritmetic, raționament practic, perechi de sinonime/antonime, propoziții folosind cuvinte amestecate, completare serii de numere, analogii și informații. Pentru a se putea evalua și recruții analfabeți sau cei care nu vorbeau limba engleză, autorii au construit și varianta non-verbală a bateriei, Army Beta. Ca și în cazul probelor lui Knox, inclusiv consemnul bateriei Army Beta era non-verbal, bazat pe pantomimă.
Scopul celor două baterii de teste a fost acela de a elimina persoanele cu un intelect extrem de limitat și de a clasifica recruții în funcție de nivelul lor intelectual în vederea încadrării pe poziții specifice structurilor militare în condiții de război. În ciuda caracterului inovator, cele două baterii de teste nu au avut, la momentul respectiv, succesul așteptat, parțial din cauza rigidității mentalității militare, dar și din motive care țin de eficiența limitată a instructajului pantomimic, mulți recruți neînțelegând, de fapt, ce li se cere. În orice caz, Army Alpha și Army Beta reprezintă primele teste colective și, de asemenea, creează premisa rafinării și sistematizării teoriei clasice a testului psihologic. După terminarea războiului, mulți psihologi care au lucrat sub coordonarea lui Yerkes vor promova ideile examenelor colective în domeniul industrial, organizațional și educațional. Astfel, probe foarte bine cunoscute, precum scalele lui Wechsler, Scholastic Aptitude Tests (SAT) și Graduate Record Exam (GRE) își au rădăcinile în bateriile Army.
Cu toate că testele de inteligență au fost și sunt foarte apreciate și utilizate, inclusiv în perioada actuală, s-a pus în discuție însuși constructul măsurat: inteligența. Fiind o aptitudine generală, măsurarea inteligenței spune prea puțin despre aspectele concrete, practice, instrumentale ale comportamentului. Nu oferă informații exacte despre așa-numitele aptitudini specifice. A apărut nevoia unor probe care să măsoare doar o singură abilitate sau un grup restrâns de abilități, caracteristice unui singur domeniu. Avem în vedere, evident, probele de aptitudini specifice.
În sprijinul noii tendințe a venit o tehnică statistică nouă, numită analiza factorială, care, inițiată încă din anul 1904 de către Spearman, a fost rafinată în anii `30 și a permis distingerea aptitudinilor primare. În 1938, Thurstone susține că există mai mulți factori ai inteligenței – văzută ca aptitudine mintală generală – printre care înțelegerea verbală, fluența cuvintelor, calculul numeric, abilități spațiale, memoria asociativă, viteza percepției și raționamentul general. Măsura inteligenței generale nu este atât de utilă pe cât pare la prima vedere, mai important ar fi să cunoaștem aptitudinile specifice pentru a determina punctele tari și punctele slabe ale unui individ, din perspectiva intelectului.
În plus, specializarea industrială și perspectiva celui de-al Doilea Război Mondial a creat, la nivel social, nevoia selecției pentru posturi cu un grad înalt de calificare (piloți, ingineri, navigatori etc.). Unica măsură a inteligenței, exprimată sub forma coeficientului de inteligență, nu avea implicații practice din acest punct de vedere. Soluția a venit tot din domeniul militar. Forțele armate au construit o baterie aptitudinală compusă din 20 de teste, administrată subiecților care treceau un test preliminar de tip screening și, în funcție de rezultate, se făceau repartițiile pentru diferite domenii. Acestea au fost primele teste de aptitudini specifice, modelul fiind folosit și astăzi.
În domeniul evaluării personalității, debutul testelor s-a realizat destul de târziu, deși au existat nenumărate încercări. Prima tentativă reușită aparține lui Woodworth (1919), care propune un inventar format din 116 întrebări cu răspuns dihotomic (Woodworth’s Personal Data Sheet). Întrebările vizau, mai ales, aspecte din domeniul comportamentului deviant și din cel al psihopatologiei, neexistând nicio posibilitate de control al tendințelor de fațadă. Autorul pornea de la premisa că toți subiecții care răspund sunt bine intenționați și onești.
Scala lui Woodworth a inspirat numeroși alți cercetători care au preluat itemii, au construit itemi noi și au propus instrumente proprii de evaluare în domeniul personalității. Astfel, în 1930, Thurstone construiește „Thurstone Personality Schedule”, primul instrument la care se folosește metoda consistenței interne a itemilor. După un an, în 1931, apare „Bernreuter Personality Inventory”, o rafinare a inventarului Thurstone, care măsoară patru factori de personalitate: tendințe nevrotice, auto-suficiența, introversiune-extraversiune și dominanță-supunere, fiind primul instrument în care un item saturează mai multe scale. În același an, Allport și Vernon sparg tiparul orientării psiho-patologice a inventarelor de personalitate și propun un instrument de măsurare a valorilor, „Allport-Vernon Study of Values”, abordând, în premieră, metoda ipsativă de măsurare, depășind orientarea dihotomică dominantă.
În sfârșit, în anul 1942, Hathaway și McKinley de la Universitatea Minnesota publică poate cel mai important instrument de evaluare a personalității, „Minnesota Multiphasic Personality Inventory” (MMPI). Inventarul a fost construit pornind de la principiile lui Woodworth, în baza comparării răspunsurilor oferite de persoanele normale și persoane cu tulburări psihice, introducând, pentru prima dată, metode de depistare a răspunsurilor dezirabile și indezirabile social, precum și a răspunsurilor date la întâmplare.
Concentrarea, în prima jumătate a secolului XX, a cercetărilor în domeniul identificării celor mai eficiente metode de testare a inteligenței, aptitudinilor, personalității etc., cele două războaie mondiale, dezvoltarea industrială au condus la o adevărată „testomanie” în țările industrializate, curent care s-a perpetuat până în prezent. Cererea, în continuă creștere, de instrumente de evaluare psihologică, i-au determinat pe Cattell, Thorndike și Woodworth să pună, în 1921, bazele Psychological Corporation, prima instituție destinată conceperii și publicării testelor psihologice.
Apariția și dezvoltarea teoriei clasice a testului
În baza unei emanații de teste psihologice de o asemenea anvergură, apărută la începutul secolului XX, este naturală apariția unei teorii care să fundamenteze întregul proces de testare psihologică și de construcție a instrumentelor destinate acestui scop. Pornind de la achizițiile științifice anterioare, cu origini în secolul XVII, în jurul anului 1900 s-au conturat trei puncte de vedere importante: faptul că orice măsurare este imperfectă și conține erori de măsurare, faptul că erorile de măsurare reprezintă o variabilă aleatorie și existența conceptului de corelație și a modalităților de calcul al acesteia.
După cum remarca Read , Galileo Galilei observa încă din secolul XVII că „… erorile observației se distribuie simetric și tind să se concentreze în jurul valorii adevărate”, acestea fiind primele cărămizi puse la temelia cunoașterii științifice moderne.
Indubitabil, teoria clasică a testului psihologic își are debutul în lucrările lui Charles Spearman din anii 1904-1907, în care se arată modalitatea de corectare a coeficientului de corelație în vederea atenuării erorilor de măsurare și mecanismele de obținere a coeficientului de fidelitate necesar acestor corecții. Ulterior, pe durata unui sfert de secol, conceptele inițiate de Spearman vor fi rafinate prin contribuția altor cercetători (George Udny Yule, Truman Lee Kelley și alții), ajungându-se la ceea ce astăzi numim Teoria Clasică a Testului (CTT – Classical Test Theory).
Așa cum remarca Aurel Stan , „termenul de clasic nu are sensul depreciativ, de depășit, conservator, ci unul valorizator, de bine fundamentat, echilibrat, durabil.” Este și normal să fie așa după mai bine de un secol de cercetări și utilizări practice.
După momentul Spearman, de debut al teoriei, următorul reper evolutiv important este reprezentat de publicarea formulelor Kuder-Richardson în 1937, eveniment care a permis încetățenirea conceptului de fidelitate, mai ales ca urmare a activității lui Louis Guttman. Maturizarea completă a teoriei clasice a testului apare însă în 1966, odată cu lucrările lui Melvin Novick referitoare la tratamentele și abordarea sistematică a itemilor .
Întreaga teorie clasică a testului pleacă de la premisa că variabila aleatorie a erorilor de măsurare este parte componentă a scorului observat . Cu alte cuvinte, scorul obținut de un subiect la un test psihologic conține, alături de măsura reală, care ține de caracteristicile individuale, și o serie de erori de măsurare.
Încă din secolul XIX, problema erorilor și a modului în care acestea pot fi minimizate i-a preocupat pe astronomi. Carl Friedrich Gauss a observat că media mai multor observații asupra unui parametru tinde să aproximeze cel mai bine valoarea acelui parametru, rezultând teorema limitei centrale și, implicit, distribuția normală. Apoi, Friedrich Wilhelm Bessel, concentrându-se pe problema astronomilor, a constatat că erorile pot proveni din surse multiple, însă distribuția acestor erori tinde să urmeze curba lui Gauss. Plecând de la aceste constatări, s-a considerat că dacă s-ar aplica unui subiect același test de foarte multe ori, la fiecare aplicare, erorile de măsurare ar fi negative, pozitive sau nule. Astfel, un număr mare de administrări ar conduce către o distribuție normală a erorilor de măsurare, distribuție care poate fi standardizată. A apărut, în acest context, primul postulat al teoriei clasice a testului: scorul observat al unei persoane evaluată cu un test psihologic este suma scorului real și a erorii de măsurare.
Din acest experiment teoretic rezultă și faptul că la un număr mare de administrări ale aceluiași test unui subiect, media scorurilor observate aproximează foarte bine scorul real, iar dispersia acestor scoruri vizează erorile de măsură. Rezultă al doilea postulat al teoriei clasice a testului, și anume valoarea așteptată pentru scorul observat este scorul adevărat.
Deoarece erorile țin de factori care nu au nicio legătură cu dimensiunea măsurată, nu există nicio corelație între scorul real și erorile de măsură. Nu se poate spune că subiecții care obțin un scor real mai mare prezintă erori mai mari sau că erorile sunt mai mici în cazul subiecților cu un scor real mic. Așadar, al treilea postulat susține că între eroarea de măsură și scorul real nu există nicio corelație.
Acestea sunt primele – și cele mai importante – postulate ale teoriei clasice a testului. Deși asumpțiile teoretice sunt pertinente și arată modalitatea de obținere a scorului real din scorul observat, în practică nu pot fi aplicate. Nu putem administra același test unui subiect de sute sau mii de ori până la aproximarea scorului real. Soluția ar fi administrarea testului unui număr mare de subiecți diferiți, situație în care postulatele se conservă. Însă, era necesară apariția unui nou concept statistic, și anume cel de corelație. Într-adevăr, corelația a apărut din studiul erorilor de măsurare și nu reprezintă doar o preocupare a lui Spearman. Astfel, în 1808, Robert Adrain publică primele formule referitoare la relația dintre două variabile. Este urmat de Pierre-Simon Marquis de LaPlace, în 1810, Giovanni Antonio Amedeo Plana, în 1812, Gauss în 1823 și Auguste Bravais în 1846 . Niciunul dintre aceștia nu a prezentat formulele în termeni de covarianță sau de corelație. Acesta este meritul lui Francis Galton, care, în 1885, include conceptul alături de cel de nor de puncte (scatterplot), într-o notă către departamentul de antropologie a Asociației Britanice. Un an mai târziu, Galton publică aceste elemente în „Journal of the Anthropological Institute” sub numele de „Regression Towards Mediocrity in Hereditary Stature”. În sens tehnic, termenul de corelație va fi folosit de Galton doi ani mai târziu, în 1888, în articolul „Co-Relations and Their Measurement”. Remarcăm faptul că, inițial, simbolul „r” pentru coeficientul de corelație a fost folosit de Galton pentru a exprima regresia. Consacrarea acestuia drept coeficient de corelație aparține lui Francis Y. Edgeworth, care l-a folosit din greșeală în anul 1892 .
Poate cea mai mare contribuție la dezvoltarea și promovarea studiilor corelaționale aparține lui Karl Pearson. Acesta a preluat ideea colegului și prietenului său Galton și, în 1896, propune ca măsură adecvată a corelației raportul dintre covarianță și produsul abaterilor standard ale celor două variabile. Folosind această formulă, Pearson a efectuat studii pe gemeni, înregistrând variabile fizice și psihologice, constatând apoi cu uimire că valorile coeficientului său de corelație nu depășesc 0,5. Aceasta a fost, poate, prima aplicație a teoriei clasice a testului, din care a rezultat necesitatea ajustării coeficientului de corelație în vederea atenuării erorilor de măsurare. Această ajustare nu a găsit-o însă Pearson, ci Spearman, de aceea numele său este legat de fondarea teoriei.
Spearman, psiholog fiind, a fost preocupat de investigarea inteligenței și a constatat că măsurătorile independente ale caracteristicilor psihice ale unei persoane variază aleatoriu. Cu alte cuvinte, valorile coeficienților de corelație între două variabile sunt mai mici dacă măsurătorile sunt influențate de variații accidentale. A apărut astfel problema atenuării acestor variații accidentale, problemă pe care o propune Spearman într-un articol publicat în anul 1904. Astfel, el arată că valoarea corectă a coeficientului de corelație în cazul abilităților mintale este de 0,8 și nu 0,5 cum susținuse Pearson, fapt care va atrage nenumărate critici din partea acestuia. În anul 1910, Spearman revine și vorbește despre fidelitatea măsurătorilor, argumentând ajustarea coeficientului de corelație prin faptul că erorile măsurătorilor sunt independente și, prin urmare, necorelate. În același an, William Brown reușește să arate, prin testarea egalității covarianțelor, că erorile de măsurare nu sunt complet accidentale, așa cum susținea Spearman, demonstrație care îl face pe acesta din urmă să-și reevalueze poziția. În urma acestei dispute, atât Spearman, cât și Brown ajung independent la aceeași formulă de calcul a coeficientului de fidelitate pentru două jumătăți ale unui test, formulă care poartă numele de Spearman-Brown, publicată în ediția din 1910 a revistei „The British Journal of Psychology”. În perioada următoare, formula Spearman-Brown a dobândit o aplicabilitate cvasi-universală, alimentând totodată numeroase cercetări. Astfel, în anul 1923, Kelley elaborează lucrarea „Statistical Method” în care definește fidelitatea ca fiind „un coeficient de corelație între teste comparabile”, propunând și o serie de criterii pe baza cărora se poate decide comparabilitatea testelor și criticând, în baza acestor criterii, chiar formula Spearman-Brown. În ciuda acestor critici, expresia matematică s-a impus, fiind unul dintre aspectele operaționale definitorii ale teoriei clasice a testului.
Plecând de la coeficientul de fidelitate propus de Spearman și Brown, în 1936, Marion Richardson publică în revista „Psychometrika” o serie de particularități ale testelor formate din itemi dihotomici. Plecând de la ideea că toți itemii unui test au varianțe egale – în cazul itemilor cu o plajă largă sub aspectul dificultății – el a arătat că eliminarea itemilor cu o corelație slabă item-test conduce la o creștere a fidelității. Practic, Richardson dezvoltă conceptul de corelație inter-itemi și propune un nou termen, acela de corelație item-test – corelația dintre item și scorul total. Ideea a fost dezvoltată, în aceeași perioadă, și de Frederic Kuder, ajungând la concluzii similare. De aceea, în anul 1937, cei doi publică împreună un articol – menționând totuși că au ajuns în mod independent la aceleași concluzii – prin care critică metodele de tip test-retest și split-half și propun noile formule. Deși această nouă metodă este valabilă doar pentru itemi dihotomici, ea creează premisele abordării conceptului de consistență internă ca metodă de studiu al fidelității. În ciuda criticilor formulate, în special de Kelley, formula KR s-a impus în practică, fiind considerată un important salt calitativ al teoriei clasice a testului.
Plecând de la ideea testelor paralele, Philip Rulon publică în anul 1939 un articol referitor la noțiunea, cunoscută mai târziu, sub denumirea de teste tau-echivalente . Două teste sau două jumătăți de test sunt tau-echivalente, dacă pentru orice subiect examinat, scorul real al unui test diferă de scorul real al celuilalt test printr-o constantă, aceeași pentru toți subiecții examinați. Spre deosebire de testele strict paralele, în cazul testelor tau-echivalente, varianțele erorilor celor două teste, sau celor două forme ale unui test, nu trebuie să fie egale .
Totuși, formula KR avea o limită importantă, și anume existența valorilor negative. Plecând de la această problemă, Louis Guttman publică în 1945 un articol prin care găsește o metodă de corecție și fixare a limitei inferioare a indicelui de fidelitate. Contribuția lui Guttman nu se rezumă, însă, doar la această intervenție. El identifică trei surse de variație în răspunsurile la test – persoanele, itemii și numărul de administrări, definind varianța de eroare exclusiv ca varianță a răspunsurilor în raport cu numărul de administrări. Această idee va conduce la formularea primului postulat al teoriei, derivat din afirmația că varianța totală a testului reprezintă suma dintre scorul real și varianța erorii, fără a fi necesară axioma privind covarianța nulă între scorul real și erori. Definind coeficientul de fidelitate ca un complement al raportului dintre varianța erorii și varianța totală a testului, Guttman demonstrează că acest coeficient poate fi calculat ca o corelație între scorurile observate la un grup de subiecți în cazul unui test administrat în două situații independente. Mai mult, Guttman identifică un număr de șase coeficienți de fidelitate, dintre care al treilea este tocmai coeficientul de consistență internă alfa, preluat și dezvoltat, mai târziu, de către Cronbach .
La începuturi, teoria clasică a testului era reprezentată, mai degrabă, de inițiative individuale, polemici academice, critici și contra-argumente. Prima încercare de formalizare a teoriei aparține lui Kelley, în anul 1923, care în lucrarea „Statistical Method” a propus criteriile de evaluare a testelor comparabile. Ulterior, Thurstone va încerca același lucru în anul 1932, urmat fiind, în 1950, de Harold Gulliksen, care publică lucrarea „Theory of Mental Tests”. Teoria clasică a testului, așa cum o cunoaștem astăzi, inclusiv postulatele sale și cadrul său formal, derivă însă din operele lui Melvin Novick și Frederic Lord, fiind expusă în detaliu în cadrul lucrării „Statistical Theories of Mental Tests Scores” .
Postulatele și axiomele teoriei clasice a testului au fost modificate și completate în decursul anilor. În prezent, opinia cvasi-unanimă agreează prezența unui număr de 3 postulate principale și patru auxiliare (Laveault & Gregoire, 1997, apud Stan, 2002):
Postulatul 1 – Scorul observat al unei persoane supuse examinării prin intermediul unui test psihologic este suma scorului adevărat și o eroare de măsură asociată acestui scor.
Postulatul 2 – Valoarea așteptată pentru scorul observat este scorul adevărat.
Postulatul 3 – Între eroarea de măsură și scorul adevărat al unui subiect există o corelație nulă.
Postulatul 4 – Erorile la două teste diferite nu sunt corelate între ele.
Postulatul 5 – Între eroarea de măsură la un test și scorul adevărat la un alt test nu există corelație.
Postulatul 6 – Două teste sunt paralele dacă și numai dacă scorurile lor adevărate și varianțele erorilor de măsură sunt egale.
Postulatul 7 – Un test este tau-echivalent cu un alt test atunci când scorurile lor adevărate diferă printr-o constantă.
Teoria clasică a testului a dominat și continuă să domine construcția testelor psihologice, nefiind însă o teorie infailibilă. Limitele acesteia au fost remarcate în decursul timpului, atrăgând nenumărate critici. Astfel, pe la jumătatea secolului trecut, începe să se contureze un nou model teoretic, cu baze matematice extrem de solide, care își propune eliminarea deficiențelor teoriei clasice și chiar înlocuirea acesteia. Este vorba despre teoria răspunsului la item.
Apariția și dezvoltarea teoriei răspunsului la item
Teoria clasică a testului prezintă o serie de metode și tehnici de limitare a efectului determinat de erorile de măsurare asupra scorului real. Cert este că aceste erori fac parte din însăși esența teoriilor, controlul acestora reprezentând o preocupare majoră. În literatura de specialitate, remarcăm trei metode generice destinate acestui scop : (a) prin standardizare, (b) prin randomizare și (c) prin ajustări statistice. Teoria răspunsului la item propune modele matematice care permit efectuarea ajustărilor statistice asupra scorurilor testului, în vederea controlului complet al erorilor .
Dezvoltarea acestei teorii s-a realizat pe două căi diferite. În Statele Unite ale Americii, începuturile teoriei răspunsului la item se regăsesc, oficial, în lucrarea lui Lord și Novick, „Statistical Theories of Mental Tests Scores” , care include patru capitole despre IRT scrise de Allan Birnbaum. Cartea se bazează, însă, pe publicațiile anterioare ale lui Lord, încă din anul 1953, și pe o serie de rapoarte tehnice elaborate de Birnbaum pentru Forțele Armate, în 1957 și 1958. Deși preocupări în această direcție au existat și înainte de anul 1968, cartea lui Lord și Novick este considerată un reper important în apariția teoriei răspunsului la item, deoarece, pentru prima dată este furnizat un suport statistic riguros și unitar acestei teorii . De asemenea, principiile expuse aveau o aplicabilitate practică imediată și directă, Frederic Lord fiind o perioadă lungă de timp angajat al Educational Testing Service și, prin urmare, beneficiind de o experiență considerabilă în privința problemelor pe care le puneau testele psihologice și evaluarea psihologică în general. Nu în ultimul rând, lucrarea a beneficiat de o diseminare pe scară largă, organizându-se, pe baza acesteia, numeroase conferințe și seminarii la care au participat o serie de specialiști, care ulterior vor aduce contribuții importante la dezvoltarea teoriei. Allan Birnbaum, Michael Browne, Walter Kristof, Michael Levine, Fumiko Samejima sunt doar câțiva dintre cei care au inițiat ori s-au format în cadrul acestor manifestări științifice .
Deși teoria promitea mult, avea totuși o limitare importantă; procedurile de calcul necesitau un serios suport matematic, erau laborioase și dificil de implementat în acele vremuri. Astfel, Darrell Bock, de la Universitatea North Carolina, inspirat de primele cercetări ale lui Samejima, dezvoltă, începând cu anul 1981, algoritmii efectivi de estimare a parametrilor pentru modelele de răspuns la item, inclusiv primele programe computer folosite și astăzi (BILOG, TESTFACT, MULTILOG, și PARSCALE). În aceeași perioadă, împreună cu Aitken, fundamentează metoda „marginal maximum likelihood” de estimare a parametrilor, care va deveni apoi standardul de facto al modelelor de răspuns la item .
În Europa, primele preocupări datează încă din anul 1936, când Richardson are ideea modelelor de răspuns la item și încearcă stabilirea unor relații între acestea și modelele clasice. Plecând de la aceste cercetări, Lawley, în 1945, propune o serie de proceduri pentru estimarea parametrilor descoperiți de Richardson. Totuși, fondarea teoriei răspunsului la item în Europa este legată de numele matematicianului danez Georg Rasch, care a activat o perioadă lungă de timp în domeniul consultanței statistice și care dezvoltă o serie de modele de răspuns la item pentru uzul armatei daneze. În 1960 publică aceste modele în lucrarea sa „Probabilistic Models for Some Intelligence and Attainment Test”, detaliind proprietățile științifice ale acestora. Pentru prima dată afirmă că persoana și parametrii itemului sunt elemente complet distincte, fapt care conferă modelelor sale un caracter obiectiv. În anul 1972, un student de-al lui Rasch, Andersen, va elabora metode efective de estimare a parametrilor persoanei și itemilor, folosind modelele Rasch.
Inspirat de cercetările efectuate de Rasch și Andersen, în 1973, profesorul Universității din Viena, Gerhard Fischer, extinde modelul Rasch și pentru date de tip binar, creând astfel posibilitatea de a încorpora în modele dimensiuni psihologice. Astfel, au putut fi studiate proprietățile de stimul ale itemilor, condițiile experimentale și cele variabile, elemente care au declanșat un val de cercetări științifice în Europa.
Faptul că modelele de răspuns la item se doreau a fi metode obiective de măsură îl va inspira pe profesorul american Benjamin Wright, de la Universitatea din Chicago. Acesta, după o serie de întâlniri avute cu Rasch, propune doctoranzilor săi numeroase teme de cercetare bazate pe ideea matematicianului danez, unele dintre ele reprezentând contribuții teoretice esențiale la modelele Rasch și alimentând dezvoltarea aplicațiilor în domeniile evaluării educaționale.
Cu toate că aceste modele au avut un impact semnificativ în domeniul educațional, medical, chiar și militar, până în anii `70 ele au fost rareori aplicate în psihologie. Primii interesați au fost profesorii Rene Dawis și David Weiss de la Universitatea din Minnesota, datorită caracterului obiectiv al măsurătorilor. Aceștia au demarat cercetări în care au implicat studenți, unii dintre ei devenind personalități marcante și promotori ai teoriei răspunsului la item (Merle Ace, Howard Tinsley, Susan Embretson) .
Utilizarea pe scară largă a computerelor personale nu a scăpat neobservată de adepții teoriei răspunsului la item, mai ales că aceste metode sunt perfect adecvate construirii probelor psihologice adaptive. Astfel, David Weiss a fost printre primii interesați în dezvoltarea acestor instrumente, în special selecția itemilor și problema echivalenței testelor. Ulterior, acestor cercetători li s-au asociat și Isaac Bejar, Brad Sympson, James McBride și Steve Reise, acesta din urmă creând primele aplicații în domeniul personalității .
În perioada actuală, cel puțin în Statele Unite ale Americii, modelele de răspuns la item au o largă aplicabilitate, mai ales în domeniul educațional și medical. Toate probele de tip General Record Examination (GRE) se bazează pe această teorie, la care se adaugă majoritatea sistemelor care vizează evaluarea competențelor. Totuși, domeniul aplicațiilor psihologice rămâne, deocamdată, destul de slab dezvoltat.
* *
*
În România, preocupările autohtone din domeniul teoriei răspunsului la item rămân, în cea mai mare parte, la nivel teoretic, deși conceptele sunt predate în majoritatea cursurilor universitare destinate psihodiagnosticului. Teoria este expusă în lucrări de specialitate, de obicei în capitolele destinate construcției testelor psihologice, fiind prezentată comparativ cu teoria clasică a testului. Remarcăm, astfel, contribuțiile lui A. Stan , N. Mitrofan , (Mitrofan, 2009), M. Albu și H. Pitariu și alții.
Aplicații practice există, mai ales în domeniul evaluării educaționale, mai puțin în evaluarea psihologică. Multe aplicații care vizează evaluarea candidaților în vederea admiterii folosesc modele de răspuns la item. Sistemul informatizat de evaluare în vederea promovării magistraților, sistemul de evaluare în vederea admiterii, practicat de unele universități, sistemele de evaluare a competențelor folosit de unele companii (Microsoft, Oracle etc.) sunt exemple de aplicații computerizate bazate pe teoria răspunsului la item.
Modelele de răspuns la item au pătruns chiar și în industria divertismentului. Emisiunile bazate pe cunoștințe (de exemplu „Vrei să fii milionar”) au ca fundament tehnic același tip de aplicații.
În domeniul psihologiei, remarcăm contribuțiile lui C. Rusu, R. Balazsi, A. Dobrean și G. Vonas, de la Universitatea Babeș-Bolyai din Cluj-Napoca, privind construirea unei scale de comprehensiune a limbajului bazată pe teoria răspunsului la item și inițiativele promovate de T. Constantin, C. Havârneanu, A. Sava și C. Opariuc-Dan, care, împreună cu Psihosoft Company, urmăresc dezvoltarea unui sistem de evaluare psihologică fundamentat pe modele de răspuns la item.
În ciuda puterii modelului și, în general, a teoriei răspunsului la item, aceasta nu are, deocamdată, popularitatea teoriei clasice a testului. Cauzele sunt multiple și variate, determinându-ne să identificăm doar o mică parte dintre ele.
Probabil că cea mai importantă cauză a lipsei de popularitate a aplicațiilor bazate pe modelele de răspuns la item este dificultatea teoriei. Într-adevăr, teoria răspunsului la item are o dificultate semnificativ mai mare în comparație cu teoria clasică a testului psihologic, utilizarea acesteia presupunând stăpânirea unui aparat matematic deloc neglijabil, fapt care intră uneori în contradicție cu formația umanistă a psihologilor.
Varietatea modelelor poate fi un alt motiv al lipsei de popularitate. Spre deosebire de teoria clasică a testului, în care modelul de măsură este unic, clar și ușor de înțeles, modelele de răspuns la item sunt numeroase, fiecare având caracteristici și postulate proprii.
Dificultatea respectării axiomelor fiecărui model, în special în psihologie, poate fi o altă cauză. Unidimensionalitatea factorului evaluat, independența locală a itemilor și modelarea acestora pe funcția de răspuns la item sunt supozițiile de bază ale teoriei, uneori greu de realizat în practică. Deși există modele de răspuns la item multidimensionale, implementarea lor presupune cunoștințe destul de avansate, ele însele nefiind deocamdată complet studiate.
Lipsa unor aplicații complexe de evaluare psihologică bazată pe modele de răspuns la item poate fi o altă cauză. Încercarea manuală de estimare a parametrilor persoanei folosind teoria răspunsului la item este sortită, din start, eșecului. Calculele sunt laborioase, repetitive și presupun aproximări matematice și potrivire pe un anumit pattern de răspuns. Prin urmare, popularitatea metodei este direct legată de dezvoltarea sistemelor computerizate adaptive de testare psihologică, domeniu încă slab dezvoltat.
Diferențe între teoria clasică a testului și teoria răspunsului la item
Au existat și încă există opinii conform cărora teoria răspunsului la item reprezintă o extensie, o dezvoltare a teoriei clasice a testului psihologic. În realitate, cele două teorii reprezintă două modele de măsurare complet diferite, uneori antagoniste. Dacă teoria clasică a testului a evoluat pe tot parcursul secolului XX, teoria răspunsului la item a cunoscut o dezvoltare explozivă, mai ales către sfârșitul secolului XX și începutul secolului XXI, datorită rafinării modelelor matematice și a utilizării pe scară largă a computerelor personale.
Cel mai important avantaj al teoriei clasice a testului îl reprezintă relativa permisivitate a asumpțiilor, fapt care o face aplicabilă unor variate situații de testare . Teoria clasică se concentrează, mai ales, pe informațiile furnizate de test, ca ansamblu de itemi, cu toate că prezintă și o serie de analize la nivel de item, cum ar fi dificultatea și discriminarea, concepte complet diferite de cele din teoria clasică a testului.
Teoria răspunsului la item nu mai demonstrează o permisivitate atât de largă la nivelul postulatelor și se bazează pe modele probabilistice ale distribuției „reușitei” subiectului la un anumit item. Accentul nu mai cade pe informațiile furnizate de test (ansamblu de itemi), ci pe valoarea informațională a itemului. Astfel, unitatea informațională a evaluării nu mai este testul, ci itemul.
Evaluarea bazată pe teoria răspunsului la item cuprinde un ansamblu de modele, aplicabilitatea fiecărui model într-o anumită situație depinzând de natura itemilor și de adecvarea postulatelor teoretice referitoare la aceștia .
La nivel de item, modelul teoriei clasice a testului este unul relativ simplu și nu presupune raportarea abilității subiectului la succesul sau insuccesul răspunsului. Subiecții sunt tratați la nivel de grup, estimându-se dificultatea și discriminarea pe baza performanțelor grupului la itemul respectiv și nu pe baza performanțelor individuale. Dificultatea reiese printr-un simplu calcul al proporțiilor, iar discriminarea se bazează pe corelația produs-moment între scorul obținut la item și scorul total. Deseori, atunci când itemii sunt dihotomici, discriminarea este expresia unei corelații punct biseriale.
Una dintre limitările majore ale teoriei clasice a testului, care face extrem de dificilă echivalența testelor și posibilitatea de construcție a probelor auto-adaptive, o reprezintă așa-numita dependență circulară : rezultatele obținute de subiecți sunt dependente de eșantionul de itemi, iar proprietățile itemilor sunt dependente de eșantionul de subiecți. Deși există soluții de depășire a acestei limite (de exemplu echivalența echi-percentilă sau scalarea absolută Thurstone), ele au rezultat în mod empiric și nu rezolvă problema la nivel conceptual.
Cu toate că cele două teorii sunt comparabile sub aspectul rezultatelor finale, la nivel conceptual sunt radical diferite. Chiar Lord și Novick, în momentul în care prezentau teoria răspunsului la item, derivau o serie de principii ale teoriei clasice a testului din teoria răspunsului la item . Abordarea avea, însă, un caracter pur didactic, în scopul de a putea familiariza rapid cunoscătorii teoriei clasice cu principiile noii teorii, similitudinile oprindu-se aici.
O sinteză excelentă a modului în care diferă principalele postulate la nivelul celor două teorii este realizată de Susan Embretson și Steven Paul Reise , informații pe care le vom completa cu propriile noastre aprecieri.
Abordarea erorii standard de măsurare
Conform teoriei clasice a testului, eroarea standard de măsurare este unică și se aplică tuturor scorurilor obținute de subiecți.
Teoria răspunsului la item susține că eroarea standard de măsurare diferă la nivelul scorurilor și dobândește un caracter general în cadrul populației.
Diferența constă în modul în care sunt tratate erorile de măsură. Dacă testele clasice consideră eroarea de măsură ca fiind fixă, nedepinzând de subiectul evaluat, modelele de răspuns la item o consideră variabilă, în funcție de caracteristicile răspunsului subiectului . În baza acestei diferențe, erorile de măsurare nu caracterizează doar testul, ci și interpretarea individuală a fiecărui scor în parte. Astfel, intervalele de încredere determinate de erorile de măsurare individuale pot avea valoare interpretativă, de exemplu în interpretarea directă a diferențelor dintre două scoruri.
La nivel comun, eroarea de măsurare este mai degrabă o constantă în cadrul testelor clasice și în mod cert dobândește caracterul unei variabile în probele construite pe baza teoriei răspunsului la item. În altă ordine de idei, eroarea de măsură are un caracter specific, determinat de populație, la nivelul teoriei clasice a testului, în timp ce modelele de răspuns la item postulează caracterul general al erorii de măsurare, independent de o populație anume .
În teoria clasică a testului psihologic, eroarea standard se calculează după , iar intervalele de încredere se construiesc pentru fiecare scor individual, pornind de la prezumpția că eroarea de măsură se distribuie normal și este identică pentru toate scorurile.
(Relația I-1)
în care rtt reprezintă coeficientul de fidelitate, iar σ abaterea standard a testului.
În figura I-1 regăsim reprezentarea grafică a regresiei scorurilor standard la scorurile brute, în cazul unor subiecți evaluați cu o probă clasică. Liniile punctate marchează un interval de încredere de 68%, calculat pe baza unei erori standard de 0,32 .
Constatăm că în cazul teoriei clasice, estimarea scorului real al subiecților reprezintă o transformare liniară a scorului brut. Această transformare este posibilă datorită existenței etaloanelor (normelor) construite pe o anumită populație, la care se raportează scorul brut obținut de un anumit subiect. În același timp, intervalul de încredere determinat de eroarea de măsurare se aplică tuturor scorurilor. În baza acestor constatări, putem observa caracterul specific al erorii de măsurare, aceasta depinzând de populația la care se raportează transformarea liniară (populația pe care a fost construit etalonul). Așadar, în teoria clasică a testului, atât estimarea scorului real, cât și eroarea standard sunt aplicabile unei anumite populații, deoarece depind de statisticile acesteia.
Figura I-2 indică reprezentarea grafică a regresiei pentru scorurile acelorași subiecți, estimate în baza unui model de răspuns la item. Se observă că relația dintre scorurile estimate și scorurile brute nu mai are un caracter liniar și, în același timp, intervalele de încredere sunt mai largi în cazul scorurilor brute extreme și mai înguste pentru scorurile brute medii.
Astfel, pentru modelele de răspuns la item, atât scorurile standard, cât și erorile de măsură nu mai depind de specificul populației, putând spune că acestea au un caracter general. Acest lucru este posibil, deoarece, în cadrul teoriei răspunsului la item, scorurile factorului sunt estimate separat pentru fiecare răspuns al subiectului și, de asemenea, pentru fiecare patern de răspunsuri, controlându-se caracteristicile itemului administrat.
Eroarea standard va fi mai mică atunci când itemul administrat discriminează puternic și se apropie de magnitudinea reală a factorului latent pe care o posedă subiectul și mai mare în caz contrar. Una dintre caracteristicile importante ale modelelor de răspuns la item este aceea conform căreia se poate calcula media erorilor standard, indicatorul considerându-se un parametru al populației.
Prin construcția probelor auto-adaptive și selecția automată a itemilor în baza estimării nivelului factorului latent al persoanei, erorile standard pot fi reduse la minimum, fapt care conferă o mare precizie modelelor de răspuns la item.
Abordarea raportului dintre lungimea testului și fidelitatea acestuia
Teoria clasică a testului susține că testele lungi sunt mai fidele în comparație cu testele scurte.
Teoria răspunsului la item afirmă exact contrariul: testele scurte pot fi mai fidele în comparație cu testele lungi.
Pentru cei familiarizați cu teoria clasică a testului, afirmația poate fi surprinzătoare. Implicațiile practice sunt însă deosebite, gândindu-ne doar la economia de timp realizată în procesul evaluării psihologice.
Formula Spearman-Brown de calcul al coeficientului de fidelitate pleacă de la premisa că un test este compus dintr-un număr de n forme paralele ale acestuia, unde n reprezintă numărul de itemi. Dacă luăm în considerare această perspectivă din cadrul modelului propus de teoria clasică a testului, este ușor de remarcat faptul că, în cazul testelor lungi, varianța reală crește mai rapid în comparație cu varianța reziduală (a erorii), acesta fiind argumentul cel mai important în susținerea lungimii unor probe psihologice. Însă, metoda clasică de creștere a fidelității unei probe este contrabalansată de costurile ridicate ale evaluării și de inducerea unor erori generate de plictiseală, oboseală sau tendințele de răspuns la întâmplare.
Figura I-3 prezintă un test construit în baza teoriei clasice, cu o fidelitate inițială de 0,70, estimată după formula Spearman-Brown. Se poate observa modul în care crește fidelitatea la dublarea numărului de itemi (0,80), la triplarea acestuia (0,88), la înmulțirea de patru ori (0,90) și așa mai departe.
Totuși, relația dintre numărul de itemi și fidelitatea testului nu este una liniară. Creșterea numărul de itemi conduce la o creștere a fidelității probei până la un anumit punct, după care se înregistrează un platou, fără modificări semnificative asupra acestui indicator.
Situația este radical diferită în cazul modelelor de răspuns la item. În figura I-4 sunt reprezentate erorile standard la diferite niveluri ale factorului latent, în cazul unor probe de diferite tipuri. Există probe cu 20 și 30 de itemi ficși, precum și probe cu 20 și 30 de itemi adaptivi.
Itemii adaptivi sunt selectați automat și administrați subiectului în funcție de nivelul estimat al factorului latent pe care acesta îl posedă. Astfel, subiecți cu niveluri diferite ale factorului latent vor primi itemi diferiți.
Itemii ficși ilustrează evoluția erorii standard în cazul extremelor, atunci când nivelul factorului latent este foarte mic sau foarte mare. Așa cum s-a arătat în subcapitolul anterior, eroarea standard variază în funcție de nivelul factorului latent, fiind mai mică atunci când itemul este apropiat de nivelul factorului latent al subiectului și mai mare în cazul în care acest nivel diferă de caracteristicile itemului.
Se observă cu ușurință, de exemplu, că eroarea standard în cazul testelor adaptive cu 20 de itemi este mai mică în comparație cu eroarea standard a testelor fixe cu 30 de itemi. În condițiile în care există suficienți itemi în baza de itemi care să cuprindă niveluri variate de acoperire în factor latent, se obțin erori standard distincte la diferite niveluri ale acestuia. În mod cert, testele mai scurte generează mai puține erori, însă o probă mai fidelă poate fi obținută în condițiile utilizării unor itemi cu calități psihometrice comparabile. În orice caz, este clar faptul că erorile standard sunt semnificativ mai mici în cazul testelor adaptive în comparație cu testele clasice.
Abordarea problemei formelor paralele
Teoria clasică a testului afirmă că procesul de comparare a scorurilor în cazul a două forme ale acestuia este ideal dacă formele sunt paralele.
Teoria răspunsului la item arată că procesul de comparare a scorurilor este ideal atunci când nivelurile de dificultate diferă între persoane.
Gulliksen, în lucrarea „Theory of Mental Tests”, definește condițiile testelor paralele. Două probe sunt paralele dacă mediile și varianțele dimensiunilor măsurate sunt egale. În plus, covarianțele cu alte variabile externe trebuie să fie egale . Conform teoriei clasice, dacă aceste condiții sunt îndeplinite, vorbim despre teste paralele, iar scorurile sunt comparabile.
În realitate, paralelismul testelor este valabil doar în teorie, deoarece este aproape imposibil să construim două forme ale unui test cu medii și varianțe ale dimensiunilor absolut egale. Întotdeauna va exista o diferență la nivelul acestor indicatori. Totuși, comparabilitatea scorurilor reprezintă un aspect deosebit de important în practică, de aceea au apărut proceduri specifice de echivalare a formelor. În majoritatea lucrărilor de specialitate se întâlnește conceptul de „teste echivalente” (sau tau-echivalente), indicând faptul că cele două probe sau cele două forme ale probelor au fost supuse procedeelor de echivalare (egalizarea echipercentilă, echivalarea sau egalizarea liniară etc.). Majoritatea tehnicilor de echivalare presupun regresia unei forme la cealaltă (fie la nivel parametric, fie la nivel neparametric) și, în funcție de dreapta de regresie, identificarea scorurilor comparabile.
Indiferent de metoda de echivalare folosită, dacă formele nu sunt strict paralele, apare o anumită eroare, cunoscută ca „eroare de echivalare”, determinată de diferențele dintre cele două forme. De aceea, o bună echivalență a formelor presupune distribuții asemănătoare ale scorurilor, dar și o fidelitate ridicată.
Pentru a ilustra cele expuse, în figura I-5 au fost prezentate scorurile la două teste de aptitudini – unul ușor și unul greu –, precum și graficele regresiilor liniare și cubice ale unui test la celălalt .
Se constată, în primul rând, inadecvarea modelului de echivalare liniară. Scorurile testului ușor sunt subestimate de către modelul de regresie liniară în anumite situații și supraestimate în altele. Un coeficient de echivalență de 0,67, propus de modelul de echivalare liniară, nu este adecvat. Relația de echivalență dintre cele două probe nu este una liniară, ci curbiliniară. Aplicând modelul de regresie cubică, unul dintre modelele folosite în cazul relațiilor neliniare dintre două variabile, se obține un coeficient de echivalență de 0,84, care descrie mai bine acest aspect și reduce semnificativ erorile de echivalare.
Observăm cu ușurință problemele modelului clasic atunci când avem în vedere forme echivalente. Varianța scorurilor obținute la testul ușor este mare, în cazul comparației cu scorurile obținute la testul greu (partea stângă a figurii I-5). Subiecții care obțin 0 puncte la testul greu, obțin între 0 și 25 de puncte la testul ușor. Astfel, folosind un test dificil, nu există nicio posibilitate de a diferenția subiecții cu un nivel redus al aptitudinii. Analog, subiecții care au răspuns variabil la testul dificil nu pot fi diferențiați folosind testul ușor.
Prezentarea acestei situații – extreme ca model – evidențiază dificultatea construcției probelor echivalente folosind modelul teoriei clasice a testului. Pentru a diferenția subiecții cu un nivel al aptitudinii foarte mic sau foarte mare este necesară utilizarea mai multor probe de același fel, acesta fiind unul dintre aspectele neeconomice ale metodei.
În figura I-6 se prezintă relațiile cu nivelul factorului latent ale celor două probe construite în baza teoriei clasice a testului. Remarcăm, și în acest caz, relația neliniară între scoruri și factori, atât în cazul testului ușor, cât și în cazul testului greu. Distanțele între scorurile brute nu corespund distanțelor între scorurile reale. Totodată, valorile corelațiilor multiple diferă între cele două teste, inducând ideea unor probleme serioase sub aspectul echivalenței.
Figura I-7 arată situația analogă, bazată pe un test adaptiv cu 30 de itemi. Nivelul de dificultate al itemilor este selectat automat în funcție de răspunsurile subiectului, astfel încât se mulează perfect pe nivelul real de acoperire în factor latent. Persoanele cu un nivel ridicat al factorului latent vor primi itemi mai „dificili”, în timp ce persoanele cu un nivel scăzut al factorului latent primesc itemi „ușori”. În acest caz, nu numai că relația dintre scorurile obținute și nivelul real al factorului este una liniară, dar și corelația dintre cele două este mult mai puternică.
S-a arătat modul în care teoria răspunsului la item contrazice teoria clasică a testului psihologic, conform căreia cea mai bună estimare a scorului real este obținută prin forme paralele. În realitate, acest deziderat se obține cel mai eficient prin itemi adaptivi.
Abordarea problemei evaluării caracteristicilor itemilor
Teoria clasică a testului susține că analiza itemilor se realizează folosind eșantioane reprezentative.
Teoria răspunsului la item afirmă că analiza itemilor se poate face pe baza unor eșantioane nereprezentative.
Se cunoaște foarte bine că în teoria clasică a testului, determinarea dificultății unui item se realizează prin calculul proporției subiecților care au răspuns corect la acesta, iar discriminarea reprezintă corelația itemului cu scorul total, exprimată, de obicei, sub forma unei corelații de tip biserial. Aceste analize sunt însă dependente de reprezentativitatea eșantionului, existând diferențe semnificative la nivelul indicatorilor în cazul în care se folosesc diferite eșantioane.
Figura I-9 prezintă graficul analizei dificultății a doi itemi folosind teoria clasică a testului. Relația, deși monotonă în general, nu este una liniară. De asemenea, distanțele nu sunt egale, depinzând de eșantion. Pentru itemii ușori, distanțele vor fi mai mari în cazul eșantioanelor cu un nivel scăzut al factorului latent și mai mici în caz contrar, reciproca fiind de asemenea valabilă. Putem presupune logic că cele două corelații biseriale efectuate la nivelul eșantioanelor vor fi diferite.
În situația unui item construit în baza teoriei răspunsului la item (vezi figura I-8), corespondența dificultății itemului este aproximativ la fel, ținând cont de cele două eșantioane luate în calcul. Relația este una liniară și monotonă, putând presupune existența unui coeficient ridicat al corelației biseriale între dificultatea itemului, calculată la nivelul celor două eșantioane.
Abordarea problemei semnificației scorurilor standard
Teoria clasică a testului susțină că scorurile brute dobândesc semnificație pe baza poziției acestora într-un eșantion normativ.
Teoria răspunsului la item acordă semnificație scorurilor brute prin compararea distanței acestora față de itemi.
Acest aspect elimină necesitatea etaloanelor în teoria răspunsului la item și schimbă radical percepția asupra semnificației scorurilor brute. În teoria clasică a testului, baza evaluării o reprezintă scala ordinală, avându-se în vedere poziția scorului obținut de un subiect față de scorurile ordonate obținute de un grup reprezentativ de subiecți, numit eșantion normativ. Acestea sunt cunoscutele etaloane, intens uzitate în practica de evaluare psihologică. În termeni tehnici, scorurile standard se obțin pe baza unei transformări liniare a scorurilor brute, în funcție de caracteristicile unui eșantion normativ.
În figura I-10 a fost reprezentat modul clasic de acordare a semnificației scorurilor brute în cazul unei probe oarecare (FIM). Histogramele reprezintă frecvența scorurilor standardizate z în cadrul eșantionului normativ și, de asemenea, au fost proiectate scorurile z ale unui număr de patru persoane (A, P, M și V). Se poate observa că semnificația scorurilor brute se raportează la poziția pe care acestea o au în raport cu eșantionul normativ. Persoana A prezintă un scor sub medie – o slabă acoperire în factor latent –, în timp ce persoanele M și V au scoruri peste medie – acoperire bună în factor latent. Similar, persoana P are o acoperire medie în factor latent.
Principala problemă a teoriei clasice a testului este aceea că semnificația scorurilor brute depinde de eșantionul normativ. Scorurile brute nu spun nimic prin ele însele, nu oferă informații legate de acoperirea reală în factor latent, de nivelul real al aptitudinii unei persoane. Cu alte cuvinte, nu oferă informații despre criteriul măsurat, ci doar despre locul pe care îl ocupă un subiect în raport cu o populație de referință, sub aspectul criteriului măsurat. Dacă am considera cazul evaluării unui student cu o probă de fluență verbală, semnificația scorului său va fi diferită dacă îl vom raporta la un eșantion reprezentativ de avocați, în comparație cu raportarea la un eșantion reprezentativ de muncitori în construcții.
Teoria răspunsului la item oferă posibilitatea raportării directe la criteriul măsurat, deoarece modelul plasează atât persoana, cât și itemul, pe aceeași scală (vezi figura I-11). Itemii sunt ordonați în funcție de nivelul de acoperire în factor latent (dificultate), pe un continuum similar distribuției z – în general de la -3 la +3. Pe același continuum sunt poziționate și cele patru persoane, în funcție de răspunsurile acordate.
În concordanță cu această abordare, se poate constata absența eșantionului normativ și relația directă cu performanța. În cazul în care nivelul factorului latent al unei persoane este apropiat de gradul de acoperire în factor latent al itemului, probabilitatea ca persoana să răspundă corespunzător (să „rezolve” itemul) este foarte mare. Astfel, itemii situați în jurul poziției subiectului au cea mai mare probabilitate de a fi rezolvați, aceasta fiind o expresie directă a performanței sale în cadrul probei.
Modelele de răspuns la item nu mai presupun o transformare liniară a scorurilor brute în raport cu un eșantion normativ, ci permit estimarea directă a nivelului de acoperire în factor latent, pe baza caracteristicilor itemilor (prin transformarea liniară a gradului de acoperire în factor latent al itemului în nivel de acoperire în factor latent al persoanei).
Problema stabilirii proprietăților scalei de măsură
Teoria clasică a testului afirmă că proprietățile scalei de interval, necesare măsurării, se obțin prin intermediul distribuției normale.
Teoria răspunsului la item susține că proprietățile scalei de interval se obțin prin aplicarea unui model de măsurare adecvat.
Întregul fundament al teoriei clasice a testului se bazează pe distribuția gaussiană. Normalitatea distribuției reprezintă axioma de bază în condițiile în care se folosesc teste psihologice construite după modelul clasic. Itemii sunt selectați astfel încât să respecte distribuția normală sau, în cazul în care acest lucru nu este posibil, se aplică tehnici de normalizare a distribuției (transformări neliniare, parametrice sau neparametrice). În practică, foarte rar se obțin distribuții perfect normale, din motive care țin atât de caracteristicile itemilor, cât și de distribuția teoretică a criteriului, ori de eșantionul folosit în cercetare. Normalizarea distribuțiilor generează, însă, o serie de probleme deloc neglijabile.
Revine în discuție problema comparabilității testelor. În cazul unui test greu, tendința scorurilor este de a se aglomera în stânga distribuției, generând o distribuție asimetrică la dreapta. Testele ușoare generează distribuții asimetrice la stânga, cu aglomerarea scorurilor în partea dreaptă. În această situație devine evident caracterul neliniar al regresiei unui test ușor la un test greu, așa cum s-a arătat anterior. Pentru a putea fi comparate, se impun anumite tehnici de normalizare, care, în marea lor majoritate, realizează anumite transformări neliniare la nivelul scorurilor, extinzând sau comprimând distribuția acestora. Deși prin aceste metode se poate ajunge la distribuții relativ normale, totuși apar o serie de efecte secundare. În primul rând, distanța relativă dintre scoruri nu se păstrează constantă, fapt ce va conduce la intervale inegale – implicit la încălcarea uneia dintre asumpțiile scalei de interval.
În figura I-12 a fost reluată situația regresiei unui test ușor la un test greu. Dincolo de caracterul neliniar al echivalenței, se poate constata și lipsa de constanță a distanțelor relative. Distanța de 5 puncte în cazul unui test greu (scoruri între 5 și 10) corespunde unei distanțe de 5 puncte și în situația testului ușor (scoruri de la 20 la 25), doar în cazul scorurilor mici obținute la testul greu. Pentru scorurile mari la testul greu (scoruri de la 20 la 25) se observă lipsa echivalenței intervalului în cazul testului ușor.
Atunci când avem în vedere modele de răspuns la item, diferențele dintre itemi se reflectă în diferențe similare sub aspectul performanței așteptate, indiferent că vorbim despre itemi ușori sau dificili (vezi figura I-13). Cei doi itemi prezentați au niveluri diferite de acoperire în factor latent (-1,5, respectiv 1,5). Primul item este ușor, al doilea item este greu. Observăm că diferența de un punct sub aspectul dificultății itemului se reflectă în aceeași diferență de un punct sub aspectul probabilității estimate de acoperire în factor latent (performanța subiectului), indiferent că ne situăm în zona scorurilor mici sau mari, ori dacă vorbim de itemul ușor sau greu. Caracterul scalei de interval este respectat în toate asumpțiile sale.
Al doilea aspect problematic al normalizărilor ține de însuși caracterul distribuției teoretice a caracteristicii măsurate la nivelul populației. Este evident faptul că un test ușor va avea, în mod natural, o distribuție asimetrică la stânga în cadrul populației, tendința fiind de a realiza un punctaj mare. În acest caz, pentru a respecta cerințele scalei de interval, singurele transformări permise sunt cele de tip liniar (de exemplu transformările în scoruri z, stanine, sten etc.), însă normalizarea presupune tocmai transformări de tip neliniar. Se încalcă, astfel, însuși specificul scalei de interval, obligându-ne la revenirea către o scală ordinală. Soluția ar fi ca itemii să aibă un nivel extrem de variat de acoperire în factor latent, însă acest lucru va conduce la teste foarte lungi și inaplicabile practic și, în plus, ar induce multiple erori generate de plictiseala și oboseala subiecților.
Din cele expuse, rezultă că scala de interval folosită de teoria clasică a testului este puternic dependentă de specificul populației. Testele astfel construite sunt aplicabile doar unei categorii de populație (spre exemplu celor cu un intelect redus), fiind aproape inutile în alte cazuri. Acest aspect poate fi incomod în practică, deoarece necesită probe special construite pentru diferite categorii, dar care măsoară același construct. Nu putem ignora nici faptul că, în mod curent, practicienii nu cunosc inițial categoria de populație în care se încadrează subiectul. Astfel, vor fi nevoiți să extindă evaluarea cu probe multiple până în momentul în care se poate estima precis nivelul de acoperire în factor latent, lucru care generează un mare consum de timp și resurse.
Modelele de răspuns la item nu se confruntă cu asemenea probleme. După unii autori , acestea îndeplinesc perfect condițiile unei scale de interval, chiar și de raport, deoarece modelul de măsurare nu depinde de distribuția caracteristicii la nivelul populației. Singura condiție este aceea ca datele observate să corespundă modelului de măsurare ales, cerință destul de dificil de îndeplinit. Teoria răspunsului la item nu are un model de măsurare unic, precum teoria clasică a testului, ci mai multe modele, fiecare dintre ele cu mai multe variante, iar alegerea modelului necesită o oarecare experiență, element care în mod cert i-a limitat popularitatea.
Problema itemilor micști
Teoria clasică a testului susține că itemii cu format mixt determină un scor total dezechilibrat.
Teoria răspunsului la item afirmă că tocmai itemii cu format mixt contribuie la un scor total optim.
Prin itemi micști vom înțelege acei itemi pentru care variantele de răspuns au un număr variabil de categorii. De exemplu, dacă un item are două variante de răspuns, iar celălalt item prezintă 6 variante de răspuns, atunci un test în care sunt incluși ambii itemi este un test cu itemi micști. Conform teoriei clasice a testului, faptul că itemii au un număr diferit de variante de răspuns conduce la ponderi diferite ale acestora în scorul total, destabilizând, astfel, scorul brut final. Lucrurile sunt evidente în cazul scalelor ordinale (de exemplu, scalele de tip Likert); desigur că itemii cu răspunsuri pe o scală de la 1 la 4 au o pondere mai redusă în scorul total, în comparație cu itemii cu răspunsuri pe o scală de la 1 la 8, acest lucru destabilizând, în mod cert, rezultatul. Atât media, cât și abaterea standard vor crește în comparație cu situația în care toți itemii ar fi cotați pe aceeași scală.
Constructorii de teste clasice au dezvoltat o serie de tehnici pentru a rezolva această problemă. Una dintre metode constă în calculul scorurilor z pentru fiecare item și apoi însumarea acestor scoruri z în vederea obținerii unui scor standardizat total. Considerăm că metoda este însă dependentă de eșantionul pe care s-a făcut această estimare. Scorurile standardizate pot fi relevante la nivelul unui eșantion și absolut inutile în cazul unul alt eșantion, deoarece media și abaterea standard diferă. O altă tehnică presupune egalizarea scorurilor prin multiplicarea sau împărțirea acestora cu o constantă. Spre exemplu, dacă majoritatea itemilor au 4 variante de răspuns, iar unii itemi au 8 variante de răspuns, scorul obținut la aceștia din urmă se împarte la doi. Strict matematic, procedura funcționează. Practic, însă, persoanele aplică strategii de lucru diferite atunci când se confruntă cu itemi micști. La nivel subiectiv, răspunsul 2 pe o scală de la 1 la 4 are o anumită semnificație, același răspuns pe o scală de la 1 la 8 are o altă semnificație și nu există mijloace prin care să se poată ajusta, statistic, strategiile de lucru ale subiecților.
În teoria răspunsului la item, itemii micști pot fi combinați fără nicio problemă. Parametrii itemilor relaționează răspunsurile cu acoperirea în factor latent. În figura I-14 este reprezentată analiza scalei unui item cu patru variante de răspuns. Pentru fiecare nivel al factorului latent a fost trasată probabilitatea de alegere a unei variante de răspuns. Punctul de intersecție a curbelor reprezintă nivelul de acoperire în factorul latent, în care probabilitatea de alegere a categoriilor este egală. Probabilitatea de alegere a răspunsului 0 este foarte mare la un nivel de acoperire în factor latent foarte redus și scade destul de abrupt, pe măsură ce nivelul de acoperire în factor latent crește. Acest răspuns este foarte puțin plauzibil și, în mod cert, nu va fi ales de persoanele cu un nivel de acoperire în factor latent acceptabil. Pe de altă parte, răspunsul 3 are o probabilitate foarte mare de a fi ales de către persoanele cu o încărcătură mare în factor latent. La un nivel al factorului latent mediu, probabilitatea de alegere cea mai mare o are varianta 2, iar probabilitatea de alegere cea mai mică o au variantele 0 și 3.
Alegerea unei variante de răspuns, în cazul modelelor de răspuns la item, nu depinde de tipul de scală, ci de probabilitatea calculată ca acel răspuns să fie ales. Astfel, scorul total nu este ponderat de numărul de categorii, ci reprezintă probabilitatea cu care acel răspuns este ales. Remarcăm, de asemenea, larga dispersie a celor patru categorii de răspunsuri de-a lungul domeniului factorului latent. Răspunsurile 1 și 2 se întind pe aproape întregul domeniu, în timp ce răspunsurile 0 și 3 vizează, mai degrabă, extremele.
Același item este reprezentat în figura I-15, de această dată cu opt variante de răspuns. Primul lucru de remarcat este natura dispersiei categoriilor de-a lungul domeniului factorului latent. Distribuția este mult mai „strânsă” comparativ cu situația celor patru variante de răspuns, însă semnificația alegerii unei categorii este mai mare.
În altă ordine de idei, sunt de remarcat nivelurile de probabilitate. În cazul celor patru variante de răspuns, probabilitatea maximă de alegere a oricărei categorii varia între 0,48 pentru varianta 1 și 0,85 pentru variantele 0 și 3. Situația celor 8 categorii păstrează un nivel ridicat de probabilitate doar pentru varianta 7, în celelalte cazuri probabilitățile nu depășesc 0,5. Cu alte cuvinte, deși numărul de categorii este mai mare, semnificația acestei creșteri în termeni de acoperire în factor latent este mult prea redusă.
Test versus item
Capitolul a realizat o minimală introducere în istoricul evaluărilor psihologice, în evoluția teoriei clasice a testului și în teoria răspunsului la item, marcând, totodată, o serie de diferențe importante între cele două teorii. Prezentarea acestor cadre de referință nu se poate opri aici. Am vrut doar să accentuăm faptul că teoria răspunsului la item nu este o simplă extensie a modelului clasic, ci un concept nou, diferit, uneori situat ideologic la polul opus. Rămâne întrebarea: care model este superior căruia?
Nu considerăm că răspunsul ar putea avea conotații valorice și, deocamdată, întrebarea rămâne retorică. Popularitatea și enormul volum de cunoștințe acumulat într-o perioadă de mai bine de 100 de ani recomandă teoria clasică a testului, în ciuda unor lacune demonstrabile. Rigurozitatea și eficiența sunt argumente în sprijinul teoriei răspunsului la item. Pe de altă parte, tocmai rigoarea matematică, rigiditatea axiomelor, dificultatea îndeplinirii cerințelor esențiale și varietatea modelelor conduc la lipsa de popularitate a acesteia din urmă. Dacă vorbim în termeni de precizie științifică, este clar că modelele teoriei răspunsului la item sunt superioare. Dacă ne referim la ușurința în proiectare, construcție și administrare, probele construite pe baza teoriei clasice sunt preferate. Prin urmare, nu există un răspuns ferm, categoric.
Comparând scorurile reale și observate (specifice teoriei clasice) cu scorurile abilităților (scoruri specifice teoriei răspunsului la item), Lord făcea următoarea afirmație: „Scorurile abilităților sunt fundamentale pentru că sunt independente de test, în timp ce scorurile observate și cele reale sunt dependente de test” . Nu trebuie să uităm că la acea dată nu exista conceptul de modele de răspuns la item și nici teoria care îl fundamentează. Este important, însă, că autorul american a sesizat, în plină perioadă de frenezie și de dezvoltare a probelor bazate pe modele clasice, această problemă majoră, care, ulterior, va constitui baza diferențelor dintre cele două teorii.
Într-adevăr, subiectul vine la evaluarea psihologică având un anumit nivel de acoperire în factor latent. Acest nivel de acoperire ține doar de el, are un caracter intern și individual. Scopul evaluării psihologice este acela de a releva cât mai precis „cantitatea” de construct psihologic pe care o posedă subiectul. Așadar, scopul evaluării psihologice ține de sarcinile administrate subiectului, cu alte cuvinte de teste sau alte probe. Conform teoriei clasice a testului, examinații vor avea scoruri ridicate la teste ușoare și scoruri scăzute la testele dificile, dar acest lucru nu conduce, nici pe departe, la o estimare precisă a „cantității” de construct psihologic pe care o posedă subiectul (a nivelului de acoperire în factor latent). Scorul „abilității” sale, relaționat constructului măsurat, rămâne constant la momentul evaluării (fiind, în realitate, un atribut intern și nu dependent de un eșantion), însă nu poate fi cunoscut folosind probe clasice. Cunoașterea sa precisă devine, astfel, atributul noii teorii.
Revenind la întrebarea de mai sus, nu putem judeca o teorie în termeni valorici de bun-rău, util-inutil. Teoriile, în general, și teoriile testului psihologic, în special, furnizează un cadru de referință, asociind variabilele observabile (precum scorul concret al unui test) unor constructe psihometrice neobservabile direct (precum scoruri observate, scoruri reale, niveluri ale factorului latent etc.). Toate aceste concepte, aflate la un nivel maximal de generalitate, nu pot fi judecate în termeni de utilitate sau de valoare până când nu vor lua forma unui model. Un model provine din cadrul general al unei teorii și furnizează detalii referitoare la relațiile dintre conceptele teoretice, setul de asumpții de bază, condițiile de aplicare și așa mai departe. Astfel, un model dobândește valoare și utilitate practică în anumite situații particulare în care poate fi aplicat.
Tabel – Principalele diferențe între teoria clasică a testului și teoria răspunsului la item .
Modele de răspuns la item
Teoria răspunsului la item fundamentează un proces de măsurare bazat pe modele, care controlează o multitudine de variabile confundate, implicate în elaborarea scorului total, în vederea unei parametrizări complete a situației de măsurare. Nivelul factorului latent al unei persoane este estimat în baza răspunsurilor la itemii testului. Un model al teoriei răspunsului la item (notat prescurtat IRM – Item Response Model) arată modul în care se asociază nivelul factorului latent și proprietățile itemului în vederea caracterizării răspunsurilor subiectului. Orice estimare a gradului de acoperire în factor latent se efectuează doar în baza unui anumit model de răspuns la item, acest lucru conferind teoriei răspunsului la item caracteristica sa de bază – proces de măsurare bazat pe modele.
Nu reprezintă un secret faptul că la baza demersului explicativ al comportamentului uman se află constructe psihologice, deseori operaționalizate sub formă de variabile latente. Acestea pot fi descrise ca entități neobservabile care influențează variabilele manifeste, observabile, precum răspunsurile la itemii unui test sau scorul total obținut la acesta. Astfel, răspunsul unui subiect la un item sau scorul obținut de către un subiect la un test reprezintă un indicator al nivelului variabilei latente la acea persoană, fără a putea defini complet variabila respectivă. Nu putem omite faptul că măsurarea constructelor psihologice are un caracter indirect, variabilele latente fiind măsurate pe baza observării comportamentului subiecților la anumite sarcini relevante pentru constructul investigat. Din această cauză, putem concluziona că atât caracteristicile persoanei, cât și cele ale itemilor rezultă din comportamentul observat. În acest caz, o teorie a măsurării în psihologie trebuie să furnizeze o justificare a modului în care comportamentul este legat de constructul psihologic.
Cu toate că termenul de model are, în psihologie, multiple semnificații, atunci când vorbim despre măsurarea dimensiunilor psihologice, acesta devine un model matematic în care variabilele independente sunt combinate numeric pentru a putea prezice adecvat o variabilă dependentă. Plecând de la definiția expusă mai sus, se impun anumite precizări:
Un model de măsurare postulează o scală în baza căreia vor fi înregistrate observațiile. Scala de măsură se comportă ca o variabilă dependentă și poate fi un scor, un răspuns la item, sau o matrice a relațiilor dintre itemi, ori dintre răspunsuri . Aceasta este legată direct de variabila latentă care urmează a fi măsurată, putând, astfel, infera că, în procesul de măsurare în psihologie, variabila dependentă este reprezentată de nivelul de acoperire în factor latent pe care îl are subiectul evaluat.
Acest model matematic specifică, de asemenea, una sau mai multe variabile independente, operaționalizate similar variabilei dependente.
În sfârșit, modelul matematic arată modul în care variabilele independente se combină numeric pentru a prezice nivelul variabilei dependente. Acesta poate fi un model aditiv liniar, precum cel întâlnit în regresia liniară, un model logistic etc.
Asumpțiile modelelor de răspuns la item
La fel ca și teoria clasică a testului, teoria răspunsului la item include o serie de asumpții referitoare la datele cărora li se poate aplica un model de măsurare. În primul rând, se impune ca itemii care formează un test să măsoare doar o singură dimensiune, un singur factor latent. Acest postulat de bază este cunoscut sub numele de unidimensionalitate și este legat de o a doua asumpție, și anume independența locală a itemilor.
Plecând de la afirmația că performanța unui subiect la un item al unui test poate fi prevăzută și explicată prin existența unui factor latent, relația dintre această performanță și factorii latenți care stau la baza acesteia este descrisă printr-o funcție monotonă și crescătoare, numită funcția de răspuns la item (IRF) sau curba caracteristică a itemului (ICC). Acesta este al treilea postulat al teoriei răspunsului la item și arată că pe măsură ce nivelul factorului latent crește, va crește și probabilitatea de răspuns la un anumit item care se referă la acest factor latent. Relația nu este însă una liniară, ci are anumite caracteristici.
Unidimensionalitatea
Acest postulat susține că doar un singur factor latent poate fi măsurat de un anumit item sau de un anumit set de itemi ai unui test. Deși acesta este cazul ideal, totuși asumpția nu poate fi îndeplinită strict, deoarece foarte multe dimensiuni ale personalității, multe aptitudini ori factori cognitivi sunt explicate prin mai mult de un singur factor latent. În acest scop, alături de modelele de măsură unidimensionale au fost concepute și modele de măsură multidimensionale, cu un grad mai ridicat de complexitate. În literatura de specialitate se susține că „unidimensionalitatea nu se referă strict la prezența doar a unei singure dimensiuni, ci la existența unei dimensiuni dominante care să influențeze performanța la test”. Această dimensiune dominantă se numește abilitate sau, mai general, acoperire în factor latent (ϴ). În cazul unui test de inteligență, nu putem avea pretenția ca itemii să măsoare inteligența pură. Se cunoaște faptul că performanța la un test de inteligență este influențată și de alți factori (motivația, memoria, oboseala, familiarizarea cu sarcina etc.). Totuși, este clar că factorul dominant care asigură performanța rămâne totuși inteligența ca aptitudine generală, astfel, asigurându-se unidimensionalitatea. Mult mai nuanțate sunt aspectele în ceea ce privește factorii de personalitate. Spre deosebire de inteligență, unde unidimensionalitatea se poate asigura mai ușor, anxietatea, de exemplu, este mai greu de identificat ca factor latent unic. În acest caz pot interveni depresia, emotivitatea, anumite situații anxiogene cu caracter temporar etc. Pentru a se putea folosi un model de măsurare unidimensional bazat pe teoria răspunsului la item, va trebui ca itemii să fie în prealabil testați în vederea asigurării unidimensionalității sau să se utilizeze un model de măsurare multidimensional.
Referitor la conceptul de acoperire în factor latent, nu este necesar ca acesta să aibă un caracter imuabil. În mod cert, scorurile obținute se pot modifica în timp ca efect al învățării, uitării sau determinate chiar de dinamica personalității, fără ca acest lucru să influențeze unidimensionalitatea.
Modelele de răspuns la item care presupun că o singură dimensiune dominantă este necesară și suficientă pentru a explica performanța se numesc modele de măsură unidimensionale (UIRM). În cazul în care performanța este explicată de mai multe dimensiuni, avem de a face cu modele de măsură multidimensionale (MIRM) . Din nefericire, acestea din urmă sunt complexe și încă insuficient elaborate, astfel încât se preferă utilizarea modelelor unidimensionale și, prin urmare, folosirea unor tehnici specifice prin intermediul cărora să se poată garanta prezența unei singure dimensiuni dominante.
Analiza unidimensionalității face obiectul unui număr impresionant de metode. Astfel, Hattie identifică și analizează un număr de 87 de metode, iar Tate compară nouă dintre acestea. În practică, există două metode principale de analiză a unidimensionalității: analiza valorilor proprii (eigenvalues) ale matricei de corelații inter-itemi și testul Stout al unidimensionalității esențiale , de multe ori cele două metode fiind folosite împreună, una în completarea celeilalte.
Valorile proprii ale matricei de corelații (Eigenvalues)
Metoda se bazează pe rădăcinile unei matrice de corelații inter-itemi, fiind asemănătoare sub aspectul algoritmilor cu cea utilizată în analiza factorială. Deși se bazează pe date continui, metoda se poate aplica și în cazul modelelor de răspuns la item (în care itemii sunt de multe ori dihotomici sau construiți pe o scală nominală), deoarece se va lua în considerare nu răspunsul subiectului, ci gradul de acoperire în factor latent al itemului.
Matricea pătratică analizată ar trebui să fie matricea corelațiilor Pearson inter-itemi, în general exprimată sub forma coeficienților de corelație ϕ. În această situație, itemii cu un grad de acoperire în factor latent similar tind să aibă o acoperire foarte mare în factor, generând eigenvalue ridicat. De aceea, foarte multe analize nu mai utilizează coeficienții ϕ sau coeficienții r, ci coeficientul tetrachoric sau cel polichoric în cazul itemilor multidimensionali.
Plecând de la această matrice de corelații inter-itemi, similar analizei factoriale, se extrag componentele și valorile rădăcinilor (eigenvalues) proprii acestora, ordonându-se aceste valori și transpunându-se grafic (scree plot). Analiza pantei furnizează informații legate de prezența sau absența dimensiunilor dominante. În cazul în care avem o singură pantă (vezi figura II-1), itemii sunt unidimensionali. Existența mai multor pante poate conduce la supoziția unor itemi multidimensionali. Această metodă are mai mult un caracter euristic, judecata bazându-se pe reprezentarea grafică a eigenvalues și nu presupune teste statistice suplimentare. Ca repere numerice, se utilizează eigenvalues conforme cu specificațiile analizei factoriale, în care valorile rădăcinilor ce depășesc unitatea se rețin ca factori. În cazul în care analiza identifică mai multe valori supraunitare, itemii au un caracter multidimensional. Anumiți cercetători nu recomandă însă folosirea valorilor numerice. Așa cum remarcă Reckase , reperul unitar pentru eigenvalues tinde să conducă spre itemi multidimensionali atunci când se folosesc matricele bazate pe corelații. Doar analiza grafică poate indica prezența unei dimensiuni dominante.
Lord nu recomandă utilizarea coeficienților ϕ sau tetrachorici în cazul modelelor cu 3 parametri (3PL) sau atunci când factorul latent nu se distribuie normal la nivelul populației.
Testul Stout al unidimensionalității esențiale (DIMTEST)
Testul pleacă de la ipoteza nulă a unidimensionalității esențiale (itemii sunt esențial unidimensionali), respingerea acesteia la un prag de semnificație ales fiind o măsură a itemilor multidimensionali. Se mai numește testul DIMTEST, după numele programului computer care îl calculează. Unidimensionalitatea esențială apare atunci când media valorilor absolute a perechilor de itemi condiționată de factorul latent (eliminând influența factorului latent) este apropiată de zero . Altfel spus, pentru doi subiecți cu exact același nivel de acoperire în factor latent, covarianța perechilor de itemi se apropie de zero. Dacă eliminăm, izolăm influența factorului latent, covarianța perechilor de itemi este determinată doar de erorile aleatorii, fără a exista un alt factor latent care să o poată explica. Cu toate că identifică unidimensionalitatea itemilor, testul nu oferă informații legate de numărul de dimensiuni, iar prin analiza puterii efectului se poate observa gradul în care itemii se abat de la asumpția unidimensionalității.
Procedura implică analiza a două seturi de itemi la care se adaugă un al treilea subset pentru verificarea și controlul erorilor. Primul set de itemi se numește setul de evaluare (AT1 – Assessment Subset) și include itemii care vor fi evaluați, presupuși că ar fi multidimensionali. Al doilea set de itemi se numește setul de partiționare (PT – Partitioning Subset) și se folosește pentru a împărți subiecții în grupuri determinate de scoruri în vederea calculării covarianțelor între itemii din setul de evaluare (AT1) condiționați de itemii din setul de partiționare (PT). Astfel este posibilă izolarea efectului determinat de factorul latent. Al treilea set de itemi se numește setul de verificare (AT2) și include itemi similari sub aspectul unidimensionalității cu setul PT și similari ca nivel de acoperire în factor latent cu setul AT1. Covarianțele condiționale calculate pentru setul AT2 sunt scăzute din cele calculate pentru setul AT1, în vederea corectării erorilor.
În prima etapă, formarea seturilor de itemi, itemii supuși analizei se împart în două subseturi – AT și PT. Subsetul AT conține jumătate dintre itemi, cealaltă jumătate fiind alocată subsetului PT. În cadrul subsetului PT, itemii sunt presupuși a fi omogeni sub aspectul unidimensionalității, alocarea lor făcându-se pe baza matricei de corelații tetrachorice inter-itemi, folosind metoda descrisă anterior, sau în baza opiniilor unui panel de experți.
A doua etapă presupune calculul varianței estimate pentru subgrupuri și implică gruparea răspunsurilor subiecților pe baza scorurilor obținute la itemii din subsetul PT. Vor rezulta un număr de k grupuri, corespunzătoare scorurilor obținute. La nivelul fiecărui subgrup se calculează două componente ale varianței: varianța estimată () și varianța estimată unidimensională () pe baza itemilor din subgrupul supus evaluării (AT), după expresiile:
Relația II-1)
Relația II-2)
unde,
scorul obținut de subiectul j din grupul k la subsetul AT;
media scorurilor obținute de subiecții grupului k la subsetul AT;
numărul de subiecți aflați în subgrupul k;
funcția de răspuns la item a itemului i din subgrupul k;
Elementele ecuațiilor și , așa cum apar în descrieri, pot fi deduse din următoarele expresii, în care reprezintă răspunsul subiectului j din subgrupul k la itemul i al subsetului AT, iar m numărul de itemi din subsetul AT:
Relația II-3), Relația II-4),
Relația II-5)
Ultima etapă este reprezentată de calculul valorii testului T Stout al unidimensionalității esențiale. Deoarece acesta este un test standardizat care urmează o distribuție normală, varianțele estimate în etapa a doua vor trebui normalizate și combinate într-o expresie unică, astfel:
Relația II-6)
unde,
reprezintă varianța estimată normalizată;
reprezintă varianța estimată unidimensională normalizată;
Varianțele estimate normalizate prezente în se pot calcula în baza expresiilor:
Relația II-7)
Relația II-8)
Având în vedere și , se poate calcula valoarea unică a varianțelor conform ecuației și apoi valoarea testului T Stout după formula:
Relația II-9)
Covarianța calculată la numărătorul ecuației reprezintă estimarea covarianței dintre itemii și pentru subiecții al căror scor la subsetul PT este k. Această covarianță nu este altceva decât diferența dintre varianțele normalizate estimate și varianțele normalizate estimate unidimensionale (), expresia anterioară putând fi scrisă, mai simplu, în felul următor:
Relația II-10)
Din expresiile de mai sus, remarcăm faptul că setul AT trebuie să conțină cel puțin 4 itemi, astfel încât această statistică să poată fi calculată. Testul Stout T tinde să deplaseze media către valori pozitive în cazul testelor scurte (sub 5 itemi), fapt care poate induce erori. De asemenea, erorile sunt amplificate dacă itemii setului AT sunt excesiv de omogeni la un nivel constant al acoperirii în factor latent, acestea numindu-se erori de acoperire în factor latent. Se impune, așadar, corectarea acestui indicator, în vederea reducerii efectelor determinate de cele două categorii de erori. Stout a propus un al treilea set de itemi (AT2), cu o acoperire în factor latent similară itemilor din setul AT1, aleși dintre itemii setului PT. De exemplu, dacă numărul total de itemi este de 40, iar un număr de 6 itemi au fost selectați inițial în setul AT (AT1), vor fi selectați alți 6 itemi din restul de 34 de itemi rămași în PT, formându-se setul AT2.
Respectându-se modalitatea de calcul prezentată anterior și înlocuindu-se setul AT cu setul AT2, va rezulta o altă valoare pentru testul T Stout, notată TB. Valoarea finală corectată a testului T Stout se obține în funcție de cele două valori parțiale (TL și TB), după expresia:
Relația II-11)
Testul Stout T reprezintă diferența standardizată între covarianțele condiționale ale itemilor din setul AT1 și covarianțele condiționale ale itemilor din setul AT2, în condițiile în care se izolează efectul factorului latent. Valorile care depășesc pragul z la un anumit nivel de semnificație ales conduc la respingerea ipotezei nule și la identificarea multidimensionalității.
Există numeroase critici aduse acestei tehnici , în ciuda corecțiilor efectuate, susținând faptul că probabilitatea de producere a unei erori de tip I se situează la un nivel inacceptabil statistic. În cazul testelor scurte sau în cazul testelor în care itemii din subgrupul de evaluare reprezintă mai mult de o treime din numărul total al itemilor, procedura induce, într-adevăr, erori care fac discutabilă relevanța acestui indicator. De aceea, au fost propuse metode de reeșantionare în vederea corectării erorilor statistice, înlocuind setul AT2, metode cunoscute sub numele de uniformizare Kernel, incluse, și de către noi, în aplicațiile practice.
Alături de aceste două metode importante, folosite adesea împreună, există și alte tehnici de estimare a unidimensionalității pe care le vom menționa, fără a intra prea mult în detalii.
Testul Martin-Löf
Testul Martin-Löf pleacă de la ipoteza că itemii măsoară același conținut latent unidimensional și se poate aplica itemilor dihotomici sau polihotomici. Problema este că, în cazul itemilor polihotomici, va fi necesar un număr foarte mare de subiecți, volumul lotului de cercetare crescând exponențial odată cu numărul variantelor de răspuns. În plus, puterea acestui test este destul de redusă, deoarece se bazează pe o distribuție apropiată de X2 .
Relația de calcul a testului Martin-Löf se poate exprima sub forma:
(Relația II-12)
în care,
reprezintă subscorurile scalei (scorurile itemilor care compun scala
, se referă la parametrii itemilor din subscale
n reprezintă numărul observat al fiecărei combinații a subscorurilor
este o versiune bidimensională a funcției extinse log-likelihood
Estimarea probabilității maximale (maximum likelihood) reprezintă frecvențele relative ale combinațiilor subscorurilor, expresia primului logaritm. Versiunea funcției extinse log-likelihood nu este altceva decât o estimare a probabilității maximale, condiționată de parametrii itemilor din subscale.
Problema este că pe măsură ce numărul variantelor de răspuns crește, numărul combinațiilor posibile ale răspunsurilor crește exponențial. Bazându-se pe probabilități maximale, testul de unidimensionalitate trebuie să aibă în vedere toate combinațiile posibile ale variantelor de răspuns. Fiind o tehnică parametrică, respectarea acestei condiții impune un număr foarte mare de evaluări, fapt care îi limitează eficiența practică.
Testul Martin-Löf oferă și un prag de semnificație la care putem respinge ipoteza nulă și decide că itemii măsoară mai multe conținuturi latente (sunt multidimensionali). Din nefericire, aplicabilitatea practică a acestei tehnici este limitată din cauza volumului mare de date care urmează a fi colectate. Spre exemplu, evaluarea unui număr de 5 itemi, fiecare dintre aceștia având 5 variante de răspuns, implică existența unui număr de peste 3700 de subiecți. Din acest motiv, pragul de semnificație se calculează pe baza unor date simulate, plecând de la un număr redus de date reale, cea mai folosită metodă de simulare fiind Monte Carlo .
Metoda clusterizării
A fost descrisă de Rudolf Debelak și Martin Arendasy și se bazează pe analiza ierarhică de clusteri, folosind date reale și simulate. Autorii susțin că pot estima numărul de scale independente care satisfac postulatul numărului total de răspunsuri active ce pot evalua o persoană, unidimensionalitatea și independența locală a itemilor. Deși promițătoare, tehnica a fost studiată doar pentru itemi dihotomici și pe modele Rasch. Studiile ulterioare îi vor putea confirma valoarea.
Dacă majoritatea tehnicilor de analiză a unidimensionalității au la bază principiile analizei factoriale, metoda clusterizării are în vedere studiul clusterilor ierarhici parțiali și pornește de la ideile exprimate de Reckase, van Abswoude, van der Ark și Sijtsma, exprimate în perioada anilor 2004-2009. Aceste opinii au vizat atribuirea fiecărui itemi unui anumit cluster, dar nu a existat un criteriu clar de determinare a numărului de clusteri pe care îi reprezintă un set de itemi. Metoda propusă de cercetătorii austrieci are în vedere prezentarea unor indicatori statistici care pot evalua modelul sub aspectul apartenenței itemilor la un cluster unidimensional.
Din nefericire, metoda clusterizării, la fel ca testul Martin-Löf, implică un volum de date foarte mare, de aceea, alături de datele reale se vor utiliza și simulări de tip Monte Carlo.
Indicatorul principal al acestei tehnici este reprezentat de coeficientul Glas, bazat pe comparația dintre frecvențele așteptate și cele observate ale răspunsurilor subiecților la un item și scorul obținut la itemul respectiv.
(Relația II-13)
unde,
Nr reprezintă numărul de persoane care au obținut scorul r;
d.r vectorul abaterilor între frecvențele observate și cele așteptate a persoanelor care au obținut scorul r;
W.r este matricea de varianță-covarianță a vectorului d.r;
Extrem de simplă, relația pune totuși o problemă importantă, și anume cea a calculului frecvențelor așteptate. Conform autorilor, frecvența așteptată pentru răspunsurile active se poate estima după expresia:
(Relația II-14)
unde,
reprezintă funcțiile simetrice elementare ale fiecărui răspuns;
reprezintă funcțiile simetrice elementare ale fiecărui răspuns după ce itemul i a fost eliminat din vectorul parametrilor itemilor;
nr reprezintă numărul de persoane care au dat răspunsul r
unde este parametrul itemului i (în modelele Rasch)
Autorii menționează că parametrul itemilor a fost estimat pe baza tehnicii condiționale maximum likelihood iar funcțiile simetrice elementare ale fiecărui răspuns au fost calculate conform algoritmilor propuși de Gustafsson .
Statistica Glas prezintă o distribuție asimilată X2, fiind aleasă datorită puterii sale de a sesiza abaterile de la asumpțiile modelelor Rasch.
Metodele NOHARM
Sunt denumite după programul computer care le folosește în vederea evaluării unidimensionalității și au la bază analiza factorială neliniară, bazată pe pătrate neponderate și covarianțe, utilizată în cazul itemilor dihotomici . Aplicațiile computerizate au fost proiectate și realizate de Fraser și McDonald , fiind utilizate și în prezent.
Cu unele diferențe, metodele NOHARM pleacă de la ipoteza nulă conform căreia diagonala principală a elementelor într-o matrice de corelații a reziduurilor produsă de analiza factorială este diferită de zero. Dacă această ipoteză nulă nu se respinge, atunci putem considera că modelul ales aproximează în mod corespunzător datele observate. În cazul în care modelul ales este unidimensional, atunci poate fi respinsă ipoteza nulă a multidimensionalității .
Indicatorul unidimensionalității poate fi scris ca:
(Relația II-15)
în care,
N este numărul de subiecți evaluați;
n este numărul de itemi (identificați prin i și l).
Toată problema o reprezintă calculul expresiei , corelațiile reziduale standardizate conform distribuției z. Pentru o pereche de itemi, corelațiile reziduale pot fi calculate după ecuația:
(Relația II-16)
unde:
reprezintă proporția de participanți care au răspuns activ la itemii i și l
, proporția participanților care au răspuns activ la itemul i respectiv l.
Cunoscând corelațiile reziduale, standardizarea acestora se poate realiza foarte simplu pe baza relației:
(Relația II-17)
Indicatorul rezultat se raportează la distribuția X2 pentru un număr de 0,5n(n-1)-t grade de libertate, unde n reprezintă numărul de itemi, iar t se referă la numărul de parametri independenți estimați – 2 pentru un model unidimensional.
Deoarece NOHARM reprezintă un grup de metode și nu una singură, ne vom rezuma să enumerăm câteva, fără a intra în detalii. Vom putea regăsi metoda raportului aproximativ de probabilitate (ALR – Approximate Likelihood Ration) propusă de Gessaroli, De Champlain și Folske , sau testul de adecvare a modelului (goodness-of-fit), sugerat de Maydeu-Olivares ca îmbunătățire a metodei ALR .
Ar fi imposibil să tratăm în detaliu toate procedeele de evaluare a unidimensionalității. Ne vom rezuma la cele expuse mai sus și vom menționa că, așa cum s-a precizat, în practică se pot folosi metodele bazate pe eigenvalue, testul Stout și NOHARM. Primele două și variante ale NOHARM sunt incluse în aplicațiile noastre.
Independența locală
Independența locală a itemilor postulează că în condițiile în care se izolează factorul latent (se elimină influența acestuia), răspunsurile subiecților la itemi sunt independente. Cu alte cuvinte, există un singur factor care poate explica relația dintre oricare doi itemi ai unui test, acesta fiind factorul latent, influența oricăror altor factori fiind neglijabilă. Dacă se elimină influența factorului latent, corelațiile dintre oricare doi itemi nu sunt semnificative. Astfel, factorul latent (sau factorii latenți în cazul modelelor multidimensionale) reprezintă spațiul latent complet. În mod normal, dacă se respectă postulatul unidimensionalității, spațiul latent complet este caracterizat de un singur factor latent. Acest postulat arată că probabilitatea unui patern de răspunsuri la un test bazat pe modele de răspuns la item este egală cu produsul probabilităților asociate răspunsurilor la fiecare item din test .
Independența locală a itemilor poate fi realizată doar în condițiile în care spațiul latent este complet descris de factorul sau factorii latenți. În condițiile în care postulatul unidimensionalității este îndeplinit, cele două asumpții pot deveni uneori echivalente. Dacă itemii sunt unidimensionali, independența locală devine, în anumite condiții, un corolar al unidimensionalității. Dacă itemii nu sunt unidimensionali, va trebui verificat dacă factorii latenți descriu complet spațiul latent, în vederea asigurării independenței locale a itemilor. În cazul unui test verbal de inteligență, performanța va fi în mod cert condiționată și de capacitatea subiectului de a citi și de a înțelege frazele citite. Alături de inteligența generală, ca dimensiune dominantă, intervin și comprehensiunea semantică, precum și abilitatea de citire. Într-o asemenea situație, pot exista subiecți cu o aptitudine redusă de lectură, însă cu o inteligență normală, nereflectată în performanță. Spațiul latent nu este complet descris de către inteligență, chiar dacă itemii pot fi considerați unidimensionali, încălcându-se independența locală, deoarece, dacă izolăm inteligența, pot exista corelații între itemi, determinate de efectele aptitudinii de a lectura și a comprehensiunii semantice. Acesta este un exemplu de situație în care itemi unidimensionali pot încălca postulatul independenței locale.
Una dintre metodele cu ajutorul cărora se poate verifica independența locală a itemilor este reprezentată de testul Q3 al lui Yen , care verifică perechile de itemi în vederea identificării dependenței locale.
În prima etapă sunt estimați parametrii itemului și parametrii persoanei, în cele mai multe cazuri reprezentați de probabilitatea de răspuns activ (corect) și răspunsul observat. Reziduurile, pentru un anumit item, sunt reprezentate de diferența dintre scorul observat și scorul estimat, acesta din urmă fiind exact probabilitatea de răspuns.
Relația II-18)
unde,
reziduurile pentru răspunsul subiectului i la itemul k;
răspunsul subiectului i la itemul k;
probabilitatea estimată de răspuns activ (corect) a subiectului i la itemul k.
Probabilitatea estimată de răspuns nu este altceva decât gradul de acoperire în factor latent pe care îl are itemul, cunoscută și sub denumirea de dificultate a itemului. După calcularea tuturor reziduurilor, Q3 reprezintă corelația liniară dintre perechile formate din itemii analizați:
Relația II-19)
Toți coeficienții de corelație astfel obținuți vor reprezenta elementele unei matrice de corelații (matricea Q3), analizată apoi în vederea identificării perechilor de itemi cu un coeficient de corelație a reziduurilor ridicat. Corelațiile apropiate de 1 indică faptul că cei doi itemi sunt puternic dependenți, în timp ce corelațiile apropiate de 0 arată independența itemilor. Yen nu a fost preocupat de semnificația statistică a acestei corelații, ci de magnitudinea sa, arătând că obținerea unor coeficienți de corelație peste 0,20 indică probleme în legătură cu independența itemilor perechii respective.
Modele unidimensionale de răspuns la item
Respectarea celor două asumpții indică un item unidimensional. Studiul unidimensionalității și al independenței locale nu permite însă utilizarea directă a itemului, deoarece este necesară îndeplinirea unei a treia cerințe, și anume gradul de potrivire a itemului pe un anumit model teoretic (item fit). Cu alte cuvinte, datele empiric obținute trebuie să corespundă unui anumit model de măsurare. Spre deosebire de teoria clasică a testului, care oferă un singur model de măsurare, teoria răspunsului la item pune la dispoziție o varietate impresionantă de modele de măsurare. Alegerea eronată a modelului de măsurare poate conduce la rezultate false, inutilizabile în scop diagnostic.
Modelul teoretic are ca expresie concretă funcția caracteristică a itemului (IRF), cunoscută și sub denumirea de curbă caracteristică a itemului (ICC).
Funcția caracteristică a itemului este o expresie matematică ce relaționează probabilitatea de răspuns activ la un item cu nivelul factorului latent măsurat de item sau de test . La nivel pur teoretic, poate exista un număr infinit de modele de răspuns la item, însă din rațiuni practice sunt menționate și documentate doar câteva.
O primă clasificare distinge modelele de răspuns la item în funcție de numărul parametrilor luați în calcul. Astfel, cele mai multe lucrări disting între modelele logistice bazate pe 1, 2 și 3 parametri (1PL, 2PL și 3PL). Alături de modelele logistice – frecvent utilizate – există și echivalentele lor ogivale, precum și un număr de modele specifice mai puțin cunoscute.
În funcție de tipul itemilor, se pot întâlni modele dihotomice și modele polihotomice. Modelele logistice menționate sunt modele unidimensionale, aplicabile, în special, itemilor dihotomici, fiind considerate cele mai simple modele de răspuns la item.
Modelul logistic cu un parametru (1PL)
Este unul dintre cele mai utilizate modele de răspuns la item pentru itemi unidimensionali și dihotomici și presupune existența unui singur parametru care poate caracteriza complet un item – acoperirea în factor latent (b), parametru cunoscut și sub numele de dificultate. Funcția caracteristică a itemului în cazul modelului 1PL este dată de expresia:
Relația II-20)
unde,
reprezintă probabilitatea ca un subiect cu un nivel al factorului latent ϴ să răspundă activ la itemul i;
reprezintă nivelul de acoperire (dificultatea) itemului i;
e reprezintă un număr transcendental, precum numărul π, având valoarea 2,718. Se numește și numărul lui Euler sau constanta lui Euler.
Curba caracteristică a itemului pentru modelul logistic cu un parametru este prezentată în figura II-2. Nivelul de acoperire în factor latent al itemului (b) reprezintă punctul de pe scala nivelului factorului latent (ϴ) la care probabilitatea de răspuns activ (corect) este 0,5. Acesta este un parametru pozițional, indicând poziția curbei caracteristice a itemului în relație cu scala nivelului factorului latent . Cu cât acest parametru este deplasat în sensul pozitiv al scalei, cu atât itemul are un grad mai mare de acoperire în factor latent (este mai „dificil”), solicitând din partea subiectului un nivel mai ridicat al acestuia, în cazul acordării unui răspuns activ. Într-un sens comun, parametrul b indică ce nivel de acoperire în factor latent trebuie să aibă subiectul pentru a exista 50% șanse de a răspunde în sens activ.
Conform modelului logistic cu un singur parametru, nivelul de acoperire în factor latent al itemului (b) reprezintă singurul parametru al itemului care influențează performanța subiectului, presupunând că toți itemii discriminează în mod egal și, de asemenea, excluzând posibilitatea de a răspunde activ din întâmplare.
În figura II-3 sunt reprezentați 3 itemi cu valori diferite ale parametrului b. Primul item din stânga este unul cu grad redus de acoperire în factor latent (ușor). Nivelul de acoperire al factorului latent al subiectului trebuie să fie -1, pentru ca acesta să aibă 50% șanse să răspundă activ la acel item. Al doilea item este unul cu grad mediu (b=0,25), iar al treilea item are un nivel ridicat de acoperire în factor latent (greu), deoarece subiectul va trebui să posede o „cantitate” ridicată de construct măsurat, pentru a avea 50% să răspundă activ (b=1,75).
Acest model de răspuns la item a fost sugerat de către Rasch și de aceea poate fi întâlnit sub denumirea de model Rasch. În realitate, modelul Rasch este ușor diferit de modelul 1PL, însă sub aspect matematic ele sunt echivalente.
Teoretic, scala nivelului factorului latent al subiecților (ϴ) ia valori de la -∞ la +∞ și indică o relație monoton crescătoare între nivelul de acoperire în factor latent al itemului și probabilitatea de răspuns activ la acesta. Asimptota inferioară a probabilității de răspuns este 0, iar asimptota superioară 1. Se observă că această relație nu este una liniară. Probabilitatea de răspuns activ crește variabil la diferite niveluri de acoperire în factor latent, precum și între itemi. Analizând primul item din figura II-3, constatăm că probabilitatea de răspuns activ crește relativ repede pentru subiecții cu un nivel redus de acoperire în factor latent atingând aproximativ 0,75 la un nivel al factorului latent 0 (mediu), apoi creșterea se estompează. Al treilea item prezintă o creștere foarte lentă a probabilității de răspuns pentru subiecții cu un nivel redus și mediu de acoperire în factor latent (0,15 la nivelul 0), apoi crește rapid pentru subiecții cu un nivel ridicat.
Pantele de creștere au înclinații diferite și influențează posibilitatea de discriminare a subiecților sub aspectul nivelului de acoperire în factor latent. Creșterile rapide permit discriminări nuanțate, în timp ce creșterile lente induc probleme la discriminarea subiecților cu niveluri de acoperire în factor latent apropiate. Din nefericire, 1PL nu prezintă vreun parametru pe baza căruia să se poată analiza discriminarea itemilor, cu toate că, în mod evident, aceștia au capacități discriminative diferite. Itemii cu un nivel redus de acoperire în factor latent („ușori”) discriminează bine subiecții cu niveluri mici ale factorului latent, în timp ce itemii „grei” discriminează bine subiecții cu niveluri mari ale acestuia.
Caracterizarea completă a nivelului factorului latent al subiectului pe baza nivelului de acoperire în factor latent al itemului, specifică modelului 1PL, are aplicații importante, însă imposibilitatea diferențierii controlate a subiecților la diferite niveluri ale factorului latent limitează aplicațiile practice.
Modelul logistic cu doi parametri (2PL)
Modelul a fost propus de Lord , acesta bazându-se pe distribuția normală cumulativă, 2PL fiind inițial un model ogival. Ulterior, Birnbaum a preluat modelul lui Lord și l-a transformat într-un model bazat pe funcția logistică, rezultând modelul 2PL:
Relația II-21)
Spre deosebire de ecuația , funcția caracteristică a itemului pentru modelul 2PL include un parametru suplimentar, ai, numit parametru de discriminare a itemului, relaționat pantei maxime a curbei caracteristice a itemului. Valoarea parametrului de discriminare este proporțională cu panta curbei caracteristice a itemului la punctul determinat de nivelul de acoperire al factorului latent (b) de pe scala ϴ.
În figura II-4 sunt prezentați trei itemi cu valori diferite pentru parametrii b și a. Itemul 2 are valoarea cea mai mare a parametrului de discriminare (a=1,4) și, implicit, panta cea mai abruptă. Dacă un subiect cu nivelul de acoperire al factorului latent 0 (mediu) are 50% șanse să răspundă activ la acest item, un subiect cu un nivel de acoperire în factor latent ușor redus (-0,5) va avea doar 30% șanse să răspundă activ, în timp ce o ușoară creștere a nivelului de acoperire în factor latent (+0,5) conduce la aproape 70% șanse de a răspunde activ. Itemii cu o putere discriminativă mare diferențiază ușor subiecții la modificări foarte mici ale nivelului factorului latent. Itemul 3 are puterea discriminativă cea mai mică (0,56), panta fiind foarte lină. Nivelul de acoperire al factorului latent la nivelul acestui item este de -1,2. Păstrând proporțiile, un subiect cu un nivel al factorului latent de -1,7 va avea aproximativ 42% șanse să răspundă activ, în timp ce un subiect cu un nivel al factorului latent de -0,7 va avea circa 57% șanse să răspundă activ. Dacă în cazul itemului 2, diferența de doar 1 punct pe scala nivelului factorului latent al subiectului corespundea unei diferențe de 40 de puncte procentuale pe scala probabilității de acordare a unui răspuns activ (corect), la itemul 3, aceeași diferență de 1 punct conduce la o diferență de doar 15 puncte procentuale. Este evident faptul că itemul 2 va diferenția mult mai bine subiecții cu niveluri apropiate de acoperire în factor latent în comparație cu itemul 3.
O altă observație care se impune este aceea conform căreia, în cazul modelului 2PL, curbele caracteristice ale itemilor nu mai sunt paralele, putându-se intersecta. Acest lucru ne conduce la ideea că un item poate avea niveluri diferite de acoperire în factor latent la niveluri diferite ale factorului latent al subiecților. Deși, teoretic itemul 2 este mai „ușor” decât itemul 1, la niveluri ale factorului latent mai mici de -0,5 situația se inversează. Astfel, subiecții cu nivel al factorului latent -1 au circa 27% șanse să răspundă activ la itemul 1 și doar 20% șanse pentru itemul 2. Ținându-se cont și de discriminarea itemilor, nu doar de nivelul de acoperire în factor latent, modelul 2PL poate furniza itemi cu niveluri variabile de acoperire în factor latent pentru diferite zone ale factorului latent prezent la subiecții evaluați.
Similar factorului latent, discriminarea poate lua, teoretic, valori între -∞ și +∞. Conform modelelor de răspuns la item, valorile negative ale parametrului a, deși posibile, nu sunt acceptate și indică probleme la nivelul itemului (de obicei probleme la nivelul scalei). Valorile uzitate se încadrează între 0 și 2, mai rar depășind acest interval.
Modelul logistic cu trei parametri (3PL)
Modelul 2PL reprezintă o extensie a modelului 1PL, în vederea introducerii posibilității de discriminare la nivel de itemi. Totuși, ambele modele postulează că probabilitatea de răspuns activ a unui subiect cu nivel zero de acoperire în factor latent este, și ea, tot zero. Cu alte cuvinte, nici 1PL și nici 2PL nu prevăd posibilitatea ca subiectul să poată acorda un răspuns activ prin ghicire. Cele două modele de răspuns la item sunt ideale pentru situația itemilor cu răspuns liber. În majoritatea cazurilor, probele psihologice standardizate oferă itemi cu alegeri multiple la care probabilitatea de găsire întâmplătoare a răspunsului activ nu este de neglijat. Astfel, se impune o nouă extensie a modelului 2PL, prin includerea unui nou parametru, în vederea soluționării acestui aspect .
Relația II-22)
Ecuația reprezintă expresia funcției caracteristice a itemului în cazul modelului 3PL, parametrul c numindu-se nivel al pseudo-șansei. Acesta conferă posibilitatea existenței unei asimptote inferioare mai mare de zero, luând în calcul și situația în care răspunsurile subiecților ar fi semnificative din pură întâmplare. Concret, parametrul c indică probabilitatea subiecților cu un nivel redus al factorului latent de a oferi un răspuns activ (corect).
În figura II-5 a fost reprezentată curba caracteristică a unui item cu b=1,5; a=1,8 și c=0,16. Spre deosebire de celelalte două modele, unde subiecții cu un nivel foarte mic al factorului latent (de exemplu b=–4) aveau o probabilitate nulă de a răspunde activ, în cadrul modelului 3PL, probabilitatea de răspuns activ este situată la 0,16 (16%), indiferent de cât de redus ar putea fi nivelul factorului latent.
Prezența celui de-al treilea parametru influențează atât gradul de acoperire în factor latent al itemului (b), cât și discriminarea itemului (a). Astfel, atunci când asimptota inferioară tinde spre valori mai mari decât zero, parametrul b tinde să se deplaseze către valori ridicate ale ϴ în cazul itemilor cu grad mare de acoperire în factor latent („dificili”) și către valori scăzute ale ϴ pentru itemii cu grad mic de acoperire în factor latent („ușori”). În același timp, adăugând parametrul c, valorile parametrului a tind să fie mai mici în comparație cu modelul similar 2PL, puterea discriminativă a itemului reducându-se.
Toate cele trei modele de răspuns la item prezentate anterior se aplică doar itemilor unidimensionali, independenți local și dihotomici. Modelele dihotomice presupun itemi care au doar două categorii, răspunsul activ fiind cotat cu 1 punct, răspunsurile neactive fiind cotate cu 0 puncte. De exemplu, în cazul testelor de cunoștințe, răspunsul corect este cotat cu 1 punct. În aceste situații, cele mai adecvate modele de răspuns la item vor fi cele dihotomice.
Comparând cele trei modele, remarcăm o serie de elemente comune, dar și diferențe importante, mai ales între modelul 1PL și celelalte două. Astfel, modelul 1PL susține că numărul de răspunsuri active reprezintă o statistică suficientă pentru nivelul factorului latent (ϴ). Acest lucru ne conduce la ideea că toți subiecții cu același număr de răspunsuri active vor avea același nivel al factorului latent, indiferent de paternul răspunsurilor. Celelalte două modele (2PL și 3PL) permit ca subiecți cu același număr de răspunsuri active, însă cu patern de răspuns diferit să obțină niveluri diferite de acoperire în factor latent, deoarece itemii au putere discriminativă diferită și, în cazul modelului 3PL, prezintă un nivel variabil al probabilității de ghicire. De exemplu, între doi subiecți care obțin, ambii, 5 puncte la itemii unui test, însă au patern de răspuns diferit (1110101 respectiv 1100111), nu există nicio diferență sub aspectul nivelul factorului latent dacă se utilizează modelul 1PL. Apar diferențe importante la utilizarea modelelor 2PL sau 3PL.
Chiar dacă modelul 1PL susține că numărul de răspunsuri active reprezintă o statistică suficientă pentru estimarea nivelului de acoperire în factor latent, transformarea scorului total în nivel al factorului latent nu reprezintă o transformare liniară ca în cazul teoriei clasice a testului .
Se poate observa din figura II-6 că scala răspunsurilor observate nu presupune intervale egale raportate la unitățile standard ale scalei ϴ. În mod firesc, scorurile sunt mai distanțate la extreme și mai condensate în centru.
Figura – Relația dintre nivelul factorului latent (ϴ) și scorul observat
Sursa:
Dacă scala răspunsurilor observate se află la un nivel ordinal de măsură, scala ϴ se află la un nivel de interval. Supoziția transformării liniare pe care o postulează teoria clasică a testului se poate menține doar în condițiile realizării unui important compromis matematic. În teoria răspunsului la item, pentru a respecta criteriile matematice de transformare, relația devine una logaritmică.
Alte modele unidimensionale de răspuns la itemi dihotomici
Cele trei modele prezentate anterior sunt intens utilizate în practică. Există însă numeroase alte modele aplicabile itemilor dihotomici unidimensionali. Orice funcție matematică ce transformă nivelul factorului latent al subiecților în numere situate între 0 și 1 poate fi folosită ca model unidimensional de răspuns la item . Se pot utiliza funcții liniare, polinomiale, polinomial ajustate și funcții bazate pe distribuția normală.
Modele bazate pe ogiva normală
Sunt modele echivalente celor logistice, dar care nu se mai bazează pe distribuția logistică, ci pe zone ale distribuției normale. Funcția caracteristică a itemului în cazul modelului normal ogival cu 3 parametri este reprezentată de ecuația:
Relația II-23)
Înlocuind limita superioară a intervalului de integrare cu z, unde , ecuația poate fi scrisă mai simplu astfel:
Relația II-24)
Observăm că toți parametrii funcției de răspuns la item se regăsesc și în cazul modelelor logistice, diferența majoră fiind reprezentată de funcția însăși. În acest caz nu se are în vedere funcția logistică, ci funcția de distribuție normală. Integrala specificată în model definește zona din curba de distribuție normală de la capătul din stânga (-∞) la z.
Principalul dezavantaj al acestui model este legat de faptul că utilizează integrarea matematică. Calculul probabilității de obținere a unui răspuns semnificativ se realizează prin analiza ariei distribuției normale de sub valoarea z. Funcția este complexă în comparație cu cea logaritmică, deoarece probabilitatea de a răspunde semnificativ la un item este determinată de proporția cumulată a scorurilor în cadrul distribuției normale.
În practică, modelele bazate pe distribuția normală sunt rar utilizate din cauza complexității acestora și a faptului că modelele logistice le aproximează foarte bine. Totuși, modelele ogival normale sunt mai abrupte în comparație cu cele logistice la aceleași valori ale parametrilor. Pentru a compensa această diferență s-a recomandat multiplicarea exponentului modelului logistic cu o constantă D, unde D=1,7 . Prin această ajustare, modelele normal ogivale și cele logistice devin absolut echivalente. Folosind ajustarea Birnbaum, funcțiile caracteristice ale itemilor pentru 2PL și 3PL devin următoarele:
Relația II-25); Relația II-26)
În practică se preferă utilizarea funcțiilor și pentru modelele 2PL și 3PL pentru a se asigura echivalențe între modelele logistice și cele normal ogivale.
Modelul liniar logistic cu factori latenți (LLTM)
A fost conceput de Fischer și nu face parte din categoria modelelor multidimensionale așa cum poate să pară la prima vedere. El permite încorporarea conținutului unui item în predicția succesului răspunsului semnificativ. Singura condiție suplimentară este aceea a posibilității cuantificării conținutului itemului. Spre exemplu, dacă un item de comprehensiune semantică este influențat de nivelul vocabularului și capacitatea de lectură, acești doi factori putând fi exprimați numeric, atunci se poate utiliza modelul LLTM pentru a estima ponderea fiecărui factor în gradul de acoperire în factor latent al itemului, după expresia:
Relația II-27)
unde,
τk reprezintă ponderea factorului stimul k în dificultatea itemului;
qk reprezintă valoarea factorului stimul k în itemul i
Modelul poate fi utilizat și în studii care reflectă modificarea nivelului factorului latent ca urmare a unei intervenții experimentale. Dacă itemul se prezintă unei persoane după aplicarea unei condiții experimentale care modifică nivelul factorului latent, atunci modelul poate fi completat cu o constantă care reflectă expresia numerică a acestei condiții .
Modelul logistic cu patru parametri incluzând timpul de răspuns (4PLRT)
Succesul multor probe psihologice solicită pe lângă răspunsuri semnificative și rezolvarea sarcinilor într-un anumit interval de timp. Astfel, timpul de rezolvare a testului va reprezenta un parametru important în estimarea probabilității de răspuns semnificativ la un anumit item, apărând necesitatea unui model de măsurare pentru itemii de randament.
O serie de autori propun variate modele de răspuns la item de acest tip , , cel mai utilizat fiind modelul sugerat de Wang și Hanson , o extensie a modelului 3PL, la care se adaugă al patrulea parametru, timpul de rezolvare a itemului:
Relația II-28)
unde,
ρ reprezintă parametrul vitezei de lucru a subiectului;
ti reprezintă timpul de răspuns la itemul i al subiectului evaluat;
dj reprezintă parametrul vitezei de răspuns a itemului.
Conform acestui model, probabilitatea de răspuns semnificativ la un item este determinată de lentoarea itemului și a persoanei, precum și de ceilalți parametri cunoscuți ai funcției de răspuns la item. Parametrul vitezei de răspuns a itemului (d) reflectă modul în care itemii reacționează la timpul de răspuns și ține doar de specificul itemului, rămânând constant între două evaluări diferite. Parametrul vitezei de lucru a subiectului (ρ) reflectă ritmul de lucru al subiectului și se referă doar la acesta, rămânând constant sub aspectul itemilor administrați.
Este interesant faptul că după un an, în 2006, Wang revine asupra funcției caracteristice a itemului și elimină parametrul vitezei de lucru a subiectului (ρ) din exponentul funcției caracteristice a itemului, modificând tipul distribuției pe care își fundamentează modelul .
Modele de răspuns pentru itemi cu încercări multiple
Aceste modele se aplică în situațiile în care datele provin din încărcări multiple ale subiecților la aceeași sarcină. Sunt răspândite, în general, la sarcinile psihomotorii sau în psihologia sportului, unde subiecții efectuează încercări repetate înregistrându-se acuratețea execuțiilor (de exemplu, șuturile la poartă, în fotbal, sau aruncările la coș, în baschet, înregistrându-se reușitele).
În toate aceste situații, încercarea poate fi considerată ca fiind un item, iar nivelul factorului latent se determină pe baza numărului de reușite. Unul dintre modelele intens folosite în aceste cazuri este Rasch Poisson Counts Model (RPCM), sau modelul Poisson pentru încercări repetate, descris de funcția:
Relația II-29)
unde,
yjk reprezintă răspunsul subiectului j la itemul k;
nk reprezintă lungimea testului, exprimată fie prin numărul de itemi, fie prin perioada de observare;
µjk reprezintă rata de eroare, exprimată ca produs al nivelului de acoperire în factor latent ϴ al subiectului și nivelul factorului latent al itemului (b). µjk=ϴjbk
Modelul estimează probabilitatea de apariție a răspunsului yjk în cazul subiectului j la itemul k. Testul fiind deseori reprezentat de un singur item repetat de un anumit număr de ori, parametrul b se consideră fix .
Modele unidimensionale de răspuns la itemi polihotomici
Modelele dihotomice, deși întâlnite în psihologie, au o răspândire mult limitată, în comparație cu situațiile în care itemii prezintă mai multe variante de răspuns, fiecare variantă fiind cotată diferit. Această situație conduce la ideea de itemi polihotomici sau politomici, iar modelele de măsurare prezentate devin inutile. Itemii politomici se pot prezenta sub formă de răspunsuri pe o scală nominală, precum sondajele de opinie, pe scală ordonată, cum ar fi scalele de tip Likert sau pe scale de credit parțial, unde alegerea unui anumit răspuns este cotată diferențiat, pozitiv sau negativ.
Modelele de răspuns pentru itemi polihotomici funcționează diferit în comparație cu cele utilizate în cazul itemilor dihotomici, fiind necesară introducerea unor concepte noi. Itemii polihotomici au mai multe variante de răspuns, uneori ordonate, numite categorii de răspuns.
În figura II-7 a fost reprezentată o scală de tip Likert cu 5 categorii (variante de răspuns). Conform teoriei răspunsului la item, funcția de răspuns la item va fi calculată pentru fiecare categorie de răspuns, deoarece cunoașterea unei funcții pentru o anumită categorie de răspuns nu poate determina caracteristicile celorlalte categorii. Totodată, categoriile sunt separate prin intervale categoriale sau praguri. Întotdeauna, numărul intervalelor categoriale va fi mai mic cu o unitate decât numărul categoriilor. În figura II-7, scala conține 5 categorii și un număr de 4 intervale categoriale.
Prezența polihotomiei, a categoriilor și a intervalelor categoriale complică modelele de răspuns la item, deoarece acestea trebuie să estimeze atât probabilitatea de răspuns la nivelul unei categorii, cât și probabilitatea de răspuns „pozitiv” la un anumit punct al intervalului categorial. La itemii dihotomici, cele două probabilități înseamnă același lucru, deoarece probabilitatea de a răspunde „pozitiv”, comparativ cu probabilitatea de a răspunde „negativ”, în intervalul categorial, reflectă întotdeauna răspunsul activ (pozitiv).
Dacă la modelele dihotomice intervalul categorial este definit printr-o singură limită de interval, indiferent de categoria de răspunsuri, la cele polihotomice există cel puțin o categorie de răspunsuri definită de două limite de interval. De aceea, probabilitatea de a alege un anumit răspuns este determinată de caracteristicile celor două limite ale intervalului categorial .
Cele mai multe modele de răspuns la item realizează o dihotomizare a categoriilor, definind fiecare interval categorial ca și cum ar fi un item dihotomic, combinându-se apoi toate intervalele într-o funcție unică. În figura II-8 se observă curbele caracteristice ale intervalelor categoriale ale scalei din figura II-7. Prima curbă definește funcția de răspuns la item pentru variantele 0 și 1, a doua curbă funcția de răspuns la item pentru variantele 1 și 2 și așa mai departe. Prin combinarea informațiilor dihotomice ale fiecărui interval categorial, se poate calcula probabilitatea de răspuns pentru fiecare categorie. Această funcție poartă denumiri diferite: curba caracteristică operațională , sau funcție de răspuns a intervalului categorial și modelează probabilitatea cu care subiectul poate alege un anumit răspuns sau un răspuns ierarhic superior. De exemplu, un subiect cu un nivel de acoperire în factor latent 0,5 are o probabilitate foarte mică să aleagă un răspuns în intervalul 2-4 și o probabilitate mare de a alege un răspuns în intervalul 0-2.
Funcția de răspuns a intervalului categorial nu este suficientă pentru a descrie un model polihotomic de răspuns la item, deoarece este necesară estimarea probabilităților de răspuns pentru fiecare categorie. Aceste modele poartă numele de curba categoriei de răspuns sau funcția de răspuns la categoria itemului . În figura II-9 au fost prezentate curbele categoriilor de răspuns pentru scala II-7. În timp ce răspunsul 0 are o probabilitate foarte mare de a fi ales de către subiecții cu un nivel extrem de redus al factorului latent, răspunsul 4 are o probabilitate foarte mare de a fi ales de către subiecții cu un nivel ridicat al factorului latent.
În figura II-10 se prezintă procesul de dihotomizare a itemilor polihotomici, cele patru funcții de răspuns ale intervalului categorial indicând probabilitatea de a răspunde mai curând „pozitiv” decât „negativ” într-un interval specificat. Răspunsul 4 se încadrează în secțiunea pozitivă a primelor trei intervale categoriale și în secțiunea negativă a ultimului interval categorial, cel determinat de categoriile 4 și 5. Așadar, probabilitatea se poate referi la toate intervalele categoriale determinate de categoriile de răspuns. La nivelul funcțiilor de răspuns la categoria itemului, răspunsul subiectului se situează în zona pozitivă a categoriei 4 și în zona negativă a categoriei 5, aceasta fiind o a doua interpretare a probabilității. Există și o a treia posibilitate interpretativă, utilizată în cazul unor modele polihotomice hibride, în care intervalul categorial și categoriile se combină.
Modelul de răspuns nominal (NRM)
A fost propus de către Bock ca model de răspuns la itemi cu mai mult de două categorii aflate la un nivel nominal de măsură . Modelul poate fi folosit în cazul itemilor la care variantele de răspuns nu pot fi puse în ordine. Este situația sondajelor de opinie, a scalelor de atitudini sau a altor chestionare de opinie. Particularitatea acestui model este că poate estima date nominale, neordonate, și nu respectă principiul general al dihotomizării seriale expus anterior. Probabilitatea de a răspunde într-o anumită categorie este modelată direct, folosindu-se o generalizare a modelului logistic a factorului latent .
Relația II-30)
unde,
m reprezintă numărul de categorii de răspuns;
aix reprezintă panta curbei pentru categoria x (discriminarea);
cix reprezintă parametrul de interceptare pentru categoria x.
Parametrul c nu se referă la probabilitatea de răspuns prin ghicire, ca în cazul modelului 3PL, ci reprezintă parametrul de interceptare a ecuației liniare a categoriei de răspuns. Se observă dispariția parametrului b din ecuația . În realitate, acesta este un parametru derivat, ca expresie a raportului dintre panta curbei și parametrul de interceptare a categoriei .
Relația II-31)
O reprezentare mai intuitivă este oferită de către De Ayala, care definește parametrul b ca fiind locația pe axa nivelului de acoperire în factor latent ϴ, în care funcțiile de răspuns la categoria itemului pentru două categorii adiacente se intersectează .
Relația II-32)
Cele două expresii pentru parametrul b sunt diferite. Definind acest parametru ca punctul de intersecție a funcțiilor de răspuns ale celor două categorii succesive, De Ayala impune, practic, un fel de ordonare a categoriilor în modelul nominal, spre deosebire de Baker. Ideea acestei expresii provine din studiile efectuate de Samejima în care acesta susține că scopul modelului nominal este acela de a găsi ordinea în cadrul unor categorii inițial neordonate .
În figura II-11 sunt reprezentate funcțiile de răspuns ale categoriilor itemilor în cazul unui item cu 5 categorii din cadrul unui sondaj de opinie. Categoriile sunt la un nivel pur nominal. Este evident faptul că doar o singură categorie de răspuns (A) este asociată cu nivelul ridicat al factorului latent. Dacă itemul s-ar fi referit la anxietate, iar variantele de răspuns ar fi prezentat o serie de situații anxiogene, este clar că doar răspunsul A ar prezenta un risc crescut de a declanșa o stare anxioasă manifestă imediată. Răspunsul E are tendința să fie ales de către persoane cu un nivel mic de anxietate, în timp ce celelalte răspunsuri nu prezintă o probabilitate foarte mare de a fi alese, indiferent de nivelul factorului latent.
Reprezentând un item polihotomic cu răspunsuri aflate natural la un nivel nominal, modelul de răspuns nominal este tratat ca modelul de răspuns la itemi polihotomici aflat la cel mai înalt nivel de generalizare, toate celelalte modele fiind cazuri particulare ale acestuia.
Din cauza caracterului general, modelul este deseori criticat. Astfel, Thissen și Steinberg susțin că NRM este prea flexibil și necesită introducerea unor parametri suplimentari, pentru a putea fi util din punct de vedere practic . În același timp, modelul nu pune la dispoziție posibilitatea de ajustare pentru răspunsuri date la întâmplare. Fiind itemi cu alegeri multiple, acest risc există, și de aceea, Samejima a extins modelul lui Bock, presupunând că răspunsurile au o probabilitate egală, și a inclus un nou parametru pentru toate categoriile, în care Pi0 reprezintă funcția strict descrescătoare a categoriei celei mai puțin plauzibile .
Din cauza acestor limitări, modelul este folosit doar în situații deosebite, preferându-se alte modele care reproduc mai bine datele empirice și care sunt mult mai precise.
Modelul cu credit parțial (PCM)
Modelul a fost dezvoltat de către Masters, pornind de la încercările lui Rasch de a dezvolta modele de răspuns la itemi polihotomici . Se aplică pentru itemii ale căror răspunsuri se cotează diferit sau pentru aceia care presupun o evaluare pe o scală a atitudinilor sau credințelor. Se pot folosi scale de tip Likert sau scale nominale punctate diferit. De exemplu, itemi evaluați pe o scală de la „acord total” până la „dezacord total” sau itemi de tipul: varianta A – 3 puncte, varianta B – 0 puncte, varianta C – 2 puncte și varianta D – 1 punct. Aceștia din urmă pot fi nominali, însă fiecare răspuns are o anumită pondere în scorul total. Modelul matematic al PCM este dat de expresia:
Relația II-33)
unde,
g reprezintă intervalul categorial;
m reprezintă scorul acordat itemului i;
n reprezintă scorul maxim posibil al itemului i;
big reprezintă parametrul prag pentru intervalul categorial g al itemului i
Acest model este adecvat și pentru itemii la care succesul este asigurat de completarea unui număr variabil de sarcini, pentru itemii semi-deschiși sau pentru aceia la care răspunsul poate avea mai multe componente, fiecare componentă putând fi evaluată în termeni de realizat/nerealizat. Parametrul big se mai numește dificultate secvențială, deoarece, cu cât are o valoare mai mare, cu atât pasul respectiv este mai dificil în raport cu ceilalți pași.
De exemplu, un item care evaluează capacitatea de calcul matematic și poate avea următoarele variante de răspuns: A – Poate efectua adunări, scăderi, B – Poate efectua înmulțiri și împărțiri, C – Poate rezolva ecuații de gradul II, D – Poate calcula derivate și integrale – se pretează ideal la modelare prin PCM. Realizarea răspunsului C presupune realizarea răspunsurilor A și B, însă nu presupune realizarea răspunsului D. Aceasta este o secvență de sarcini în care probabilitatea de realizare a unui răspuns superior depinde de realizarea sarcinilor inferioare.
În figura II-12 au fost reprezentate funcțiile de răspuns la categoriile itemului prezentat în exemplul anterior. Desigur, pentru prima variantă de răspuns, teoretic, subiecții cu un nivel al factorului latent extrem de redus pot rezolva prima sarcină. Cea de-a doua variantă de răspuns are b=-3, subiecții cu un nivel redus al factorului latent au o probabilitate de aproximativ 0,5 să rezolve a doua sarcină. A treia variantă de răspuns are b=-0,5 iar a patra variantă de răspuns are b=1,5.
Parametrul b arată momentul în care două categorii adiacente se intersectează, au aceeași probabilitate de răspuns corect.
Prezentând funcțiile de răspuns ale intervalelor categoriale, în figura II-13, observăm că pentru primul interval categorial, probabilitatea de răspuns este foarte mare în cazul nivelurilor reduse ale factorului latent, în timp ce pentru ultimul interval categorial, nivelul factorului latent trebuie să fie ridicat, pentru a obține o probabilitate acceptabilă de răspuns. Este și firesc să fie așa, calculul integral presupunând un nivel ridicat de abilitate matematică, în comparație cu efectuarea adunărilor și a scăderilor.
Constatăm, de asemenea, corespondența modelului PCM cu modelul Rasch. Funcțiile de răspuns ale intervalelor categoriale intersectează linia probabilității de 0,5 exact la pragurile definite de funcțiile de răspuns la categoriile itemilor. De aceea, modelul PCM este considerat o extensie a modelului 1PL pentru itemi polihotomici. Parametrul b nu reprezintă, însă, un simplu punct pe continuumul factorului latent, în care există 50% șanse să se răspundă peste valoarea prag, ci, mai curând, dificultatea relativă a fiecărui pas, indicând locul pe acest continuum, în care răspunsul într-o anumită categorie devine mai plauzibil, în comparație cu răspunsul în categoria anterioară. Aceasta este principala diferență între acest model și modelul cu răspunsuri graduale (GRM).
Deoarece PCM este un model care provine din 1PL, există posibilitatea estimării directe a nivelului factorului latent al subiectului după expresia:
(Relația II-34)
Scorul așteptat ia valori de la 0 la x, unde x reprezintă categoriile de răspuns și este ponderat cu funcția de răspuns la item. Scorurile așteptate sunt reprezentate în figura II-13, luând forma funcțiilor de răspuns ale intervalelor categoriale.
O altă caracteristică a acestui model este aceea că variantele de răspuns nu presupun obligatoriu o ordonare strictă. În figura II-14 au fost reprezentate funcțiile de răspuns ale categoriilor itemilor, în care ordinea relativă este 0, 1, 3, 2 și 4. Acest fenomen poartă numele de inversare categorială și arată modul în care se realizează tranziția între categorii. Tranziția este ușor de realizat de la categoria 0 la categoria 1 și de la categoria 2 la categoria 3 și dificil de realizat de la categoria 1 la categoria 2. O astfel de situație nu influențează estimările și se poate aplica itemilor cu răspunsuri nominale cotate ponderat. Inversarea categorială poate să apară în cazul în care răspunsurile nu sunt în mod egal reprezentate de-a lungul domeniului factorului latent. Astfel, răspunsul 2 din figura II-14 este rareori ales de către respondenți, fapt care poate conduce la ideea eliminării acestuia din scală. Din această constatare decurge faptul că, pentru a se putea estima parametrii acestui model, trebuie să existe răspunsuri în fiecare categorie. Lipsa răspunsurilor dintr-o categorie face imposibilă estimarea utilizând acest model. De asemenea, numărul variabil de răspunsuri din fiecare categorie conduce la erori standard de estimare diferite, fapt care poate afecta precizia modelului .
Provenind din modelul Rasch, PCM consideră parametrul de locație b ca un estimator necesar și suficient al nivelului factorului latent. Toți subiecții care oferă aceleași răspunsuri la itemii unui test vor avea același nivel estimat al factorului latent, nefiind incluși parametrii de discriminare ai itemilor și nici cei de probabilitate de răspuns la întâmplare.
Modelul generalizat cu credit parțial (G-PCM)
A fost propus de Muraki și reprezintă o extensie a modelului PCM, prin adăugarea parametrului de discriminare (a) la modelul inițial. Dacă PCM reprezintă echivalența polihotomică a modelului 1PL, G-PCM reprezintă echivalența modelului 2PL și poate fi rezumat în expresia:
Relația II-35)
unde,
k reprezintă răspunsul dat de subiect la itemul i;
m reprezintă numărul total al categoriilor pentru itemul i;
diu reprezintă parametrul prag pentru intervalul determinat de scorurile u și u+1.
Condițiile de aplicare ale acestui model sunt aceleași ca cele prezentate la modelul PCM, scorurile reprezentând niveluri de performanță, alegerea unei anumite categorii însemnând parcurgerea implicită a sarcinilor din categoriile inferioare. Parametrul b indică nivelul global de acoperire în factor latent al itemului, iar parametrul a arată puterea discriminativă globală a itemului. Acești doi parametri se consideră a fi egali pentru toate intervalele categoriale, ținând de item și nu de categoriile de răspuns. Parametrul d are aceeași semnificație ca și parametrul b al modelului PCM, reprezentând punctul de intersecție a două categorii adiacente.
Deși este constant la nivelul itemului, parametrul a nu are aceeași interpretare ca în cazul modelelor dihotomice, deoarece discriminarea depinde atât de panta curbelor caracteristice, cât și de pragurile categoriale. Reperul pentru parametrul a este reprezentat de valoarea 1. Atunci când această valoare scade sub 1, curba caracteristică a itemului are un caracter plat, indicând o putere discriminativă redusă. Valorile supraunitare duc la curbe caracteristice ale itemului mai ascuțite și, implicit, la putere discriminativă ridicată .
Pentru exemplificare, am luat în considerare trei itemi cu putere discriminativă diferită și s-au trasat curbele caracteristice ale categoriilor itemilor. În figura II-16 itemul are o putere discriminativă medie (parametrul a este aproximativ 1).
Comparativ, în figura II-15 itemul are o putere de discriminare mai mică (parametrul a are valori sub 1), rezultând funcții de răspuns ale categoriilor itemilor mult mai plate, în timp ce în figura II-17 a fost reprezentat un item cu putere mare de discriminare (parametrul a fiind supraunitar) și se pot observa curbe caracteristice ale categoriilor itemilor semnificativ ascuțite în comparație cu modelul inițial din figura II-15.
Datorită caracteristicilor sale, modelul are o flexibilitate foarte mare, fiind utilizat pentru itemi extrem de variați. Astfel, în cazul în care parametrul a este fixat la valoarea 1, modelul devine PCM. Dacă a este fixat la valoarea 1 și d este constrâns să respecte ordinea categoriilor și, de asemenea, se estimează o singură dată pentru întregul set de itemi, rezultă modelul RSM. În cazul în care a este estimat și variabil, se obține modelul generalizat pentru RSM. Dacă a este estimat și variabil și există doar 2 categorii, rezultă modelul 2PL, iar dacă a este fix, rezultă modelul 1PL .
Modelul pentru scale de evaluare (RSM)
În cazul în care parametrul a dispare din ecuația pentru modelul G-PCM, rezultă un alt model de răspuns la item numit RSM – modelul pentru scale de evaluare:
Relația II-36)
Modelul este larg răspândit pentru itemii care măsoară atitudinile, interesele, factorii de personalitate, precum și în alte chestionare sau inventare cu o structură consistentă a itemilor. Frecvent, scalele de răspuns sunt de tip Likert, cu extreme de genul „acord total” și „dezacord total”, acestea pretându-se cel mai bine acestui model, de unde își extrage și numele. Asumpția de bază este că, utilizând același format de scală de răspuns pentru toți itemii, răspunsurile vor funcționa în același fel, deoarece categoriile au o definiție constantă . Pentru a putea folosi modelul RSM, toți itemii trebuie să aibă același număr de categorii, iar categoriile trebuie să fie definite în același mod.
Ecuația reprezintă conceptualizarea efectuată de Masters , modelul RSM fiind prezentat ca un caz particular al modelului PCM. A fost propus de Andersen , ca o dezvoltare a modelului Rasch aplicat pentru chestionare cu itemi polihotomici, fiind apoi preluat și completat de Andrich . De asemenea, Andrich include în ecuație și parametrul de discriminare, rezultând modelul generalizat pentru scale de evaluare G-RSM:
Relația II-37)
Spre deosebire de PCM, RSM impune o constrângere referitoare la dificultatea relativă a intersecțiilor dintre categorii. Deoarece numărul de categorii este egal și distanța dintre ele este egală, modelul RSM implică o mai mică variabilitate a dificultății relative dintre pragurile categoriale. De aceea RSM necesită scale de evaluare identice pentru toți itemii dintr-un set. În cazul în care scalele de evaluare diferă (de exemplu Likert cu 5 trepte și Likert cu 7 trepte), modelul nu poate fi folosit.
În figura II-18 s-au reprezentat funcțiile de răspuns ale categoriilor itemilor pentru un item cu acoperire în factor latent scăzută (b=-0,44), iar în figura II-19 funcțiile de răspuns ale categoriilor itemilor pentru un item cu acoperire în factor latent mai ridicată (b=0,30).
În cadrul modeleului RSM, spre deosebire de modelul PCM, se remarcă un caracter constant al funcțiilor de răspuns ale categoriilor. Aspectul curbelor este același, între cei doi itemi existând doar o diferență legată de poziția parametrului b, itemul din figura II-19 fiind deplasat spre dreapta. Din acest motiv, parametrul b în cadrul modelelor RSM se numește și parametru de locație. Acesta se referă la dificultatea medie a unui item relativ la intersecțiile categoriale.
Trebuie remarcat că toate aceste modele (RSM, PCM și G-PCM) devin modele pentru răspunsuri ordonate, doar dacă funcția de scorare este una crescătoare. Întotdeauna, nivelul factorului latent într-o categorie trebuie să fie mai mare decât nivelul factorului latent din categoria anterioară. De asemenea, valoarea parametrului a trebuie să fie mai mare de zero. În cazul în care parametrul a este negativ, categoriile devin nominale și modelul se transformă într-un model NRM.
Modelul cu răspuns gradual (GRM)
Modelele prezentate anterior sunt utile atunci când scala de răspuns prezintă o ordine naturală, în care răspunsurile se situează pe un continuu de la total dezacord la total acord. În situația prezentată în figura II-7, ordinea nu este una naturală, deși avem de a face tot cu o scală de tip Likert. Categoriile au mai curând valoare de ancore comportamentale, nu sunt situate pe un continuum natural, deși se poate vorbi despre o ordine a acestora. În aceste situații se pot folosi modelele de răspuns gradual (GRM) propuse de Samejima . La fel ca și în cazul RSM, modelele GRM presupun itemi cu același număr de categorii. Dacă modelele bazate pe credit parțial presupun că itemii au un număr de părți independente, iar scorul arată câte părți au fost soluționate de subiect, modelele cu răspuns gradual consideră că itemul are un număr de pași, iar completarea unui pas presupune și completarea pașilor anteriori, de aici rezultând caracterul gradual al acestuia. Parametrizarea consideră că scorul minim al unui item este 0, iar scorul maxim este determinat de numărul pașilor. Probabilitatea de a obține un anumit scor crește monoton pe măsură ce crește factorul latent măsurat de item. Modelul derivă direct din 2PL și poate fi caracterizat prin expresia:
Relația II-38)
Fiecare curbă caracteristică prezentată în ecuația reprezintă probabilitatea ca răspunsul subiectului la itemul i să se regăsească în sau deasupra pragului categorial pentru categoria j, condiționată de nivelul factorului latent. Expresia se referă la curba caracteristică operațională (funcțiile de răspuns ale intervalelor categoriale) și nu la funcțiile de răspuns ale categoriilor. Parametrul de discriminare (a) este unic la nivelul itemului, iar parametrii de acoperire în factor latent ai itemului i reprezintă nivelul factorului latent necesar pentru a răspunde peste valoarea prag a intervalului cu o probabilitate de 0,50. Primul pas al estimării probabilității de răspuns îl reprezintă calculul probabilităților de răspuns pentru fiecare dintre cele k-1 praguri categoriale, unde k reprezintă numărul de categorii.
După estimarea funcțiilor de răspuns ale intervalelor categoriale, în al doilea pas, se calculează funcțiile de răspuns ale categoriilor de răspunsuri, după expresia:
Relația II-39)
Spre exemplu, în cazul unui item cu 5 categorii (și 4 intervale categoriale), după calculul funcțiilor de răspuns ale intervalelor categoriale vor rezulta un număr de 4 funcții. Pentru fiecare categorie de răspunsuri, aplicând expresia rezultă un număr de 5 funcții, astfel:
Funcțiile de răspuns ale categoriilor reprezintă probabilitatea unui subiect de a răspunde într-o anumită categorie de răspuns, în funcție de nivelul factorului latent.
În figura II-20 sunt prezentate curbele operaționale ale intervalelor categoriale pentru un item construit pe baza modelului GRM. Se observă similitudinea cu funcțiile caracteristice ale modelului 2PL și modul în care nivelul de acoperire în factor latent (pragul) este determinat de probabilitatea de răspuns 0,5. Faptul că itemul are aceeași putere de discriminare pentru toate intervalele categoriale conduce la existența unor curbe operaționale paralele.
În figura II-21 sunt reprezentate curbele de răspuns ale categoriilor itemului, conform expresiei . Curba corespunzătoare categoriei 0 are un trend descrescător și atinge probabilitatea de răspuns 0,5 la nivelul ϴ=-2, același nivel ca și primul prag categorial. Ultima categorie are un trend crescător și atinge probabilitatea 0,5 la ϴ=2, aceeași probabilitate ca și ultimul prag categorial. Pentru celelalte curbe se poate observa că nivelul de intersecție a două curbe alăturate nu este egal cu valoarea parametrului b, așa cum a fost cazul modelelor cu credit parțial. Acest lucru derivă implicit din tipul scalei de răspuns și din ordinea naturală pe care RSM nu o mai presupune implicit.
Efectul modificării parametrului de discriminare (a) se poate observa în figura II-22. Creșterea discriminării conduce la curbe mai ascuțite în zonele categoriilor extreme și la curbe mai plate pentru categoriile medii. Curbele extreme își păstrează punctul de intersecție la nivelul de probabilitate 0,5, însă intersecțiile curbelor medii nu mai au loc la aceleași niveluri de probabilitate. Pe măsură ce parametrul a crește, probabilitatea de a obține un anumit scor crește mai repede la modificări ale nivelului de acoperire în factor latent (ϴ).
Modelul modificat cu răspuns gradual (M-GRM)
Pornind de la modelul GRM, Muraki dezvoltă o variantă a acestuia apropiată de RSM, numită modelul modificat cu răspuns gradual (M-GRM), sau modelul scală de evaluare pentru răspuns gradual (RS-GRM). În acest sens el reparametrizează GRM, înlocuind parametrul b ca parametru de locație a intervalului categorial cu parametru unic de acoperire în factor latent al itemului și adăugând parametrul de locație a intervalelor categoriale (c), la fel ca în modelele pentru scală de evaluare.
Relația II-40)
Modelul presupune aceleași condiții de utilizare ca și GRM, diferența dintre cele două ținând de natura parametrului b. În timp ce în GRM se estimează parametrul b pentru fiecare dintre categoriile de răspunsuri, în M-GRM parametrul b este propriu itemului, iar estimările categoriilor de răspunsuri se realizează prin intermediul pragurilor intervalelor categoriale (c). Astfel, parametrul b permite deplasarea întregului set de categorii în funcție de nivelul de acoperire în factor latent.
Modele multidimensionale de răspuns la item
Cu toate că se preferă asumpția unidimensionalității în cadrul modelelor de răspuns la item, aceasta nu poate fi întotdeauna îndeplinită din cauza complexității fenomenelor psihologice. În realitate, nu există un item pur unidimensional, ci itemi asimilați unora unidimensionali, deoarece însăși izolarea constructelor psihologice rămâne o abstracțiune, procesele și fenomenele psihice fiind interdependente. Atât modelele de răspuns unidimensionale, cât și cele multidimensionale, sunt forme ideale, matematizate, ale fenomenelor observate, în particular ale relației dintre persoane și itemi, care nu se concentrează pe aspectele de nuanță, specifice ale acestei relații, ci pe relația în ansamblu. Astfel, modelele de răspuns la item sunt o idealizare a unei realități concrete, o aproximare a relației dintre nivelul factorului latent al unei persoane și răspunsul acesteia al un item și nu o estimare exactă.
Modelele multidimensionale de răspuns la item se împart în două mari clase pe baza modului în care vectorul determinat de numărul de factori latenți (vectorul informațional Θ) se combină cu caracteristicile itemului, în vederea determinării probabilității de răspuns la item . În acest sens, pot exista modele de răspuns la item multidimensionale compensatorii și modele de răspuns la item multidimensionale necompensatorii, numite uneori și parțial compensatorii.
Modelele compensatorii se bazează pe combinațiile liniare ale coordonatelor factorilor latenți. Aceste combinații, exprimate sub formă ogivală sau logistică, specifică, împreună, probabilitatea de răspuns, modelele bazându-se pe suma diferitelor niveluri ale factorului latent. Două persoane pot avea aceeași probabilitate de răspuns la un item, chiar dacă nivelurile factorilor latenți sunt diferite, un factor latent cu un nivel mai ridicat putând compensa un alt factor latent cu un nivel mai scăzut, de aici și caracterul compensatoriu al acestei clase de modele. Bazându-se pe sumă, aceste modele au dificultăți în identificarea contribuției fiecărui factor latent la determinarea probabilității de răspuns, aceștia compensându-se reciproc.
Modelele necompensatorii reprezintă combinații neliniare ale coordonatelor factorilor latenți. Un item multidimensional este tratat ca o combinație de factori latenți unidimensionali, iar probabilitatea de răspuns la item este reprezentată de produsul probabilităților de răspuns pentru fiecare parte. Folosind această clasă de modele, se reduce compensarea nivelului mai scăzut al unui factor latent de către un factor latent cu un nivel mai ridicat. Cu toate că aceste modele pot fi întâlnite sub denumirea de modele necompensatorii, în realitate compensarea există, chiar dacă nivelul acesteia este semnificativ mai mic în comparație cu modelele compensatorii. Din acest motiv clasa este frecvent întâlnită sub numele de modele parțial compensatorii .
Cu toate că modelele parțial compensatorii sunt mai precise, ele prezintă o limită importantă legată de numărul categoriilor de răspuns ale itemului. Modelele parțial compensatorii pot fi folosite doar în cazul itemilor multidimensionali dihotomici. Pentru itemii polihotomici multidimensionali nu pot fi utilizate decât modele compensatorii.
Prima asumpție importantă a modelelor multidimensionale de răspuns la item poartă numele de asumpția monotoniei și susține că probabilitatea de alegere a răspunsului activ pentru un item multidimensional crește pe măsură ce crește oricare dimensiune a vectorului de factori latenți. Se păstrează asumpția independenței locale, conform căreia răspunsurile la fiecare item al unui test sunt evenimente independente. Acest lucru înseamnă că răspunsurile persoanei la un item nu afectează răspunsurile persoanei la un alt item sau răspunsurile unei alte persoane la același set de itemi.
Modele multidimensionale dihotomice
În etapele dezvoltării modelelor de răspuns la item, mai ales pe parcursul construirii aplicațiilor în domeniul psihologiei, s-a observat destul de repede dificultatea implementării modelelor unidimensionale. Astfel, primele cercetări privind posibilitatea construirii de modele multidimensionale datează de la începutul anilor ’80, fiind inițiate de Bock și Aitken , rezultând modele multidimensionale compensatorii. Similar modelelor unidimensionale, s-au impus cele logistice, cu toate că cercetările au vizat și variantele ogivale.
Extensia multidimensională compensatorie pentru 2PL
Adaptarea multidimensională pentru modelul logistic cu doi parametri pleacă de la expresia . Exponentul funcției logistice a fost prezentat sub forma a(θ-b), în care a reprezenta discriminarea itemului, b se referea la gradul de acoperire în factor latent, iar θ viza nivelul de acoperire în factor latent al persoanei. Pentru modelele multidimensionale, fiecare dimensiune se comportă ca o curbă caracteristică proprie, astfel încât exponentul funcției logistice poate fi descompus de forma aθ – ab. Cea de-a doua parte a expresiei (-ab) poartă numele de parametru de înclinare/interceptare și se poate nota cu d, astfel încât exponentul funcției logistice devine aθ + d. Dar în modelele multidimensionale vom avea mai multe niveluri ale factorului latent și, de asemenea, mai mulți parametri, astfel încât, ecuația caracteristică a modelului logistic multidimensional de răspuns la item cu doi parametri (M2PL) devine:
(Relația II-41)
în care a reprezintă vectorul de discriminare a itemului, θ se referă la vectorul nivelurilor factorului latent a persoanelor, iar d valoarea unică a parametrului de pantă/interceptare.
Fiind un model multidimensional, curba caracteristică a itemului va putea fi reprezentată sub forma unei suprafețe tridimensionale în cazul unui item bidimensional.
După cum se poate observa în figura II-23, nu mai putem vorbi despre o curbă caracteristică a itemului, ci despre o suprafață caracteristică a itemului determinată de intersecțiile curbelor caracteristice celor două dimensiuni pentru diferite niveluri ale factorului latent. Se observă că probabilitatea de răspuns activ la item crește atunci când cel puțin unul dintre elementele spațiului latent crește. De asemenea, este evident caracterul compensatoriu al modelului. Probabilitatea de răspuns activ crește mai repede sub influența celei de-a doua dimensiuni în comparație cu prima dimensiune, rata de creștere fiind influențată de diferența parametrilor de discriminare (a) ai celor doi factori.
Putem constata absența parametrului corespunzător nivelului de acoperire în factor latent al itemului (b), poate cel mai important parametru al itemului în modelele unidimensionale. Într-adevăr, nu mai putem vorbi despre un indicator unic al nivelului de acoperire în factor latent atunci când există un spațiu latent caracterizat de mai multe dimensiuni. Estimarea nivelului de acoperire în factor latent al unui item multidimensional se realizează indirect, prin raportul dintre parametrul pantă/intercepție (d) și vectorul parametrilor de discriminare (a), în baza relației:
Relația II-42)
Interpretarea acestui parametru se realizează analog modelelor unidimensionale, doar că acesta poartă numele de MDIFF în cadrul modelelor multidimensionale, pentru a-l diferenția de cele unidimensionale. Atunci când MDIFF este 0, suprafața caracteristică a itemului este centrată pe spațiul tridimensional latent.
Extensia multidimensională compensatorie pentru 3PL
Modelul logistic multidimensional cu trei parametri (M3PL) este similar celui cu doi parametri, singura diferență constând în creșterea asimptotei inferioare de la zero la o valoare determinată de probabilitatea de răspuns la întâmplare, astfel încât ecuația caracteristică a itemului devine:
(Relația II-43)
Similar modelelor de răspuns la item unidimensionali, M3PL se utilizează atunci când persoanele cu un nivel foarte mic al spațiului latent pot elabora răspunsuri active la întâmplare, fără ca acestea să fie determinate de nivelul propriu al factorului latent pentru una sau ambele dimensiuni ale itemului.
Extensii parțial compensatorii pentru modele unidimensionale
Cele două modele prezentate mai sus, la care se poate adăuga și modelul logistic multidimensional compensatoriu cu un singur parametru (M1PL sau M-Rasch), sunt modele liniare monotone bazate pe caracterul sumativ al factorilor latenți. Cu toate că există metode prin care putem relaționa dimensiunile și putem studia modul în care creșterea unei dimensiuni este legată de evoluția altei dimensiuni, este dificil totuși să analizăm felul în care dimensiunile spațiului latent determină probabilitatea de răspuns la item. Chiar dacă nivelul majorității factorilor latenți este unul redus, persoana poate, totuși, răspunde activ la un item dacă prezintă un nivel mai ridicat la un singur factor latent. Acest lucru se constituie într-o serioasă limită a acestor modele, fapt care a determinat apariția modelelor neliniare bazate pe produs și nu pe sumă. În plus, tratează fiecare dimensiune în mod distinct și analizează modul de interacțiune a acestora în vederea generării unui răspuns activ la item.
Într-un exemplu furnizat de Sympson , se consideră un item multidimensional care vizează capacitatea de citire și abilitățile de calcul aritmetic. Autorul arată că un model compensatoriu de răspuns la item poate fi deficitar, deoarece subiecții cu abilități de calcul aritmetic ridicate pot eșua în a răspunde corect la un asemenea item, din cauza unui nivel posibil scăzut al capacității de citire. Se poate ajunge la o estimare eronată a nivelului de acoperire în factor latent, din cauza caracterului compensatoriu pronunțat al acestui model de item, exemplificând astfel foarte clar limitele acestei clase de modele.
Conform sursei citate, ar fi de preferat ca fiecare dimensiune să fie considerată o activitate independentă, iar succesul sarcinii să aibă o probabilitate egală cu produsul probabilităților sarcinilor componente. Astfel, compensarea se reduce semnificativ, iar probabilitatea de răspuns activ la un item devine, pentru modelul logistic multidimensional cu trei parametri, următoarea:
(Relația II-44)
Constatăm o relație mult mai apropiată între modelele multidimensionale parțial compensatorii și modelele unidimensionale. Într-adevăr, probabilitatea de răspuns activ la un item fiind formată din produsele probabilităților de răspuns la dimensiunile componente ale itemului, poate fi mult mai precis estimată chiar în condițiile în care nivelul latent al unui factor este foarte ridicat sau foarte scăzut. Chiar dacă atunci când valorile nivelului latent al unei dimensiuni cresc, crește și probabilitatea de răspuns activ, dar aceasta nu poate depăși o fracție din probabilitatea totală, fracție determinată de numărul de dimensiuni. Spre exemplu, chiar dacă într-un model bidimensional, una dintre dimensiuni ar avea un nivel infinit pozitiv de acoperire în factor latent (corespunzător unei probabilități 1), la nivelul itemului probabilitatea de răspuns activ poate fi maximum 0,5 dacă cea de-a doua dimensiune ar avea un nivel infinit negativ de acoperire în factor latent (corespunzător unei probabilități 0).
În situația modelelor parțial compensatorii, interpretarea itemilor se modifică în funcție de numărul dimensiunilor, fiind o caracteristică unică a acestei clase de modele. Se știe, din studiul modelelor unidimensionale, că parametrul acoperire în factor latent al itemului (b) reprezintă punctul în care probabilitatea de răspuns activ la item a unui subiect cu un nivel al factorului latent mediu este de 0,5. Cu alte cuvinte, probabilitatea de răspuns la item este 0,5 dacă b=0 și θ=0. Și în cazul modelelor compensatorii, această regulă se respectă. Dacă vectorul θ=0 și d=0 atunci probabilitatea de răspuns activ la un item este 0,5. Lucrurile se schimbă în cazul modelelor parțial compensatorii. În cazul unui model cu două dimensiuni, dacă d=0 și θ=0, probabilitatea de răspuns activ nu mai este 0,5 ci 0,25, deoarece, după cum s-a arătat, chiar dacă probabilitatea de răspuns activ la o dimensiune va fi 1, în cazul în care probabilitatea de răspuns activ la cealaltă dimensiune este zero, atunci, global, probabilitatea de răspuns activ la item nu poate depăși 0,5. În cazul unui item cu trei dimensiuni, respectând condițiile inițiale (d=0 și θ=0), probabilitatea de răspuns activ este de doar 0,125 și așa mai departe. Generalizând, putem spune că probabilitatea de răspuns activ la un item cu m dimensiuni în condițiile în care d=0 și θ=0 va fi egală cu 0,5m. Aceasta este singura clasă de modele în care interpretarea parametrilor itemilor depinde de numărul de dimensiuni, o caracteristică de altminteri foarte interesantă. Pe măsură ce numărul parametrilor crește, valoarea parametrului b trebuie redusă pentru a se menține constantă probabilitatea de răspuns activ.
Relația reprezintă extensia multidimensională a modelului unidimensional cu trei parametri. Maris sugerează un alt model ca extensie pentru modelul unidimensional cu un singur parametru (1PL), pe care îl numește modelul Rasch conjunctiv:
(Relația II-45)
Cu toate că modelul este echivalent cu expresia matematică a modelelor Rasch unidimensionale, totuși nu se poate considera un model Rasch, deoarece nu furnizează indicatori compleți pentru a caracteriza vectorul persoanei. Adams arată că acest model poate deveni un model Rasch doar dacă itemul prezintă un număr de 2m categorii de răspuns.
Atât modelele compensatorii, cât și modelele parțial compensatorii, au, fiecare, caracteristici proprii și expresii matematice echivalente. Primele se bazează pe sume, celelalte pe produse. Întrebarea care apare este cea a criteriului de alegere a clasei de modele. Când preferăm modelele compensatorii și când vom opta pentru modele parțial compensatorii?
După Maris , alegerea modelului se realizează în funcție de ipotezele privind modul în care persoanele vor interacționa cu itemii. Modelele parțial compensatorii sunt preferate în cazul în care itemii testului au diferite componente relaționate unor trăsături diferite, iar răspunsul activ necesită realizarea cu succes a fiecărei componente. De exemplu, dacă răspunsul activ la un item necesită abilități de calcul matematic și abilități de lectură, ambele componente fiind indispensabile reușitei, se va opta pentru un model de tip parțial compensatoriu. În cazul în care itemul are un caracter holistic – așa cum sunt unii itemi ce vizează evaluarea personalității – și nu pot fi identificate trăsăturile care contribuie la elaborarea răspunsului activ, se optează pentru modele compensatorii.
Cu toate că există unele studii prin care se compară modelele compensatorii cu modelele parțial compensatorii , rezultatele nu sunt concludente. În definitiv, singura modalitate pe baza căreia se poate judeca adecvarea unui model o reprezintă cercetarea empirică.
Modele multidimensionale polihotomice
Modelele bazate pe itemi polihotomici sunt, așa cum am arătat deja, complexe prin definiție. În momentul în care adăugăm dimensiuni, conceptele de bază ale modelelor unidimensionale se conservă, vorbind despre suprafețe ale categoriilor de răspuns. Primele inițiative referitoare la extinderea modelelor unidimensionale pentru mai multe dimensiuni, în cazul itemilor polihotomici, aparțin lui Muraki și Carlson , în adaptarea modelului cu răspuns gradual și Yao și Schwarz , în adaptarea modelului generalizat cu credit parțial.
Menționăm că toate modelele multidimensionale polihotomice fac parte din categoria modelelor compensatorii, neexistând variante parțial compensatorii decât la nivel experimental.
Modelul multidimensional generalizat cu credit parțial (MGPC)
În cazul modelului generalizat pentru credit parțial, un item i având un număr de k variante de răspuns prezintă funcția caracteristică de răspuns la item conform expresiei:
(Relația II-46)
unde,
reprezintă pragul categorial pentru categoria u;
În comparație cu modelul generalizat unidimensional cu credit parțial, remarcăm că la varianta multidimensională nu sunt incluse niveluri de acoperire în factor latent separate pentru fiecare categorie de răspuns și nici parametri legați de pragurile categoriale. Deoarece nivelul factorului latent este un vector, iar pragurile categoriale reprezintă unități independente, nu putem extrage parametrii prag din vectorul factorului latent.
Figura II-26 reprezintă suprafețele de răspuns la un item construit pe baza modelului generalizat cu credit parțial. Remarcăm un număr de patru categorii de răspuns, acestea constituindu-se în patru suprafețe ale categoriilor de răspuns.
Pentru a patra categorie de răspuns, constatăm că suprafața categoriei de răspuns crește pe măsură ce nivelurile celor doi factori latenți cresc. Același comportament, însă inversat, îl întâlnim și la prima categorie de răspuns. Pentru niveluri foarte mici ale celor doi factori latenți, probabilitatea de răspuns la prima categorie este foarte mare. Probabilitățile de răspuns la a doua și a treia categorie de răspuns prezintă inițial o creștere apoi descresc pe măsură ce nivelurile factorului latent se măresc.
Intersecțiile a două suprafețe de răspuns ale categoriilor de răspuns au forma unei linii drepte determinate de planul celor doi factori latenți. În general, linia este determinată de două puncte din acest plan, unde probabilitățile de obținere a scorurilor adiacente sunt egale, definind astfel pragul categorial. Valoarea acestui prag poate fi obținută rezolvând ecuația determinată de exponentul numărătorului pentru categoria k și categoria k+1, după expresia:
(Relația II-47)
Rezolvând această ecuație, rezultă că valoarea pragului categorial pentru două categorii adiacente poate fi aflată prin:
(Relația II-48)
Modelul multidimensional cu credit parțial (MPC)
Reprezintă o variantă simplificată a modelului expus anterior, expresia sa matematică fiind dată de ecuația:
(Relația II-49)
unde,
reprezintă nivelul de acoperire în factor latent al itemului i la dimensiunea l pentru categoria de răspuns k;
este scorul predefinit al itemului i la dimensiunea l pentru categoria de răspuns k.
Elementul de noutate al acestui model este dat de scorul predefinit al unui item pentru o categorie de răspuns. Deoarece itemul este multidimensional, este posibil ca variantele de răspuns să aibă o anumită semnificație pentru una dintre dimensiuni și o cu totul altă semnificație pentru alte dimensiuni. De aceea, scorul predefinit al itemului la o anumită dimensiune este operaționalizat sub forma unei matrice de scoruri.
Să presupunem un item bidimensional cu patru categorii de răspuns. În acest caz, am putea specifica scorul predefinit de forma . Pentru prima dimensiune, alegerea variantei a treia înseamnă un scor de 3 puncte, iar pentru a doua dimensiune un scor de 4 puncte.
Suprafețele de răspuns ale categoriilor sunt trasate în figura II-27. În cazul acestui item se observă că suprafețele de răspuns ale primei categorii indică o probabilitate maximală de alegere în situația în care nivelurile factorului latent sunt foarte mici la ambele dimensiuni. Pentru categoria a doua, probabilitatea maximală de răspuns este atinsă în condițiile în care nivelul factorului latent pentru prima categorie este mare, iar nivelul factorului latent pentru a doua categorie este mic. A treia categorie va fi aleasă cu o probabilitate maximă de către subiecții cu un nivel mare al factorului latent la ambele categorii.
În cadrul acestui model, itemii au niveluri diferite de acoperire în factor latent pentru dimensiuni diferite, însă același nivel de acoperire în factor latent pentru fiecare categorie de răspuns din cadrul unei dimensiuni. Acest lucru arată că itemul funcționează ca o serie de itemi dihotomici pentru fiecare dimensiune .
Caracteristic acestui model este faptul că saturațiile în factor latent ale dimensiunilor în cazul subiecților care obțin scoruri mari pot fi diferite de saturațiile în factor latent pentru cei cu scoruri mici. De aceea, la proiectarea itemului va trebui să se țină seama, pentru fiecare categorie de răspuns, de ponderea cu care participă fiecare dimensiune în probabilitatea de alegere a categoriei. Dacă adăugăm la aceste lucruri și faptul că va trebui să generalizăm aceste ponderi la nivelul tuturor itemilor unui set de itemi, rezultă dificultatea implementării unei evaluări bazate pe itemi construiți după acest model. Deocamdată nu există cercetări care să arate efectele pe care biasurile în ponderare le pot exercita asupra calității estimării factorului latent.
Modelul multidimensional cu răspuns gradual (MGRM)
Reprezintă o generalizare a modelului cu răspuns gradual unidimensional, reamintind faptul că putem vorbi despre un model cu răspuns gradual atunci când răspunsul la o categorie determină automat răspunsuri implicite la categoriile anterioare. În cazul mai multor dimensiuni, acest model nu mai are un caracter logistic ci ogival, expresia matematică devenind:
(Relația II-50)
unde,
k reprezintă categoria de răspuns;
ai este vectorul discriminării itemului la nivelul fiecărei dimensiuni;
dik este un parametru relaționat ușurinței cu care o persoană va ajunge la pasul k al itemului.
Parametrul d are valori mari și pozitive atunci când este relativ ușor să se obțină acel scor și valori mari negative pentru cazul în care scorul se obține foarte greu. Pentru cea mai ușoară variantă, parametrul d tinde spre plus infinit, iar pentru cea mai grea variantă tinde spre minus infinit. De aceea, în practică se estimează doar valorile de la cea de-a doua până la penultima categorie de răspunsuri.
Observăm, în figura II-28, că pe măsură ce factorii latenți cresc, probabilitatea de răspuns la prima categorie scade iar probabilitatea de răspuns la cea de-a patra categorie crește. Cu toate că acest model este destul de asemănător cu modelul multidimensional generalizat cu credit parțial, în realitate sunt două modele diferite, având mecanisme distincte de scorare.
Alte modele de răspuns la item
Nu vom putea încheia această prezentare fără a menționa și alte modele de răspuns la item clasificate de van der Linden și Hambleton , detalierea acestora nefiind relevantă pentru scopul lucrării.
Autorii mai sus citați vorbesc despre modele pentru timp de răspuns sau pentru încercări multiple, remarcând modelul logistic pentru teste cu limită de timp, modelul pentru viteză și limită de timp, modelul pentru încercări multiple sau încercare unică. În categoria modelelor pentru abilități multiple sau componente cognitive se remarcă modelele de răspuns cu predictori manifești, modelele de răspuns multicomponente, modelele liniar logistice multidimensionale pentru schimbare. Nu se ignoră nici modelele neparametrice, menționându-se modele neparametrice pentru răspunsuri dihotomice și polihotomice. În cazul itemilor nemonotoni se remarcă modelul hiperbolic și modelul parella, iar pentru situația în care sunt necesare asumpții speciale referitoare la procesul de răspuns, sunt identificate modelul pentru grupuri multiple, modelele logistice mixte, modelele pentru răspunsuri dependente local și modelele pentru teste care permit doar informații parțiale.
Imensa varietate a modelelor de răspuns la item face dificilă sarcina de alegere a modelului adecvat. În plus, complexitatea unora conduce la recomandarea unor modele unidimensionale și evitarea itemilor cu caracter multidimensional.
Criterii de selecție a modelelor de răspuns la item
Alegerea modelului de răspuns la item adecvat poate pune dificultăți practice serioase. De exemplu, aproape toate modelele polihotomice pot fi aplicate itemilor construiți pe baza scalelor de tip Likert, cu toate că doar câteva au fost proiectate special pentru acestea (RSM, M-GRM).
Caracteristicile datelor colectate
Primul criteriu pe care îl vom lua în considerare ține de caracteristicile datelor colectate. Astfel, dacă itemii sunt dihotomici, se va opta, evident, pentru modele dihotomice. În caz contrar, se vor alege modele polihotomice. De asemenea, în cazul în care nu poate exista o anumită ordine între variantele de răspuns, singura opțiune rămâne modelul nominal.
Figura – Algoritmul de alegere a modelelor de răspuns în funcție de tipul datelor
În figura II-29 a fost reprezentat algoritmul de alegere a modelelor de răspuns în funcție de caracteristicile datelor. Aceste caracteristici sunt importante, însă nu suficiente în ceea ce privește decizia de aplicare a unui anumit model de răspuns la itemi, fiind necesare și îndeplinirea unor condiții matematice. Ele vor fi doar menționate, detalierea lor urmând să facă obiectul altor capitole.
Analiza statistico-matematică
Cea mai simplă metodă de estimare a faptului că modelul de răspuns este adecvat datelor o reprezintă analiza grafică, prin care se inspectează curbele caracteristice ale itemilor. Această tehnică are un caracter euristic și presupune compararea funcțiilor teoretice ale modelului cu cele rezultate în urma analizei itemului, accentuându-se pe analiza reziduurilor (diferențelor dintre modelul teoretic și modelul empiric) .
O altă metodă se bazează pe teste statistice de potrivire între modelele teoretice și modelele empirice, așa-numitele statistical fit tests. Acestea se grupează în trei mari categorii de teste: bazate pe reziduuri, bazate pe distribuții multinomiale și bazate pe funcții de răspuns .
Teste bazate pe reziduuri
Prin reziduuri înțelegem diferențele dintre parametrii teoretici așteptați de la un model de răspuns și indicatorii observați. Acestea pot fi standardizate prin raportarea reziduurilor la abaterea standard a scorurilor observate și apoi însumate. În general, se realizează suma pătratelor reziduurilor standardizate, care se raportează la numărul total al subiecților, rezultând media pătratelor reziduurilor ca indicator neponderat al gradului de potrivire între modelul teoretic și datele empirice. Din cauză că acest indicator este sensibil la valori extreme, se preferă forma în care pătratele reziduale standardizate se înmulțesc cu varianța răspunsurilor observate și apoi se raportează la suma varianțelor răspunsurilor, rezultând media ponderată a pătratelor reziduurilor, un indicator pertinent . Problema acestui indicator este aceea că nu se distribuie simetric în jurul mediei. Încercând obținerea unui indicator standardizat unic, Smith propune rădăcina cubică din media pătratelor reziduurilor, atât cea ponderată cât și cea neponderată, rezultând o distribuție aproximativ normală, interpretabilă după distribuția t .
Această metodă se bazează pe distribuții necunoscute la nivelul analizei inițiale și pe ajustări finale ale acestora în vederea aproximării unei distribuții normale. Din această cauză este dificil să se poată justifica valorile critice ale testului statistic, metoda fiind privită cu mari rezerve de către anumiți cercetători și, din acest motiv, se utilizează doar în combinație cu alte tehnici .
Teste bazate pe distribuții multinomiale
Deoarece modelele de răspuns la item, în special cele polihotomice, pot fi considerate modele exponențiale bazate pe date discrete , se pot folosi statistici asimptotice de potrivire cu modelul teoretic, bazate pe distribuții multinomiale a paternului de răspuns .
Pentru un număr de i itemi, fiecare dintre ei având un număr de g categorii, pot exista ig posibilități de răspuns. Acestea se numesc paternuri de răspuns, iar distribuția însumată a tuturor acestor distribuții are aceeași probabilitate ca o distribuție multinomială . Potrivirea modelului se poate astfel realiza prin compararea frecvențelor observate cu cele teoretice pentru paternurile de răspunsuri. Este un proces iterativ și implică statistici bazate pe distribuția χ2. Aceste teste pot fi χ2 Pearson, raportul log-likelihood, statisticile Freeman-Tukey și testul χ2 modificat al lui Neyman. Toate testele statistice sunt cazuri speciale ale testului χ2 al diferenței dintre frecvențele observate și frecvențele așteptate.
Principala problemă a acestor tehnici este aceea că necesită eșantioane foarte mari de răspunsuri pe măsură ce crește numărul itemilor și numărul variantelor de răspuns, astfel încât paternurile de răspuns să poată fi reprezentate de date. Din același motiv al creșterii exponențiale a paternurilor de răspuns, frecvențele așteptate ale acestora devin foarte mici și testul statistic tinde să aproximeze insuficient distribuția χ2 . Soluția problemei poate fi reprezentată de simulări, cele mai întâlnite fiind simulările de tip Monte Carlo.
Teste bazate pe funcția de răspuns la item
Derivă din testele bazate pe distribuții multinomiale, însă în loc de analiza diferențelor dintre paternurile de răspuns așteptate și observate se folosește probabilitatea logaritmică (log-likelihood) așteptată și observată la nivelul răspunsurilor pentru fiecare item . Metoda este însă puțin studiată, mai ales la nivelul itemilor polihotomici, și se confruntă cu aceeași dificultate referitoare la proprietățile asimptotice de estimare a parametrilor modelului.
Indiferent de metoda utilizată, aceste teste implică o serie de probleme. În primul rând, puterea lor depinde de varianță. Astfel, atunci când nivelul de acoperire al factorului latent al itemului este apropiat de nivelul factorului latent al subiectului, este aproape imposibilă determinarea gradului de potrivire cu modelul teoretic. Aceasta este o problemă cunoscută și nu are deocamdată soluții .
O altă problemă se referă la mărimea eșantionului. În cazul eșantioanelor mari, o deviere foarte mică de la modelul teoretic poate fi semnificativă și poate conduce la invalidarea modelului empiric al itemului.
În ciuda acestor dificultăți, există tehnici moderne (Criteriul informațional al lui Akaike – AIC sau indexul observatorului ideal IOI) care pot conduce la o alegere adecvată a unui model de măsurare și pe care le vom detalia ulterior.
Construcția probelor IRT
În cadrul probelor bazate pe teoria răspunsului la item, accentul cade, după cum s-a precizat, pe item și nu pe instrument. Procedeele de construcție ale itemilor nu diferă foarte mult de cele folosite în teoria clasică, însă analiza acestora presupune mecanisme complet noi. Foarte pe scurt vom trece în revistă principalele etape ale construcției itemilor, urmând să detaliem operațiunile specifice de analiză a itemilor în cazul probelor bazate pe teoria răspunsului la item.
Considerații generale privind construcția probelor psihologice
Evaluarea psihologică, în general, urmărește două scopuri principale: construcția unui profil descriptiv al comportamentului persoanelor și predicția comportamentului acestora în anumite situații. Soluțiile de evaluare psihologică pot varia de la cele bazale, rapide și aplicabile unui număr mare de subiecți (cum ar fi chestionarele, inventarele, unele teste psihologice) la cele orientate mai mult pe individ decât pe grup, elaborate, profund analitice, mari consumatoare de timp (tehnicile proiective, testele situaționale etc.). Indiferent de soluția adoptată, de metodele și tehnicile folosite, psihologul are permanent în vedere cele două scopuri principale ale psihodiagnosticului și însoțește administrarea instrumentelor cu un proces de observație activă sau ascunsă.
Instrumentele de diagnostic psihologic (probele psihologice) provin din două surse: prin adaptarea unor probe psihologice existente, de obicei din import, la specificul cultural al populației țintă și prin construcția unor instrumente noi. Rareori psihologii înșiși își construiesc instrumente de evaluare psihologică, acestea având, de obicei, un caracter și utilitate limitate, valoarea diagnostică fiind, de asemenea, de multe ori discutabilă.
Construcția instrumentelor de diagnostic psihologic, numite și instrumente de măsură în psihologie este un proces laborios, etapizat și extrem de riguros sub aspect științific, care presupune parcurgerea unui număr de patru blocuri constructive: definirea hărții constructelor, designul itemilor, spațiul de răspunsuri și modelul de măsurare .
În psihologie, semnificația termenului de măsură a constructelor psihologice diferă substanțial de conceptul folosit în științele naturii sau în matematică, aceasta având un caracter mai subtil, indirect. Așa cum susținea Stevens, „măsurarea reprezintă o atribuire de numere unor categorii de observații” , astfel lărgind definiția conceptului de măsurare și postulând totodată scalele de măsură așa cum le întâlnim astăzi. Conform acestei definiții, „scopul principal al măsurării în psihologie îl reprezintă furnizarea unei modalități consistente și rezonabile de însumare a răspunsurilor prin care persoanele exprimă achizițiile, atitudinile sau punctele de vedere personale cu ajutorul unor instrumente precum scalele de atitudini, testele de cunoștințe, chestionare, sondaje și alte scale psihologice” .
Definirea hărții constructelor
Orice instrument de evaluare psihologică este construit în vederea atingerii unui scop și poate fi folosit doar într-un anumit context, bine definit. Scopul furnizează dimensiunea sau dimensiunile evaluate de instrument (de exemplu evaluarea inteligenței, a unor aptitudini specifice, a depresiei etc.) iar contextul precizează aplicabilitatea instrumentului (de exemplu în luarea unor decizii privind activitatea profesională, în vederea ghidării terapiei etc.). Aceste dimensiuni măsurate de instrumentele de evaluare psihologică poartă numele de constructe și pot proveni dintr-un model teoretic – constructe teoretice – (de exemplu constructele din componența inventarului de personalitate 16PF ori BigFive) sau pot reprezenta o variabilă psihologică ce urmează a fi măsurată – constructe empirice – (de exemplu o scală de anxietate, un chestionar pentru depresie).
Constructele pot fi unidimensionale atunci când variabila psihologică măsoară un singur factor latent (de exemplu anxietatea) sau multidimensionale atunci când în componența constructului se regăsesc mai mulți factori latenți (de exemplu nevrozismul care poate conține anxietatea, depresia etc.). Indiferent de tipul constructelor, acestea sunt entități abstracte, inobservabile direct. Acordarea de semnificație concretă constructelor se realizează în urma unui proces de operaționalizare prin intermediul hărții constructului. Astfel, harta constructului urmărește două elemente principale:
o definire coerentă și exhaustivă a conținutului constructului și
o reprezentare a continuumului constructului între limitele sale, pornind de la semnificația unei slabe încărcări în factor latent și de la cea a unei puternice încărcări în factor latent, precum și reprezentarea semnificației intervalelor de diferențiere.
Cel de-al doilea element poate fi realizat, din punct de vedere practic, prin două mijloace, conducând la cele două categorii principale de hărți ale constructelor:
harta constructelor respondenților – prin care subiecții sunt ordonați în funcție de „cantitatea” de factor latent pe care o posedă și care pot fi grupați, din punct de vedere calitativ, într-o serie de categorii ordonate;
harta constructelor bazate pe răspuns la itemi – prin care răspunsurile la itemi sunt ordonate în funcție de cantitatea de factor latent pe care o pot măsura, gruparea realizându-se, la fel, în categorii ordonate.
În figura III-1 a fost reprezentată harta constructului în cazul unui item generic. Factorul latent măsurat este reprezentat printr-un continuum între cele două extreme determinate de încărcătura și domeniul măsurat de item. În partea stângă a hărții constructului se reprezintă spațiul descriptiv al subiecților, de la descrierea calitativă a unui subiect cu o încărcătură redusă în factor latent, la descrierea calitativă unui subiect cu o încărcătură ridicată în factor latent, iar în partea dreaptă a factorului latent se reprezintă spațiul răspunsurilor la item – reperele calitative ale fiecărui răspuns în funcție de cantitatea de factor latent pe care acel răspuns o reprezintă.
Hărțile constructelor pot fi parțiale atunci când reprezintă doar un singur spațiu (al subiecților sau al răspunsurilor la item) sau complete atunci când reprezintă ambele spații. O asemenea reprezentare posedă două caracteristici notabile :
nu există nicio limitare a numărului de categorii care pot fi reprezentate în cele două spații. Se pot construi itemi cu două categorii, cu cinci categorii etc., singura recomandare fiind aceea determinată de capacitatea de diferențiere a subiecților în funcție de specificul factorului latent măsurat. Proiectantul itemului va trebui să țină seama dacă diferențele dintre două răspunsuri în spațiul răspunsurilor corespund în mod real și pot diferenția între aspectele calitative ale factorului latent în spațiul subiecților;
etichetele calitative (ancorele comportamentale) au un caracter cumulativ, dar fără a putea reprezenta, strict matematic, intervale egale. Răspunsurile situate la diferite niveluri trebuie să reprezinte, în mod real, distanțe determinate de „cantități” diferite de factor latent, atât în spațiul subiecților, cât și în spațiul răspunsurilor.
Harta constructelor reprezintă un reper generic situat încă la un nivel înalt de abstractizare. Ea nu vorbește despre un item anume, ci despre un item generic, ce poate măsura spațiul factorului latent, definind constructul și precizând semnificația diferitelor niveluri ale acestuia. În termeni de specialitate, putem spune că harta constructului oferă definiția operațională a acestuia și semnificația calitativă a diferențelor dintre nivelurile factorului latent pe continuumul determinat de lipsa de saturație și saturația completă.
Harta constructului ajută la precizarea clară a dimensiunii măsurate și la definirea indicatorilor acestei dimensiuni în cadrul procesului de operaționalizare a constructului.
Designul itemilor
Pe baza definițiilor operaționale rezultate în urma elaborării hărții constructelor se pot construi itemii unui instrument de evaluare psihologică. Un item reprezintă „un proces de observație științifică în vederea surprinderii comportamentelor saturate la diferite niveluri ale factorului latent măsurat, observație desfășurată în baza unor proceduri care permit urmărirea standardizată a amplitudinii domeniului factorului latent și a unor proceduri de clasificare a acestor observații într-un set standardizat de categorii” . Primele proceduri țin de designul itemului iar următoarele se referă la spațiul de răspunsuri. Orice instrument de evaluare psihologică nu este altceva decât un set de asemenea proceduri numite generic itemi.
Un construct psihologic este prea general pentru a putea fi surprins direct în cadrul comportamentului manifest. Există însă tipuri de comportamente specifice care saturează în grade diferite de intensitate un construct psihologic. Ideea de construcție a itemilor o reprezintă tocmai identificarea unor comportamente standardizate care să reprezinte niveluri diferite de saturație a constructului psihologic. De exemplu, tema și blocajul într-o situație de examen pot fi comportamente asociate anxietății într-o măsură mai mică în comparație cu teama de a ieși din casă, care saturează anxietatea la un nivel patologic.
Fiecare item are o anumită amplitudine în continuumul factorului latent și nu poate măsura întregul spațiu al acestuia. Pot exista itemi dedicați unor niveluri mici de saturație în factor latent și itemi dedicați unor niveluri ridicate de saturație în factori latenți. În cazul unei probe de inteligență generală există itemi care măsoară nivelul inteligenței generale pentru persoanele cu retard mintal și itemi care măsoară nivelul inteligenței generale pentru persoanele foarte dotate sub aspect intelectual. Relația dintre numărul de itemi și precizia unui instrument de evaluare psihologică este una invers proporțională; cu cât numărul de itemi este mai mare – urmărind astfel surprinderea unor comportamente definitorii pentru o amplitudine cât mai mare a continuumului factorului latent – cu atât precizia evaluării este mai mică, deoarece în procesul de evaluare intervin și alți factori care îl influențează.
Un item reprezintă un eșantion dintr-un număr infinit de eșantioane de comportamente relaționate constructului măsurat . Pentru a surprinde la un nivel de precizie suficient de ridicat o amplitudine mare a continuumului factorului latent, este necesară o alegere atentă a modelului de măsură. În cazul teoriei clasice a testului psihologic se utilizează, progresiv, mai multe instrumente în funcție de evoluția măsurătorii factorului latent. Pentru teoria răspunsului la item se folosesc probe auto-adaptive.
Prima etapă a designului itemilor pentru un construct măsurat este reprezentată de definirea populației de itemi din care vor fi aceștia extrași. Acest proces constă dintr-o serie de decizii ale constructorului de instrument prin care se aleg comportamentele reprezentative pentru constructul măsurat și se sortează aceste comportamente în funcție de reperele specificate în harta constructelor. În termeni de specialitate, procesul poartă numele de stratificare a universului de itemi. Aceste decizii se pot lua, așadar, în baza a două categorii de elemente: în funcție de reperele constructului (decizii de construct) și în funcție de nevoile practice, astfel încât instrumentul să posede un grad de precizie suficient în condițiile limitării impuse de administrarea concretă (decizii descriptive).
Deciziile de construct vizează nivelurile de interpretare ale factorului latent în conformitate cu harta constructelor, astfel încât diferiți itemi să acopere diferitele zone ale continuumului spațiului latent. Fiecare item va genera răspunsuri la diferite niveluri adiacente spațiului latent, minimum două, altfel itemul este lipsit de utilitate practică. Spațiul de răspunsuri al itemului va permite astfel diferențierea între subiecți cu niveluri apropiate ale factorului latent. Cu cât nivelurile factorului latent sunt mai numeroase, cu atât un item va putea diferenția mai precis între subiecți, aceasta nefiind însă singura condiție a capacității discriminative a unui item. Pe de altă parte, cu cât un item acoperă mai multe niveluri ale factorului latent, cu atât este mai general, sesizând în mod grosier poziția subiectului pe continuumul factorului latent. Generarea de itemi grosieri conduce la instrumente de mici dimensiuni, rapid aplicabile, însă imprecise, iar itemii fini generează evaluări precise la nivelul unei zone relativ restrânse a continuumului factorului latent, însă instrumentele devin prea mari și susceptibile la erori determinate de considerente de administrare practică.
Deciziile descriptive au un caracter arbitrar și pot stipula aspecte variate ale aplicabilității itemului. Ele se pot referi la zona factorului latent în care itemul are eficiență maximă, la categoria de subiecți cărora se adresează, la proveniența acestuia, la caracteristicile constructive, tehnica de generare etc.
Din punct de vedere al procesului de generare a itemilor, majoritatea lucrărilor de specialitate indică utilizarea în fază preliminară a observației participative și, dacă este cazul, interviul. Inițial, itemii sunt generați în formă deschisă, făcând obiectul unei grile de interviu nestructurat sau semi-structurat. Protocoalele de interviu rezultate în urma unui studiu preliminar pe diferite loturi de cercetare sunt apoi analizate în vederea clasificării răspunsurilor și a relaționării acestora cu spațiul de răspunsuri determinat de harta constructelor. Aceste activități sunt deseori însoțite de observație indirectă și de investigarea modului în care subiecții au elaborat răspunsurile, proces denumit generic „laborator cognitiv”. Investigarea mecanismelor cognitive care au determinat generarea răspunsului la un item poate furniza informații relevante legate de validitatea răspunsului și de modalitatea de construcție a spațiului de răspunsuri.
În urma acestor activități, itemii sunt rafinați, reformulați și pregătiți pentru analiza panel. Acest proces face parte din analiza validității de construct a itemului și implică o serie de etape. În primul rând, pentru fiecare item se va preciza relația cu constructul, modul în care a fost perceput de subiecți, ce fel de informații generează și ce fel de răspunsuri a produs. Se va asigura un număr suficient de itemi pentru fiecare indicator măsurat, cunoscându-se faptul că instrumentul final va avea aproximativ jumătate dintre itemii propuși inițial. De asemenea, se recomandă administrarea itemilor unui mic lot de cercetare și investigarea modului în care aceștia îi percep, în vederea analizei clarității sarcinii și calității răspunsurilor elaborate.
Panelul de experți va fi constituit din persoane desemnate să analizeze conținutul itemilor și relația acestora cu diferitele niveluri ale constructului. Se recomandă ca în componența panelului să intre posibilii subiecți care ar fi evaluați cu acești itemi, profesioniști în domeniul factorului latent măsurat, profesioniști în domeniul măsurării și elaborării probelor psihologice și alte persoane posibil interesate de domeniu și potențiali beneficiari ai rezultatelor măsurătorii. Acestora li se furnizează definițiile operaționale ale constructului și ale indicatorilor, precum și semnificația nivelurilor factorului latent în termeni descriptivi, o descriere a modului de administrare și a posibilităților de scorare a instrumentului, o listă a itemilor amestecați precum și alte informații relevante astfel încât evaluarea să aibă un caracter obiectiv. De asemenea, vor fi organizate întâlniri preliminare cu membrii panelului, pentru a se clarifica toate aspectele care pot conduce la erori în evaluare.
În cadrul întâlnirilor efective, în prima fază, itemii propuși vor fi evaluați individual sub aspectul apartenenței acestora la indicatori, urmărindu-se gradul de acord între evaluatori. Faza a doua presupune întâlniri colective în care itemii sunt evaluați critic, urmărindu-se deciziile care au stat la baza încadrării acestora, claritatea itemilor, propuneri de reformulare etc.
Ultima fază are loc după evaluarea colectivă a tuturor itemilor și presupune informații și comentarii generale referitoare la setul de itemi, axate, în special, pe reprezentativitatea acestora în raport cu factorul latent măsurat, evaluându-se și validitatea de conținut.
În urma ședințelor de tip panel, se elimină itemii pentru care gradul de dezacord este unul ridicat, reformulându-se în conformitate cu sugestiile efectuate. Astfel, rezultă un set de itemi validați parțial sub aspectul constructului, conținutului și din punct de vedere al validității ecologice. Etapele prezentate mai sus fac parte din metoda RAND Panel, una dintre cele mai utilizate metode în domeniul elaborării instrumentelor psihologice. În acest moment, itemii sunt pregătiți pentru al treilea bloc de proceduri, și anume elaborarea spațiului de răspunsuri.
Spațiul de răspunsuri
Setul de itemi rezultat nu presupune, până în acest moment, alocarea unor scale de răspuns. Nu se pot defini variantele de răspuns pentru fiecare item înainte de a avea o perspectivă asupra posibilelor răspunsuri pe care le vor da subiecții. De aceea, designul itemilor și cel al spațiului de răspunsuri reprezintă etape distincte în proiectarea instrumentelor de evaluare psihologică.
Spațiul de răspunsuri stabilește un set de categorii bine definite, finite și exhaustive, ordonate, adecvate contextului și bazate pe cercetare . Construcția spațiului de răspunsuri definitivează itemul ca procedură standardizată de observație științifică .
Fiecare item poate primi, teoretic, o infinitate de răspunsuri, în funcție de caracteristicile individuale ale respondenților. Este totuși dificil de lucrat cu itemi deschiși, preferându-se abordarea itemilor cu răspuns fix, răspunsurile fiind grupate în variante de răspuns. Elaborarea variantelor de răspuns se realizează prin investigarea răspunsurilor libere date de subiecți la itemi, în urma unui proces de categorizare, prin care se grupează răspunsurile în teme sau categorii, metoda folosită fiind cea a analizei de conținut tematice. În funcție de structura categoriilor și de caracteristicile acestora se alege scala de răspuns adecvată, ținându-se cont de faptul că distanțele dintre categorii trebuie să reprezinte distanțe calitative sub aspectul factorului latent, așa cum rezultă din harta constructului.
Un spațiu de răspunsuri bine construit prezintă caracteristicile definitorii ale sale: categorii bine definite, finite și exhaustive, ordonate, adecvate contextului și bazate pe cercetare .
Caracterul bine definit al categoriilor de răspuns este dat de specificațiile clare ale factorului latent măsurat de item, de documentația care stă la baza acestuia, de relațiile cu alți itemi și cu alte răspunsuri posibile și de instructajul efectuat în vederea asigurării unei fidelități inter-evaluatori crescute.
Caracterul finit și exhaustiv al categoriilor de răspuns provine din faptul că acestea reprezintă un eșantion dintr-o populație foarte mare de răspunsuri posibile. Prin urmare, categoriile de răspuns trebuie să fie reprezentative pentru populația de răspunsuri. De exemplu, răspunsul la întrebarea „Cum vă simțiți înainte de un examen foarte important?” poate fi dat într-o propoziție sau pe mai multe pagini scrise, în funcție de respondent. O asemenea analiză ar putea fi mare consumatoare de timp și complet ineficientă în evaluarea psihologică a unor grupuri mari de subiecți. De aceea, rolul spațiului de răspunsuri este de a acorda semnificație și sens unui număr potențial infinit de răspunsuri la un item. O primă proprietate a spațiului de răspunsuri este caracterul finit al acestuia. Din categorizarea răspunsurilor la întrebarea anterioară se poate deduce, de exemplu, că subiecții ar putea fi grupați în cei care se simt relaxați înaintea unui examen și cei care se simt tensionați. Astfel, se limitează spațiul infinit al populației de răspunsuri la doar două categorii definitorii pentru acesta. Totuși, caracterul finit al spațiului de răspunsuri nu reprezintă o condiție unică și suficientă, ci va trebui asociat cu exhaustivitatea acestora. Va trebui ca fiecare răspuns posibil să poată fi încadrat într-o categorie, în conformitate cu harta constructului. Dacă harta constructului precizează doar două niveluri necesare și suficiente pentru a defini continuumul factorului latent, categorizarea anterioară poate fi considerată exhaustivă. Dacă există mai multe niveluri, atunci spațiul de răspunsuri are un caracter mult prea general. În acest caz, ar fi mult mai utilă o ordonare a răspunsurilor pe un alt tip de scală definită, spre exemplu, de ancorele „foarte relaxat” și „foarte tensionat”.
Caracterul ordonat derivă din modul de definire al constructului. Dacă factorul latent se situează pe un continuum, este firesc ca și spațiul de răspunsuri să poată fi ordonat în același fel. Unele categorii vor reprezenta un nivel mai mic al factorului latent, în timp ce alte categorii vor fi reprezentative pentru un nivel ridicat al acestuia. Această ordine trebuie să se reflecte atât la nivelul teoriei care stă la baza constructului, cât și la nivelul aplicabilității practice. Totodată, ordinea categoriilor nu trebuie să fie completă, nu trebuie să acopere întregul domeniul al factorului latent. Este suficient dacă reprezintă o parte a acestui continuum. Uneori ordinea categoriilor este dată de tipul scalei folosite (de exemplu în cazul scalelor Likert), alteori este dată de conținutul în factor latent al itemului (de exemplu spațiile de răspuns dihotomice sau cele nominale).
Caracterul adecvat la context susține că spațiul de răspunsuri trebuie să fie specific constructului măsurat și contextului în care acesta va fi folosit. Etichetele categoriilor vor respecta caracteristicile de conținut ale itemului, nerecomandându-se utilizarea unor ancore cu caracter general. Etichetarea folosind extreme de genul „foarte relaxat” și „foarte tensionat” este una adecvată contextului itemului expus anterior ca exemplu, în comparație cu o etichetare de genul „foarte puțin” și „foarte mult”, care are un caracter mult prea general.
Stabilirea categoriilor de răspuns este o condiție necesară, dar nu și suficientă, în vederea definirii complete a spațiului răspunsurilor. Ultima etapă o reprezintă, conform definiției lui Stevens, atribuirea de numere categoriei de răspunsuri și definirea scalei, proces numit scorare. Astfel, categoriile de răspunsuri sunt relaționate spațiului de răspunsuri din harta constructului și definesc, în mod complet, itemul. După cum se cunoaște, există numeroase scale de răspuns pornind de la cele dihotomice, nominale și ordinale, unele cu alegere unică, altele cu alegere multiplă. În general, orice scală de măsură prezintă o categorie activă, cu semnificație asupra nivelului factorului latent (numită și răspuns activ sau pol activ în cazul scalelor ordinale) și una sau mai multe categorii fără semnificație asupra nivelului factorului latent (categorii numite distractori sau pol distractor). Răspunsul activ (corect în cazul probelor de aptitudini sau al testelor de cunoștințe) este acela care saturează itemul în factor latent și îi oferă relevanță în raport cu constructul. Distractorii, în general, nu saturează itemul în factor latent sau au saturații foarte mici. Polul activ reprezintă scorul minim sau maxim într-o scală ordinală (spre exemplu o scală Likert) care, ales, oferă cea mai mare saturație în factor activ a itemului, spre deosebire de polul distractor, situat la cealaltă extremă. În cazul scalelor ordinale, toate categoriile saturează în factor latent itemul, diferența dintre acestea constând în gradul de saturație.
De asemenea, pot exista sisteme de scorare în care o singură categorie de răspuns saturează complet itemul în factor latent (cum ar fi itemii cu scale nominale și cu un singur răspuns activ) și sisteme se scorare în care anumite categorii de răspuns saturează cu ponderi diferite itemul în factor latent (scale nominale cu mai multe răspunsuri active, scale nominale cu răspunsuri active ponderate, scale ordinale).
Construcția completă a spațiului de răspunsuri presupune existența unui număr de trei strategii în funcție de tipul de factor latent măsurat. Strategiile fenomenografică și taxonomia SOLO sunt utilizate pentru factori latenți de natură cognitivă, iar strategia Guttman se folosește pentru factori latenți non-cognitivi cum ar fi, de exemplu, probele de personalitate.
Fenomenografia sau schema de generare fenomenografică a spațiului de răspunsuri a fost descrisă de Masters și Wilson în 1997 pornind de la bazele definite de Marton în 1981 și reprezintă o metodă de construcție a spațiului de răspunsuri pentru sarcini cognitive bazată pe analiza detaliată a răspunsurilor subiecților. Așa cum susținea Marton, este o „metodă de cercetare în vederea categorizării (mapării) modalităților calitative diferite prin care persoanele experimentează, conceptualizează, percep și înțeleg diferitele aspecte și fenomene din lumea înconjurătoare .
Metoda implică prezentarea unei sarcini sau a unui item, de obicei sub formă de interviu, în vederea culegerii de informații legate de modul în care subiecții percep și înțeleg un anumit fenomen. Aceștia vor explica felul în care abordează problema și modul în care ajung la soluție. S-a constatat că există un număr relativ limitat de căi care pot duce la o soluție, indiferent dacă soluția este sau nu corectă. Aceste căi reprezintă seturi de categorii care descriu diferențele calitative între răspunsurile subiecților. Prin analiza tematică a protocoalelor de interviu se relevă o serie de teme unice, însoțite de detaliile relevante ale soluțiilor găsite, teme care vor intra în componența eșantionului de răspunsuri. În etapa următoare, eșantionul de răspunsuri formează o serie de grupuri de răspunsuri studiate în vederea identificării diferențelor dintre acestea și a contrastelor. Aceste rezultate permit identificarea strategiilor de înțelegere a problemei și conduc la elaborarea spațiului de răspunsuri complet.
Taxonomia SOLO (Structure Of the Learning Outcome) reprezintă o schemă de elaborare a spațiului de răspunsuri pentru sarcini asociate celor cognitive, dezvoltată și prezentată de către Biggs și Collis în 1982. Această clasificare a pornit de la observațiile autorilor rezultate în urma unor cercetări prin care urmăreau clasificarea studenților în stadiile piagetiene și, în funcție de această alocare, predicția răspunsurilor la anumite sarcini cognitive. Inconsistența performanțelor a condus la schimbarea perspectivei de la ierarhia stadiilor piagetiene la ierarhia categoriilor de răspunsuri observate. Astfel, rezolvând sarcini cognitive, răspunsurile subiecților se pot încadra într-un număr de 5 categorii ierarhice – prestructurale, unistructurale, multistructurale, relaționale și extinse sau abstracte, definind astfel clasificarea SOLO (vezi Anexa 1).
Această clasificare poate reprezenta un excelent punct de plecare în elaborarea spațiului de răspunsuri pentru itemi cognitivi și poate funcționa ca reper în stabilirea categoriilor. Nivelurile pot fi însă prea generale pentru anumiți itemi specifici, de aceea taxonomia SOLO a fost completată cu o serie de repere intermediare, rezultând în final un număr de 7 categorii conform clasificării SOLO extinse, numită și clasificare BEAR (Berkeley Evaluation and Assessment Research) .
Itemii Guttman permit dezvoltarea de spații de răspuns în zone non-cognitive ale factorului latent, cum ar fi scalele de atitudini sau inventarele de personalitate. Cele mai cunoscute scale de răspuns construite în baza strategiei Guttman sunt scalele Likert. Intens folosite, totuși aceste scale se confruntă cu mai multe probleme dintre care și cea a lipsei reperelor în judecarea fină a diferențelor dintre categorii. Nu există un mod unitar și standardizat prin care respondentul să diferențieze, de exemplu, între variantele „parțial de acord” și „de acord”, această alegere având un grad ridicat de subiectivism. Problema poate fi accentuată și de lipsa ancorelor pentru fiecare dintre variantele de răspuns, deoarece multe probe prezintă doar etichetele extremelor (de exemplu „niciodată” și „întotdeauna”), fără să includă repere la nivelul fiecărei cifre, fapt care poate genera confuzii și interpretări cu un caracter puternic subiectiv.
Această dificultate se poate depăși prin includerea conceptului de scalogramă sau scalare Guttman, termen propus de autor încă din anul 1994 . Categoriile de răspuns pe o scală Guttman sunt ordonate în baza saturației în factor latent, fiecare dintre răspunsuri prezentând o probabilitate calculabilă de a fi ales, în funcție de nivelul factorului latent prezent la subiect. Deși mai dificil de construit în comparație cu răspunsurile Likert, scala Guttman are avantajul unei estimări mai precise, apropiindu-se de specificul modelelor de răspuns la item.
După definirea spațiului de răspunsuri, itemii urmează a fi din nou evaluați prin intermediului studiului pilot. Acesta presupune selectarea unui număr de 50-100 de subiecți cu acoperiri estimate diferite ale factorului latent. Lotul de cercetare nu este necesar să fie reprezentativ, însă va trebui să asigure subiecți aflați în diferite zone ale continuumului spațiului latent. În general, lotul de cercetare se împarte în două grupe: grupa fenomenografică și grupa de interviu post-factum. Literatura de specialitate recomandă familiarizarea inițială cu instrumentul, auto-administrarea, rafinarea consemnului de administrare înainte de inițierea efectivă a studiului pilot.
Studiul pilot debutează cu administrarea instrumentului celor două grupe de subiecți, așa cum va fi folosit în formă finală. Primului grup i se solicită să gândească cu voce tare în timpul rezolvării itemilor, înregistrându-se comentariile. Cel de-al doilea grup va răspunde în mod normal. Pentru ambele grupuri, la final, vor avea loc discuții privind fiecare item în parte, colectându-se informații despre claritatea acestuia, adecvarea scalei de răspuns, recomandări, sugestii.
După colectarea datelor, se analizează protocoalele primului grup și protocoalele de interviu, corectându-se eventualele probleme, reformulând sau eliminând itemi ori scale. De asemenea, pot fi inițiate primele analize de date referitoare la validitatea itemilor.
Alegerea modelului de măsură
Etapele descrise anterior sunt comune teoriei clasice a testului și teoriei răspunsului la item. Ceea ce diferențiază cele două teorii se regăsește în această ultimă etapă. Modelul de măsură postulează modul în care sistemul de scorare ales este relaționat constructului măsurat . La acest nivel există două modalități de abordare: orientarea către instrument – care face obiectul teoriei clasice a testului și orientarea către item – ține de teoria răspunsului la item. Nu intrăm în detalii privind prima abordare, lucrurile fiind bine cunoscute. Cea de-a doua abordare va face obiectul următoarelor subcapitole.
În această etapă itemii sunt valizi sub aspectul constructului, al conținutului și al validității ecologice, celelalte forme de validitate fiind studiate prin procedee specifice.
Semnificația și proprietățile scalelor de măsură în IRT
Semnificația scorurilor în cadrul teoriei răspunsului la item diferă substanțial de semnificația scorurilor în teoria clasică a testului, cu toate că scorurile factorului latent aproximează într-un fel distribuția z, însă interpretarea acestora diferă. Orice proces de comparație implică precizarea unui număr de două elemente: un standard pe baza căruia se realizează comparația și o bază numerică a comparației (ordinală, de interval, de raport). Știm deja că în teoria clasică a testului baza numerică a comparației este scala ordinală, iar standardul de comparație îl reprezintă grupul de persoane, pe scurt etalonul. Probele clasice reflectă poziția ocupată de un subiect într-un grup de subiecți, numit eșantion normativ.
În cadrul teoriei răspunsului la item, nivelul factorului latent dobândește semnificație în procesul de comparație cu itemii și nu cu un eșantion normativ. Atât subiecții, cât și itemii sunt plasați pe aceeași scală, baza numerică de comparație fiind scala de interval sau de raport, în funcție de model. În figura III-2 itemii unui instrument IRT sunt ordonați în funcție de nivelul factorului latent pe care îl posedă. Pe aceeași axă sunt poziționate, în baza aceluiași criteriu, subiecții. Nivelul factorului latent al persoanei P4 este 0,90. Itemul care corespunde acestui nivel este penultimul item (b=0,90), astfel încât probabilitatea ca subiectul P4 să răspundă activ la acest item este de 0,5. Desigur, probabilitatea unui subiect de a răspunde activ la un item situat la stânga crește cu cât nivelul de factor latent pe care acel item îl conține este mai mic.
Sistemul de comparație folosit în teoria răspunsului la item este asemănător cu cel utilizat în psihofiziologie. În acest domeniu se punea problema intensității unui stimul care poate fi perceput de subiect, numită și intensitate prag, definită ca intensitatea stimulului pentru care există 50% șanse ca acesta să fie perceput de subiect. Analog, în modelele de răspuns la item, itemii au niveluri diferite de acoperire în factor latent, punându-se problema nivelului factorului latent al unui item pentru care există 50% șanse ca subiectul să nu mai răspundă activ. Comparând nivelul de acoperire în factor latent al itemului cu răspunsul subiectului, poate fi estimat nivelul factorului latent al unui subiect. Baza numerică se deplasează astfel de la scala ordinală la o scală de raport.
Deși nivelurile de măsură în teoria răspunsului la item sunt situate cel puțin la scala de interval, ele au o serie de proprietăți unice, deoarece unitățile de scală nu se bazează pe distribuția normală. Valorile numerice ale factorului latent diferă substanțial din punct de vedere al magnitudinii, din cauza principalelor decizii care urmează a fi luate în scalare: sistemul de ancorare și tipul scalei.
Sistemul de ancorare
Într-o probă construită pe baza unui model de răspuns la item, este necesară estimarea a două seturi de parametri – parametrii itemului și nivelul factorului latent al persoanei. Ambele seturi de parametri sunt inițial necunoscute, iar estimarea acestora se bazează pe aceleași date. Acest proces poartă numele de calibrare și presupune, inițial, alegerea unui sistem de ancorare. Indiferent de sistemul de ancorare folosit, acesta va fi suficient pentru identificarea parametrilor modelului. Există două sisteme de ancorare, în funcție de setul de parametri care urmează a fi estimat, și anume ancorarea pe itemi sau ancorarea pe subiecți.
Alegerea unui sistem de ancorare reprezintă un proces arbitrar, preferințele ținând de specificul estimării parametrilor și de stilul de lucru al psihologului. Indiferent de sistemul de ancorare ales, acesta urmărește stabilirea valorii zero absolut, valoare de referință pentru unul dintre cele două seturi de itemi.
Ancorarea pe itemi
Ancorarea pe itemi permite interpretarea nivelului factorului latent în termeni de performanță la item . Cel mai frecvent, nivelul de acoperire în factor latent al unui item este stabilit arbitrar la valoarea zero, iar discriminarea la valoarea unu. Această ancorare se poate realiza la nivelul unui singur item, la nivelul întregului set de itemi, care măsoară un factor latent sau la diferite subseturi de itemi. Ancorând itemii, nivelul factorului latent va fi interpretat prin raportare directă la aceștia. Dacă nivelul factorului latent al unei persoane este mai mare de zero, atunci există o probabilitate mai mare ca subiectul să răspundă activ la acel item, în caz contrar existând probabilitatea de a răspunde în sensul polului sau al răspunsului distractor. În cazul în care nivelul factorului latent este zero, atunci performanța sa exprimă nivelul performanței medii a itemului.
Acest sistem de ancorare permite aprecierea itemului și evaluarea parametrilor acestuia atunci când se poate estima nivelul factorului latent al persoanelor, fiind popular mai ales în Europa datorită accentului pus pe aplicațiile teoriei clasice a testului și pe analiza clasică a itemilor.
Ancorarea pe subiecți
Acest sistem de ancorare se aseamănă cu principiile distribuției z, punând accent pe distribuția scorurilor. Media și abaterea standard a factorului latent sunt stabilite la zero, respectiv 1, distribuția acestuia urmând o distribuție z. Nivelurile factorului latent sunt inițial stabilite conform distribuției z, valorile pozitive fiind asociate unor performanțe peste medie iar valorile negative unor performanțe sub medie. În acest caz, acoperirea în factor latent și discriminarea itemului sunt elementele care variază, permițând evaluarea nivelului factorului latent al persoanelor atunci când se cunosc parametrii itemului. Sistemul este popular în Statele Unite unde evaluările bazate pe modele de răspuns la item sunt efectuate pe scală largă, mai ales în mediul educațional.
Sistemul de ancorare influențează doar baza de pornire în calibrarea inițială a itemilor și, indiferent de metoda aleasă, nu afectează estimarea parametrilor, deoarece atât persoanele, cât și itemii sunt situați pe aceeași scală. Persoanele pot fi comparate cu itemii pentru identificarea valorii prag la care probabilitatea de a nu răspunde la un item este maximă, aceasta constituind reperul pentru nivelul factorului latent al persoanei și, în același timp, itemii pot fi comparați cu persoanele, pe baza mediilor și abaterilor standard estimându-se parametrii acestora .
Tipuri de scale
Scalele folosite în teoria răspunsului la item sunt fundamental diferite de cele din teoria clasică a testului. În aplicațiile bazate pe modele de răspuns la item se pot întâlni trei tipuri de scale: în logiți, în unități probabilistice și în proporții de scoruri reale.
Scala în logiți
Este cea mai răspândită scală în modelele de răspuns la item, la care nivelul factorului latent se exprimă sub forma exponentului funcției modelului de răspuns la item. Logitul, întâlnit și sub numele de unitate probabilistică logistică (log-odds), poate lua valori între 0 și 1 și reprezintă inversul funcției logistice, funcție care permite trasarea curbei caracteristice a itemului.
Relația III-1)
Se poate observa din expresia III-1 că logitul nu reprezintă altceva decât logaritmul natural al raportului dintre proporția răspunsurilor active și proporția distractorilor prezenți la nivelul unui item.
Scala în logiți a fost propusă în urma dezvoltării modelelor de răspuns la item bazate pe curba logistică, derivate din modelele care foloseau ogiva normală. În cadrul modelelor ogivale, unitatea scalară era reprezentată de probit, ca expresie a inversului distribuției cumulative asociată distribuției normale.
Relația III-2)
Funcția probit, prezentată în expresia III-2, nu se mai utilizează decât în cercetări de natură teoretică, atunci când se urmăresc analize raportate la distribuția normală, deoarece poate fi asimilată foarte ușor unei funcții logistice prin adăugarea constantei 1,7, astfel încât:
Relația III-3)
Observăm, în figura III-3, comparația între funcția logit și funcția probit, diferențele fiind extrem de mici, compensabile prin constanta adăugată. Datorită faptului că funcția logistică este mult mai ușor de calculat în comparație cu probiții, iar cele două funcții sunt aproape identice, se preferă în acest moment utilizarea aproape exclusivă a scalei în logiți.
În cazul scalei în logiți, unitatea de măsură este logitul, iar scala poate lua, de obicei, valori între -3 și +3, putând fi ușor reprezentată ca o distribuție z.
Scala în unități probabilistice (odds ratio scale)
Reprezintă antilogaritmul scalei în logiți, are întotdeauna valori pozitive și o variabilitate mai mare în comparație cu scala în logiți. Scala exprimă probabilitatea de a răspunde activ la un item raportată la nivelul de acoperire în factor latent al itemului.
Dacă, spre exemplu, un item are nivelul de acoperire în factor latent zero pe scala în logiți, pe scala în unități probabilistice va avea nivelul de acoperire în factor latent 1, antilogaritmul valorii 0 fiind 1. Nivelul factorului latent pe această scală reprezintă probabilitatea cu care o persoană va răspunde activ la un item.
Scala în proporții de scoruri reale
Primele două scale, cea în logiți și în unități probabilistice, permit o foarte bună comparație a scorurilor, în timp ce scala în proporții de scoruri reale are o serie de limitări în ceea ce privește comparația scorurilor, însă prezintă proprietăți importante în relația cu teoria clasică a testului.
Scala exprimă proporția așteptată de itemi calibrați, la care un subiect cu un anumit nivel al factorului latent va răspunde activ. Folosind această scală, se pot reduce erorile aleatorii în răspunsurile subiectului, atunci când se folosesc itemi bine calibrați și pot fi anticipate performanțele unui subiect la probe care nu au fost încă administrate, pe baza caracteristicilor itemilor acestora. Cea mai importantă problemă a acestei scale este aceea că nu reușește atingerea unui nivel de măsură de interval, așa cum se întâmplă în cazul primelor două, motiv pentru care se folosește mai mult în scop de cercetare.
Estimarea parametrilor itemilor. Calibrarea itemilor
Probabil cel mai complicat aspect al teoriei răspunsului la item îl reprezintă calibrarea itemilor, procesul de estimare a parametrilor acestora. În cazul itemilor noi, estimarea parametrilor se realizează pornind de la aceleași date folosite în estimarea nivelului factorului latent. Există mai multe tehnici, în funcție de modelul ales și în funcție de cunoașterea sau necunoașterea nivelului factorului latent al persoanelor incluse în lotul de calibrare. Putem remarca o serie de tehnici euristice, rar folosite în prezent, precum și metode bazate pe probabilitatea maximală (maximum likelihood), utilizate în majoritatea aplicațiilor disponibile.
Înainte de estimarea parametrilor itemilor trebuie asigurată, în mod obligatoriu, îndeplinirea asumpțiilor legate de unidimensionalitate și independență locală, așa cum s-a arătată în subcapitolul II.1.
Indiferent de metoda de calibrare folosită, trebuie să remarcăm că o bună estimare a parametrilor itemilor necesită volume mari de date, atât la testarea asumpțiilor cât și la estimarea efectivă a parametrilor itemilor. Un minimum de 500 de evaluări pot fi utilizate în scop de cercetare, iar în scop diagnostic nu se acceptă itemi calibrați pe mai puțin de 1500 de subiecți. De aceea, precizia superioară a modelelor de răspuns la item este contrabalansată de dificultăți semnificative în construirea unei baze de itemi solide care să acopere întregul domeniu al factorului latent.
Metode euristice
Metodele euristice nu se folosesc în practică, deoarece unele pleacă de la asumpția nerealistă conform căreia nivelul factorului latent este cunoscut, iar altele prezintă proprietăți net inferioare celor bazate pe probabilitatea maximală. Fiind însă printre primele metode descrise și ușor de abordat în procesul de înțelegere a estimării parametrilor itemilor, ele vor fi tratate în detaliu. Cele două metode euristice se referă la aproximările matricei de date și la regresia logistică spre un nivel cunoscut al factorului latent. Ambele metode au fost expuse de Embretson și Reise și vor fi completate cu explicațiile și exemplificările noastre.
Metoda Rasch de aproximare a matricei de date
A fost propusă de Rasch în anul 1960 și se poate utiliza exclusiv în cazul modelelor Rasch (1PL). Pentru un asemenea model, scorul total reprezintă o statistică suficientă de estimare a nivelului factorului latent al subiecților, iar numărul de persoane care au răspuns activ la un item este o statistică suficientă de estimare a gradului de acoperire în factor latent al unui item (b) . Fiind un model cu un singur parametru, persoanele cu același scor sunt considerate a avea același nivel de acoperire în factor latent, indiferent de itemii la care acestea au răspuns activ sau distractor. Subiecții care au răspuns activ la toți itemii și cei care au răspuns distractor la toți itemii nu vor fi incluși în analiză, valoarea informațională a acestor scoruri fiind nulă.
Să considerăm cazul unui număr de 10 itemi dihotomici construiți după modelul 1PL, care vizează inteligența socială, administrați unui lot de cercetare de 800 de persoane. În prima etapă vom exclude subiecții care au răspuns la toți itemii (care obțin scorul 10) și pe cei care nu au răspuns la nici un item (care obțin scorul 0). Presupunem că nu am întâlnit asemenea situații și vom putea trece la elaborarea matricei de date.
Tabel III-1 Matricea de bază
Matricea de date (vezi tabelul III-1) ordonează pe coloane respondenții în funcție de nivelul abilității, construind atâtea grupuri de abilitate câte reprezintă scorul total. În prima coloană sunt subiecții care au obținut scorul total 1, răspunzând activ la un singur item din cei 10. În a doua coloană sunt subiecții care au obținut scorul total 2 și așa mai departe până la ultima coloană în care subiecții au răspuns distractor la un singur item. Remarcăm că nu s-au inclus situațiile în care scorul total este 0 sau 10. Rândurile sunt populate de itemi, ordonați după dificultate. În realitate nu se cunoaște dificultatea itemilor, prezenta ordonare fiind inclusă doar în scop de claritate. Intersecția dintre linii și coloane este populată cu ponderea itemului respectiv în scorul total. Astfel, la scorul total 1 răspunsurile active la itemul 2 au o pondere de 0,37 spre deosebire de răspunsurile active la scorul 6 care au o pondere de 0,31. Se observă că ponderea răspunsurilor active este în concordanță cu gradul de acoperire în factor latent al itemului.
În figura III-4 a fost reprezentată probabilitatea de răspuns la fiecare item în funcție de grupul de abilitate. Constatăm că ultimul grup are o probabilitate de răspuns mare la toți itemii, ca expresie a unui nivel ridicat de acoperire în factor latent. De asemenea, se pot observa o serie de decalaje între grupuri, decalaje care țin de o scalare eronată a performanței la nivelul scorurilor brute.
Această metodă permite estimarea directă a parametrilor itemilor și a parametrilor persoanelor prin calculul mediilor pe rânduri și pe coloane. În vederea obținerii estimărilor, probabilitățile din matricea de date trebuie transformate în rapoarte logistice probabilistice, apoi estimările trebuie ajustate în funcție de deviațiile itemilor, calculându-se, în final, mediile marginale ale rapoartelor logistice și acoperirea în factor latent, atât pentru item cât și pentru subiecți.
Transformarea în rapoarte logistice probabilistice se realizează ținând cont de definiția curbei logistice, după expresia:
Relația III-4)
unde Pij reprezintă probabilitatea de răspuns activ a grupului i la itemul j.
Astfel, pentru grupul 5, la itemul 7, probabilitatea de răspuns activ este 0,57, iar cea de răspuns distractor este 1-0,57=0,43. Aplicând relația III-4 se obține valoarea raportului logistic probabilistic de 0,282. Așa cum rezultă din tabelul III-2, au fost reprezentate toate raporturile logistice probabilistice.
Tabel – Matricea de date a rapoartelor logistice probabilistice, mediile marginale și estimarea parametrilor
În final, au fost calculate mediile marginale ale raporturilor logistice probabilistice, atât pentru grupuri cât și pentru itemi. În cazul itemilor, media marginală este expresia modului în care a fost „rezolvat” itemul la nivelul tuturor grupurilor de abilitate, în timp ce pentru grupuri, media marginală reprezintă expresia nivelului factorului latent al subiecților din cadrul grupului respectiv. Se poate observa că itemul doi este un item foarte ușor, itemul 10 fiind cel mai dificil item. De asemenea, subiecții din primul grup au un nivel al factorului latent extrem de redus, subiecții din ultimul grup au un nivel ridicat al factorului latent. Totuși, în acest moment avem doar o estimare bazată pe mediile marginale și nu o estimare exactă a nivelului factorului latent sau a gradului de acoperire în factor latent. Această medie marginală va trebui ajustată pe baza deviației pe care o are în funcție de media generală a tuturor itemilor. În situația exemplului prezentat, media generală a mediilor marginale ale rapoartelor logistice probabilistice este -0,492, iar deviația primului item de la această medie este -0,492-1,626=-2,118, acesta fiind gradul de acoperire în factor latent al itemului 2. Bazându-se pe deviații ale itemilor de la media generală, gradul de acoperire în factor latent al tuturor itemilor testului va fi 0, fapt care ne determină să constatăm ancorarea pe item a acestui model.
În mod analog putem estima nivelurile factorului latent pentru fiecare grup de subiecți, bazându-ne pe același algoritm.
Spre deosebire de figura III-4, în figura III-5 au fost trasate graficele raporturilor logistice probabilistice pentru fiecare dintre cele 9 grupuri. Putem constata o uniformizare mai bună la nivelul grupurilor, excepție făcând grupurile extreme (1, 2 și 9). Motivul ține de specificul itemilor și indică probleme de alegere a modelului de răspuns la itemi pentru extremele continuumului factorului latent sau probleme legate de poziționarea itemilor pe acest continuum (în general insuficiența itemilor pentru anumite zone ale factorului latent).
Faptul că s-au estimat parametrii itemilor și nivelul factorului latent pe grupuri nu înseamnă că modelarea s-a finalizat. Este la fel de importantă analiza modului în care datele se potrivesc cu modelul teoretic ales, în acest caz 1PL.
Metoda bazată pe regresia logistică
Este firesc să vorbim despre o asemenea metodă, atâta timp cât parametrii unui item nu reprezintă altceva decât regresia răspunsurilor subiecților la nivelul factorului latent pe care aceștia în posedă . În cazul itemilor dihotomici, suntem interesați de probabilitatea cu care subiectul răspunde activ la un item. Deoarece există doar posibilitatea de a răspunde activ sau distractor, cea mai adecvată modalitate de estimare a parametrilor o reprezintă regresia logistică a răspunsurilor subiecților la nivelul factorului latent exprimat ca probabilitate de răspuns activ, după expresia ecuației regresiei logistice:
Relația III-5)
unde Xij reprezintă răspunsul subiectului j la itemul i.
Dacă vom analiza cu atenție, putem constata că estimarea în baza regresiei logistice conduce la un model de tip 2PL, rescriind exponentul de forma ai(bi). Astfel, parametrul de discriminare a itemului devine ai=b1, panta curbei caracteristice a itemului, iar dificultatea itemului, bi, devine raportul dintre b0 și b1 (b0/b1).
Nu vom detalia, această metodă nu este folosită, fiind prezentată doar în scop teoretic. În plus, pentru a fi estimați parametrii itemului, este necesară cunoașterea nivelului factorului latent al tuturor subiecților evaluați.
Metode bazate pe probabilitatea maximală (maximum likelihood)
Inițial, atât parametrii itemilor, cât și ai persoanelor, reprezintă necunoscute. Ceea ce cunoaștem sunt doar răspunsurile subiecților la item, din aceste date urmând să estimăm ambele seturi de parametri. S-a arătat deja că estimarea parametrilor în cadrul modelelor de răspuns la item se aseamănă cu metodele de regresie. Pornind de la valorile observate, intenționăm estimarea unor alte variabile. Totuși, regresiile clasice au un caracter mai mult liniar, în timp ce modelele de răspuns la itemi se definesc prin ecuații neliniare. Mai mult, în regresiile clasice, predictorii sunt variabile direct cuantificabile, populate cu scoruri. La nivelul estimării parametrilor itemilor, predictorii sunt reprezentați de nivelul factorului latent al persoanelor, variabilă necunoscută, nepopulată în mod direct cu scoruri. Suntem în situația în care ar trebui să estimăm o serie de criterii pe baza unor predictori, ei înșiși necunoscuți. Pentru aceasta, vom administra itemul unor subiecți și vom obține o funcție probabilistică a răspunsurilor subiecților la itemul administrat. Pe acest principiu se bazează metodele care folosesc probabilitatea maximală. Acestea sunt cele mai utilizate metode de estimare a parametrilor itemilor, folosite în majoritatea sistemelor de testate auto-adaptivă existente la ora actuală. Toate tehnicile de tip ML se bazează pe principiul minimizării reziduurilor (erorilor) în momentul estimării parametrilor, prin eroare înțelegându-se paternuri de răspuns improbabil de obținut. Spre deosebire de alte tehnici, metodele ML se caracterizează printr-o serie de proprietăți importante:
consistență, convergență către valoarea reală a parametrului pe măsură ce mărimea eșantionului crește – iată și motivul pentru care construcția probelor bazate pe teoria răspunsului la item necesită un volum mare de date;
eficiență exprimată prin erori standard relativ mici;
reziduuri estimate normal distribuite.
Există un număr destul de mare de tehnici de estimare a parametrilor bazate pe probabilitatea maximală. Ele se pot grupa în tehnici de estimare a parametrilor itemilor atunci când se cunosc nivelurile factorului latent ale subiecților și tehnici de estimare simultană a parametrilor itemilor și subiecților.
Estimarea pe baza probabilității maximale urmărește reducerea la minimum a reziduurilor dintre modelul de răspuns prezis si modelul de răspuns observat prin identificarea paternurilor de răspuns cu probabilitatea de apariție cea mai mică. În cazul unui item dihotomic, un subiect poate răspunde activ (1) sau distractor (0). Există, așadar, două probabilități de răspuns la item care pot fi prezise de un model: Pij – ponderea cu care subiecții răspund activ la item și Qij – ponderea cu care subiecții răspund distractor la item, unde, se știe, Pij=1-Qij.
Fie un item i la care un subiect j răspunde în sens distractor (Xij=0). Dacă probabilitatea de a răspunde distractor la itemul i este relativ mică (Qij≈0), atunci subiectul are puține șanse să răspundă distractor, observarea acestui eveniment fiind puțin probabilă iar dacă probabilitatea de a răspunde distractor este relativ mare (Qij≈1), atunci evenimentul are mari șanse de a fi întâlnit.
În conformitate cu ecuațiile caracteristice ale modelelor de răspuns la item, suntem interesați de ambele probabilități, combinate într-o expresie unică:
(Relația III-6)
Deoarece în modelele de răspuns la item se utilizează cel mai frecvent o scală în logiți, expresia va fi scrisă sub forma:
(Relația III-7)
În probele construite pe baza modelelor de răspuns la item nu se administrează subiecților un singur item ci mai mulți, în contexte diferite. Apare așadar conceptul de pattern de răspuns la itemi. În condițiile în care se administrează subiectului j un număr de 5 itemi iar acesta obține scorul total 3 (răspunde activ la 3 itemi), răspunsurile sale pot fi de forma: 0,1,1,0,1 sau 1,1,1,0,0 sau 0,0,1,1,1 ori combinații ale acestora. Dacă în teoria clasică a testului nu contează cum s-a obținut scorul total, în modelele de răspuns la item acest lucru stă la baza puterii sale. Astfel, probabilitatea de apariție a unui patern de răspuns format din I itemi pentru subiectul j condiționată de nivelul factorului latent al subiectului și de parametrii itemilor incluși în pattern poate fi estimată pe baza ecuației:
(Relația III-8)
Constatăm că această probabilitate nu reprezintă altceva decât produsul probabilităților de răspuns la fiecare item inclus în pattern, pentru subiectul j. În cazul în care multiplicăm expresia III-8 la nivelul tuturor subiecților se obține probabilitatea generală de apariție a paternului de răspuns, după relația:
(Relația III-9)
Din motive care țin de scala folosită în modelele de răspuns la item, probabilitățile simple menționate mai sus vor fi înlocuite de probabilități logistice, astfel încât probabilitatea logistică generală de apariție a paternului de răspuns (log-likelihood) devine:
(Relația III-10)
Relația reprezintă ecuația fundamentală pe baza căreia se construiește probabilitatea de apariție a unui patern de răspuns în majoritatea estimărilor, folosind teoria răspunsului la item. Pentru calibrarea itemilor, se vor lua în calcul toate probabilitățile logistice de apariție a paternului de răspuns, în funcție de numărul de itemi incluși în model, apoi, printr-un proces de căutare iterativă, se va verifica ce patern de răspuns se potrivește cel mai bine unui model, astfel încât reziduurile să fie minimalizate până la un criteriu de convergență stabilit.
În figura III-6 se prezintă probabilitatea logistică generală de apariție într-un pattern de răspuns a unui item dihotomic oarecare, la diferite valori pentru factorul latent. În general, curbele au forma unui U întors, analiza formei acestora indicând calitatea estimării gradului de acoperire în factor latent al itemului. Vârful curbei se situează la nivelul probabilității maximale, unde modificările probabilității generale logistice sunt nesemnificative. De exemplu, pentru acoperirile în factor latent de la -0,75 la -1.0 probabilitatea logistică se modifică foarte puțin, crește de la -0,400 la -0,410. Depășind zona probabilității maximale, constatăm că la modificări mici ale gradului de acoperire în factor latent, pot apărea variații importante în probabilitatea logistică. Astfel, pentru acoperirile în factor latent de 0,75 la 1,00, probabilitatea logistică generală variază de la -0,520 la -0,590.
Informațiile legate de calitatea estimării se pot evalua pe baza calculului ratei de modificare instant a probabilității logistice în puncte diferite ale curbei. Acest indicator are valoarea tangentei curbei în punctul respectiv și oferă informații legate de gradul de acoperire în factor latent al itemului, dacă acesta supa-estimează, subestimează sau corespunde probabilității generale calculate. De exemplu, pentru nivelul 1 de acoperire în factor latent, panta tangentei curbei în acel punct va fi negativă, iar rata de modificare instant a probabilității logistice va reprezenta o valoare negativă, fapt care semnalează că acest grad de acoperire în factor latent este mai mare decât probabilitatea generală logistică, la acel nivel itemul supraestimează valoarea reală.
Estimarea simultană a parametrilor itemilor și persoanelor (Joint Maximum Likelihood Estimation – JMLE)
În vederea estimării parametrilor itemilor, atunci când nu se cunosc nivelurile factorului latent ale persoanelor, se vor considera răspunsurile tuturor subiecților la toți itemii care evaluează un factor latent unidimensional, expresia fundamentală devenind:
(Relația III-11)
Produsul probabilităților de răspuns la fiecare item este multiplicat, în acest caz, cu numărul răspunsurilor subiecților. Din cauza faptului că nu cunoaștem nici parametrii itemului și nici nivelurile factorului latent ale subiecților, ne aflăm într-un caz de nedeterminare din care putem ieși apelând la un sistem de ancorare. Astfel, vom elimina problema nedeterminării alegând repere arbitrare ale nivelurilor factorului latent în cazul persoanelor (sau ale parametrilor itemilor dacă folosim sistemul de ancorare pe itemi), de obicei pe baza mediei și a abaterii standard a grupurilor determinate de scorurile subiecților. În prima etapă se vor construi sistemele de ancorare, numite și estimări inițiale, pe baza frecvențelor fiecărui scor, respectiv ale fiecărui item. La nivelul scorurilor, categoriile marginale (unde subiecții au răspuns distractor la toți itemii sau unde subiecții au răspuns activ la toți itemii) se elimină. Există mai multe proceduri de construcție a sistemului de ancorare (numit și calibrare inițială), una dintre cele mai folosite fiind algoritmul PROX propus de Cohen , care pleacă de la asumpția că nivelurile factorului latent ale subiecților sunt normal distribuite de-a lungul continuumului factorului latent.
Fie un vector de scoruri Xj unde j reprezintă fiecare categorie de scor și un vector de itemi Xi, unde i reprezintă frecvența răspunsurilor active la nivelul fiecărui item, calibrarea inițială a parametrilor unui item, ancorată la valoarea zero, este dată de expresia:
(Relația III-12)
Primul element al relației indică un calcul al sumei răspunsurilor active pentru toate categoriile determinate de nivelul factorului latent al subiecților, urmată de evaluarea distanței la care se situează răspunsurile active ale itemului față de totalul răspunsurilor active. Rezultă astfel nivelul brut de acoperire în factor latent al itemului, ca expresie a logaritmului raportului dintre distanța calculată și frecvența răspunsurilor active la nivelul itemului. Al doilea membru din partea dreaptă al ecuației nu este altceva decât media nivelurilor brute de acoperire în factor latent pentru toți itemii. Așadar, calibrarea inițială a itemului arată distanța la care se situează nivelul de acoperire în factor latent al acestuia față de media nivelului de acoperire în factor latent a tuturor itemilor.
Calibrarea inițială a nivelurilor factorului latent pentru fiecare grup de scoruri este dată de expresia:
(Relația III-13)
Relația este foarte simplă și reprezintă logaritmul raportului dintre categoria de scoruri și distanța la care se situează categoria de scoruri în raport cu numărul total de itemi.
Procesul de estimare a parametrilor itemului este unul iterativ până la atingerea unui criteriu de convergență specificat. În orice caz, rezultatele calibrării inițiale trebuie să se situeze în zona parametrilor reali ai itemului, pentru ca procesul iterativ să se realizeze într-un număr rezonabil de iterații . Întregul proces iterativ de estimare a parametrilor unui item se bazează pe funcția de probabilitate de apariție a unui patern de răspuns, conform relației . Această formulă este însă prea generală pentru a putea fi utilizată, de aceea vom conveni să scriem funcția logistică de probabilitate a paternului de răspuns (log-likelihood) astfel:
(Relația III-14)
Ecuația fundamentală prezentată în expresia nu reprezintă altceva decât o altă modalitate de scriere a formulei , în care prin rj considerăm răspunsul activ al unui subiect la itemul i, fj reprezintă numărul de subiecți aflați în grupul de abilitate θj iar (fj-rj) are în vedere răspunsul distractor al subiectului la itemul i. Estimarea parametrilor itemilor pe baza probabilității maximale logistice va depinde de informațiile furnizate de eșantionul de subiecți, informații care satisfac următoarele ecuații:
(Relația III-15)
(Relația -)
Aceste două ecuații se numesc prima derivată parțială a funcției logistice de probabilitate, respectiv a doua derivată parțială. Dacă ambele ecuații devin egale cu 0, rezultă un sistem de două ecuații cu două necunoscute și devine posibilă rezolvarea acestuia, în condițiile în care, atât parametrii itemilor, cât și nivelul de acoperire în factor latent al persoanelor sunt necunoscute. Termenii din paranteză reprezintă distanța la care se situează parametrul observat al itemului față de valoarea adevărată a acestuia. Astfel, prima derivată arată direcția în care se va realiza procesul de căutare iterativă de la calibrarea inițială în vederea unei mai bune estimări a parametrului itemului, definind totodată condițiile în care calibrarea se consideră finalizată, iar a doua derivată indică rapiditatea cu care se va efectua căutarea și finețea ajutării parametrilor estimați anteriori. Inițial, ajustările vor fi mai grosiere, în final acestea devenind din ce în ce mai fine până la atingerea criteriului de convergență și elaborarea soluției finale. Produsul dintre ponderea răspunsurilor active și ponderea răspunsurilor distractoare în cazul unui subiect reprezintă o constantă de ponderare numită ponderarea Urban-Müller, se notează cu Wj=PjQj și joacă un rol important în teoria răspunsului la item și în estimarea parametrilor . Rolul acestei ponderări devine mai clar dacă rescriem derivatele folosind noua notație:
(Relația III-17)
(Relația III-18)
În modelele de răspuns la item, varianța va fi diferită la nivelul fiecărei categorii de scor, acest lucru fiind important atunci când încercăm descrierea curbei caracteristice a itemului care poate modela cel mai bine datele observate. Astfel, pentru fiecare categorie a nivelului factorului latent, ponderile Urban-Müller vor avea valori diferite, estimarea parametrilor unui item fiind o procedură ajustată. Aceste ajutări ating un nivel maxim atunci când nivelul factorului latent al subiecților este egal cu nivelul de acoperire al itemului și scad pe măsură ce distanța dintre acești parametri crește. Efectul constă în acordarea unei influențe ridicate a datelor situate în zona nivelului de acoperire a factorului latent a itemului. Din acest motiv, cea mai bună estimare a parametrilor unui item se realizează atunci când aceștia se situează în zona mediei nivelului factorului latent a grupului. Deoarece factorul de ajustare Urban-Müller este multiplicat cu numărul de subiecți aflați în grupul respectiv, grupurile care conțin un mare număr de subiecți vor determina o estimare mult mai precisă a parametrilor itemilor. În concluzie, procesul de estimare a parametrilor unui item este influențat de modul de distribuție al subiecților de-a lungul domeniului factorului latent, de capacitatea de discriminare a itemilor și de gradul de acoperire în factor latent al itemului relativ la media nivelului factorului latent pentru subiecții evaluați.
Pentru rezolvarea sistemului determinat de cele două derivate parțiale, este necesar un proces iterativ bazat pe seriile Taylor. Între două iterații succesive se urmărește reducerea progresivă a reziduurilor până când acestea devin nesemnificative. Astfel, pentru un parametru al unui item, precizia acestuia va crește între două iterații la b=b1-Δb, unde Δb reprezintă reziduurile (erorile) eliminate. Limita până la care erorile sunt eliminate se numește criteriu de convergență și, de obicei, este stabilită la un prag mai mic de 0,005. Dacă în urma desfășurării tuturor iterațiilor, criteriul de convergență nu a fost atins, datele observate eșuează în estimarea parametrilor itemului după modelul de răspuns ales, indicând fie probleme la nivelul itemului, fie probleme la alegerea modelului de răspuns la item.
Descompunerea celor două derivate parțiale în serii Taylor se realizează după expresiile:
(Relația III-19)
(Relația III-20)
(Relația III-21)
Aceste relații se numesc derivate parțiale secundare și permit construirea seriilor Taylor luând în considerare reducerea erorilor, astfel:
(Relația III-22)
(Relația III-23)
Estimarea parametrilor itemului presupune rezolvarea simultană a acestui sistem de ecuații pentru Δb și Δθ. Sistemul de ecuații se transformă într-un sistem algebric de matrice denumit ecuații Newton-Raphson, acesta fiind, în realitate, baza algoritmului de estimare a parametrilor:
(Relația III-24)
Ecuațiile Newton-Raphson nu sunt altceva decât matrice ale derivatelor parțiale și ale derivatelor parțiale secundare, așa cum au fost ele definite anterior. Matricea derivatelor parțiale secundare (a doua matrice din membrul drept al ecuației) poartă numele de matrice hessiană.
Algoritmul de estimare a parametrilor itemilor prin această metodă presupune mai multe etape.
Calibrarea inițială a itemilor se realizează după metoda expusă anterior și pe baza relațiilor și . Va rezulta un vector al parametrilor inițiali ai itemului (bi) și un vector al nivelului inițial al factorului latent pentru fiecare categorie de scoruri, al subiecților (θj). Acești doi vectori vor sta la baza procesului iterativ de estimare a parametrilor.
Calculul derivatelor parțiale se realizează pentru fiecare item analizat și pentru fiecare grup determinat de nivelul factorului latent, iterativ, până la atingerea criteriului de convergență sau până la epuizarea numărului de iterații. Probabilitatea de răspuns activ a itemului i la nivelul grupului determinat de nivelul factorului latent j este dată de expresia:
(Relația III-25)
Diferența dintre nivelul estimat al factorului latent pentru subiecții din grupul de scor j și parametrul inițial estimat al itemului i stă la baza calculului probabilității de obținere a unui răspuns activ la acel item în cadrul grupului j.
Se calculează derivatele parțiale după expresiile operaționale:
(Relația III-26)
(Relația III-27)
Numărul subiecților din fiecare categorie de scor este înmulțit cu probabilitatea itemului de a obține un răspuns activ în categoria respectivă de scoruri, iar pentru a doua derivată, se va multiplica rezultatul cu inversul probabilității. După parcurgerea tuturor celor j categorii de scoruri rezultă valorile celor două derivate.
Calculul delta și decizia de convergență se realizează după următoarea expresie operațională:
(Relația III-28)
Reziduurile reprezintă diferența dintre numărul de răspunsuri active ale itemului i și prima derivată parțială raportată la a doua derivată parțială. Parametrul inițial al itemului se va ajusta în baza valorii delta, noul parametru fiind bi=bi-Δi. În cazul în care valoarea delta este mai mică decât pragul de convergență stabilit (de exemplu 0,05), parametrul se consideră estimat. În caz contrar, iterația se reia până la atingerea numărului maxim de iterații. Dacă nici atunci nu se atinge pragul de convergență, estimarea parametrului itemului eșuează.
Calculul mediei parametrilor itemilor se realizează după ce pragul de convergență a fost atins în vederea reajustării și corectării estimărilor brute, după relația:
(Relația III-29)
Estimarea nivelului factorului latent al subiecților se realizează pe grupurile determinate de scoruri, plecând de la parametrii itemilor estimați anterior, pe baza unui algoritm similar ce va fi detaliat ulterior. La finalul ciclului vor exista doi vectori noi de parametri, atât pentru itemi cât și pentru nivelurile factorului latent ale subiecților. Ciclul se reia, până când diferența dintre media parametrilor itemilor pentru ciclul curent și media parametrilor itemilor pentru ciclul anterior este mai mare de pragul de convergență al calibrării, de obicei situat la 0,05. În acest caz, convergența va fi considerată atinsă, atât parametrii itemului cât și nivelurile de acoperire în factor latent ale subiecților corespunzând modelului de răspuns la item ales.
Corecția parametrilor reprezintă finalul operațiunii de estimare. Wright și Douglas au arătat că estimarea parametrilor prin metoda JMLE conduce la erori destul de ridicate în comparație cu alte metode, în special cu metoda probabilității maximale condiționale, aceștia trebuind ajustați după expresia:
(Relația III-30)
Are loc o ponderare a parametrilor itemilor bazată pe numărul de itemi introduși, un proces similar având loc și în cazul nivelurilor factorului latent.
Gradul în care datele observate se potrivesc curbei caracteristice teoretice a itemului poate fi calculat prin χ2 după relația:
(Relația III-31)
Erorile standard ale estimărilor se calculează după relațiile:
(Relația III-32)
(Relația III-33)
Metoda JMLE se utilizează în cazul unor item absolut noi, atunci când nu avem informații despre nivelul factorului latent al subiecților evaluați. Deși relativ simplă în comparație cu alte metode, JMLE prezintă o serie de dezavantaje notabile . Astfel, nu se pot estima nivelurile factorului latent în cazul subiecților care au răspuns activ la toți itemii sau care au răspuns distractor la toți itemii. Aceste situații nu sunt considerate a avea valoare informațională și sunt eliminate din analiză. Similar, parametrii itemilor care primesc doar răspunsuri active sau doar răspunsuri distractoare nu pot fi estimați. Metoda se poate folosi cu succes doar la estimarea nivelului de acoperire în factor latent a itemului. Cu toate că există algoritmi care implementează JMLE și pentru modele de tip 2PL și chiar 3PL, estimările sunt lipsite ce consistență. S-a arătat empiric faptul că se poate obține o consistență acceptabilă în cazul estimării simultane a parametrilor itemilor și a nivelurilor de acoperire în factor latent ale subiecților, doar folosindu-se un număr foarte mare de subiecți, de ordinul zecilor sau sutelor de mii, aspect dificil de pus în practică. În plus, rata de eșec în atingerea convergenței la folosirea unui model 2PL sau 3PL este destul de ridicată, fapt care ne determină să luăm în considerare utilizarea metodei JMLE doar pentru obținerea estimatorilor inițiali și utilizarea unor alte tehnici în vederea definitivării procesului.
Estimarea gradului de acoperire al factorului latent și discriminarea itemilor prin metoda probabilității maximale (Maximum Likelihood Estimation – MLE)
Trecerea de la un model 1PL la un model 2PL presupune estimarea unui parametru suplimentar, și anume discriminarea itemului (a), alături de gradul de acoperire în factor latent al acestuia (b). Inconsistența metodei JMLE provine, în mod cert, din estimarea simultană a celor două seturi de parametri. Se produce astfel o dependență circulară, iterativă, în care fiecare set de parametri este estimat pe baza parametrilor anteriori și pe baza celuilalt set. În cazul în care am putea considera constant un set de parametri (spre exemplu nivelul factorului latent al subiecților), ar rezulta o procedură similară, însă mult mai precisă deoarece eliminăm un număr important de necunoscute din sistemul ecuațiilor Newton-Raphson. Dacă inconsistența nu pune probleme deosebite atunci când avem un singur parametru, la includerea discriminării apare o necunoscută nouă ce va trebui evaluată pe baza acelorași informații inițiale.
Maximum likelihood estimation (MLE) se bazează pe relațiile descrise anterior, poate estima foarte bine și discriminarea dar pleacă de la premisa că nivelurile factorului latent ale subiecților sunt cunoscute. O strategie pe care am folosit-o și noi cu succes presupune estimarea inițială a parametrilor itemilor și persoanelor prin JMLE apoi ignorarea parametrilor itemilor și reestimarea acestora prin MLE plecând de la nivelurile factorului latent deja cunoscute. Algoritmul de implementare presupune o serie de etape:
Stabilirea grupurilor de niveluri ale factorului latent și inițializarea parametrilor. Se va iniția parametrul b la valoarea zero și parametrul a la valoarea 1 și se vor forma 10 sau 12 grupuri determinate de nivelul factorului latent (θ(k)). Clasic, implementarea BILOG utilizează un număr de 10 grupuri .
Tabel – – Stabilirea grupurilor factorului latent.
Deoarece nivelurile factorului latent au fost deja estimate, va fi ușor să grupăm subiecții în funcție de nivelul factorului latent în acest grupuri, rezultând vectorul f(k), numărul de subiecți din fiecare grup. Analiza presupune și construirea vectorului de răspunsuri active la itemul analizat pentru fiecare grup, pe care îl vom nota r(k). În acest moment există toate informațiile necesare în vederea estimării celor doi parametri ai itemului.
Implementarea sistemului de ecuații Newton-Raphson este, la fel ca în situația descrisă anterior, un proces iterativ care presupune calculul mai multor indicatori. Inițial se calculează probabilitatea de răspuns activ la itemul i pentru fiecare grup k:
(Relația III-34)
Acest indicator reprezintă raportul dintre numărul de răspunsuri active și numărul de subiecți aflați în fiecare grup determinat de nivelul factorului latent. În cazul în care nu există subiecți în acel grup, se trece la grupul următor. Probabilitatea efectivă este condiționată de modelul de răspuns la item ales. În situația unui model de tip 2PL, probabilitatea de răspuns pentru grupul k va fi determinată de funcția de răspuns la item, astfel:
(Relația III-35)
Se observă modul în care probabilitatea de răspuns activ exprimată clasic s-a transformat în probabilitate logistică, la rândul său condiționată de modelul de răspuns la item ales. De asemenea, se va calcula și coeficientul de ponderare W după relația:
(Relația III-36)
În cazul în care acest coeficient are o valoare foarte mică (în general sub 0,0000009), se renunță la restul analizei și se trece la următorul grup determinat de nivelul factorului latent.
Implementarea derivatelor parțiale și parțiale secundare debutează prin calculul raportului diferenței dintre probabilitatea clasică și cea logistică și coeficientul de ponderare:
(Relația III-37)
Din cauza faptului că apare încă un parametru al itemului, numărul total de derivate parțiale crește, acestea bazându-se, iterativ, una pe cealaltă:
(Relația III-38)
În cazul în care prima derivată este mai mică sau egală cu zero, parametrii itemului nu pot fi estimați. Fie numărul de subiecți este prea mic, fie itemul nu este valid sau nu respectă asumpțiile modelelor de răspuns la item.
Calculul delta și criteriul de convergență se realizează după o relație diferită având în vedere faptul că s-a inclus un parametru suplimentar:
(Relația III-39)
În cazul în care valoarea delta este mai mică decât criteriul de convergență stabilit, procesul de încheie, itemul este calibrat. De obicei, criteriul de convergență este stabilit la o valoare foarte mică, cum ar fi 0,000099.
Recalibrarea parametrilor se realizează pe baza derivatelor specifice, calculându-se plusul de informație adus de noua iterație:
(Relația III-40)
(Relația -)
Noii parametri ai itemului nu reprezintă altceva decât vechea valoare la care se adaugă plusul de informație. Așadar,
și (Relația III-42)
În cazul în care plusul de informație al celor doi parametri devine nesemnificativ (Δb și Δa < 0,05), itemul se consideră calibrat, în caz contrar se trece la următoarea iterație.
În cadrul metodei MLE, parametrul b astfel calculat se referă mai degrabă la locul în care curba caracteristică a itemului intersectează nivelul de abilitate, punct numit în teoria răspunsului la item punct de intercepție (intercept). Există o diferență între acest punct și parametrul b al itemului în cazul în care folosim modele de tip 2PL sau 3PL din cauza apariției discriminării, respectiv a probabilității de răspuns la întâmplare (ghicire). Din acest motiv, după atingerea criteriului de convergență, parametrul b final devine:
(Relația III-43)
Gradul de potrivire a datelor observare pe curba caracteristică a itemului va fi evaluat prin testul χ2, acesta având expresia derivatei a treia și raportându-se la un număr de θ-2 grade de libertate, unde θ reprezintă numărul de grupuri determinate de nivelul factorului latent (10 grupuri).
(Relația -)
Estimarea parametrilor itemului folosind cele două procedee combinate prezintă o serie de avantaje . Algoritmul de programare a estimării este relativ ușor de implementat se poate aplica unei game variate de modele, este eficient și rapid. Aceste metode au fost intens folosite în perioada de început a teoriei răspunsului la item, atunci când puterea de calcul a computerelor nu permitea implementarea și dezvoltarea unor alte metode.
Tabel – – Derivatele parțiale pentru cele trei modele dihotomice principale de răspuns la item
Dezavantajele, însă, sunt numeroase. Chiar dacă în urma combinării metodelor se reduce inconsistența, parametrii estimați nu au proprietățile necesare modelului de răspuns la item ales, mai ales în cazul probelor cu itemi ficși. În al doilea rând, eroarea standard a estimării este discutabilă. S-a remarcat că eroarea standard este probabil mai mică decât în realitate din cauza includerii parametrilor persoanelor în calculul parametrilor itemului. În fine, aceleași studii arată că aceste metode au o utilitate limitată atunci când desfășurăm cercetări bazate pe modele de răspuns la item, cu ar fi, de exemplu, studiile în care se compară diferite modele de răspuns la item. Nu în ultimul rând, metoda implică excluderea a două categorii foarte importante pentru estimare, și anume categoria subiecților (itemilor) cu toate răspunsurile active și categoria subiecților (itemilor) cu toate răspunsurile distractoare.
Metodele MLE sunt eficiente, continuă să fie utilizate în aplicațiile computerizate, sunt implementate și în programele noastre, însă pot fi folosite sub rezerva dezavantajelor prezentate. Sintetic, vom prezenta la finalul acestui capitol, derivatele parțiale principale pentru toate cele trei modele, fără a le comenta, menționând doar că reprezintă ecuațiile operaționale implementate în programele noastre (Tabel III-4).
Estimarea parametrilor itemilor pornind de la paternul de răspuns prin metoda probabilității maximale marginale (Marginal Maximum Likelihood Estimation – MMLE)
Dezavantajele metodei JMLE au condus la ideea evaluării parametrilor itemilor pornind nu de la cunoașterea sau estimarea parametrilor persoanelor, ci de la analiza probabilităților paternului de răspuns la nivelul populației. Ideea de bază este aceea că datele observate sunt privite ca eșantioane dintr-o populație . Procedeele inițiale de calcul s-au dezvoltat pe modele ogivale, fiind valabile doar teoretic deoarece aplicarea efectivă presupunea utilizarea unor calcule laborioase, imposibil de efectuat în timp util chiar și pentru calculatoarele din acea vreme. Transformarea modelului ogival în model logistic a condus la apariția acestei metode, cunoscută și sub numele de algoritm EM (algoritm așteptare/maximizare, din engleză expectation/maximization), preferat în acest moment de toate aplicațiile care folosesc modele de răspuns la item, chiar dacă metoda în sine este mai dificil de implementat.
MMLE modelează probabilitatea de observare a unui patern de răspuns la nivelul populației. De exemplu, un număr de 3 itemi dihotomici administrați subiecților pot conduce la 8 paternuri de răspuns unice: 000, 001, 010, 100, 011, 101, 110, 111. Aceste paternuri de răspuns le vom nota cu X(P) și reprezintă totalitatea modalităților în care un subiect poate elabora răspunsuri la un număr dat de itemi. Am văzut că pentru un număr de 3 itemi există 8 paternuri. Similar, pentru 5 itemi există 32 de paternuri, pentru 8 itemi există 256 de paternuri de răspuns și așa mai departe. Pe măsură ce crește numărul itemilor analizați, crește exponențial și numărul paternurilor de răspuns după relația:
(Relația III-45)
în care n reprezintă numărul de itemi.
Numărul total de paternuri de răspuns se află însumând combinațiile de n luate câte k, unde k reprezintă creșterea iterativă a numărului de răspunsuri active. Pentru fiecare patern de răspuns, se va înregistra numărul de subiecți care prezintă paternul respectiv, indicatorul fiind notat cu f(P). În cazul în care considerăm că itemii sunt ordonați crescător sub aspectul gradului de acoperire în factor latent, probabilitatea de apariție a paternurilor 000 și 100 va fi mare în cazul subiecților cu un nivel redus al factorului latent. Similar, paternurile 011 și 111 au o probabilitate de apariție ridicată pentru subiecții cu un nivel ridicat al factorului latent, celelalte paternuri fiind caracteristice subiecților cu diferite niveluri medii ale factorului latent.
Putem pleca de la ipoteza că subiecții evaluați reprezintă un eșantion dintr-o populație în care nivelul factorului latent se distribuie după o funcție de densitate g(θ|τ), unde τ reprezintă vectorul distribuției parametrilor examinaților, și să apreciem că nivelul factorului latent al unui subiect nu mai reprezintă un estimator punctual (θ) ci o distribuție care situează răspunsurile subiectului de-a lungul continuumului factorului latent, în funcție de probabilitatea acestui patern de răspuns la diferite niveluri ale factorului latent, de parametrii itemilor și de modul în care factorul latent se distribuie la nivelul populației. În teoria răspunsului la item, această probabilitate se numește probabilitate a posteriori. Deoarece putem considera nivelul factorului latent ca având o distribuție continuă la nivelul populației, funcția de probabilitate a posteriori poate fi reprezentată ca o curbă a nivelurilor factorului latent (θ) rezultate de paternul de răspuns al unui subiect. Fiecare vector de răspuns al unui subiect poate genera o asemenea curbă. Relația care permite calculul întregii distribuții a posteriori pentru un factor latent este reprezentată de teorema lui Bayes, cu toate că MMLE nu poate fi considerată o tehnică bayesiană de estimare a parametrilor:
(Relația III-46)
Teorema lui Bayes arată că probabilitatea de obținere a unui patern de răspuns la diferite niveluri ale factorului latent depinde de distribuția de densitate a factorului latent la nivelul populației și se funcția probabilistică a răspunsurilor subiecților la itemi. De cele mai multe ori, această funcție are o distribuție normală, dar este cert faptul că în realitate ea rămâne necunoscută. Distribuția folosind doar vectorul de parametri τ, definește probabilitatea relativă a valorilor nivelului factorului latent într-un anumit grup (θj), și poartă numele de distribuție a priori. Produsul probabilității a posteriori și al probabilității a priori formează probabilitatea maximală a unui patern de răspuns.
(Relația III-47)
Probabilitatea de obținere a unui patern de răspuns într-un eșantion aleatoriu ales dintr-o populație depinde de parametrii itemilor și de modul în care se distribuie factorul latent la nivelul populației.
În condițiile în care presupunem că factorul latent are o distribuție continuă iar funcția sa este o funcție de densitate, aflarea acesteia pentru diferite zone ale continuumului factorului latent presupune calculul ariei suprafeței de sub curba de distribuție, implicit integrarea matematică. Având în vedere dificultățile de implementare a calculului integral, s-a căutat o aproximare a funcției de densitate, reducându-se calculul suprafețelor neregulate la calculul unor suprafețe regulate, aproximare numită cvadratură Hermite-Gauss sau cvadratură gaussiană . Problema identificării sumelor ariilor de sub curba continuă se rezolvă, prin cvadratura Hermite-Gauss, la suma ariilor unui număr finit de histograme care aproximează distribuția continuă. Punctul de mijloc al fiecărei histograme se numește nod și se asociază grupurilor determinate de nivelul factorului latent (θk), fiecare nod având asociată valoarea funcției de densitate din preajma sa (A(Xk)). Reperele fiecărui nod (Xk) și valorile funcțiilor de densitate asociate (A(Xk)) se pot afla rezolvând un sistem de ecuații specifice care presupun aproximări ale distribuției continue. Deoarece aceste ecuații presupun din nou calcul integral, au fost elaborate tabele în care pentru fiecare nod sunt furnizate valorile funcțiilor de densitate asociate . Aceste tabele furnizează aproximări pentru distribuția normală a erorilor și nu pentru distribuția de densitate. Din acest motiv, unii autori recomandă multiplicarea valorii nodului cu și diviziunea valorii funcției de densitate asociată prin . Mai mult, se arată că procedeul poate fi folosit chiar dacă funcția de densitate nu are o distribuție normală și este suficient să o definim empiric .
Tabel III-5 – Coordonatele cvadraturilor gaussiene
Având în vedere aceste aproximări, algoritmul MMLE a avut mai multe etape de dezvoltare, cea utilizată în prezent fiind elaborată în 1981 și caracterizând modelul 2PL prin următoarele ecuații ale probabilității maximale:
(Relația III-48)
(Relația III-49)
(Relația III-50)
În relațiile de mai sus fik reprezintă numărul de subiecți dintr-o populație pentru care se așteaptă să obțină nivelul factorului latent Xk. Acest număr rezultă în urma distribuției datelor subiecților evaluați în nodurile cvadraturii gaussiene și în proporții determinate de probabilitatea a posteriori. Similar, rik reprezintă numărul subiecților dintr-o populație, aflați la nivelul Xk al factorului latent, și de la care se așteaptă un răspuns activ la item. Factorul de ponderare Wik are aceeași semnificație descrisă anterior.
Algoritmul de implementare MMLE are un grad de complexitate sporit, însă se bazează pe ecuațiile Newton-Raphson descrise în capitolele anterioare. Procesul este iterativ și prezintă două faze: pasul de calcul al expectațiilor și pasul de calcul al maximizării probabilității, de aici derivând și numele său.
Pregătirea datelor implică mai multe operațiuni. În primul rând se va genera matricea tuturor paternurilor de răspuns la itemi, X(P). Apoi se va construi cvadratura gaussiană, în mod clasic alegându-se un număr de 10 noduri pentru care se vor stabili valorile funcției de densitate. Aceste valori au fost specificate în rutinele BILOG , bazându-se pe reperele cvadraturii gaussiene și ajustându-se conform specificațiilor .
Tabel III-6 – Construcția cvadraturii gaussiene pentru un număr de 10 noduri
Pentru fiecare subiect evaluat se identifică paternul de răspuns și se actualizează matricea paternurilor de răspuns cu frecvența acestora fk. Vor exista paternuri de răspuns foarte puțin probabile, cu frecvență nulă sau foarte mică și paternuri de răspuns foarte probabile, cu frecvență mare. Finalul pregătirii datelor este reprezentat de inițializarea parametrului de interceptare și a parametrului de discriminare, pentru fiecare item, la valoarea 0, respectiv 1.
Pasul E este reprezentat de calculul parametrilor estimați la nivelul populației. Se evaluează toate paternurile de răspuns, probabilitatea estimată pentru fiecare item fiind dată de relația:
(Relația III-51)
Remarcăm faptul că probabilitatea estimată depinde atât de parametrii itemului, cât și de grupul de abilitate. În mod evident, Q=1-P și reprezintă probabilitatea răspunsului distractor. În cazul în care itemul din paternul de răspuns prezintă răspunsul distrator, probabilitatea estimată devine probabilitatea răspunsului distractor. Acest calcul se aplică la nivelul fiecărui patern de răspuns, pentru fiecare grup determinat de factorul latent și pentru toți itemii, astfel încât, probabilitatea așteptată a unui patern de răspuns în grupul k determinat de factorul latent devine suma probabilităților itemilor:
(Relația III-52)
Vor rezulta probabilitățile estimate pentru fiecare dintre cele 10 grupuri determinate de nivelul factorului latent. Aceste probabilități vor fi ajustate cu valorile funcției de densitate pentru fiecare nod, după relația:
(Relația III-53)
Rezultă astfel probabilitățile estimate pentru fiecare grup determinat de nivelul factorului latent și probabilitatea generală ca expresie a sumei probabilităților estimate la nivel de grup.
Indicatorii fik și rik se referă tot la populație și urmează a fi estimați. Primul indicator are în vederea frecvența subiecților dintr-o populație pentru care se așteaptă să obțină nivelul factorului latent Xk,, iar al doilea vizează numărul subiecților dintr-o populație, aflați la nivelul Xk al factorului latent, și de la care se așteaptă un răspuns activ la item.
(Relația III-54)
(Relația III-55)
Procesul se reia la nivelul fiecărui patern de răspuns, pentru fiecare grup determinat de factorul latent și la nivelul fiecărui item. În final rezultă estimările bazate pe funcția de densitate necesare, operațiunea continuând cu analiza probabilității maximale
Pasul M reprezintă calculul probabilității maximale și vizează estimarea parametrilor itemilor. Probabilitatea de răspuns la itemul i situat în grupul k este dată de relația
(Relația III-56)
În cazul în care frecvența estimată la nivelul grupului k este nulă, algoritmul continuă cu următorul grup. Ecuațiile Newton-Raphson și derivatele parțiale sunt similare cu cele prezentate anterior. Astfel, probabilitatea de răspuns activ la un item situat în nodul k devine:
(Relația III-57)
De asemenea, factorul de ponderare W se estimează în funcție de această probabilitate, după relația:
(Relația III-58)
În cazul în care valoarea factorului de ponderare este foarte mică (în general sub 0,0000009), se trece la analiza următorului nod gaussian.
În fine, calculul raportului diferenței dintre probabilitatea clasică și cea logistică și factorul de ponderare permite implementarea derivatelor parțiale:
(Relația III-59)
Derivatele parțiale sunt date, și în cadrul acestei metode, de relațiile . Restul algoritmului urmează pașii prezentați în metoda MLE. Putem constata că MMLE nu-și fundamentează estimările doar pe alegerea arbitrară a unor noduri gaussiene în continuumul factorului latent ci include și informații legate de densitatea distribuției de-a lungul continuumului factorului latent. Totuși, metoda pleacă de la premisa că parametrii itemilor sunt constanți, fapt care nu o include în categoria tehnicilor bayesiene.
Deoarece estimarea parametrilor itemilor se realizează fără nicio referire la nivelurile factorilor latenți ale subiecților, problema inconsistenței estimărilor dispare. Folosind MMLE, parametrii itemilor sunt consistenți pe măsură ce numărul de subiecți evaluați crește. Algoritmul este însă mult mai complex, deoarece se bazează pe aproximarea distribuției factorului latent la nivelul populației. Cu toate că integrarea matematică a fost eliminată prin utilizarea cvadraturilor gaussiene, numărul mare de paternuri de răspuns care rezultă în urma creșterii numărului de itemi necesită foarte mulți subiecți. În cazul utilizării unui model de tip 3PL, chiar și această procedură poate eșua. O estimare necorespunzătoare a parametrului c poate conduce la estimări eronate ale celorlalți parametri . În orice caz, dacă sunt îndeplinite condițiile numărului de subiecți, MMLE conduce către rezultate net superioare în comparație cu celelalte tehnici.
Tehnicile MMLE se pot aplica unei game largi de modele, inclusiv celor multidimensionale, fiind eficiente atât în cazul testelor scurte cât și pentru cele lungi. Includerea scorurilor perfecte în estimare (toate răspunsurile active sau toate răspunsurile distractoare) limitează pierderea de informație pe care o întâlnim la tehnicile JMLE și MLE. Poate cel mai important dezavantaj al metodei este acela că în realitate nu se cunoaște distribuția factorului latent la nivelul populației. În general, se prezumă o distribuție normală, dar nu putem avea garanția că toți factorii latenți se distribuie normal. Oricum, dezavantajul nu este considerat a fi atât de mare de către unii cercetători , mai ales că distribuția factorului latent poate di estimată din date. În plus, folosirea aproximărilor conduce la estimări precise, chiar în condițiile în care distribuția nu este normală, acest lucru având o influență relativ redusă asupra procesului de calibrare.
Metode bayesiene de estimare a parametrilor itemilor
Metodele bayesiene se bazează pe teorema lui Bayes și au în vedere stabilirea apriorică a distribuției factorului latent fundamentată teoretic sau empiric. Reprezintă o extensie a MMLE atunci când cunoaștem o serie de elemente legate de distribuția factorului latent la nivelul populației, cum ar fi, spre exemplu, media și abaterea standard. Scopul metodei este acela de a combina probabilitățile obținute de funcția probabilistică ce utilizează eșantioane cu probabilitățile obținute în urma analizei informațiilor aprioric cunoscute privind distribuția nivelului factorului latent, parametru necunoscut. Aplicând teorema lui Bayes ), rezultă o distribuție probabilistică a posteriori proporțională cu produsul dintre funcția probabilistică și distribuția probabilistică apriori.
Așadar, metoda presupune calculul a două componente: funcția probabilistică și distribuția apriori. În timp ce alte metode consideră parametrii unui item drept constante, metodele bayesiene îi apreciază ca având o anumită distribuție, reprezentând funcții continui. Rolul distribuției apriori este acela de a specifica o ipoteză referitoare la modul în care acești parametri se distribuie . Atunci când se estimează parametrii unui item, baza o reprezintă specificarea formei inițiale a distribuției parametrilor itemilor. Acești parametri inițiali care configurează distribuția apriorică poartă numele de hiperparametri și permit construirea ipotezei referitoare la distribuția factorului latent la nivelul populației.
Discriminarea itemului (a) se consideră că are o distribuție apriorică log normală în intervalul 0 – infinit definită prin hiperparametrii medie și abatere standard, după relația:
(Relația III-60)
Inițial, hiperparametrii media și abaterea standard care caracterizează distribuția apriorică, sunt stabiliți la valoarea 0 respectiv 0,5. Discriminarea la nivelul populației fiind o funcție log normală a discriminării fiecărui item, putem spune că . În metodele bayesiene, parametrul discriminării itemului pornind de la distribuția apriorică va fi , derivata privind calculul discriminării fiind dată de relația:
(Relația III-61)
Pentru nivelul de acoperire în factor latent, ipoteza distribuției apriorice este cea a normalității. Prin urmare, derivata de calcul va fi dată de relația:
(Relația III-62)
Putem constata că derivatele menționate reprezintă o adăugare a distribuției apriorice la ecuațiile folosite în cadrul MMLE. Algoritmii sunt similari. Prima etapă presupune pregătirea acelorași date ca și MMLE. Se inițializează matricea paternurilor de răspuns X(P) și se construiește cvadratura gaussiană. Apoi se calculează frecvența fiecărui patern de răspuns, fk, prin însumarea subiecților care prezintă acel patern. Se inițializează parametrii b și a la valorile 1, respectiv 0 și, în plus, pentru fiecare item se inițializează hiperparametrii media și abaterea standard la valorile 0, respectiv 0,5.
Pasul E vizează estimarea parametrilor populației, similar metodei prezentate anterior. Probabilitatea estimată pentru fiecare item din cadrul paternurilor de răspuns pentru toate grupurile determinate de nivelurile factorului latent este dată de . Dacă în cadrul paternului de răspuns, itemul i este distractor, probabilitatea estimată va fi 1-P. La fel, se calculează probabilitatea estimată pentru paternul de răspuns în cadrul nodului gaussian după . Probabilitățile la nivelul grupurilor sunt ajustate, pentru fiecare patern de răspuns, cu valorile funcției de densitate, după . Indicatorii fik și rik se calculează la fel ca în metoda MMLE, algoritmul fiind descris anterior.
Pasul M presupune estimarea probabilității maximale și este similară algoritmilor folosiți la MLE, fiind în conformitate cu noile derivate menționate. În primul rând, se calculează hiperparametrul alfa după expresia:
(Relația III-63)
În cazul în care frecvența estimată la nivelul populației fik este nulă, analiza continuă cu următorul grup. Probabilitatea de răspuns se calculează după relația , iar factorul de ajustare W după relația . Același algoritm se aplică în cazul în care factorul de ajustare are o valoare foarte mică.
Specific acestei metode este calculul unui număr de trei parametri esențiali. În primul rând, expresia:
(Relația III-64)
reprezintă distanța la care se situează, la nivelul populației, probabilitatea de răspuns activ față de probabilitatea estimată. Al doilea parametru este dat de relația:
(Relația III-65)
și reflectă distanța la care se situează parametrul b al itemului față de nivelul factorului latent al nodulul gaussian.
Derivatele parțiale vor fi scrise în concordanță cu noile valori, astfel:
(Relațile III-66)
Algoritmul se repetă pentru fiecare cvadratură gaussiană. După calculul tuturor derivatelor parțiale, se implementează termenii distribuției apriorice în derivatele parțiale. Astfel, hiperparametrul media pentru discriminare se calculează după expresia:
(Relația III-67)
iar parametrul discriminare a itemului este dat de relația:
(Relația III-68)
Derivatele calculate anterior sunt multiplicate cu ai, la care se adaugă și termenii distribuției apriorice, după relațiile:
(Relația -)
Determinantul este calculat după relația cunoscută:
(Relația III-70)
În cazul în care determinantul are o valoare foarte mică (sub 0,000099), procedura de calibrare a itemilor eșuează. În caz contrar se calculează delta pentru parametrii itemului, după relațiile:
(Relația III-71)
În baza acestor valori se pot estima noile valori pentru alfa și b, astfel:
(Relația III-72)
În cazul în care noile valori delta sunt mai mici de 0,05, criteriul de convergență a fost atins, se va calcula discriminarea după relația , valoarea parametrului b fiind cea estimată anterior. Dacă valorile delta sunt mai mari de 0,05, se reia ciclul până la atingerea criteriului de convergență.
Metodele prezentate sunt frecvent folosite în aplicațiile computerizate bazate pe teoria răspunsului la item, cum ar fi BILOG, PC-BILOG, X-Caliber sau R, fiind incluse și în programele noastre. Acestea nu reprezintă însă singurele metode de estimare ale parametrilor itemilor. Există tehnici în vederea estimării parametrilor itemilor folosite pentru scale cu răspuns gradual, de exemplu scalele Likert, tehnici pentru scale nominale și pentru alte modele de răspuns la item, toate bazându-se însă pe combinații ale celor trei metode de bază.
Estimarea nivelului factorului latent al persoanelor
Tehnicile de estimare a nivelului factorului latent al persoanelor, numite și tehnici de scorare, diferă radical de metodele folosite în teoria clasică a testului, unde, transformarea este de tip liniar, realizată în mod practic prin intermediul etalonului (normei). În modelele de răspuns la item, scorarea are un caracter mult mai complex și se poate realiza prin mai multe tehnici, cele mai întâlnite cuprinzând estimarea probabilității maximale (maximum likelihood – ML), probabilitatea maximală a posteriori (maximum a posteriori – MAP) și probabilitatea estimată a posteriori (estimated a posteriori – EAP).
Această măsură reprezintă estimarea probabilității maximale a nivelului (necunoscut) al factorului latent în baza răspunsurilor subiectului la itemii administrați și în funcție de parametrii acestor itemi. Astfel, pentru ca procesul de estimare a nivelului factorului latent să se poată realiza, vor fi îndeplinite trei asumpții :
Valorile parametrilor tuturor itemilor administrați trebuie să fie cunoscute;
Estimările sunt evenimente independente iar nivelul factorului latent poate fi estimat doar pentru un singur subiect la un moment dat;
Toți itemii administrați trebuie modelați după un model de răspuns la item din aceeași familie.
Scorarea prin metoda probabilității maximale (maximum likelihood – ML)
Contextul teoretic al metodei este similar celui folosit în procesul de calibrare a itemilor, estimarea nivelului factorului latent fiind un proces iterativ de căutare a valorii care maximizează probabilitatea de răspuns a unui anumit patern determinat de itemii administrați. Într-un mod condensat, estimarea nivelului factorului latent reprezintă poziția pe continuumul factorului latent a unui subiect cu un anumit patern de răspuns la itemii administrați . Metoda a fost descrisă în capitolul III.3.2.1, etapa estimării nivelului latent al persoanelor, funcția logistică a probabilității maximale fiind descrisă de relația.
În procesul de estimare a nivelului factorului latent se furnizează parametrii itemilor administrați, paternul de răspuns al subiectului, criteriul de convergență și numărul de iterații. Calculul probabilității de răspuns activ la itemul i în funcție de parametrii itemului este dată de relația în cazul unui model 1PL sau 2PL. Pentru modelul 3PL, relația devine:
Relația III-73)
Calculul coeficientului de ponderare se face după relația , iar distanța la care se situează răspunsul subiectului în raport cu probabilitatea de răspuns la item se stabilește după relația:
Relația III-74)
Implementarea derivatelor parțiale și ecuațiile Newton-Raphson se stabilesc după relații similare celor prezentate anterior:
(Relația III-75)
Relația III-76)
Procesul se repetă pentru toți itemii administrați, rezultând cele două derivate la nivelul întregului patern de răspuns. Factorul delta la nivelul iterației reprezintă raportul celor două derivate:
Relația III-77)
Dacă delta este mai mic decât criteriul de convergență ales, procesul iterativ se încheie. Pe parcursul iterațiilor, nivelul factorului latent este reprezentat de nivelul factorului latent calculat la iterația anterioară, la care se adaugă noul delta:
Relația III-78)
În final, se calculează eroarea standard a estimării nivelului de competență pe baza celei de-a doua derivate parțiale după relația:
Relația III-79)
În cazul în care se folosește modelul Birnbaum cu trei parametri (3PL), se va calcula raportul dintre probabilitatea de răspuns activ a unui model cu 1 sau 2 parametri și probabilitatea de răspuns activ a modelului cu 2 parametri:
Relația III-80)
Astfel, cele două derivate parțiale se vor ajusta în funcție de acest raport, devenind:
Relația III-81)
Relația III-82)
Cea de-a doua derivată parțială, pe baza căreia s-a calculat eroarea standard, reprezintă, în modul, valoarea așteptată a funcției informaționale a testului compus din itemii administrați. Cu cât valoarea este mai mare, cu atât curba funcției logistice probabilistice este mai ascuțită și crește gradul de încredere în nivelul factorului latent estimat. Este normal ca această valoare informațională să crească pe măsură ce numărul de itemi crește, însă se pune problema nivelului până la care poate crește, după atingerea căruia plusul de informație să nu mai fie relevant.
Această metodă de estimare a nivelului factorului latent posedă o serie de proprietăți importante :
Nu este biasată. Valoarea așteptată a nivelului factorului latent reprezintă și valoarea reală a acestuia. Este un estimator foarte eficient iar reziduurile urmează o distribuție normală. Estimările sunt consistente în sensul că pe măsură ce numărul de itemi crește, estimatorul converge rapid spre valoarea sa reală și eficiente în sensul că prezintă cea mai mică varianță ;
Folosind evaluarea CAT, se poate calcula funcția de bias a estimării folosind MLE pe baza relației:
Relația III-83),
unde I este funcția informațională a testului.
Funcția arată că dacă nivelul factorului latent al subiectului este mai mare decât media nivelurilor de acoperire în factor latent a itemilor, biasul va fi negativ. Atunci când nivelul de acoperire al factorului latent se află la distanță mare față nivelul real al factorului latent al persoanelor (așa cum se întâmplă de multe ori în evaluarea clasică), vor exista biasuri negative pentru subiecții cu un nivel foarte redus și biasuri pozitive pentru subiecții cu un nivel ridicat. Atunci când itemul este adaptat nivelului real al factorului latent, biasul se apropie de zero. Mai mult, acesta se va reduce pe măsură ce numărul de itemi administrați crește folosindu-se evaluări CAT .
Nu se poate calcula nivelul factorului latent în condițiile unor scoruri perfecte, atunci când toți itemii au primit răspunsuri active sau distractoare. Dacă asemenea situații apar foarte rar în evaluările CAT, ele pot fi frecvente în situațiile de examinare cu itemi ficși.
Pentru o estimare nebiasată, răspunsurile subiecților trebuie să corespundă modelului de răspuns la item pe baza căruia s-au calibrat itemii. În anumite situații, mai ales în cazul probelor fixe și dacă răspunsurile se dau la întâmplare, nu există nici un mijloc de control asupra validității estimării .
Estimatorul tinde să genereze valori infinite pentru nivelul factorului latent. Chiar dacă teoretic continuumul factorului latent poate lua valori între minus infinit și plus infinit, în practică se preferă limitarea domeniului între -4 și 4. Chiar în urma acestei limitări, există posibilitatea să rămână varianță reziduală, iar criteriul de convergență să nu fie atins. Includerea unei distribuții prin metodele bayesiene poate rezolva parțial această problemă.
În cazul unor probe scurte construite pe baza modelului 3PL, există posibilitatea să nu se atingă criteriul de convergență prin utilizarea acestei tehnici.
Scorarea prin metoda maximum a posteriori (MAP)
Atât această metodă, cunoscută și sub numele de estimare modală Bayes , cât și următoarea, fac parte din categoria tehnicilor bayesiene, nivelul factorului latent putând fi estimat și în cazul scorurilor perfecte. Specific acestor metode este includerea apriorică unei distribuții în estimarea nivelului factorului latent, similar estimării parametrilor itemilor. Această includere garantează că nivelul factorului latent va fi cuprins între anumite limite și protejează estimarea de valori extreme sau de răspunsuri date la întâmplare. Principiile estimării sunt similare cu cele prezentate în capitolul III.3.2.4. și se bazează intim pe metoda descrisă anterior, fiind o ajustare a acesteia cu includerea parametrilor unei distribuții (de obicei media și abaterea standard). Există însă și o serie de diferențe. În primul rând, probabilitatea de răspuns activ la itemul i în funcție de parametrii itemului nu mai corespunde relației , ci devine ecuația funcției caracteristice a itemului:
Relația III-84)
Cele două derivate se calculează după expresiile III-81 și III-82, iar după atingerea criteriului de convergență și ieșirea din iterații, în aceste derivate se includ hiperparametrii distribuției factorului latent, rezultând astfel distribuția a posteriori, căutându-se maximum funcției probabilistice logistice a distribuției a posteriori:
Relația III-85)
Relația III-86)
Întregul algoritm de calcul, exceptând ajustările efectuate mai sus, se păstrează. Prin includerea distribuției factorului latent, o parte dintre problemele metodei probabilității logistice maximale sunt eliminate. Astfel, estimarea nivelului factorului latent se poate realiza și în condițiile în care există scoruri perfecte, includerea distribuției eliminând problema tendinței către minus sau plus infinit a nivelului factorului latent.
Rămâne însă dificultatea stabilirii hiperparametrilor. De cele mai multe ori se pleacă de la ipoteza conform căreia factorul latent se distribuie normal, astfel încât hiperparametrii folosiți sunt media zero și abaterea standard 1. Foarte mulți factori latenți nu au în mod real o distribuție normală, ci doar asimilată unei distribuții normale. Așadar, valorile hiperparametrilor depind de un eșantion, fapt care poate duce la micșorarea puterii estimării. Pe de altă parte, cu cât numărul de itemi este mai mic, cu atât efectul exercitat de distribuția inclusă este mai mare. În cazul în care hiperparametrii nu sunt corect aleși, o evaluare CAT poate conduce la o convergență rapidă sau poate genera un număr suplimentar de itemi, din cauza faptului că nivelul intermediar al factorului latent nu este corect estimat.
Pe de altă parte, funcția informațională a testului are valori mai mari iar erorile de estimare sunt semnificativ mai mici în comparație cu metoda descrisă anterior datorită plusului de informație pe care îl adaugă hiperparametrii.
O proprietate interesantă a acestei tehnici este aceea că estimarea se poate realiza imediat după administrarea primului itemi, în timp ce toate celelalte metode impun prezența cel puțin a unui item cu răspuns activ și a unui item cu răspuns distractor.
În concluzie, folosindu-se MAP estimarea devine mai precisă, se poate calcula nivelul factorului latent al subiecților și în cazul scorurilor perfecte, însă, în absența unor hiperparametri valizi, efectul de bias poate fi ridicat, mai ales în cazul probelor scurte, cu itemi puțini. Deși superioară tehnicii MLE, metoda MAP necesită studii suplimentare de estimare extrem de precisă a hiperparametrilor, desfășurate pe mai multe eșantioane de mari dimensiuni, pentru a se stabili exact forma distribuției factorului latent.
Scorarea prin metoda probabilității așteptate a posteriori (expected a posteriori –EAP)
Procesul iterativ specific celor două metode descrise anterior este unul consumator de timp și de resurse. În acest sens, metoda bayesiană EAP este mai eficientă deoarece nu utilizează iterații. Algoritmul este similar metodei bayesiene de estimare a parametrilor itemilor și se bazează pe nodurile cvadraturii gaussiene, rezultate din funcția de densitate a distribuției normale:
(Relația III-87)
Aceste noduri ale cvadraturii gaussiene pot fi calculate pentru fiecare nivel al factorului latent de-a lungul distribuției normale sau se pot utiliza cvadraturile descrise în tabelul . Deoarece calculul valorilor funcției de densitate pentru fiecare nod presupune implementarea unei integrale, se vor utiliza, așa cum s-a specificat anterior, aproximările Hermite-Gauss. În prima etapă se estimează probabilitățile de răspuns activ la fiecare item la nivelul nodului gaussian corespunzător, în cazul în care răspunsul este activ, în baza relației:
Relația III-88)
În cazul în care răspunsul la item este distractor, atunci probabilitatea de răspuns activ devine Pi=1-Pi. Funcția de probabilitate la nivelul fiecărui nod k devine produsul probabilităților de răspuns activ ale tuturor itemilor:
Relația III-89)
Acest proces se repetă pentru toate nodurile gaussiene, rezultând funcțiile de probabilitate ale nodurilor pentru întregul pattern de răspuns. În cea de-a doua etapă se calculează nivelul de acoperire în factor latent pe baza expresiei:
(Relația III-90)
După cum se poate observa, nivelul factorului latent estimat prin metoda EAP reprezintă media distribuțiilor a posteriori, iar eroarea standard a estimării este dată de expresia:
Relația III-91)
Estimarea nivelului factorului latent prin intermediul EAP conduce la valori stabile, care pot fi însă biasate, dacă nivelul factorului subiectului nu este situat în zona mediei distribuției a posteriori . Remarcăm, de fapt, aceleași tip de probleme specifice tehnicilor bayesiene. Principalul avantaj al EAP îl reprezintă renunțarea la ecuațiile Newton-Raphson și la procesul iterativ, fapt care simplifică foarte mult calculele, reduce timpul de estimare și elimină riscurile privind neatingerea criteriului de convergență în timpul estimării. În cazul în care baza de itemi conține itemi pe întregul domeniu al factorului latent, metoda EAP produce cele mai mici erori standard de estimare. În caz contrar tehnica poate fi puternic biasată .
Dezavantajul acestei tehnici se leagă, în special, de numărul de noduri gaussiene. Cu cât numărul este mai mare, cu atât estimarea este mai precisă . Pe de altă parte, numărul mare de noduri gaussiene nu este suficient pentru a se obține o estimare precisă, fiind necesar și un număr mare de itemi cu putere de discriminare mare la toate nivelurile factorului latent .
Scorarea prin metoda Owen
Atât metoda MLE, cât și metoda MAP implică un proces iterativ. În vederea eliminării acestei proceduri și pentru simplificarea modalității de calcul, distribuția a priori este actualizată cu parametrii funcției normale de densitate de fiecare dată când se înregistrează răspunsul subiectului la un item, în baza noilor valori obținute, selectându-se următorul item care va fi administrat . Astfel, metoda Owen se poate folosi doar în cazul probelor CAT, distribuția rezultată având aceeași medie și abatere standard ca și distribuția anterioară. Media distribuției reprezintă nivelul factorului latent, iar abaterea standard reprezintă eroarea standard a estimării.
Principalul avantaj al tehnicii Owen este reprezentat de eliminarea procesului iterativ și de simplitatea algoritmului. Fiind o tehnică bayesiană, nivelul factorului latent poate fi estimat în cazul scorurilor perfecte, primul indicator obținându-se după administrarea unui singur item.
Folosirea funcției normale de densitate pentru actualizarea distribuției a priori la fiecare nou item administrat poate însă crea probleme atunci când distribuția a priori diferă semnificativ de distribuția normală . Se induce, astfel, o eroare în procesul de estimare rezultând estimări diferite ale nivelurilor de acoperire în factor latent chiar dacă răspunsurile sunt identice, însă itemii sunt administrați într-o ordine diferită. Cei mai mulți autori consideră că metoda Owen biasează cel mai puternic estimarea nivelului factorului latent dintre toate tehnicile bayesiene. Cu toate că multe probe CAT o utilizează datorită rapidității calculelor, în absența unei distribuții a priori normale nivelul factorului latent estimat va fi privit cu rezervă și completat cu estimări folosind alte tehnici.
Funcția informațională a testului
Conceptul de informație este legat de cel al preciziei estimării, de variabilitatea indicatorului obținut în jurul parametrului, astfel încât:
(Relația III-92)
În cazul în care valoarea este ridicată, estimatorul prezintă o încărcătură informațională puternică, aproximează foarte bine valoarea reală a parametrului, în cazul nostru nivelul factorului latent. Pentru valori mici, nivelul factorului latent nu poate fi estimat cu precizie, acesta fiind distanțat în jurul valorii reale.
Un item are o funcție informațională maximală în dreptul nivelului de acoperire în factor latent, acesta reducându-se progresiv pe măsură ce se distanțează spre extremele continuumului factorului latent. În cazul itemilor construiți pe baza modelelor de răspuns la itemi, pentru modelul 3PL, funcția informațională a unui item la un anumit nivel al factorului latent devine:
Relația III-93)
Prin includerea c=0 se obține funcția informațională a itemului pentru modelul 2PL iar stabilind a=1 rezultă modelul Rasch. Deoarece un test este format dintr-un număr variabile de itemi, iar funcțiile informaționale ale itemilor sunt sumative, funcția informațională a testului este dată de relația:
Relația III-94)
Spre deosebire de funcția informațională a unui item, funcția informațională a testului are un nivel mult mai ridicat și depinde atât de parametrii itemilor cât și de răspunsurile subiecților. Pe măsură ce numărul itemilor crește, va crește și funcția informațională a testului. În cazul probelor CAT, această creștere apare rapid, deoarece itemii se adaptează permanent la nivelul factorului latent al subiectului. După un număr relativ mic de itemi, creșterea informațională nu mai este semnificativă, nivelul factorului latent fiind precis estimat. Pentru probele cu itemi ficși, această creștere este mai lentă, deoarece influența parametrilor itemilor este mai mare, subiecții primind, în permanență, aceiași itemi.
Funcția informațională a itemului reprezintă un indicator foarte important în cadrul modelelor de răspuns la item și arată maniera în care s-a comportat testul la estimarea nivelului factorului latent pe întregul continuum al acestuia .
Construcția probelor auto-adaptive
Evaluările psihologice cu probe standardizate se pot realiza în formă clasică, creion-hârtie, computerizată sau mixtă (administrare clasică, scorare și analiză computerizată). Probele construite pe baza modelelor de răspuns la item pot fi administrate doar computerizat, deoarece itemii se adaptează permanent la răspunsurile subiecților. Având în vedere numărul relativ mare de produse computerizate destinate evaluării psihologice, fie că vorbim de sisteme CAT sau de sisteme care administrează probe clasice, se impune prezentarea unor principii generale care guvernează construcția unor astfel de instrumente.
Principii de construcție a instrumentelor computerizate de evaluare psihologică
Evaluarea psihologică are un caracter special, avându-se în vedere tipul de date colectate și asigurarea standardizării examenului psihologic. Un sistem computerizat de evaluare psihologică va trebui să respecte o serie de cerințe pentru a se asigura calitatea acestui proces.
Cerințe impuse de interfața om-computer
Examenul psihologic are un caracter standardizat. Acest lucru implică eliminarea, pe cât posibil, a tuturor surselor externe ce pot influența răspunsurile subiectului. Dincolo de aspectele legate de ambientul examinării, procesul însuși poate fi generator de variabile confundate, iar, în acest context, interfața om-computer joacă un rol important. Prin interfață om-computer înțelegem totalitatea elementelor cu care vine în contact subiectul, în momentul în care este evaluat psihologic, incluzând atât modalitatea de prezentare a stimulilor cât și modalitatea de elaborare a răspunsurilor.
Sistemul de elaborare a răspunsurilor trebuie să excludă orice formă prin care unii subiecți ar putea fi avantajați sau dezavantajați ca urmare a familiarizării cu interfața de răspuns. Spre exemplu, utilizarea tastaturii în elaborarea unor răspunsuri la probe de randament sau la alte probe cu timp limitat poate dezavantaja subiecții care nu utilizează frecvent computerul, mai ales în cazul în care răspunsurile nu se rezumă la apăsarea unei taste. De aceea nu se recomandă folosirea acestui dispozitiv în procesul de evaluare psihologică. Majoritatea sistemelor folosesc, în asemenea situații, dispozitive speciale atașate computerului, cum ar fi diferitele tipuri de controlere de răspuns. Principalul dezavantaj al acestor soluții îl reprezintă prețul relativ ridicat și fiabilitatea scăzută, la care se poate adăuga dificultatea procurării, de obicei asemenea echipamente fiind furnizate de dezvoltatorul programului computer. O soluție ar fi utilizarea unor echipamente disponibile în comerț (spre exemplu dispozitive de tip volan cu pedale sau joystick), însă variabilitatea modelelor poate conduce la afectarea examenului psihologic ca urmare a lipsei de standardizare. Mai mult, nu se elimină efectul familiarizării, anumite categorii de subiecți fiind avantajate (spre exemplu persoanele care joacă frecvent jocuri pe computer folosind asemenea echipamente).
Variantele moderne, în prezent studiate și implementate în Psihosoft CATS, presupun folosirea unui dispozitiv comun de afișare a stimulilor și elaborarea răspunsurilor, sub forma unor ecrane sensibile la atingere (monitoare touch-screen). Atât itemii probelor, cât și variantele de răspuns sunt prezentate pe același dispozitiv, subiectul elaborând răspunsurile prin atingerea ecranului senzitiv. Se elimină, astfel, orice efect al experienței anterioare a subiecților, iar interfața de prezentare asigură standardizarea instrumentului. Nu toate probele psihologice pot fi implementate într-o asemenea manieră. Unele teste psihologice, în special cele de reactivitate, presupun, spre exemplu, și folosirea picioarelor în elaborarea răspunsurilor. În asemenea situații, varianta expusă mai sus nu poate fi aplicată.
În situațiile în care răspunsul este complex și presupune utilizarea mai multor părți ale corpului, alături de soluția dispozitivelor externe se poate impune și varianta senzorilor de mișcare, cum ar fi, spre exemplu, Microsoft Kinect. Asemenea dispozitive preiau mișcările corpului și le transformă în acțiuni asupra programului, în funcție de modul de proiectare al acestuia. Cercetările noastre efectuate cu Psihosoft CATS arată că această variantă de preluare a răspunsurilor este cea mai bună. Senzorul reacționează destul de rapid, poate prelua întregul set de mișcări corporale ale subiectului în funcție de poziția acestuia, poate fi standardizată inclusiv poziția subiectului în timpul evaluării și se elimină complet influența dispozitivelor externe atașate. În plus, răspunsurile subiectului pot fi elaborate și verbal, senzorul recunoscând cuvintele simple și transformându-le rapid în acțiuni. În acest moment soluția se află în dezvoltare și implementare, dar primele rezultate pledează în direcția universalizării acesteia, cel puțin în sistemul Psihosoft CATS. Principalul dezavantaj al soluției este prețul relativ ridicat al senzorului și dificultatea programării acestuia. Dacă se ia în calcul caracterul universal al acestor dispozitive, soluția este viabilă pe termen lung.
În altă ordine de idei, sistemul de elaborare a răspunsurilor va prelua acțiunile subiectului în mod rapid și fidel. Foarte multe probe psihologice presupun înregistrări fine ale timpilor de răspuns sau ale mișcărilor, de ordinul milisecundelor, respectiv milimetrilor. În asemenea cazuri, dispozitivele de preluare a răspunsurilor vor înregistra rapid și fidel aceste acțiuni. Astfel, evaluările bazate pe browserul de internet sunt excluse din această categorie. Timpii de răspuns au latențe mari, influențați de viteza conexiunii, chiar dacă mișcările pot fi controlate destul de fin.
Sistemul de prezentare a stimulilor trebuie să asigure standardizarea și eficiența prezentării itemilor către subiect. În acest sens, ecranul va acoperi întreaga suprafață a monitorului, fără elemente distractoare sau culori stridente. Se preferă utilizarea unui fond monocolor, în contrast cu textul afișat, fără ca acest contrast să obosească ochiul. Elementele de acțiune trebuie să se limiteze strict la acțiunile necesare subiectului, să fie clar dispuse pe formular, vizibil și ușor de identificat. Formularul de prezentare a stimulilor nu se populează cu alte elemente pe care le acționează examinatorul și nu subiectul. De obicei se prezintă itemul, variantele de răspuns și eventualele elemente de navigare prin răspunsuri.
Prezentarea stimulilor se realizează câte unul la un moment dat, răspunsul subiectului determinând avansarea la stimulul următor. Nu recomandăm prezentarea mai multor itemi pe aceeași pagină, acest lucru determinând uneori confuzie în rândul unor subiecți și generând răspunsuri eronate. Prezentarea stimulilor folosind un browser de internet nu o agreăm în mod deosebit, atât din cauza influenței pe care un asemenea proces o poate avea asupra standardizării, cât și a problemelor de securitate sau de configurare a browserului.
Cerințe impuse de sistemul de management a datelor
Datele rezultate în urma unei evaluări psihologice sunt confidențiale, fie că ne referim la rezultatele probelor aplicate, fie că avem în vedere datele personale sau cele anamnestice. Din acest motiv, un sistem de evaluare psihologică asistat computer va trebui să implementeze mecanisme de înregistrare, stocare, recuperare și asigurare a securității datelor subiectului. De obicei datele se stochează în baza de date în clar sau encriptat pentru informații sensibile, accesul la acestea fiind permis doar psihologului care a evaluat subiectului sau altor psihologi în condițiile în care psihologul inițial și-a exprimat acordul.
Sistemele computerizate de evaluare psihologică pot administra, scora și interpreta rezultatele unui subiect și se remarcă prin rapiditatea acestor operațiuni, însă acest lucru nu asigură calitatea instrumentului de evaluare psihologică. Cu toate că un instrument valid și fidel își păstrează, în general, aceste caracteristici și în varianta computerizată, procesul de normare și construirea etaloanelor va trebui reluat din cauza modificării condițiilor de standardizare și a efectului exercitat de evaluarea computerizată asupra subiectului.
Setul de cerințe minimale va trebui implementat la nivelul tuturor probelor psihologice computerizate. Sistemele complexe prezintă și alte facilități care pot simplifica activitatea psihologului, cum ar fi posibilitatea de evaluare psihologică în rețea, construcția de seturi sau baterii de probe, funcții de analiză a datelor, de creare a etaloanelor, imprimarea diferitelor categorii de rapoarte etc. Indiferent de opțiunile introduse, acest lucru nu va trebui să afecteze procesul de evaluare propriu-zis și calitatea datelor colectate.
*
* *
Elementele expuse sunt valabile atât în evaluările cu probe construite pe baza teoriei clasice a testului, cât și în cele bazate pe modele de răspuns la item. În cel de-al doilea caz există o serie de particularități constructive. Obiectivele principale ale unei evaluări cu probe auto-adaptive (numite și probe CAT) sunt reprezentate de obținerea maximului de informație din itemii probei la un anumit nivel al factorului latent și minimizarea reziduurilor, a distanței la care se situează această estimare față de valoarea reală a factorului latent. În cazul probelor construite pe baza modelelor de răspuns la item, există două mari categorii de evaluări: evaluarea prin probe cu itemi ficși și evaluări auto-adaptive.
Evaluările prin probe cu itemi ficși nu diferă foarte mult de evaluările clasice sub aspectul prezentării. Factorul latent evaluat conține un număr fix de itemi, toți fiind administrați subiectului. Spre deosebire de forma clasică, itemii pot fi administrați aleatoriu și, de asemenea, se poate opta pentru prezentarea aleatorie a variantelor de răspuns la nivelul fiecărui item în cazul în care scala de răspuns este nominală. Acest lucru poate determina creșterea calității răspunsurilor, eliminându-se efectul învățării și, în cazul unui examen colectiv, un astfel de procedeu poate preveni influențarea unui subiect de către ceilalți subiecți, aceștia primind itemi diferiți. Chiar dacă itemii sunt aceiași, modalitatea de estimare a nivelului factorului latent diferă și este caracteristică modelelor de răspuns la item. Totuși, estimarea depinde de parametrii itemilor și poate genera reziduuri mari în cazul în care itemii se adresează unui nivel mediu al factorului latent, iar subiectul are un nivel extrem al acestuia, foarte mare sau foarte mic. Evaluarea cu itemi ficși se folosește atunci când numărul de itemi din banca de itemi este relativ redus sau când eșuează evaluarea cu itemi adaptivi din cauza absenței unor itemi la acel nivel al factorului latent. Prin calitatea estimării, chiar în aceste condiții, evaluarea este superioară celeia cu probe clasice, doar în condițiile în care nivelul factorului latent al subiecților se apropie de nivelul de acoperire în factor latent al itemilor. În caz contrar nu se poate utiliza această metodă.
Evaluarea cu probe auto-adaptive (CAT) reprezintă cazul ideal de examen psihologic cu probe construite pe baza modelelor de răspuns la item, însă este necesar un număr mare de itemi în baza de itemi care să acopere întregul continuum al factorului latent și cu diferite capacități de discriminare. Inițial subiectul primește un item sau un set mic de itemi cu un nivel mediul de acoperire în factor latent și cu o capacitate discriminativă redusă. În funcție de răspunsurile subiectului, computerul administrează următorii itemi, pe baza nivelului factorului latent estimat anterior, având capacități de discriminare din ce în ce mai mari, până la atingerea unui criteriu de convenit, astfel încât informațiile rezultate să estimeze maximal nivelul real al factorului latent. Subiecții primesc itemi diferiți în funcție de nivelul propriu al factorului latent, un subiect cu un nivel redus al factorului latent va primi itemi cu o încărcătură mică a factorului latent, subiecții cu nivel ridicat al factorului latent vor primi doar itemi cu o încărcătură mare a factorului latent. În același timp, numărul de itemi administrați va fi variabil, în funcție de tipul acestora și de zona factorului latent estimată. Singura condiție pentru ca acest proces să funcționeze este existența unui număr suficient de itemi în banca de itemi. În cele mai multe cazuri, o bază de itemi conține sute, mii sau zeci de mii de itemi pentru fiecare factor latent, aceasta fiind și principala dificultate a metodei. Un număr atât de mare de itemi calibrați, fiecare, pe mii de subiecți, implică un proces de cercetare de foarte lungă durată. Ca strategie, se poate porni de la un număr relativ mic de itemi calibrați, folosiți în evaluări cu itemi ficși, la care se pot adăuga noii itemi pentru a se colecta răspunsuri. În cazul în care răspunsurile sunt suficiente, se pot estima parametrii noilor itemi care vor fi introduși în evaluări reale prin procedee specifice calibrării online.
Chiar dacă modelele de răspuns la item sunt superioare, acest lucru nu include calitatea itemilor introduși. În cazul în care un anumit item nu este valid în contextul factorului latent, acesta se va comporta extrem, „evaluând” niveluri foarte mari sau foarte mici ale dimensiunii. În anumite situații, un item nevalid poate determina valori aberante ale parametrilor săi.
Dezvoltarea bazelor (băncilor) de itemi
O bază de itemi (bancă de itemi) reprezintă o colecție de stimuli verbali sau non-verbali, operaționalizați sub formă de text, audio, imagini sau video și care au asociați un spațiu de răspunsuri și o matrice de scoruri, adecvați unui conținut latent măsurat. Din definiție rezultă o serie de caracteristici ale unei baze de itemi.
Modalitatea de prezentare – poate avea mai multe forme, de la text simplu la clipuri video. Esențial este faptul că itemii trebuie perfect adecvați conținutului sau conținuturilor latente măsurate (în cazul unor itemi multidimensionali). Avem în vedere validitatea itemilor și adecvarea lor unui anumit specific social și cultural.
Spațiul de răspunsuri – vizează variantele de răspuns asociate unui item, întâlnindu-se astfel itemi dihotomici și itemi polihotomici. Spațiul de răspunsuri va fi adecvat prezentării itemului, decurgând logic din formularea acestuia. Orice spațiu de răspunsuri va fi codat în funcție de conținutul latent măsurat prin stabilirea punctajului acordat fiecărei categorii de răspuns.
Matricea de scoruri – este asociată fiecărui itemi și conține răspunsurile acordate de subiecți, eventual grupate pe eșantioane de evaluare. Deoarece probele construite pe baza teoriei răspunsului la item au proprietatea de a-și recalibra parametrii, acest proces are loc pe baza caracteristicilor spațiului de răspunsuri și în funcție de matricea de scoruri asociată.
Spre deosebire de probele clasice, itemii unor probe construite pe baza teoriei răspunsului la item vor trebui să aibă o serie de particularități. Tendința regresiei către medie și către o distribuție normală a itemilor nu mai este valabilă. Probele clasice sunt construite pe baza normei, având ca reper comportamentul comun, obișnuit, mediu din punct de vedere statistic. În situația modelelor de răspuns la item, tendința către medie nu mai este suficientă. Itemii vor acoperi nu doar zona medie a factorului latent, ci și zonele marginale, caracterizate prin încărcături foarte mari sau foarte mici ale acestuia. Astfel, o bancă de itemi va conține și itemi situați în zona negativă a factorului latent (apropiați de -4), dar și itemi situați în zona pozitivă a sa (apropiați de +4), acoperind, de asemenea, și zonele intermediare. Acoperirea în factor latent este un criteriu necesar, însă nu și suficient pentru crearea unei bănci de itemi cu valoare diagnostică. Discriminarea acestora va trebui să aibă valori variabile pentru fiecare zonă a factorului latent, în general supraunitare. La niveluri de acoperire în factor latent apropiate, itemii trebuie să prezinte discriminări variabile, de la itemi cu o discriminare mică (situată în apropierea valorii unu) la itemi cu discriminări foarte mari (apropiate de 3 și peste). Itemii trebuie să păstreze probabilități de răspuns la întâmplare relativ mici (sub 0,10), astfel asigurându-se maximizarea funcției informaționale a acestora.
Demersul de creare a unor itemi pentru probe bazate pe teoria răspunsului la item este mai complex comparativ cu cel întâlnit la probele clasice, iar preluarea unor itemi din probe clasice și transformarea lor în itemi IRT va conduce la parametri situați în zona medie a factorului latent, insuficient pentru condițiile unei probe CAT. Unii autori propun un plan general de dezvoltare a unei bănci de itemi IRT ce cuprinde următoarele etape:
Crearea unui număr suficient de itemi pentru fiecare zonă a factorului latent, în funcție de definițiile operaționale ale constructului. În acest sens se va pleca de la harta constructului și de la definițiile acestuia (generale și operaționale). Definiția generală va fi operaționalizată pe mai multe zone, fiecare dintre acestea primind propria sa semnificație. Astfel, vor rezulta definiții pentru niveluri foarte scăzute și foarte ridicate ale factorului latent, precum și pentru niveluri intermediare ale acestuia, fiecare definiție fiind însoțită de exemple de comportamente reale. Pentru fiecare zonă se va elabora un număr suficient de itemi, nuanțând definițiile, capacitatea de discriminare fiind reglată atât din conținutul itemilor, cât și din spațiul de răspunsuri.
Revizia itemilor. Este important ca, după elaborarea itemilor, aceștia să fie supuși unui proces de recenzare, astfel încât să se poată asigura o înaltă calitate, deoarece evaluarea prin probe CAT se realizează folosindu-se un număr relativ mic de itemi, iar prezența unor itemi imperfecți poate duce la erori importante. În general, revizia itemilor va fi realizată printr-un panel de experți în vederea asigurării calității acestora, metodele de recenzare fiind descrise de mai mulți autori . Alături de calitatea itemilor se pune accent și pe impactul pe care îl pot avea asupra unor categorii sociale, aspect numit „sensibilitate”. Astfel, itemii nu vor aborda aspecte care pot fi ofensatoare sau jignitoare pentru anumite categorii sau care pot fi percepuți diferit ca urmare a factorului cultural .
Pretestarea inițială este o etapă obligatorie în vederea asigurării validității itemilor și face parte integrantă din procesul de creare a unui instrument de diagnostic. În general, pretestarea se va realiza pe un lot de subiecți similar celuia pe care va fi folosită proba, fiind urmată de analize de date în vederea asigurării validității de construct și de conținut.
Eliminarea itemilor indezirabili se realizează prin procedee clasice și specifice IRT în vederea asigurării celui mai bun eșantion de itemi necesar. Procedeele clasice se pot rezuma la analiza consistenței, la calculul proporției de răspuns activ ca indicator al nivelului de acoperire în factor latent și la calculul corelațiilor biseriale ca indicator al gradului de disciminare. Acestea vor fi dublate de procedee specifice IRT, cum ar fi: verificarea unidimensionalității și a independenței locale, calibrarea și verificarea gradului de compatibilitate cu modelul teoretic. O bună bancă de itemi se caracterizează prin discriminări relativ mari (peste 1), o distribuție rectangulară a nivelului de acoperire în factor latent și probabilități de răspuns la întâmplare mici (sub 0,2) . Această etapă este de lunga durată și presupune eliminări de itemi, verificarea zonelor bine acoperite, completarea zonelor mai puțin acoperite, noi studii, până când întregul continuum al factorului latent este acoperit și bine echilibrat.
Proiectul unei bănci de itemi
Proiectul unei bănci de itemi are în vedere specificarea unui set de condiții de conținut pe baza cărora vor fi redactați itemii. Acestea sunt definite drept combinații de atribute pe care le vor avea itemii pentru maximizarea funcției informaționale . Alături de aceste condiții privind conținutul, redactarea unor itemi pentru CAT impune și alte restricții ce vizează controlul expunerii itemilor sau balansarea acestora. S-a arătat că o bază de itemi conține, de obicei, un număr foarte mare de itemi și nu toți sunt selectați în mod egal într-o situație de examen. Deoarece procesul de redactare și verificare a itemilor este unul laborios și costisitor, nu este de dorit existența unor itemi ce nu vor fi folosiți sau vor fi utilizați foarte rar. Există o serie de metode probabilistice de control a expunerii itemilor pentru limita superioară (supraexpunere) , iar prin elaborarea unui bun proiect al bazei de itemi se poate controla și subexpunerea itemilor, astfel încât distribuția acestora în baza de itemi să aibă un caracter uniform.
Proiectul unei bănci de itemi se elaborează înainte de redactarea efectivă a itemilor și permite precizarea zonelor, a atributelor de conținut și de expunere a itemilor, chiar și costurile necesare elaborării băncii de itemi în condițiile unui control a funcției obiective a băncii de itemi. Primele strategii de elaborare a proiectelor de acest tip au fost formulate prin anii ’90 și presupun studii simulate în vederea evaluării performanței unei bănci de itemi, după ce itemii au fost redactați. Alte metode au în vedere o abordare secvențială în vederea calculului numărului de itemi necesar pentru maximizarea funcției informaționale. Sunt și procedee euristice bazate pe rotirea itemilor și crearea unui set operațional de itemi dintr-o bancă de itemi principală și analiza compatibilității între setul operațional și banca principală.
Una dintre cele mai eficiente metode de proiectare a băncii de itemi presupune utilizarea și analiza tabelelor de clasificare, implicând următoarele etape: (a) analiza cerințelor CAT și identificarea atributelor itemilor; (b) crearea tabelului de clasificare; (c) programarea modelului pentru teste simulate și includerea testelor simulate într-o serie de evaluări CAT; (d) identificarea subiecților și estimarea distribuției nivelului factorului latent. Deoarece nivelul factorului latent nu este cunoscut, estimarea acestuia se va face prin metode externe; (e) finalizarea simulărilor prin eșantionarea aleatorie a subiecților pe baza nivelului factorului latent estimat anterior. Se va înregistra de câte ori itemii din fiecare celulă a tabelului de clasificare sunt administrați în simulare; (f) se calculează parametrii proiectului și se proiectează ratele de expunere ale itemilor.
Construcția tabelului de clasificare
Tabelul de clasificare reprezintă un produs cartezian între atributele categoriale ale itemilor (C) și cele cantitative (Q), fiecare celulă a tabelului reprezentând un posibil subset de itemi care au aceleași atribute categoriale și se grupează în jurul acelorași atribute calitative. Crearea tabelului de clasificare implică mai multe operațiuni:
Specificarea atributelor categoriale – se referă la conținut, format, autor etc. fiecare dintre aceste categorii având mai multe valori și formând lista categoriilor itemilor. Spre exemplu, itemii unei baze de date pot avea conținut text, grafic și audio (3 categorii) și pot fi dihotomici și polihotomici (2 categorii). Atributele categoriale vor fi în număr de 3×2=6 categorii.
Specificarea atributelor cantitative – se referă la categorii determinate de parametrii itemilor, dar și la alte categorii, cum ar fi numărul de cuvinte, numărul de alegeri a itemului, folosite în special atunci când se dorește și o estimare a costurilor băncii de itemi. Unele atribute sunt discrete, fiind mai ușor de operaționalizat, altele sunt continui și se impune discretizarea lor pe bază de intervale. Nivelul de acoperire în factor latent este o variabilă continuă cu valori cuprinse între -∞ ți +∞. În acest caz, atributul va fi stabilit prin gruparea în intervale, de exemplu (-∞, -2,5), (-2,5, -2) … (2, 2,5) și (2,5. +∞). Numărul de intervale se stabilește în funcție de definițiile operaționale ale zonelor factorului latent, așa cum s-a precizat mai sus, și poate varia între 7 și 20 de intervale, un număr prea mic conducând la estimări grosiere iar un număr prea mare la nuanțări nerealiste. Discriminarea este tot o variabilă continuă cu valori cuprinse între 0 și +∞, procedeul de discretizare fiind similar. Probabilitatea de răspuns la întâmplare este o variabilă continuă, cu valori cuprinse între 0 și 1, de obicei acesta având o valoare constantă în proiectarea băncii de itemi, ca și probabilitatea ca răspunsul activ să nu fie ales niciodată, folosită în modelele 4PL. Astfel, un set de atribute cantitative poate avea, spre exemplu, 7 categorii ale nivelului factorului latent și 5 categorii ale discriminării, rezultând 7×5=35 de categorii.
Specificarea constrângerilor legate de interdependența itemilor – vizează relațiile de includere sau de excludere a itemilor din banca de itemi. În acest sens vorbim despre seturi „inamice” de itemi care cuprind itemi ce ar putea influența itemii din setul de evaluare. De exemplu, un item care conține informații utile în acordarea unui răspuns activ la un alt item este un item „inamic” și nu poate face parte din același set de evaluare. Astfel de itemi vor face obiectul unor reguli de excludere. Relațiile de includere se bazează pe particularități comune ale itemilor, pe reguli care vor permite selectarea itemilor, în vederea includerii lor în același set de date. Acest tip de constrângeri face parte dintr-un tabel separat de clasificare ce conține atributele-stimul ale itemilor, inclus, la final, în tabelul de clasificare central.
Tabelul final rezultat, în baza exemplelor furnizate anterior, va avea 6×35=210 celule și va permite definirea precisă a tuturor subseturilor de itemi, care vor forma banca de itemi a factorului latent măsurat.
Tabel – Exemplu de tabel de clasificare pentru proiectarea băncii de itemi
Proiectarea modelului pentru date simulate și rularea simulărilor
Pentru fiecare celulă din tabel vor trebui construiți itemi. Anumite celule vor conține un număr mai mare de itemi, altele mai puțini itemi, însă numărul optim de itemi pentru fiecare celulă poate fi stabilit în urma unui studiu simulat. Pentru fiecare celulă se poate calcula o variabilă decizională de includere a itemului într-un model computerizat de tip „shadow test”. Aceste variabile sunt operaționalizate sub forma numărului de selectări ale unui item din celula tabelului într-un „shadow test”.
Un „shadow test” reprezintă un test complet care îndeplinește toate constrângerile stipulate, conține toți itemii administrați anterior și prezintă funcția informațională maximală la nivelul factorului latent curent estimat. În urma rulării unui „shadow test”, rezultă un item optimal, itemul cu funcția informațională maximală. Simularea pe bază de „shadow test” are în vedere următorul algoritm :
Pasul 1 – Inițializarea estimatorului factorului latent. Se alege valoarea inițială a nivelului factorului latent al subiecților (θ);
Pasul 2 – Se construiește primul „shadow test” care îndeplinește toate constrângerile și prezintă funcția informațională maximală la nivelul factorului latent anterior precizat;
Pasul 3 – Se „administrează” un item din „shadow test” cu funcția informațională maximală la nivelul factorului latent selectat;
Pasul 4 – Se reactualizează nivelul factorului latent în funcție de răspunsul la itemul administrat. În cazul în care modelul nu este de tip 1PL se ajustează și ceilalți parametri;
Pasul 5 – Se construiește un nou „shadow test” fixându-se parametrii itemilor deja administrați;
Pasul 6 – Se repetă pașii 3-5 până la administrarea tuturor itemilor.
Menționăm că un „shadow test” nu conține itemi reali, ci itemi simulați în baza unor tehnici specifice de generare a itemilor IRT. Rezultă un număr foarte mare de itemi cu parametri diferiți, iar la fiecare repetare a algoritmului se construiește un nou „shadow test”, cu valorile cele mai bune ale funcției obiective și care respectă toate constrângerile impuse. Itemii selectați din „shadow test” la fiecare nivel al factorului latent sunt itemii cu cea mai importantă contribuție în eficientizarea funcției informaționale a testului. Rezultatul unei astfel de simulări constă fie în decizia de selectare sau neselectare a itemului respectiv în „shadow test” la nivelul respectiv al factorului latent, fie poate returna numărul de itemi necesari pentru fiecare celulă a tabelului de clasificare, în cadrul modelelor de simulare mai elaborate.
Funcția obiectivă a băncii de itemi minimizează costurile legate de elaborarea itemilor și poate fi scrisă sub forma:
(Relația IV-1)
unde,
xcq reprezintă numărul de itemi care vor fi selectați din fiecare celulă a tabelului de clasificare determinată de C și Q, pentru fiecare examen simulat;
kcq reprezintă costul itemului;
Pentru fiecare nivel al factorului latent se poate specifica o valoare țintă a funcției informaționale (T), astfel încât:
(Relația IV-2)
reprezintă funcția informațională cumulativă Fisher a răspunsului la itemii anterior administrați, iar expresia de mai sus introduce în model constrângerile cantitative specificate, astfel încât funcția informațională să fie maximală.
Modelul necesită includerea itemilor selectați anterior și specificarea unui număr fix de itemi CAT, ambele constrângeri fiind incluse în model prin relațiile:
(Relația IV-3) (Relația IV-4)
Constrângerile categoriale (C) și cele cantitative (Q) vor fi incluse în modelul „shadow test” pe baza expresiilor:
(Relația IV-5) (Relația IV-6),
în care Vc și Vq reprezintă setul de celule determinate de combinațiile categoriale, respectiv setul de celule determinat de combinațiile cantitative, rezultând numărul de itemi care respectă constrângerile categoriale, respectiv cele cantitative
În fine, modelul matematic complet al testelor „shadow” este definit de precizarea seturilor „inamic”, specificându-se că un asemenea test nu trebuie să aibă mai mult de un item pentru fiecare set inamic, după expresia:
(Relația IV-7)
Modelul este extrem de robust, principala problemă fiind cea a stabilirii funcției informaționale țintă. Practica arată că aceasta va trebui fixată la cea mai mare valoare posibilă pentru fiecare nivel al factorului latent, însă nu trebuie depășit nivelul la care testul „shadow” nu mai este fezabil.
Rezultatul unei astfel de simulări conduce la specificarea numărului de itemi care vor fi redactați pentru fiecare celulă a tabelului de clasificare, precum și a caracteristicilor acestora sub aspectul criteriilor cantitative și categoriale.
Calculul proiectului
Întregul proiect al băncii de itemi se bazează pe numărul de selecții ale fiecărui item din celulele tabelului de clasificare pe parcursul simulării. Acest număr este astfel ales încât rata expunerii itemilor să fie adecvată la un număr definit de evaluări pe întregul continuum al factorului latent. Orice item, însă, la administrări repetate, riscă, la un moment dat să devină perimat, fie din cauza modificării unor condiții externe, fie ca efect al învățării. În acest sens, numărul de itemi necesari pentru fiecare celulă a tabelului de clasificare poate fi calculat după expresia:
(Relația IV-8),
în care Icq reprezintă numărul optim de itemi din fiecare celulă a tabelului de clasificare, M este numărul maxim de expuneri ale unui item înainte ca acesta să poată fi învățat, S se referă la numărul de administrări ale itemului în procesul de simulare, iar C vizează numărul de administrări ale unei probe CAT pe care le poate suporta banca de itemi până la o nouă revizie.
O bancă de itemi optimă este definită de situația în care, indiferent de algoritmul de selecție a itemilor folosit în administrarea unei probe CAT, exact itemul dorit există în banca de itemi . De exemplu, dacă pe parcursul unei evaluări CAT, la un stadiu intermediar, nivelul factorului latent al persoanei devine 0,124, o bancă de itemi ideală va conține un item cu un nivel de acoperire în factor latent de exact 0,124, care poate fi selectat în vederea administrării. Din păcate, acest lucru este aproape imposibil de realizat în practică și presupune bănci de itemi voluminoase și foarte bine proiectate. Principala problemă care se pune la optimizarea unei bănci de itemi o reprezintă semnificația distanței dintre nivelul factorului latent al subiectului (θ) pe parcursul evaluării și nivelul de acoperire în factor latent al itemului (b) care urmează a fi selectat. Atunci când diferența dintre cei doi parametri este zero, funcția informațională a itemului este maximă. Pe măsură ce diferența crește, funcția informațională se reduce și apare întrebarea până la limită poate crește această diferență, astfel încât itemul să aibă valoare diagnostică. În figura IV-1, itemul prezintă o diferență de 0,55 unități între valoarea b și valoarea θ, astfel încât funcția informațională scade la valoarea 90% din maximum. O bancă de itemi în care itemii nu depășesc această valoare se numește bancă de itemi 0,9 p-optimală, acest indicator fiind un criteriu important al calității băncii de itemi. Cu cât această valoare este mai mare, cu atât banca de itemi este mai bine optimizată, conține itemi foarte apropiați de nivelul factorului latent solicitat. Criteriul menționat poartă numele de criteriu informațional al calității băncii de itemi, deoarece are în vedere funcția informațională a itemului. Alternativ, se poate folosi criteriul amplitudinal, ce se referă nu la procentul din maximum funcției informaționale, ci la amplitudinea distanței. Astfel, banca de itemi poate fi descrisă și ca fiind 0,55 r-optimală, referindu-se la faptul că itemii se situează la o distanță maximă de 0,55 unități față de nivelul factorului latent solicitat. Acest lucru înseamnă că itemul selectat se poate afla într-un interval de 1,1 logiți, între θ-0,55 și θ+0,55 în raport cu nivelul factorului latent căutat.
O metodă de optimizare a bazei de date o reprezintă stabilirea apriorică a criteriului informațional sau a criteriului amplitudinal la proiectarea bazei de itemi, apoi împărțirea continuumului factorului latent în intervale, în funcție de aceste criterii . În cazul în care avem în vedere o bancă de itemi 0,95 p-optimală, înseamnă că itemii vor trebui să fie 0,35 r-optimali, intervalele fiind de 0,7 logiți. Aceste intervale vor fi apoi extinse în stânga și în dreapta valorii zero a factorului latent, rezultând așa-numita distribuție „item-bins”, precum și numărul de itemi necesar pentru fiecare interval, în baza unor studii simulate sau reale pe diferite niveluri ale factorului latent. De exemplu, în figura IV-2, pentru un nivel real al factorului latent θ=-1, o bază de itemi 0,95 p-optimală va trebui să aibă un singur item în intervalul -0,35 – 0,35, 9 itemi în intervalul -1,05 – -0,35 și 10 itemi în intervalul -1,75 – -1,05, pentru a respecta caracteristicile de constrângere impuse evaluării la această valoare a factorului latent real.
Datele prezentate anterior au în vedere un singur caz simulat sau real, cu nivelul factorului latent de -1. În condițiile în care apare un al doilea caz, cu un nivel al factorului latent real de 0,5, cele două distribuții se cumulează. Remarcăm, în figura IV-3, că pentru evaluarea unui nivel al factorului latent de -1 și 0,5 avem nevoie de 13 itemi în intervalul -0,35 – 0,32, un item în intervalul 0,35 – 1,05, 9 itemi în intervalul -0,35 – -1,05 și 10 itemi în intervalul -1,75 – -1,05.
Repetarea acestui proces pentru un număr mare de date simulate și pentru diferite niveluri de pe continuumul factorului latent și apoi cumularea distribuțiilor, conduce la determinarea caracteristicilor băncii de itemi pentru întregul continuum al factorului latent. Această metodă necesită un număr foarte mare de examinări în vederea atingerii punctului de inflexiune pentru o bancă de itemi, de aceea sunt frecvent folosite date simulate și nu date reale. Constatăm, în figura IV-4, că după aproximativ 1400-1500 de simulări, numărul total de itemi pentru o bancă de itemi 0,95% p-optimală în condițiile unui test CAT de aproximativ 20 de itemi se stabilizează în jurul valorii de 190 de itemi.
Algoritmii de calcul ai acestei metode se bazează pe funcțiile informaționale ale itemilor, pe paternul de răspuns și pe distanțele la care se situează itemii în raport cu nivelul factorului latent. La final, după efectuarea tuturor simulărilor pe întregul continuum al nivelului factorului latent, metoda poate furniza distribuția numărului de itemi pentru fiecare „item-bins”, interval determinat de procentul din funcția informațională maximală a itemilor componenți.
În figura IV-5 se poate observa distribuția numărului de itemi în cazul unui astfel de studiu simulat . Pentru niveluri foarte mici ale factorului latent (în jurul valorii de -5), banca de itemi va conține un număr de 2 itemi. La niveluri medii, numărul de itemi crește la 18, iar la niveluri mai mari de 4 sunt necesari circa 5 itemi.
După proiectarea și optimizarea băncii de itemi, procesul continuă cu elaborarea efectivă a itemilor pentru fiecare domeniu al factorului latent. Cele două metode prezentate conduc la rezultate comparabile și specifică numărul de itemi necesari pentru fiecare zonă a factorului latent, în vederea obținerii unei bănci de itemi optime și cu o mare valoare diagnostică. Am observat că procesul este laborios și implică multe resurse, fiind substanțial diferit de cel utilizat în cazul probelor clasice, însă odată finalizat se poate beneficia de o bancă de itemi bine echilibrată, cu valoare diagnostică ridicată, includerea de noi itemi făcându-se mult mai ușor.
Auto-adaptarea itemilor
Calibrarea itemilor are în vedere procesul de estimare a parametrilor acestora. Acest proces poate îmbrăca două forme: calibrarea inițială și calibrarea online.
Calibrarea inițială
Calibrarea inițială, numită și stadiu de pretestare, se utilizează în timpul creării unor noi probe IRT sau la estimarea parametrilor unor itemi nou introduși, detaliile tehnice fiind prezentate în capitolul anterior. Ca strategie, procesul de calibrare impune anumite condiții. În primul rând, cea a lotului de calibrare. Cei mai mulți autori recomandă loturi de calibrare de minimum 1000 de persoane, însă acestea vor avea media nivelului factorului latent apropiată de media nivelului de acoperire în factor latent a itemilor analizați. Aceasta este principala caracteristică a lotului de calibrare, el fiind valabil doar pentru o anumită zonă a factorului latent. În cazul în care, spre exemplu, continuumul factorului latent a fost împărțit în 7 zone, vor fi necesare 7 loturi de cercetare de minimum 1000 de subiecți pentru calibrarea tuturor itemilor.
A doua condiție se referă la designul de calibrare. Acesta are rolul de a izola efectul regresiei către medie, folosindu-se așa-numitul „design pe pachete”. Itemii se ordonează crescător în funcție de nivelul de acoperire în factor latent și se construiesc „pachete” de itemi. De exemplu, calibrarea unui număr de 300 de itemi presupune ordonarea acestora și apoi construirea unui număr de 10 pachete de câte 30 de itemi. După construirea pachetelor, vor fi elaborate forme ale probei care să conțină 2-3 pachete și care vor fi administrare subiecților. Spre exemplu, prima formă poate să conțină pachetele 1 și 2, a doua formă pachetele 2 și 3 și așa mai departe. Alături de colectarea datelor, analizele vor viza și modul în care diferite pachete de itemi diferențiază și estimează în anumite zone ale factorului latent. Designul de calibrare poate fi mai simplu sau mai complex, în funcție de interesele constructorului. Majoritatea probelor CAT sunt calibrate inițial folosind designul pe pachete sau forme ale unui design pe blocuri, aceste abordări având ca avantaj posibilitatea utilizării unor analize de date elementare în vederea identificării modului de distribuție a parametrilor de-a lungul continuumului factorului latent, evaluându-se astfel măsura în care itemii sunt corect balansați.
Calibrarea online și deviația parametrilor
În momentul în care există un set de itemi calibrat în banca de itemi, acesta se va putea utiliza în scop diagnostic, însă asta nu înseamnă că parametrii itemilor au un caracter imuabil. Periodic ei vor fi revizuiți, unii vor fi excluși, vor fi adăugați alți itemi noi. În momentul în care se adaugă alți itemi noi, necalibrați, un sistem construit pe baza teoriei răspunsului la item îi va administra în vederea colectării de date, însă nu-i va lua inițial în calcul la estimarea nivelului factorului latent. Nu este necesar un alt studiu în vederea estimării parametrilor acestora, deoarece noii itemi pot fi „inserați” într-o evaluare, calibrarea realizându-se online, pe măsura administrării. Procesul de numește „inserare” sau „însămânțare” (seed) și presupune administrarea aleatorie, la începutul sau la sfârșitul evaluării propriu-zise, a unui număr mic de itemi noi. Astfel, vectorul de răspuns al subiectului va conține atât răspunsuri la itemi cu parametri cunoscuți, cât și răspunsuri la itemi noi, necalibrați. Identificarea unor itemi noi conduce la o estimare automată a parametrilor acestora, folosind paternul de răspuns, după una dintre tehnicile de calibrare prezentate, algoritmul fiind analog.
Între calibrarea inițială și procesul de calibrare online există diferențe, astfel încât, la un moment dat, parametrii itemilor vor suferi modificări importante. Acest fenomen poartă numele de deviație a parametrilor (parameter drift) și are mai multe cauze .
Una dintre principalele cauze ține de expunerea itemilor. Utilizarea unei probe psihologice un timp îndelungat va conduce la învățarea itemilor, ca efect al supraexpunerii unora dintre ei. Din acest motiv, au fost dezvoltate o serie de tehnici care să evite prezentarea unor itemi mai frecvent decât este cazul, tehnici încorporate în procedurile de selecție a itemilor pe parcursul desfășurării unei evaluări. Astfel de metode sunt tehnica aleatorie din n itemi (tehnica randomesque) , tehnica aleatorie de numărare inversă sau metoda Sympson și Hetter , principiile de bază urmând a fi prezentate în subcapitolul următor. Într-adevăr, folosind tehnici de control a expunerii, ne putem asigura de o prezentare echilibrată a itemilor, fapt care întârzie efectul de învățare. Chiar și așa, după un timp, fenomenul de deviere a parametrilor își face simțită prezența și solicită o recalibrare a itemilor sau o revizie generală a băncii de itemi, cu înlocuirea celor ce-și pierd proprietățile.
O altă cauză se referă la prezentarea itemilor în procesul de calibrare inițială. În multe situații, itemii sunt prezentați sub formă creion-hârtie, rezultatele sunt colectate și are loc procesul de analiză și calibrare inițială. Însă prezentarea sub formă creion-hârtie dezvoltă alte strategii de răspuns în comparație cu cea computerizată. Pe de altă parte, într-o probă CAT nu sunt prezentați toți itemii, ci doar un număr redus dintre aceștia, fapt care, în timp, va determina alți parametri.
Nu putem omite și aspectele motivaționale care exercită influențe importante. Colectarea datelor pentru calibrarea itemilor are, în general, un scop exploratoriu și nu de diagnostic. Motivația participanților este diferită în comparație cu motivația din timpul unui examen psihologic efectiv, aceasta fiind una dintre cauzele principale ale devierii parametrilor, chiar la începutul utilizării unei bănci de itemi CAT.
Din cele expuse, putem concluziona că, procesul inițial de calibrare are drept scop crearea unei bănci de item funcțională. Rafinarea acesteia se face în timp, prin procesul de calibrare online. Din fericire, algoritmii de calibrare online nu diferă de cei folosiți la calibrarea inițială, astfel încât acest lucru poate fi realizat automat prin program, după fiecare administrare a unui item sau a unui grup de itemi, în funcție de variabilele suplimentare de grupare prezente în matricea de răspunsuri.
Procesul de perimare a bazei de itemi este însă unul natural, nu poate fi controlat, și, la un moment dat, trebuie luate măsuri în vederea înlocuirii unor itemi. Momentul în care aceste decizii devin operaționale ține de controlul valorii și al semnificației deviației parametrilor. În acest sens, au fost propuse mai multe teste prin care se poate evalua deviația parametrilor.
Testul Lagrange Multiplier pentru deviația parametrilor
Ideea acestui test se bazează pe un model restrictiv, acesta fiind un model generalizat, cum ar fi 3PL, la care se impun constrângeri asupra unor parametri, prin transformarea acestora în constante. Testul se bazează pe evaluarea funcțiilor cvadratice (funcții care corespund unei ecuații e gradul al doilea de forma ax2+bx+c=0), determinate de derivatele parțiale ale funcție de probabilitate logistică (log-likelihood) pentru modelul restricționat. Evaluarea devierii parametrilor se realizează prin verificarea diferenței între calibrarea inițială și calibrările online. Parametrii inițiali ai itemilor formează primul grup (g0), iar parametrii rezultați din calibrarea online după un anumit număr de expuneri formează celelalte grupuri (g1, g2, … gk). Ipoteza nulă a testului este aceea că parametrii itemilor sunt constanți de-a lungul grupurilor, respingerea acesteia la un anumit prag de semnificație reprezentând un indicator al deviației parametrilor. Testul de bazează pe statistica:
(Relația IV-9)
Expresia reprezintă derivatele parțiale ale funcție logistice probabilistice la evaluarea parametrilor, așa cum au fost prezentare în capitolul anterior, iar suma se poate calcula după relația:
(Relația IV-10)
și reprezintă combinații ale răspunsului activ și distractor, aceste sume parțiale fiind determinate de:
(Relația -),
fiind vorba, în acest caz, de derivatele parțiale ale funcției logistice în cazul estimării inițiale a parametrilor. Testul are o distribuție asimptotică χ2 cu gradele de libertate determinate de numărul parametrilor din grupul al doilea.
Testul CUSUM pentru deviația parametrilor
Acest test provine din economie, în principal din analiza ciclului de producție și a calităților produsului, pornind de la ipoteza nulă că nu există modificări ale parametrilor . Principiile sunt similare testului prezentat anterior, relația de calcul fiind dată de:
(Relația IV-12)
Testul începe prin comparația cu valoarea 0 și se încheie dacă diferențele sunt mai mari de un prag de referință ales. Valoarea k reprezintă o valoare de referință care determină mărimea efectului ce va fi detectat. În general, pragul de referință și valoarea k se stabilesc de la început, recomandându-se k=1/2 și pragul 5 .
Expresiile numitorilor fracțiilor și sunt deduse din elementele matricei de covarianță folosită în calculul derivatelor parțiale, din acest motiv utilizarea testului presupune atât recalibrarea inițială, cât și recalibrarea online.
Testul este mai ușor de implementat în comparație cu cel descris anterior, respingerea ipotezei nule fiind un indicator al deviației semnificative a parametrilor, în sensul că parametrii inițiali nu mai corespund necesităților diagnostice actuale.
Selecția automată a itemilor și construcția testelor
În probele clasice, succesiunea itemilor este întotdeauna aceeași. Subiecții încep cu primul item al probei și continuă până la epuizarea itemilor. Uneori strategia poate să varieze, mai ales în cazul probelor de aptitudini, în sensul că subiecții rezolvă itemii mai ușori la început, lăsându-i pe cei mai dificili la sfârșit, însă acest lucru nu poate fi controlat de către examinator. O astfel de modalitate de evaluare poate induce o serie de efecte. În cazul în care instrumentul este administrat de multe ori, apare efectul de învățare, ce poate denatura rezultatele. Posibilitatea revenirii la itemii deja rezolvați și de modificare a răspunsurilor poate determina eludarea mecanismelor de identificare a răspunsurilor dezirabile sau indezirabile. Mai mult, dacă subiecții sunt situați unul lângă celălalt, poată să apară tendința de a copia răspunsurile. În probele bazate pe teoria răspunsului la item asemenea elemente nu mai apar, deoarece strategia de lucru este impusă de către computer și trebuie să aibă în vedere trei aspecte: (a) modalitatea de începere a probei, cum va fi selectat primul item administrat subiectului; (b) modalitatea de continuare a probei, pe ce bază vor fi selectați următorii itemi administrați și (c) modalitatea de ieșire din probă, când și cum se ia decizia finalizării evaluării, deoarece nu se administrează toți itemii decât în cazul testelor fixe.
Toate aceste elemente fac obiectul unei game variate de algoritmi, ce implică strategii diversificate, vizând o mai mare complexitate a măsurătorilor, deoarece atât selecția itemilor, cât și stadiile de evaluare ale nivelului factorului latent se petrec în timp real, computerul suplinind rolurile evaluatorului și ale psihometricianului.
Intrarea în probă. Selecția primului item
Selecția primului item reprezintă un proces prin care sistemul urmărește prezentarea unui item cu parametri cât mai apropiați de nivelul factorului latent pe care îl are un subiect. Intrarea în probe comportă o serie de dificultăți, deoarece nu avem nicio informație legată de nivelul factorului latent al subiecților după care să se ghideze algoritmul. Pentru a compensa acest lucru, sunt propuse mai multe strategii :
Cea mai cunoscută strategie vizează fixarea nivelului factorului latent la o valoare prestabilită, de obicei valoarea medie (0), însă se pot folosi și alte valori ale nivelului factorului latent, pozitive sau negative, în funcție de presupunerile examinatorului. Cu cât valoarea inițială este mai apropiată de nivelul real al factorului latent al subiectului, cu atât numărul de itemi necesari va fi mai redus și estimarea mai precisă. Principala problemă a acestei strategii este că presupune o alegere absolut arbitrară, atât a nivelului factorului latent, cât și a itemilor. În cazul în care distanțele între valoarea reală a nivelului factorului latent și valoarea aleasă sunt mari, evaluarea s-ar putea să dureze mult mai mult timp, deoarece sistemul CAT va trebui să elimine reziduurile introduse de acest bias.
O altă strategie vizează amânarea estimării nivelului factorului latent până la administrarea unui set inițial de itemi. În acest caz, se poate opta pentru stabilirea valorii inițiale a factorului latent și/sau alegerea numărului de itemi (în general între 5 și 12 itemi) care vor fi administrați în vederea estimări inițiale a nivelului factorului latent. De obicei, itemii sunt aleși aleatoriu și evaluează zone marginale ale valorii stabilite a factorului latent. După administrarea itemilor inițiali, se realizează o evaluare a nivelului factorului latent a subiectului, folosită ca valoare de start, și începe examinarea propriu-zisă. Această strategie nu elimină problemele descrise anterior. Nivelul factorului latent este stabilit arbitrar, la fel și itemii, metoda prezentând aceleași limitări. Este, totuși, mai precisă, deoarece sistemul CAT are mai multe informații pentru a evalua nivelul factorului latent al subiectului. Se poate aplica doar dacă banca de itemi este bine proiectată și conține un număr suficient de itemi necesari evaluărilor ulterioare.
Includerea unei distribuții apriorice și folosirea unei tehnici bayesiene la alegerea primului item este o altă strategie, în cazul în care avem idee de modul de distribuție al factorului latent la nivelul populației din care provine subiectul. Problema este că alegerea itemului va fi condiționată doar de parametrii și de tipul distribuției incluse. De obicei, se pornește de la o distribuție normală, cu media 0 și abaterea standard 1, însă nu avem nicio garanție (în absența unor studii serioase) că factorul latent prezintă acest tip de distribuție la nivelul populației țintă. Mai mult, anumiți factori latenți pot avea distribuții diferite, condiționate de gen biologic, mediu profesional, vârstă etc. Alegerea unei distribuții distanțată puternic de nivelul factorului latent poate deveni contraproductivă din motivele explicate anterior.
Includerea unor informații cunoscute deja, referitoare la subiectul evaluat. Este poate cea mai bună metodă, dar nu se poate utiliza decât în cazul existenței unor informații anterioare referitoare la subiect (din alte probe administrate, din anamneză etc.). Acestea pot fi parametrizate și pot fi introduse în model sub forma unor distribuții empirice. De exemplu, subiectul a fost evaluat în ultimii 20 de ani, obținând media IQ de 119,3 cu abaterea standard de 1,12. În acest caz, poate avea loc cea mai bună intrare într-o probă de inteligență, cu un item având parametrii foarte apropiați de nivelul real al factorului latent.
Problema alegerii adecvate a primului item este extrem de importantă. Dacă în cazul probelor lungi (cu 30-40 de itemi) sistemul are timp să corecteze reziduurile determinate de o alegere inadecvată a primului item, pentru probele scurte acest lucru nu se poate face, evaluarea eșuând. De asemenea, la alegerea primului item apare uneori tendința de supraexpunere. Stabilind un nivel al factorului latent inițial, sistemul va selecta itemul sau itemii cei mai apropiați de acest nivel. Acest lucru va determina prezentarea, aproape de fiecare dată, a aceluiași item inițial, ceea ce conduce la supraexpunere. Pentru a evita un asemenea fenomen, se impune implementarea unor tehnici de control a expunerii itemilor, chiar în această etapă.
Selecția următorilor itemi și estimările intermediare
Atunci când nivelul inițial al factorului latent este bine estimat, la următoarele administrări de itemi, nivelul estimat al factorului latent se apropie rapid de nivelul real al subiectului evaluat. Procesul de evaluare poate fi însă biasat de influența unor erori: (a) erori determinate de estimarea incorectă a nivelului inițial al factorului latent; (b) erori ale parametrilor itemilor; (c) erori cauzate de supraexpunerea unor itemi și (d) erori de răspuns la item din cauza tendințelor de fațadă sau din cauza ghicirii. Un sistem CAT va reduce influența acestor erori la minimum, maximizând funcția informațională a testului.
În etapele inițiale ale evaluării apare așa numitul „paradox al atenuării funcției informaționale”. Primul item administrat, ales în mod arbitrar, prezintă o funcție informațională ridicată. La administrarea următorului item, funcția informațională a testului înregistrează o prăbușire, din cauza faptului că nivelul real al factorului latent al subiectului este distanțat în comparație cu nivelul factorului latent inițial presupus. Rolul selecției itemilor este acela de a readuce funcția informațională cât mai aproape de nivelul inițial sau de maximum posibil al acesteia, astfel încât, între doi item succesivi să nu mai existe diferențe semnificative, acesta fiind și criteriul de ieșire din probă.
Procesul de selectare a următorului item presupune două stadii: (a) evaluarea nivelului factorului latent pe baza paternului de răspuns la itemii anteriori și (b) selectarea următorului item, astfel încât să se maximizeze funcția informațională. În cazul în care funcția informațională a testului rezultată după ultimul răspuns nu diferă semnificativ de funcția informațională a testului rezultată după răspunsul anterior, selecția următorului item se anulează și se inițiază procedurile de încheiere a examenului. Există numeroase metode de selectare a următorului item, toate bazându-se pe funcția informațională.
Metoda criteriului maximal informațional (Fisher)
Este una dintre cele mai vechi metode, folosită și în prezent, stipulând că selecția unui item j care să maximizeze funcția informațională la un anumit nivel al factorului latent θ este dată de relația:
(Relația IV-13)
În această relație, reprezintă nivelul intermediar estimat al factorului latent după un număr de n itemi administrați, reprezintă probabilitatea de răspuns activ a itemului j în cadrul unui eșantion de subiecți situat la nivelul factorului latent , iar este derivata probabilității de răspuns activ calculată anterior. Aceste funcții sunt calculate automat pentru toți itemii rămași disponibil în banca de itemi, alegându-se itemul cu valoarea maximală a funcției la nivelul factorului latent dorit.
Metoda se poate folosi în condițiile în care erorile nu sunt mari la începutul probei (în cazul în care nivelul inițial al factorului latent este bine apreciat). În caz contrar, prăbușirea funcției informaționale după primii doi itemi face dificilă recuperarea acesteia, mai ales dacă se administrează teste scurte.
Metoda criteriului maximal informațional global
Pornind de la problemele metodei Fisher, unii cercetători au propus utilizarea funcției informaționale Kullback-Leiber, care măsoară distanța dintre două funcții de probabilitate. Astfel, selecția următorului item devine un test statistic între nivelul real al factorului latent al persoane (θ0) și nivelul factorului latent curent estimat (θk-1):
(Relația IV-14)
Relația arată cât de bine discriminează paternul de răspuns între nivelul curent estimat al factorului latent și nivelul real al acestuia, singura problemă fiind că nivelul real al factorului latent al subiectului nu este cunoscut. De aceea, autorii au propus transpunerea formulei anterioare pe o integrală situată între nivelul curent al factorului latent estimat și nivelul anterior estimat, selecția următorului item realizându-se în baza maximului acestei funcții:
(Relația IV-15)
Metoda criteriului informațional probabilistic ponderat
Metoda anterioară limitează domeniul integralei la cel determinat de ultimele două prezentări succesive ale itemilor. Unii autori au avut idea de a extinde acest domeniu la întreaga gamă a continuumului factorului latent, integrarea făcându-se între -∞ și +∞, rezultând metoda criteriului informațional probabilistic ponderat (Likelihood weighted information criterion). Un avantaj al acesteia este faptul că se poate folosi atât pentru funcțiile Fisher, cât și pentru Kullback-Leiber, formula fiind analogă celei de mai sus, exceptând domeniul integralei, care va fi extins la infinit.
Metode bazate pe criterii bayesiene
Se cunoaște faptul că metodele bayesiene presupun includerea unor distribuții empirice în funcția informațională și/sau în parametrii itemilor, astfel adăugându-se informații suplimentare care facilitează procesul de selecție a următorului item. Nu vom detalia aceste tehnici, fiind mai multe la număr, însă vom putea remarca faptul că alegerea unei distribuții apriorice incorecte poate biasa puternic estimarea.
Există multe alte metode de selecție a următorului item, cum ar fi metoda aproximării Owen, metoda Urry, sau metode pur aleatorii. Toate sunt însă forme ale analizei funcției informaționale și ale deciziei asupra punctului în care aceasta are valoarea maximă la un anumit nivel de acoperire în factor latent.
Finalizarea evaluării și estimarea nivelului factorului latent final
Evaluarea cu probe construite pe baza teoriei răspunsului la item se poate încheia în următoarele condiții: (a) în momentul în care creșterea funcției informaționale între două expuneri de itemi este mai mică de valoarea prag (criteriul delta); (b) în momentul în care s-au administrat toți itemii din banca de itemi; (c) în momentul în care o probă adaptivă nu găsește un item situat în zona țintă a factorului latent sau (d) în momentul în care expiră timpul sau numărul maxim de itemi, dacă proba se administrează cu limită de timp sau dacă s-a impus un număr maximal de itemi ce poate fi administrat.
În practică se folosesc întotdeauna două criterii atunci când se administrează probe auto-adaptive: specificarea unui număr maxim de itemi pentru fiecare factor latent și specificarea criteriului delta. Sunt situații în care, din cauza unor răspunsuri inconsistente, criteriul delta nu se poate atinge, finalizarea probei realizându-se după administrarea numărului maxim de itemi. În general, o bancă de itemi corect proiectată și un nivel inițial al factorului latent corect estimat conduce la o atingere rapidă a criteriului delta, după 7-10 itemi, în funcție de natura factorului latent.
Finalizarea unei evaluări de acest tip va determina furnizarea, alături de nivelul factorului latent, a unor date legate de funcția informațională a testului, maximum acesteia indicând nivelul de precizie al estimării factorului latent, paternul de răspuns al subiectului și eventualele repere interpretative. În urma conversiei din logiți în probiți se poate transforma nivelul factorului latent într-o altă scală mai ușor de folosit și de înțeles, cum ar fi scala în stanine, sten, note T etc. Aceste scoruri transformate, cu toate că nu respectă în mod strict principiile statistice, pot fi folosite în mod curent, ușurând activitatea psihologului practician nefamiliarizat cu subtilitățile teoriei răspunsului la item.
Controlul expunerii și balansarea itemilor
Faptul că într-o probă CAT itemii se adaptează în funcție de nivelul factorului latent pe care îl posedă subiectul este valabil doar după administrarea unui anumit număr de itemi. În fazele incipiente ale evaluării, există riscul repetării acelorași itemi. De asemenea, o bancă de itemi va avea mai mulți itemi cu niveluri de acoperire în factor latent foarte apropiate, solicitarea unui item din acea zonă riscând să returneze, în permanență, unul și același item. Există, așadar, posibilitatea ca anumiți itemi să fie supraexpuși, în timp ce alți itemi să fie folosiți foarte rar sau deloc (subexpuși), efectele acestui fenomen fiind deja menționate. Alături de algoritmii de selecție ai itemilor este necesară implementarea unor tehnici de control a expunerii acestora. Importanța controlului expunerii itemilor ține de scopul evaluării psihologice. În condițiile în care un examen psihologic poate avea consecințe asupra subiectului, iar rezultatele sunt folosite în vederea luării unor decizii, cunoașterea prealabilă a itemilor de către subiect dobândește o importanță deosebită, mecanismele implementate având rolul de a crea condițiile unui examen cât se poate de obiectiv.
Balansarea itemilor devine importantă atât în fazele de proiectare a băncii de itemi, cât și în cazul în care o probă CAT evaluează mai mulți factori latenți în aceeași sesiune. Controlul balansării se referă la prezentarea aleatorie de itemi din diferiți factori latenți pentru a se evita procesul de ancorare pe factor, în urma căruia subiectul începe să intuiască la ce se referă itemii, crescând probabilitatea de acordare a unor răspunsuri dezirabile sau facilitând rezolvarea unor sarcini. Tehnicile de balansare a itemilor sunt aleatorii, nu presupun parametri interni, ci doar existența, la nivelul itemilor, a unui element de identificare a factorului latent la care se referă. Prezentarea itemilor se poate face secvențial, din fiecare factor latent, sau aleatoriu, atât sub aspectul factorilor latenți selectați, cât și sub aspectul numărului de itemi.
Tehnici aleatorii de control a expunerii din n itemi (tehnica randomesque)
Este o metodă foarte simplă și reprezintă extragerea unui număr specificat de itemi (de obicei 5) cu funcții informaționale maximale la nivelul factorului latent țintă și alegerea aleatorie în vederea prezentării a unuia dintre itemii selectați. Chiar dacă algoritmul de selecție a următorului item returnează un singur item, tehnica extinde algoritmul și permite extragerea unui număr mai mare de itemi similari, dintre care se va alege aleatoriu unul singur. Metoda poate fi ajustată în foarte multe moduri, începând cu uniformizarea parametrilor de expunere (memorarea numărului de expuneri și alegerea itemilor cu expunerea cea mai mică), până la tehnici de ponderare mai complexe. Unele variații impun construcția unor liste de itemi mai mari la începutul evaluării, acestea restrângându-se pe măsură ce numărul itemilor administrați crește.
Metoda este avantajoasă datorită simplității ei, însă nu garantează asigurarea expunerii uniforme în condițiile unor evaluări reale și intensive și nu prezintă nici un argument statistic de control a ratei de expunere a itemilor.
Tehnici care utilizează un parametru suplimentar de control a expunerii
Inexistența unui reper probabilistic ce poate indica rata de expunere a unui item reprezintă o limitare serioasă a metodei descrisă anterior, dar care nu-i scade popularitatea datorită ușurinței implementării sale. Totuși, au existat cercetări care au vizat construirea unui model bine argumentat în acest sens . Conform acestora, după selecția următorului item este rulat un experiment probabilistic pe baza căruia se decide dacă itemul va fi sau nu va fi administrat, controlându-se precis rata expunerii sale. Experimentul probabilistic este, în mod cert, simulat și se bazează pe un design rezultat dintr-o distribuție clasică a nivelurilor factorului latent, având în vedere atât probabilitatea de selectare a unui item ca cel mai bun item ce urmează a fi administrat, probabilitate rezultată din algoritmul de selecție (P(S)), cât și probabilitatea ca itemul selectat să fie și administrat (P(AS)). Probabilitatea de selecție a unui item nu are în vedere itemul unic, ci itemul dintr-o listă ordonată formată din cei mai plauzibili itemi aflați la nivelul țintă al factorului latent, similar procedurii descrise anterior.
Metoda încearcă să găsească probabilitatea de administrare globală a unui item, ca produs a celor două probabilități estimate anterior (P(A)=P(S)xP(AS)), astfel încât valoarea maximă a acestei probabilități multiplicative pentru toți itemii din banca de itemi să fie mai mică de valoarea unui prag (r) reprezentând rata maximală a utilizării itemului.
Probabilitatea P(AS) se numește și parametru de control al expunerii itemului, are o valoare pentru fiecare item din banca de itemi și este determinat în urma unor serii de experimente probabilistice care pornesc de la un test adaptiv deja proiectat și de la un set de scoruri simulate în baza distribuției nivelului factorului latent. La nivelul fiecărui ciclu de simulare, se calculează proporția în care itemii au fost selectați ca cel mai bun item ce va trebui administrat (P(S)) și proporția în care itemii au fost efectiv administrați (P(A)), apoi parametrul de control al expunerii pentru fiecare item a fost calculat în baza relației:
(Relația IV-16)
Întregul proces de simulare și ajustare continuă până probabilitatea maximală de administrare (P(A)) pentru toți itemii atinge valoarea prag dorită (r), memorându-se parametrul de control al expunerii fiecărui item. Nu există însă nicio garanție că valoarea prag va fi atinsă la nivelul tuturor itemilor din banca de itemi, aceasta fiind o limitare serioasă a metodei.
Odată stabiliți parametrii de expunere ai itemilor, utilizarea acestora în vederea selectării următorului item care poate fi administrat este foarte simplă. Algoritmul de selecție a următorului item va returna o listă scurtă și ordonată în funcție de dezirabilitate a itemilor candidați, itemi aflați cel mai aproape de nivelul țintă al factorului latent. Din această listă se alege și se administrează itemul cel mai dezirabil, pe baza parametrului de control al expunerii. După administrarea itemului, se reactualizează parametrul de expunere al acestuia.
Metoda permite un control precis asupra expunerii itemilor, însă implică algoritmi mai complecși de selectare a următorului item din banca de itemi. Dacă banca de itemi este foarte mare, algoritmul de estimare a parametrilor de control a expunerii pentru toți itemii poate fi mare consumator de timp, mai mult, în cazul în care un singur item este eliminat, adăugat sau prezintă modificări ale parametrilor, procesul trebuie reluat. Din acest motiv, metoda prezentată, bazată pe distribuția continuă a nivelurilor factorului latent este rar folosită, preferându-se alte metode derivate și condiționate fie de nivelul țintă al factorului latent , fie condiționată direct de itemi . Aceste metode respectă algoritmul descris, impunând însă o serie de constrângeri, fapt care le face mult mai atractive din punct de vedere practic.
Detectarea paternurilor de răspuns aberant
În comparație cu probele clasice, cele dezvoltate pe baza teoriei răspunsului la item prezintă mijloace statistice foarte puternice de identificare a răspunsurilor dezirabile sau date la întâmplare, prin analiza paternului de răspuns. În ambele categorii de probe se pune problema dacă răspunsurile subiectului reflectă în mod adecvat caracteristicile sale personale. Nu întotdeauna scorurile la o probă psihologică pot caracteriza o persoană, acest lucru fiind determinat de mai multe cauze. Poate cel mai important factor ține de motivație. Administrarea unei probe, fără a exista motivația necesară, poate conduce la răspunsuri insuficient elaborate sau date la întâmplare, din dorința de a vizualiza cât mai repede rezultatele. Supra-motivarea poate fi, și ea, o sursă de erori, favorizând elaborarea de răspunsuri dezirabile sau indezirabile, după caz, mai ales atunci când nu vorbim despre probe de aptitudini. Apare, așadar, problema identificării răspunsurilor aberante, a paternurilor de scoruri ce pot conduce la invalidarea unei evaluări. În cazul teoriei răspunsului la item nu avem în vedere diferitele tipuri de scale de „minciună”, ci procedee statistice de analiză a paternului de răspunsuri, numite și statistici person-fit.
În condițiile unei probe fixe, cu număr prestabilit de itemi, există mai multe tipuri de statistici person-fit, unele bazate pe analiza reziduurilor standardizate, altele pe varianțele funcțiilor logistice probabilistice.
Dacă avem în vedere media pătratelor varianțelor reziduale standardizate, un bun indicator al paternului aberant este dat de relația :
(Relația IV-17)
Valorile ridicate ale acestui indicator sunt caracteristice unui patern aberant, formula fiind foarte ușor de utilizat. Având în vedere faptul că modelele de răspuns la item se bazează pe distribuția logistică, un indicator mai precis al paternului de răspuns aberant poate fi dat de varianțele funcțiilor logistice probabilistice :
(Relația IV-18)
Formula are în vedere diferența dintre funcția logistică probabilistică observată a unui patern de răspuns (l) și funcția logistică probabilistică așteptată pentru paternul de răspuns (E(l)), raportată la varianța acestei funcții (Var(l)). Funcția logistică probabilistică observată poate fi determinată după relația:
(Relația IV-19),
iar funcția logistică probabilistică așteptată și varianța funcției logistice observate sunt date de formulele:
(Relația IV-20)
(Relația IV-21)
Cele două metode descrise funcționează bine atunci când numărul de itemi administrat este fix, însă duc la subestimări ale paternului de răspuns atunci când se folosesc teste CAT, deoarece detectarea paternului de răspuns este sensibilă la lungimea testului, testele lungi având rate de detecție superioare celor scurte. Pe de altă parte, itemii CAT se adaptează nivelului factorului latent, astfel încât este mai dificil de decelat un patern aberant de răspuns de tipul răspunsurilor eronate la itemi „ușori” și răspunsuri corecte la itemi ”grei”. Spre finalul unei probe CAT, nivelul de acoperire în factor latent al itemilor se apropie de nivelul real al factorului latent al persoanelor, sunt selectați itemi cu un nivel de acoperire în factor latent apropiat, ceea ce conduce, din nou, la dificultăți în aprecierea unui patern de răspuns aberant.
În vederea depășirii acestor probleme, au fost puse la punct tehnici bazate pe controlul statistic al procesului, cum ar fi cea a sumelor cumulative (CUSUM) care pot furniza indicatori relevați ai paternului aberant pentru probe auto-adaptive . Nu vom detalia această tehnică, ci ne vom rezuma la a menționa că procedura furnizează un număr de 8 indicatori statici, primii patru evaluând paternurile aberante apărute în timpul efectuării examenului iar ultimii patru fiind destinați ieșirii din test și identificării modalității de răspuns.
Influența modelului de evaluare psihologică asupra preciziei și fiabilității rezultatelor
Scopul și obiectivele cercetării
Sub aspect teoretic, modelele de răspuns la item rezolvă o serie de probleme ale probelor clasice, cum ar fi, spre exemplu, dependența circulară itemi-subiecți, parametrii itemilor fiind independenți sub aspect statistic de eșantionul subiecților, iar dimensiunile măsurate la nivelul subiecților fiind independente de setul de itemi administrați . Alte avantaje ale modelelor de răspuns la item țin de invarianța parametrilor, generând astfel posibilitatea dezvoltării probelor echivalente, rapiditatea evaluării, nefiind necesare teste lungi, egalitatea diferențierii pe diferite zone de acoperire ale factorului latent etc.
În ciuda acestor avantaje, se pune problema comparabilității evaluărilor efectuate cu probe clasice versus probe bazate pe modele de răspuns la item. Din cauza diferențelor conceptuale importante dintre aceste două teorii, nu se poate asigura echivalența absolută a evaluărilor. Relațiile dintre scorurile obținute în urma unei investigații clasice și cele obținute prin evaluare folosind modele de răspuns la item, deși au făcut obiectul a numeroase cercetări, nu sunt încă stabilite în mod clar. Se știe doar că acestea sunt relaționate semnificativ în anumite condiții, însă din punct de vedere empiric nu au fost investigate paternurile relaționale dintre acestea , .
În direcția comparabilității rezultatelor între evaluările clasice și cele bazate pe modele de răspuns la item, au existat cercetări efectuate de Lawson și Xitao folosind scale unidimensionale și modele Rasch respectiv 2PL, probele analizate având specific educațional și vizând sfera aptitudinală. Ambele cercetări indică relații între cele două tipuri de evaluări, rezultatele fiind comparabile.
Plecând de la modelul de cercetare propus de Lawson și dezvoltat de Xitao, ne propunem să construim o replică personalizată a acestuia, folosind nu probe de aptitudini cu specific educațional, ci probe de evaluare a personalității. Astfel, obiectivul general al cercetării este reprezentat de investigarea gradului de comparabilitate dintre evaluările bazate pe modele de răspuns la item și evaluările bazate pe teoria clasică a testului, pentru inventare de personalitate.
Subsumate acestui obiectiv general avem în vedere următoarele obiective specifice:
Analiza unui inventar de personalitate sub aspectul asumpțiilor teoriei răspunsului și item și construcția modelelor de răspuns la item adecvate.
Construirea unui sistem auto-adaptiv sau liniar (cu itemi ficși) de evaluare psihologică pentru diferite dimensiuni ale personalității, pornind de la probe clasice, calibrarea inițială și stabilirea parametrilor itemilor.
Identificarea gradului de comparabilitate între evaluările bazate pe teoria răspunsului la item și cele efectuate folosind teoria clasică a testului.
Identificarea gradului de comparabilitate între parametrii itemilor probelor construite pe baza celor două teorii sub aspectul capacității de diferențiere și al gradului de acoperire în factor latent.
Designul de cercetare
Cercetarea cuprinde două studii distincte. În primul studiu vom analiza instrumentul clasic în scopul asigurării asumpțiilor necesare utilizării modelelor de răspuns la item. Se va proceda la analiza distribuției scorurilor pentru fiecare factor implicat, și, în funcție de specificul acestora, se va decide tipul de analiză folosit. Pe baza variantelor de analiză factorială sau, după caz, prin extragerea componentelor principale se va identifica structura unidimensională a factorilor și vor fi relevate eventualele sub-dimensiuni. Plecând de la aceste informații, se vor alege itemii care urmează să fie introduși în baza de itemi a modelului de răspuns la item. Aceștia vor fi evaluați, prin metode specifice, sub aspectul unidimensionalității (testul Stout și metode Normal Ogive Harmonical Analysis – NOHARM). În ultima etapă, itemii selectați vor fi calibrați în funcție de modelul de răspuns la item adecvat, se va studia gradul de potrivire al modelului și se va analiza independența locală a itemilor, acolo unde va fi necesar.
Al doilea studiu presupune administrarea probelor clasice și a celor bazate pe modele de răspuns la item, la două intervale de timp distincte (după 5 luni), aceluiași lot de cercetare și studiul comparabilității rezultatelor prin analize de tip corelațional și diferențial.
În realizarea cercetării vor fi folosite aplicații software specifice, astfel:
Pentru studiul proprietăților instrumentelor de diagnostic psihologic, analiza distribuțiilor, analizele factoriale și alți indicatori statistici vom utiliza aplicația IBM SPSS for Windows.
Testele de unidimensionalitate și independență locală vor fi efectuate folosindu-se sistemul Psihosoft CATS – Computer Aided Testing System, aceeași aplicație permițând și administrarea probelor IRT.
Calibrarea itemilor și procesul auto-adaptiv vor fi asigurate de sistemul Psihosoft CATS – Computer Aided Testing System, verificarea de siguranță fiind realizată prin intermediul pachetului de aplicații R (pachetele „ltm”, „sirt”, „eRm”, „catR” și „irtoys”.
Analizele specifice celui de-al doilea studiu vor fi realizate prin intermediul aplicației IBM SPSS for Windows.
Ipotezele cercetării
Ipoteza nulă a cercetării este următoarea:
H0: Nu există nicio legătură între rezultatele obținute în urma administrării probelor clasice și rezultatele obținute în urma administrării probelor bazate pe modele de răspuns la item.
Respingerea ipotezei nule la un prag de semnificație p<0,05 poate conduce la susținerea următoarelor ipoteze alternative:
H1: Există o legătură semnificativă între rezultatele obținute în urma administrării probelor clasice și rezultatele obținute în urma administrării probelor bazate pe modele de răspuns la item.
H2: Există o diferență semnificativă între capacitatea de discriminare a itemilor construiți pe baza teoriei clasice și a celor construiți în baza teoriei răspunsului la item.
H3: Există o diferență semnificativă între gradul de acoperire al factorului latent al itemilor construiți pe baza teoriei clasice și al celor construiți în baza teoriei răspunsului la item.
Planul cercetării
Primul studiu nu implică un plan de cercetare distinct. Vom aborda procedeele clasice de analiză a proprietăților psihometrice ale unui instrument de evaluare psihologică. Analiza distribuțiilor dimensiunilor și factorilor va indica tendința globală de răspuns a subiecților și va trasa liniile directoare ale analizelor de date ulterioare. Consistența scalară va permite identificarea relațiilor dintre itemi și scale semnalând eventualii itemi problematici. Deoarece ne aflăm deja în fața unor itemi care corespund unui model teoretic, vom apela la extragerea componentelor principale pentru a releva structura dimensională a setului de itemi.
Această structură dimensională va fi apoi testată folosind procedee specifice teoriei răspunsului la item, cu ajutorul testului t Stout și a metodelor NOHARM. După alegerea modelului de răspuns, se va verifica adecvarea modelului și se vor estima parametrii. În final, se va proceda la investigarea independenței locale, folosindu-se testul Yen Q3, în cazul în care acest lucru va fi necesar.
Al doilea studiu presupune un design corelațional, mai multe planuri de tip diferențial precum și metode regresive liniare și neliniare. Pentru a stabili legătura între rezultatele obținute la probele clasice și cele obținute la modelele de răspuns la item, conform primei ipoteze de cercetare, va trebui să definim operațional aceste concepte. Prin rezultate obținute vom înțelege scorurile brute obținute de către subiecți pentru fiecare scală în cazul testelor clasice și nivelul factorului latent în cazul modelelor de răspuns la item. Deoarece nivelul factorului latent poate fi asimilat și ajustat unei distribuții z, prin conversie în scala probiților, nu rămâne decât transformarea scorurilor brute în scoruri z și studiul legăturii dintre scorurile z ale subiecților în momentul administrării unei probe clasice și nivelul factorului latent în cazul administrării probelor construite după modele de răspuns la item. Așadar, analiza primei ipoteze de cercetare se va realiza printr-un design corelațional simplu, prin tehnici regresiv-estimative ale curbei și printr-un design diferențial de bază.
În cazul celei de-a doua ipoteze, itemii de personalitate folosiți în proba clasică au un caracter dihotomic, răspunsul activ indicând prezența factorului latent la nivelul subiectului. Capacitatea de discriminare a unui item reprezintă expresia unei corelații punct biserială a itemului cu scorul total la nivelul scalei. Adaptarea pentru modele de răspuns la item conduce la discriminări care, teoretic, urmează o distribuție cuprinsă între 0 și +∞. Pentru a putea compara un coeficient de corelație de tip Pearson cu parametrul de discriminare a modelelor de răspuns la item, va fi necesară convertirea coeficientului de corelație punct biserială în transformare logistice, folosindu-se transformarea Fisher, după expresia:
(Relația V-1)
Astfel, atât coeficienții de corelație punct biserială, cât și valorile parametrilor de discriminare ai itemilor, vor fi aduși la același numitor comun, permițând comparația valorilor în baza unor teste de diferență semnificativă pentru eșantioane perechi. În plus, există și posibilitatea estimării erorii standard a acestei transformări în baza relației:
(Relația V-2)
Această ipoteză implică un design cu măsurări repetate pentru eșantioane perechi cu investigarea păstrării ierarhiei precum și procedee de regresie-estimare, liniare și neliniare.
Ipoteza a treia urmărește identificarea unei diferențe semnificative între parametrii de acoperire a factorului latent (b) în cazul modelelor de răspuns la item și indicatorii echivalenți pentru probele clasice. În ultima situație, plecând de la ipoteza unor item valizi și fideli, proporția răspunsurilor active poate reprezenta un indicator al nivelului de acoperire în factor latent. Dacă răspunsul activ este ales de puțini subiecți, atunci înseamnă că nivelul factorului latent va trebui să fie foarte ridicat, reciproca fiind de asemenea valabilă. Problema conversiei acestei ponderi în unități z, astfel încât să aibă sens comparația cu parametrul de acoperire în factor latent întâlnit în modelele de răspuns la item va fi rezolvată prin transformarea proporțiilor de răspuns activ în cotele z corespunzătoare, pe baza caracteristicilor distribuției normale, rezultând astfel valori ogivale pe o scală în probiți. Nivelurile de acoperire în factor latent sunt exprimate pe o scală în logiți, transformarea acesteia într-una în probiți făcându-se prin înmulțirea cu valoarea 1,702. Astfel, datele sunt aduse la un numitor comun și sunt permise comparații. Designul de cercetare în cazul acestei ipoteze este identic cu cel folosit în ipoteza anterioară.
Lotul de cercetare. Caracteristici și selecție
Loturile de cercetare au caracteristici și volume specifice, în funcție de tipul de plan de cercetare. În cazul primului studiu, lotul de cercetare va fi adecvat etapelor de analiză a instrumentului. Fiind vorba despre tehnici bazate pe analiza factorială și luând în considerare raportul de 1:20 stipulat de asumpțiile analizei factoriale parametrice, putem concluziona că procesarea datelor se poate face la trei niveluri: (a) la nivelul factorilor există un număr de 8 itemi. Pentru a studia unidimensionalitatea factorilor prin analiza factorială, numărul minim de subiecți va fi de 8×20=160 de persoane. (b) la nivelul dimensiunilor există șase factori, fiecare factor fiind reprezentat de 8 itemi. Așadar, o dimensiune este măsurată cu ajutorul unui număr de 48 de itemi. În acest caz, vom avea nevoie de 48×20=960 de subiecți. (c) structura factorială a întregului instrument, format dintr-un număr de 240 de itemi, impune un număr de 240×20=4800 de subiecți pentru a putea fi construit un model valid.
Este puțin probabil să putem realiza un studiu la nivelul întregului instrument. Pare mult mai rezonabilă analiza dimensionalității și a structurii dimensiunilor principale.
Estimarea parametrilor itemului și evaluarea gradului de adecvare a modelului de măsurare presupune existența unui număr de minimum 500 de subiecți, literatura de specialitate vorbind de estimări adecvate la volume de peste o mie de persoane. Subiecții pot fi aceleași persoane evaluate în vederea studiului instrumentului clasic, deoarece măsurarea are în vedere modele diferite. În ultimă instanță, nerealizarea numărului necesar de subiecți poate determina necesitatea utilizării unor date simulate pornind de la datele reale.
Al doilea studiu impune caracteristici speciale la nivelul lotului de cercetare, având în vedere utilizarea unui număr de minimum 300 de subiecți. Nu vom folosi un lot de control, acesta constituind și o limită a cercetării. Subiecții vor fi evaluați cu proba clasică și cu itemii construiți pe baza unui model de răspuns la item. După evaluarea cu proba clasică, pentru fiecare dintre cei 30 de factori, subiecții vor fi ierarhizați în funcție de scorul total obținut și atribuiți în grupe de cercetare pe baza acestei ierarhizări, rezultând un design de cercetare pe blocuri și controlându-se astfel efectul determinat de nivelul de acoperire în factor latent. Fiecare grup de cercetare va avea subiecți cu niveluri ale factorului latent reduse, medii și ridicate, sub acest aspect grupele fiind omogene.
Planurile de cercetare diferă în funcție de ipoteza studiată. Astfel, în cazul primei ipoteze avem un design de cercetare corelațional, simplu. Variabilele sunt reprezentate de nivelul factorului latent în cazul itemilor IRT și cotele z ale scorului total pe factor în cazul itemilor clasici. Studiul corelației bivariate între aceste două variabile va arăta comparabilitatea evaluărilor bazate pe teoria răspunsului la item cu cele efectuate prin teoria clasică a testului. Analizele vor fi dublate de metode regresiv-estimative.
A doua ipoteză implică un design de cercetare cu măsurări repetate. Variabilele dependente sunt reprezentate de cotele z ale coeficientului de corelație punct biserială în cazul itemilor clasici și parametrul de discriminare în cazul modelelor de răspuns la item. Proiectarea acestui design implică mai multe etape: (a) fiecare subiect va fi evaluat cu un item clasic și cu varianta acestuia de răspuns la item; (b) se va calcula scorul brut total pentru fiecare factor la nivelul fiecărui subiect în cazul itemilor clasici; (c) se va calcula coeficientul de corelație punct biserială între item și scorul total; (d) coeficientul de corelație punct biserială se va transforma în cota z corespunzătoare pentru fiecare item în cazul probei clasice; (e) vor fi înregistrate cele două variabile la nivelul fiecărui item și vom efectua teste de diferență între medii pentru eșantioane perechi, parametrice sau neparametrice, în funcție de modul de distribuție a variabilelor dependente.
A treia ipoteză presupune un design similar cu prima ipoteză, doar că vom avea în vedere nu discriminarea itemilor, ci nivelul de acoperire în factor latent.
Nu avem pretenția unor analize inferențiale, așadar nu vom folosi eșantioane, ci doar loturi de cercetare. Studiul nu va cuprinde elemente care să conducă spre ideea de eșantion și nu va avea pretenții de generalizare la nivelul populației.
Instrumentele cercetării
Cercetarea s-a bazat pe un singur instrument de diagnostic psihologic, acesta fiind selectat pentru a ilustra în mod relevant posibilitatea modelării răspunsului la item în cazul inventarelor de personalitate. Inventarul de personalitate BigFive Plus (Ticu Constantin și alții) are la bază teoria lui Costa și McCrae și reprezintă o probă destinată evaluării unui număr de 5 dimensiuni ale personalității, fiecare dimensiune având în componență un număr de 6 factor (fațete), iar fiecare factor este măsurat printr-un număr de 8 itemi dihotomici. Rezultă un inventar complex, format din 240 de itemi dihotomici, perfect adecvați modelelor dihotomice unidimensionale de răspuns la item.
Costa și McCrae discută despre cele cinci dimensiuni ale personalității ca despre dispoziții cauzale, teoria lor fiind predominat empirică . Ei disting între tendințele bazale și caracteristicile adaptive ale persoanelor, trăsăturile de personalitate fiind considerate ca tendințe bazale, vizând potențialul individului, iar atitudinile, rolurile, relațiile și obiectivele sunt caracteristici adaptive ce reflectă interacțiunea dintre tendințele bazale și mediu .
Conform definițiilor operaționale furnizate de autori, instrumentul evaluează un număr de 5 dimensiuni principale, fiecare dintre aceste dimensiuni având în vedere șase factori sau fațete .
Extraversiunea – se referă la angajarea în activitățile lumii exterioare. Extravertiții se bucură de compania celorlalți, sunt plini de energie și au deseori trăiri emoționale pozitive. Tind să fie entuziaști, orientați spre acțiune, care profită de ocazie. În grupuri le place să discute, să se facă auziți și să atragă atenția asupra lor. Introvertiților le lipsește exuberanța, energia și nivelul activismului. Tind să fie tăcuți, să delibereze și să nu se implice în lumea exterioară. Le lipsește implicarea socială, având nevoie de mai puțină stimulare externă decât extrovertiții și preferând să fie singuri. Principalele fațetele ale extraversiunii, în definirea dată de Goldberg, și Johnson (2005) sunt afectivitatea, sociabilitatea, asertivitatea, nivelul de activism, excitabilitatea și veselia.
Agreabilitatea – vizează caracteristicile personale care țin de cooperare și armonie socială. Agreabilitatea ridicată caracterizează indivizii care pun valoare pe înțelegerea cu cei din jur. Sunt persoane amabile, prietenoase, generoase, dispuse să facă compromisuri pentru a-i ajuta pe alții. Au o viziune optimistă asupra naturii umane, considerând că oamenii sunt din principiu onești, decenți și demni de încredere. Scoruri mici la agreabilitate obțin indivizii care pun interesul propriu mai presus de orice și care nu pun mare preț pe sentimentele și bunăstarea altora. Uneori scepticismul lor cu privire la cei din jur îi determină să fie suspicioși, neprietenoși și necooperanți. În acest caz, cele 6 fațete ale agregabilității sunt: încrederea, simțul moral, altruismul, cooperarea, modestia și compasiunea.
Nevrozismul – este descris ca fiind tendința de a avea trăiri emoționale negative, cum ar fi: anxietatea, furia, depresia. Scorurile mari la nevrozism descriu indivizi care reacționează emoțional foarte ușor, trăind intens evenimente care pe alți oameni nu îi afectează. Au tendința de a interpreta situațiile obișnuite ca fiind amenințătoare și de a transforma frustrările în dificultăți fără scăpare. Reacțiile lor emoționale tind să persiste pe perioade lungi de timp, ceea ce înseamnă că se află deseori într-o „pasă proastă”. Dificultățile de control ale emoțiilor pot duce la afectarea abilității de gândire, de a lua decizii sau de a face față stresului. Indivizii cu un nivel scăzut de nevrozism sunt mai greu de supărat și nu sunt atât de reactivi din punct de vedere emoțional. Tind să fie calmi, stabili emoțional și nu au stări afective negative persistente. Principalele fațete ale nevrozismului sunt: anxietatea, furia, depresia, timiditatea, exagerarea și vulnerabilitatea.
Conștiinciozitatea – se referă la modul în care individul controlează, reglează și direcționează impulsurile. Scorurile mari definesc indivizii care evită situațiile riscante și care prin planificare și persistență în sarcină ajung să aibă succes în ceea ce întreprind. În general sunt priviți de cei din jur ca fiind inteligenți și sunt considerați oameni pe care te poți baza. În extrema negativă, acești indivizi pot fi perfecționiști compulsivi și pot ajunge „workaholici”, fiind priviți de cei din jur ca închiși și plictisitori. Scorurile mici la factorul conștiinciozitate vizează indivizii care ar putea fi criticați pentru că nu sunt demni de încredere, că le lipsește ambiția și că nu pot urma anumite limite impuse. Totuși, acești indivizi sunt cei care trăiesc numeroase momente plăcute și relaxante, chiar dacă de scurtă durată. În cadrul acestei dimensiuni sunt definiți ca factori/fațete: sentimentul eficienței personale, ordinea și planificarea, rigiditatea morală, nevoia de realizare și perseverența.
Deschiderea – descrie o dimensiune a stilului cognitiv care distinge între indivizii imaginativi, creativi și indivizii realiști, convenționali. Scoruri mari obțin indivizii curioși, care apreciază arta și care sunt sensibili la frumos. Aceștia tind să fie mai conștienți de emoțiile lor. Tind să gândească și să acționeze în moduri individualiste și nonconformiste. Le este ușor să opereze cu simboluri și noțiuni abstracte, îndepărtându-se se experiența concretă. Indivizii cu scoruri mici au interese înguste, comune. Preferă simplitatea și directivitatea complexului, ambiguității și subtilului. Ar putea privi arta și știința cu suspiciune atunci când nu îi văd utilitatea. Preferă familiaritatea în locul noutății și sunt conservatori și rezistenți la schimbare. În acest caz, principalele fațete ale deschiderii sunt: imaginația, interesul artistic, emoționalitatea, spiritul aventurier, intelectul și liberalismul.
După autorii probei , construcția chestionarului BigFive Plus a început în toamna anului 2006 pornind de la modelul lui Goldberg , adecvând pertinența descrierilor în limba română. Itemii au fost generați în panel pentru fiecare fațetă a dimensiunilor. Numărul inițial de itemi a fost de peste 200 pentru fiecare dimensiune, prima formă conținând circa 60 de itemi la nivel de dimensiune, 10 pentru fiecare factor. Varianta inițială supusă pretestării a fost formată din 306 itemi, câte 60 de itemi pentru fiecare dimensiune, la care s-au adăugat 6 itemi suplimentari pentru un factor ulterior eliminat. Analiza consistenței interne a condus la indicatori buni pentru cele 5 dimensiuni , rafinarea instrumentului conducând către ideea reducerii numărului de itemi la 30 pentru fiecare dimensiune.
În vederea optimizării itemilor, s-a procedat la reformulări și eliminări ale acestora, adecvându-se conținutul la gradul de înțelegere al populației generale. Eșantioanele de comportamente au fost condensate, ajungându-se la varianta actuală cu 240 itemi, fiecare factor fiind reprezentat de 8 itemi. Aceasta este forma pe care o vom utiliza în studiul nostru.
Cercetările preliminare efectuate, inclusiv folosind varianta computerizată clasică realizată sub modelul Psihosoft CATS, indică o bună validitate ecologică, un conținut adecvat și o reprezentativitate generală a comportamentelor pentru populația românească, recomandând instrumentul în scopuri de cercetare și, cu anumite limitări, și în cele diagnostice.
Din motive care țin de respectarea asumpțiilor de bază ale modelelor de răspuns la item, am efectuat propriile noastre studii de validitate a itemilor în vederea reținerii doar a itemilor adecvați pentru includerea în baza de itemi a testelor auto-adaptive. În privința estimării domeniului factorului latent acoperit de fiecare item, presupunem că pentru o variantă adaptivă a probei va fi necesară completarea numărului de item sau revenirea la formele anterioare în condițiile în care proprietățile psihometrice vor fi adecvate.
Metode de analiză a datelor
Metodele de analiză ale datelor utilizate sunt adecvate domeniului de construcție a probelor psihologice și de adaptare pentru teoria răspunsului la item.
Într-o primă etapă, vom proceda la analiza normalității distribuțiilor factorilor și dimensiunilor și la caracterizarea univariată a acestor variabile. Etapa este absolut necesară din mai multe motive: (a) asumpțiile tehnicilor parametrice pe care intenționăm să le utilizăm postulează, aproape invariabil, distribuiții normale. În funcție de tipul distribuțiilor vom putea decide nivelul de analiză utilizat; (b) vom putea oferi explicații legate de comportamentul variabilelor care poate fi determinat de specificul lotului de cercetare și/sau de caracterul intrinsec al constructului; (c) vom vedea dacă deviațiile de la normalitate sunt cauzate de probleme la nivelul lotului de cercetare, de caracteristici ale itemilor sau de constructe deplasate natural, în sensul probelor direcționate.
Analiza consistenței interne a instrumentului va fi realizată în vederea luării unei decizii de includere a itemilor în analiza factorială. Vom aborda consistența internă a factorilor și a dimensiunilor, furnizând totodată indicatori relevanți asupra fidelității.
Analiza componentelor principale vizează un studiu inițial al dimensionalității și va fi realizată la nivelul factorilor și la nivelul dimensiunilor. Nu vom putea efectua o analiză a întregului chestionar, numărul subiecților necesari fiind foarte mare. În funcție de îndeplinirea asumpțiilor vom opta pentru o extragere a componentelor principale folosind date categoriale sau date scalare. La nivelul factorilor vom pleca de la ipoteza unidimensionalității, eventualele dimensiuni secundare rezultate nefiind corelate între ele, prin urmare vom folosi o rotație ortogonală, iar la nivelul dimensiunilor ipoteza postulează existența unor factori corelați, prin urmare vom folosi o rotație oblică în situația în care există prezumpția analizei componentelor principale pe baza unor date scalare.
Unidimensionalitatea va fi studiată prin două metode – testul t Stout al unidimensionalității esențiale și metoda NOHARM adecvată, accentuându-se asupra concordanței indicatorilor. În cazul în care există suspiciuni privind încălcarea asumpției independenței locale, vom utiliza și testul Yen Q3.
Alegerea modelului de măsurare conduce, după specificul itemilor, către un model unidimensional de tip 3PL, itemii fiind dihotomici, cel puțin la nivel teoretic. Adecvarea datelor la modelul de măsurare se va studia folosindu-se indicatorii goodness-of-fit bazați pe distribuția χ2 sau folosind raportul de probabilitate (likelihood ratio).
Calibrarea inițială a itemilor se va realiza în funcție de modelul de măsurare validat, folosindu-se tehnici consacrate de tip log-likelihood, bazate pe analiza paternurilor de răspuns la nivelul factorului, unitatea de bază fiind, evident, factorul latent. Vor fi estimați cei trei parametri, gradul de acoperire în factor latent (b), discriminarea (a) și probabilitatea de răspuns la întâmplare (c).
În vederea uniformizării comparațiilor și a corelațiilor, vom efectua operațiuni preliminare de normalizare, convertind coeficienții de corelație punct biserială în scoruri z pe baza transformării Fisher și, direct, ponderile răspunsului activ în scoruri z pe baza caracteristicilor curbei normale.
Studiile corelaționale vor fi realizate, în funcție de normalitatea distribuției datelor, folosindu-se coeficientul de corelație r Bravais-Pearson sau coeficientul de corelație ρ Spearman, echivalentul neparametric al primului.
Analiza diferențelor va fi realizată folosind testul t Student pentru eșantioane perechi sau testul neparametric Wilcoxon, în funcție de distribuția datelor și de omogenitatea varianțelor.
Analizele de tip regresie-estimare se vor realiza pe baza metodelor de compatibilitate a datelor observate cu un model de distribuție teoretică (Curve estimation), având în vedere modelele liniar, logaritmic, inversat, cvadratic, cubic, putere, compus, S, logistic, crescător și exponențial. Aceste tehnici fac parte din categoria metodelor de regresie liniară și neliniară.
Primul studiu – Analiza inventarului de personalitate BigFive Plus, verificarea asumpțiilor, alegerea modelului de măsură și calibrarea itemilor
Primul studiu vizează analiza structurii instrumentului BigFive Plus în vederea asigurării asumpțiilor necesare modelării pe baza teoriei răspunsului la item, precum și investigarea modelului. În final, vom proceda la evaluarea parametrilor modelului. Etapele principale sunt reprezentate de: (a) prezentarea lotului de cercetare; (b) analiza univariată a distribuțiilor; (c) analiza consistenței scalelor; (d) analiza structurii factoriale; (e) confirmarea modelului teoretic; (f) investigarea unidimensionalității; (g) estimarea parametrilor și investigarea adecvării modelului de măsură; (h) prezentarea itemilor.
Lotul de cercetare
Lotul de cercetare a cuprins un număr de 4647 de evaluări, colectate atât prin administrare clasică, cât și computerizată a inventarului de personalitate BigFive Plus, folosindu-se diferite categorii profesionale. Baza de date nu are caracteristicile unui eșantion, neputând vorbi despre reprezentativitate, informațiile fiind culese din mediul academic, din rândul angajaților unor instituții mulitarizate precum și din cadrul diferitelor licee sau societăți private. Am reținut spre analiză un număr de 3 variabile demografice – vârsta, studiile și genul biologic – considerate esențiale în vederea descrierii lotului de cercetare.
Tabel V-1 Structura lotului de cercetare sub aspectul vârstei
Sub aspectul vârstei, subiecții se situează între 14 și 77 ani, distribuția având o amplitudine mare (63 de ani), cu o medie de vârstă de 33 de ani și o abatere standard de 9,72 ani. Eroarea standard a mediei de vârstă este de 0,14 ani, iar mediana și modul au valori egale, 33 de ani. Sub aspectul simetriei, distribuția este asimetrică la dreapta (Skewness=0,69; Eroarea standard Skewness=0,037), predominând persoanele tinere și leptocurtică (Kurtosis=0,51; Eroarea standard Kurtosis=0,075), variabilitatea vârstei fiind redusă în jurul tendinței centrale. Așadar, distribuția nu este una normală sub aspectul acestei variabile, fapt remarcat și din testele de normalitate (K-S(4297)=0,064; p<0,01).
Tabel V-2 Distribuția subiecților după variabila „Gen biologic”
Având în vedere aceste elemente, considerăm că lotul de cercetare reprezintă foarte bine persoanele între 20 și 50 de ani, fapt absolut normal dacă vom lua în considerare populația la care s-a avut acces.
Din punct de vedere al genului biologic, lotul de cercetare este format din 2958 bărbați (64,7%) și 1613 femei (35,3%), existând, și în acest caz, un număr de 76 de subiecți (1,6%) pentru care s-a omis marcarea genului biologic. Lotul de cercetare este bine echilibrat sub acest aspect, variabila „Gen biologic”.
Tabel V-3 Distribuția subiecților după variabila „Studii”
Ultima variabilă demografică analizată se referă la studiile subiecților. Observăm că cei mai mulți subiecți au absolvit liceul – 2581 subiecți (56,4%) și cel puțin o formă de învățământ superior – 1537 subiecți (33,6%). Doar 260 de subiecți (5,7%) au la bază studiile gimnaziale și 198 subiecți (4,3%) sunt absolvenți de studii postuniversitare (masterat sau doctorat).
Analize univariate de normalitate a distribuției
Înainte de studiul itemilor am inițiat analiza univariată a dimensiunilor și a factorilor inventarului BigFive Plus, cunoscându-se faptul că prelucrările ulterioare de date implică respectarea asumpțiilor legate de simetrie și homoscedasticitate. Analizele univariate implică verificarea distribuțiilor pentru toate cele cinci dimensiuni și pentru toți cei 30 de factori asociați acestora. Reprezentările grafice ale distribuțiilor sunt incluse în anexele documentului (Anexa 2).
Dimensiunea „Extraversiune”
Factorul „Afectivitate”
Există un număr de 4621 de date valabile pentru acest factor, 26 de subiecți omițând să răspundă la cel puțin unul dintre itemii componenți. Amplitudinea scorurilor este de 8 puncte, situată între un minimum 0 și maximum 8 puncte. Media scalei este de 4,49 puncte, cu o eroare standard de 0,025 puncte și o abatere standard de 1,69 puncte, iar mediana și modul sunt situate la valoarea de 5 puncte pe scala „Afectivitate”. Distribuția este asimetrică la stânga (Skewness=-0,309; Eroarea standard Skewness=0,036) cu tendințe către valori mari pe scală și platicurtică (Kurtosis=-0,558; Eroarea standard Kurtosis=0,072), indicând o variabilitate ușor crescută a scorurilor.
Tabel V-4 Distribuția scorurilor pentru factorii dimensiunii „Extraversiune”
Conform testelor de normalitate, în cazul acestui factor nu putem vorbi despre o distribuție normală (K-S(4441)=0,145; p<0,01). Se poate constata o supraestimare a scorurilor mari (vezi Anexa 2). Subiecții care obțin scoruri foarte mari tind să se abată semnificativ de la comportamentul majorității persoanelor care răspund la acest factor. În general, pentru scorurile medii se păstrează normalitatea distribuției, probleme apărând doar în cazul scorurilor mari. Din acest motiv, rezultatele generate în urma analizei variabilei „Afectivitate” vor fi tratate cu prudență, în special atunci când ne vom referi la scoruri mari.
Factorul „Sociabilitate”
În cazul acestui factor, constatăm existența unui număr de 4599 de date valide, în timp ce un număr de 48 de persoane nu au furnizat răspunsuri la cel puțin un item al scalei. Media scorurilor este de 4,17, cu o eroare standard de 0,029 și o abatere standard de 1,97 puncte pe scală, mediana fiind situată la 4 puncte iar modul la 5 puncte. Distribuția este ușor asimetrică la stânga, cu tendințe către scoruri ridicate (Skewness=-0,183; Eroarea standard Skewness=0,036) și, de asemenea, platicurtică (Kurtosis=-0,993; Eroarea standard Kurtosis=0,072). Testele de normalitate confirmă această supoziție (K-S(4441)=0,13; p<0,01), prin urmare nu putem considera distribuția scorurilor factorului „Sociabilitate” ca fiind o distribuție normală. Se pot constata tendințe de supraestimare a scorurilor pentru valori mari, dar și de subestimare a acestora în cazul valorilor mici (vezi Anexa 2). Normalitatea se păstrează totuși la niveluri medii ale scorurilor pentru această scală.
Factorul „Asertivitate”
Există, la acest nivel, un număr de 4579 de date valide și 68 de date pentru care nu există toate răspunsurile necesare estimării. Media acestei scale este de 4,08 puncte, cu o eroare standard de 0,032 puncte și o abatere standard de 2,15 puncte. Mediana și modul au valoarea 4 în cazul ambilor indicatori. Distribuția scorurilor pentru scala „Asertivitate” este una simetrică (Skewness=-0,056; Eroarea standard Skewness=0,036), însă platicurtică (Kurtosis=-0,896; Eroarea standard Kurtosis=0,072), neputând fi asimilată unei distribuții normale, așa cum reiese și din testele de normalitate (K-S(4441)=0,104).
Într-adevăr, analizând graficul din anexa 2, constatăm că problemele de normalitate nu țin de simetrie, nu există supraestimări sau subestimări relevante, însă dificultatea apare la nivelul variabilității scorurilor, indicatorul de boltire arătând o distribuție eterogenă în jurul tendinței centrale.
Factorul „Activitate”
Acest factor prezintă un număr de 4606 de cazuri valide și doar 41 de date pentru care lipsesc informații în vederea unei analize pertinente. Media scalei este de 4,75 puncte, cu o eroare standard de 0,03 puncte și o abatere standard de 2,01 puncte. Mediana și modul au, ambele, aceeași valoare, 5 puncte pe scală. Distribuția este asimetrică la stânga, având tendințe către scoruri mari (Skewness=-0,308; Eroarea standard Skewness=0,036) și, de asemenea, platicurtică (Kurtosis=-0,603; Eroarea standard Kurtosis=0,072).
Testele de normalitate susțin indicatorii de simetrie și boltire (K-S(4441)=0,12; p<0,01), prin urmare distribuția scorurilor scalei „Activitate” nu poate fi considerată una normală. Se poate observa apariția unor tendințe de supraestimare a scorurilor, atât în cazul subiecților care obțin valori mici, cât și în cazul celor care obțin valori mari. Există posibilitatea prezenței unei tendințe de fațadă la răspunsurile pe această scală, în sensul exagerării nivelului de activism (vezi Anexa 2).
Factorul „Excitabilitate”
Factorul „Excitabilitate” prezintă un număr de 4597 de date valide și 50 de date nevalide, la care lipsește răspunsul la cel puțin un item din componența acestuia. Media scalei este de 4,07 puncte, cu o eroare standard a mediei de 0,032 puncte și o abatere standard de 2,18 puncte. Mediana este situată la 4 puncte, iar modul are valoarea de 5 puncte. Distribuția este una simetrică (Skewness=-0,005; Eroarea standard Skewness=0,036) și platicurtică, cu o variabilitate ridicată a scorurilor în jurul tendinței centrale (Kurtosis=-0,959; Eroarea standard Kurtosis=0,072). Deși este simetrică, distribuția nu este una normală, așa cum prezintă și testele de normalitate (K-S(4441)=0,107; p<0,01).
Analiza arată, într-adevăr, problemele legate de variabilitatea ridicată a scorurilor, cu toate că nu remarcăm tendințe de supraestimare sau de subestimare ale acestora.
Factorul „Veselie”
Ultimul factor al acestei dimensiuni a fost analizat pe baza unui număr de 4594 de date valide și 53 de omisiuni. Media scalei este de 4,33 puncte cu o eroare standard a mediei de 0,033 puncte și o abatere standard de 2,20 puncte pe scală. Mediana este situată la 6 puncte, iar modul indică 6 puncte.
Distribuția este asimetrică la stânga, cu tendințe către scoruri ridicate (Skewness=-0,118; Eroarea standard Skewness=-0,036) și, de asemenea, platicurtică, cu o variabilitate ridicată a scorurilor în jurul tendinței centrale (Kurtosis=-0,983; Eroarea standard Kurtosis=0,072).
Testele de normalitate a distribuției indică o distribuție care se abate semnificativ de la distribuția normală (K-S(4441)=0,121; p<0,01), analiza identificând și sensul acestor diferențe (vezi graficele din Anexa 2).
Dimensiunea „Extraversiune”
La nivel general, analiza dimensiunii „Extraversiune” s-a realizat pe baza unui număr de 4441 de date valide, un număr de 206 subiecți neacordând răspunsuri la cel puțin un item dintre cei care compun scala. Amplitudinea dimensiunii este de 44 de puncte, fiind situată între valoarea minimă 2 și valoarea maximă 46. Media scalei este de 25,89 puncte, cu o eroare standard a mediei de 0,13 puncte și o abatere standard de 9,14 puncte. Mediana este situată în dreptul valorii de 26 puncte, iar modul are valoarea de 27 puncte. Din punctul de vedere al indicatorilor de simetrie și boltire, distribuția este asimetrică la stânga (Skewness=-0,118; Eroarea standard Skewness=0,037), cu tendințe către valori mari și platicurtică (Kurtosis=-0,56; Eroarea standard Kurtosis=0,073) având o variabilitate mare a scorurilor.
Testele de normalitate arată o distribuție care nu este asimilată uneia normală (K-S(4441)=0,037; p<0,01), analiza indicând o relație monotonă, crescătoare, însă neliniară între scorurile observate și estimarea valorilor normal așteptate.
În concluzie, nici dimensiunea „Extraversiune” și nici factorii acestei dimensiuni nu au o distribuție normală. „Afectivitatea” este asimetrică și platicurtică, „Sociabilitatea” este asimetrică și platicurtică, „Asertivitatea” are doar un caracter platicurtic, „Activitatea” nu este simetrică și se prezintă ca o distribuție plată, „Excitabilitatea” este simetrică, însă platicurtică, iar „Veselia” se prezintă ca o distribuție atât asimetrică, cât și platicurtică. Chiar dimensiunea generală „Extraversiune” încalcă postulatele distribuției normale, fiind asimetrică la stânga și platicurtică.
Dimensiunea ”Agreabilitate”
Tabel V-5 Distribuția scorurilor pentru factorii dimensiunii „Agreabilitate”
Factorul „Încredere”
Factorul „Încredere” primește răspunsuri de la un număr de 4606 subiecți, în timp ce 41 de subiecți nu răspund la cel puțin unul dintre itemii componenți ai acestuia. Media este de 4,19 puncte cu o eroare standard a mediei de 0,03 puncte și o abatere standard de 2,04 puncte. Mediana și modul au aceeași valoare, 4 puncte. Din punctul de vedere al simetriei, distribuția este simetrică (Skewness=0,001; Eroarea standard Skewness=0,036) și platicurtică (Kurtosis=-0,806; Eroarea standard Kurtosis=0,072) cu o variabilitate mare a scorurilor în jurul tendinței centrale.
Lipsa de normalitate a distribuției se poate observa și din rezultatele testelor de normalitate (K-S(4463)=0,107; p<0,01).
Factorul „Moralitate”
Factorul „Moralitate” prezintă un număr de 4618 date valide, 29 de subiecți neacordând răspunsuri la cel puțin unul dintre itemii acestui factor. Media scalei este de 4,60 cu o eroare standard a mediei de 0,027 și o abatere standard de 1,83. Mediana are valoarea 5 iar categoria cu frecvența maximală este 6.
Indicatorii simetriei arată o distribuție asimetrică la stânga, cu tendință către valori ridicate (Skewness=-0,371, Eroarea standard Skewness=0,036), iar cei ai boltirii conduc către o distribuție platicurtică (Kurtosis=-0,477; Eroarea standard Kurtosis=0,072), cu o variabilitate semnificativ ridicată.
Testele de normalitate susțin lipsa de normalitate a distribuției (K-S(4463)=0,146; p<0,01), iar graficul din anexa 2 indică tendințele către scoruri ridicate.
Factorul „Altruism”
Conține un număr de 4593 de date valide și 54 de subiecți pentru care nu s-au putut calcula indicatorii din cauza lipsei răspunsului la cel puțin un item. Media scalei este de 4,84 puncte cu o eroare standard a mediei de 0,029 puncte și o abatere standard de 1,93 puncte. Mediana are valoarea 5, iar modul se situează la valoarea 6 a scalei.
Distribuția este asimetrică la stânga, scorurile având tendința de a se deplasa către valori mari (Skewness=-0,275; Eroarea standard Skewness=0,036) și platicurtică (Kurtosis=-0,579; Eroarea standard Kurtosis=0,072).
Testele de normalitate susțin indicatorii de simetrie și boltire, distribuția datelor în cazul factorului „Altruism” nu este o distribuție normală (K-S(4463)=0,128; p<0,01).
Factorul „Cooperare”
Factorul „Cooperare” conține un număr de 4580 date valide și 67 de rezultate care nu pot fi procesate. Media scalei este de 4,72 puncte cu o eroare standard de 0,029 și abaterea standard de 1,93. Mediana și modul au aceeași valoare, 5 puncte pe scală.
Distribuția este asimetrică la stânga, cu tendință către scoruri mari (Skewness=-0,271; Eroarea standard Skewness=0,036) și platicurtică (Kurtosis=-0,586; Eroarea standard Kurtosis=0,072) cu o mare variabilitate în jurul tendinței centrale.
Testele de normalitate și graficul din anexa 2 arată că distribuția scorurilor la factorul „Cooperare” nu este o distribuție normală (K-S(4463)=0,124; p<0,01).
Factorul „Modestie”
Conține un număr de 4579 de date valide și 68 de persoane care nu au răspuns la cel puțin un item al acestei scale. Media scalei este de 3,92 puncte cu o eroare standard a mediei de 0,029 puncte și o abatere standard de 1,93 puncte. Mediana și modul au aceeași valoare, situată la 4 puncte pe scală.
Distribuția este asimetrică la dreapta, cu tendință către scoruri mici (Skewness=0,11; Eroarea standard Skewness=0,036) și cu o variabilitate mare a scorurilor în jurul tendinței centrale (Kurtosis=-0,649; Eroarea standard Kurtosis=0,072).
Testele de normalitate arată lipsa de normalitate a acestei distribuții, iar graficul din anexă sesizează tendințele descrise de către indicatorii de simetrie și boltire (K-S(4463)=0,113; p<0,01).
Factorul „Compasiune”
Conține un număr de 4604 date valide și 43 de date care nu pot fi prelucrate din cauza lipsei tuturor răspunsurilor. Media acestei scale este de 3,38 puncte cu o eroare standard a mediei de 0,031 puncte și abaterea standard 2,11 puncte.
Mediana și modul au valoarea 3, distribuția fiind asimetrică la dreapta cu tendințe către scoruri mici (Skewness=0,277; Eroarea standard Skewness=0,036) și platicurtică (Kurtosis=-0,793; Eroarea standard Kurtosis=0,72), având o variabilitate ridicată.
Distribuția, în mod evident, nu este una normală, rezultatele testelor de normalitate fiind semnificative din punct de vedere statistic (K-S(4463)=0,126; p<0,01).
Dimensiunea „Agreabilitate”
Dimensiunea „Agreabilitate”, pe ansamblu, conține un număr de 4463 de date valide și 184 de date care nu pot fi prelucrate din cauza lipsei tuturor răspunsurilor la itemii componenți. Amplitudinea distribuției este de 44 de puncte, situată între un minimum de 1 punct și maximum 45 puncte. Media scalei este de 25,65 puncte cu o eroare standard de 0,10 puncte și abaterea standard de 6,89 puncte. Mediana este situată la 26 de puncte și modul la 23 puncte.
Distribuția este ușor asimetrică la stânga, având tendințe către scoruri mari (Skewness=-0,087; Eroarea standard Skewness=0,037) și mezocurtică, normal boltită (Kurtosis=0,145; Eroarea standard Kurtosis=0,073). Din cauza caracterului ușor asimetric, distribuția nu poate fi considerată o distribuție normală (K-S(4463)=0,041; p<0,01).
Având în vedere aceste caracteristici, apreciem că asumpția normalității distribuției a fost încălcată pentru această dimensiune și pentru factorii componenți, analizele ulterioare ținând cont de acest aspect.
Dimensiunea „Nevrozism”
Tabel V-6 Distribuția scorurilor pentru factorii dimensiunii „Nevrozism”
Factorul „Anxietate”
Analiza datelor se bazează pe un număr de 4573 de date valide, excluzându-se 74 de subiecți care nu prezentau răspunsurile la toți itemii componenți ai scalei. Media scalei este de 2,65 puncte, cu o eroare standard a mediei de 0,031 puncte și o abatere standard de 2,06 puncte. Mediana are valoarea 2 iar modul valoarea 1. Distribuția este asimetrică la dreapta, predominând valorile mici (Skewness=0,504; Eroarea standard Skewness=0,036) și platicurtică, având o variabilitate mare a scorurilor în jurul tendinței centrale (Kurtosis=-0,621; Eroarea standard Kurtosis=0,072).
Testele de normalitate reflectă faptul că distribuția nu este una normală, fapt remarcat și în urma analizei graficului din anexa 2 (K-S(4431)=0,149; p<0,01).
Factorul „Furie”
Factorul „Furie” a fost analizat pe baza unui număr de 4597 date valide, ignorându-se 50 de subiecți care nu au prezentat suficiente răspunsuri în vederea studierii distribuției. Media scalei este 2,85, cu o eroare standard a mediei de 0,036 și o abatere standard de 2,41. Mediana este situată la valoarea de 3 puncte, iar categoria cu frecvența cea mai mare este 0. Distribuția este asimetrică la dreapta, predominând scorurile mici (Skewness=0,443; Eroarea standard Skewness=0,036) și puternic platicurtică, având o variabilitate mare a scorurilor (Kurtosis=-0,942; Eroarea standard Kurtosis=0,072).
În mod cert, distribuția scorurilor pentru variabila „Furie” nu este o distribuție normală, fapt susținut și de testele de normalitate efectuate (K-S(4431)=0,151; p<0,01).
Factorul „Depresie”
Pentru factorul „Depresie” există un număr de 4604 date valide și 43 de subiecți care nu au furnizat răspunsuri suficiente. Media scorurilor este de 2,42 puncte cu o eroare standard a mediei de 0,027 puncte și o abatere standard de 1,80 puncte. Mediana este situată la 2 puncte, iar valoarea modală este 1. Distribuția este asimetrică la dreapta și predomină scorurile mici la acest factor (Skewness=0,686; Eroarea standard Skewness=0,036), iar gradul de împrăștiere în jurul tendinței centrale este ridicat (Kurtosis=-0,255; Eroarea standard Kurtosis=0,072).
Toate aceste informații susțin ideea unei distribuții care se abate de la distribuția normală pentru datele acestui factor (K-S(4431)=0,174; p<0,01).
Factorul „Timiditate”
Factorul „Timiditate” a fost analizat pe baza unui număr de 4590 de date valide iar 57 de subiecți au fost excluși din analiză. Media scalei este de 3,18 puncte cu eroarea standard a mediei de 0,033 puncte și abaterea standard 2,20 puncte. Mediana este situată la valoarea de 3 puncte, iar modul la valoarea de 1 punct. Distribuția datelor este deplasată la dreapta (Skewness=0,281; Eroarea standard Skewness=0,036), cu tendință către valori mici și platicurtică (Kurtosis=-0,88; Eroarea standard Kurtosis=0,072), având o variabilitate ridicată.
Datele factorului „Timiditate” nu se distribuie normal, așa cum reiese din testele de normalitate și din graficul anexat (K-S(4431)=0,129; p<0,01).
Factorul „Exagerare”
Factorul „Exagerare” are un număr de 4590 de date valide iar 57 de date nu pot fi procesate, deoarece lipsesc informații la cel puțin unul dintre itemii componenți. Media scalei este de 3,30 puncte cu o eroare standard de 0,029 și o abatere standard de 1,97 puncte. Mediana și modul au aceeași valoare – 3 puncte. Distribuția este asimetrică la dreapta predominând scorurile mici (Skewness=0,281; Eroarea standard Skewness=0,036) și platicurtică, datele având o variabilitate mare în jurul tendinței centrale (Kurtosis=-0,628; Eroarea standard Kurtosis=0,072).
Prin urmare, nu putem susține ipoteza conform căreia distribuția datelor pentru variabila „Exagerare” este o distribuție normală (K-S(4431)=0,12; p<0,01).
Factorul „Vulnerabilitate”
Variabila se analizează plecând de la un număr de 4603 date valide, un număr de 44 subiecți neavând suficiente informații pentru a putea permite calculul corespunzător al inventarului statistic. Media distribuției este de 2,85 puncte cu o eroare standard de 0,034 puncte și o abatere standard de 2,28 puncte. Mediana este situată la 2 puncte, iar valoarea modală este 1. Distribuția este în mod cert asimetrică la dreapta, cu tendințe către scoruri mici (Skewness=0,583; Eroarea standard Skewness=0,036) și platicurtică, având o variabilitate ridicată (Kurtosis=-0,671; Eroarea standard Kurtosis=0,072).
Distribuția scorurilor la această variabilă nu este o distribuție normală în conformitate și cu datele indicate de testele de normalitate (K-S(4431)=0,164; p<0,01).
Dimensiunea „Nevrozism”
Dimensiunea generală „Nevrozism” a fost evaluată sub aspectul normalității distribuției pornind de la un număr de 4431 de date valide, 216 înregistrări fiind excluse din motive care țin de insuficiența informațiilor. Amplitudinea distribuției este de 43 de puncte, între valoarea minimă 1 și valoarea maximă 44. Media scalei este de 17,32 puncte cu eroarea standard a mediei de 0,129 și abaterea standard de 8,60. Mediana este situată la nivelul valorii 17, iar valorile modale sunt 8 și 25, distribuția fiind bimodală. Se remarcă o asimetrie la dreapta a datelor, cu tendință către scoruri mici (Skewness=0,189; Eroarea standard Skewness=0,037) și o variabilitate mare a acestora în jurul tendinței centrale, distribuția fiind platicurtică (Kurtosis=-0,810; Eroarea standard Kurtosis=0,074). Scorurile nu se distribuie normal la nivelul dimensiunii „Nevrozism” în conformitate cu testele de normalitate utilizate (K-S(4431)=0,08; p<0,01).
La nivel general, dimensiunea „Nevrozism” prezintă o distribuție asimetrică și platicurtică. Factorul „Anxietate” are o distribuție asimetrică și platicurtică, „Furia” la fel, un comportament similar remarcându-se și la nivelul variabilei „Depresie”. Factorul „Timiditate” urmează aceleași caracteristici, „Exagerarea” la fel, ca și „Vulnerabilitatea”.
Dimensiunea „Conștiinciozitate”
Factorul „Eficiență personală”
Factorul „Eficiență personală” are un număr de 57 de date nevalide, analiza efectuându-se pe 4590 de subiecți. Media scalei este de 5,27 cu eroarea standard de 0,03 și abaterea standard 2,00. Mediana este situată la valoarea 6, iar modul la valoarea 7. Distribuția este asimetrică la stânga, având tendințe către scoruri mari (Skewness=-0,551; Eroarea standard Skewness=0,036) și cu o variabilitate mare a scorurilor în jurul tendinței centrale (Kurtosis=-0,489; Eroarea standard Kurtosis=0,072).
Testele de normalitate susțin faptul că variabila „Eficiență personală” nu poate avea o distribuție normală (K-S(4443)=0,159; p<0,01).
Tabel V-7 Distribuția scorurilor pentru factorii dimensiunii „Conștiinciozitate”
Factorul „Ordine și planificare”
Analiza acestui factor s-a bazat pe un număr de 4595 de date valide, 57 de subiecți furnizând informații incomplete. Media răspunsurilor este de 4,29 puncte cu eroarea standard 0,032 puncte și abaterea standard 2,18 puncte. Mediana este situată la 4 puncte, iar valoarea modală este de 5 puncte. Informațiile prezente indică o distribuție asimetrică la stânga, cu tendințe către scorurile mari (Skewness=-0,227; Eroarea standard Skewness=0,039) și platicurtică, având o variabilitate mare a scorurilor în jurul tendinței centrale (Kurtosis=-0,83; Eroarea standard Kurtosis=0,072).
Testele de normalitate susțin indicatorii menționați (K-S(4443)=0,117; p<0,01), distribuția datelor nefiind una normală.
Factorul „Rigiditate morală”
Variabila „Rigiditate morală” își bazează proprietățile pe un număr de 4594 de cazuri valide, 53 de subiecți fiind excluși din analiză. Media scorurilor obținute este 5,05 cu o eroare standard de 0,027 și o abatere standard de 1,83. Mediana este situată la valoarea 5, iar modul are valoarea 6. Remarcăm existența unei accentuate asimetrii la stânga, având puternice tendințe către scoruri mari (Skewness=-0,506; Eroarea standard Skewness=0,036) precum și caracterul platicurtic al distribuției, variabilitatea excesivă a scorurilor (Kurtosis=-0,199; Eroarea standard Kurtosis=0,072).
Distribuția datelor pentru variabila „Rigiditate morală” nu este o distribuție normală (K-S(4443)=0,151; p<0,01).
Factorul „Ambiție”
Variabila „Ambiție” a fost analizată pe baza unui număr de 4594 de cazuri, 53 de cazuri fiind excluse din analiză. Media scorurilor pentru această dimensiune este de 3,55 puncte cu o eroare standard a mediei de 0,025 puncte și o abatere standard de 1,67 puncte. Mediana și modul au aceeași valoare, 4 puncte. Distribuția este simetrică (Skewness=-0,043; Eroarea standard Skewness=0,036) și platicurtică, variabilitatea scorurilor fiind ridicată (Kurtosis = -0,505; Eroarea standard Kurtosis=0,072).
Ținând cont de toate aceste elemente, apreciem că distribuția scorurilor pentru variabila „Ambiție” nu este normală, așa cum rezultă și din indicatorii testelor de normalitate (K-S(4443)=0,13; p<0,01).
Factorul „Perseverență”
Se analizează în baza unui număr de 4598 de date valide, 49 dintre subiecți omițând să ofere răspunsuri la cel puțin un item din componența acestei scale. Media scorurilor pentru această scală este de 4,75 puncte cu o eroare standard a mediei de 0,029 puncte și o abatere standard de 1,96 puncte. Mediana și modul au aceeași valoare, 5 puncte. Analiza simetriei distribuției conduce către o distribuție asimetrică la stânga, predominând scorurile mari (Skewness=-0,362; Eroarea standard Skewness=0,036) și platicurtică (Kurtosis=-0,588; Eroarea standard Kurtosis=0,072).
Într-adevăr, distribuția scorurilor pentru variabila „Perseverență” nu poate fi asimilată unei distribuții normale, tendințele de supra sau subevaluare a datelor observate în raport cu distribuția teoretică normală observându-se în graficul din anexa 2. Testele de normalitate conduc la aceeași concluzie (K-S(4443)=0,133; p<0,01).
Factorul „Prudență”
Factorul de personalitate „Prudență” a fost analizat plecând de la un număr de 4602 date valide și 45 de date excluse din analiză din motive deja cunoscute. Media distribuției scorurilor la această variabilă este de 5,29 puncte cu o eroare standard a mediei de 0,034 puncte și abaterea standard de 2,29 puncte. Mediana are valoarea 6, iar valoarea modală este 8. Analiza simetriei conduce la ideea unei distribuții puternic asimetrice la stânga, cu tendințe evidente către scoruri mari (Skewness=-0,55; Eroarea standard Skewness=0,036) și platicurtice, cu variabilitate mare a scorurilor în jurul tendinței centrale (Kurtosis=-0,698; Eroarea standard Kurtosis=0,072).
Se poate observa atât variabilitatea ridicată a scorurilor, cât și tendințele de supraapreciere în cazul scorurilor mici și de subapreciere pentru scorurile mari. Distribuția nu este una normală, fapt confirmat și de testele de normalitate efectuate (K-S(4443)=0,149; p<0,01).
Dimensiunea „Conștiinciozitate”
Analiza normalității distribuției pentru scorurile dimensiunii „Conștiinciozitate” se bazează pe un număr de 4443 de cazuri, 203 subiecți având date lipsă și, prin urmare, fiind excluși din analiză. Amplitudinea distribuției este de 41 de puncte, scorul minim fiind de 5 puncte, iar scorul maxim de 46 puncte. Media scorurilor este de 28,2 puncte cu eroarea standard de 0,10 puncte și abaterea standard de 7,25 puncte. Mediana este situată la 28 puncte, iar modul are valoarea de 27 puncte. Distribuția scorurilor prezintă o asimetrie la stânga, predominând scorurile mari (Skewness=-0,267; Eroarea standard Skewness=0,037) și platicurtică, variabilitatea scorurilor fiind prea mare (Kurtosis=-0,392; Eroarea standard Kurtosis=0,073).
Într-adevăr, scorurile mari, în special, tind să se situeze deasupra valorilor considerate normale. Tendințe de subapreciere se observă și în cazul scorurilor mici. Sunt motive suficiente să apreciem că scorurile variabilei „Conștiinciozitate” nu au o distribuție asimilată celei normale (K-S(4443)=0,054; p<0,01).
Dimensiunea „Deschidere”
Factorul „Imaginație”
Factorul „Imaginație” a fost evaluat sub aspectul normalității distribuției plecând de la un număr de 4600 de date valide, iar 47 de subiecți nu au oferit informații suficiente pentru a putea fi incluși în analiză. Pentru toți factorii, amplitudinea scorurilor este de 8 puncte, între un minimum de 0 puncte și maximum 8 puncte. Media scorurilor este de 2,93 puncte cu o eroare standard a mediei de 0,029 puncte și abaterea standard de 1,96 puncte. Mediana este de 3 puncte, iar valoarea modală este situată la 2 puncte. Distribuția este asimetrică la dreapta, predominând scorurile mici (Skewness=0,585; Eroarea standard Skewness=0,036) și platicurtică, cu o variabilitate mare a acestora în jurul tendinței centrale (Kurtosis=-0,344; Eroarea standard Kurtosis=-0,344).
Într-adevăr, distribuția scorurilor nu este normală (K-S(4450)=0,164; p<0,01). Din cauza asimetriei la dreapta, scorurile mari sunt subapreciate în raport cu distribuția normală, putându-se constata și variabilitatea ridicată.
Tabel V-8 Distribuția scorurilor pentru factorii dimensiunii „Deschidere”
Factorul „Interes artistic”
Își bazează analiza pe un număr de 4573 de subiecți cu date valide, un număr de 74 de subiecți fiind excluși din această prelucrare. Media scorurilor este de 3,58 puncte cu o eroare a mediei de 0,032 puncte și o abatere standard de 2,13 puncte. Mediana și modul sunt situate, ambele, la valoarea de 3 puncte. Distribuția scorurilor la această variabilă este una asimetrică la dreapta (Skewness=0,176; Eroarea standard Skewness=0,036), cu tendințe către valori mici și platicurtică (Kurtosis=-0,815; Eroarea standard Kurtosis=0,072), variabilitatea scorurilor fiind foarte mare.
Distribuția nu are un caracter normal, așa cum se poate observa și din figura regresiei scorurilor observate la distribuția normală, faptul fiind susținut și de testele de normalitate efectuate (K-S(4450)=0,112; p<0,01).
Factorul „Emoționalitate”
Analiza normalității scorurilor pentru această variabilă se bazează pe un număr de 4600 de date valide, 47 de subiecți nefurnizând suficiente date pentru a face posibilă această prelucrare. Media scorurilor se situează la 5,4 puncte cu o eroare standard a mediei de 0,024 puncte și abaterea standard de 1,63 puncte. Mediana și modul au aceeași valoare, 6 puncte pe sala „Emoționalitate”. Analizând simetria și excesul, constatăm că distribuția scorurilor variabilei „Emoționalitate” prezintă o accentuată asimetrie la stânga, cu tendință către valori mari (Skewness=-0,669; Eroarea standard Skewness=0,039), chiar dacă împrăștierea se situează în limite normale (Kurtosis=0,014; Eroarea standard Kurtosis=0,072), distribuția fiind mezocurtică.
Se poate ușor observa sensul asimetriei; scorurile mici sunt puternic supraestimate în raport cu tendința distribuției normale din cauza asimetriei la stânga. Distribuția nu este una normală, testele de normalitate sesizând acest lucru la un la o semnificație mai mică de 0,01 (K-S(4450)=0,186; p<0,01).
Factorul „Spirit aventurier”
Bazându-ne pe un număr de 4606 cazuri valide și pe 41 de subiecți care nu au răspuns la toți itemii acestui factor, putem constata că distribuția scorurilor are o medie de 4,19 puncte cu o eroare standard a mediei de 0,032 puncte și o abatere standard de 2,19 puncte. Mediana este situată la 4 puncte, iar valoarea modală este de 5 puncte pe scală. Analiza simetriei și a excesului indică o distribuție simetrică (Skewness=-0,063; Eroarea standard Skewness=0,036), însă platicurtică, variabilitatea scorurilor fiind foarte mare (Kurtosis=-0,855; Eroarea standard Kurtosis=0,072).
Variabilitatea mare a scorurilor nu califică această distribuție pentru a fi considerată o distribuție normală. Vom susține că distribuția scorurilor pentru variabila „Spirit aventurier” se abate semnificativ de la distribuția normală (K-S(4450)=0,10; p<0,01).
Factorul „Intelect”
Analiza factorului „Intelect” a avut loc în baza unui număr de 4586 de date valide și 61 de cazuri lipsă. Media scorurilor pentru această variabilă este de 3,16 puncte cu o eroare standard a mediei de 0,024 puncte și o abatere standard de 1,60 puncte. Mediana are valoarea 3, iar valoarea modală se situează la 3 puncte pe scală. Analiza simetriei distribuției indică o tendință către scoruri mici (Skewness=0,366; Eroarea standard Skewness=0,036), distribuția fiind asimetrică la dreapta și o variabilitate mare a scorurilor în jurul tendinței centrale (Kurtosis=-0,299; Eroarea standard Kurtosis=0,072).
Lipsa de simetrie a distribuției și caracterul său platicurtic conduce la ideea unei distribuții care se abate de la distribuția normală (K-S(4450)=0,144; p<0,01).
Factorul „Liberalism”
Analiza acestui factor are în vedere un număr de 4591 de cazuri valide și 56 de cazuri pentru care nu au fost suficiente date în vederea procesării. Media scorurilor este de 3,11 cu o eroare standard a mediei de 0,027 puncte și o abatere standard de 1,79 puncte. Mediana este situată la 3 puncte, iar modul la 2 puncte pe scală. Distribuția scorurilor este asimetrică la dreapta, predominând scorurile mici (Skewness=0,366; Eroarea standard Skewness=0,036) și platicurtică, variabilitatea scorurilor fiind mare (Kurtosis=-0,326; Eroarea standard Kurtosis=0,072).
Distribuția scorurilor nu este una normală, faptul fiind remarcat și de către testele de normalitate a distribuției (K-S(4450)=0,136; p<0,01).
Dimensiunea „Deschidere”
Analiza normalității distribuției în cazul dimensiunii „Deschidere” s-a realizat pe baza unui număr de 4450 de cazuri, 197 de subiecți nefiind incluși în procesarea datelor din motive care țin de lipsa răspunsurilor. Media scorurilor pentru „Deschidere” se situează la 22,38 puncte cu o eroare standard a mediei de 0,097 puncte și o abatere standard de 6,46 puncte. Mediana și modul au aceeași valoare, 8 puncte. Amplitudinea distribuției este de 42 de puncte, între scorul minim 3 puncte și scorul maxim 45 puncte. Distribuția este asimetrică la dreapta, cu tendințe către scoruri mari (Skewness=0,296; Eroarea standard Skewness=0,037) și leptocurtică, variabilitatea scorurilor fiind excesiv de redusă în jurul tendinței centrale (Kurtosis=0,413; Eroarea standard Kurtosis=0,073).
Se poate observa tendința de subapreciere atât a scorurilor mici, cât și a celor mari, precum și variabilitatea redusă a acestora. Lipsa de normalitate a distribuției este susținută și de către testele de normalitate (K-S(4450)=0,055; p<0,01).
Concluzii asupra distribuțiilor factorilor și dimensiunilor
S-a observat faptul că niciuna dintre variabile nu prezintă o distribuție normală. Majoritatea variabilelor se caracterizează prin distribuții platicurtice, cu o variabilitate mare a scorurilor. Motivele țin de amplitudinea teoretică a scalelor (8 puncte), insuficientă creării unor opțiuni variate, dar și de asimetria distribuțiilor. Concentrarea scorurilor în zona valorilor ridicate, uneori în zona celor reduse, conduc, de asemenea, la probleme de acest tip.
Pot exista și imperfecțiuni constructive ale itemilor, identificabile în urma analizei factoriale. De asemenea, pot exista tendințe naturale ale factorilor către o asemenea evoluție. Deși foarte mare, lotul de cercetare nu are caracteristici de reprezentativitate. Acesta conține subiecți oarecum selectați din medii care presupun un anumit nivel educațional și anumite tipuri de sarcini. Există posibilitatea ca acest lucru să influențeze rezultatele.
Cert este faptul că nu sunt îndeplinite asumpțiile de bază în ceea ce privește utilizarea unor procedee parametrice, astfel încât vom recurge la folosirea unor tehnici neparametrice. Centralizarea analizelor referitoare la normalitatea distribuțiilor a fost cuprinsă în tabelul V-9, evidențiindu-se, pentru fiecare variabilă, deviațiile de la normalitate.
Tabel V-9 Centralizarea distribuției scorurilor pentru factorii și dimensiunile inventarului de personalitate BigFive Plus
Analiza consistenței scalare
Consistența scalară va fi analizată atât la nivelul factorilor, cât și la cel al dimensiunilor pentru fiecare dintre cele 30 de scale și 5 dimensiuni. Vom realiza aceste estimări, deoarece itemii lipsiți de consistență scalară pot conduce la modele de analiză factorială nevalide. Totodată intenționăm să furnizăm un indicator al fidelității scalelor bazat pe coeficientul de consistență internă Alpha Cronbach.
Asumpțiile consistenței interne specifică aditivitatea, faptul că fiecare item trebuie să fie relaționat liniar cu scorul total. Verificarea asumpției se va realiza prin testul de non-aditivitate Tukey, care pleacă de la ipoteza nulă că nu există interacțiuni multiplicative între scoruri și între itemi. Dacă testul este semnificativ (p<0,05) atunci respingerea ipotezei nule conduce la existența interacțiunilor multiplicative. Interacțiunile multiplicative arată că scorul unui item poate fi obținut din scorul altui item prin adăugarea unei constante. În acest caz vor fi prezentate efectele și va fi estimată puterea la care va trebui să se ajungă în vederea atingerii criteriului aditivității.
Independența observațiilor reprezintă o altă asumpție a consistenței interne. La administrarea instrumentului, răspunsurile unui subiect trebuie să fie independente de răspunsurile altui subiect. Cu alte cuvinte, nu trebuie să existe un efect inter-subiecți la nivelul consistenței scalei.
Independența reziduurilor reprezintă un postulat de bază al analizei consistenței scalare și susține faptul că erorile trebuie să aibă un caracter aleatoriu, să nu fie corelate.
Consistența codării susține că semnificația scorurilor ridicate și a celor scăzute trebuie să fie aceeași pentru toți itemii supuși analizei. În cazul existenței itemilor inversați, aceștia vor fi aduși în același sens.
Normalitatea multivariată a itemilor reprezintă o asumpție a cărei încălcare poate invalida modelul de analiză a consistenței interne. Deoarece se bazează pe un număr de n forme paralele, unde n reprezintă numărul de itemi, consistența internă stipulează eterogenitatea mediilor itemilor. În cazul în care mediile itemilor sunt omogene, analiza nu se poate realiza. Testul t2 Hotelling este un test statistic multivariat care pleacă de la ipoteza nulă conform căreia toți itemii scalei au aceeași medie. Respingerea ipotezei nule la un prag de semnificație mai mic de 0,05 arată că itemii analizați au o eterogenitate suficientă pentru o analiză validă a consistenței interne astfel asigurându-se normalitatea multivariată a itemilor.
Literatura de specialitate indică un coeficient de consistență internă de minimum 0,70, pentru a putea considera o scală consistentă, fidelă. Valorile situate sub acest prag urmează a fi privite cu rezervă.
Datele studiului nostru respectă o parte dintre asumpțiile consistenței interne, celelalte analize fiind efectuate pentru fiecare prelucrare în parte. Putem concluziona că suntem autorizați, din punct de vedere metodologic, să folosim această metodă de analiză a datelor. Vom prezenta doar rezultatele esențiale, analiza completă fiind inclusă în anexa 3.
Consistența internă a factorului Afectivitate
Analiza factorului Afectivitate indică necesitatea inversării itemului 37, acesta având un sistem de scorare axat pe distractor și nu pe răspunsul activ și produce un coeficient de corelație item-scală negativ. În condițiile în care inversăm itemul 37, consistența scalară Alpha Cronbach a scalei Afectivitate va fi de 0,688, coeficientul standardizat fiind 0,690. Constatăm o valoare rezonabilă, cu toate că se situează sub prag, dar care ne permite o includere a acestor variabile în analiza factorială.
Itemii sunt consistenți, nu există cazuri în care eliminarea vreunui item ar putea conduce la îmbunătățirea consistenței scalare. Studiind pătratul corelației multiple observăm că itemul 37 este cel mai consistent, conform cu scorul total (23,3%), itemul 7 fiind cel mai slab reprezentat în scală (9,8%). Eliminarea acestuia nu ar conduce totuși la îmbunătățirea scalei.
Testul t2 Hotelling este semnificativ, fapt care ne conduce la ideea că mediile itemilor au o variabilitate suficientă pentru o analiză validă a consistenței scalare (t2=4519,908; F(7,4614)=644,836; p<0,01). Asumpția normalității multivariate a itemilor este astfel îndeplinită.
Tabel V-10 Corelația item-scală pentru factorul Afectivitate
Testul Tukey de nonaditivitate este semnificativ, prin urmare putem respinge ipoteza nulă conform căreia nu există interacțiuni multiplicative între itemi. Nu apare un efect al interacțiunilor între subiecți, prin urmare observațiile sunt independente. Apare însă un efect al interacțiunii dintre itemi la nivelul răspunsurilor fiecărui subiect în parte (F(7,4620)=560,510; p<0,01), itemii având un caracter non-aditiv (multiplicativ) (Tukey=9,548; p<0,01). Acest efect apare din cauza corelațiilor relativ mici item-scală (între 0,274 și 0,448), media corelațiilor inter-itemi fiind de 0,218. Deși scala are o consistență acceptabilă, puterea acesteia va trebui să se mărească la 0,894 pentru a se atinge asumpția aditivității. Acest lucru poate fi realizat prin adăugarea unui număr suplimentar de itemi sau prin reformularea unor itemi în vederea creșterii reprezentativității acestora. O atenție suplimentară se va acorda itemului 7 care relaționează foarte slab cu scala. Oricum, interacțiunile multiplicative nu pot fi eliminate la nivelul itemilor dihotomici, cele două variante de răspuns crescând probabilitatea de apariție a unei erori de tip I. Caracterul non-aditiv al itemilor și interacțiunile multiplicative pot fi cauzate de un număr insuficient de itemi și nu de probleme de construcție ale acestora. De aceea, verificarea asumpției de aditivitate va fi privită cu rezerve.
Consistența internă a factorului Sociabilitate
În cazul factorului Sociabilitate, constatăm necesitatea inversării itemului 20 din cauza unei corelații negative cu scala. După inversarea itemului 20, consistența internă a scalei devine 0,750, aceeași valoare având-o și coeficientul standardizat.
Nu apar situații în care, prin eliminarea vreunui item, să îmbunătățim consistența scalei. Cel mai relevant item pare a fi itemul 32 (32,7%), iar cel mai puțin relevant este itemul 2 (18,8%). În principiu toți itemii pot fi studiați în mod adecvat.
Mediile itemilor au o omogenitate suficientă în vederea construirii unui model valid de studiu al consistenței interne, normalitatea multivariată fiind îndeplinită (t2=1209,723; F(7,4592)=172,592; p<0,01). Din nou, suntem în situația în care asumpția aditivității este violată. Puterea observațiilor trebuie crescută cu 0,665, în vederea atingerii criteriului aditivității.
Tabel V-11 Corelația item-scală pentru factorul Sociabilitate
Există, în mod evident, un efect al interacțiunilor dintre itemi în cazul răspunsurilor subiectului (F(7,4620)=181,918; p<0,01), testul Tukey remarcând faptul că nu putem ignora interacțiunile multiplicative dintre itemi (Tukey=45,29; p<0,01). Chiar dacă itemii sunt consistenți, cel mai probabil ei pot fi considerați ca derivând unul din altul. Având de a face cu un număr mic de itemi dihotomici, această respingere a ipotezei nule poate genera o eroare de tip I, așa cum s-a menționat anterior. Media corelațiilor inter-itemi este de 0,273, intervalul fiind cuprins între 0,130 și 0,406
Consistența internă a factorului Asertivitate
Scala Asertivitate nu necesită inversări sau prelucrări suplimentare de itemi. Coeficientul de consistență internă este de 0,675, varianta standardizată conducând la o scădere a valorii acestuia până la 0,674.
Tabel V-12 Corelația item-scală pentru factorul Asertivitate
Eliminarea itemului 45 poate conduce la creșterea consistenței scalare până la valoarea 0,692, acceptabilă pentru cercetări exploratorii. Itemul 45 prezintă o corelație scăzută cu scorul total, puterea acestuia fiind foarte mică (4,1%). Analizele ulterioare vor clarifica natura acestui item în ansamblul probei. Cel mai puternic item pare a fi itemul 9 (25,2%), iar cel mai slab este itemul menționat mai sus.
Asumpția distribuțiilor multivariate normale a fost verificată prin respingerea ipotezei nule de egalitate a mediilor la nivelul itemilor (t2=2567,170; F(7,4572)=366,258; p<0,01), însă asumpția aditivității eșuează din nou. Independența observațiilor este asigurată, neexistând efecte determinate de subiecți, însă la nivelul fiecărui subiect există efecte determinate de itemi (F(7,4578)=353,862; p<0,01). Caracterul non-aditiv al itemilor există, în plus, remarcăm prezența unor interacțiuni multiplicative (Tukey=66,53; p<0,01). Creșterea puterii observațiilor cu 0,689 ar putea conduce la susținerea asumpției aditivității. La nivelul scalei, media corelațiilor inter-itemi este de 0,20, valoarea minimă fiind de 0,042, iar valoarea maximă 0,356.
Consistența internă a factorului Activitate
Scala Activitate are o consistență internă destul de redusă, adecvată doar cercetărilor exploratorii. Coeficientul de consistență internă Alpha Cronbach este de 0,634 atât în cazul formei clasice, cât și pentru cea standardizată.
Nu remarcăm existența unor itemi inversați, însă eliminarea itemului 4 ar duce la creșterea consistenței scalare până la 0,643, situată totuși sub pragul acceptat. Corelația acestui item cu scala este foarte mică (0,174), reprezentând doar 7,9% din varianța scalei.
Tabel V-13 Corelația item-scală pentru factorul Activitate
Cel mai bun item al scalei este itemul 40, corelația sa cu scala fiind de 0,464. Putem considera că asumpția distribuțiilor multivariate normale este îndeplinită, mediile având gradul de omogenitate necesar (t2=2620,259; F(7,4599)=373,835; p<0,01). Sub aspectul asumpției de aditivitate constatăm că itemii exercită un efect asupra răspunsurilor subiectului (F(7,4605)=435,813; p<0,01), fără a vorbi însă despre interacțiuni multiplicative, testul Tukey fiind nesemnificativ. Asumpția aditivității a fost îndeplinită, efectul itemilor putând fi eliminat prin creșterea puterii observațiilor cu 0,968. La nivelul corelațiilor inter-itemi avem o medie a corelațiilor de 0,178, corelația cea mai slabă fiind negativă (-0,002), iar cea mai puternică legătură este de 0,353. Acest lucru ne conduce către ideea că o anumită relație dintre itemi exercită un efect invers asupra scalei, acesta fiind probabil motivul consistenței interne scăzute. Din analiza matricei de corelații inter-itemi rezultă că, într-adevăr, itemul 4 va trebui eliminat, corelațiile acestuia cu ceilalți itemi fiind foarte slabe în general, iar corelația cu itemul 10 este negativă.
Consistența internă a factorului Excitabilitate
La nivelul scalei Excitabilitate consistența internă este 0,699 cu o reducere a valorii standardizate la 0,697. Nu apar situații de inversare a itemilor.
Tabel V-14 Corelația item-scală pentru factorul Excitabilitate
Cel mai slab item este itemul 17, acesta fiind consistent cu scala la doar 9,5%, eliminarea acestuia conducând la creșterea consistenței interne până la 0,706. Itemul cel mai puternic este itemul 41, acesta reprezentând aproximativ 33,9% din scor. Asumpția distribuțiilor multivariate normale este atinsă, mediile având o omogenitate corespunzătoare (t2=3162,372; F(7,4590)=451,178; p<0,01). Apare un efect al itemilor la nivelul subiecților, asumpția de aditivitate nefiind atinsă (F(7,4596)=501,941; p<0,01), itemii fiind caracterizați prin interacțiuni multiplicative (Tukey=4,719; p<0,05). La nivelul corelațiilor inter-itemi, media corelațiilor este de 0,224, corelația minimă este 0,021 iar cea maximă 0,446.
Consistența internă a factorului Veselie
Factorul Veselie are o consistență scalară bună (0,703), cu o ușoară reducere a valorii standardizate (0,701). Nu apar itemi inversați.
Coeficientul de consistență internă Alpha Cronbach va crește ușor la eliminarea itemului 42, acesta reprezentând scala doar în procent de 7,5% fiind cel mai slab item. Itemul cel mai bun este itemul 12 cu o putere de reprezentare în scorul total de 37%. Distribuțiile multivariate normale sunt îndeplinite prin asigurarea unei eterogenități suficiente a mediilor (t2=3163,212; F(7,4587)=451,297; p<0,01). După cum anticipam, asumpția aditivității nu a putut fi atinsă, existând un efect al itemilor asupra răspunsurilor subiecților (F(7,4593)=431,821; p<0,01), interacțiunile dintre itemi având un caracter multiplicativ și nu aditiv (Tukey=84,820; p<0,01). La nivelul corelațiilor inter-itemi avem o medie a corelațiilor de 0,227, valoarea minimă fiind de 0,03, iar valoarea maximă 0,509.
Tabel V-15 Corelația item-scală pentru factorul Veselie
Consistența internă a dimensiunii Extraversiune
Consistența internă a dimensiunii Extraversiune folosindu-se itemii inversați 37 și 20, așa cum s-a arătat anterior, conduce către un coeficient Alpha Cronbach de 0,905, atât în versiune clasică, cât și în versiunea standardizată. Dimensiunea are o consistență scalară foarte bună, probleme existând doar la nivelul factorilor, probabil din cauza unui număr redus de itemi. Pătratul corelației multiple nu a putut fi calculat, deoarece determinantul matricei de covarianță este zero.
Remarcăm și la nivelul dimensiunii o creștere ușoară a consistenței interne la eliminarea itemilor 17 și 45. Comportamentul itemilor care vor trebui eliminați va fi studiat la analizele factoriale. Asumpția distribuțiilor multivariate normale a fost atinsă, eterogenitatea mediilor fiind una suficientă (t2=11519,601; F(7,4406)=247,794; p<0,01). Din nou, asumpția aditivității itemilor nu a putut fi respectată, efectul itemilor asupra subiectului fiind semnificativ (F(46,4451)=355,641; p<0,01), itemii neavând un caracter aditiv ci multiplicativ (Tukey=10,972; p<0,01). La nivelul scalei vom avea o medie a corelațiilor inter-itemi de 0,168, valoarea minimă fiind negativă (-0,049), iar valoarea maximă fiind de 0,510. Corelațiile negative apar între itemii 1-17 (-0,006), 4-10 (-0,003), 8-17 (-0,002), 13-17 (-0,012), 19-17 (-0,049), 43-17 (-0,033), 5-45 (-0,007), 6-45 (-0,041), 45-17 (-0,009), 17-37 (-0,034), 41-45 (-0,001) și 42-45 (-0,004). Remarcăm prezența constantă a itemilor 17 (7 apariții din 12) și 45 (5 apariții din 12), recomandările de eliminare fiind efectuate și la nivelul analizei factorilor.
Tabel V-16 Corelația item-scală pentru dimensiunea Extraversiune
Consistența internă a factorului Încredere
Consistența scalară a acestui factor este destul de redusă (0,637), varianta standardizată arătând o reducere și mai pronunțată (0,636). Nu apar itemi ce vor trebui inversați, dar eliminarea itemului 85 poate duce la creșterea consistenței scalei până la 0,655, insuficient totuși pentru a o considera consistentă în scop diagnostic. Într-adevăr, itemul 85 este cel mai slab item, contribuția la scorul total fiind de doar 2,8%, cel mai puternic item fiind 91, cu o reprezentare de 22,2% în scorul total. Asumpția distribuțiilor multivariate normale este îndeplinită, mediile fiind eterogene (t2=11519,601; F(7,4599)=482,626; p<0,01), însă remarcăm existența unui efect al itemilor asupra subiecților (F(7,4605)=509,037; p<0,01), dar itemii nu au un caracter multiplicativ, ci aditiv, testul Tukey fiind nesemnificativ. Observăm totuși necesitatea creșterii puterii observațiilor cu 1,032 în vederea atingerii aditivității complete și a eliminării efectului interacțiunii dintre itemi. La nivel centralizat, media corelațiilor inter-itemi este de 0,179, valoarea minimă fiind de 0,036 iar cea maximă 0,319.
Tabel V-17 Corelația item-scală pentru factorul Încredere
Consistența internă a factorului Moralitate
La nivelul acestei scale se remarcă necesitatea inversării itemului 80 din cauza corelației negative și foarte mici cu scorul total. După inversare, consistența internă a scalei se situează la un nivel inacceptabil (0,537), cu o ușoară creștere în cazul coeficientului standardizat Spearman-Brown de consistență internă (0,540).
Tabel V-18 Corelația item-scală pentru factorul Moralitate
Suntem în situația existenței a doi itemi foarte slabi. Eliminarea itemului 80 poate duce la creșterea consistenței scalei până la 0,575, iar eliminarea itemului 86 va crește consistența scalei până la 0,542. În cazul în care eliminăm ambii itemi, consistența internă a scalei va deveni 0,586, insuficientă. Eliminarea itemilor 92 sau 74 ar putea conduce la o creștere a consistenței interne peste 0,60, valoare totuși foarte mică. Analiza factorială va decide dacă putem păstra această scală în analizele ulterioare. Asumpția normalității univariate a fost îndeplinită, mediile fiind eterogene (t2=767,512; F(7,4611)=109,502; p<0,01), însă cea a aditivității se încalcă, existând un efect al itemilor asupra răspunsurilor la nivelul subiectului (F(7,4617)=112,435; p<0,01), mai mult, interacțiunile având un caracter multiplicativ (Tukey=14,317; p<0,01). Pentru a se atinge asumpția de aditivitate, puterea observațiilor trebuie să se crească la 0,642. La nivelul scalei media intercorelațiilor este destul de mică (0,128), valoarea minimă fiind negativă (-0,114), iar valoarea maximă este 0,403. Corelațiile negative apar între itemii 62-80 (-0,114) și 80-86 (-0,040), itemul 80 urmând a fi eliminat. La nivel analitic, corelațiile inter-item se păstrează la valori reduse, probabil fără semnificație statistică.
Consistența internă a factorului Altruism
Consistența scalei Altruism este de 0,615 cu o ușoară creștere a versiunii standardizate la 0,616. Nu remarcăm itemi care urmează să fie inversați și nici itemi prin a căror eliminare să crească valorile consistenței interne. Cel mai bun item este itemul 93 care relaționează 16,2% cu scorul total, iar cel mai slab item este itemul 63 care reprezintă doar 7,1% din scorul total.
Tabel V-19 Corelația item-scală pentru factorul Altruism
Asumpția privind distribuțiile multivariate normale a fost atinsă prin eterogenitatea suficientă a mediilor itemilor (t2=4147,519; F(7,4586)=591,729; p<0,01), însă aditivitatea nu a putut fi atinsă existând un efect determinat de itemi asupra răspunsurilor unui subiect (F(7,4592)=669,312; p<0,01), itemii având un caracter multiplicativ și nu aditiv (Tukey=136,889; p<0,01). Puterea observațiilor trebuie mărită cu 1,427 pentru ca itemii să dobândească un caracter aditiv. Centralizat, media corelațiilor inter-itemi este de 0,167, corelația minimă fiind de 0,047, iar cea maximă 0,296.
Consistența internă a factorului Cooperare
Scala Cooperare prezintă o consistență internă foarte slabă (0,594), versiunea standardizată indicând o valoare chiar mai redusă (0,592). Nu apar itemi care să necesite inversare. Itemul 94 este cel mai slab item cu o pondere de 5% în scorul total, eliminarea acestuia conducând la creșterea consistenței interne la o valoare mai mare de 0,60. Cel mai puternic item este itemul 70 având o contribuție de 23,3% în scorul total. Asumpția distribuțiilor normale multivariate este îndeplinită (t2=2651,723; F(7,4573)=378,321; p<0,01), fiind atins și criteriul lipsei interacțiunilor multiplicative, testul Tukey nefiind semnificativ. Există însă un efect al itemilor asupra răspunsurilor acordate de subiect (F(7,4579)=459,420; p<0,01), puterea observațiilor trebuind să crească la 1,038 pentru atingerea criteriilor aditivității complete. Media corelațiilor inter-itemi la nivelul scalei este de 0,154, valoarea minimă fiind de 0,016, iar valoarea maximă 0,389.
Tabel V-20 Corelația item-scală pentru factorul Cooperare
Consistența internă a factorului Modestie
În cazul factorului Modestie, consistența internă este redusă (Alpha Cronbach=0,572, standardizat 0,574), fără a se remarca itemi care să necesite inversare.
Tabel V-21 Corelația item-scală pentru factorul Modestie
Itemul 53 este cel mai slab item fiind reprezentat în procent de doar 6,1% în scorul total, cel mai puternic item fiind itemul 95 cu o reprezentare de 16,4%. Nu constatăm o îmbunătățire a scalei la eliminarea vreunui item, asumpția distribuției multivariate normale fiind îndeplinită (t2=2888,829; F(7,4572)=412,149; p<0,01). Testul Tukey nu este semnificativ, prin urmare nu apar interacțiuni multiplicative la nivelul itemilor cu toate că există un efect al itemilor asupra răspunsurilor la nivelul subiectului (F(7,4578)=435,976; p<0,01), puterea observațiilor trebuind crescută cu 1,072 pentru atingerea criteriului de aditivitate. Media corelațiilor inter-itemi este de 0,144, cuprinsă între valoarea minimă negativă de 0,023 (între itemii 53 și 77) și valoarea maximă 0,255.
Consistența internă a factorului Compasiune
Itemii factorului Compasiune prezintă o consistență scalară de 0,669 (în forma Spearman-Brown=0,671), situată sub pragul necesar utilizării scalei în scop diagnostic, dar adecvat scopurilor de cercetare. Nu remarcăm necesitatea unor inversări de itemi.
Itemul 84 pare a fi cel mai slab item al acestei scale (4,1%), eliminarea acestuia conducând la o creștere a consistenței scalare până la 0,683, creștere insuficientă însă pentru atingerea pragului minim necesar. Cel mai puternic item este itemul 72, varianța acestuia regăsindu-se în scorul total în procent de 26,2%.
Tabel V-22 Corelația item-scală pentru factorul Compasiune
Criteriul normalității multivariate este îndeplinit la nivelul scalei (t2=1856,906; F(7,4597)=264,927; p<0,01), dar nu se poate respecta asumpția aditivității, existând un efect al itemilor asupra răspunsurilor la nivelul unui subiect (F(7,4603)=320,228; p<0,01), mai mult, putem vorbi despre interacțiuni cu caracter multiplicativ (Tukey=96,075; p<0,01). Puterea observațiilor trebuie mărită cu 1,330 în vederea atingerii criteriului de aditivitate a răspunsurilor la itemi. La nivelul scalei media corelațiilor inter-itemi este de 0,20, între o valoare minimă a corelației de 0,054 și valoarea maximă de 0,381.
Consistența internă a dimensiunii Agreabilitate
Chiar dacă la nivelul dimensiunii consistența internă este satisfăcătoare (0,776, în variantă standardizată 0,777), comportamentul itemilor pune o serie de probleme deosebite, nerelevate la nivel de factori.
Tabel V-23 Corelația item-scală pentru dimensiunea Agreabilitate
În primul rând eliminarea itemului 80 va conduce la o creștere a consistenței scalare la 0,785. În al doilea rând, constatăm existența unui număr de 2 itemi (65 și 77) care au o corelație foarte redusă cu scorul total, aceasta fiind și negativă. Din cauza valorii mici a corelației item-scală, inversarea nu are sens, prin urmare vom proceda la eliminarea acestor doi itemi. În final, vom obține o consistență internă de 0,795, în varianta Spearman-Brown 0,796, suficientă scopurilor noastre.
Chiar și în această formă, nu putem ignora existența unor itemi problematice (59, 83, 96 și 92) a căror eliminare ar conduce către o creștere a consistenței scalare. Pătratul corelației multiple nu a putut fi calculat, deoarece determinantul matricei de covarianță este zero, iar în urma analizei factoriale vom putea decide dacă păstrăm itemii în această formă.
Asumpția normalității multivariate este îndeplinită (t2=10341,550; F(44,4426)=232,774; p<0,01), însă există un efect al itemilor asupra răspunsurilor subiectului (F(44,4469)=435,010; p<0,01), efectul fiind de natura interacțiunilor multiplicative (Tukey=30,418; p<0,01). Asumpția aditivității nu poate fi așadar atinsă, puterea observațiilor trebuind crescută cu 0,857 pentru a se atinge criteriul aditivității.
La nivel centralizat, corelațiile inter-itemi sunt foarte mici, cu o medie de 0,080, valoarea minimă fiind de -0,195 iar valoarea maximă 0,399. Numărul de corelații negative inter-itemi este foarte mare și nu se poate decela un patern al acestora. De asemenea, se poate pune în discuție valoarea unică a consistenței interne în condițiile structurii corelaționale interne a dimensiunii. Există rezerve în păstrarea acestei dimensiuni în vederea modelării pentru teoria răspunsului la item, decizia finală luându-se în urma analizei factoriale.
Consistența internă a factorului Anxietate
În cazul factorului Anxietate consistența scalei este de 0,684, în varianta standardizată 0,687.
Tabel V-24 Corelația item-scală pentru factorul Anxietate
Nu remarcăm itemi care eliminați ar conduce la creșterea consistenței scalare și nici itemi care ar trebui inversați.
Cel mai slab item este itemul 103 care acoperă 7,9% din scorul total al scalei iar cel mai puternic item este itemul 121 care reușește o acoperire de 26,2% a scorului total. Asumpția normalității multivariate a fost atinsă (t2=1424,621; F(7,4566)=203,250; p<0,01), dar remarcăm un efect al itemilor (F(7,4572)=213,279; p<0,01) în sensul existenței unor interacțiuni de tip multiplicativ la nivelul acestora (Tukey=12,108; p<0,01), criteriul aditivității nefiind atins. Puterea observațiilor va trebui să crească în valoare absolută cu 0,885 pentru atingerea criteriului de aditivitate. La nivel de scală media corelațiilor inter-itemi este de 0,216, valoarea minimă fiind de 0,127 iar valoarea maximă 0,391
Consistența internă a factorului Furie
Scala Furie prezintă o consistență internă bună (0,793, varianta Spearman-Brown 0,793), fără itemi care ar trebui inversați sau eliminați.
Nu remarcăm probleme deosebite la nivelul acestei scale. Cel mai puternic item este itemul 104 (32,3%), iar cel mai slab item este itemul 134 (11,7%). Corelațiile sunt relativ mari cu scorul total, asumpția distribuțiilor multivariate normale este îndeplinită (t2=1586,379; F(7,4590)=226,330; p<0,01) cu toate că există un efect al itemilor asupra răspunsurilor (F(7,4596)=261,604; p<0,01), iar acest efect este de tipul interacțiunilor multiplicative dintre itemi (Tukey=236,749; p<0,01), puterea observațiilor urmând să crească la 0,576 pentru a se atinge criteriul aditivității. La nivelul scalei, media corelațiilor inter-itemi este acceptabilă (0,323), valoarea minimă fiind de 0,179, iar valoarea maximă 0,426, scala Furie fiind una dintre cele mai consistente scale ale instrumentului.
Tabel V-25 Corelația item-scală pentru factorul Furie
Consistența internă a factorului Depresie
Inițial consistența internă a acestei scale a fost de 0,627, o valoare redusă. Itemul 135 prezintă corelație negativă și redusă cu scala (-0,008) fapt care ne determină să excludem acest item, rezultând în final o consistență internă de 0,688, în variantă standardizată 0,691, adecvată păstrării ulterioare a scalei. În această formă nu observăm necesitatea inversării sau eliminării vreunor itemi.
Tabel V-26 Corelația item-scală pentru factorul Depresie
Corelațiile item-scală sunt acceptabile, cel mai slab item fiind itemul 105 (11,4%) iar cel mai puternic itemul 129 (23,9). Asumpția distribuțiilor multivariate normale este atinsă (t2=1651,076; F(6,4606)=274,881; p<0,01), deși suntem în situația existenței unui efect al itemilor asupra răspunsurilor (F(6,4611)=316,621; p<0,01), efectul fiind de tipul interacțiunii multiplicative (Tukey=504,360; p<0,01), puterea observațiilor trebuind să crească la 0,492 pentru atingerea aditivității. Media corelațiilor inter-itemi este de 0,242, valoarea minimă fiind de 0,132, iar valoarea maximă 0,374.
Consistența internă a factorului Timiditate
La nivelul scalei Timiditate consistența internă este de 0,696 (0,695 în variantă standardizată), neremarcându-se cazuri de inversare a itemilor.
Tabel V-27 Corelația item-scală pentru factorul Timiditate
Cel mai slab item la nivelul acestei scale este itemul 112 (6,4%), eliminarea acestuia conducând chiar la o nesemnificativă creștere a consistenței scalare, iar cel mai puternic item este itemul 118 (26,5%). Sub aspectul îndeplinirii asumpțiilor, constatăm că se respectă distribuția normală multivariată (t2=233,604; F(7,4583)=33,32; p<0,01), însă apar probleme legate de efectul determinat de itemi asupra răspunsurilor subiecților (F(7,4589)=34,214; p<0,01), acesta având caracteristici de interacțiuni multiplicative (Tukey=32,515; p<0,01), pentru atingerea aditivității fiind necesară creșterea puterii observațiilor la 0,491. Analiza scalei indică o medie a corelațiilor inter-itemi de 0,222, valoarea minimă fiind de 0,085 iar valoarea maximă de 0,388.
Consistența internă a factorului Exagerare
În cazul factorului Exagerare consistența scalară este de 0,590 (0,591 în varianta standardizată) și nu există itemi care vor trebui inversați, iar eliminarea unor itemi nu conduce la creșterea coeficientului.
Tabel V-28 Corelația item-scală pentru factorul Exagerare
Observăm existența unor corelații foarte mici între itemi și scorul total, cel mai puternic item fiind itemul 119 (18,1%), iar cel mai slab itemul 143 (5,9%). Asumpția distribuției multivariate normale este îndeplinită (t2=991,604; F(7,4583)=141,484; p<0,01), însă apare un efect al itemilor asupra răspunsurilor (F(7,4589)=34,214; p<0,01), chiar dacă acesta nu este de tipul interacțiunilor multiplicative. Media corelațiilor inter-itemi este redusă (0,153), valoarea minimă fiind de 0,045, iar valoarea maximă 0,376. Consistența scalei face improbabilă reținerea itemilor în vederea analizelor ulterioare.
Consistența internă a factorului Vulnerabilitate
Consistența aceste scale este de 0,760 (în variantă standardizată 0,764) și nu apar itemi care ar trebui inversați.
Tabel V-29 Corelația item-scală pentru factorul Vulnerabilitate
Cel mai slab item este itemul 138 (4,7%), a cărui eliminare ar putea conduce la creșterea consistenței interne a scalei la valoarea 0,782. Itemul cel mai puternic este 126, acesta acoperind circa 34,6% din scorul total. Din punctul de vedere al distribuției multivariate normale, criteriul este îndeplinit (t2=1704,204; F(7,4596)=243,140; p<0,01), însă puterea observațiilor trebuie crescută la 1,342 pentru atingerea criteriului aditivității, deoarece există un efect al itemilor asupra răspunsurilor subiecților (F(7,4602)=370,823; p<0,01), acesta având un caracter de interacțiune multiplicativă (Tukey=196,929; p<0,01). La nivelul corelațiilor inter-item obținem o medie a corelațiilor de 0,288, valoarea minimă fiind de 0,095, iar valoarea maximă 0,468.
Consistența internă a dimensiunii Nevrozism
În cazul dimensiunii Nevrozism, fără includerea itemului 135, consistența internă a scalei este de 0,879. Apar totuși probleme la itemii 113 și 143 care au corelații negative cu scorul total, deși la nivelul scalelor aveau un comportament normal. Eliminând acești itemi vom obține o consistență internă de 0,890, în variantă standardizată 0,891, coeficient maximal, alte eliminări de itemi neconducând la valori semnificativ superioare.
Remarcăm totuși unele probleme la nivelul itemului 101, care, în acest nou context, prezintă o corelație foarte mică și negativă cu scorul total. Similar se comportă și itemii 137 și 138, corelațiile fiind mici, dar pozitive. Asumpția normalității multivariate a distribuțiilor este îndeplinită (t2=7751,906; F(44,4402)=174,475; p<0,01), dar există un efect al itemilor asupra răspunsurilor subiecților (F(44,4445)=211,656; p<0,01), având un caracter de interacțiune multiplicativă (Tukey=58,852; p<0,01). La nivelul scalei media corelațiilor inter-itemi este de 0,154, valoarea minimă este negativă (-0,120), iar valoarea maximă a corelației inter-itemi este de 0,475. În corelațiile negative sunt implicați mai mulți itemi, majoritatea vizând, însă, itemii 101, 137 și 138, așa cum remarcam anterior.
Tabel V-30 Corelația item-scală pentru dimensiunea Nevrozism
Consistența internă a factorului Eficiență personală
Analiza inițială arată că obținem o consistență internă de 0,647 în condițiile în care păstrăm toți itemii. Dacă vom elimina itemul 157, consistența scalei va crește la 0,675, iar prin eliminarea itemului 163 rezultă cel mai bun coeficient de consistență internă, 0,681, în ambele forme.
Tabel V-31 Corelația item-scală pentru factorul Eficiență personală
În forma cu șase itemi scala are consistența maximală, cel mai puternic item fiind itemul 151 (24%), iar cel mai slab itemul 186 (12,6%). Asumpția normalității multivariate a fost îndeplinită (t2=560,599; F(5,4593)=112,022; p<0,01), însă apare un efect al itemilor asupra răspunsurilor subiecților (F(5,4597)=111,776; p<0,01), tipul efectului fiind de interacțiune multiplicativă la nivelul itemilor (Tukey=79,563; p<0,01), iar puterea observațiilor trebuie crescută la 1,912 pentru a se atinge aditivitatea. La nivelul corelațiilor inter-itemi, media acestora este de 0,263, valoarea minimă este de 0,172, iar valoarea maximă 0,384.
Consistența internă a factorului Ordine și planificare
În cazul scalei „Ordine și planificare”, coeficientul de consistență internă este de 0,676 (0,677 în forma Spearman-Brown), fără creșteri semnificative la eliminarea itemilor.
Tabel V-32 Corelația item-scală pentru factorul Eficiență personală
Într-adevăr, eliminarea itemilor 170 și 182 ar duce consistența scalară către o valoare situată în jurul a 0,68, însă creșterea nu este semnificativă, în plus coeficienții de corelație item-scală sunt relativ acceptabili. Aceștia sunt și cei mai slabi itemi ai scalei (6,4% respectiv 5,7%), în timp ce itemul 164 este cel mai puternic (30,6%). Asumpția distribuției multivariate normale nu pune probleme (t2=1015,451; F(7,4588)=144,875; p<0,01), dar criteriul aditivității nu a fost îndeplinit, existând un efect al itemilor asupra răspunsurilor subiecților (F(7,4594)=147,757; p<0,01), acesta având un caracter de interacțiuni multiplicative (Tukey=114,026; p<0,01). La nivelul scalei, media corelațiilor inter-itemi este de 0,207, valoarea minimă fiind de 0,068, iar valoarea maximă 0,422.
Consistența internă a factorului Rigiditate morală
În situația scalei Rigiditate morală, coeficientul de consistență internă este de 0,525 (0,530 în variantă standardizată), fără ca eliminarea unor item să conducă la creșteri ale acestui coeficient la valori superioare 0,530. În aceste condiții este discutabilă reținerea acestor itemi în vederea unor analize viitoare.
Tabel V-33 Corelația item-scală pentru factorul Rigiditate morală
Într-adevăr, există numeroși itemi care prezintă corelații foarte mici cu scorul total, cel mai puternic item (itemul 171), reprezentând doar 16,4% din componența scorului. Nu apar probleme legate de asumpția distribuțiilor multivariate normale (t2=2416,287; F(7,4587)=344,733; p<0,01), însă nu poate fi atins criteriul aditivității din cauza prezenței efectelor itemilor asupra răspunsurilor unui subiect (F(7,4593)=360,486; p<0,01), aceste efecte caracterizându-se prin interacțiuni multiplicative (Tukey=10,166; p<0,01). Media corelațiilor inter-itemi este foarte redusă (0,124), valoarea minimă fiind negativă (-0,019), iar valoarea maximă nu depășește 0,3 (0,290).
Consistența internă a factorului Ambiție
Similar factorului anterior, scala Ambiție prezintă o consistență internă inacceptabilă (0,423), neremarcându-se creșteri ale acesteia peste 0,5.
Tabel V-34 Corelația item-scală pentru factorul Ambiție
Într-adevăr, în condițiile actuale nu putem vorbi despre itemi reprezentativi ai acestei scale, cu toate că a fost îndeplinită asumpția distribuțiilor multivariate normale (t2=3711,446; F(7,4587)=529,514; p<0,01), dar nu și cea a aditivității, efectul remarcat fiind cel de interacțiune multiplicativă la nivelul itemilor (F(7,4593)=641,983; p<0,01) (Tukey=205,370; p<0,01). La nivelul scalei, corelația maximală inter-itemi este de 0,211, iar cea minimă are valoarea -0,070, media fiind de 0,081.
Consistența internă a factorului Perseverență
La nivelul acestui factor consistența internă este de 0,586 (0,588 în variantă standardizată), fără creșteri peste 0,60 la eliminarea itemilor.
Într-adevăr, constatăm probleme importante la nivelul scalei, corelațiile item-scală fiind reduse, iar puterea de reprezentare a itemilor la nivelul scalei nu depășește 18,1%. Distribuțiile multivariate pot fi considerate normale (t2=1033,626; F(7,4591)=147,468; p<0,01), însă itemii nu au in caracter aditiv, ci multiplicativ (F(7,4597)=164,687; p<0,01) (Tukey=34,030; p<0,01). Media corelațiilor inter-itemi este de 0,151, valoarea minimă fiind 0,010, iar cea maximă 0,308.
Tabel V-35 Corelația item-scală pentru factorul Perseverență
Consistența internă a factorului Prudență
Consistența internă a scalei Prudență este de 0,757 în ambele forme și nu remarcăm itemi care ar trebui inversați ori, care prin eliminare, ar conduce la creșterea acestui coeficient.
Tabel V-36 Corelația item-scală pentru factorul Prudență
Itemul 192 este cel mai puternic reprezentând 31,2% din componența scorului total, iar itemul 174 este cel mai slab item al scalei (18,5%). Asumpția distribuției multivariate normale a fost atinsă (t2=440,093; F(7,4595)=62,788; p<0,01), însă criteriul aditivității necesită creșterea puterii observațiilor la 2,00 în vederea atingerii aditivității, existând un efect de interacțiune multiplicativă la nivelul itemilor (F(7,4601)=62,390; p<0,01) (Tukey=82,877; p<0,01). Media corelațiilor inter-itemi este de 0,281, valoarea minimă este de 0,158, iar valoarea maximă 0,426.
Consistența internă a dimensiunii Conștiinciozitate
Eliminând itemii 157 și 163 rezultă o consistență internă la nivelul dimensiunii Conștiinciozitate de 0,817 cu o reducere nesemnificativă a versiunii standardizate la 0,816.
Constatăm existența unui număr de trei itemi (153, 166 și 184) cu un comportament diferit la nivelul dimensiunii în comparație cu cel manifestat la nivelul factorilor din care provin. La nivel general consistența dimensiunii este bună, îndeplinirea asumpției de normalitate multivariată a distribuțiilor fiind realizată (t2=9206,749; F(45,4400)=202,569; p<0,01), chiar dacă interacțiunile multiplicative la nivelul itemilor (F(45,4444)=357,966; p<0,01) (Tukey=1393,440; p<0,01) nu permit atingerea criteriului de aditivitate a scorurilor. Media corelațiilor inter-itemi este de 0,088, valoare mică, cea mai mică asociere fiind negativă (-0,192), iar cea mai mare având coeficientul 0,432.
Tabel V-37 Corelația item-scală pentru dimensiunea Conștiinciozitate
Consistența internă a factorului Imaginație
Consistența internă a scalei Imaginație este, inițial, 0,632, însă prin eliminarea itemului 217 aceasta poate crește la 0,669, în versiune standardizată 0,673. Acest indicator poate ajunge până la 0,69 în situația în care se renunță și la itemul 229. Nu remarcăm alte modificări ce se pot efectua la nivelul acestui factor.
Tabel V-38 Corelația item-scală pentru factorul Imaginație
Cel mai puternic este itemul 235 (25,7%), iar cel mai slab este, itemul 229 (4,5%). Îndeplinirea asumpției distribuțiilor multivariate normale nu pune probleme (t2=1302,536; F(6,4595)=216,853; p<0,01), însă putem constata interacțiuni multiplicative între itemi (F(6,4600)=279,882; p<0,01) (Tukey=34,403; p<0,01), criteriul aditivității fiind atins la creșterea puterii observațiilor până la 1,178. Media corelațiilor inter-itemi este de 0,227, valoarea minimă fiind de 0,077, iar cea maximă 0,402.
Consistența internă a factorului Interes artistic
În cazul acestei scale consistența internă este 0,679 (în variantă standardizată 0,676) și nu remarcăm alte ajustări sau optimizări.
Tabel V-39 Corelația item-scală pentru factorul Interes artistic
Itemul 236 este cel mai consistent cu scala, ponderând cu 21,7% scorul acesteia, iar cel mai slab item este 212 care acoperă doar 7,2% din scorul total. Asumpția normalității multivariate a distribuțiilor a fost îndeplinită (t2=2551,436; F(7,4566)=364,012; p<0,01), dar criteriul aditivității nu a putut fi atins (F(7,4572)=436,424; p<0,01) (Tukey=114,989; p<0,01), interacțiunile dintre itemi având un caracter multiplicativ. Scala prezintă o corelație minimă inter-itemi de 0,058, valoarea maximă a acestei corelații fiind de 0,355, cu o medie de 0,207.
Consistența internă a factorului Emoționalitate
Remarcăm inițial necesitatea inversării unui număr de 2 itemi, itemul 201 și itemul 237, chiar dacă aceștia sunt destul de slab reprezentați la nivelul scalei. Chiar și după inversare constatăm că cei doi itemi vor trebui eliminați pentru a se obține un coeficient de consistență internă de 0,600, în varianta standardizată 0,612.
Tabel V-40 Corelația item-scală pentru factorul Emoționalitate
Există posibilitatea creșterii consistenței prin eliminarea celui mai slab item, itemul 195 (4,2%), însă acest lucru ar determina insuficiența itemilor la nivelul scalei. Asumpția normalității multivariate este atinsă (t2=1376,390; F(5,4598)=275,039; p<0,01), cu toate că nu putem vorbi despre îndeplinirea criteriului de aditivitate a răspunsurilor deoarece există interacțiuni multiplicative la nivelul itemilor (F(5,4602)=322,391; p<0,01) (Tukey=14,023; p<0,01). Media corelațiilor inter-itemi este de 0,208, cea mai slabă corelație fiind de 0,047, iar cea mai puternică 0,346.
Consistența internă a factorului Spirit aventurier
Consistența internă a acestui factor este de 0,683 în ambele forme și nu remarcăm itemi care eliminați sau inversați ar conduce la creșterea acesteia.
Tabel V-41 Corelația item-scală pentru factorul Spirit aventurier
În cadrul scalei, cel mai slab item este 196 (8,5%), iar cel mai puternic este itemul 238 (27,8%). Asumpția normalității multivariate este îndeplinită (t2=1506,964; F(7,4599)=215,000; p<0,01), dar puterea observațiilor trebuie să crească la 1,016 pentru atingerea aditivității totale chiar dacă itemii nu au un caracter multiplicativ (F(7,4605)=207,791; p<0,01). La nivel de scală corelațiile sunt acceptabile, minima fiind de 0,104, iar maxima 0,360 cu o medie a corelațiilor inter-itemi de 0,212.
Consistența internă a factorului Intelect
Chiar după eliminarea itemului 227, care prezintă o corelație negativă și foarte slabă cu scorul total, consistența internă a scalei este de 0,486 (0,493 în variantă standardizată) și nu crește peste 0,50.
Tabel V-42 Corelația item-scală pentru factorul Intelect
Într-adevăr, corelațiile sunt foarte mici, chiar dacă asumpția normalității distribuției multivariate a fost atinsă (t2=2561,766; F(6,4582)=426,000; p<0,01). Pe de altă parte itemii au un caracter multiplicativ, criteriul aditivității nefiind îndeplinit (F(6,4587)=474,630; p<0,01) (Tukey=227,061; p<0,01). Cea mai puternică legătură inter-itemi este de 0,296, iar cea mai slabă 0,018 cu o medie a corelațiilor inter-itemi de 0,122.
Consistența internă a factorului Liberalism
La nivelul factorului Liberalism consistența internă a scalei este de 0,498, în versiunea standardizată obținându-se un coeficient de 0,503, iar modificările operate la nivel de itemi nu conduc către coeficienți semnificativ superiori.
Tabel V-43 Corelația item-scală pentru factorul Liberalism
Coeficienții de corelație item-scală sunt mici, puterea itemilor este redusă, asumpția normalității multivariate este îndeplinită (t2=1622,412; F(7,4584)=231,470; p<0,01). Criteriul aditivității nu a fost însă atins (F(7,4590)=246,817; p<0,01), vorbind despre interacțiuni multiplicative la nivel de itemi (Tukey=17,670; p<0,01). Media corelațiilor inter-itemi este de 0,112, valoarea minimă fiind 0,022, iar cea maximă 0,202.
Consistența internă a dimensiunii Deschidere
Tabel V-44 Corelația item-scală pentru dimensiunea Deschidere
În condițiile eliminării itemilor 217, 201, 237, 227, așa cum s-a arătat mai sus, consistența internă a dimensiunii Deschidere este de 0,770, în variantă standardizată 0,767. Chiar și în această situație există itemi cu varianță negativă și corelație foarte mică între aceștia și scorul total care conduc la reducerea consistenței scalare.
Asumpția distribuțiilor multivariate normale a fost îndeplinită la nivelul dimensiunii Deschidere (t2=11872,873; F(43,4410)=273,508; p<0,01), însă criteriul aditivității nu (F(43,4452)=603,108; p<0,01), deoarece itemii prezintă interacțiuni multiplicative (Tukey=766,971; p<0,01). Media corelațiilor inter-itemi este foarte mică (0,070), faptul fiind cauzat de existența unei corelații negative importante (-0,245), în timp ce corelația maximală este de 0,406.
Concluzii asupra consistenței scalare a itemilor pe factori
Deoarece modelarea pe baza teoriei răspunsului la item are în vedere unidimensionalitatea, accentul va fi pus pe analiza factorilor (fațetelor) și nu a dimensiunilor. În acest sens, toate prelucrările ulterioare vor ține cont doar de scalele cu o consistență internă acceptabilă, chiar dacă vom considera și factorii care nu ating pragul standard de 0,70.
Figura – Reprezentarea consistenței interne la nivel de factori (linia verde reprezintă pragul ideal de 0,70 iar linia portocalie pragul minimal de 0,60
Tabel V-45 Centralizarea consistenței interne pe factori
Din tabelul V-45 rezultă că un număr de 8 factori ar trebui excluși din analizele ulterioare din cauza unei consistențe scalare foarte mici. Totuși, vom verifica structura internă și a acestor factori pentru a vedea în ce măsură sursele de inconsistență scalară sunt reprezentate de erori sau se sunt cauzate de o structură particulară a factorilor.
Asumpția distribuției multivariate normale a fost atinsă la nivelul tuturor factorilor analizați. Totuși, criteriul aditivității nu a fost atins la niciunul dintre factori. Acest lucru este cauzat, în special, de caracterul dihotomic al itemilor dar și de numărului relativ redus de itemi ai factorului (maximum 8) și nu constituie o eroare în sine.
Analiza factorială pe componente principale
Analiza factorială clasică presupune îndeplinirea unor anumite asumpții pentru ca procedura să fie validă:
Asumpția fundamentală a analizei factoriale vizează existența unor variabile corelate. Mai mult, corelațiile trebuie să fie liniare. Această condiție se numește și condiția consistenței scalare, specificând că modelele de covariație la nivelul variabilelor observate (în cazul nostru itemii) trebuie să corespundă unui factor latent. Dacă la nivelul dimensiunilor am putea considera îndeplinită această asumpție, la nivelul factorilor am arătat mai sus problemele existente.
Asumpția variabilelor dependente multiple este îndeplinită parțial. Fiecare factor conține, în principiu, un număr de 8 itemi, considerați drept variabile dependente.
Asumpția scalei de interval poate fi îndeplinită strict doar la nivelul analizei dimensiunilor. Itemii sunt dihotomici, iar scalele sunt considerate sumative, fapt care conduce la o acceptare a asumpției nu și la o îndeplinire strictă a acesteia.
Asumpția distribuțiilor multivariate normale a fost îndeplinită așa cum s-a arătat în secțiunea anterioară.
Asumpția lotului de cercetare a fost îndeplinită, raportul de 1:20 între numărul itemilor și numărul subiecților fiind perfect adecvat.
Strict procedural, nu îndeplinim condițiile necesare unei analize factoriale clasice. Vom prefera, în acest sens, extragerea componentelor principale folosind date categoriale (CATPCA), metodă care va permite modelarea mai precisă a datelor obținute. Inițial, răspunsurile subiecților au fost codate cu 0 și 1 în baza de date, această atribuire având o valoare pur categorială, fără existența vreunei relații de ordine. Deoarece CATPCA nu acceptă valori nule, asimilându-le lipsei răspunsului, am procedat la recodificarea valorii 0 cu valoarea 2. Pentru că itemii nu se situează la un nivel de măsură ordinal sau parametric, această operațiune este perfect legitimă. Sub aspectul analizei factorilor în cadrul dimensiunii, distribuția teoretică se situează între 0 și 8 puncte. Fiindcă aceste scale pot fi asimilate nivelului de interval, s-a procesat la discretizarea categoriilor bazată pe ranguri deoarece la nivelul scalelor nu îndeplinim criteriul normalității distribuției. De asemenea, pentru creșterea preciziei, s-au exclus din analiză subiecții care nu aveau date la cel puțin unul dintre itemii incluși.
Normalizarea s-a realizat pe baza optimizării corelației dintre variabile, metoda „Variable principal” fiind perfect adecvată acestui scop. Criteriul de convergență a fost stabilit la 0,000001, iar numărul maxim de iterații va fi de 100. Au fost excluse din analiză cazurile lipsă, toate procesările de date efectuându-se doar pe baza datelor valide. Raportul datelor este de peste 1:500 în cazul factorilor și peste 1:667 în cazul dimensiunilor, fapt care indică pertinența analizei. La nivelul factorilor, scalele au fost definite ca nominale, iar la nivelul dimensiunilor pot fi asimilate celor strict ordinale.
Modelele de analiză ale componentelor principale folosind date categoriale presupun studiul coordonatelor centroide și a coordonatelor vectoriale. Coordonatele vectoriale sunt determinate de spațiul scorurilor și de spațiul categoriilor de răspunsuri. Categoriile de răspuns sunt reprezentate printr-o dreaptă delimitată de cele două dimensiuni (factori latenți), coordonatele vectoriale reprezentând coordonatele fiecărei categorii de răspuns pe această axă. Coordonatele centroide se referă strict la scoruri și indică poziția fiecărei categorii de răspuns (determinată de scorurile acesteia) în spațiul determinat de dimensiuni.
Factorului „Afectivitate”
Factorul „Afectivitate” al dimensiunii „Extraversiune” conține un număr de 8 itemi dihotomici grupați în vederea măsurării scalei. Soluția analizei factoriale ar trebui să cuprindă o singură dimensiune. Toate variabilele au fost definite ca fiind nominale și s-a ales extragerea unui număr de 2 componente și nu una, câte presupunem că există, deoarece am dorit să identificăm cât mai precis consistența scalelor și saturația acestora cu itemi. În plus, am dorit să aflăm dacă există itemi care se referă la alte dimensiuni, necuprinse în modelul nostru. Analiza s-a bazat pe un număr de 4621 de cazuri, un număr de 26 de cazuri nefiind incluse din cauza absenței tuturor datelor.
Tabel V-46 Istoricul iterațiilor pentru factorul „Afectivitate”
Convergența matricei s-a realizat după o singură iterație, deoarece nu a existat o creștere semnificativă a varianței la nivelul ultimei iterații. Rădăcina matricei de corelații (eigenvalue) este de 3,60, indicând faptul că un model bidimensional poate explica 45,06% din varianța factorului prin intermediul celor 8 itemi.
Cea mai importantă dimensiune este prima dimensiune, itemii saturând-o în proporție de 31,88% (Eigenvalue=2,55). A fost identificată și o a doua dimensiune, itemii saturând-o în procent de 13,17% (Eigenvalue=1,05). Consistența scalelor este însă foarte mică în cazul celei de-a doua dimensiuni (Alpha Cronbach=0,057), fapt care indică posibilitatea existenței unor itemi problematici. Prima dimensiunea poate fi identificată cu factorul studiat, „Afectivitate”, iar a doua dimensiune poate fi reținută deoarece prezintă un eigenvalue supraunitar, caracteristicile acesteia fiind deduse în urma analizei itemilor.
Analizând coordonatele variabilelor în raport cu dimensiunile observăm că mediile coordonatelor centroide sunt relativ mari, fapt care ar conduce la ideea că toți itemii sunt relevanți pentru dimensiunea studiată. Studiul coordonatelor centroide arată că itemul 7 pare să satureze mai curând cea de-a doua dimensiune decât prima dimensiune, cea de interes.
Tabel V-47 Coordonatele variabilelor în raport cu dimensiunile
Mai mult, itemii 19 și 31 au coordonate vectoriale apropiate, rezultând că aceștia se referă la ambele dimensiuni, deși predomină saturația în prima dimensiune. Totalul coordonatelor vectoriale arată că toți itemii sunt relevanți pentru această dimensiune, cel mai puternic item fiind itemul 19, iar cel mai slab item fiind itemul 25.
Tabel V-48 Saturația în factori pentru scala „Afectivitate”
Analiza saturației factorului indică un singur item problematic, itemul 7. Acesta pare a fi singurul care saturează puternic cea de-a doua dimensiune, deși există saturații importante și din partea itemilor 19, 31 chiar și 43. Din analiza itemilor constatăm și sensul consistenței scalei. În raport cu prima dimensiune există un singur item care saturează invers scala (itemul 37), acesta având un sistem inversat de cotare. Ceilalți itemi saturează prima dimensiune între 0,425 (itemul 7) și 0,642 (itemul 37). Raportat la a doua dimensiune, saturațiile sunt cuprinse între 0,080 (itemul 37) și 0,492 (itemul 7), variabilitatea fiind semnificativ mai mare și, implicit, consistența redusă.
Remarcăm existența unui număr de două zone principale care dau sensul celei de-a doua componente. Prima zonă implică saturații scăzute la cea de-a doua dimensiune asociată afectivității și implică itemii 25, 43 și 31 (Itemul 25 – Pot spune despre prietenii mei: A. că îi cunosc mai bine ca oricine; B. că prefer să nu intru în spațiul lor intim. Itemul 31 – În general: A. mi-ar fi greu fără prieteni buni, intimi; B. nu am nevoie de confidențe intime cu ceilalți. Itemul 43 – Consider că: A. nu am multe secrete față de prietenii mei; B. sunt multe lucruri pe care le țin numai pentru mine). Cea de-a doua zonă implică saturații ridicate în dimensiunea a doua și include itemii 7, 13 și 19 (Itemul 7 – Față de necunoscuți, am o atitudine mai degrabă: A. prietenoasă și expansivă; B. calmă și rezervată. Itemul 13 – Atunci când sunt într-un colectiv nou: A. îmi fac prieteni cu ușurință; B. nu mă interesează să mă apropii prea mult de ceilalți. Itemul 19 – Într-un grup de persoane necunoscute: A. aștept să facă ceilalți primul pas; B. mă apropii cu ușurință de ceilalți).
Analiza celor două grupe de itemi indică sensul celei de-a doua dimensiuni subordonate afectivității. Astfel, afectivitatea poate fi în relație cu prietenii și cunoscuții și în relație cu persoanele necunoscute. Putem vorbi despre o afectivitate în spațiul determinat de apropiați, în cercul intim de prieteni, care reflectă comportamentul subiecților în asemenea situații și o afectivitate în raport cu situațiile noi, necunoscute, comportamentul subiecților în situația de a cunoaște persoane, de a stabili contacte sociale noi.
Itemii 1 și 37 (Itemul 1 – În relație cu ceilalți: A. prefer să-mi împărtășesc emoțiile și sentimentele; B. nu simt nevoia să mă implic emoțional prea mult. Itemul 37 – În general: A. păstrez pentru mine ceea ce simt; B. vorbesc deschis celorlalți despre ceea ce simt.) vizează afectivitatea în general, în absența orientării către dimensiunea menționată anterior. Remarcăm și sensul inversat al răspunsurilor în cazul itemului 37, acesta fiind motivul saturației inverse pentru dimensiunea principală.
Aspectele sunt clar reliefate și în graficul coordonatelor vectoriale ale celor opt itemi în raport cu cele două dimensiuni. Itemii 1 și 37 nu diferențiază la nivelul celei de-a doua componente, remarcându-se și inversarea scalei pentru itemul 37. Itemii 13, 19 și 7 saturează pozitiv și puternic cea de-a doua scală, iar itemii 25, 43 și 31 o saturează negativ și puternic.
În mod clar, itemii preconizați inițial că ar măsura afectivitatea reușesc să explice 31,88% din varianța acesteia. Prima dimensiune va putea fi considerată afectivitatea generală. În același timp, remarcăm și o axă a acesteia care reglează comportamentul față de prieteni în raport cu comportamentul față de necunoscuți. Această subcomponentă este responsabilă de explicarea a 13,17% din varianța afectivității, în acord cu definiția sa operațională, și o putem numi „afectivitate contextuală” sau „afectivitate determinată social”. Reprezentativ pentru această componentă este itemul 7 care postulează, de fapt, definiția sub-dimensiunii.
Coordonatele centroide în raport cu dimensiunile rezultate indică o bună grupare a scorurilor în raport cu prima dimensiune (afectivitatea generală), însă o variabilitate mai mare a acestora în raport cu a doua dimensiune (afectivitatea contextuală). Din aceste motive, afectivitatea contextuală nu se poate considera o dimensiune distinctă, ci, mai curând, o subdimensiune, o axă secundară care poate direcționa afectivitatea generală.
Factorul „Sociabilitate”
Factorul „Sociabilitate” se referă la dimensiunea „Extraversiune” și conține un număr de 8 itemi dihotomici. Și în acest caz, soluția va conține o singură dimensiune, decizia fiind de a extrage două componente din motivele menționate deja anterior. Analiza s-a bazat pe un număr de 4599 cazuri valide, 48 de cazuri nefiind incluse în procesare.
Tabel V-49 Istoricul iterațiilor pentru factorul „Sociabilitate”
Convergența matricei s-a realizat după o singură iterație, rădăcina matricei de corelații fiind de 3,92, modelul bidimensional explicând 49,07% din varianța factorului prin intermediul celor 8 itemi.
Prima dimensiune identificată este și cea mai importantă, itemii saturând-o în procent de 36,65% (Eigenvalue=2,932). A doua dimensiune identificată este saturată de itemi în procent de 12,42% (Eigenvalue=0,994), însă cele două scale sunt antagonice. Dacă prima dimensiune are o consistență bună (Alpha Cronbach = 0,753), a doua scală este inconsistentă (Alpha Cronbach=0,007) și negativă, probabil că unii itemi având un sistem de scorare inversat. În mod cert, dimensiunea „Sociabilitate a fost identificată, valoarea eigenvalue pentru cea de-a doua dimensiune excluzând reținerea acesteia.
Tabel V-50 Coordonatele variabilelor în raport cu dimensiunile
Mediile coordonatelor centroide conduc la ideea reținerii tuturor itemilor în această dimensiune, singurul item cu probleme fiind itemul 38, care saturează mai puternic a doua dimensiune. Totalul coordonatelor vectoriale arată că cel mai reprezentativ item pentru dimensiune este itemul 38, in timp ce itemul 2 este considerat cel mai puțin reprezentativ. Deoarece itemul 38 se referă la o altă dimensiune față de ansamblul celorlalți itemi, este firesc să fie reprezentativ pentru dimensiunea unică pe care o reprezintă. În acest caz, vom considera itemul 32 ca fiind cel mai relevant pentru dimensiunea „Sociabilitate”.
Principalul item problematic la nivelul acestei scale este itemul 38 care saturează mai puternic cea de-a doua dimensiune. Alături de acesta, putem identifica și itemii 14 și 20 care par orientați înspre o dimensiune suplimentară. Itemul 20 saturează invers scala, cel mai probabil din cauza unui sistem inversat de cotare a răspunsurilor semnificative. Pentru prima dimensiune, coeficienții de saturație variază între 0,525 (itemul 14) și 0,701 (itemul 32), iar în cazul celei de-a doua dimensiuni asistăm la o variabilitate cuprinsă între 0,036 (itemul 26) și 0,575) itemul 38. Fiind coeficienți relativ mici, nu putem convinge de existența unei a doua dimensiuni importante la nivelul sociabilității, fapt remarcat și de rădăcina matricei de corelații. Totuși, cea de-a doua dimensiune, similar factorului „afectivitate”, ar putea constitui o axă directoare a sociabilității.
Într-adevăr, se remarcă și aici două zone principale. Prima zonă este cea cu saturații ridicate și pozitive în componenta a doua și cuprinde itemii 14 și 8 (Itemul 14 – Când merg la petreceri: A. încerc să discut cu persoane necunoscute; B. prefer să rămân între prieteni. Itemul 8 – Pot să spun că am: A. foarte mulți prieteni; B. foarte puțini prieteni.), iar cea de-a doua zonă conține itemii 32, 20 și 38 (Itemul 32 – În general: A. mă indispune dacă nu am prieteni în preajmă; B. prefer să mă bucur de liniște și intimitate. Itemul 38 – În general: A. sunt dependent de grupul meu de prieteni; B. nu am nevoie de cei din jur pentru a mă simți bine. Itemul 20 – Sunt invitat la petreceri: A. destul de rar; B. destul de des.) care saturează negativ cea de-a doua dimensiune.
Tabel V-51 Saturația în factori pentru scala „Sociabilitate”
Primul set de itemi reflectă sociabilitatea propriu zisă, manifestă, externă, regăsită în comportamentul propriu zis, în timp ce al doilea set de itemi se referă mai curând la nevoia de sociabilitate, la dorința internă de a fi în compania altora, care poată să nu fie obligatoriu transpusă în comportamente manifeste. Așadar, sociabilitatea poate fi exprimată ca atare, prin comportament, prin relații și interacțiuni sociale, însă poate fi și nemanifestă, sub forma unei trăiri interne de natură pozitivă sau negativă, care exprimă nevoi de interacțiune socială, satisfăcute sau nu.
Itemii 2, 26 și 44 (Itemul 2 – După o zi grea de muncă: A. simt nevoia să ies în oraș cu colegii sau prietenii; B. prefer să citesc o carte sau să vizionez un film. Itemul 26 – Pot spune despre prietenii mei: A. că îi cunosc mai bine ca oricine; B. că prefer să nu intru în spațiul lor intim. Itemul 44 – Cel mai bine mă simt: A. când sunt numai eu și gândurile mele; B. când sunt înconjurat de mulți oameni.) nu sunt afiliați axei determinate de cea de-a doua dimensiune, contribuie la definirea sociabilității, însă dintr-o perspectivă exterioară subiectului, fiind mai curând percepția celorlalți față de sociabilitatea subiectului evaluat.
Analiza coordonatelor vectoriale, pe lângă cotarea inversă a itemului 20, arată și grupele determinate de cea de-a doua dimensiune, relativa apropiere a coordonatelor și inexistența unor zone clar definite, argumente în sprijinul existenței unei axe secundare și nu a unei subcomponente importante în cazul factorului „sociabilitate”. Într-adevăr, itemii 20, 32 și 38 saturează negativ a doua dimensiune, în timp ce itemii 8 și 14 o saturează pozitiv.
Prima componentă, denumită „sociabilitate generală”, explică 36,58% din varianța sociabilității, iar axa secundară „orientarea sociabilității” explică 11,23% din varianța factorului. Prima dimensiune (sociabilitatea generală) este, în mod cert, cea mai importantă. Scorurile se grupează adecvat în raport cu aceasta. A doua dimensiune (orientarea sociabilității) are rolul unei axe de diferențiere între componenta internă și componenta externă, comportamentală, a sociabilității.
Factorul „Asertivitate”
Asertivitatea este un factor component al dimensiunii „Extraversiune” și conține un număr de 8 itemi dihotomici. Soluția se bazează tot pe existența unei dimensiuni unice, analiza având în vedere un număr de 4579 de cazuri, 68 de cazuri neavând suficiente date.
Tabel V-52 Istoricul iterațiilor pentru factorul „Asertivitate”
După o singură iterație a rezultat rădăcina matricei de corelații de 3,62, modelul cu două dimensiuni reușind să explice 45,25% din varianța factorului. Prima dimensiune este saturată în procent de 31,56% (Eigenvalue=2,525) de către itemi. A doua dimensiune este saturată în procent de 13,686% (Eigenvalue=1,095), valoarea rădăcinii identificând o componentă importantă. Prima dimensiune are o consistență bună (Alpha Cronbach=0,69) iar consistența celei de-a doua dimensiuni este foarte slabă (Alpha Cronbach=0,075). Dimensiunea principală „Asertivitate” este identificată și validă, cu toate că valoarea supraunitară a rădăcinii celei de-a doua dimensiuni indică posibilitatea reținerii acesteia.
Tabel V-53 Coordonatele variabilelor în raport cu dimensiunile
Media coordonatelor centroide arată că itemii pot fi reținuți pentru acest factor, itemul 45 saturând însă mai puternic a doua componentă.
Tabel V-54 Saturația în factori pentru scala „Asertivitate”
Plecând de la coordonatele vectoriale, cel mai reprezentativ item este itemul 15, iar cel mai slab este itemul 3. Totodată, un număr de trei itemi (15, 21 și 39) saturează relativ egal ambele componente. Putem constata că, într-adevăr, itemul 45 vizează cea de-a doua componentă extrasă. Chiar dacă am identificat și alți itemi care se referă la componenta a doua, aceștia au un comportament opus itemului 45. Este vorba despre itemii 15 și 39, în timp ce itemii 21 și 33 acționează în sensul itemului reprezentativ. Chiar dacă nu surclasează prima dimensiune, coeficienții celei de-a doua dimensiuni sunt importați, mai ales dacă avem în vedere saturația itemilor 15, 21, 33 și 39). În mod clar, așa cum rezultă și din eigenvalue, cea de-a doua dimensiune pare a fi o subcomponentă a asertivității și nu o simplă axă a acesteia.
Putem remarca, brut, un număr de trei categorii ale asertivității determinate de cea de-a doua componentă. Prima categorie conține itemi care saturează pozitiv și destul de puternic cea de-a doua dimensiune (Itemul 45 – Dacă șeful îmi cere să realizez o sarcină stupidă: A. o execut fără să îmi exprim nemulțumirea; B: îl refuz, provocând o discuție despre atribuțiile mele. Itemul 21 – Colegii de serviciu îmi pot reproșa mai degrabă că: A. o fac pe șeful; B. nu ies din cuvântul șefului. Itemul 33 – Colegii îmi pot reproșa mai degrabă că: A. încerc să le planific și lor activitățile; B. aștept tot timpul ca cineva să-mi spună ce am de făcut.). A doua categorie se referă la itemii care saturează negativ cea de-a doua dimensiune (Itemul 15 – Sunt o persoană mai degrabă: A. vorbește; B. ascultă. Itemul 39 – În general: A. spun mereu ceea ce gândesc; B. intervin doar când cred că este esențial să o fac.) A treia categorie de itemi se distinge prin faptul că are saturații negative spre medii în a doua dimensiune, însă mai slabe comparativ cu itemii din a doua categorie (Itemul 9 – În grupul de prieteni obișnuiesc: A. să iau inițiativa; B. să las pe alții să o facă. Itemul 27 – De obicei: A. prefer să ies în evidență; B. prefer să nu fiu remarcat.).
Conform definiției operaționale, asertivitatea vizează tendințele de a prelua inițiativa, de a conduce, de a direcționa activitățile altora. Prima componentă are o puternică orientare profesională și definește asertivitatea în sensul relațiilor de serviciu. A doua componentă se referă mai puțin la asertivitate în sensul definiției operaționale și mai mult la actul de comunicare socială, în grup. În fine, cea de-a treia componentă este asemănătoare conceptual cu cea de-a doua, doar că nu mai vizează comunicarea, ci implicarea în grup și coordonarea grupului.
Coordonatele vectoriale arată în mod cert cele trei grupe de itemi determinate de dimensiunea secundară.
Prima componentă se referă, în mod limpede, la asertivitatea globală a subiecților și explică 31,55% din varianța factorului. A doua componentă vizează asertivitatea contextuală, explicând 13,42% din varianță și distinge între comportamentul asertiv în activitatea profesională și comportamentul asertiv în grup informal. Însumând, de prima categorie se ocupă itemii 45, 21 și 33 iar de a doua categorie se ocupă itemii 9, 15, 27 și 39.
Factorul „Activitate”
Factorul „Activitate” intră în componența dimensiunii „Extraversiune” și conține un număr de 8 itemi dihotomici. Folosim aceeași soluție dimensională în vederea analizei, aceasta bazându-se pe un număr de 4606 subiecți, 41 de subiecți neavând toate datele necesare procesării.
Tabel V-55 Istoricul iterațiilor pentru factorul „Activitate”
Soluția converge după o singură iterație, rădăcina matricei de corelații fiind de 3,63, modelul cu două dimensiuni explicând 45,37% din varianța factorului.
Prima dimensiune are o saturație de 28,87% (Eigenvalue=2,31), iar a doua dimensiune este saturată de către itemi în procent de 16,50% (Eigenvalue=1,32), fiind, de asemenea, o dimensiune importantă a modelului. În cazul primei dimensiuni consistența itemilor este bună (Alpha Cronbach=0,648), cea de-a doua dimensiune are o consistență foarte slabă (Alpha Cronbach=0,277). Concluzionând, consistența itemilor, luând în considerare ambele dimensiuni, este de 0,828. S-a identificat dimensiunea principală, „activitatea”, însă prezența celei de-a doua dimensiuni poate conduce la ideea existenței unei subcomponente.
În urma analizei coordonatelor variabilelor în raport cu dimensiunile extrase observăm că mediile coordonatelor centroide sunt acceptabile și putem trage concluzia că itemii sunt relevanți pentru dimensiunea studiată. Un număr de trei itemi (4, 28 și 36) par să satureze mai curând cea de-a doua dimensiune decât prima. Itemii 28 și 46 au coordonate vectoriale apropiate, putându-se referi la ambele dimensiuni, chiar dacă predomină saturația în cea de-a doua dimensiune. Totalul coordonatelor vectoriale arată că itemii sunt relevanți pentru acest model, cel mai slab item fiind itemul 16, iar cel mai puternic itemul 22.
Tabel V-56 Coordonatele variabilelor în raport cu dimensiunile
Prima componentă rezultată este saturată de itemi cu coeficienți cuprinși între 0,267 (itemul 4) și 0,691 (itemul 40), variabilitatea fiind destul de ridicată. A doua componentă este saturată între 0,011 (itemul 40) și 0,598 (itemul 4). Un număr de trei itemi (4, 28 și 46) au saturații mai mari în a doua componentă în comparație cu prima, element problematic pentru structura factorului.
Remarcăm un număr de două zone determinate de cea de-a doua dimensiune. Prima zonă cuprinde trei item (Itemul 4 – De obicei: A. simt nevoia să lucrez la mai multe idei, proiecte în același timp; B. obișnuiesc să mă concentrez pe un singur proiect. Itemul 28 – Se poate spune despre mine că: A. sunt mereu ocupat, pe fugă; B. sunt mereu relaxat, liniștit. Itemul 46 – Mi se reproșează mai degrabă că: A. mă risipesc implicându-mă în prea multe activități sau proiecte; B. mă implic doar când este absolut necesar.) iar cea de-a doua zonă conține: Itemul 10 – Când am timp liber: A. mă simt mai bine dacă fac mișcare, ies; B. prefer să mă uit la un film bun acasă. Itemul 22 – Nimic nu îmi încarcă bateriile mai mult decât: A. o mică petrecere cu prietenii sau colegii; B. o zi de lenevit. Itemul 34 – Într-o zi liberă nu îmi place: A. să stau acasă singur cu gândurile mele; B. să fiu nevoit să plec de acasă.
Este acum evident faptul că itemii care saturează pozitiv a doua dimensiune se referă la activitatea profesională iar itemii care saturează negativ a doua dimensiune vizează activismul personal, de timp liber.
Itemul 16 – Obișnuiesc: A. să găsesc mereu câte ceva de făcut; B. să îmi fac mai mult timp liber pentru a mă relaxa și itemul 40 – Mă caracterizează faptul de a fi: A. în căutarea liniștii, a relaxării; B. dependent de acțiune, mereu în mișcare se referă la activismul general, nefiind influențat semnificativ de cea de-a doua componentă. Faptul că a doua componentă este una importantă rezultă și din analiza coordonatelor vectoriale. Putem remarca cele trei grupuri distincte și, în special, itemul 4, care diferențiază foarte bine la nivelul celei de-a doua dimensiuni și mai puțin bine la nivelul primei componente.
Tabel V-57 Saturația în factori pentru scala „Activitate”
Prima componentă se referă la activitatea generală, fiind, în mod cert, componenta principală și având o saturație de 28,82%. A doua componentă poate fi numită „activitate contextuală”, are o saturație de 16,51% și distinge între activismul profesional, în condițiile serviciului, și activismul habitual, comun, de timp liber.
Analiza coordonatelor răspunsurilor pentru cele două dimensiuni relevă importanța celei de-a doua componente. Faptul că răspândirea scorurilor este relativ egală de-a lungul celor două dimensiuni conduce la ideea că, sub aspectul activității, separația profesional-habitual nu poate fi ignorată.
Factorul „Excitabilitate”
Un alt factor al dimensiunii „Extraversiune”, bazat pe 8 itemi dihotomici și pe același model dimensional este factorul „Excitabilitate”. Analiza s-a realizat pe un număr de 4597 cazuri, 50 de subiecți neavând suficiente date pentru a efectua prelucrările.
În urma unei singure iterații a fost atins pragul necesar găsirii soluției factoriale, rezultând o rădăcină a matricei de corelații de 3,739, modelul cu două dimensiuni explicând 46,72% din varianța factorului. Prima dimensiune este saturată de itemi în procent de 32,69% (Eigenvalue=2,637), iar cea de-a doua dimensiune are o saturație de 13,77% (Eigenvalue=1,102). Consistența internă totală a modelului este de 0,837, pentru prima dimensiune consistența internă este de 0,71, iar pentru a doua dimensiune consistența internă este extrem de mică (0,105).
Tabel V-58 Istoricul iterațiilor pentru factorul „Excitabilitate”
Pe baza analizei coordonatelor variabilelor în raport cu dimensiunile observăm medii acceptabile, itemii putând fi considerați relevanți pentru dimensiune. Itemul 17 se referă mai curând la cea de-a doua dimensiune, iar itemii 5 și 47 au coordonate vectoriale relativ apropiate.
Tabel V-59 Coordonatele variabilelor în raport cu dimensiunile
În condițiile date, cel mai puternic item al modelului cu două componente este itemul 17 (reprezentativ pentru a doua dimensiune), iar cel mai slab item este itemul 11.
Itemul 17 – În general: A. mă plictisesc repede și îmi planific activități noi; B. găsesc satisfacție în activitățile cotidiene – saturează puternic a doua dimensiune și pare distanțat de ansamblul celorlalți doi itemi cu saturații pozitive în această componentă (Itemul 5 – Sunt gata să-mi asum riscuri: A. când se ivește o ocazie atractivă; B. numai când este absolut necesar și Itemul 23 – Un ritm de viață liniștit: A. mă plictisește; B. mă face să mă simt confortabil). De asemenea, itemul 47 – Ideea apariției unor încercări sau provocări: A. mă îngrijorează; B. mă activează și mă încântă – pare a se situa la polul opus, saturând negativ cea de-a doua componentă, distanțat de itemul 11 – Când mi se propune ceva ce nu am mai încercat: A. refuz fără să mă gândesc prea mult; B. îmi asum riscul și accept imediat, itemul 29 – Prefer o zi de muncă: A. banală, fără prea multe surprize; B. cu momente de suspans și neprevăzut și itemul 35 – Îmi plac mai mult: A. întâmplările surprinzătoare; B. evenimentele anticipate.
Tabel V-60 Saturația în factori pentru scala „Excitabilitate”
Analizând itemii extremi putem conchide că aceștia au fost probabil eronat percepuți de către subiecți. În cadrul itemului 17, satisfacția unor sarcini cotidiene este opusă plictiselii. Modul de formulare a celei de-a doua variante de răspuns nu este adecvat, cel mai probabil urmând să fie înlocuit cu o formă care indică perseverența în sarcină și nu satisfacția. În cazul itemului 47, elementul „îngrijorare” din prima variantă de răspuns nu a fost adecvat ales. Probabil că o formulare de genul „mă lasă indiferent” ar fi oportună.
Eliminând itemii 47 și 17, considerați eronat formulați, vom putea rezuma o structură unidimensională a itemilor, fără a remarca prezența unor subdimensiuni sau axe de orientare.
Factorul „Veselie”
Factorul „Veselie” a dimensiunii „Extraversiune” conține un număr de 8 itemi dihotomici, analiza realizându-se pe baza unui număr de 4594 cazuri valide, 53 de subiecți neavând suficiente informații pentru a fi incluși în prelucrare.
Convergența matricei se realizează după o singură iterație, soluția optimă fiind reprezentată de un model pur unidimensional, cu o rădăcină a matricei de corelații de 2,69, modelul explicând 33,7% din varianța itemilor.
Tabel V-61 Istoricul iterațiilor pentru factorul „Veselie”
Cea de-a doua dimensiune nu este relevantă, rădăcina matricei fiind subunitară. În cazul primei dimensiuni, consistența scalară este bună (Alpha Cronbach = 0,719), astfel încât itemii se referă la constructul măsurat.
Tabel V-62 Coordonatele variabilelor în raport cu dimensiunile
Din analiza coordonatelor variabilelor în raport cu dimensiunile concluzionăm că mediile coordonatelor centroide sunt acceptabile pentru a reține spre analiză întregul set de itemi. Itemii 18 și 42 au saturații mici în prima dimensiune și mari în cea de-a doua, fapt care ne poate determina să considerăm că formează o axă secundară. Totalul coordonatelor vectoriale indică o relevanță crescută a itemilor, cel mai slab item fiind itemul 36, iar cel mai puternic 42, cel care saturează axa.
Într-adevăr, itemul 18 – Dacă colegii fac o glumă pe seama mea: A. mă amuz impreună cu ei; B. mă prefac că nu am înțeles poanta și itemul 42 – Mă pot caracteriza ca fiind o persoană: A. realistă; B. optimistă – par să nu facă parte din contextul definiției operaționale a factorului, fapt care explică puternica lor distanțare de ansambul celorlalți itemi. Eliminarea acestora sau încadrarea lor într-un alt factor ar putea conduce la crearea unei scale unidimensionale. Nu se remarcă probleme deosebite la nivelul celorlalți itemi. Dimensiunea este saturată între 0,481 (itemul 6) și 0,758 (itemul 12).
Tabel V-63 Saturația în factori pentru scala „Veselie”
Aspectele menționate transpar și din graficul coordonatelor vectoriale pentru itemii factorului „veselie”.
Într-adevăr, itemii 18 și 42 par să formeze două dimensiuni distincte. Prima este relaționată cu simțul umorului, iar cea de-a doua s-ar asocia realismului, doar că variantele de răspuns opun realismul optimismului, aceste categorii nefiind reciproc exclusive.
Coordonatele centroide arată o bună grupare a scorurilor în raport cu dimensiunea reală și o variabilitate mare în raport cu cea de-a doua dimensiune. Acest lucru indică faptul că a doua dimensiune nu există, cei doi itemi urmând a fi eliminați.
Factorul „Încredere”
Factorul „Încredere” aparține dimensiunii „Agreabilitate”, conține un număr de 8 itemi dihotomici și a fost analizat în baza unui număr de 4606 cazuri, 41 de subiecți neavând toate datele necesare analizei.
Tabel V-64 Istoricul iterațiilor pentru factorul „Încredere”
După o singură iterație s-a realizat convergența matricei, deoarece nu a existat o creștere semnificativă a varianței la nivelul celei de-a doua iterații. Rădăcina matricei de corelații este de 3,37, modelul bidimensional explicând 42,24% din varianța celor 8 itemi. Au rezultat două dimensiuni, prima fiind saturată în procent de 29,13% (Eigenvalue=2,33), iar cea de-a doua în procent de 13,11% (Eigenvalue=1,04). Dacă pentru prima scală itemii sunt consistenți (Alpha Cronbach=0,652), în cazul celei de-a doua scale consistența itemilor este aproape absentă (Alpha Cronbach=0,053). Am putea anticipa că cea de-a doua dimensiune are mai curând caracterul unei axe în contextul primei.
Tabel V-65 Coordonatele variabilelor în raport cu dimensiunile
Din studiul coordonatelor variabilelor în raport cu dimensiunile, mediile coordonatelor centroide sunt acceptabile, itemii fiind relevanți pentru dimensiunea studiată. Itemii 79 și 85 par a satura mai curând cea de-a doua dimensiune, iar itemii 61, 73 și 79 au coordonate vectoriale apropiate, fiind importanți pentru ambele dimensiuni. Cel mai puternic item este itemul 91, iar cel mai slab, itemul 85.
O primă remarcă efectuată este aceea că itemii 49, 55 și 91 sunt reprezentativi pentru definiția operațională a factorului (Itemul 49 – Când un necunoscut se oferă să mă ajute, tind să cred că: A. este bine intenționat; B. urmărește să obțină ceva. Itemul 55 – Prietenii spun despre mine că: A. privesc cu multă neîncredere celelalte persoane; B. acord prea multă încredere oamenilor. Itemul 91 – În ceea ce privește bunele intenții declarate de ceilalți: A. sunt un pic cam sceptic(ă) sau chiar cinic(ă); B. sunt mult prea încrezător / încrezătoare.). Grupul de itemi 61, 67 și 85 prezintă saturații mari în a doua dimensiune și medii în raport cu prima dimensiune (Itemul 61 – Când cineva îmi adresează un compliment: A. îl accept cu plăcere; B. am tendința să mă întreb ce intenții stau în spatele lui. Itemul 67 – Atunci când cineva îmi promite ceva foarte important: A. mă tem că nu-și va respecta cuvântul; B. sunt convins că se va tine de promisiune. Itemul 85 – Cred că oamenii lucrează mai eficient: A. dacă sunt supervizați și controlați; B. dacă li se dă ,,mână liberă” în rezolvarea problemelor.), iar grupul de itemi 73 și 79 are saturații mici în raport cu a doua dimensiune și medii în raport cu prima (Itemul 73 – Când cineva îmi povestește ceva ieșit din comun: A. mă gândesc că anumite lucruri sunt inventate; B. cred că îmi spune adevărul. Itemul 79 – În relațiile cu ceilalți sunt mai degrabă: A. suspicios; B. naiv.) Sensul celui de-al doilea grup este dat de itemul 85 și vizează, mai curând, o încredere în activități profesionale, iar sensul celui de-al treilea grup este dat de itemul 79 și vizează o încredere pe plan social, informal.
Tabel V-66 Saturația în factori pentru scala „Încredere”
Încrederea poate fi, așadar, în raport cu activitățile profesionale, cu sarcinile formale, și în raport cu activități habituale, sociale, informale. Vorbim despre încredere în sarcini de serviciu, în raport cu șefii sau subordonații, diferită de încrederea în familie, în raport cu grupul de prieteni.
Dimensiunea principală este încrederea generală și explică, după cum am arătat, 29,13% din varianța itemilor. Cea de-a doua componentă este o axă pe care o putem numi contextul încrederii și care explică 13,11% din varianța itemilor, distingând între încrederea acordată în spațiul profesional și încrederea acordată în spațiul personal.
Coordonatele centroide în raport cu dimensiunile arată o bună grupare a scorurilor în jurul celor două dimensiuni cu o variabilitate ușor crescută în raport cu cea de-a doua dimensiune. Prin urmare, contextul încrederii nu se poate considera o subdimensiune sau o dimensiune independentă, ci o axă care orientează încrederea în raport cu contextul în care aceasta se manifestă.
Factorul „Moralitate”
Factorul „Moralitate” face parte din dimensiunea „Agreabilitate” și conține un număr de 8 itemi dihotomici, analiza efectuându-se pe baza a 4621 de subiecți, 26 de subiecți neavând toate scorurile necesare unei analize valide. Convergența matricei se realizează după o singură iterație, neexistând creșteri semnificative ale varianței la nivelul ultimei iterații. Rezultă un model unidimensional care explică 30,34% din varianța itemilor (Eigenvalue=2,12) și o dimensiune secundară, nerelevantă și identificată în baza unei varianțe negative (Eigenvalue=0,957), care ar explica 13,66% din varianță. Cel mai probabil unii itemi nu fac parte din contextul definiției operaționale a constructului. Consistența internă a scalei principale este acceptabilă (Alpha Cronbach=0,618), probabil îmbunătățindu-se după analiza detaliată a itemilor.
Tabel V-67 Istoricul iterațiilor pentru factorul „Moralitate”
Din analiza coordonatelor variabilelor în raport cu dimensiunile rezultă câteva particularități. Itemii 86 și 92 au medii ale coordonatelor centroide foarte mici, fiind nerelevanți pentru scală.
Tabel V-68 Coordonatele variabilelor în raport cu dimensiunile
Acest lucru poate fi cauzat de prezența itemului 74 – de altfel cel mai puternic item al scale –, dar care saturează doar cea de-a doua dimensiune. Probabil că acesta este un item problematic în scala „moralitate”. În baza acestor date putem aprecia doar că itemul 86 este cel mai slab item al scalei. Într-adevăr, nu itemii 86 și 92 sunt problematici, ci itemul 74 – Trag cu coada ochiului prin hârtiile celorlalți: A. rareori și din curiozitate; B. nu mi se întâmplă să fac aceasta. Probabil că acesta a fost perceput ca referindu-se strict la curiozitate și nu la moralitate sau prezintă o tendință puternică de răspuns dezirabil social.
Ansamblul celorlalți itemi este bine grupat în jurul factorului latent „moralitate”, astfel încât putem concluziona că scala este unidimensională, fără subdimensiuni sau axe suplimentare, în condițiile eliminării itemului 74.
Tabel V-69 Saturația în factori pentru scala „Moralitate”
Coordonatele centroide ale scorurilor se grupează adecvat în jurul primei dimensiuni analizate, însă au tendința de a forma două grupuri în raport cu a doua dimensiune. Acest lucru este cauzat, în mod evident, de influența exercitată de itemul 74.
Factorul „Altruism
Factorul „Altruism”, ca parte a dimensiunii „Agreabilitate”, conține 8 itemi dihotomici și a fost analizat pe baza unui număr de 4593 de cazuri valide, 54 de subiecți neavând suficiente scoruri pentru a putea fi procesată informația.
S-a obținut convergența matricei după o singură iterație, neexistând creșteri semnificative ale varianței. La nivel general rezultă un model bidimensional care poate explica 41,54% din varianța celor 8 itemi (Eigenvalue=3,32). Prima dimensiune explică 27,40% din varianța itemilor (Eigenvalue=2,19), fiind asimilată factorului studiat, iar cea de-a doua dimensiune poate fi considerată o subcomponentă sau o axă, explicând 14,14% din varianță (Eigenvalue=1,13).
Tabel V-70 Istoricul iterațiilor pentru factorul „Altruism”
Consistența internă a primei dimensiuni este acceptabilă (Alpha Cronbach=0,622), iar cea de-a doua dimensiune se remarcă prin inconsistența itemilor (Alpha Cronbach=0,133). La nivelul general al modelului bidimensional consistența scalei este bună (Alpha Cronbach=0,799).
Tabel V-71 Coordonatele variabilelor în raport cu dimensiunile
În baza analizei coordonatelor variabilelor în raport cu dimensiunile se constată medii ale coordonatelor centroide acceptabile, fapt care indică reținerea tuturor itemilor, dar și existența unui singur item (itemul 51) care saturează cea de-a doua dimensiune. Fie itemul nu este adecvat definiției operaționale a constructului, fie orientează constructul sau impune răspunsuri dezirabile social. La nivelul itemilor 63, 69 și 75 coordonatele vectoriale ale scorurilor sunt apropiate, fapt care indică o saturație importantă în ambele dimensiuni. Cel mai slab item este itemul 63, iar cel mai puternic este itemul 51, dar care vizează cea de-a doua dimensiune.
Din analiza saturațiilor se observă prezența a două grupuri de itemi și un comportament atipic al itemului 51. Primul grup de itemi prezintă saturații mici în a doua dimensiune și cuprinde itemii 63, 69, 75 și 81 (Itemul 63 – Dacă cineva îmi cere ajutorul: A. nu pot sa spun nu; B. îl ajut doar dacă am cum. Itemul 69 – Dacă aș câștiga o sumă mare de bani: A. aș da jumătate celor apropiați mie; B. aș investi banii sau i-aș depune în bancă. Itemul 75 – Îmi place să mă ocup mai degrabă: A. de propria persoană; B. de persoana de lângă mine. Itemul 81 – Când am ceva bani in plus, prefer: A. să cumpăr un cadou unui prieten(ă); B. să îmi fac un moft.). Cel de-al doilea grup de itemi are saturații mari în a doua dimensiune și se compune din itemii 87 și 93 (Itemul 87 – Îmi ajut colegii de muncă: A. dacă și ei fac la fel când îi solicit; B. chiar dacă ei nu mă ajută. Itemul 93 – Sunt genul de persoană: A. gata să sară în ajutorul celor necăjiți sau în suferință; B. care preferă să nu se implice direct.) la care putem adăuga, în extremis, itemul 51 (Itemul 51 – Când un coleg îmi cere în mod repetat ajutorul: A. mă simt util, folositor; B. mă deranjează fiindcă îmi răpește din timp.)
Tabel V-72 Saturația în factori pentru scala „Altruism”
Devine evident faptul că cea de-a doua dimensiune reprezintă o axă care orientează altruismul în sens material (primul grup de itemi) și în sens social (al doilea grup de itemi). Itemul 51 se referă la altruismul social, dar prezintă și o componentă de disponibilitate. Probabil că acesta a fost perceput ca o disponibilitate de a ajuta alte persoane, dar în condițiile prezenței altor sarcini importante.
Cea de-a doua componentă, care explică 14,14% din varianța itemilor este axa orientării altruismului, ce distinge între subiecții dispuși spre altruism material și cei dispuși spre altruism social, fără implicații materiale, cele două ancore nefiind exclusive. Pot exista persoane predispuse spre altruism social, dar nu și material sau persoane predispuse spre ambele forme de altruism.
Coordonatele centroide în raport cu dimensiunile arată o bună grupare a scorurilor în jurul primei dimensiuni, fapt care indică o consistență a factorului general și o variabilitate mai mare în raport cu cea de-a doua dimensiune, element care poate diferenția în funcție de axa orientării altruismului.
Factorul „Cooperare”
Factorul „Cooperare” prezintă un număr de 8 itemi dihotomici, analiza efectuându-se în baza unui număr de 4580 de scoruri valide, 67 de subiecți fiind excluși din analiză din cauza lipsei tuturor valorilor.
În urma unei singure iterații a rezultat un model bidimensional care explică 40,45% din varianța itemilor (Eigenvalue=3,23). Prima dimensiune explică 27,01% din varianța itemilor și poate fi asociată definiției constructului (Eigenvalue=2,12). A doua dimensiune explică 13,44% din varianța itemilor, este importantă, și poate fi considerată o subdimensiune sau o scală (Eigenvalue=1,07).
Tabel V-73 Istoricul iterațiilor pentru factorul „Cooperare”
Sub aspectul consistenței itemilor raportați la prima dimensiune, aceștia pot fi considerați acceptabili (Alpha Cronbach=0,614). Cea de-a doua dimensiune nu prezintă itemi consistenți (Alpha Cronbach=0,077), dar la nivel general consistența scalei este bună (Alpha Cronbach=0,790).
Tabel V-74 Coordonatele variabilelor în raport cu dimensiunile
Analiza coordonatelor variabilelor indică o reținere a tuturor itemilor pe baza mediilor coordonatelor centroide. Un număr de 2 itemi (itemul 82 și itemul 94) saturează predominant cea de-a doua dimensiune, iar itemii 52 și 82 par să satureze aproximativ la fel ambele dimensiuni. Cel mai slab item este itemul 64, iar cel mai bun pare a fi itemul 58. Saturațiile sunt, totuși, reduse în cazul acestei scale.
Itemii 94 și 82 se asociază cu itemul 52 și creează primul grup de itemi în funcție de cea de-a doua dimensiune pe care o saturează pozitiv (Itemul 52 – Colegii mă consideră o persoană: A. cooperantă; B. competitivă. Itemul 82 – Atunci când lucrez împreună cu ceilalți la o sarcină colectivă, tind să fiu: A. exigent(ă), pentru a ajunge la cel mai bun rezultat; B. conciliant(ă), pentru a păstra relațiile și armonia. Itemul 94 – În disputele cu ceilalți: A. cedez prea ușor și sunt mai degrabă defensiv; B. nu mă las ușor și sunt mai degrabă ofensiv). Itemii 58 și 70 tind să satureze negativ cea de-a doua dimensiune și formează al doilea grup de itemi relevanți (Itemul 58 – În viața mea profesională predomină deciziile care: A. îmi aduc beneficii personale sau oportunități de promovare; B. contribuie la menținerea bunelor relații cu ceilalți. Itemul 70 – În general, acord o mai mare importantă: A. afirmării si realizării ideilor personale; B. armoniei în colaborarea cu ceilalți.)
Tabel V-75 Saturația în factori pentru scala „Cooperare”
În cadrul primului grup de itemi remarcăm atitudini care conduc spre competitivitate, exigență, agresivitate în opoziție cu un comportament defensiv, cooperare, conlucrare, exigență. Al doilea grup evidențiază comportamente de tipul afirmării sociale și individuale, oportunism profesional, opuse celor de armonizare a relațiilor sociale. Este dificil de stabilit caracterul axei secundare din cadrul acestui factor. Primul grup de itemi, la care putem adăuga itemul 64 – Dacă ar fi să aleg mi-ar plăcea mai mult: A. să particip la o competiție; B. să lucrez la un proiect important în echipă corespunde definiției operaționale a constructului și identifică factorul principal. Al doilea grup de itemi nuanțează factorul și diferențiază subiecții pe baza axei relațiilor interindividuale.
Factorul „Modestie”
Cei 8 itemi ai factorului „Modestie” din cadrul scalei „Agreabilitate” au fost analizați pe baza unui număr de 4579 de date valide, 68 de subiecți neavând toate scorurile necesare în vederea unor prelucrări eficiente.
Tabel V-76 Istoricul iterațiilor pentru factorul „Modestie”
Convergența matricei se realizează după o singură iterație, neexistând ulterior o creștere semnificativă a varianței. Rădăcina matricei de corelații (eigenvalue) este de 3,11, modelul bidimensional rezultat explicând doar 39,21% din varianța itemilor. Prima dimensiune, asociată constructului măsurat, este saturată de itemi în proporție de 25,65% (Eigenvalue=2,05), scala având o consistență internă mică (Alpha Cronbach=0,586). Cea de-a doua componentă este explicată de itemi în proporție de 13,55% (Eigenvalue=1,08), iar consistența sa internă este neglijabilă (Alpha Cronbach=0,089). La nivel general, modelul are o consistență internă acceptabilă (Alpha Cronbach=0,779), însă putem presupune existența unor probleme majore la nivelul itemilor.
Din analizele coordonatelor variabilelor în raport cu dimensiunile rezultă medii acceptabile ale coordonatelor centroide ceea ce susține acceptarea tuturor itemilor în model. Itemul 53 este puternic distanțat în raport cu prima dimensiune, iar itemul 77, chiar dacă saturează predominant a doua dimensiune, este legat și de prima. Cel mai slab item este itemul 83, iar cel mai puternic pare a fi itemul 53.
Tabel V-77 Coordonatele variabilelor în raport cu dimensiunile
Itemul 53 – Colegii îmi reproșează că sunt o persoană: A. prea modestă; B. un pic cam arogantă – se distanțează puternic de ansamblul celorlalți itemi saturând negativ cea de-a doua componentă. Deși pare a fi relaționat constructului măsurat, cel mai probabil induce un răspuns dezirabil social.
Tabel V-78 Saturația în factori pentru scala „Modestie”
Itemii 77 și 59 (Itemul 59 – Când trebuie să vorbesc despre calitățile mele: A. o fac cu obiectivitate; B. mă simt stânjenit. Itemul 77 – Mă consider o persoană: A. care a realizat aproape tot ce și-a propus; B. ale cărei realizări nu sunt destul de importante.) sunt moderat distanțați și saturează pozitiv cea de-a doua componentă, dând sens axei. Vorbim despre influența imaginii de sine în factorului modestie, astfel încât putem considera că acest factor are drept axă imaginea de sine, care diferențiază între subiecții cu o imagine de sine realistă și cei cu o imagine de sine scăzută, construct relaționat de altfel factorului măsurat. Eliminând itemul 53, scala „modestie” ar putea fi păstrată în vederea modelării.
Factorul „Compasiune”
Factorul „Compasiune” conține un număr de 8 itemi și a fost analizat pe baza a 4604 scoruri, un număr de 43 de subiecți neavând suficiente răspunsuri pentru a fi incluși în prelucrare.
Analizele relevă un model bidimensional obținut după o singură iterație și care explică 43,94% din varianța celor 8 itemi (Eigenvalue=3,515), cu o consistență internă generală de 0,818 calculată pe baza eigenvalue și reprezentată sub forma coeficientului de consistență internă Alpha Cronbach.
Tabel V-79 Istoricul iterațiilor pentru factorul „Compasiune”
Prima dimensiune, ce explică 31,4% din varianța itemilor (Eigenvalue=2,51), poate fi asociată factorului măsurat, iar consistența itemilor este de 0,688. Cea de-a doua dimensiune prezintă o consistență neglijabilă (Alpha Cronbach=0,003), însă acoperă 12,54% din varianța celor 8 itemi (Eigenvalue=1,00).
Tabel V-80 Coordonatele variabilelor în raport cu dimensiunile
În urma analizei coordonatelor variabilelor se remarcă medii ale coordonatelor centroide acceptabile, însă itemul 84 saturează puternic a doua dimensiune și prezintă saturații neglijabile în raport cu prima dimensiune. Cel mai probabil acest item urmează a fi eliminat din scală, comportamentul său fiind atipic. Itemul 60 are saturații apropiate în ambele dimensiuni, cel mai slab item fiind itemul 90, iar cel mai puternic, itemul 84.
Itemul 84 – Oamenii care nu au casă: A. îmi provoacă milă, compasiune; B. mă fac să mă simt norocos(ă) de ceea ce am – este distanțat puternic de ansamblul celorlalți itemi, cu toate că vizează constructul măsurat, dar presupunem existența unor răspunsuri dezirabile social. În acest sens vom proceda la eliminarea acestui item din scală.
La distanțe mai reduse se situează și itemii 90 și 60 (Itemul 90 – Filmele romantice: A. le trăiesc cu toată intensitatea; B. mă cam plictisesc. Itemul 60 – Atunci când cineva este acuzat de ceva: A. începe să îmi fie milă de el; B. mă gândesc că are și el o parte de vină.), primul saturând negativ cea de-a doua componentă, iar cel de-al doilea saturând-o pozitiv.
Tabel V-81 Saturația în factori pentru scala „Compasiune”
Nu considerăm că cea de-a doua dimensiune poate constitui o axă sau o subcomponentă. Eliminarea itemului 84 poate conduce la un model unidimensional.
Factorul „Anxietate”
Factorul „Anxietate” face parte din dimensiunea „Nevrozism” și conține un număr de 8 itemi dihotomici analizați pe baza a 4573 cazuri valide, 74 de subiecți neavând toate scorurile necesare efectuării unor prelucrări de date relevante.
Se observă un model unidimensional care explică 31,94% din varianța celor 8 itemi (Eigenvalue=2,55) și cu o consistență scalară acceptabilă (Alpha Cronbach=0,696). Cea de-a doua dimensiune nu este relevantă, chiar dacă explică 11,99% din varianță (Eigenvalue=0,959), dar s-ar putea constitui într-o axă secundară în funcție de coordonatele itemilor.
Tabel V-82 Istoricul iterațiilor pentru factorul „Anxietate”
Dacă luăm în considerare și axa secundară, modelul general va avea o consistență bună (Alpha Cronbach=0,818), explicând 43,93% din varianța itemilor (Eigenvalue=3,51).
Pe baza mediilor coordonatelor centroide putem reține toți itemii. Observăm totuși că itemii 103 și 139 saturează mai curând cea de-a doua dimensiune, ultimul fiind relativ echilibrat între cele două dimensiuni. Cel mai slab item este itemul 115, iar cel mai puternic pare a fi 103 care saturează dimensiunea a doua.
Tabel V-83 Coordonatele variabilelor în raport cu dimensiunile
Într-adevăr, itemii 103 și 139, la care putem adăuga și itemul 97, saturează pozitiv cea de-a doua dimensiune (Itemul 103 – Dacă cineva apropiat întârzie la o întâlnire: A. mă gândesc la ce e mai rău; B. sunt convins că a intervenit ceva banal. Itemul 139 – Mi se întâmplă: A. să trăiesc stări de neliniște sau de frică, fără nici un motiv vizibil; B. să nu îmi dau seama când mă aflu într-un pericol iminent și grav, pe care toți îl sesizează. Itemul 97 – După o zi de lucru, problemele pe care le am de rezolvat a doua zi: A. le las să mă gândesc la ele a doua zi; B. mă trezesc noaptea gândindu-mă la ele.). Remarcăm componenta socio-profesională a acestor itemi, anxietatea fiind în raport cu alții sau cu evenimente sociale ori profesionale.
Așadar putem nuanța o axă a anxietății pe care o vom denumi anxietate socială și care orientează anxietatea subiecților în direcția raporturilor sociale cu alții, înspre activitățile profesionale, în funcție de percepția celorlalți sau după modul în care subiectul percepe acțiunile celorlalți ca fiind generatoare de anxietate.
Tabel V-84 Saturația în factori pentru scala „Anxietate”
Factorul „Furie”
Factorul „Furie” a dimensiunii „Nevrozism” conține un număr de 8 itemi cu răspuns dihotomic și a fost analizat în baza a 4597 de cazuri, 50 de subiecți fiind excluși din analiză deoarece nu au avut răspunsuri la toți itemii.
Soluția a rezultat după o singură iterație, generând un model unidimensional, care explică 41,17% din varianța celor 8 itemi (Eigenvalue=3,29), consistența scalară a itemilor fiind bună (Alpha Cronbach=0,796).
Tabel V-85 Istoricul iterațiilor pentru factorul „Furie”
Nu putem lua în considerare a doua dimensiune, rădăcina matricei de corelații fiind redusă (Eigenvalue=0,878), chiar dacă aceasta explică 10,97% din varianța itemilor. În plus, varianța negativă a celei de-a doua dimensiuni conduce la o consistență scalară negativă și foarte mică.
Tabel V-86 Coordonatele variabilelor în raport cu dimensiunile
Rezultă, din analiza coordonatelor, un model unidimensional valid, mediile coordonatelor centroide susținând itemii. Există un singur item cu probleme – itemul 134 – care pare a se referi la altceva și, cel mai probabil, urmând a fi eliminat. Cel mai puternic item este itemul 134 care saturează singur o altă componentă, iar cel mai slab item este itemul 116.
Itemii sunt bine grupați în jurul primei dimensiuni pe care o putem asimila definiției operaționale a factorului. Excepție face itemul 134 – Dintr-o dispută cu cineva care nu are dreptate, prefer: A. să ies trântind o ușă în urma mea; B. să mă amuz și să îl ironizez – care, într-adevăr, pare să nu corespundă definiției operaționale a constructului. Itemul nu este asociat cu furia ci, mai curând, cu o anumită atitudine a subiectului în raport cu relațiile sociale. Eliminarea itemului 134 conduce la un model unidimensional foarte bun care va putea fi supus prelucrărilor ulterioare.
Tabel V-87 Saturația în factori pentru scala „Furie”
Factorul „Depresie”
Factorul „Depresie” din scala „Nevrozism” conține 8 itemi și a fost analizat pe baza unui număr de 4604 cazuri valide, 43 de subiecți neavând toate scorurile necesare unei prelucrări eficiente a datelor.
Tabel V-88 Istoricul iterațiilor pentru factorul „Depresie”
După o singură iterație s-a realizat convergența matricei de corelații neexistând varianță suplimentară, rezultatul constând într-un model bidimensional care explică 44,79% din varianța celor 8 itemi (Eigenvalue=3,584), consistența modelului pe baza rădăcinii matricei de corelații fiind una adecvată (Alpha Cronbach=0,824). Prima dimensiune explică 30,97% din varianța itemilor (Eigenvalue=2,47), are o consistență acceptabilă (Alpha Cronbach=0,682) și poate fi asimilată constructului măsurat. Cea de-a doua dimensiune are eigenvalue supraunitar (Eigenvalue=1,10), explică 13,82% din varianța celor 8 itemi, dar consistența acestora este foarte mică (Alpha Cronbach=0,107).
Tabel V-89 Coordonatele variabilelor în raport cu dimensiunile
Din analiza coordonatelor variabilelor în raport cu dimensiunile rezultă existența unui item problematic (itemul 135) care saturează cea de-a doua dimensiune și se află la mare distanță de itemii primei dimensiuni. Cel mai probabil, acesta este un item nevalid și urmează a fi eliminat.
Tabel V-90 Saturația în factori pentru scala „Depresie”
De asemenea, itemul 117 pare să satureze ambele dimensiuni în proporții aproximativ egale. Cel mai slab item poate fi considerat itemul 105, iar cel mai puternic, itemul 129. Mediile coordonatelor centroide ne indică posibilitatea includerii în analiză a tuturor celor 8 itemi.
Într-adevăr, itemul 135 – Cred că tristețea: A. este un semn de slăbiciune; B. este o dovadă de sensibilitate – prezintă mai mult considerațiuni generale în raport cu tristețea și nu comportamente care ar putea fi asociate cu depresia subiectului. Itemul este în afara definiției operaționale a constructului și ar putea fi eliminat. Sunt prezente o serie de probleme și la itemul 117 – Gândul că mâine este o nouă zi: A. mă entuziasmează; B. mă deprimă – care saturează negativ cea de-a doua componentă, însă, în mod cert, se referă la constructul măsurat.
În realitate, factorul „depresie” conduce către un model unidimensional, fără axe sau subdimensiuni în condițiile în care se elimină itemul 135, păstrându-se totuși itemul 117.
Factorul „Timiditate”
Factorul „Timiditate” face parte din dimensiunea „Nevrozism” și a fost analizat pe baza răspunsurilor date de 4590 de subiecți, un număr de 57 de subiecți neavând toate scorurile necesare elaborării unei prelucrări de date valide.
Modelul rezultat este unidimensional, convergența matricei realizându-se după o singură iterație, varianța celor 8 itemi fiind explicată de un singur factor în procent de 32,52% (Eigenvalue=2,60), iar consistența itemilor situându-se la un nivel adecvat (Alpha Cronbach=0,70).
Tabel V-91 Istoricul iterațiilor pentru factorul „Timiditate”
Cea de-a doua componentă nu este relevantă (Eigenvalue=0,916), chiar dacă, și ea, contribuie la explicarea a 11,45% din varianța itemilor.
Tabel V-92 Coordonatele variabilelor în raport cu dimensiunile
Mediile coordonatelor centroide ale variabilelor în raport cu dimensiunile conduc către o relevanță a tuturor itemilor. Totuși, itemul 112 pare să satureze cea de-a doua componentă, în timp ce itemul 130 prezintă saturații egale în ambele componente. Cel mai slab item poate fi considerat itemul 124, iar cel mai puternic, itemul 130.
Într-adevăr, itemul 112 – Când cineva mă critică: A. mă simt vinovat(ă); B. mă gândesc că se înșală în privința mea – nu se referă la definiția operațională a constructului, ci vizează mai curând atitudinea subiectului față de critică. Sentimentul de vinovăție sau, din contră, respingerea acestuia pot fi asociate cu timiditatea, dar nu caracterizează timiditatea, așa cum rezultă și din analiză. Eliminarea acestui item va conduce la un model unidimensional al factorului „timiditate”, fără axe sau subcomponente.
În același timp, itemul 130 – În discuțiile profesionale, prefer: A. să mă implic chiar dacă pot fi criticat de ceilalți; B. să nu atrag atenția asupra mea – este în mod evident relaționat cu factorul, conform definiției operaționale a acestuia, chiar dacă saturează negativ cea de-a doua dimensiune. Itemul este relevant, putând fi păstrat în vederea prelucrării ulterioare.
Tabel V-93 Saturația în factori pentru scala „Timiditate”
Factorul „Exagerare”
În cazul factorului „Exagerare” din cadrul dimensiunii „Nevrozism” s-a efectuat o analiză a celor 8 itemi pe baza unui număr de 4590 de cazuri valide, 57 de subiecți fiind excluși din cauza existenței unui număr insuficient de scoruri.
Tabel V-94 Istoricul iterațiilor pentru factorul „Exagerare”
În cazul acestui factor convergența matricei de corelații se realizează după o singură iterație, rezultând un model bidimensional slab, capabil să explice 39,86% din varianța celor 8 itemi (Eigenvalue=3,18), cu o consistență generală destul de bună (Alpha Cronbach=0,784). Prima componentă, asimilată constructului măsurat, explică doar 26,15% din varianță (Eigenvalue=2,09) și are o consistență scalară inacceptabilă (Alpha Cronbach=0,597). Cea de-a doua componentă explică 13,71% din varianța itemilor (Eigenvalue=1,09), consistența scalei fiind foarte mică (Alpha Cronbach=0,101). Fie ne aflăm în fața unui model bidimensional, fie itemii nu sunt valizi pentru acest construct.
Tabel V-95 Coordonatele variabilelor în raport cu dimensiunile
Mediile coordonatelor centroide sunt acceptabile, deși mult reduse în comparație cu ceilalți factori, totuși itemii pot fi acceptați spre analiză. Remarcăm coordonate centroide mici, cu saturații apropiate în cele două dimensiuni, un număr important de itemi acoperind ambele componente. Cel mai puternic item pare a fi itemul 113, iar cel mai slab item, itemul 125. Din primele analize este puțin probabil să rezulte un model bidimensional valid, suntem mai curând în situația unor itemi nevalizi.
Itemii 101, 113 și 143 (Itemul 101 – La o petrecere înainte de o zi grea de muncă: A. mă distrez din plin până la ultimul moment; B. stau relativ puțin ca să mă odihnesc suficient. Itemul 113 – Cred că mă caracterizează cel mai bine proverbul: A. “Trăiește clipa ca și cum ar fi ultima”; B. “Și mâine este o zi”. Itemul 143 – Pot spune despre mine că în tot ceea ce fac: A. tind să exagerez un pic; B. sunt prea reținut, rezervat.) saturează pozitiv și puternic a doua dimensiune și tind să se refere mai curând la imaturitate, la lipsa de responsabilitate. Itemii 107 și 119 (Itemul 107 – Atunci când îmi place foarte mult un fel de mâncare: A. gust câte puțin, savurând fiecare îmbucătură; B. mănânc pe nerăsuflate mai mult ca de obicei. Itemul 119 – Mi se întâmplă să cheltui mai mult decât îmi permit: A. destul de rar; B. destul de des.) saturează negativ a doua dimensiune și vizează lipsa de cumpătare, nechibzuința și, din nou, iresponsabilitatea.
În mod cert cea de-a doua componentă nu este o axă, ci o dimensiune distinctă. Dacă itemii 125, 131 și 137 vizează exagerarea în sensul definiției operaționale a constructului, ceilalți itemi se referă mai curând la iresponsabilitate, lipsă de cumpătare, nechibzuință, neseriozitate. Structura factorului nu va permite reținerea acestuia în vederea unor analize viitoare.
Tabel V-96 Saturația în factori pentru scala „Exagerare”
Factorul „Vulnerabilitate”
Cei 8 itemi ai factorului „Vulnerabilitate”, ultimul din cadrul dimensiunii „Nevrozism”, au fost analizați pe baza răspunsurilor provenite de la 4603 subiecți, un număr de 44 de subiecți neavând toate scorurile necesare procesării.
După o singură iterație rezultă un model bidimensional capabil să explice 51,59% din varianța celor 8 itemi (Eigenvalue=4,12), cu o consistență scalară foarte bună (Alpha Cronbach=0,866).
Tabel V-97 Istoricul iterațiilor pentru factorul „Vulnerabilitate”
Prima componentă are o consistență internă bună (Alpha Cronbach=0,777) și explică 39,05% din varianța itemilor (Eigenvalue=3,12). A doua componentă pare a fi o falsă dimensiune rezultată din itemi nevalizi deoarece consistența internă este neglijabilă (Alpha Cronbach=0,003), chiar dacă reușește să explice 12,53% din varianța itemilor (Eigenvalue=1,00).
Includerea itemilor în analiză este pertinentă, mediile coordonatelor centroide susținând acest lucru, însă există un item probabil nevalid – itemul 138 -, singurul care saturează puternic cea de-a doua componentă, fiind și cel mai puternic item al scalei, cel mai slab fiind reprezentat itemul 114.
Tabel V-98 Coordonatele variabilelor în raport cu dimensiunile
Scala „vulnerabilitate” este în realitate o scală unidimensională și puternică, în condițiile eliminării itemului 138 – Definitoriu pentru felul în care îmi place să muncesc: A. sunt momentele ușor tensionate; B. sunt momentele relaxante, fără stres. Nu vedem în ce măsură acest item este relaționat constructului măsurat. Poate fi, cel mult, un indicator al capacității de lucru în condiții de stres, dar nu poate fi asimilat definiției operaționale a vulnerabilității.
Tabel V-99 Saturația în factori pentru scala „Vulnerabilitate”
Itemul 114 – Mă nemulțumesc mai degrabă: A. perioadele de stres; B. perioadele de monotonie – este distanțat de ansamblul celorlalți itemi ai scalei, dar poate fi păstrat. Se asociază oarecum itemului 138 reprezentând un indicator al rezistenței la stres, însă variantele de răspuns ar putea genera confuzie – în definitiv și monotonia generează stres -, de aceea vom avea în vedere o posibilă reformulare a acestuia.
Factorul „Eficiență personală”
Factorul „Eficiență personală” aparține dimensiunii „Conștiinciozitate” și conține un număr de 8 itemi dihotomici. Analizele au fost realizate plecându-se de la 4590 de date valide, un număr de 57 de subiecți neavând toate scorurile necesare efectuării calculelor.
După o singură iterație rezultă un model unidimensional capabil să explice 30,59% din varianța celor 8 itemi (Eigenvalue=2,44) cu o consistență internă de 0,676 după coeficientul de consistență internă Alpha Cronbach calculat în baza rădăcinii matricei de corelații.
Apare și o dimensiune nerelevantă, dar care explică 12,35% din varianța itemilor (Eigenvalue=0,989), varianța fiind însă negativă, iar consistența internă neglijabilă. Per total, modelul bidimensional explică 42,95% din varianța itemilor (Eigenvalue=3,43), consistența internă fiind bună (Alpha Cronbach=0,81).
Tabel V-100 Istoricul iterațiilor pentru factorul „Eficiență personală”
Analiza coordonatelor itemilor în raport cu dimensiunile identifică itemul 157 ca saturând foarte puternic cea de-a doua componentă, acesta fiind de altfel și singurul item relevant pentru aceasta. Efectul itemului poate determina și lipsa de relevanță a itemului 163, cel mai slab item al scalei, media coordonatelor centroide recomandând excluderea sa.
Într-adevăr, modelul unidimensional al factorului „eficiență personală” este unidimensional și robust în condițiile eliminării itemului 157 – Dacă cineva mi se împotrivește: A. găsesc mijloace și căi de a obține ceea ce vreau; B. încerc să negociez un compromis. Acesta pare a se referi mai curând la lipsa de scrupule și cinism decât la eficiența personală așa cum a fost definită operațional.
Tabel V-101 Coordonatele variabilelor în raport cu dimensiunile
Efectul exercitat de acest item a fost atât de puternic, încât dacă vom analiza coordonatele centroide ale scorurilor în raport cu dimensiunile, vom constata existența unui număr de două grupe distincte în raport cu ceea ce măsoară itemul 157.
Tabel V-102 Saturația în factori pentru scala „Eficiență personală”
Itemul 163 nu are probleme, saturează bine prima componentă și se încadrează perfect în ansamblul celorlalți itemi. Comportamentul aparent al acestuia a fost determinat, în realitate, de influența exercitată de itemul 157 asupra varianței tuturor itemilor din scală.
Factorul „Ordine și planificare”
Factorul „Ordine și planificare” din cadrul dimensiunii „Conștiinciozitate” cuprinde 8 itemi dihotomici analizați pe baza unui număr de 4595 de date valide, 52 de subiecți neavând toate rezultatele incluse.
După o singură iterație rezultă un model bidimensional capabil să explice 44,49% din varianța celor 8 itemi (Eigenvalue=3,56) și cu o consistență internă bună (Alpha Cronbach=0,822).
Tabel V-103 Istoricul iterațiilor pentru factorul „Ordine și planificare”
Prima componentă explică 31,68% din varianța itemilor (Eigenvalue=2,535) fiind și cea mai consistentă (Alpha Cronbach=0,692), asimilabilă definiției operaționale a factorului. A doua componentă are o consistență neglijabilă (Alpha Cronbach=0,027), dar reușește să explice 12,8% din varianța itemilor (Eigenvalue=1,02). Ea poate fi considerată o axă sau poate fi cauzată de itemi nerelevanți.
Tabel V-104 Coordonatele variabilelor în raport cu dimensiunile
Din analiza coordonatelor variabilelor în raport cu dimensiunile rezultă o relevanță a tuturor itemilor, însă itemii 170 și 182 par să se refere la altceva în raport cu ansamblul celorlalți itemi. Cel mai puternic item este itemul 170, dar care se vizează a doua dimensiune, iar cel mai slab item este itemul 187.
Analiza saturației în factori arată că suntem mai curând în prezența unei axe importante în cadrul factorului „ordine și planificare”.
Tabel V-105 Saturația în factori pentru scala „Ordine și planificare”
Itemii 170 și 182 (Itemul 170 – De obicei fac ordine: A. doar atunci când este absolut nevoie; B. în fiecare zi, chiar dacă ceilalți spun că nu este necesar; Itemul 182 – În general pot spune că: A. îmi place să țin o agendă în care să îmi notez activitățile zilnice; B. nu o consider necesară.) vizează în mod cert ordinea și planificarea, sunt în consens cu ceilalți itemi doar că se referă la o accentuare a caracterului ordonat și planificat care poate conduce către comportamente de tip obsesiv. Prin urmare, axa care orientează factorul „ordine și planificare” se poate constitui în axa comportamentului accentuat care distinge între subiecții cu niveluri normale la acest factor și tendințele către hiper-organizare, hiper-planificare și comportament obsesiv.
Factorul „Rigiditate morală”
Factorul „Rigiditate morală” ține de dimensiunea „Conștiinciozitate” și a fost măsurat prin intermediul unui număr de 8 itemi dihotomici. Analiza se bazează pe un număr de 4594 de cazuri valide, 53 de subiecți fiind excluși din prelucrarea datelor din cauza insuficienței informațiilor.
Rezultă, după o singură iterație, un model unidimensional slab care explică aproximativ 24,25% din varianța itemilor (Eigenvalue=1,94) cu o consistență a scalei inacceptabilă (Alpha Cronbach=0,554). Cea de-a doua componentă nu este relevantă, cu toate că explică 12,47% din varianța itemilor (Eigenvalue=0,998), consistența scalei fiind neglijabilă.
Tabel V-106 Istoricul iterațiilor pentru factorul „Rigiditate morală”
Dacă vom considera modelul bidimensional, consistența scalei se îmbunătățește (Alpha Cronbach=0,754), dar modelul nu are o putere explicativă ridicată, reușind să acopere doar 36,73% din varianța itemilor (Eigenvalue=2,93). Factorul nu este bine reprezentat, existând posibilitatea renunțării la modelarea sa.
Tabel V-107 Coordonatele variabilelor în raport cu dimensiunile
Mediile coordonatelor centroide indică itemi slabi pentru acest factor, trei itemi saturând a doua componentă. Mai mult, itemul 147 are saturații apropiate în ambele componente, cel mai slab item fiind itemul 153, iar cel mai puternic, itemul 188, ambii referindu-se la cea de-a doua componentă, cea irelevantă pentru factorul analizat.
Din analiza saturației în factori rezultă că itemul 188 prezintă saturații pozitive, distanțându-se puternic de ansamblul celorlalți itemi (Itemul 188 – Îmi este greu: A. să amân cu câteva zile plata unor datorii financiare sau morale; B. să respect cu strictețe angajamente sau plata datoriilor.). Formularea acestui item este complet deficitară, itemul este ambiguu. Ambele variante de răspuns înseamnă, de fapt, același lucru, nuanțele fiind dificil de decelat. Considerăm că acest item nu este valid și va trebui eliminat din scală.
Tabel V-108 Saturația în factori pentru scala „Rigiditate morală”
Itemii 147 și 153 saturează negativ cea de-a doua dimensiune și formează un al doilea grup de itemi (Itemul 147 – Pentru mine, toate regulile: A. sunt făcute pentru a fi respectate necondiționat; B. pot fi încălcate dacă situația o cere. Itemul 153 – Dacă se întâmplă să nu îmi îndeplinesc o promisiune fată de un prieten: A. mă simt vinovat și am grave mustrări de conștiință; B. consider că dacă îmi este prieten ar trebui să mă înțeleagă.). Cu toate că ambii reprezintă definiția operațională a constructului, variantele de răspuns nu au fost suficient studiate în contextul cultural și economic prezent. Prima variantă de răspuns pentru itemul 147 este prea puțin plauzibilă în contextul românesc actual, subiecții având tendința unui răspuns în sensul celei de-a doua variante. Modul de formulare a primei variante de răspuns în cazul itemului 153 o face, de asemenea, prea puțin plauzibilă. Sunt rare persoanele cu grave mustrări de conștiință la neîndeplinirea unei promisiuni, prin urmare cea mai aleasă variantă va fi cea de-a doua.
În acest context, eliminarea a trei itemi nu va face posibilă modelarea factorului, decizia fiind cea de renunțare la includerea scalei „rigiditate morală” în modelele de răspuns la item.
Factorul „Ambiție”
Analiza factorului „Ambiție” din cadrul dimensiunii „Conștiinciozitate” s-a realizat prin intermediul unui număr de 4594 de scoruri, 53 de subiecți fiind excluși din prelucrarea datelor.
Tabel V-109 Istoricul iterațiilor pentru factorul „Ambiție”
Modelul bidimensional rezultat în urma unei singure iterații este foarte slab, explicând, prin două componente, doar 36,7% din varianța itemilor (Eigenvalue=2,93) chiar dacă vorbim despre o consistență a scalei acceptabilă (Alpha Cronbach=0,754). Prima componentă, asimilată constructului operaționalizat, are o consistență scalară foarte mică (Alpha Cronbach=0,472), explicând doar 21,31% din varianța itemilor (Eigenvalue=1,70). Cea de-a doua componentă, de asemenea lipsită de consistență scalară (Alpha Cronbach=0,215), explică 15,39% din varianța itemilor (Eigenvalue=1,23). Suntem în situația unui model bidimensional cert, posibil fără legătură cu factorul analizat.
Tabel V-110 Coordonatele variabilelor în raport cu dimensiunile
Într-adevăr, studiul coordonatelor variabilelor în raport cu dimensiunile indică medii ale coordonatelor centroide destul de mici, trei itemi saturând predominant cea de-a doua dimensiune. Itemul 160 prezintă saturații apropiate în ambele dimensiuni, cel mai slab item fiind itemul 148, iar cel mai puternic, itemul 166.
Structura bidimensională este evidentă. Grupul format de itemi 148, 166 și 184 se distinge net de ansamblul celorlalți itemi și prezintă saturații pozitive certe în cea de-a doua dimensiune (Itemul 148 – Mă consider o persoană: A. care se bucură de viață și plăcerile ei; B. care își urmărește atent obiectivele. Itemul 166 – Pentru mine, reușita în viață înseamnă: A. găsirea unui echilibru interior și în relațiile cu ceilalți; B. atingerea unor obiective personale ambițioase. Itemul 184 – În ceea ce privește relația dintre viața personală și cea profesională: A. urmăresc cu atenție mai ales obiectivele profesionale; B. separ planurile și să mențin un echilibru între ele.). Constatăm că acești itemi se referă la lucruri diferite. Primul nu este valid în contextul definiției operaționale a constructului. A te bucura de plăcerile vieții nu exclude urmărirea atentă a obiectivelor. În același fel se poate interpreta și al doilea item. Reușita în viață poate presupune alegerea ambelor variante de răspuns, echilibrul interior, relațiile cu ceilalți și atingerea obiectivelor personale nefiind exclusive. Itemul 184 nu pare a avea relevanță pentru construct. Separarea vieții personale de viața profesională sau echilibrul între acestea nu reprezintă un indicator al ambiției.
Tabel V-111 Saturația în factori pentru scala „Ambiție”
La nivelul celui de-al doilea grup se disting itemii 160 și 178 care par a constitui un subgrup cu saturații negative în a doua dimensiune (Itemul 160 – Pot spune despre mine că: A. întotdeauna am știut ce vreau de la viață; B. mi-am schimbat deseori opțiunile în funcție de situație. Itemul 178 – Idea de a fi apreciat(ă) drept o persoană de succes: A. nu mă interesează; B. mă motivează în tot ceea ce fac.). Itemul 160 pare a fi mai bine relaționat constructului și denotă perseverență, tenacitate, elemente asociate ambiției. Itemul 178 nu se încadrează în acest context. Aprecierile din partea unor alte persoane se pot asocia construcției imaginii de sine, pot motiva persoana, însă nu considerăm că toate aceste elemente sunt relaționate ambiției în sensul în care aceasta a fost definită.
Având în vedere aspectele menționate, nu considerăm că acest factor poate fi modelat în sensul teoriei răspunsului la item.
Factorul „Perseverență”
Factorul „Perseverență” face parte din dimensiunea „Conștiinciozitate” și a fost studiat plecându-se de la un număr de 4598 de scoruri valide, 49 de subiecți fiind excluși din analiză. Similar celorlalte scale, structura inițială conține un număr de 8 itemi dihotomici.
Tabel V-112 Istoricul iterațiilor pentru factorul „Perseverență”
Studiul modelului rezultat indică o convergență a matricei de corelații obținută după o singură iterație și care conduce la un model cu două componente capabil să explice 39,33% din varianța itemilor (Eigenvalue=3,14) și cu o consistență totală bună (Alpha Cronbach=0,78). Suntem, din nou, în fața unui model slab, prima componentă explicând 26,49% din varianța itemilor (Eigenvalue=2,12), consistența internă fiind destul de mică (Alpha Cronbach=0,60). A doua componentă este lipsită de consistență scalară, dar explică 12,83% din varianța itemilor (Eigenvalue=1,02).
Putem remarca medii acceptabile ale coordonatelor centroide, fapt ce susține relevanța itemilor. Un număr de 3 itemi saturează cea de-a doua dimensiune, itemii 149 și 155 având saturații egale în ambele dimensiuni. Cel mai slab poate fi considerat itemul 155, iar cel mai puternic, itemul 167.
Tabel V-113 Coordonatele variabilelor în raport cu dimensiunile
Se observă comportamentul itemului 167 – Cred că este mai important: A. să recunoști rapid eșecul și să îți propui alte obiective; B. să duci la bun sfârșit ceea ce ai început, indiferent de costuri – care saturează puternic negativ cea de-a doua dimensiune. Considerăm că itemul nu este adecvat și ar trebui eliminat din scală. Variantele de răspuns nu indică un spațiu valid. Prezența și recunoașterea eșecului reprezintă un indicator al inteligenței sociale, iar perseverența în eșec – cel puțin în contextul acestui item – nu reprezintă un comportament acceptabil.
Tabel V-114 Saturația în factori pentru scala „Perseverență”
Itemii 149 și 155 (Itemul 149 – A reuși, pentru mine înseamnă: A. a obține rapid ceea ce îmi doresc; B. a munci din greu; Itemul 155 – Atunci când nu am finalizat o sarcină prefer să: A. rămân peste program pentru a o termina; B. continui a doua zi cu forțe proaspete.) formează un grup care saturează puternic pozitiv cea de-a doua dimensiune. A reuși într-o sarcină nu înseamnă obligatoriu a munci din greu, ci a munci eficient, iar rămânerea peste program pentru a finaliza o sarcină nu reprezintă un indicator al perseverenței ci, mai curând, al eficienței.
Reformulând itemul 167, scala poate fi reținută în condițiile în care definim axa eficienței perseverenței, axă care distinge între perseverența utilă ce poate conduce la depășirea obstacolelor și realizarea sarcinii și persistența în eșec, comportamentul de nerecunoaștere a unui eșec și perseverența în eșec, suprasaturare și randament scăzut.
Factorul „Prudență”
Factorul „Prudență”, ultimul din dimensiunea „Conștiinciozitate”, prezintă un număr de 8 itemi dihotomici analizați pe baza răspunsurilor oferite de 4602 subiecți, 45 de subiecți fiind excluși din analiză, din cauza lipsei tuturor datelor.
Tabel V-115 Istoricul iterațiilor pentru factorul „Prudență”
Rezultă un model bidimensional în urma unei singure iterații capabil să explice 50,81% din varianța itemilor (Eigenvalue=4,06) și cu o consistență internă bună (Alpha Cronbach=0,86). Prima componentă, asociată constructului măsurat, explică 37,34% din varianța itemilor (Eigenvalue=2,98) și are o consistență scalară bună (Alpha Cronbach=0,76). Cea de-a doua componentă explică 13, 47% din varianța itemilor (Eigenvalue=1,07) și este lipsită de consistență scalară.
Tabel V-116 Coordonatele variabilelor în raport cu dimensiunile
Mediile coordonatelor centroide sunt acceptabile, itemii putând fi considerați relevanți. Itemul 156 saturează aproximativ la fel ambele dimensiuni, iar itemul 174 prezintă o saturație crescută în cea de-a doua dimensiune. Cel mai slab item este itemul 168, iar cel mai puternic este itemul 174 care saturează dimensiunea a doua.
Suntem în situația unui model unidimensional cu o axă determinată de itemii 156 și 174 (Itemul 156 – Când călătoresc într-un loc nou: A. îmi fac toate mofturile fără să mă gândesc la bani; B. chibzuiesc banii și pun bani deoparte pentru cheltuieli neprevăzute. Itemul 174 – Când văd un lucru scump care îmi place: A. mă gândesc mult dacă mi-l pot permite; B. fac tot posibilul să-l cumpăr.). Sensul itemilor conduce către ideea de chibzuință în raport cu banii proprii, de aceea vom putea denumi axa prudență financiară. Ansamblul celorlalți itemi caracterizează prudența generală, în raport cu situații sociale și profesionale, itemii menționați mai sus fiind definitorii pentru prudența financiară pe care subiecții o percep în mod distinct.
Tabel V-117 Saturația în factori pentru scala „Prudență”
Așadar, factorul este unidimensional și poate fi reținut, singurul amendament efectuat ține de specificul prudenței financiare care tinde să se comporte diferit în raport cu prudența generală.
Factorul „Imaginație”
Face parte din dimensiunea „Deschidere” și este măsurat prin intermediul unui număr de 8 itemi dihotomici. Analiza s-a realizat pornind de la 4600 de răspunsuri valide, 47 de subiecți neavând suficiente informații în vederea procesării.
Modelul rezultat este unul bidimensional capabil să explice 43,68% din varianța itemilor (Eigenvalue=3,49), cu o consistență scalară foarte bună (Alpha Cronbach=0,816). Prima componentă are o consistență internă acceptabilă (Alpha Cronbach=0,673) explicând 30,41% din varianța itemilor (Eigenvalue=2,43), iar a doua componentă, lipsită de consistență, explică 13, 26% din varianța itemilor (Eigenvalue=1,06) și poate constitui o axă a factorului.
Din studiul coordonatelor variabilelor în raport cu cele două dimensiuni rezultă că mediile coordonatelor centroide califică itemii în analiză, dar există un număr de 2 itemi (217 și 229) care par să satureze cea de-a doua dimensiune, însă nu sunt relaționați primei dimensiuni.
Tabel V-118 Istoricul iterațiilor pentru factorul „Imaginație”
Cel mai puternic item este 217 – reprezentativ doar pentru cea de-a doua dimensiune –, iar cel mai slab este itemul 199.
Itemul 217 – Consider că peste 25 de ani lumea în care trăim va fi: A. nu cu mult diferită; B. schimbată în mod radical – probabil că induce un răspuns dezirabil având în vedere progresul tehnologic. A înțelege că lumea peste un sfert de veac e posibil să fie radical schimbată nu este o dovadă de imaginație ci de realism. Acest item va fi eliminat din analizele ulterioare.
Tabel V-119 Coordonatele variabilelor în raport cu dimensiunile
În același sens se comportă și itemul 229 – Realitatea înconjurătoare: A. îmi place așa cum este; B. prefer să o înfrumusețez cu ajutorul imaginației. Un item nevalid deoarece formularea nu este adecvată. Realitatea reprezintă un dat și nu poate fi ajustată prin intermediul imaginației. Itemul ar putea fi păstrat în condițiile unei reformulări.
Nu suntem în situația prezenței unei axe pentru acest factor, cea de-a doua componentă rezultând din erori la nivelul celor doi itemi. Eliminarea lor ar conduce la un model unidimensional valid format din 6 itemi.
Tabel V-120 Saturația în factori pentru scala „Imaginație”
Factorul „Interes artistic”
Factorul „Interes artistic” aparține dimensiunii „Deschidere” și conține un număr de 8 itemi dihotomici analizați pe baza a 4573 de cazuri, 74 de subiecți fiind excluși din cauza inexistenței tuturor scorurilor.
Tabel V-121 Istoricul iterațiilor pentru factorul „Interes artistic”
Modelul bidimensional a fost obținut după o singură iterație și explică 43,87% din varianța celor 8 itemi (Eigenvalue=3,51), în condițiile unei consistențe scalare bune (Alpha Cronbach=0,817). Prima componentă are o consistență bună (Alpha Cronbach=0,683) și explică 31,09% din varianța itemilor (Eigenvalue=2,48), iar cea de-a doua componentă, inconsistentă, explică 12,78% din varianța itemilor (Eigenvalue=1,02). Există posibilitatea identificării unei axe sau a unei sub-dimensiuni pentru acest factor.
Mediile coordonatelor centroide sunt destul de mici, dar putem considera că itemii sunt relevanți pentru analiză. Itemul 212 pare să satureze a doua dimensiune, toți ceilalți itemi fiind relaționați primei dimensiuni.
Tabel V-122 Coordonatele variabilelor în raport cu dimensiunile
Remarcăm totuși că un număr de 3 itemi au coordonate vectoriale apropiate la nivelul celor două dimensiuni, saturându-le aproximativ egal. Cel mai puternic item poate fi considerat itemul 212 – care aparține celei de-a doua dimensiuni –, iar cel mai slab item este itemul 218.
Tabel V-123 Saturația în factori pentru scala „Interes artistic”
Itemul 212 saturează negativ puternic cea de-a doua dimensiune (Itemul 212 – Gusturile mele se îndreaptă către lucruri: A. practice și utile; B. rafinate și sofisticate.). Într-adevăr, acest item nu este relaționat constructului măsurat. Preferința către lucruri rafinate și sofisticate nu este un indicator al interesului artistic. Itemul nu este valid și va fi eliminat din scală.
Itemii tind să formeze două grupuri. Primul grup conține saturații puternice în a doua componentă și caracterizează itemii 218, 224 și 230 (Itemul 218 – Pentru mine natura este: A. un cadru în care să mă desfășor; B. o sursă de frumos și inspirație. Itemul 224 – O creație artistică valoroasă: A. mă emoționează profund; B. o privesc cu detașare. Itemul 230 – A-mi educa sensibilitatea artistică: A. un moft costisitor; B. o nevoie profundă.) Al doilea grup conține itemii 194, 206, 236, cu saturații medii în a doua dimensiune (Itemul 194 – Îmi face mai multa plăcere să merg la: A. un salon auto; B. un muzeu de artă. Itemul 206 – Prefer: A. concretul tehnic; B. frumosul artistic. Itemul 236 – Mi s-ar putea reproșa mai degrabă că: A. nu sunt pasionat de artă; B. sunt absorbit de manifestările artistice.). Ambele grupuri vizează, în mod evident, interesul artistic. Primul grup prefigurează latura emoțională a interesului artistic, iar al doilea grup definește latura comportamentală a acestuia. În baza acestei axe putem distinge între subiecții care percep arta ca emoție, ca necesitate intrinsecă și cei la care interesul artistic se manifestă în comportament și atitudine, dar care poate sau nu poate fi însoțit de emoție artistică reală.
Itemul 200 – Acord frumosului (vernisaje, expoziții de artă): A. foarte puțin din timpul meu liber; B. mai mult timp și efort decât cei pe care îi cunosc – saturează negativ a doua dimensiune, dar poate fi reținut și asociat celui de-al doilea grup.
Factorul „Emoționalitate”
Analiza factorului „Emoționalitate” din cadrul dimensiunii „Deschidere” se bazează pe un număr de 4600 de cazuri valide, 47 de subiecți fiind excluși din motive care țin de insuficiența datelor.
Tabel V-124 Istoricul iterațiilor pentru factorul „Emoționalitate”
A rezultat un model bidimensional capabil să explice 42,26% din varianța celor 8 itemi (Eigenvalue=3,38) și cu o consistență internă totală de 0,80. Prima componentă prezintă o consistență internă relativ acceptabilă (Alpha Cronbach=0,604) și reușește să explice 26,51% din varianța itemilor (Eigenvalue=2,12), putând fi asimilată factorului studiat. A doua componentă are o consistență internă redusă (Alpha Cronbach=0,236) și explică 15,75% din varianța itemilor (Eigenvalue=1,26%), valoare suficientă pentru a lua în considerare existența unei axe.
Tabel V-125 Coordonatele variabilelor în raport cu dimensiunile
Itemii se califică pentru analiză, mediile coordonatelor centroide fiind acceptabile, însă 3 itemi saturează ce-a de-a doua dimensiune și au saturații nesemnificative în prima dimensiune, doar patru itemi referindu-se, în sens strict, la prima dimensiune. Nu remarcăm itemi care să aibă saturații aproximativ egale în ambele dimensiuni. Cel mai slab item pare a fi itemul 225, iar cel mai puternic, itemul 231, ambii referindu-se la prima componentă. Există, astfel, posibilitatea să ne aflăm în fața unui model bidimensional.
Tabel V-126 Saturația în factori pentru scala „Emoționalitate”
Devine evidentă structura bidimensională a acestui factor. Itemii 195, 201 și 237 formează o dimensiune independentă și nu o axă. Itemii 195 și 201 saturează puternic și pozitiv a doua componentă (Itemul 195 – Pot spune despre mine că: A. îmi exprim foarte greu sentimentele; B. exprim prea ușor ceea ce simt, Itemul 201 – În general, A. trăiesc emoțiile, fără să le analizez prea mult; B. îmi analizez cu mare atenție propriile emoții.), în timp ce itemul 237 saturează negativ cea de-a doua componentă (Itemul 237 – Trăiesc emoțiile: A. cu multă intensitate; B. cu mai multă detașare decât ceilalți.).
Putem observa cu ușurință faptul că cea de-a doua componentă vizează modul intern de percepere a emoțiilor, imaginea persoanei față de propria sa emoționalitate. Acești itemi diferă de ansamblul celorlalți (Itemul 207 – Mi se întâmplă să fiu indispus fără să știu de ce: A. foarte des; B. foarte rar, Itemul 213 – În general: A. știu să îmi explic ceea ce simt; B. nu îmi înțeleg propriile trăiri interioare, Itemul 219 – Sunt genul de persoană: A. cu frământări interioare multiple și greu de definit; B. cu emoții și sentimente clare și bine conturate, Itemul 225 – Îmi ignor uneori trăirile interioare: A. pentru că nu le înțeleg prea bine; B. pentru a mă putea detașa de semnificația lor și Itemul 231 – În general: A. îmi este ușor să descriu emoțiile de moment; B. trebuie să mă gândesc mult pentru a înțelege ce simt). Prima componentă vizează mai curând latura explicativă a emoțiilor prin care subiectul încearcă să înțeleagă ceea ce simte și de ce simte în acest fel.
Cu toate că există diferențe importante între aceste două componente, putem considera că factorul este unidimensional, însă suntem în prezența unei subcomponente care diferențiază între subiecții ce se rezumă la a trăi, la a percepe emoțiile și cei care încearcă să le explice, să le aducă în sfera raționalului. Astfel putem identifica axa perceptiv-rațional în cadrul acestui factor.
Factorul „Spirit aventurier”
Analiza factorului „Spirit aventurier” din cadrul dimensiunii „Deschidere” s-a realizat pe baza unui număr de 4606 cazuri valide, 41 de subiecți nefiind incluși din cauza lipsei tuturor datelor necesare.
Tabel V-127 Istoricul iterațiilor pentru factorul „Spirit aventurier”
Modelul rezultate este unidimensional cu o consistență scalară bună (Alpha Cronbach=0,69), capabil să explice 31,52 din varianța celor 8 itemi (Eigenvalue=2,52).
Cea de-a doua componentă nu este relevantă, deși poate explica 12,4% din varianța itemilor (Eigenvalue=0,992), iar consistența internă este negativă și neglijabilă (Alpha Cronbach=-0,009).
Tabel V-128 Coordonatele variabilelor în raport cu dimensiunile
Pe baza mediilor coordonatelor centroide putem decide validitatea analizei pentru toți cei 8 itemi. Itemii 196 și 226 saturează cea de-a doua componentă, cu toate că prezintă saturații importante și în prima. De altfel, acești itemi, la care se poate adăuga itemul 196, prezintă saturații apropiate în ambele dimensiuni. Cel mai slab item este 220, iar cel mai puternic 232.
Tabel V-129 Saturația în factori pentru scala „Spirit aventurier”
Într-adevăr, modelul este unidimensional, însă remarcăm grupul de itemi care saturează a doua dimensiune. Itemii 226 și 232 saturează puternic pozitiv această componentă (Itemul 226 – Dacă ar fi să mă mut în altă tara: A. aș face-o cu încredere și entuziasm; B. aș privi cu rezervă o astfel de opțiune, Itemul 232 – Dacă s-a ivi oportunitatea de a merge în vacanța într-o țară africană: A. aș pleca imediat; B. mi-ar fi frică de boli sau conflictele de acolo), iar itemul 196 o saturează negativ (Itemul 196 – Când muncesc prefer: A. păstrarea procedurilor existente dacă ele funcționează; B. schimbarea unei proceduri vechi cu una nouă.). Remarcăm faptul că itemul 226 nu este adecvat din punct de vedere socio-cultural. Plecatul din țară nu este o aventură, ci o necesitate în actualul context. Astfel, itemul 226 va putea fi eliminat din analiză. În privința itemului 196, considerăm că acesta nu se referă la spiritul de aventură, cel mult la o deschidere spre nou, la lipsa rezistenței la schimbare sau dinamism. De aceea, itemul nu va fi inclus în analizele ulterioare.
Factorul „Intelect”
Factorul „Intelect” face parte din dimensiunea „Deschidere” și a fost analizat plecându-se de la scorurile obținute de 4586 de subiecți, un număr de 61 de subiecți fiind excluși din analiză din cauza lipsei de date.
Tabel V-130 Istoricul iterațiilor pentru factorul „Intelect”
Modelul rezultat este unul bidimensional și slab capabil să explice 37,19% din varianța itemilor (Eigenvalue=2,97), cu o bună consistență internă (Alpha Cronbach=0,759). Prima componentă are o consistență internă redusă (Alpha Cronbach=0,492) și explică 21,96% din varianță (Eigenvalue=1,75), iar cea de-a doua componentă explică 15,23% din varianță (Eigenvalue=1,21) și are o consistență internă foarte mică (Alpha Cronbach=0,205).
Mediile coordonatelor centroide sunt mici, itemul 227 nefiind relevant pentru analiză. Acesta este și cel mai slab item al scalei. Itemii 221 și 227 par să satureze mai curând cea de-a doua dimensiune, mai mult, saturațiile sunt foarte slabe, aceasta fiind și explicația modelului. Foarte mulți itemi saturează aproximativ la fel ambele dimensiuni, element care ne conduce la ideea unor probleme legate de validitatea constructului. La nivelul acestei scale, cel mai puternic item este itemul 197.
Itemul 227 – Ghicitorile și jocurile de cuvinte le găsesc: A. captivante; B. enervante – are un comportament atipic în raport cu prima dimensiune. Suntem în situația unui item inversat, dar slab pentru această scală. Astfel, itemul 227 nu va fi inclus în analizele viitoare. Separația pe baza celei de-a doua componente este evidentă, grupul de itemi 203, 215, 221 și 239 saturează puternic pozitiv cea de-a doua dimensiune (Itemul 203 – Îmi plac cărțile sau articolele: A. cu intrigă clară, ușor de urmărit; B. complicate, cu sensuri greu de intuit, Itemul 215 – Când mă relaxez prefer: A. activitățile sociale sau sportive; B. activitățile intelectuale, Itemul 221 – În general prefer emisiunile: A. de divertisment; B. de dezbateri pe teme sociale și culturale, Itemul 239 – Răspunsurile la întrebările generale asupra vieții umane și a universului: A. le las pe seama filosofilor; B. le găsesc provocatoare pentru mine.), iar grupul de itemi 197, 209 și 233 saturează negativ a doua dimensiune (Itemul 197 – Prefer să lucrez cu: A. idei abstracte; B. oameni sau lucruri concrete, Itemul 209 – Când explic ceva, prefer să utilizez: A. analogii și metafore; B. exemple concrete și descrieri exacte, Itemul 233 – Cel mai mult îmi place: B. să pun in practică idei realiste; C. să analizez idei noi, inedite.)
Tabel V-131 Coordonatele variabilelor în raport cu dimensiunile
Din datele obținute putem presupune existența unor itemi nevalizi în raport cu definiția operațională a factorului, fapt care poate conduce la eliminarea acestuia.
Toți cei 7 itemi rămași pun în evidență constructul măsurat, sunt valizi, în conformitate cu valoarea ridicată a consistenței scalare totale. Identificăm o subcomponentă care împarte subiecții în funcție de orientarea lor intelecturalist internă, definită prin preocuparea față de activități intelectuale și caracterizată de primul grup de itemi și în funcție de orientarea lor socială, capacitatea de a expune, a se raporta la sarcini intelectuale pe plan social și profesional, caracterizată de al doilea grup de item. Astfel, putem reține acest factor dacă avem în vedere axa orientării intelectuale.
Tabel V-132 Saturația în factori pentru scala „Intelect”
Factorul „Liberalism”
Ultimul factor al dimensiunii „Deschidere” a fost analizat pe baza rezultatelor provenite de la 4591 de subiecți, 56 de subiecți neavând toate scorurile necesare efectuării unei prelucrări pertinente.
Tabel V-133 Istoricul iterațiilor pentru factorul „Liberalism”
Modelul bidimensional rezultat are o consistență internă bună (Alpha Cronbach=0,750) și este capabil să explice 36,37% din varianța celor 8 itemi (Eigenvalue=2,91), fiind, din acest punct de vedere, un model slab. Prima componentă are o consistență scalară inacceptabilă (Alpha Cronbach=0,524) și explică doar 23,07% din varianța itemilor (Eigenvalue=1,84), iar a doua componentă prezintă o consistență scalară neglijabilă (Alpha Cronbach=0,069) și explică 13,30% din varianța itemilor (Eigenvalue=1,06).
Mediile coordonatelor centroide sunt acceptabile, itemii fiind relevanți pentru analiză. Remarcăm faptul că doi itemi saturează preponderent cea de-a doua componentă având saturații neglijabile în prima. Nu apar itemi care să satureze aproximativ egal ambele dimensiuni, cel mai slab fiind itemul 240 iar cel mai puternic, itemul 216, caracteristic celei de-a doua componente.
Modelul pare a fi valid în condițiile în care itemii 216 și 234 formează o axă sau, în cazul absenței acesteia, vom proceda la eliminarea lor.
Tabel V-134 Coordonatele variabilelor în raport cu dimensiunile
Într-adevăr, problema apare la cei doi itemi (Itemul 216 – Personal cred că sectele sau adepții altor religii: A. greșesc în mod fundamental, deviind de la adevărata credință; B. au aceeași credibilitate și valoare ca și celelalte religii. Itemul 234 – Principiile și valorile morale existente într-o societate: A. ar trebui permanent ajustate; B. nu trebuie puse frecvent sub semnul întrebării), ambii fiind nevalizi în raport cu ceea ce măsoară factorul și cu specificul cultural.
Tabel V-135 Saturația în factori pentru scala „Liberalism”
Primul item face trimitere la o problemă religioasă într-o cultură în care se manifestă o anumită intoleranță față de alte religii sau curente religioase, iar al doilea este confuz prin modalitatea de formulare a variantelor de răspuns și va trebui reformulat. Ansamblul celorlalți 6 itemi este în concordanță cu definiția operațională a factorului și va fi păstrat.
Considerații asupra includerii itemilor în modele de răspuns la itemi
Analiza preliminară efectuată a vizat investigarea consistenței și a structurii interne a inventarului BigFive Plus, la nivelul componentelor de bază, în vederea stabilirii potențialului unidimensional. Deoarece nu vom utiliza modele multidimensionale de răspuns la item, această etapă este absolut indispensabilă și va fi dublată de studiul unidimensionalității esențiale. Sinteza rezultatelor obținute poate fi urmărită în tabelul V-136
Tabel V-136 Structura dimensională a inventarului de personalitate BigFive Plus
Rezultă excluderea unui număr de 3 factori (Exagerare, Rigiditate morală și Ambiție), precum și eliminarea unui număr variabil de itemi din cadrul a 16 factori. De asemenea, la 14 factori au fost identificate elemente care pot conduce spre o prezență a unor axe de orientare. Din ansamblul celor 30 de factori rezultă un număr de 17 factori valizi, presupuși unidimensionali, 14 prezentând axe și doar 3 remarcându-se printr-un caracter unidimensional pur.
Studiul unidimensionalității inventarului de personalitate BigFive Plus și estimarea parametrilor itemilor.
Studiul unidimensionalității itemilor componenți ai factorului latent s-a realizat prin intermediul testului T Stout și a metodei NOHARM, folosindu-se aplicația Psihosoft CATS. Includerea itemilor în setul de partiționare (PT) s-a bazat de modul în care aceștia saturează factorul latent, fiind selectați itemii cu cele mai puternice saturații. Calibrarea itemilor s-a realizat folosindu-se Psihosoft CATS, metoda utilizată fiind cea a probabilității maximale marginale (Marginal Maximum Likelihood Estimation – MMLE). Datele complete pot fi regăsite în anexe.
Itemii marcați au fost propuși spre eliminare în etapele anterioare. Analiza va continua cu includerea acestora în vederea deciziei finale. Pentru calibrarea itemilor vom avea în vedere modelul 3PL. În condițiile în care calibrarea va eșua folosind modelul 3PL, vom avea în vedere utilizarea modelului 2PL. Analizele folosindu-se modelul 1PL nu vor fi realizate, eșecul modelului 2PL conducând la eliminarea factorului.
Tabel V-137 – Configurarea seturilor AT și PT pentru testul T Stout
Factorul latent Afectivitate
În cazul factorului Afectivitate, nu putem considera itemii ca având un caracter unidimensional esențial (T(1)=22,54; p<0,025; r2=0,998), așadar putem respinge ipoteza nulă a unidimensionalității esențiale. În cadrul primului ciclu, valoarea testului (TL=61,74; ES=0,02; r2=0,999) indică faptul că cele două seturi de itemi sunt distanțate, referindu-se la conținuturi latente distincte. La al doilea ciclu, testul arată că și itemii din setul de partiționare sunt distincți (TB=29,85; ES=-; r2=0,998), totuși mult mai omogeni în comparație cu primul ciclul. Efectele sunt foarte mari, ipoteza nulă a fost respinsă, axa identificată (afectivitatea contextuală) are caracterul unei dimensiuni și joacă un rol important în cadrul modelului. Pentru a ajunge la un model unidimensional, s-a observat anterior că itemul 7(13) saturează mai puternic dea de-a doua dimensiune. Eliminarea acestuia confirmă faptul că matricea covarianțelor standardizate ale reziduurilor devine zero, metoda NOHARM demonstrând unidimensionalitatea. Așadar, acest factor latent va fi modelat folosind 3PL pe baza unui număr de 7 itemi.
Tabel – – Rezultatele analizei unidimensionalității pentru factorul latent Afectivitate
După cum se poate observa, gradul de acoperire în factor latent al itemilor se situează în zona medie, doar itemul 13(14) se adresează unor subiecți cu un nivel redus de afectivitate. Discriminările sunt acceptabile și apropiate, cel mai discriminativ item fiind itemul 13(14), în timp ce itemul 25(16) prezintă capacitatea cea mai redusă de discriminare, după cum se poate vedea și din curbele caracteristice ale itemilor.
În privința probabilităților de răspuns la întâmplare, acestea au valori mici, apropiindu-se de limita inferioară a curbei caracteristice a itemului. Erorile de estimare sunt reduse, valoarea parametrului fiind foarte bine estimată.
Tabel – – Parametrii itemilor pentru factorul latent Afectivitate
Figura – Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Afectivitate
Testele de adecvare a datelor observate la modelul teoretic 3PL indică faptul că există o diferență semnificativă între modelul teoretic 3PL și repartiția datelor observate, pragurile de semnificație ale raportului de probabilitate logistică fiind mai mici de 0,05. Datele observate aproximează, însă nu modelează precis curba caracteristică a unui model logistic. Valorile oscilează între LR=51,33 (itemul 1(12) – cel mai bine modelat) și LR=335,86 (itemul 25(16) – cel mai slab modelat). Funcțiile informaționale ale itemilor arată tendința situării în zona medie a continuumului factorului latent, itemii cu încărcătura informațională cea mai mare fiind 13(14) și 37(18) – aproximativ 0,8, iar itemul cu cea mai slabă încărcătură informațională este 25(16), aproximativ 0,2.
Factorul latent Sociabilitate
Axa „orientarea sociabilității” se manifestă puternic și la nivelul acestui factor latent. Caracterul esențial unidimensional nu este respectat (T(1)=30,83; p<0,01; r2=0,998), ipoteza nulă a unidimensionalității esențiale fiind respinsă. Atât la nivelul primului ciclu (TL=76,42; ES=0,024; r2=0,024), cât și la nivelul celui de-al doilea ciclu (TB=32,82; ES=0,004; r2=0,999) remarcăm seturi de itemi distanțate. Efectele sunt foarte mari, subdimensiunea identificată și denumită de noi „orientarea sociabilității” există în mod real și se comportă ca un factor independent. În acest context, itemul 38(26) saturează puternic a doua dimensiune, eliminarea acestuia conducând la un model unidimensional al acestui factor latent.
Tabel – – Rezultatele analizei unidimensionalității pentru factorul latent Sociabilitate
Nivelurile de acoperire în factor latent ale itemilor sunt situate în zona mediei, capacitățile de discriminare sunt bune, cel mai discriminativ item fiind 44(27), iar itemul cu cea mai scăzută capacitate de discriminare este 14(22). Erorile standard de estimare sunt mici, parametrii reali fiind situați în jurul valorilor estimate, iar probabilitatea de răspuns la întâmplare se situează în jurul minimului curbei caracteristice a itemilor.
Tabel V-141 – Parametrii itemilor pentru factorul latent Sociabilitate
Figura – Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Sociabilitate
În privința adecvării la modelul teoretic 3PL, toate raporturile probabilistice logistice au praguri de semnificație mai mici de 0,05, indicând o aproximare și nu o modelare preciză a curbei caracteristice a itemului, datele observate distanțându-se semnificativ de modelul teoretic logistic. Excepția este dată de itemul 32(25), singurul la care datele observate modelează foarte bine 3PL, diferențele dintre cele două curbe nefiind semnificative. Valorile raportului de probabilitate logistică se situează între LR=10; p=0,12 (itemul 32(25) – cel mai bine modelat) și LR=75,07 (itemul 14(22) – cel mai slab modelat). Funcțiile informaționale ale itemilor arată că încărcătura informațională maximală se întâlnește la itemul 32(25), în timp ce itemul 14(22) posedă cea mai mică încărcătură informațională.
Factorul latent Asertivitate
Testul T Stout sesizează prezența asertivității contextuale la nivelul factorului latent (T(1)=12,502); p<0,05; r2=0,993), ipoteza nulă a unidimensionalității esențiale respingându-se. În cadrul primului ciclu, diferența dintre seturile de itemi este destul de mare (TL=50,38; ES=0,028; r2=0,999), reducându-se considerabil la al doilea ciclu (TB=32,70; ES=0,002; r2=0,999). Nu se poate ignora prezența axei, efectele fiind foarte mari. Știm totuși că itemul 45(34) saturează puternic cea de-a doua dimensiune, eliminarea acestuia conducând spre un model unidimensional.
Tabel – Rezultatele analizei unidimensionalității pentru factorul latent Asertivitate
Itemii sunt situați în zona mediei factorului latent, exceptând itemul 3(7) care se adresează celor cu un nivel mai ridicat de asertivitate. Discriminarea este situată, din nou, în limite rezonabile, itemul cu cea mai mică putere discriminativă fiind 3(7) iar cel mai puternic discriminativ item este 9(28). Erorile standard de estimare sunt relativ reduse la nivelul tuturor parametrilor, aceștia aproximând corespunzător nivelul factorului latent real. Excepție face itemul 21(30), pentru care nu s-a putut calcula eroarea standard de estimare.
Tabel – – Parametrii itemilor pentru factorul latent Asertivitate
Figura – Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Asertivitate
Estimarea modului în care datele observate se potrivesc modelului teoretic 3PL conduce la diferențe semnificative între cele două distribuții la nivelul tuturor itemilor analizați. Cea mai mare valoare a raportului probabilistic logistic este întâlnită la itemul 21(30) LR=229,49, iar itemul care se apropie cel mai mult de modelul logistic 3PL este 3(7) – LR=27,31. Funcția informațională a itemilor este maximală la nivelul itemilor 9(28) și 27(31), apropiindu-se de valoarea 1, iar cea mai mică încărcătură informațională se regăsește la nivelul itemilor 21(30), 33(32) și 39(33).
Factorul latent Activitate (Nivel de activism)
Activitatea contextuală este remarcată de testul Stout (T(1)=8,363; p<0,05; r2=0,685), itemii neavând un caracter unidimensional. În comparație cu ceilalți factori latenți studiați, distanța este mai redusă. În cadrul primului ciclu s-a obținut o distanță mai mare (TL=43,17; ES=0,025; r2=0,999), aceasta fiind redusă la nivelul ciclului al doilea (TB=31,343; ES=0,002; r2=0,998). Într-adevăr, axa contextuală a nivelului de activism există și se manifestă în răspunsurilor subiecților, efectele determinate fiind foarte mari. Itemul 4(35), itemul 28(39) și itemul 46(42) saturează puternic cea de-a doua dimensiune. Procedând la eliminarea itemului 4(35), rezultă un model unidimensional foarte bun, caracterizat printr-o corelație reziduală standardizată nulă.
Tabel – Rezultatele analizei unidimensionalității pentru factorul latent Activitate
Cei 7 itemi se adresează unui nivel mediu al factorului latent, exceptând itemul 16(37) care vizează subiecții cu un nivel redus de activism. Discriminările sunt bune, cel mai discriminativ item fiind 40(41), iar itemul cu capacitatea de discriminare cea mai mică este 28(39). Erorile standard de estimare sunt relativ mici, valorile apropiindu-se de cele reale pentru parametrii estimați. În cazul itemilor 28(39), 46(42) și 16(37), probabilitatea de răspuns la întâmplare este foarte mare (0,426; 0,304 respectiv 0,444), ceea ce conduce la limitări ale funcțiilor informaționale ale itemilor, mai ales în zona unei acoperiri slabe în factor latent. Acest lucru poate fi cauzat de itemi dezirabili social sau de inconsistența răspunsurilor.
Tabel – – Parametrii itemilor pentru factorul latent Activitate
Figura – Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Activitate
Estimarea modului în care datele observate corespund modelului logistic 3PL conduce către diferențe semnificative în cazul tuturor itemilor. Itemul care se distanțează cel mai mult de modelul 3PL este 40(41) cu un raport de probabilitate logistică LR=127,35, iar itemul cel mai apropiat de modelul 3PL este 16(37), având valoarea LR=60,82. Cele mai bune funcții informaționale sunt prezente la nivelul itemilor 40(41) și 46(42), iar itemul 16(37) prezintă cea mai redusă funcție informațională.
Factorul latent Excitabilitate (Căutare de senzații)
Folosind toți cei 8 itemi, asumpția unidimensionalității esențiale este încălcată (T(1)=12,03; p<0,05; r2=0,993). Așa cum am remarcat anterior, la nivelul acestui factor latent nu există o axă identificată, însă am sugerat eliminarea unui număr de 2 itemi ca urmare a unor probleme la nivelul spațiului de răspunsuri. În cadrul primului ciclu distanța dintre seturi este relativ mare (TL=48,84; ES=0,021; r2=0,999), pentru al doilea set aceasta reducându-se considerabil (TB=31,82; r2=0,999). Itemul 17(142) saturează foarte puternic cea de-a doua dimensiune, eliminarea sa conducând la un model unidimensional. Există posibilitatea ca itemul 5(43) să inducă un dezechilibru în model, însă acest efect nu influențează unidimensionalitatea.
Tabel – Rezultatele analizei unidimensionalității pentru factorul latent Excitabilitate
Toți itemii acestui factor latent se adresează unui nivel mediu, itemul 47(140) având tendința să evalueze niveluri mai reduse ale căutării de senzații. Discriminarea itemilor este bună, cea mai mare putere discriminativă fiind întâlnită șa itemul 41(49), iar cea mai mică putere de discriminare o are itemul 5(43). Erorile de estimare se situează la un nivel acceptabil, iar probabilitățile de răspuns la întâmplare se apropie de asimptota inferioară a curbei caracteristice a itemilor.
Tabel V-147 – Parametrii itemilor pentru factorul latent Excitabilitate
Figura – Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Excitabilitate
Distribuția empirică a datelor diferă semnificativ de distribuția teoretică a modelului 3PL în cazul tuturor celor 7 itemi. Pornind de la raporturile logistice probabilistice putem afirma că itemul 41(49) aproximează cel mai bine modelul logistic 3PL – LR=76,14 – în timp ce itemul 23(46) este cel mai distanțat de modelul teoretic – LR=251,43. Funcțiile informaționale indică o bună încărcătură la nivelul itemilor 29(47) și 35(48), cei mai slab informațional itemi fiind 5(43), 11(44) și 41(49).
Factorul latent Veselie (Emoții pozitive)
Asumpția unidimensionalității nu se respectă în prezența tuturor celor 8 itemi (T(1)=11,31; p<0,05; r2=0,995). În cadrul primului ciclu distanța dintre seturile de itemi este mare (TL=46,60; ES=0,01; r2=0,999), la al doilea ciclu reducându-se considerabil (TB=30,59; r2=0,998). Analizele anterioare nu au evidențiat prezența unor axe suplimentare, însă au sugerat eliminarea itemilor 18 (143) și 42(144) în vederea atingerii unidimensionalității. Itemul 42(144) saturează cel mai puternic a doua dimensiune, eliminarea acestuia având ca rezultat un model unidimensional.
Tabel – Rezultatele analizei unidimensionalității pentru factorul latent Veselie
Itemii au un nivel de acoperire în factor latent mediu, exceptând itemul 18(43) care se adresează în special persoanelor cu un nivel scăzut al emoțiilor pozitive. Capacitățile de discriminare sunt adecvate, cel mai puternic discriminând itemul 24(54), iar itemul cu discriminarea cea mai slabă este 6(51). Estimarea parametrilor itemilor s-a realizat corespunzător, neremarcându-se probleme deosebite. Erorile standard de estimare sunt mici, iar probabilitatea de răspuns la întâmplare se situează în zona asimptotei inferioare a curbei caracteristice a itemilor. În cazul itemului 18(143), eroarea de estimare a nivelului de acoperire în factor latent este ușor crescută, iar probabilitatea de răspuns la întâmplare se situează în jurul valorii de 0,19.
Tabel V-149 – Parametrii itemilor pentru factorul latent Veselie
Figura – Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Veselie
Nu s-a remarcat o compatibilitate semnificativă între distribuțiile empirice ale datelor și modelul teoretic 3PL, toți itemii prezentând valori mai mici de 0,05 ale pragurilor de semnificație. Itemul cel mai apropiat de modelul logistic 3PL este 24(54) – LR=57 –, iar itemul care se distanțează cel mai puternic de modelul teoretic este 48(58) – LR=232,31. Sub aspectul informațiilor, itemul 48(58) are puterea informațională cea mai mare, în timp ce itemul 18(143) are cea mai mică saturație informațională.
Factorul latent Încredere
La nivelul acestui factor latent, axa „contextul încrederii” nu se susține în cadrul analizei unidimensionalității. Testul Stout este nesemnificativ (T(1)=5,68; p>0,05; r2=0,969), ipoteza nulă a unidimensionalității esențiale nu poate fi respinsă. La nivelul primului ciclu (TL=41,92; ES=0,017; r2=0,999) distanța este relativ mare dintre cele doua seturi, omogenitatea setului de partiționare fiind însă mult mai bună (TB=33,88; ES=0,004; r2=0,999). Efectele sunt mari, însă axa contextului încrederii își menține influența de-a lungul întregului set de itemi, modelul rezultat fiind unul unidimensional.
Tabel – Rezultatele analizei unidimensionalității pentru factorul latent Încredere
Itemii acestui factor latent au un grad de acoperire mediu, itemul 73(63) adresându-se mai curând subiecților cu un nivel al încrederii ridicat iar itemul 85(65) vizează subiecții cu un nivel redus al încrederii. Discriminările sunt adecvate, itemul cu cea mai mare putere discriminativă fiind 91(66), iar cel mai puțin discriminativ item este 85(65). Erorile standard de estimare sunt mici, fapt care conduce la pertinența parametrilor obținuți. Probabilitățile de răspuns la întâmplare sunt foarte mari la itemul 85(65) și destul de ridicate la itemul 61(61), fapt care afectează funcția informațională a itemilor de-a lungul continuumului factorului latent.
Tabel V-151 – Parametrii itemilor pentru factorul latent Încredere
Figura – Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Încredere
Pragurile de semnificație ale raporturilor de probabilitate logistică sunt semnificative pentru toți itemii, fapt care arată o aproximare, dar nu și o compatibilitate semnificativă între modelul logistic 3PL și datele observate. Itemul 55(60) aproximează cel mai bine modelul – LR=26,94 –, în timp ce itemul 67(62) se situează la cea mai mare distanță de modelul logistic 3PL – LR=150,02. Sub aspectul funcțiilor informaționale, itemul 91(66) are cea mai mare încărcătură informațională, iar pentru itemul 85(65) încărcătura informațională este neglijabilă.
Factorul latent Moralitate (Simț moral)
Se poate respinge ipoteza nulă a unidimensionalității esențiale, testul Stout fiind semnificativ (T(1)=10,48; p<0,05; r2=0,990), așadar itemii au un caracter multidimensional. În cadrul primului ciclu, diferența dintre seturi este una importantă (TL=46,24; ES=0,022; r2=0,999), existând diferențe și la nivelul setului de partiționare (TB=31,41; ES=0,006; r2=0,998). Analizele anterioare au recomandat eliminarea itemului 74(149), în vederea atingerii unidimensionalității. Dacă vom elimina acest item, metoda NOHARM indică un bun model unidimensional. Apare constant itemul 80(150), care dezechilibrează modelul, însă acest dezechilibru nu este de natură să-i afecteze unidimensionalitatea. Din cauza formulării acestuia și a problemelor identificate anterior, am preferat excluderea sa din procesul de calibrare.
Tabel – Rezultatele analizei unidimensionalității pentru factorul latent Moralitate
Calibrarea itemilor pe baza modelului logistic 3PL a condus la estimări inconsistente, prin urmare s-a optat pentru estimarea parametrilor folosindu-se modelul logistic 2PL, din aceeași familie. Itemii prezintă niveluri de acoperire în factor latent situate în zona medie a continuumului, itemul 86(151) vizând mai curând subiecții cu un nivel mai redus al moralității. Discriminările itemilor sunt adecvate, cel mai puternic discriminând itemul 50(145), iar cel mai slab discriminează itemul 86(151). Erorile standard sunt reduse, parametrii fiind precis estimați, iar probabilitatea de răspuns la întâmplare nu s-a putut estima pentru acești itemi.
Tabel V-153 – Parametrii itemilor pentru factorul latent Moralitate
Figura – Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Moralitate
Itemul 50(145) este singurul care corespunde semnificativ modelului 2PL, datele observate urmând curba caracteristică a itemului – LR=0,93 – pragul de semnificație a raportului de probabilitate logistică fiind mai mare de 0,05. Acest item are și încărcătura informațională cea mai mare. La cealaltă extremă se situează itemii 86(151) și 92(152) cu încărcătura informațională cea mai mică și care se abat cel mai mult de la modelul logistic 2PL – LR=155,82, respectiv LR=184,26. Curbele caracteristice ale acestor itemi au mai mult un aspect liniar, datele se grupează în zona medie a factorului latent, iar din punct de vedere practic acești itemi ar putea fi eliminați. Deoarece prin eliminarea lor s-ar renunța la utilizarea factorului latent, am decis să-i folosim în analiză chiar dacă informația oferită este nesemnificativă.
Factorul latent Altruism
Axa de orientare a altruismului se comportă ca o dimensiune la nivelul acestui factor latent, ipoteza unidimensionalității esențiale fiind respinsă (T(1)=16,67; p<0,025; r2=0,998). În cadrul primului ciclu, distanța dintre cele două seturi este destul de mare (TL=50,10; ES=0,045; r2=0,999), ea reducându-se semnificativ la nivelul celui de-al doilea ciclu (TB=26,52; ES=0,002; r2=0,996). Efectele sunt importante, modelul fiind în mod cert unul multidimensional. Eliminând itemul 51(4) care saturează puternic a doua dimensiune, rezultă un model acceptabil care poate fi supus procesului de calibrare.
Tabel – Rezultatele analizei unidimensionalității pentru factorul latent Altruism
Majoritatea itemilor acoperă nivelul mediu din continuumul factorului latent, itemul 93(76) vizând mai ales subiecții cu un nivel redus al altruismului. Discriminările sunt corespunzătoare, cel mai discriminativ item fiind 57(5), iar itemul cu puterea de discriminare cea mai mică este 63(6). Erorile standard de estimare sunt reduse, exceptând itemul 81(11) pentru care nu s-a putut calcula acest indicator. În afara itemului 69(9) pentru care probabilitatea de răspuns la întâmplare este relativ ridicată (30,06%), toți itemii prezintă niveluri ale răspunsului la întâmplare situate în zona asimptotei inferioare a curbei.
Tabel V-155 – Parametrii itemilor pentru factorul latent Altruism
Figura – Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Altruism
Nu există itemi care să corespundă semnificativ modelului logistic teoretic 3PL, pragurile de semnificație ale raporturilor logistice de probabilitate fiind mai mici de 0,05, Itemul 87(75) se apropie cel mai mult de modelul 3PL – LR=43,02, cel mai distanțat item fiind 63(6) – LR=362,57. Din punct de vedere al funcțiilor informaționale, încărcăturile sunt mici la nivelul tuturor itemilor, cel mai puternic încărcat fiind totuși itemul 69(9), iar ce mai slab informațional este itemul 63(6).
Factorul latent Cooperare
Analiza unidimensionalității itemilor indică respingerea ipotezei nule (T(1)=7,95; p<0,05; r2=0,984), itemii având un caracter multidimensional. În cadrul primului ciclu, distanța dinte cele două seturi este destul de mare (TL=43,59; ES=0,022; r2=0,999), ea reducându-se la nivelul celui de-al doilea ciclu (TB=32,34; ES=0,004; r2=0,999). Analiza consistenței interne a identificat posibilitatea creșterii acesteia prin eliminarea itemilor 94(160) și 82(158) care saturează puternic a doua dimensiune. Este suficientă eliminarea itemului 94(160), pentru a rezulta un model unidimensional foarte bun, toate corelațiile reziduale standardizate fiind zero.
Tabel – Rezultatele analizei unidimensionalității pentru factorul latent Cooperare
Vom observa că majoritatea itemilor se adresează unui nivel mediu al factorului latent, exceptând itemii 52(153) și 64(155) care vizează subiecții cu un nivel redus de cooperare. Discriminările itemilor sunt bune, cel mai discriminativ item fiind 70(156), iar itemul cu puterea de discriminare cea mai mică este 82(158). Eroarea standard de estimare a nivelului factorului latent în cazul itemului 64(155) este destul de ridicată, ceilalți parametri beneficiind de erori standard de estimare reduse. Itemii 76(157) și 82(158) au o probabilitate de răspuns la întâmplare ușor crescută iar itemul 52(153) poate fi unul problematic, estimarea erorilor de calibrare eșuând.
Tabel – – Parametrii itemilor pentru factorul latent Cooperare
Figura – Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Cooperare
Pragurile raporturilor de probabilitate logistică sunt mai mici de 0,05, prin urmare itemii reușesc să aproximeze însă nu corespund semnificativ unui model 3PL. Cel mai bine aproximează modelul teoretic itemul 58(154) – LR=46,47, la distanța cea mai mare situându-se itemul 82(158) – LR=291,27. Într-adevăr, itemul 52(153) posedă cea mai mică încărcătură informațională, itemul cel mai puternic sub acest aspect fiind 70(156).
Factorul latent Modestie
Analiza celor 8 itemi din punctul de vedere al unidimensionalității indică un model multidimensional (T(1)=11,11; p<0,05; r2=0,991), ipoteza unidimensionalității esențiale respingându-se. Distanțele la nivelul primului ciclu (TL=42,76; ES=0,023; r2=0,999) și la nivelul celui de-al doilea ciclu (TB=27,04; r2=0,998) sunt importante, efectele sunt mari, modelul are în mod cert caracteristici multidimensionale. Itemii 53(85) și 77(89) saturează cea de-a doua dimensiune, cea mai puternică saturație întâlnindu-se la itemul 53(85). Eliminarea acestuia este suficientă pentru atingerea unidimensionalității. Itemul 77(89) va fi de asemenea exclus, în baza analizelor anterioare rezultând un model unidimensional cu 6 itemi.
Tabel – Rezultatele analizei unidimensionalității pentru factorul latent Modestie
Calibrarea itemilor sub modelul 3PL nu a reușit, prin urmare estimarea parametrilor a avut în vedere un model de tip 2PL din aceeași familie de modele de răspuns la item. Toți itemii se adresează unui nivel mediu al factorului latent, puterea discriminativă cea mai mare fiind întâlnită la itemul 59(86), iar cea mai mică putere discriminativă se regăsește la itemul 89(91). Erorile de estimare sunt reduse la nivelul tuturor parametrilor, iar parametrul probabilitate de răspuns la întâmplare nu s-a putut estima.
Tabel V-159 – Parametrii itemilor pentru factorul latent Modestie
Figura – Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Modestie
Toți cei 6 itemi aproximează modelul logistic 2PL fără a exista o corespondență semnificativă între datele observate și curba caracteristică a acestui model. Aproximarea cea mai bună apare la nivelul itemului 95(92) – LR=89,35 –, cel mai distanțat item fiind 83(90) – LR=324,99. Itemul 95(92) are și cea mai mare încărcătură informațională, iar itemii 71(88) și 83(90) se caracterizează prin funcții informaționale reduse.
Factorul latent Compasiune
Unidimensionalitatea esențială în cazul acestui factor latent nu a putut fi îndeplinită (T(1)=8,44; p<0,05; r2=0,998). La nivelul primului ciclu, diferența dintre seturi este importantă (TL=42,78; ES=0,02; r2=0,999), mai mare decât diferența dintre seturi în al doilea ciclu (TB=30,83; r2=0,998). Efectele sunt importante, modelul este multidimensional, însă eliminarea itemului 84(161) conduce către un model unidimensional.
Tabel – Rezultatele analizei unidimensionalității pentru factorul latent Compasiune
Eșuând calibrarea prin modelul 3PL, estimarea parametrilor celor 7 itemi s-a realizat utilizându-se un model de tip 2PL din cadrul aceleași familii. Cei 7 itemi vizează niveluri medii ale factorului latent, capacitățile de discriminare sunt acceptabile, cel mai discriminativ item fiind 72(96), iar cel mai puțin discriminativ item este 90(99). Erorile de estimare ale parametrilor sunt foarte mici, probabilitatea de răspuns la întâmplare nefiind calculată.
Tabel V-161 – Parametrii itemilor pentru factorul latent Compasiune
Figura – Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Compasiune
Nu putem remarca potriviri semnificative între modelul logistic 2PL și datele observate, ci doar aproximări la nivelul tuturor celor 7 itemi. Semnificația testului statistic este mai mică de valoarea prag 0,05 ceea ce conduce la respingerea ipotezei nule. Distanțele sunt mari, itemul care aproximează cel mai bine modelul este 78(97) – LR=172,74 –, iar itemul cel mai distanțat de modelul teoretic este 72(96) – LR=448,43. Cea mai redusă încărcătură informațională este prezentă la nivelul itemului 90(99), iar itemul cel mai puternic din punct de vedere informațional este 72(96).
Factorul latent Anxietate
Inițial, structura celor 8 itemi ai acestui factor latent are un caracter multidimensional (T(1)=7,14; p<0,05; r2=0,98), în cadrul primului ciclu distanța dintre seturi fiind mai mare în comparație cu cel de-al doilea ciclu (TL=36,60; ES=0,02; r2=0,999; TB=26,49; ES=0,0009; r2=0,998). Analizele inițiale au arătat că itemii 103(101) și 139(107) saturează preponderent a doua dimensiune, saturația cea mai puternică fiind întâlnită la itemul 103(101). Eliminarea acestui item conduce la un model unidimensional slab.
Tabel – Rezultatele analizei unidimensionalității pentru factorul latent Anxietate
Modelul 3PL nu a putut fi aplicat acestui set de itemi, prin urmare s-a utilizat un model de calibrare de tip 2PL. După cum se poate observa, itemii 115(103) și 133(106) se adresează subiecților cu un nivel relativ ridicat de anxietate, toți ceilalți vizând un nivel mediu al factorului latent. Cel mai discriminativ item este 121(104), iar cel mai puțin discriminativ – 139(107). Erorile standard sunt reduse, însă probabilitatea de răspuns la întâmplare nu s-a putut calcula.
Tabel V-163 – Parametrii itemilor pentru factorul latent Anxietate
Figura – Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Anxietate
Nu putem vorbi despre o compatibilitate perfectă între datele observate și modelul teoretic 2PL, semnificațiile raporturilor probabiliste logistice fiind mai mici de 0,05. Distanțele la care se situează datele sunt mari, cel mai apropiat de modelul 2PL fiind itemul 115(103) – LR=147,57 –, iar itemul 121(104) se situează la distanța cea mai mare – LR=601,87. Ca urmare și funcțiile informaționale ale itemilor sunt afectate, cel mai puternic informațional item este 121(104) iar cel mai slab – 139(107).
Factorul latent Furie
Analiza inițială a celor 8 itemi nu indică un model unidimensional (T(1)=10,01; p<0,05; r2=0,99). În primul ciclu distanța dintre cele două seturi este relativ mare (TL=41,56; ES=0,025; r2=0,999), ea reducându-se considerabil la nivelul celui de-al doilea ciclu (TB=27,4; ES=0,001; r2=0,998). S-a remarcat că itemul 134(114) este singurul care saturează foarte puternic cea de-a doua dimensiune. Eliminarea acestuia determină apariția unui model unidimensional.
Tabel – Rezultatele analizei unidimensionalității pentru factorul latent Furie
Și în cazul acestui factor latent s-a optat pentru utilizarea unui model logistic de tip 2PL deoarece datele nu permit calibrarea folosind un model cu trei parametri. Se poate observa că toți itemii vizează niveluri medii ale factorului latent, cel mai puțin discriminativ item fiind 116(111), iar itemul cu puterea de discriminare cea mai mare este 128(113), toți itemii discriminând foarte bine la acest nivel. Erorile standard de estimare au valori mici, itemii estimând bine nivelul factorului latent, însă probabilitatea de răspuns la întâmplare nu a putut fi calculată.
Tabel – – Parametrii itemilor pentru factorul latent Furie
Figura – Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Furie
Distanțele la care se situează datele observate în raport cu modelul logistic 2PL sunt foarte mari, acestea nu corespund semnificativ curbei teoretice. Cel mai distanțat este itemul 128(113) – LR=1419,263 –, iar cel mai apropiat este itemul 98(108) – LR=577,06. Funcția informațională maximală este atinsă la nivelul itemului 128(123), în timp ce itemul 140(115) este cel mai puțin încărcat informațional.
Factorul latent Depresie
Din analiza unidimensionalității pentru acest factor latent rezultă în model unidimensional pentru toți cei 8 itemi (T(1)=6,22; p>0,05; r2=0,974). În cadrul primului ciclu distanța dintre seturi este acceptabilă (TL=31,39; ES=0,02; r2=0,998), iar la nivelul celui de-al doilea ciclu se reduce considerabil (TB=22,59; r2=0,998). Cu toate că există efecte la nivelul ciclurilor, acestea sunt compensate, modelul rezultat fiind unidimensional. Cu toate acestea, comportamentul itemului 135(122) iese din contextul celorlalți 7 itemi, așa cum s-a arătat în analizele anterioare. Vom elimina acest item, unidimensionalitatea modelului ameliorându-se considerabil.
Tabel – Rezultatele analizei unidimensionalității pentru factorul latent Depresie
Constatăm că un număr de doi itemi (117(119), 111(118) și 99(116)) se adresează subiecților cu un nivel ridicat al depresiei, ceilalți prezentând un nivel mediu de acoperire în factor latent. Discriminările sunt acceptabile, itemul cu puterea de discriminarea cea mai mare fiind 111(118), iar cel cu puterea de discriminare cea mai mică este 105(117). Erorile standard sunt relativ mici, iar probabilitatea de răspuns la întâmplare se situează apropiat de asimptota inferioară a curbei caracteristice a itemilor.
Tabel V-167 – Parametrii itemilor pentru factorul latent Depresie
Figura – Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Depresie
Și la nivelul itemilor acestui factor latent asistăm la distanțe mari ale datelor observate în raport cu modelul teoretic 3PL. Itemul care se apropie cel mai mult de modelul teoretic este 105(117) – LR=110,60 –, iar cel mai distanțat item este 111(118) – LR=1082,26. De asemenea, funcția informațională cea mai bună o are itemul 111(118), în timp ce itemul 105(117) se remarcă prin cea mai slabă încărcare informațională din întregul set de itemi.
Factorul latent Timiditate
Cei 8 itemi ai factorului latent nu formează un model unidimensional (T(1)=9,94; p<0,05; r2=0,989). În cadrul primului ciclu, distanța dintre seturi este considerabilă (TL=46,38; ES=0,022; r2=0,999), ea reducându-se la nivelul celui de-al doilea ciclu (TB=32,32; ES=0,002; r2=0,999). Itemul 112(126) al acestui factor latent tinde să satureze puternic dimensiunea a doua. În cazul în care eliminăm acest item, modelul devine unidimensional.
Tabel – Rezultatele analizei unidimensionalității pentru factorul latent Timiditate
Toți itemii au un grad de saturație mediu în factor latent și o bună capacitate de discriminare. Itemul cel mai discriminativ este 136(130), iar itemul cu puterea de discriminare cea mai mică este 124(128). Erorile standard de estimare sunt în general mici, singurul item la care nu s-a putut estima eroarea standard pentru doi parametri fiind 142(131). Probabilitățile de răspuns la întâmplare, pentru toți itemii, se situează în zona asimptotei inferioare a curbei caracteristice.
Tabel V-169 – Parametrii itemilor pentru factorul latent Timiditate
Figura – Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Timiditate
Nu există itemi remarcați printr-o compatibilitate totală cu modelul teoretic 3PL. Semnificațiile raportului logistic de probabilitate se situează sub valoarea prag de 0,05, astfel încât ipoteza nulă a similarității distribuției datelor observate cu modelul teoretic se respinge. Itemul 130(129) se apropie cel mai mult de curba caracteristică teoretică – LR=107,79 – în timp ce itemul 136(130) este cel mai distanțat de acest model teoretic – LR=421,52. Sub aspect informațional, itemii 118(127) și 136(130) prezintă încărcătura informațională maximală, în timp ce itemul 124(128) se remarcă prin cea mai slabă încărcătură informațională.
Factorul latent Vulnerabilitate
Cei 8 itemi ai factorului latent nu formează un model unidimensional (T(1)=16,93; p<0,025; r2=0,998).
Tabel – Rezultatele analizei unidimensionalității pentru factorul latent Vulnerabilitate
În cadrul primului ciclu, distanța dintre seturi este foarte mare (TL=51,36; ES=0,027; r2=0,999), ea reducându-se semnificativ la nivelul celui de-al doilea ciclu (TB=27,41; ES=0,002; r2=0,999). Itemul 138(138) al acestui factor latent tinde să satureze puternic dimensiunea a doua. În cazul în care eliminăm acest item, modelul devine unidimensional.
La nivelul acestui factor latent s-a folosit un model de tip 2PL deoarece observațiile nu corespund calibrării printr-un model de tip 3PL. Din analizele efectuate rezultă că toți itemii au o încărcătură medie în factor latent, capacitățile discriminative sunt ridicate, cel mai discriminativ item fiind 126(136), iar cel mai puțin discriminativ – 114(134). Erorile standard de estimare au valori mici, însă probabilitatea de răspuns la întâmplare nu s-a putut calcula.
Tabel – – Parametrii itemilor pentru factorul latent Vulnerabilitate
Figura – Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Vulnerabilitate
Din punct de vedere al compatibilității cu modelul teoretic 2PL remarcăm aceleași probleme. Distanțele la care se situează datele observate față de modelul teoretic sunt mari, cel mai bine aproximând itemul 114(134) – LR=385,07 –, în timp ce itemul 126(136) se situează la distanța cea mai mare în raport cu distribuția teoretică 2PL – LR=1575,49. Itemul 126(136) are totuși cea mai mare încărcătură informațională, la polul opus situându-se itemul 114(134).
Factorul latent Eficiență personală
O analiză inițială a celor 8 itemi componenți ai acestui factor latent conduce la respingerea ipotezei nule a unidimensionalității esențiale (T(1)=12,28; p<0,05; r2=0,993). La nivelul primului ciclu (TL=47,69; ES=0,024; r2=0,999) distanțele dintre seturile de date sunt mari, ele scăzând la nivelul celui de-al doilea ciclu (TB=30,31; ES=0,005; r2=0,998). Efectele sunt mari, iar modelul este în mod cert multidimensional. S-a arătat că itemul 157 saturează foarte puternic cea de-a doua dimensiune, având saturații foarte mici în prima dimensiune, cea de interes. Eliminând acest item se ajunge la un model unidimensional foarte bun, cu toate corelațiile reziduale standardizate zero.
Tabel – Rezultatele analizei unidimensionalității pentru factorul latent Eficiență personală
Calibrarea s-a putut realiza pe baza unui model de tip 2PL, datele observate nefiind adecvate unui model 3PL. Se poate observa că itemii acoperă un nivel mediu al factorului latent, doar itemul 145(162) adresându-se unui nivel mai scăzut. Discriminarea itemilor este bună, cel mai discriminativ item fiind 151(163), iar itemul cu puterea de discriminare cea mai mică este 163(165). Nivelul erorilor standard de estimare este redus, valoarea reală a parametrilor fiind foarte apropiată de valoarea estimată, însă probabilitatea de răspuns la întâmplare nu s-a putut calcula.
Tabel V-173 – Parametrii itemilor pentru factorul latent Eficiență personală
Figura – Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Eficiență personală
Nu apar compatibilități semnificative ale datelor cu modelul teoretic 2PL în cazul acestui factor latent, semnificațiile fiind mai mici de valoarea prag. Itemul 169(166) se apropie cel mai mult de modelul logistic cu doi parametri – LR=35,15 –, în timp ce itemul 189(169) este cel mai distanțat de acest model – LR=233,82. Din punct de vedere al funcțiilor informaționale ale itemilor, itemul 151(163) are cea mai mare încărcare informațională, spre deosebire de itemul 163(165), cu nivelul cel mai redus de informație.
Factorul latent Ordine și planificare
Analiza unidimensionalității esențiale pentru itemii acestui factor latent conduce la un model cert multidimensional (T(1)=16,82; p<0,025; r2=0,996). La nivelul primului ciclu distanța dintre seturile de itemi este foarte mare (TL=55,40; ES=0,025; r2=0,999), ea reducându-se la nivelul celui de-al doilea ciclu (TB=31,61; ES=0,002; r2=0,999). Conform analizei componentelor principale, un număr de 2 itemi (170(174) și 182(176)) au un comportament neconsistent și ar trebui eliminați pentru a se atinge criteriul unidimensionalității esențiale. Într-adevăr, eliminarea ambilor itemi conduce la un model unidimensional cu toate corelațiile standardizate reziduale zero. Păstrarea unuia dintre cei doi itemi nu converge către un model unidimensional.
Tabel – Rezultatele analizei unidimensionalității pentru factorul latent Ordine și planificare
Se poate observa că toți itemii se adresează unui nivel mediu al factorului latent, cel mai discriminativ fiind itemul 164(173), iar cel mai puțin discriminativ – 187(177). Erorile standard de estimare sunt mici, exceptând itemii 152(171) și 187(177) pentru care acestea nu au putut fi calculate, coordonatele probabilității de răspuns la întâmplare fiind, de asemenea, reduse.
Tabel V-175 – Parametrii itemilor pentru factorul latent Ordine și planificare
Figura – Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Ordine și planificare
Semnificațiile raporturilor de probabilitate logistică arată că niciunul dintre itemi nu este perfect compatibil cu modelul teoretic 3PL, valorile fiind mai mici de pragul de semnificație. Totuși, itemul 164(173) este cel mai apropiat de acest model teoretic – LR=19,34 –, în timp ce itemul 146(170) se distanțează cel mai puternic – LR=318,48. Cea mai puternică funcție informațională se întâlnește la itemul 164(173), iar itemul 187(177) prezintă cea mai mică încărcătură informațională.
Factorul latent Perseverență (Autodisciplină)
Criteriul unidimensionalității esențiale nu a putut fi atins la nivelul acestui factor latent (T(1)=10,24; p<0,05; r2=0,99). În cadrul primului ciclu (TL=46,36; ES=0,025; r2=0,999) și în cadrul celui de-al doilea ciclu (TB=31,87; ES=0,004; r2=0,999), distanțele dintre seturi sunt mari, efectele sunt puternice, modelul este cert multidimensional. Dacă vom elimina itemul 167(181), care saturează puternic a doua dimensiune, rezultă un model unidimensional bun cu toate covarianțele reziduale standardizate nule.
Tabel – Rezultatele analizei unidimensionalității pentru factorul latent Perseverență
Itemii se adresează unui nivel mediu al factorului latent, discriminările sunt acceptabile, cel mai puternic discriminativ item este 190(185), iar cel mai puțin discriminativ este itemul 155(179). Erorile standard de estimare sunt relativ mici, exceptând itemul 161(180) la care și probabilitatea de răspuns la întâmplare este relativ ridicată.
Tabel V-177 – Parametrii itemilor pentru factorul latent Perseverență
Figura – Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Perseverență
În baza raporturilor de probabilitate logistică, am decis că niciunul dintre itemi nu este compatibil perfect cu modelul logistic 3PL, doar îl aproximează. Astfel, itemul 161(180) pare a fi cel mai apropiat de acest model teoretic – LR=27,47 –, iar itemul 173(182) se îndepărtează cel mai mult – LR=179,43. Cel mai slab informațional este itemul 155(179), încărcătura informațională cea mai mare întâlnindu-se la nivelul itemului 190(185), remarcând, în ansamblu, valori mici ale acestei funcții.
Factorul latent Prudență
Analiza unidimensionalității itemilor a condus la un model unidimensional în prezența tuturor celor 8 itemi ai factorului latent (T(1)=2,98; p>0,05; r2=0,899).
Tabel – Rezultatele analizei unidimensionalității pentru factorul latent Prudență
Se poate observa că toți itemii au un grad mediu de acoperire în factor latent, itemul cu cea mai mare putere discriminativă este 180(191), iar cel mai slab discriminativ item este 174(190). Erorile standard de estimare sunt reduse, dar întâlnim probabilități ridicate de răspuns la întâmplare la nivelul itemilor 156(187) și 174(190).
Tabel V-179 Parametrii itemilor pentru factorul latent Prudență
Figura – Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Prudență
Investigarea gradului de compatibilitate cu modelul teoretic 3PL conduce la semnificații sub valoarea prag, fapt care indică o aproximare și nu o compatibilitate totală. Itemul care aproximează cel mai bine curba caracteristică de tip 3PL este 180(191) – LR=22,98 –, iar itemul cel mai distanțat de acest model este 156(187) – LR=120,77. Funcția informațională maximală se poate observa la itemul 180(191), itemul 150(186) remarcându-se prin minimum acestei funcții.
Factorul latent Imaginație
Analiza unidimensionalității itemilor indică un model multidimensional (T(1)=10,14; p<0,05; r2=0,990). În cadrul primului ciclu distanța dintre seturile de itemi este mai mare (TL=42,89; ES=0,023; r2=0,999), față de distanța dintre seturi în ciclul al doilea (TB=28,55; ES=0,001; r2=0,998). Efectele sunt mari, modelul multidimensional este cert. Analizele componentelor principale arată posibilitatea eliminării itemilor 217(198) și 229(200) în vederea atingerii unidimensionalității esențiale. În cazul în care eliminăm itemul 217(198) care saturează cel mai puternic a doua dimensiune, ajungem la un model unidimensional.
Tabel – Rezultatele analizei unidimensionalității pentru factorul latent Imaginație
Estimarea parametrilor s-a realizat folosindu-se modelul 2PL deoarece calibrarea itemilor a eșuat prin modelul cu trei parametri. Itemii au un nivel mediu de acoperire în factor latent, doar itemul 199(195) adresându-se subiecților cu un nivel ușor crescut al imaginației. Discriminările itemilor sunt bune, itemul 235(201) discriminând cel mai puternic, iar itemul 229(200) cel mai slab. Erorile de estimare s-au menținut reduse, însă nu s-a putut calcula probabilitatea de răspuns la întâmplare.
Tabel V-181 – Parametrii itemilor pentru factorul latent Imaginație
Figura – Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Imaginație
Distanțele între modelul teoretic 2PL și datele observate sunt mari, funcția caracteristică a itemilor aproximează însă nu există o compatibilitate foarte bună. Cel mai bine aproximează modelul itemul 229(200) – LR=112,71 –, iar cel mai slab itemul 235(201) – LR=1343,78. Funcția informațională cea mai slabă o întâlnim la nivelul itemului 229(200), în timp ce itemul 205(196) prezintă cea mai bună încărcătură informațională.
Factorul latent Interes artistic
În formula cu 8 itemi, modelul nu este unidimensional (T(1)=11,65; p<0,05; r2=0,992), distanța dintre seturile de itemi din primul ciclu (TL=45,6; ES=0,023; r2=0,999) fiind mare, ea reducându-se la nivelul celui de-al doilea ciclu (TB=29,19; ES=0,002; r2=0,998). Efectele conduc clar către un model multidimensional, însă eliminarea itemului 212(205) conduce la un bun model unidimensional.
Tabel – Rezultatele analizei unidimensionalității pentru factorul latent Interes artistic
Majoritatea celor 7 itemi ai acestui factor latent prezintă un grad mediu de acoperire în factor latent, doar itemul 200(203) adresându-se subiecților cu un nivel superior. Discriminările sunt bune, itemul cel mai puternic discriminativ este 236(209), iar itemul cu capacitatea de discriminare cea mai slabă este 200(203). Erorile de estimare sunt mai ridicate la itemii 194(202) și 230(208), iar nivelurile de acoperire în factor latent se apropie de asimptota inferioară a curbei caracteristice, pentru itemul 230(208) acestea fiind ușor ridicate.
Tabel V-183 – Parametrii itemilor pentru factorul latent Interes artistic
Figura – – Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Interes artistic
Raporturile de probabilitate logistică au niveluri de semnificație mai mici de valoarea prag, ipoteza nulă a similarității cu funcția caracteristică a itemului putând fi respinsă. Repartiția datelor se abate de la modelul logistic 3PL, itemul cel mai apropiat de acest model este 200(203) – LR=58,50 –, iar itemul 218(206) se situează la distanța cea mai mare – LR=203,93. Funcții informaționale maxime prezintă itemii 194(202), 206(204), 224(207) și 236(209), în timp ce itemii 200(203) și 218(206) au funcțiile informaționale cele mai mici.
Factorul latent Emoționalitate
Analiza celor 8 itemi conduce către un model unidimensional (T(1)=5,43; p>0,05; r2=0,967), chiar dacă analizele anterioare au arătat posibilitatea eliminării itemilor 237(217) și 201(211). În realitate, aceștia fac parte din contextul factorului latent adresându-se unor niveluri mari sau mici ale acestuia.
Tabel – Parametrii itemilor pentru factorul latent Emoționalitate
Itemii 201(211), și 237(217) vizează niveluri mai mari ale emoționalității, în timp ce itemii 225(215), 213(213) și 207(212) au în vedere niveluri mai mici ale acestui factor latent. Discriminările sunt acceptabile, cel mai discriminativ item este 207(212), iar cel mai puțin discriminativ item este 201(211). Itemul 207(212) prezintă o discriminare anormal de ridicată, eroarea standard a estimării fiind, de asemenea, foarte mare. Itemii 213(231) și 219(214) pot fi apreciați ca problematici, erorile standard de estimare neputând fi calculate la unii parametri. Cu excepția itemilor 237(217) și 219(214) care prezintă probabilități de răspuns la întâmplare mai ridicate, toți ceilalți itemi au valorile acestui parametru apropiate de zero.
Tabel V-185 – Parametrii itemilor pentru factorul latent Emoționalitate
Figura – Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Emoționalitate
Compatibilitatea cu modelul teoretic 3PL nu a fost îndeplinită la niciun item analizat, semnificațiile raporturilor de probabilitate logistică fiind mai mici de 0,05. Itemul 201(211) este cel mai apropiat de acest model teoretic – LR=21,82 – în timp ce itemul 195(210) se situează la distanța cea mai mare – LR=285,52. Analiza funcțiilor informaționale ale itemilor arată că itemul 201(211) are cel mai mic nivel al informațiilor furnizate, nivelul maximal al funcției informaționale fiind prezent la itemul 207(212).
Factorul latent Spirit de aventură
La nivelul acestui factor latent cei 8 itemi au un caracter multidimensional (T(1)=9,10; p<0,05; r2=0,988). La nivelul primului ciclu distanțele dintre seturi sunt destul de mari (TL=44,9; ES=0,019; r2=0,999), ele conservându-se și la nivelul celui de-al doilea ciclu (TB=32,02; ES=0,002; r2=0,999). Ne aflăm în situația unui cert model multidimensional, însă din analizele anterioare a rezultat eliminarea unui număr de 2 itemi – 196(218) și 226(223). Eliminând doar itemul 196(218) care saturează cel mai puternic a doua dimensiune, rezultă un bun model unidimensional cu toate covarianțele reziduale standardizate nule.
Tabel – Parametrii itemilor pentru factorul latent Spirit de aventură
Toți itemii vizează niveluri medii ale factorului latent, cel mai discriminativ item fiind 238(225), iar cel mai puțin discriminativ item este 226(223). Erorile standard de estimare sunt mici, iar probabilitățile de răspuns la întâmplare ale itemilor sunt situate în zona asimptotei inferioare a curbei caracteristice, exceptând itemul 202(219) care prezintă valori ușor ridicate.
Tabel V-187 – Parametrii itemilor pentru factorul latent Spirit aventurier
Figura – Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Spirit de aventură
Itemul 214(221) se apropie cel mai mult de modelul teoretic 3PL (LR=52,87), în timp ce itemul 220(222) se situează la distanța cea mai mare față de acesta (LR=163,82), însă toți itemii se abat semnificativ de la curba caracteristică pentru 3PL, semnificațiile raportului de probabilitate logistică fiind mai mici de valoarea prag. Itemul 238(225) se remarcă prin funcția informațională cea mai bună, iar itemul 226(232) prezintă cea mai slabă funcție informațională.
Factorul latent Intelect
Toți cei 8 itemi fac parte din contextul dimensional al factorului latent (T(1)=1,26; p>0,05; r2=0,615), astfel încât modelul poate fi considerat unidimensional fără eliminarea vreunui item.
În ciuda unidimensionalității, calibrarea eșuează din cauza itemului 227(231), prin urmare acesta va fi exclus din analiză.
Tabel – Parametrii itemilor pentru factorul latent Intelect
Itemii 197(226), 209(228) și 215(229) prezintă grade relativ mari de acoperire în factor latent, adresându-se subiecților cu un nivel ridicat al factorului intelect, în timp ce toți ceilalți vizează zona medie. Capacitățile discriminative ale itemilor sunt acceptabile, cel mai puternic discriminativ item este 197(226), iar cel mai slab – 221(230). Erorile standard de estimare sunt mici, iar probabilitatea de răspuns la întâmplare se situează în zona asimptotei inferioare a curbei caracteristice a modelului 3PL.
Tabel V-189 – Parametrii itemilor pentru factorul latent Intelect
Figura – Curbele caracteristice și funcțiile informaționale ale itemilor pentru factorul latent Intelect
Distanțele la care se situează datele observate în raport cu distribuția teoretică sunt mari, distribuția se abate semnificativ de la curba caracteristică teoretică 3PL. Itemul cel mai apropiat de modelul teoretic este 215(229) – LR=86,81 –, iar itemul cel mai distanțat este 221(230) – LR=445,85. Ultimul item – 239(233) prezintă cea mai bună funcție informațională, în timp ce itemii 215(229) și 221(230) au încărcătura informațională cea mai redusă.
Factorul latent Liberalism
Cei 8 itemi ai factorului latent nu au un caracter unidimensional (T(1)=25,48; p<0,025; r2=0,998). La nivelul primului ciclu distanțele dintre seturi sunt foarte mari (TL=67,06; ES=0,032; r2=0,999), acestea scăzând în cel de-al doilea ciclu (TB=31,03; ES=0,005; r2=0,998). Analiza componentelor principale a sugerat eliminarea itemilor 216(237) și 234(240) din cauza saturațiilor foarte mari în a doua dimensiune. Este suficientă eliminarea primului item pentru a se ajunge la o soluție unidimensională.
Tabel – Parametrii itemilor pentru factorul latent Liberalism
Toți itemii se adresează unui nivel mediu al factorului latent, excepție făcând itemii 222(238) și 228(239) care vizează mai curând un nivel ușor ridicat de liberalism. Discriminările itemilor sunt acceptabile, itemul cu puterea de discriminare cea mai mare fiind 228(239), iar cel cu puterea de discriminare cea mai mică fiind 234(240). Erorile standard de estimare sunt reduse, iar probabilitățile de răspuns la întâmplare sunt foarte apropiate de zero. Itemul 234(240) poate fi privit ca problematic, erorile standard de estimare neputând fi calculate.
Tabel V-191 – Parametrii itemilor pentru factorul latent Liberalism
Figura – Curbele caracteristice ale itemilor pentru factorul latent Liberalism
Analiza gradului de compatibilitate între modelul logistic teoretic 3PL și distribuția datelor pentru factorul latent liberalism folosind raportul de probabilitate logistică arată că există diferențe semnificative între cele două distribuții. Datele nu corespund semnificativ modelului teoretic, cel mai apropiat item este 198(234) – LR=66,60 –, iar ce mai distanțat item este 239(240) – LR=634,29. În același timp, itemul 239(240) are și funcția informațională cea mai mică, itemul 228(239) fiind caracterizat prin funcția informațională cea mai bună. Deoarece itemul 239(240) prezintă în mod cert probleme de adecvare la model, acesta va fi eliminat din baza de itemi.
Concluzii generale referitoare la calibrarea itemilor
Calibrarea itemilor derivați din forma clasică a inventarului de personalitate BigFive Plus a reprezentat un proces complex, inițiat de analiza univariată a distribuțiilor atât la nivelul factorilor, cât și la cel al dimensiunilor. Au rezultat distribuții care se abat semnificativ de la distribuția normală, mai ales din cauza problemelor legate de boltire și mai puțin din cauza simetriei. Având în vedere specificul analizei noastre, acest lucru nu este de natură să ne afecteze rezultatele. Studiul consistenței interne a reprezentat prima etapă a analizei unidimensionalității factorilor latenți, efectuându-se atât la nivelul dimensiunilor, cât și la nivelul factorilor. Au rezultat o serie de itemi inconsistenți, propuși spre eliminare, dar și factori lipsiți de consistență internă, care, în funcție de analizele ulterioare, vor fi sau nu vor fi păstrați. În plus, analiza consistenței interne a condus la concluzia că asumpția independenței locale a itemilor a fost îndeplinită, nemaifiind necesare alte teste de acest tip.
Analiza componentelor principale prin CATPCA a permis identificarea distanțelor la care se situează itemii în raport cu dimensiunile și investigarea motivelor care duc la lipsa de consistență a acestora. Au rezultat protocoale detaliate de analiză critică de itemi, identificându-se fie o structură axială a factorilor BigFive Plus, fie o lipsă de consistență a itemilor care a condus în final la eliminarea unor factori latenți.
Studiul unidimensionalității s-a realizat folosindu-se testul Stout al unidimensionalității esențiale și metoda NOHARM de analiză a covarianțelor standardizate reziduale. În general, s-au confirmat structurile rezultate din CATPCA, majoritatea factorilor pierzând unul sau doi itemi pentru a atinge asumpția unidimensionalității. De asemenea, un număr de 3 factori latenți au fost complet eliminați din cauza unor consistențe foarte reduse a itemilor sau din cauză că pentru a atinge unidimensionalitatea era necesară eliminarea unui număr de peste doi itemi, ceea ce ar fi determinat o putere prea mică a modelului logistic ales.
Calibrarea itemilor s-a făcut după decizia de unidimensionalitate pe baza modelului logistic cu trei parametri (3PL) prin metoda MMLE. În cazul în care calibrarea a eșuat folosindu-se modelul 3PL, s-a optat pentru modelul cu 2 parametri (2PL). Un singur item al factorului latent „moralitate” se comportă ideal în raport cu modelul teoretic 2PL, semnificația raportului logistic de probabilitate depășind valoarea prag. Toți ceilalți itemi nu îndeplinesc asumpția modelului de măsură. Cercetările noastre folosind modelul 2PL conduc la aceleași rezultate. În realitate cel mai bun model de măsură pentru itemii analizați este unul de tip Rasch cu un singur parametru. Nu am folosit acest model, deoarece nu am dorit să privăm itemii de puterea de discriminare a acestora, indicator pe care îl vom utiliza în cel de-al doilea studiu.
Analiza unidimensionalității s-a realizat folosind seturi determinate de eigenvalues. Astfel, setul de partiționare a cuprins itemi cu cele mai mari eigenvalues iar setul de evaluare itemi cu valorile cele mai mici. Eliminarea itemilor s-a făcut ținând cont de această procedură. Există însă posibilitatea ca itemii să fie eliminați nu pentru că nu fac parte din conținutul factorului latent, ci pentru că se adresează unei zone extreme a acestuia, iar între acești itemi și ansamblul celorlalți să existe o distanță prea mare, astfel încât testul îi percepe ca făcând parte dinte-o altă dimensiune.
În mod cert, numărul mic de itemi rămași și faptul că aceștia se adresează zonei medii a factorului latent nu vor permite construcția unui test de tip CAT. Pentru acest lucru va fi necesară includerea de itemi pentru alte zone ale factorului latent și reluarea analizelor. Putem folosi însă modele de răspuns la item, prin administrarea întregului set de itemi – itemi ficși sub formă de teste statice.
Rezultatele generale indică itemi bine calibrați, valizi, cu valoare diagnostică, însă insuficienți pentru a determina construcția unui model de evaluare auto-adaptiv. Centrarea itemilor pe niveluri medii ale factorilor latenți este o consecință a construcției originale a inventarului BigFive Plus, pe baza teoriei clasice a testului, și nu reprezintă o eroare. Desigur, pentru a se beneficia de puterea teoriei răspunsului la item, este necesară completarea itemilor și o altă analiză a acestora.
Al doilea studiu – Comparații și relații între probele construite pe baza teoriei clasice a testului și cele construite pe baza modelelor de răspuns la item
Reducerea numărului de itemi la nivelul fiecărui factor latent din cauza necesității de îndeplinire a asumpțiilor teoriei răspunsului la itemi precum și lipsa unei compatibilități totale cu modelul teoretic 3PL nu face posibilă administrarea probei în formă adaptivă deoarece convergența și estimarea finală a nivelului factorului latent nu s-au putut realiza. Am preferat, astfel, pentru a reduce biasurile cercetării, administrarea în formă fixă a itemilor calibrați, celelalte procedee ale cercetării fiind nemodificate.
Lotul de cercetare
Lotul de cercetare este format dintr-un număr de 323 de subiecți evaluați cu forma clasică a inventarului de personalitate BigFive Plus, după un interval de 4-5 luni fiind evaluați cu varianta construită pe baza modelelor de răspuns la item. Subiecții sunt studenți din anii 1 și 2 din cadrul Facultății de Drept și Științe Administrative, Universitatea Ovidius din Constanța precum și elevi ai liceelor Mircea cel Bătrân și Ovidiu din Constanța.
Din punct de vedere al vârstei, subiecții se situează între 17 și 40 de ani, amplitudinea de vârstă fiind de 23 de ani cu o medie de 28,48 de ani și o abatere standard de 6,62 ani. Eroarea standard a mediei este de 0,36 de ani, mediana se situează la valoarea de 28 ani, iar categoria de 32 de ani are frecvența maximă. Distribuția este simetrică (Skewness=0,032; Eroarea standard Skewness=0,136) însă leptocurtică, cu o variabilitate mică a scorurilor în jurul tendinței centrale (Kurtosis=1,09; Eroarea standard Kurtosis=0,271), caracterul normal al acesteia nefiind îndeplinit (KS=1,436; p<0,05).
Tabel – Structura lotului de cercetare sub aspectul vârstei
În raport cu genul biologic lotul de cercetare este bine echilibrat și cuprinde un număr de 151 de băieți (46,7%) și 173 de fete (53,3%), procente corespunzătoare specificului facultății și compensate de datele obținute din licee.
Tabel – Distribuția subiecților după variabila „Gen biologic”
Analiza ipotezelor de cercetare
Analiza legăturii dintre rezultatele obținute în urma administrării probei clasice și rezultatele obținute prin utilizarea modelelor de răspuns la item (H1)
Investigarea ipotezei presupune un design corelațional prin care vom analiza în ce măsură notele z ale factorilor latenți rezultate în urma transformării scorurilor brute obținute de subiecți la evaluarea clasică, corelează cu nivelurile estimate ale factorilor latenți (b) rezultate în urma administrării, după un interval de 4-5 luni, a variantei construită pe baza modelelor de răspuns la item. Menționăm că proba clasică a fost administrată integral, după specificațiile autorilor (240 de itemi), în timp ce pentru variante IRT s-au utilizat doar itemii selectați, în conformitate cu rezultatele obținute în primul studiu.
Tabel – Medii și abateri standard pentru niveluri ale factorului latent – itemi IRT
În cazul itemilor IRT putem constata probleme legate de estimarea nivelului factorului latent pentru un număr de 128 de persoane în cazul factorului „Moralitate”. Am arătat deja, în capitolul V.3.6.8, că acest factor latent este unul foarte slab din punct de vedere al teoriei răspunsului la item, calibrarea fiind deficitară, iar efectele se pot observa la estimarea nivelului factorului latent al subiecților. Răspunsurile acestora se comportă inconsistent, prin urmare, pentru un număr foarte mare de cazuri estimarea nivelului factorului latent e eșuat. Aceasta poate fi o demonstrație a modului în care, folosind modele de răspuns la item, se pot identifica situațiile de răspuns nerelevant, prin ghicire sau la întâmplare, aspect la care teoria clasică a testului este deficitară.
Mediile estimatorilor se concentrează în zona nivelului mediu al factorului latent, aceasta fiind o consecință directă a provenienței itemilor din probe clasice. Pentru factorul latent „Activitate”, media vizează niveluri mediu-slabe ale factorului latent, iar pentru „Anxietate” se au în vedere nivelurile mediu-bune. Erorile standard de estimare a mediei sunt foarte mici, situate în zona valorii zero, de asemenea și abaterile standard, factorul latent cu variabilitatea cea mai mare fiind „Interesul artistic”.
Amplitudinile distribuțiilor arată, similar, variabilitățile sunt destul de reduse, situate în zona valorii zero, fapt care indică o bună centrare a itemilor pe nivelul factorului latent. Amplitudinea cea mai mare se poate observa la nivelul factorului latent „Emoționalitate”, cea mai mică amplitudine a distribuției fiind remarcată la factorul „Furie”.
Tabel – Amplitudini ale distribuției pentru scorurile z – itemi clasici
În cazul itemilor clasici, fiind vorba despre scoruri z, media este 0, iar abaterea standard 1. Amplitudinile distribuțiilor sunt mult mai mari în comparație cu itemii IRT, amplitudinea cea mai mică întâlnindu-se la nivelul factorului „Excitabilitate”, cea mai mare amplitudine regăsindu-se la factorul „Intelect”.
Dependența de eșantion este relevantă în cel de-al doilea caz. Evaluând subiecții cu o probă IRT, am putea conchide niveluri medii ale factorului latent, fără accentuări în cazul majorității persoanelor. Folosind proba clasică și un eventual etalon construit pe cei 323 de subiecți, unele persoane ar prezenta niveluri foarte mari sau foarte mici ale unor factori latenți, în realitate acest lucru fiind eronat.
Ne putem pune întrebarea în ce măsură diferă evaluările IRT de evaluările clasice. Deoarece media pentru scorurile z este 0, putem compara mediile nivelului factorului latent cu valoarea zero, astfel încât să putem sesiza abaterile evaluărilor IRT de la cele clasice.
Se pot remarca diferențe semnificative între mediile evaluărilor IRT și cele ale evaluărilor clasice la nivelul tuturor factorilor latenți. Evaluările IRT poziționează nivelul factorului latent independent de eșantion, fie deasupra fie sub valoarea distribuției z a probelor clasice, evaluările având un caracter obiectiv și nu se bazează pe o transformare liniară a scorurilor brute în raport cu un eșantion normativ.
Tabel – Diferențe între nivelurile factorului latent pentru probe IRT și cotele z ale scorurilor brute pentru probele clasice
Existența acestor diferențe pune problema evaluării legăturii care există între nivelurile factorilor latenți în cazul probelor IRT și evaluările prin probe clasice, dacă putem sau nu vorbi despre o compatibilitate a scorurilor obținute.
Tabel – Corelații liniare între nivelurile factorului latent pentru probe IRT și cotele z ale scorurilor brute pentru probele clasice
Într-adevăr, modelul liniar reușește, în ansamblu, să explice existența unor relații semnificative între evaluările IRT și evaluările clasice, corelațiile fiind, în general, puternice, pozitive sau negative, în funcție de locul în care se poziționează nivelul factorului latent pe continuumul acestuia. Pentru un număr de 4 factori latenți, constatăm că relația nu se păstrează, nu apar corelații liniare semnificative. În acest sens putem aprecia fie existența unei probleme la nivel de itemi, fie un model relațional neliniar.
Tabel – Relații între nivelurile factorului latent pentru probe IRT și cotele z ale scorurilor brute pentru probele clasice
S-a arătat că relația liniară dintre estimările nivelului factorului latent în cazul probelor IRT și estimările efectuate prin probe clasice nu reprezintă cel mai bun model explicativ. Modelele cubice corespund unei ecuații de gradul al treilea de forma ax3+bx2+cx+d=0 și caracterizează majoritatea factorilor latenți. Compatibilități similare s-au obținut și cu modelele cvadratice, modele ce soluționează o ecuație de gradul al doilea, de forma ax2+bx+c=0, însă cele cubice reprezintă cel mai bine datele, în baza principiului reziduurilor minimale.
Plecând de la acest model, se pot estima nivelurile factorului latent ale unei probe bazată pe teoria răspunsului la item, dacă se cunoaște scorul z al factorului probei clasice echivalente, folosindu-se constanta și parametrii estimatorilor. Estimarea nu poate depăși puterea de predicție a modelului pe care o conferă coeficientul de corelație multiplă. De exemplu, cunoscând nota z a unui subiect la factorul latent „Extraversiune”, evaluat printr-o probă clasică, se poate estima, în procent de 50,8% nivelul factorului latent la „Extraversiune” în cazul unei estimări cu echivalenta IRT pe baza relației:
ThetaIRT=0,125ZCTT3-0,015ZCTT2-0,010ZCTT-0,035
Un număr important de factori latenți prezintă o relație logistică între nivelul factorului latent al probelor IRT și scorul z al probelor clasice. Relația logistică corespunde unei ecuații de tipul , factorii latenți la nivelul cărora se manifestă prezentând compatibilități și cu modelele de tip compus, exponențial și creștere, însă modelul logistic se caracterizează prin reziduuri minimale.
În condițiile în care, spre exemplu, cunoaștem scorul z al unui subiect la factorul „Moralitate”, evaluat cu o probă clasică, se poate aprecia nivelul factorului latent în procent de 66,5% pentru echivalenta IRT pe baza relației:
Pentru doi factori latenți nu există nicio relație între estimatori, evaluările fiind independente. Acest lucru este cauzat, cel mai probabil, de o strategie diferită de elaborare a răspunsurilor, deoarece nivelurile factorului latent au fost corect estimate, iar calibrarea itemilor nu a pus probleme. Există și posibilitatea ca itemii eliminați din proba IRT, dar prezenți în cea clasică să exercite un efect neanticipat asupra acestor variabile.
Concluzii asupra analizei legăturii dintre rezultatele obținute la proba clasică și rezultatele obținute la proba bazată pe modele de răspuns la itemi
Analizele noastre arată că probele construite pe baza acestor teorii sunt compatibile, însă relațiile dintre acestea nu au un caracter liniar, așa cum susțin unii autori , cel mai bun model explicativ fiind unul neliniar, logistic sau cubic.
Evaluările bazate pe IRT sunt mai precise, mai bine centrate pe zona factorului latent, cu erori standard de estimare reduse și cu o bună variabilitate. Într-adevăr, există diferențe semnificative între cele două categorii de probe psihologice, dar acest lucru nu înseamnă că vorbim despre evaluări distincte. Principala problemă a probelor clasice este dependența de eșantion. Aceiași subiecți pot obține rezultate diferite dacă sunt comparați pe eșantioane normative diferite. Pe de altă parte, un eșantion normativ general are o putere redusă, estimările fiind grosiere, fiind necesare norme construite pe diferite categorii de subiecți pentru o estimare nuanțată. Asemenea limite nu apar în cazul probelor IRT, obiectivitatea fiind superioară, deoarece estimarea ține de caracteristicile intrinseci ale itemilor și nu de caracteristicile unui eșantion.
Ipoteza nulă a studiului poate fi respinsă, într-adevăr, există diferențe semnificative între evaluarea bazată pe probe clasice și cea bazată pe modele de răspuns la item, însă aceste tipuri de evaluări sunt compatibile prin modele neliniare.
Analiza diferențelor în ceea ce privește capacitatea de discriminare a itemilor construiți în baza teoriei răspunsului la item și cei dezvoltați prin teoria clasică a testului (H2)
Variabilele cercetării sunt reprezentate de transformata Fisher a coeficientului de corelație punct biserială dintre itemi și scorul total al factorului, respectiv parametrul discriminare al itemilor în baza teoriei răspunsului la item. Deoarece transformata Fisher logaritmează coeficienții de corelație, valorile sunt aduse la numitorul comun al unei scale logaritmice, fiind perfect compatibile, comparațiile neîncălcând principiile de analiză ale datelor. Din cauza numărului redus de itemi ai fiecărui factor latent, vom proceda la analiza datelor pe cele cinci dimensiuni, cunoscându-se faptul că în cadrul dimensiunii factorii sunt corelați.
Tabel – Medii și abateri standard în cazul dimensiunii Extraversiune
Amplitudinile distribuțiilor în cazul celor două variabile pentru dimensiunea Extraversiune diferă semnificativ. În timp ce în cazul variantei clasice amplitudinea este de doar 0,797 unități (între 0,216 și 1,013), pentru modelele de răspuns la item crește la 2,695 unități (între 0,851 și 3,546). Media capacității discriminative a itemilor modelați pe baza IRT este de 1,68, în timp ce a celor construiți clasic este de 0,669. Erorile standard ale mediei sunt mai mici în cadrul probei clasice (0,023), în comparație cu cele bazate pe modele de răspuns la item (0,095), însă diferența nu este semnificativă, acest lucru fiind consecința unei variabilități mult mai mari a capacității discriminative în cazul modelelor de răspuns la item. În mod similar, variabilitatea este mai redusă în cazul modelelor clasice (SD=0,150), în comparație cu modelele de răspuns la item (SD=0,618). Toate aceste date arată o capacitate discriminativă superioară în cazul modelelor de răspuns la item, în comparație cu cele clasice, atât sub aspectul amplitudinii, cât și sub cel al variabilității, în condițiile menținerii la un nivel redus a erorilor de estimare.
Tabel – Estimarea relațiilor dintre cele două modele de discriminare în cazul dimensiunii Extraversiune
Nu remarcăm corelații semnificative între cele două variabile (r=0,197; p=0,21) la nivelul acestei dimensiuni, între cei doi estimatori neexistând o relație liniară. Există, așadar o diferență semnificativă între cele două variabile (t(41)=-10,86; p<0,01), în sensul că estimarea discriminării folosind metodele clasice conduce la o medie a estimatorilor semnificativ mai mică (mctt=0,669), în comparație cu metodele bazate pe teoria răspunsului la item (mirt=1,687).
Regresia transformatelor Fisher ale corelației punct biseriale la discriminarea itemilor nu indică un model semnificativ al relației dintre cele două variabile în cazul itemilor dimensiunii Extraversiune.
Estimările relațiilor dintre discriminările itemilor construiți în baza celor două teorii pentru dimensiunea extraversiune nu conduc la un model valid. Cele mai apropiate sunt modelele cvadratic și cubic (p=0,067, respectiv p=0,064), însă nu putem susține existența unor relații semnificative de acest tip.
Tabel – Medii și abateri standard în cazul dimensiunii Agreabilitate
Tendințe similare observăm și în urma analizei dimensiunii „Agreabilitate”. În cazul itemilor clasici, discriminarea are o amplitudine de 0,459 puncte (între 0,399 și 0,858), spre deosebire de amplitudinea de 1,974 unități (între 0,418 și 2,392) întâlnită în cazul itemilor adaptivi. Media discriminării itemilor este de 0,613 în cazul celor clasici și 1,382 pentru itemii bazați pe teoria răspunsului la item. Erorile de estimare ale mediei sunt mai mici în cazul itemilor clasici (0,016), în comparație cu cei adaptivi (0,084), aceeași tendință remarcându-se și la nivelul variabilității (SD=0,105 pentru itemi clasici și SD=0,542 pentru itemi bazați pe teoria răspunsului la item), însă această diferență nu este semnificativă și este cauzată amplitudinii reduse a discriminării în cazul itemilor clasici.
Tabel – Medii și abateri standard în cazul dimensiunii Agreabilitate
Se constată, fără dubii, o capacitate de discriminare superioară a modelelor de răspuns la item în condițiile în care nu este afectată precizia evaluărilor.
Remarcăm o legătură semnificativă și pozitivă între discriminarea itemilor clasici și cea a itemilor bazați pe IRT (r=0,392; p<0,05), compatibilitatea celor două teorii fiind, la nivelul acestui parametru și la nivelul acestei dimensiuni, acoperită în procent de 15,36%. Chiar în aceste condiții, nu putem să nu remarcăm faptul că există o diferență semnificativă între parametri (t(40)=-9,65; p<0,01), în sensul că media discriminării itemilor clasici (mctt=0,613) este semnificativ mai mică în comparație cu media discriminării itemilor construiți pe baza teoriei răspunsului la item (mirt=1,382).
Faptele indică o posibilă relație semnificativă între modul în care discriminează cele două teorii, iar existența corelațiilor și a diferențelor induce idea unei relații neliniare.
Tabel – Estimarea relațiilor dintre cele două modele de discriminare în cazul dimensiunii Agreabilitate
Regresia unei metode de discriminare la cealaltă indică faptul că relațiile dintre cele două categorii de parametri urmează toate modelele investigate, valorile semnificației statistice fiind, în toate cazurile, mai mici de 0,05. În baza principiului reziduurilor minimale – principiul conform căruia cel mai bun model relațional este reprezentat de modelul care generează reziduurile cele mai mici – apreciem că modelul ce corespunde cel mai bine relației dintre discriminarea itemilor clasici și discriminarea itemilor construiți pe baza teoriei răspunsului la item este cel cvadratic (F(2,38)=14,27; p<0,01), în cazul dimensiunii „Agreabilitate”. Acesta corespunde unei ecuații de gradul al doilea de tipul ax2+bx+c=0, având, în general, două soluții, și explică 42,9% din varianța celor două variabile. Pornind de la această precizare, putem estima discriminarea itemilor clasici pe baza discriminării itemilor IRT pentru dimensiunea „Agreabilitate” în baza ecuației:
DiscCTT=0,592DiscIRT2-0,176DiscIRT+0,181
Rezultate similare se obțin și prin utilizarea unui model explicativ cubic (ecuație de tipul ax3+bx2+cx+d=0), cu aceeași putere, însă vom prefera utilizarea modelului cvadratic pentru explicarea discriminării itemilor în cazul dimensiunii „Agreabilitate”, datorită simplității acestuia și în baza principiului reziduurilor minimale.
Tabel – Medii și abateri standard în cazul dimensiunii Nevrozism
Constanța tendințelor se păstrează și în cazul dimensiunii „Nevrozism”. Amplitudinea discriminărilor în cazul itemilor clasici este de 0,451 unități standardizate față se 1,894 unități standardizate remarcate la itemii adaptivi. Media discriminării itemilor IRT (mirt=1,71) este cert superioară mediei discriminării itemilor clasici (mctt=0,696), în condițiile unor erori standard de estimare ale mediilor foarte apropiate. Variabilitatea discriminărilor este apropiată, superioară în cazul itemilor adaptați pe baza teoriei răspunsului la item. Se pot observa, din nou, caracteristicile superioare ale modelelor de răspuns la item în ceea ce privește precizia și fiabilitatea evaluărilor.
La nivelul acestei dimensiuni relația dintre parametri este semnificativă și puternică (r=0,681; p<0,05), varianța unui parametru fiind explicată în procent de 46,37% de celălalt parametru, element care poate reprezenta un alt argument în favoarea compatibilității dintre cele două teorii. Totuși, diferențe semnificative există și în acest caz(t(34)=14,66; p<0,01) în sensul precizat anterior.
Tabel – Estimarea relațiilor dintre cele două modele de discriminare în cazul dimensiunii Nevrozism
În momentul regresiei unei metode de discriminare la cealaltă se observă că varianța comună crește la 54,5% în cazul unui model explicativ cubic, cu toate că ea poate fi explicată prin toate modelele analizate, modelul liniar fiind însă unul dintre cele mai slabe. Principiul reziduurilor minimale susține modelul explicativ cubic al acestei relații (F(3,31)=12,38; p<0,01), în cazul dimensiunii „Nevrozism”.
Modelul cubic corespunde unei ecuații de gradul al treilea de forma ax3+bx2+cx+d=0, având trei soluții. În cazul în care parametrii de discriminare, calculați pe baza teoriei răspunsului la item sunt cunoscuți, capacitatea discriminativă a itemilor după teoria clasică, la nivelul dimensiunii „Nevrozism”, se poate calcula pe baza relației:
DiscCTT=0,394DiscIRT3-0,001DiscIRT2-0,026DiscIRT+0,184
Al doilea model ca importanță este modelul cvadratic – cel corespunzător unei ecuații de gradul 2 –, inferior însă celui cubic în cazul acestei dimensiuni, din cauza generării unor reziduuri mai mari.
Tabel – Medii și abateri standard în cazul dimensiunii Conștiinciozitate
Discriminarea itemilor adaptivi prezintă o amplitudine de 2,179 unități standardizate, net superioară amplitudinii capacității discriminative a itemilor clasici ai dimensiunii „Conștiinciozitate” (0,509 unități standardizate). Este firesc ca și media discriminării primilor itemi (mirt=1,570) să fie superioară mediei discriminării itemilor clasici (mctt=0,653), în condițiile unor erori standard ale mediei care nu diferă semnificativ. Variabilitatea distribuției discriminării în cazul itemilor clasici este, de asemenea, superioară, elemente care sprijină puterea mai mare de discriminare a itemilor în baza teoriei răspunsului la item.
Tabel – Estimarea relațiilor dintre cele două modele de discriminare în cazul dimensiunii Conștiinciozitate
Remarcăm și prezența unei corelații puternice și pozitive a discriminării itemilor clasici în relație cu cei adaptivi (r=0,689; p<0.05), între varianțele liniare ale celor două variabile existând o compatibilitate de circa 47,47%. Cu toate că ierarhia estimărilor se păstrează, există însă și diferențe semnificative (t(27)=9,07; p<0,01) în sensul că media discriminării itemilor IRT conduce la valori superioare mediei discriminării itemilor clasici, așa cum s-a menționat anterior. Cel mai bun model explicativ al acestei relații nu este, așadar, unul liniar.
Se impun, din nou, modelele cubic și cvadratic ca cele mai bune modele explicative ale acestei relații, în baza analizei reziduurilor minime reținând modelul cubic capabil să explice aproximativ 64,2% din varianța comună (F(3,24)=14,32; p<0,01).
Fiind un model neliniar, acesta respectă distribuția unei funcții de gradul al treilea, similar celor descrise anterior. Astfel, în condițiile în care se cunoaște discriminarea unui item al acestei dimensiuni, calculată în baza teoriei răspunsului la item, estimarea discriminării itemului clasic poate fi realizată după expresia:
DiscCTT=0,115DiscIRT3+0,161DiscIRT2-0,055DiscIRT+0,329
Modelul cvadratic este foarte apropiat de cel cubic, însă inferior ca putere explicativă a relației din cauza generării unor reziduuri mai mari.
Tabel – Medii și abateri standard în cazul dimensiunii Deschidere
Există o constanță a acestor caracteristici și pentru ultima dimensiune analizată – dimensiunea „Deschidere”. Amplitudinea capacității de discriminare a itemilor clasici este de 0,492 unități standardizate, în timp ce itemii adaptivi prezintă o amplitudine discriminativă de 5,536 unități standardizate, această valoare fiind determinată de prezența unui item cu o capacitate de discriminare foarte mare (vezi studiul 1). Raportat la media capacității discriminative, itemii adaptivi au o medie în mod cert mai mare în comparație cu cei clasici, erorile standardizate ale mediei fiind totuși păstrate în limite rezonabile. Variabilitatea discriminării itemilor IRT este mai ridicată în comparație cu cea a itemilor clasici, supoziția fiabilității superioare a teoriei răspunsului la item fiind, din nou, susținută.
Între cele două variabile analizate există o corelație semnificativă, pozitivă, dar slabă (r=0,351; p<0,05), modelul liniar explicând doar 12,32% din varianța comună. Diferența dintre media discriminării în cazul itemilor clasici (mctt=0,592) și cea a discriminării itemilor adaptivi (mirt=1,135) este semnificativă (t(41)=6,30; p<0,01) în sensul descris anterior.
Tabel – Estimarea relațiilor dintre cele două modele de discriminare în cazul dimensiunii Deschidere
Suntem în situația unei dominanțe certe a modelului explicativ cubic, atât ca putere explicativă (relația dintre discriminările din perspectiva celor două teorii fiind explicată în procent de 42,2%), cât și ca minimum de reziduuri generate. Chiar dacă toate modelele explică în proporții diferite legătura dintre cele două variabile, modelul cubic este cel mai adecvat (F(3,38)=9,26; p<0,01).
În condițiile în care parametrul discriminare al unui item IRT este cunoscut, echivalentul acestuia pentru forma clasică poate fi estimat pe baza relației:
DiscCTT=0,276DiscIRT3-0,059DiscIRT2+0,003DiscIRT+0,340
Nu au fost găsite modele explicative mai bune, chiar dacă modelul cvadratic se apropie ca putere de cel cubic.
Tabel – Medii și abateri standard în cazul întregului instrument
La nivelul întregului ansamblu de itemi, comparând discriminarea itemilor clasici cu discriminarea celor construiți pe baza teoriei răspunsului la item, observăm că amplitudinea primilor este de 0,797 unități în comparație cu amplitudinea de 5,536 unități a celor din urmă. În mod evident și media discriminării itemilor IRT este superioară mediei discriminării itemilor clasici, în condițiile în care erorile de estimare ale mediei sunt foarte mici. De asemenea, varianța discriminării itemilor adaptivi este mai mare în comparație cu cea a itemilor clasici, toate aceste elemente conducând la ceea ce am confirmat deja în analizele parțiale – o tendință a modelelor de răspuns la item de a discrimina mai precis în comparație cu probele clasice.
Tabel – Estimarea relațiilor dintre cele două modele de discriminare în cazul întregului instrument
Relația liniară dintre discriminarea itemilor clasici și cea a itemilor IRT este semnificativă (r=0,425; p<0,01), pozitivă și medie, un model liniar explicând aproximativ 18,06% din varianța comună a celor două variabile. Chiar în aceste condiții, diferența dintre media discriminării itemilor clasici (mctt=0,642) și cea a discriminării itemilor IRT (mirt=1,551) este semnificativă (t(187)=20,13; p<0,01), în sensul menționat mai sus, ierarhia estimărilor păstrându-se.
Un model liniar explicativ al relației dintre discriminarea itemilor clasici și discriminarea itemilor construiți pe baza teoriei răspunsului la item este insuficient. Chiar dacă toate modelele testate sunt semnificative, modelul cubic reprezintă cel mai bine relația dintre cele două variabile (F(3,184)=25,45; p<0,05), fiind capabil să explice 29,3% din varianța comună a tuturor itemilor instrumentului, indiferent de dimensiunea la care se referă. Astfel, prezența unor itemi calibrați în baza teoriei răspunsului la item și cu parametrul discriminare cunoscut poate duce la estimarea capacității de discriminare a itemilor clasici pe baza relației:
DiscCTT=0,314DiscIRT3-0,073DiscIRT2+0,004DiscIRT+0,335
Modelul cvadratic reușește, în mod similar, să explice 29% din varianța comună, iar modelul logaritmic – 26,7%, acestea fiind cele mai relevante.
Concluzii asupra analizei diferențelor privind capacitatea de discriminare a itemilor evaluată în baza celor două teorii
Datele cercetării noastre au condus, indubitabil, la ideea existenței unei relații de tip cubic între capacitatea de discriminare a itemilor clasici și cea a itemilor construiți pe baza teoriei răspunsului la item, relație rezolvă ecuația ax3+bx2+cx+d=0. Modelele cvadratice, bazate pe o ecuație de gradul al doilea sunt, de asemenea, relevante, însă puterea explicativă cea mai bună se întâlnește la cele cubice. Acest tip de relație a fost identificat pe baza datelor simulate , iar unii autori au identificat existența unui tip de relație de forma corelațiilor liniare slabe. Am putut demonstra existența unui model explicativ cubic ca fiind cel mai adecvat pentru înțelegerea raporturilor dintre capacitatea de discriminare a itemilor clasici și cea a itemilor bazați pe teoria răspunsului la item.
Sub acest aspect, al discriminării, ambele tipuri de evaluări conduc la rezultate fidele din punct de vedere al sensului. Totuși, am arătat că modelele de răspuns la item au o amplitudine mai mare a capacității discriminative în condiții identice de administrare.
Mediile distribuțiilor celor două variabile sunt diferite în condițiile în care erorile standard de estimare ale acestora se păstrează la un nivel foarte redus, neexistând diferențe semnificative. Din punct de vedere al variabilității, s-a arătat că variabilitatea discriminării itemilor adaptivi este semnificativ mai mare în comparație cu cea a itemilor clasici.
În aceste condiții, ipoteza nulă se poate respinge atunci când avem în vedere puterea de discriminare a itemilor construiți pe baza celor două teorii și putem constata că în cazul teoriei răspunsului la item capacitatea discriminativă este în mod semnificativ superioară.
Analiza diferențelor în ceea ce privește nivelul de acoperire în factor latent al itemilor construiți în baza teoriei răspunsului la item și cei dezvoltați prin teoria clasică a testului (H3)
În vederea analizei ipotezei, s-a procedat la calculul proporției răspunsului activ pentru fiecare item. Aceste ponderi au fost transformate și standardizate pe baza curbei normale, rezultând scorul z corespunzător unei distribuții normale. Scorurile z, la rândul lor, au o distribuție ogivală și sunt reprezentate pe o scală în probiți. Nivelul de acoperire în factor latent al itemilor construiți pe baza teoriei răspunsului la item urmează o scală în logiți, similară celei în probiți. Pentru o compatibilitate totală am procedat la transformarea scalei în logiți în scală în probiți, astfel încât comparabilitatea rezultatelor este perfect adecvată din punct de vedere statistic.
Variabilele cercetării sunt reprezentate de transformata z a ponderilor răspunsului activ al itemilor clasici, respectiv transformata în probiți a nivelului de acoperire în factor latent a itemilor IRT.
Tabel – Medii și abateri standard în cazul dimensiunii Extraversiune
Se poate observa că, în cazul dimensiunii „Extraversiune”, amplitudinea distribuției factorului latent al itemilor IRT este de 0,173 unități și nu diferă foarte mult de cea a itemilor clasici (0,316 unități standardizate). Așadar, în ambele situații, itemii evaluează aceeași zonă a conținutului latent din punctul de vedere al intervalului. Analizând media vom remarca faptul că itemii IRT vizează o zonă a continuumului factorului latent medie-inferioară în timp ce itemii clasici se referă la zona medie-superioară a extraversiunii. Deoarece parametrii itemilor IRT au fost estimați pe un eșantion de mari dimensiuni, altul decât cel folosit în studiul curent, remarcăm independența de eșantion a itemilor IRT. Utilizarea unui alt eșantion poate conduce la evaluări diferite în cazul itemilor clasici, lucru care nu se întâmplă la nivelul modelelor de răspuns la item. Erorile standard ale mediei sunt mai mari la probele IRT din cauza unei zone mai mari de acoperire în factor latent, însă nivelul absolut al acestora nu indică diferențe semnificative. De asemenea, variabilitatea în cazul itemilor adaptivi este mai mare, element care susține o zonă de acoperire mai mare a factorului latent în comparație cu itemii clasici. Așadar, dependența de eșantion conduce la o diminuare a preciziei în evaluare a probelor clasice, lucru care nu se întâmplă în cazul modelelor de răspuns la item.
Tabel – Estimarea relațiilor dintre cele două modele ale nivelului factorului latent în cazul dimensiunii Extraversiune
Între nivelul de acoperire în factor latent al itemilor IRT și proporțiile standardizate ale răspunsului activ pentru itemii clasici există o corelație liniară puternică și negativă (r=-0,64; p<0,05), varianța comună fiind explicată în proporție de 40,96%. În realitate, sensul estimării este concordant, deoarece ponderea mică a răspunsului activ la itemii clasici semnifică un nivel ridicat al factorului latent. Relațiile dintre acești doi parametri există, însă lotul de cercetare pe care s-a realizat studiul prezintă un nivel de extraversiune ușor mai ridicat în comparație cu cel folosit la calibrarea itemilor, fapt normal având în vedere caracteristicile acestuia. Totuși, nu există diferențe semnificative între mediile celor doi indicatori (t(41)=1,85; p=0,07), aceștia referindu-se la același conținut latent. Din cauza prezenței scorurilor negative, o mare parte dintre modele nu au putut fi evaluate. Putem, din nou, remarca predominanța modelului explicativ cubic în relația dintre gradul de acoperire în factor latent al itemilor construiți pe baza celor două teorii, model care postulează prezența unei varianțe comune de 47,1%.
Cu toate că vom constata prezența și a unor alte modele explicative, modelul cubic posedă puterea cea mai mare și generează cele mai mici reziduuri (F(3,38)=11,26; p<0,01).
În situația în care transformatele z ale proporțiilor de răspunsuri active ale itemilor clasici ar fi cunoscute, se poate estima nivelul de acoperire în factor latent pentru varianta IRT a acestora, după relația:
LatentIRT=-2,108LatentCTT3+2,824LatentCTT 2+0,004LatentCTT -0,052
Tabel – Medii și abateri standard în cazul dimensiunii Agreabilitate
Rezultate asemănătoare se observă și analizând dimensiunea „Agreabilitate”. Media probiților nivelului de acoperire în factor latent pentru itemii IRT (mirt=-0,112) situează zona de evaluare a factorului latent spre mediu-inferior, în timp de media scorurilor z ale proporțiilor răspunsului activ pentru itemii clasici o situează înspre polul mediu (mctt=0,093). Erorile standard de estimare ale mediei sunt ceva mai ridicate în cazul itemilor IRT în comparație cu itemii clasici, însă valorile sunt situate în limite acceptabile. De asemenea, variabilitatea estimărilor este semnificativ mai mare pentru itemii IRT, în comparație cu cei clasici. Amplitudinile distribuțiilor sunt de 0,04 unități standardizate în cazul itemilor IRT, față de 0,267 unități standardizate pentru itemii clasici, variantele IRT fiind mai concentrate pe zona nivelului factorului latent pe care o măsoară.
Tabel – Estimarea relațiilor dintre cele două modele ale nivelului factorului latent în cazul dimensiunii Agreabilitate
Relația liniară dintre cele două variabile este, din nou, negativă și puternică (r=-808; p<0,01). Ierarhiile tind să se păstreze, subiecții care obțin scoruri peste medie la agreabilitate folosind probe clasice tind să obțină scoruri peste medie și la evaluările IRT. Se constată influența eșantionului în cazul probelor clasice. Lotul de cercetare prezintă, în mod clar, alte caracteristici în comparație cu lotul de calibrare a itemilor. Această dependență coboară în mod artificial media agreabilității – lucru evident având în vedere faptul că vorbim despre elevi de liceu și studenți – atunci când lucrăm cu probe clasice. Fenomenul nu apare la nivelul itemilor IRT deoarece parametrii acestora țin de proprietățile lor interne și nu de raportarea la un eșantion. Din acest motiv, transformarea scorurilor brute în scoruri normale nu este liniară, nu este dependentă de eșantion și are un nivel de precizie mult superior. Nu s-au putut constata diferențe semnificative între mediile celor două variabile (t(40)=0,89; p=0,379), itemii vizând aceeași zonă a conținutului latent.
În privința relației exacte între cele două tipuri de estimatori, remarcăm modelele cvadratic și cubic, cele mai mici reziduuri fiind generate de modelul cubic (F(3,37)=23,46; p<0,01), chiar dacă și modelul cvadratic prezintă aceeași putere explicativă, varianța comună fiind explicată în procent de 65,5%.
Puterea explicativă a modelelor cubic și cvadratic o depășește pe cea a modelului liniar, relația având caracteristicile unei ecuații de gradul al treilea. În condițiile în care se cunosc transformatele z ale ponderii răspunsurilor active pentru itemii clasici, se pot estima probiții nivelului factorului latent pentru variantele IRT după relația:
LatentIRT=-2,827LatentCTT3-2,533LatentCTT 2+0,607LatentCTT +0,202
Tabel – Medii și abateri standard în cazul dimensiunii Nevrozism
În cazul dimensiunii „Nevrozism” constatăm deplasarea mediei spre polul mediu-negativ al factorului latent în cazul itemilor clasici (mctt=-0,431), în timp ce media estimatorilor pentru itemii latenți se situează în zona pozitivă, la peste o abatere standard (mcct=1,107). Diferența dintre medii este, de această dată, semnificativă (t(34)=9,51; p<0,01). Efectul eșantionului este foarte vizibil în cazul acestei dimensiuni, caracteristicile lotului de cercetare influențând, în mod evident, rezultatele. Erorile standard de estimare a mediei sunt situate la un nivel acceptabil, ușor mai ridicate în cazul itemilor IRT, iar variabilitatea este mai mare în cazul acelorași itemi. Amplitudinea distribuției estimatorilor este de 3,363 unități standardizate în cazul itemilor adaptivi și de 1,318 unități standardizate în cazul itemilor clasici, doar în sens negativ.
Relația liniară dintre cele două variabile este foarte puternică și negativă (r=-921; p<0,01), un asemenea model fiind capabil să explice 84,82% din varianța comună. Se constată că în acest caz modelele clasice pot biasa puternic evaluarea, eșantionul normativ greșit ales exercitând influențe puternice asupra evaluărilor ulterioare.
Tabel – Estimarea relațiilor dintre cele două modele ale nivelului factorului latent în cazul Nevrozism
În ciuda corelației liniare foarte puternice, nu modelul liniar explică cel mai bine relația dintre cei doi estimatori, ci modelul cubic (F(3,31)=77,27; p<0,01), acesta reușind să identifice 88,2% din varianța comună pe baza unei ecuații de gradul al treilea.
Ecuația de estimare a probitului nivelului de acoperire în factor latent pentru un item IRT, atunci când se cunoaște coordonata z a proporției de răspuns activ, poate fi scrisă ca:
LatentIRT=-3,449LatentCTT3-3,693LatentCTT 2-2,233LatentCTT +0,155
Tabel – Medii și abateri standard în cazul dimensiunii Conștiinciozitate
La nivelul dimensiunii „Conștiinciozitate” amplitudinea probiților factorului latent este de 1,549 unități standardizate, față de 0,675 unități standardizate în cazul itemilor clasici, diferența datorându-se existenței unor itemi care evaluează niveluri extreme ale factorului latent. Media nivelului de acoperire în factor latent al itemilor IRT (mirt=-0,801) indică niveluri mediu-negative, iar cea a itemilor clasici niveluri mediu-pozitive (mctt=0,372), între cei doi indicatori existând diferențe semnificative (t(27)=8,39; p<0,05), în sensul descris anterior, chiar dacă ambele forme vizează nivelul mediu al factorului latent. Erorile standard ale mediilor sunt menținute la un nivel scăzut, dar putem remarca o creștere a acestora în cazul itemilor IRT. Variabilitatea este mai mare la nivelul itemilor IRT în comparație cu cei clasici.
Tabel – Estimarea relațiilor dintre cele două modele ale nivelului factorului latent în cazul dimensiunii Conștiinciozitate
Legătura dintre estimatorii bazați pe teoria răspunsului la item și cei clasici este semnificativă, puternică și negativă (r=-0,605; p<0,01), un model liniar explicând 36,6% varianța comună.
Constatăm că cel mai bun model explicativ nu este cel liniar, ci modelul cubic, acesta reușind să explice pe baza unei ecuații de gradul trei 43,6% din varianța comună a celor doi indicatori (F(3,24)=6,18; p<0,05). Relația cubică dintre probiții nivelului de acoperire în factor latent și transformatele z ale probabilităților de răspuns este, și în acest caz, confirmată.
Cunoscându-se transformatele z ale probabilităților de răspuns activ, se pot estima probiții nivelului de acoperire în factor latent pe baza relației:
LatentIRT=-9,547LatentCTT3+26,642LatentCTT 2-25,023LatentCTT +0,379
Tabel – Medii și abateri standard în cazul dimensiunii Deschidere
În cazul ultimei dimensiuni investigate, dimensiunea „Deschidere”, se observă că media probiților nivelului de acoperire în factor latent (mirt=0,747) se situează în zona mediu-pozitivă a continuumului factorului latent, în timp ce pentru itemii clasici avem în vedere zona mediu-negativă (mctt=-0,129), între acești estimatori existând o diferență semnificativă (t(41)=3,21; p<0,01). Amplitudinea distribuției probiților este de 1,834 unități standardizate, în cazul itemilor clasici, aceasta devenind 0,114 unități pentru itemii IRT, erorile standardizate ale mediei fiind rezonabile, mai ridicate în cazul itemilor IRT. Variabilitatea estimatorilor este semnificativ mai mare în cazul itemilor IRT, în comparație cu variantele clasice ale acestora.
Constată, aceeași relație semnificativă, negativă și puternică între cele două variabile (r=-0,749; p<0,01), un model liniar explicând circa 55,57% din varianța comună.
Tabel – Estimarea relațiilor dintre cele două modele ale nivelului factorului latent în cazul dimensiunii Deschidere
Modelul cubic este cel mai relevant pentru această relație, explicând 56,4% din varianța comună (F(3,38)=15,37; p<0,01). Pe baza transformatelor z ale probabilității de răspuns activ a itemilor clasici se poate estima nivelul de acoperire în factor latent al itemilor probelor construite după teoria răspunsului la item având în vedere relația:
LatentIRT=-2,267LatentCTT3-0,143LatentCTT 2+0,253LatentCTT +0,504
Tabel – Medii și abateri standard în cazul întregului set de itemi
La nivelul întregului set de itemi, amplitudinea probiților itemilor IRT este de 1,501 unități standardizate, față se 0,282 unități standardizate pentru itemii clasici. Media pentru itemii IRT (mirt=0,188) situează zona de evaluare spre mijlocul continuumului factorului latent, ușor către valori superioare în comparație cu media itemilor clasici (mctt=-0,0005), neexistând diferențe semnificative între cele două medii (t(187)=1,641; p=103). Erorile standard de estimare sunt mici, variabilitatea fiind mai crescută în cazul probelor IRT, în comparație cu probele clasice.
Modelul corelațional liniar indică o legătură puternică, negativă și semnificativă între probiții nivelului de acoperire în factor latent pentru itemii clasici și scorurile z al proporției de răspuns activ pentru itemii IRT (r=-0,821; p<0,01), explicându-se astfel 64,7% din varianța comună a celor două variabile.
Tabel – Estimarea relațiilor dintre cele două modele ale nivelului factorului latent în cazul întregului set de itemi
Se poate constata, din nou, prezența modelului cubic drept cel mai bun model explicativ al relației dintre cele două variabile, acesta reușind să acopere circa 67,8% din varianța comună (F(3,184)=128,96; p<0,01).
Modelul cvadratic și cel liniar au aceeași putere explicativă, însă generează reziduuri mai mari, acesta fiind argumentul care a stat la baza alegerii modelului cubic.
Cunoscându-se scorurile z ale proporțiilor de răspuns activ pentru itemii clasici, se pot estima probiții nivelurilor de acoperire în factor latent pentru itemii IRT, pe baza relației:
LatentIRT=-2,473LatentCTT3+0,160LatentCTT 2+0,385LatentCTT +0,166
Concluzii asupra analizei legăturii dintre nivelul de acoperire în factor latent pentru itemii IRT și cei clasici
Am putut arăta că există o relației de tip cubic între notele z ale proporției răspunsului activ a itemilor clasici și probiții itemilor construiți pe baza teoriei răspunsului la item, relație rezolvă ecuația ax3+bx2+cx+d=0. Modelele cvadratice, bazate pe o ecuație de gradul al doilea sunt, de asemenea, relevante, însă puterea explicativă cea mai bună se întâlnește la cele cubice. Acest tip de relație a fost identificat și de către autorii menționați, pe baza datelor simulate unii identificând existența doar a unui tip de relație de forma corelațiilor liniare
Sub acest aspect, ambele tipuri de evaluări conduc la rezultate comparabile din punct de vedere al poziționării pe continuumul factorului latent. Modelele clasice sunt însă sensibile la eșantionul normativ și pot conduce la rezultate nerelevante.
Mediile distribuțiilor celor două variabile sunt, în general, apropiate în condițiile în care erorile standard de estimare ale acestora se păstrează la un nivel foarte redus, neexistând diferențe semnificative. Din punct de vedere al variabilității, s-a arătat că variabilitatea discriminării itemilor adaptivi este semnificativ mai mare în comparație cu cea a itemilor clasici. Diferențele dintre medii, atunci când apar, țin de prezența unor itemi care evaluează un domeniu marginal al continuumului factorului latent, dar se pot datora și efectelor exercitate de itemii eliminați din proba IRT dar păstrați în proba clasică.
În aceste condiții, ipoteza nulă se poate respinge atunci când avem în vedere nivelul de acoperire în factor latent al itemilor construiți pe baza celor două teorii și putem constata că în cazul teoriei răspunsului la item, estimarea nivelului de acoperire în factor latent este în mod semnificativ superioară și nu depinde de un eșantion.
Concluzii generale privind cel de-al doilea studiu
Ipoteza nulă conform căreia nu există diferențe între evaluarea psihologică folosind probe construite pe baza modelelor de răspuns la item și evaluarea psihologică prin probe clasice poate fi respinsă. Diferențele se manifestă atât la nivelul structurii instrumentului, cât și în procesul de evaluare propriu-zis.
Din punctul de vedere al instrumentului, am arătat diferențele existente între principalii parametri ai itemilor: discriminarea și nivelul de acoperire în factor latent. Probele IRM au o amplitudine discriminativă net superioară celor clasice, permițând diferențieri mai fine între subiecți în condițiile unei constanțe a erorilor de estimare. Relația dintre discriminarea itemilor clasici și discriminarea itemilor IRT nu este una liniară ci cubică, existând posibilitatea de conversie reciprocă a acestui parametrul pe baza unei ecuații de gradul trei. Sub aspectul nivelului de acoperire în factor latent s-au identificat același tip de relație între parametri, precum și posibilitatea conversiei reciproce în baza aceleiași ecuații. Analizele specifice au arătat influența exercitată de eșantion asupra nivelului de acoperire a factorului latent, operaționalizat prin standardizarea proporției răspunsurilor active în cadrul probelor clasice. Efectul eșantionului este foarte puternic, probele clasice fiind sensibile la acest aspect, atât în etapele constructive, cât și în etapele de evaluare. Un eșantion constructiv sau normativ incorect ales poate compromite întregul proces diagnostic. Modelele de răspuns la item nu sunt însă influențate de acest aspect, reducându-se astfel o importantă sursă de eroare. Atât în estimarea clasică, cât și în cea bazată pe modele de răspuns la item, zonele țintă de pe continuumul factorului latent sunt similare, fiind mai nuanțate în cazul modelelor de răspuns la item. Dacă itemii clasici sunt construiți pe principul tendinței spre medie, itemii IRT au în vedere nu doar zona medie, ci și unele extreme, diferențiind la fel de bine pe întregul continuum. Aceste relații au fost anticipate de unii autori , însă cercetările lor au folosit predominant date simulate și s-au rezumat la probe de aptitudini. Alți autori au identificat existența unor corelații, arătând compatibilitatea evaluărilor, însă aceste corelații nu sunt liniare, așa cum am precizat anterior. Utilizarea doar a probelor de aptitudini în analiza comparativă a celor două teorii induce o constrângere legată de constructul măsurat. Noi am arătat că relația cubică există și în cazul probelor de personalitate, prin inducție apreciind că se păstrează la întregul nivel al cercetărilor psihologice și sociale.
O altă caracteristică a studiului relevă eliminarea posibilității de ghicire a răspunsului în cazul itemilor IRT. Un patern de răspuns improbabil va conduce la estimări imprecise ale nivelului factorului latent, la funcții informaționale ale testului reduse și la imposibilitatea de calcul a erorii standard de estimare, aceștia fiind indicatori ai unei evaluări nevalide. Itemii clasici folosesc alte metode de identificare a răspunsului la întâmplare sau a tendințelor de fațadă, imprecise și susceptibile la a fi eludate.
Limite ale cercetării, perspective, discuții
În vederea asigurării comparabilității rezultatelor, cercetarea a utilizat aceiași itemi, modificându-se teoria care stă la baza evaluării. Probele clasice au fost administrate integral (în varianta cu 240 de itemi), în timp ce pentru probele IRT s-a utilizat un număr mai mic de itemi în conformitate cu specificațiile din capitolul V.3.6, folosindu-se texte fixe cu toți factorii latenți, itemii fiind prezentați aleatoriu. Astfel am redus erorile generate de efectul memoriei, timpul de evaluare scurtându-se semnificativ, în schimb am remarcat posibile efecte ale itemilor neincluși în proba IRT, importante pentru un număr redus de factori, dar care pot biasa analizele.
Adaptarea itemilor pentru teoria răspunsului la item nu a exclus proveniența acestora – din probe clasice. Astfel, s-au remarcat tendințe puternice către niveluri medii ale factorului latent, aceasta fiind o consecință directă a selecției itemilor din probe clasice. Faptul că a fost necesară eliminarea unor itemi, cumulat cu tendința acestora către niveluri medii ale factorului latent, a făcut imposibilă construcția unor probe auto-adaptive din cauza numărului insuficient de itemi și din cauza imposibilității selecției de itemi din zonele extreme, evaluarea CAT eșuând de fiecare dată. Chiar și în condițiile unei astfel de constrângeri, am arătat superioritatea modelelor de răspuns la item. Randamentul evaluării este însă insuficient studiat, deoarece reprezintă o consecință a unui număr mai redus de itemi și nu se datorează unei selecții automate a acestora. Chiar și așa, estimările sunt consistente la nivelul întregului instrument și pentru majoritatea factorului, reducerea numărului de itemi neinfluențând precizia evaluărilor.
Ansamblul itemilor utilizați, deși îndeplinește două asumpții (cea a unidimensionalității și cea a independenței locale), nu o îndeplinește pe a treia – asumpția modelului de măsură. Cel mai bun model de măsură ar fi fost unul de tip Rasch, chiar și acesta eșuând în cazul anumitor itemi. Nu s-a putut folosi un model cu un singur parametru, din cauza imposibilității analizei ulterioare a discriminării. Am preferat un model 3PL, atunci când a fost posibilă calibrarea, deoarece este mai robust și nu există diferențe mari sub aspectul celei de-a treia asumpții între modelul 2PL și 3PL. Folosirea acestui model se constituie într-o limită a cercetării, deoarece există diferențe importante între datele observate și modelul teoretic.
Lipsa itemilor pentru zone extreme ale continuumului factorului latent a influențat atât analiza relației pe partea nivelului de acoperire în factor latent, cât și pe cea a estimării nivelului factorului latent. Dependența de eșantion este mai pronunțată la nivelul itemilor clasici, așa cum a reieșit din analiză, corecta apreciere a nivelului factorului latent în zone extreme fiind deficitară la probele clasice.
Itemii au un caracter dihotomic și unidimensional, acest lucru limitând posibilitatea de generalizare a rezultatelor. Va fi necesară identificarea conservării relației la modele polihotomice și la cele dihotomice sau polihotomice multidimensionale.
O altă constrângere ține de loturile de cercetare folosite. Lotul de calibrare, chiar dacă are un număr mare de subiecți, provine din anumite medii care predispun la un anumit gen de răspunsuri. Deoarece s-au folosit date din surse diferite, nu am avut posibilitatea de control asupra validității absolute a acestora, existând posibilitatea să se genereze astfel erori imposibil de apreciat. Deoarece probele CAT își adaptează automat parametrii itemilor la anumite intervale de timp, considerăm că acest efect va fi compensat ulterior, pe măsură ce se vor colecta noi date. Lotul de cercetare pentru al doilea studiu provine din rândul studenților și elevilor. În mod cert răspunsurile acestora au alte caracteristici, fapt care s-a văzut și în urma analizelor. Totuși, s-a arătat că în cazul itemilor IRT nu apar probleme legate de eșantion, evaluarea având ca bază caracteristicile interne ale acestora.
Am reușit demonstrarea posibilității de control a răspunsurilor date la întâmplare pe baza analizei erorii standard de estimare și a funcției informaționale a testului. Itemii IRT sunt puțin sensibili la acest aspect, un patern de răspuns improbabil invalidând rezultatele evaluării. Metoda este mult mai precisă în comparație cu tehnicile folosite în teoria clasică a testului. Mai mult, în cazul unor probe adaptive, itemii sunt selectați pe baza răspunsurilor acordate anterior, evaluarea eșuând mult mai rapid în condițiile unor răspunsuri neconcordante.
În urma cercetării a rezultat o componentă a sistemului Psihosoft CATS, capabilă să construiască o bancă de itemi, să verifice asumpțiile itemilor, să calibreze itemii, să construiască probe adaptive sau fixe bazate pe modele de răspuns la item, să administreze aceste probe și să estimeze nivelul factorului latent. De asemenea, s-a creat și posibilitatea de proiectare a dimensiunilor, factorilor și de elaborare a hărții constructelor. Este singurul sistem computerizat autohton care folosește modele de răspuns la item și CAT și printre puținele produse integrate din lume cu dublu scop – de cercetare și diagnostic.
Ca perspective viitoare, intenționăm implementarea unor modele polihotomice și multidimensionale (dihotomice și polihotomice) și studiul proprietăților acestora. De asemenea, vor putea fi studiate relațiile dintre scalele de răspuns inconsistent folosite în probele clasice și metodele de identificare a răspunsului improbabil, pentru a se putea identifica relațiile dintre acestea.
Concluzii și discuții
În argumentul lucrării ne-am propus să răspundem la întrebarea dacă putem măsura trăsăturile umane pe o scală de interval reală, dacă putem afla cantitatea de factor latent a unui subiect. Răspunsul este pozitiv, doar în condițiile în care sunt respectate o serie de principii pe care le-am prezentat anterior. Expunerea a cuprins două parți: o parte teoretico-aplicativă, capitolele 1-4, și o parte pur aplicativă, capitolul 5.
În primul capitol, am realizat o abordare istorică a testării psihologice, apariția și dezvoltarea teoriei clasice a testului și a teoriei răspunsului la item, fiind punctate principalele repere evolutive. Sinteza a fost necesară și este utilă unei înțelegeri a locului și rolului modelelor de răspuns la item în evaluarea psihologică, precum și a faptului că teoria răspunsului la item este încă în dezvoltare, în permanență rezultând metode și tehnici noi. De asemenea, s-au discutat o serie de diferențe între teoria clasică și teoria răspunsului la item, cea mai mare parte a acestora fiind abordate în literatura de specialitate, completate cu opiniile proprii. Am putut constata că teoria răspunsului la item nu este o extensie a celei clasice, așa cum în mod eronat este percepută de mulți, ci reprezintă un model nou, chiar dacă apar și puncte tangențiale.
Cel de-al doilea capitol vizează o prezentare a modelelor de răspuns la item, absolut necesară înțelegerii conceptelor, dat fiind faptul că teoria răspunsului la item nu prezintă un model unic, precum cea clasică, ci o mare varietate de modele de răspuns. Am inițiat capitolul analizând asumpțiile pe care trebuie să le îndeplinească itemii pentru a se putea construi un model de răspuns la item, furnizând totodată și detaliile tehnice necesare unei asemenea implementări, conferindu-i un caracter aplicativ. De asemenea, am abordat o serie de modele de răspuns la item unidimensionale și multidimensionale, fiecare categorie cuprinzând situațiile itemilor dihotomici și polihotomici. S-au prezentat principalele caracteristici ale modelelor, domeniul de aplicabilitate, avantajele și limitele acestora. Nu am avut pretenția unei abordări exhaustive. Ne-ar fi trebuit, realist vorbind, mii de pagini. Însă am putut furniza un fundament solid în vederea susținerii demersului nostru. Capitolul s-a finalizat prin prezentarea unor criterii pe baza cărora se pot alege modelele de răspuns la item, din nou, neavând pretenția epuizării subiectului.
Al treilea capitol are un pronunțat caracter aplicativ și se referă la modalitățile de construcție a probelor IRT. Debutul a fost făcut printr-o prezentare generală a etapelor constructive ale unei probe psihologice, indiferent de specificul ei. Au fost elucidate concepte precum: harta constructelor, designul itemilor, spațiul de răspunsuri și alegerea unui model de măsură, oferindu-se și o serie de repere practice. Proprietățile scalelor de măsură în teoria răspunsului la item au fost tratate pe larg, deoarece diferă radical de cele ale scalelor clasice. Importante aspecte practice sunt oferite și în subcapitolele destinate calibrării inițiale și estimării nivelului factorului latent. Au fost descriși algoritmii de calcul și modalitatea de implementare a acestora, avantajele și limitele fiecărei metode, abordându-se și elemente care țin de funcțiile informaționale ale itemului și testului. Din păcate, a fost necesar să ne rezumăm doar la metodele utilizate la nivelul itemilor unidimensionali și dihotomici, omițând celelalte situații. Această limitare ține, din nou, de considerente de spațiu.
Capitolul al patrulea se referă la construcția probelor auto-adaptive, are un caracter aplicativ și debutează prin prezentarea unor principii generale care stau la baza proiectării probelor computerizate, continuând cu diferențele dintre calibrarea inițială și calibrarea online. Sunt apoi descrise, pe larg, o serie de strategii de proiectare a băncii de itemi și de optimizare a acesteia, continuându-se cu prezentarea fazelor de lucru ale unei probe auto-adaptive: faza de intrare în test, faza de selecție a următorului item și faza de ieșire din test și de evaluare a nivelului final al factorului latent. Și aici am reușit să expunem o serie de algoritmi, tehnici și procedee utile. Capitolul se încheie cu prezentarea unor tehnici de control a expunerii itemilor și de identificare a răspunsurilor aberante, modelele de răspuns la item beneficiind de mecanisme foarte puternice în acest sens.
Capitolul cinci conține rezultatele celor două studii realizate de noi în vederea identificării relațiilor care există între probele clasice și cele bazate pe teoria răspunsului la item. Primul studiu este unul de adaptare a itemilor unui inventar de personalitate clasic, BigFive Plus, la specificul modelelor de răspuns la item. Analizele univariate au inițiat cercetarea prin studiul distribuțiilor, rezultând lipsa de normalitate a acestora în cazul tuturor factorilor latenți. S-a continuat cu studiul consistenței scalare și a relațiilor itemi-scor total pentru fiecare scală. Au rezultat factori consistenți, dar și fațete lipsite de consistență pe care le-am privit cu rezervă sub aspectul includerii acestora în modelarea finală. În vederea identificării structurii interne a factorilor și pentru a efectua o analiză critică de itemi s-a uzat de extragerea componentelor principale pentru date categoriale (CATPCA), rezultând structuri dimensional-axiale sau chiar bidimensionale pentru majoritatea factorilor, un număr redus de factori având un caracter unidimensional. Finalul primului studiu vizează investigarea unidimensionalității prin procedee specifice teoriei răspunsului la item și calibrarea itemilor. Analizele au permis eliminarea unui număr de itemi, anumite fațete fiind complet excluse, confirmându-se presupunerile anterioare. Rezultatul a constat dintr-un număr de itemi suficient de stabili pentru a fi calibrați după modelul 3PL. Chiar și așa, anumite calibrări au trebuit să fie realizate prin modelul 2PL, deoarece nu s-au putut estima parametrii folosindu-se modelul inițial. Chiar dacă a reușit calibrarea, majoritatea itemilor nu au îndeplinit asumpția modelului de măsură, existând diferențe semnificative între distribuția datelor și curbele caracteristice ale unor asemenea modele. În orice caz, puterea itemilor permite abordarea celui de-al doilea studiu, însă nu și utilizarea băncii de itemi în scop diagnostic.
Al doilea studiu a demonstrat existența unor relații neliniare atât la nivelul evaluărilor, cât și la nivelul parametrilor itemilor, între probele IRT și cele clasice. Natura relațiilor este una cubică sau logistică, probele IRT caracterizându-se, în general, printr-o precizie mai mare, estimări mai consistente, erori standard de estimare mai mici, chiar dacă, așa cum s-a afirmat, calibrarea nu a atins nivelul ideal. Mai multe cercetări au arătat faptul că există anumite legături între probele IRT și cele clasice, susținând, în general, caracterul liniar al acestora. Noi am demonstrat că, într-adevăr, putem vorbi și despre un model liniar, însă cel mai bun model explicativ nu este unul liniar ci cubic, asta în condițiile în care nu am folosit date simulate, ci date reale. De altfel, modelul cubic a fost intuit pe baza unor studii simulate și de către alți cercetători, însă nu a avut un caracter de certitudine în situații reale.
Considerăm că lucrarea a atins obiectivele propuse, chiar dacă au apărut modificări față de proiectul inițial, cauzate de caracteristicile instrumentului folosit și de necesitatea eliminării unui număr important de itemi. Am reușit totuși să demonstrăm natura relației dintre probele clasice și cele IRT, faptul că modelele de răspuns la item sunt mai precise și mai fiabile, estimând „cantitatea” de construct psihologic în condițiile unei proiectări riguroase, rezultând și un sistem computerizat complex, Psihosoft CATS, primul produs integrat românesc capabil să realizeze evaluări psihologice în baza celor două teorii, având și funcții avansate de analiză a datelor.
Ne-am fi dorit o abordare mai complexă, utilizând și modele multidimensionale, precum și itemi polihotomici. De asemenea, ar fi fost ideală proiectarea unei bănci de itemi riguroase pe baza căreia să se poată face comparațiile între cele două teorii, sau să studiem funcțiile diferențiale ale itemilor de personalitate în raport cu cei de aptitudini. O abordare a relației dintre modalitatea de identificarea a răspunsurilor aberante în cazul probelor clasice în comparație cu cele IRT ar fi fost, din nou, foarte interesantă. Spațiul și timpul nu au permis asemenea studii, ele rămânând ca proiecte de viitor.
Bibliografie
Bibliografie
Copyright Notice
© Licențiada.org respectă drepturile de proprietate intelectuală și așteaptă ca toți utilizatorii să facă același lucru. Dacă consideri că un conținut de pe site încalcă drepturile tale de autor, te rugăm să trimiți o notificare DMCA.
Acest articol: Modele de Raspuns la Item In Evaluarea Psihologica (ID: 165717)
Dacă considerați că acest conținut vă încalcă drepturile de autor, vă rugăm să depuneți o cerere pe pagina noastră Copyright Takedown.
