Regresia logistică binomială [631801]
Regresia logistică binomială
M. Popa
cuprins
•Introducere
–Similitudini cu regresia liniară
–Caracteristici specifice regresiei logistice
–Volumul eșantionului
•Modelul regresiei logistice
–Expresia grafică a regresiei
–Concepte cheie în regresia logistică
–Expresia matematică a regresiei logistice
•Efectuarea regresiei logistice cu SPSS
–Setarea procedurii SPSS
–Analiza rezultatelor
•Raportarea regresiei logistice
•regresia logistică
–Model de predicție în care VD (criteriu), este de natură
categorială
•regresia logistică binomială
–VD este de tip dihotomic (are doar două categorii)
•Persoanele supuse unei situații traumatice: să facă sau să nu facă
PTSD
•Studenții piloți: să finalizeze sau să nu finalizeze școala de pilotaj?
•Pasagerii de pe Titanic: să moară sau să se salveze
•regresia logistică multinomială
–VD are mai multe categorii
–De ex.: tipologia delincvenților care fură: furt din locuințe,
furt de buzunare, furt cibernetic
Tipuri de regresie logistică
O singură VI Mai multe VI
VD
dihotomicăRL
binomială simplăRL
binomială multiplă
VD
mai mult de două categoriiRL
multinomială simplăRL
multinomială multiplă
•utilizată cu precădere în studiile epidemiologice
–identificarea caracteristicilor individuale asociate cu
contractarea anumitor boli
•a câștigat mult în popularitate în afara domeniului
medical
•utilă cu precădere dacă distribuția valorilor VD este
neliniară în raport cu mai multe VI
–atunci când valorile VI au o pondere diferită asupra VD
–De ex.: probabilitatea de a pica la un examen poate fi afectată în
mai mică măsură de o diferență de 2 unități QI în cazul
candidaților cu QI ridicat, decât în cazul celor cu QI mai scăzut
•relativ rar utilizată în cercetările psihologice, dar…
–tendință de creștere importantă
–TOP 10 -psihologia I/O din ultimele doua decenii
Regresia logistică binomială poate fi utilizată pentru:
1)Identificarea variabilelor care caracterizează (explică,
prezic) două grupuri diferite
–utilizează/nu utilizează internetul;
–admiși/respinși la un concurs de angajare
–fac/nu fac accident în primul an după luarea permisului autor
–recidiviști/nerecidiviști după eliberarea condiționată;
–fac/nu fac PTSD după un cutremur;
–au/nu au cont pe Facebook etc.
2)Identificarea variabilelor care nu diferențiază între
aceste grupuri…
3)Efectuarea de predicții cu privire la probabilitatea ca un
anumit individ (caz) să facă parte dintr -un grup sau altul
Similitudini cu regresia liniară
•Se analizează relația dintre o VD (criteriu) și una sau mai
multe VI (predictori).
•Predictorii (VI) pot fi:
–cantitativi
–calitativi (nominal, ordinal)
•Putem utiliza:
–un singur predictor ( regresie logistică simplă )
–mai mulți predictori ( regresie logistică multiplă ).
•Există teste de semnificație pentru relația individuală
dintre fiecare predictor și criteriu
•Se calculează coeficienți de regresie (constantă și
coeficienți B) care descriu contribuția fiecărui predictor
•Există o expresie grafică a modelului de predicție
Diferențe față de regresia liniară
•Criteriul (VD) poate fi exprimat numai pe scală nominală
•Predictorii categoriali trebuie declarați ca atare
•Impactul VI asupra VD este evaluat pentru fiecare VI în parte
–dar este posibilă și evaluarea efectului combinat a unor predictori
asupra criteriului
•regresia logistică estimează probabilitatea ca fiecare caz să
fie inclus într -una sau alta din categoriile definite de VD
(regresia liniară vizează predicția valorilor VD)
–dacă știm greutatea și înălțimea unor persoane putem calcula
probabilitatea ca fiecare dintre acestea să fie bărbat sau femeie
•nu se bazează pe minimalizarea sumei pătratelor, ci pe
maximizarea șansei de apartenență a fiecărui caz la una sau
alta din categoriile VD
•Modelul grafic de predicție are o formă specială, care decurge
din natura logaritmică a relației dintre valorile VI și VD
avantaje
•nu este condiționată de multe din restricțiile
impuse de regresia liniară
–Nu presupune existența unei relații liniare între
criteriu și predictori.
–VD (criteriul) nu trebuie să aibă o distribuție normală
–VD nu trebuie să aibă o variabilitate omogenă
(homoscedasticitate) în raport cu valorile variabilelor
independente.
–Nu presupune distribuția normală a valorilor reziduale
–Suportă predictori măsurați pe orice tip de scală
Atenție…
•interpretarea rezultatelor regresiei logistice
trebuie făcută cu reținere
–modelul de predicție este limitat la predictorii
utilizați, dar pot exista și predictori care au fost,
voluntar sau nu, ignorați
–capacitatea predictivă a modelului nu
funcționează decât în limitele de variație a datelor
existente
•predicția este nesigură pentru valori ale predictorilor
care nu au fost incluse în model
Volumul eșantionului
•În mod necesar, mare…
–minim 50 de subiecți pentru fiecare predictor
–sau 20 -30 subiecți/predictor în cazul unui eșantion de
peste 300 de subiecți (Wright, apud Sava, 2004);
–cel puțin 10 subiecți/predictor, dar nu mai puțin de 100 de
subiecți în total ( Long , apud DeMaris , 2003);
–cel puțin 150 de subiecți (Braunstein, 2007)
–pentru un nivel alfa 0.05, o mărime medie a efectului și o
putere de 0.80: un eșantion de 300 subiecți ( Hsieh , Block,
& Larsen , 1998)
–se poate ajunge chiar și la necesitatea unui eșantion de
1000 de subiecți pentru a se atinge o putere de 0.80
(Braunstein, 2007)
Numărul predictorilor
•În general, mai puțini decât în regresia liniară
multiplă
–pt. că VD exprimată categorial, conține mai puțină
informație
–maxim o VI pentru fiecare 10 cazuri din eșantion
–dacă există VI categoriale, numărul VI va lua drept
referință numărul cazurilor aferente celei mai slab
reprezentate categorii
•… dacă eșantionul cuprinde 100 de bărbați și 50 de femei, numărul
femeilor va fi luat drept referință
•potrivit regulii 1/10, nu vom putea utiliza mai mult de 5 predictori
Concepte cheie în regresia logistică
•Raportul de șansă (odds ratio )
–unul dintre cele mai importante concepte din analiza de regresie
logistică
–cuantifică impactul predictorului asupra criteriului
–De ex.:
•eșantion de 100 de delincvenți minori
•70 provin din familii dezorganizate (probabilitate=0.70)
•30 provin din familii structurate (probabilitate=0.30)
•Raportul de șansă pt. minorii din familii destrămate de a
deveni delincvenți: 0.7/0.3=2.33
•Raportul de șansă pt. minorii din familii structurate de a
delincvenți: 0.3/0.7=0.428
–în timp ce probabilitățile iau valori între 0 și 1, raportul lor poate
lua valori oricât de mari (la infinit) sau oricât de mici (0)
neaparitiede ate probabilitaparitiede atea probabilitratio odds_ __ __
Un exemplu cu predictor categorial
•PROBABILITATEA DE ACCIDENT PENTRU BĂRBAȚI :
•40/50 =0.80
•PROBABILITATEA DE ACCIDENT PENTRU FEMEI :
•10/50=0.20
•RAPORTUL DE ȘANSĂ ACCIDENT M/F : 0.8/0.2=4
–bărbații au de 4 ori mai multe șanse să facă accident în primul an, comparativ
cu femeile
•RAPORT DE ȘANSĂ ACCIDENT F/M: 0.2/0.8=0.25
–femeile au de 4 ori mai puține șanse să facă accident în primul an, comparativ cu
bărbațiiIV
DVM F TOTALBărbați
(odds )Femei
(odds )Raport șansa
odds ratio M/F
Odds ratio F/M
Accident 40 10 50 40/50= 0.8 10/50= 0.200.8/0.2=4.0
0.2/0.8=0.25
Non -accident 15 30 45 15/45=0.33 30/45=0.660.33/0.66=0.5
0.66/0.33=2
Concepte cheie în regresia logistică
•Coeficienții logit
–funcție similară cu coeficienții Bdin regresia liniară
–Există și coeficienți logit standardizați , corespunzători
coeficienților standardizați beta din regresia liniară
–Se calculează ca logaritm natural ( ln) al raportului de șansă
(odds ratio )
•ln=puterea la care trebuie ridicat numărul ” e” (2.71828)
•EXEMPLU :ln(8)=2.07… (8=2.718282.07)
Expresia grafică a regresiei logistice
•linia de regresie logistică are o formă specială,
numită sigmoid
•Forma acesteia ia aspecte particulare în funcție de
natura relației dintre VI și VD
–se construiește pe baza unor coeficienți logaritmici ( logit )
•relația dintre predictor și criteriu nu are un caracter
liniar
–logaritmarea este o modalitate prin care o relație neliniară
în realitate este exprimată într -o formă liniară, depășindu –
se astfel încălcare condiției de liniaritate
INSUCCES
SUCCES90%70% 50% 30% 10% 90%
30% 50% 70% 10%
Concepte cheie în regresia logistică
•Estimarea verosimilității maxime (maximum -likelihood
estimation -MLE)
–echivalentul metodei minimizării sumei pătratelor din regresia liniară
–se bazează pe transformarea VD într -o variabilă de tip logit (logaritmul
natural al șansei ca evenimentul să se producă sau nu)
–în regresia logistică se estimează probabilitatea de apariție a unuia din
evenimentele posibile definite de categoriile criteriului
–se obține o valoare estimată a criteriului pentru fiecare subiect în
parte
–MLE este un algoritm iterativ, utilizat pentru calcularea coeficienților
logit ai ecuației de regresie
•la primul pas se fixează o valoare arbitrară a coeficienților logit
•apoi se determină direcția și mărimea cu care aceștia sunt modificați pentru a
mări verosimilitatea logaritmică ( log likelihood -LL)
•la pașii următori valorile reziduale sunt retestate și are loc re -estimarea LL
•procesul se repetă de mai multe ori, până ce LL nu se mai modifică
semnificativ
Concepte cheie în regresia logistică
•Mărimea efectului regresiei logistice
–Există mai mulți coeficienți R2, care cuantifică intensitatea
relației dintre predictori și criteriu
–nu există un coeficient general acceptat, deoarece
calcularea lor ridică probleme teoretice (sunt denumiți și
pseudo R2)
–toate variantele lor descriu, în esență, același lucru
•Coeficienții R2 pot fi și discordanți!!
–la fel ca și coeficientul R2din regresia liniară, coeficienții R2
din regresia logistică pot fi interpretați ca procentul
varianței VD ce este explicat de varianța VI
–SPSS calculează doi coeficienți de mărime a efectului:
•R2al lui Cox & Snell
•R2al lui Nagelkerke
Concepte cheie în regresia logistică
•Teste de semnificație
–sunt efectuate diverse teste de semnificație
•teste cu privire la modelul general de regresie
•teste cu privire la coeficienții individuali de predicție ( odds ratio ) ai
fiecărei VI
•Coeficienții odds ratio au semnificația unor indici de
mărime a efectului pentru fiecare predictor în parte:
d Cohen
0.20 0.50 0.80
odds ratio 1.28 1.87 2.68
Alegerea predictorilor
•interesul principal:
–predictori care au o cât mai mare forță de predicție asupra criteriului
•Pentru identificarea lor:
–se pot utiliza o serie de indicatori ai regresiei logistice, cum ar fi:
•înrăutățirea predicției în lipsa unui anumit predictor
•evaluarea semnificației coeficienților de pondere ( B) ai fiecărui predictor
•cât de mult se modifică raportul probabilităților ( odds ratio ) atunci când un
predictor este eliminat
•invocarea unor argumente teoretice, sprijinul pe rezultate ale
unor cercetări anterioare sau statistici bivariate între VD și
fiecare VI în parte (testul t, chi-pătrat , ș.a.)
•Intuiție
•interacțiunea predictorilor este un fapt nedorit
–Totuși, se pot introduce în model și interacțiuni între predictori…
metodă utilizată cu precauție…
Expresia matematică a regresiei logistice
•Formula de calcul a VD ( logit )
•Convertirea valorii logit în
probabilități:
–Regresia binomială simplă
–Regresia binomială multiplă
pp
1ln
XbbXbb
eeYP
1 01 0
1)(
kkkk
Xb XbXbbXb XbXbb
eeYP
2 2 11 02 2 11 0
1)(
Exemplu cu un predictor cantitativ:
Predicția promovării la statistică
pe baza numărului de prezențe la curs
•VD: ” trecut=1 /picat=0 ” la statistică
•VI: ”număr de absențe”
•Constanta (a)=3.5; b= -.529
–P(Y=0)= 0.97
–Y (Y=1)= 0.95…
XbbXbb
eeYP
1 01 0
1)(
Tema săptămânală
•Căutați cel puțin doua cercetări în care este utilizată
regresia logistică binomială
Copyright Notice
© Licențiada.org respectă drepturile de proprietate intelectuală și așteaptă ca toți utilizatorii să facă același lucru. Dacă consideri că un conținut de pe site încalcă drepturile tale de autor, te rugăm să trimiți o notificare DMCA.
Acest articol: Regresia logistică binomială [631801] (ID: 631801)
Dacă considerați că acest conținut vă încalcă drepturile de autor, vă rugăm să depuneți o cerere pe pagina noastră Copyright Takedown.
