Regresii neliniare [631791]

Regresii neliniare
1
REGRESII NELINIARE

 În practica de zi cu zi , se întâlnesc des cazuri în care legătura de tip liniar
dintre două variabile nu este respectată și reprezintă doar un aspect particular
al realității.

 Se impune astfel dezvoltarea de metode de deducere a legă turilor de tip
neliniar existente între variabila de intrare notată x (numită și variabilă
independentă sau factor ) și variabila y (numită și variabilă dependentă ).

 Prezentăm în continuare, câteva modele neliniare de interes pentru
determinarea regresiei.

Modele parabolice
 Parabola este exprimarea variabilei dependente față de variabila x la puterea a
doua, conținând eventual un termen liber și eventual un termen x la puterea
întâi.

 Expresia matematică este: y = a + b  x + c  x2 .

 Folosind forma logaritmică p utem avea următoarele exprimări :

y = a + b  lg(x) + c  (lg(x))2,

lg(y) = a + b  x + c  x2,

lg(y) = a + b  lg(x) + c  (lg(x))2.

 Forma grafică a parabolei y = a + b  x + c  x2 este prezentat ă în figura
următoare:

Figura 1 – Regresii parabolice
X
Y
M
m
0
C>0
C<0

Regresii neliniare
2
 Funcție de semnul parametrului de regresie c parabola prezintă un punct de
extrem. Dacă c > 0, parabola prezintă un punct de minim notat cu ,, m”, iar în
cazul în care c < 0, punctul de extrem este un ma xim notat cu ,, M”.

 Calculul punctului de extrem este realizat , din punct de vedere matematic , prin
condiția ca derivata întâi în raport cu variabila x să fie egală cu zero.

 Interpretarea practică este importantă , deoarece acest punct reprezintă minimul
sau maximul atins de curba parabolică.

 Determinarea coeficienților a, b, c , de regresie se face asemănător regresiei
liniare și există multe programe soft realizate pentru deducerea acestora (de
exemplu, produsul Microsoft Excel – de mare popularitate).

 Menționăm că parabola este un caz particular al polinomului de ordin n.

Modele hiperbolice
 Există modele în cadrul fenomenelor reale biologice care pot lua o formă
hiperbolică. Exprimarea matematică este:
xbay , pentru x > 0.

 Graficul funcției depinde de semnul coeficientului b (ca și în celelalte cazuri).
Pentru b < 0 avem dependență crescătoare , curba tinzând asimptotic la
valoarea a (y = a ) pentru x tinzând la infinit. Pentru b > 0 avem dependență
descrescăto are și curba tinde asimptotic tot la valoarea a pentru x tinzând la
infinit.

 Reprezentarea grafică a hiperbolei este realizată în figura următoare:

Figura 2 – Regresii hiperbolice

X
Y
b>0
b<0
0
a

Regresii neliniare
3
X
Y
A(0,a)
b>0
b<0
0  Există mai multe modele hiperbolice, dintre care menționăm:

xbxay
xbayxbay
 ,1,1 .

Model ul exponențial
 Funcția de tip exponențial are forma matematică următoare:

 , , xcu eayxb .

 Pentru x = 0 se obține y = a , iar toate curbele au un punct comun anume A (0,
a).

 Pentru coeficien t b > 0 se obține o curbă crescătoare iar pentru coeficientul b
< 0 se obține o curbă descrescătoare.

Figura 3 – Regresii de tip exponențial

Analiza de regresie multiplă (analiza multivariată)

 Legătura multiplă repr ezintă o relație matematică în care există mai multe
variabile factoriale sau independente (independent, explanatory variable or
covariates ).

 Astfel, variabila dependentă (sau răspuns ) poate fi exprimată matematic cu
formula:

 )(ixfy
,

cu i având valori de la 1 la n (n reprezintă numărul de variabile).

Regresii neliniare
4
 Sunt situații în care nu se cunosc care variabile să se ia în considerație în
cadrul regresiei multiple.

 Pentru a determina variabilele independente care au efect important asupra
variabilei rezultative ( y) se calculează , spre exemplu , coeficientul de corelație
și se aleg apoi acele variabile ce corespund valorilor maxime ale acestui
coeficient.

 Există și alte metode de analiză discriminantă pentru alegerea variabilelor
factoriale de interes.

 Această alegere are un efect important asupra erorii sistemului, căci eliminând
o parte din variabile, aproximarea sistemului este mai ,,grosolană” .

 Funcția f(xi) poate fi liniară, ceea ce reprezintă cazul cel mai simplu sau
dimpotrivă, poate depinde neliniar de variabilele de interes.

 În cadrul unei legături multiple liniare ecuația este de forma:

y = a 0 + a 1  x1 + a 2  x2 + … + a n  xn 

n
iiixa ay
10 .

 Fiecare coeficient ,, ai” reprezintă influența variabilei corespunzătoare xi, iar a0
(termenul liber) reprezintă influența celorlalți factori, care sunt considerați ca o
acțiune constantă.

 Dacă în coordonate bidimensionale regresia liniară este o dreaptă, în
coordonate n-dimensionale , regresia liniară va reprezenta o suprafață
multidimensională ce trece prin punctul valorilor medii ale variabilelor.

 Și în acest caz , pentru aflarea coeficienților ,, ai” se aplică metoda celor mai
mici pătrate (descrisă la regresia liniară cu o singură variabil ă).

 Pentru aceasta se calculează valoarea așteptată prin regresie

n
ij
iijxa a y
10 ˆ
, unde i reprezintă numărul de variabile
independente (i variază de la 1 la n), iar j reprezintă numărul de date
cunoscute , deci volumul eșantionului sau al lotului (j variază de la 1 la
m).

 Se definește eroarea
j j jy y ˆ , unde yj este valoarea reală
măsurată sau cea din eșantion.

Regresii neliniare
5  Se pune condiția ca suma pă tratelor erorilor să fie minimă , prin
egalarea cu zero a derivat ei de ordinul întâi pentru fie care coeficient
în parte.

 Parametrii de regresie a0, a i au aceeași interpretare , dacă variabilele sunt
independente.

 Primul parametru a0 arată influența celorlalți factori care nu sunt cuprinși în
ecuație.

 Ceilalți parametri ai descriu variația ieșir ii pentru creșterea cu o uni tate a
variabilei xi și păstrarea constantă a celorlalți factori.

Exemplu

 Se prezentă în continuare , o metodă liniară de estimare (predicție) a indicelui
de rezistență a mușchiului respirator PEmax (cm H 2O) în funcție de va riabilele
independente (predictoare), înălțime (cm, notată H) și greutate (kg, notată G).

PE max = a 0 + a 1  H + a 2  G.

 Prin calculul coeficienților ,, ai” se obține:

PE max = 47,36 + 0,146  H + 1,025  G.

 Având această relație , prin măsurarea în ălțimii și greutății unei persoane ,
putem estima valoarea PE max cu o eroare acceptabilă.

Interacțiuni între variabile

 Acestea pot fi puse în evidență prin introducerea de termeni ce sunt egali cu
produsul a două va riabile. Iată un exemplu:

213 22 11 0 xxaxaxa ay 
.

 Astfel, efectul pe care îl are variabila x1 , depinde de prezența variabilei x2.

 De multe ori , pentru a optimiza un model de regresie se pot introduce acești
termeni ce exprimă interacțiunea dintre va riabile.

Regresii neliniare
6
Analiza ANOVA pentru validarea modelului multivariabil

 Ca și în cazul liniar univariat se definesc următoarele deviații:

 Suma totală a pătratelor deviațiilor:


jjy y SST2
.

 Suma pătratelor erorilor (sau reziduuri le):

jj jy y SSE2ˆ
.

 Suma pătratelor deviațiilor de regresie:

jjy y SSR2ˆ
,
unde j variază de la 1 la m (m este volumul eșantionului).

Programele speciale de statistică vor produce tabelul următor:

Tabelul 1.
Sursa de
variație Suma
pătratelor
SS Grade le de
libertate ( df) Media
pătratelor Statistica
Fisher Valoarea
semnificației
p
Regresie SSR n (nr. de variabile
independente) MSR = SSR / n F = MSR/MSE p
Eroare
(reziduu) SSE m – n – 1 MSE = SSE /
( m – n – 1)
Total SST m – 1 (m volumul
eșantionului)

 Se poate calcula de ase menea coeficientul de determinar e

SSTSSRR2
.

 Acesta înmulțit cu 100 arată procentul din variația variabilei dependente ,
explicat de factorii ce au fost incluș i în calcul.

 Cu cât valoarea SSR este mai mare , cu atât modelul „explică” mai bine
variațiile ieșirii.

Regresii neliniare
7
 Cu cât SSE este mai mic , cu atât erorile sunt mai mici iar modelul propus este
mai bun.

 Se calculează statistica Fisher și nivelul de semnificație p.

 Dacă p este mai mic decât 0,05 (5%), deducem atunci că variația explicată de
model este mai mult decât întâmplătoare (este semnificativa statistic) , deci
modelul este considerat drept unul bun , iar nivelul de determinare este diferit
de 0.

 Cu alte cuvinte, setul de factori reușesc să facă o predicție semnificativă asupra
variabilei dependente.

 Dacă valoarea p este mai mare decât 5%, putem afirma că modelul nu este
satisfăcător și poate sunt necesare și alte variabile , ca factori de influen ță
asupra ieșirii.

Testarea semnificației unui singur factor dintre predictori

 Se pune problema verificării influenței asupra întregului model a unui nou
factor adăugat. Dacă efectul este semnificativ statistic în predicția variabilei
dependente, acest nou element va fi acceptat în formula de calcul.

 Ipoteza nulă este: Noul factor x i nu are efect asupra variabilei dependente ,
față de modelul fără factorul xi.

 Astfel, coeficientul ai poate fi considerat nul, deci ipoteza nulă de vine

H0: ai = 0.

 Pentru aceasta se folosește statistica
ii
aSEatˆˆ
.
 Aceasta este de tip Student , iar prin SE înțelegem eroarea standard (notarea
iaˆ
se folosește pentru a specifica că variabila sau parametrul este dedu s din datele
experimentale , deci conține o eroare).

 Numărul de grade de libertate este df = m – n – 1
(m – volumul eșantionului, n – numărul de variabile din model).

 Corespunzător valorii t calculate , se poate determina nivelul de semnificație p.

Regresii neliniare
8  Practic, factorul testat drept variabilă nouă introdusă în model este acceptat
dacă pcalculat este mai mic decât 5% (0,05).

 Aceasta înseamnă că noul model este diferit semnificativ statistic față de cel
precedent , care nu conținea noua variabilă.

Regres ia logistică

 Până în acest moment , regresia a fost aplicată variabilelor cantitative care
puteau lua valori reale într -un anumit interval (de exemplu, înălțimea poate fi
cuprinsă între 1,55 m și 1,95 m în majoritatea cazurilor).

 Există multe situații în medicină, farmacie în care variabila de interes nu mai
este continuă și prezintă doar două valori atributive (este deci binară sau
dicotomică). Acestea sunt de obicei răspunsuri de genul ,, da” sau ,, nu”;
,,adevărat ” sau ,, fals”.

 Pentru a lucra cu variabile de acest fel , se folosește o metodă matematică
specifică numită regresie logistică . Aceasta ne ajută în estimarea proporției
indivizilor cu o anumită caracteristică dintr -o anumită populație.

 Astfel, vom căuta să determinăm probabilitatea de a avea evenimentul notat
,,da” sau evenimentul notat ,, nu”.

 Raportul dintre probabilit atea de a observa un fapt și probabilitatea de a nu -l
observa se numește cotă (odds ),

pp
1cota
.

 Logaritmul natural din această cotă definește funcția numită logit, folosită în
regresie logistică.

 În regresia multiplă liniară , rezultatul final este o mărime continuă pe un
anumit interval, in funcție de domeniile de definiție ale variabilelor ,, xi”.

 Proporția subiecților cu o anumită caracteristică este o valoare cuprinsă între 0
și 1.

 În concluzie , ne trebuie o funcție matematică care să realizeze conversia din
domeniul [0,1], într -un interval de lungime maximă, în general de la ( -, +).

Regresii neliniare
9  Aceasta este motivația folosir ii funcției logit.

 Formula de calcul este următoarea:





pp
1ln logit(p)
,
unde:
p  reprezintă probabilitatea realizării evenimentului de interes.
1-p  reprezintă probabilitatea realizării evenimentului opus.

 Probabilitatea p, variază între 0 și 1 , iar funcția logit are
codomeniul ( – , +  ).

 Regresia logistică se bazează pe formula:

n nxa xaappp 



 ….1ln)(logit11 0
.

 Coeficienții ao,…,an se deduc prin metode matematice specifice , folosind un
calcul laborios care se realizează doar cu ajutorul computerului.

 Dacă exprimăm probabilitatea p in funcție de factorii xi, atunci avem:

) ,…xx,f(x
xiai- exp11pn 10
i



 

,
aceasta este numită funcția logistică și este diferită , în mod evident , de funcția
logit.

 Funcția logistică face conversia din domeniul ( - ,+), ca posibil de variație
pentru variabilele xi, în domeniul probabilității unui eveniment, deci [0,1].

 Dacă reprezentăm grafic variabila dependentă în funcție de cea independentă,
în situația în care avem doar două variante pentru y, atunci aceasta ar fi o
reprezentare de puncte doar pe două linii paralele pentru cele două valori
posibile, 0 respectiv 1 ale lui Y.

 Valoarea 1 înseamnă că evenimentul a avut loc, iar 0 evident opusul. În această
situație probabilitatea lui Y după exper iment poate avea doar valorile 0 sau 1.

Regresii neliniare
10

Figura 2.11 4 – Funcția logistică comparativ cu regresia liniară.

 Se observă conform figurii alăturate că dreapta de regresie (linia pe diagonală
trasată punctat) prezintă mari dezavantaje.

 În primul r ând, dreapta de regresie conține puncte ale căror ordonate au valori
mai mari ca 1 și mai mici decât 0. Deci, în cazul estimării unor probabi lități ar
conține erori „fatale ”.

 Un alt mare dezavantaj , constă în faptul că eroarea nu este distribuită normal ,
și nici variabila dependentă ( y) nu se încadrează în această clasă de repartiție.

 Condiția este necesară pentru determinarea coeficienților de regresie – deci
metoda celor mai mici pătrate – nu se aplică aici.

 Funcț ia logistică este reprezentată prin linia curbă în formă de S. Aceasta
aproximează mult mai bine probabilitatea evenimentului studiat.

 Probabilitatea lui Y depinde de variabila independentă X. Matematic , putem
scrie:

) 1( )( xX YPx 
.

 Aceasta reprezintă probabilitatea condiționată a lui Y (de a se îndeplini
evenimentul Y, deci Y=1) pentru diferite valori (deci și în domeniul continuu)
ale variabilei X.

Interpretarea coeficienților în cazul regresiei logistice

 Ținând co nt de formula de calcul:

n nxa xaappp 



 ….1ln)(logit11 0

1
0
Prob(Y)=
X

Regresii neliniare
11 putem interpreta în prima formă coeficienții de regresie ai.

 Vom presupune că modificăm doar valoarea x1 cu o unitate, deci
11,
1xx .

 Pentru valoarea x1 avem probabilitatea p1 , iar pentru
,
1x vom determina
probabilitatea
,
1p .

 Se poate calcula
1 1,
1)(logit)(logit a p p  
,

ceea ce înseamnă că diferența logaritmilor c otelor pentru o creștere cu 1 a
variabilei xi reprezintă coeficientul ai – evident o interpr etare greoaie !

 Putem prelucra totuși , ultima formulă prin exponențiere. Notăm cota cu
1C
respectiv
`
1C , pentru x1 respectiv
,
1x (
ppC1 ).
 Vom aplica exponențiala pentru
1
11
,
1,
1
1ln
1ln app
pp







 .
 Obținem:
) exp(1
1'
1aCC .

 Exponențiala unui coeficient al regresiei logistice reprezintă raportul cotelor
pentru creștere cu o unitate a valorii variabilei independente .

Exemplu
 Se studiază influența fumatului, a obezității și a sforăitului asupra
hipertensiunii.

 Practic, problema se rezumă la a estima în prima etapă , prin regresie multiplă
logistică , influența asupra cotei logaritmate ( ln(C)) realizată de factorii fumat,
obezitate și sforăit.

 Se deduc coeficienții de regres ie conform formulei:
Logit (p) =




pp
1ln = – 2,379 + 0,685  F + 0,694  O + 0,871  S , unde:
F – reprezintă faptul că persoana fumează sau nu (poate fi 0 sau 1).
O – indică prezența obezității (este variabilă binară, poate fi 0 sau 1).
S – reprezintă prezența sforăitului (variabilă binară, poate avea valorile 0 sau 1).

Regresii neliniare
12  Dacă comparăm persoanele care fumează , cu cele care nu fumează , se ajunge
la două ecuații.

 Una dintre ecuații se obține pentru F=1, iar cealaltă pentru F=0.

 Diferența: logit(pfumător ) – logit(pnefumător ) = 0,685. Aplicând funcția
exponențială se obține:

98,1) 1() 1(
fumator nefumatornefumator fumator
nefumatorfumator
P PP P
CC
.

 Acest rezultat reprezintă numeric riscul de hipertensiune printre fumători în
raport cu nefumătorii (riscul de a avea hipertensiune este de 1,98 ori mai mare
la fumători față de nefumători).

Similar Posts