Recapitulare – Tipuri de date [629081]

Recapitulare – Tipuri de date
•Date numerice – vârst a, greutate a, talia, hemoglobin a, tensiunea
arterial ă, calcemia , glicemi a, colesterolul , transaminaze le etc.
valori continue sau discrete
numere întregi sau zecimale
•Date ordinale – stadiul evolutiv, gravitatea, starea la externare,
gradul de rudenie etc.
codurile folosite au o ordine
•Date nominale – codul bolii, grupa sanguină, consistența ficatului,
culoarea urinei etc.
codurile folosite NU au o ordine
•Date alfanumerice – nume, prenume, adresă, loc de muncă,
descrierea bolii etc.
în general texte sau alte simboluri

Graficul Histogram ă
Poligonul frecvențelor

Tipuri de distribuții
Distribuție puternic asimetric ă Distribuție asimetrică Distribuție simetrică Distribuție ușor asimetrică

Curba Gauss –
curba repartiției NORMALE
•Unul din cazurile cele mai importante este acela
când reparti ția datelor respect ă densitatea ideală –
așa numita repartiție Gauss sau normală

Curba Gauss

Curba Gauss
Coeficientul de inteligen ță
Media=100, Deviația standard=15

Cursul 5
Corelația statistică
UNIVERSITATEA DE
MEDICINĂ ȘI FARMACIE
DIN CRAIOVA

SUMAR
•Noțiunea de corelație statistică
•Graficul Scatter
•Coeficientul de corelație Pearson – r
•Interpretarea coeficientului de corelație
Karl Pearson (1856- 1936) Francis Galton (1822 -1911)

Corelația – Definiție
•Este un termen general folosit pentru a defini
interdependența sau legătura dintre variabilele observate
în populații statistice .
•Apare uneori cu un înțeles foarte larg, acoperind orice
legătură statistică fie între variabile cantitative, fie între
variabile calitative, fie între ambele tipuri de variabile .
• În sens restrâns este o măsură a gradului de legătură
statistică dintre variabilele cantitative, sub numele de
„coeficient de corelație” .
•Cel mai des folosit este coeficientul de corelație r al lui
Pearson (coeficient de corelație liniară), care măsoară
gradul de legătură între variabile .

Graficul Scatter
modalitate de vizualizare a relației dintre 2 parametri
•Selectarea datelor
•Meniul INSERT
•Opțiunea Chart …
Graficul de tip scatter oferă informații privind
Corelați a
Omogenitatea
Simetri a
datelor reprezentate și analizate

0102030405060708090100
0 10 20 30 40 50 60 70 80 90 100VSH 2 ore
VSH 1 ora Corelația dintre valorile VSH la 1 or ă și 2 ore la
pacienți cu diferite afecțiuni hepato -renale

5060708090100110120130140150
80 90 100 110 120 130 140 150 160 170 180 190 200 210 220 230 240TA diastolic ă
TA sistolic ă Corelația dintre TA sistolic ă si diastolic ă la pacienți cu
diferite afecțiuni hepato -renale

2.53.03.54.04.55.05.5
115 120 125 130 135 140 145 150K seric
Na seric Corelația dintre sodiul și potasiul seric la pacienți
cu diferite afecțiuni hepato -renale

Coeficientul de corelație
•Pentru două serii de date distribuite gaussian , cel
mai sintetic indicator al corelației este
coeficientul de corelație r al lui Pearson
r = RAPORTUL DINTRE COVARIAȚIA SERIILOR ȘI
PRODUSUL DEVIAȚIILOR LOR STANDARD

sau

unde X=x1, x2,…,xn și Y=y1, y2, ..,yn sunt valorile măsurate, iar
X̅ , Y̅ sunt mediile de eșantionare ale seriilor respective.

Coeficientul de corelație
•Coeficientul de corelație r are valori cuprinse
între -1 și 1.
•Pătratul coeficientului de corelație, notat r2,
reprezintă coeficientul de determinare între
cei doi parametri și are valori între 0 și 1.
•Putem calcula intervalul de încredere de 95%
pentru coeficientul de corelație Pearson – se
consideră că r este semnificativ atunci când
intervalul de încredere nu conține valoarea 0.

Interpretare
-1 …………………………….0……………………………….1
Corelație perfectă
inversă -negativă Corelație perfectă
directă-pozitivă Corelație nulă
inexistentă Semnul + sau – arată tipul (direcția) relației
Valoarea numerică arată intensitatea relației

Interpretare
•În cazul unui coeficient de corelație pozitiv
(ex. r = 0,5) avem o corelație directă – cele
două variabile corelate variază în același sens
(când una crește, și cealaltă crește, respectiv
când una scade, și cealaltă scade) .
•În cazul unui coeficient de corelație negativ
(ex. r = -0,5) avem o corelație inversă , cele
două variabile corelate variază în sens contrar
(când una crește, cealaltă scade) .

IMC=greutate(kg)/ înălțime2(m)
y = 0.208x + 12.245
r = 0.670
1520253035404550
40 60 80 100 120 140 160IMC
Greutate Corelația dintre greutate si IMC
y = – 0.1173x + 48.37
r = – 0.239
1520253035404550
135 145 155 165 175 185 195 205IMC
Înalțime Corelația dintre î nalțime si IMC

Interpretarea rapidă a coeficientului r
r є [0; 0.2] → corelaț ie foarte slabă, inexistentă
r є [0.2; 0.4] → corelaț ie slabă
r є [0.4; 0.6] → corelaț ie rezonabilă
r є [0.6; 0.8] → corelaț ie înalta
r є [0.8; 1] → corelaț ie foarte înaltă – relație
foarte strînsă între variabile sau eroare de calcul

Exemple – seturi de date și valori r
Dacă valoarea absolută a coeficientului de corelație este
slabă (aproape de 0), nu trebuie să se conchidă neapărat
că nu există legătură statistică între cele două variabile –
legătura poate să existe, dar nu este liniară .

OBSERVAȚII
•Pentru date care nu au o distribuție gaussiană ,
dar care se pot ordona, fără a avea un număr
mare de valori egale intre ele, putem folosi
coeficientul ρ (rho) Spearman , obținut prin
testul neparametric Spearman de corelație a
rangurilor.
•În cazul datelor ale căror ranguri egale
depășește 25% din numărul lor este indicate
folosirea testului τ (tau) al lui Kendall.

Teste statistice
•Testele statistice verifică veridicitatea unor ipoteze – inferențe statistice
ipoteza H0 (sau ipoteza de nul): datele nu prezintă legături între ele, sunt
independente / valorile comparate nu diferă între ele
ipoteza H1 (sau ipoteza alternativă) : datele prezintă legături între ele, sunt
dependente/ valorile comparate diferă între ele

•Rezultatul p al testului, furnizat ca un număr între 0 și 1, reprezintă
probabilitate de a face o eroare dacă respingem ipoteza H0 a testului .

•Dacă p este mai mic decât pragul de semnificație α ales – de obicei
α=0,05 – respingem ipoteza H0 și admitem că este adevărată ipoteza H1.

•Interpretarea valorilor p se face la majoritatea testelor statistice astfel :
p < 0.05, legătura statistică este semnificativă (S, încredere 95%).
p < 0.01, legătura statistică este semnificativă (S, încredere 99%).
p < 0.001 , legătura statistică este înalt semnificativă (HS, încredere 99.9%).
p > 0.05, legătura statistică este nesemnificativă (NS).

Semnificație statistică
•Pentru a vedea daca valoarea lui r este semnificativă
statistic , deci dacă cei doi parametri sunt corelați, se poate
calcula parametrul t, care, conform distribuției Student, se
poate transforma într-o valoare care arată probabilitatea de
eroare – p, considerând că avem N-2 grade de libertate
(degrees of freedom – df , N = numărul de perechi de valori) .

p < 0,05 – corelație semnificativă statistic
între parametrii analizați

MS Excel –– p=TDIST(t, df,nr_direcții _ critice )

ATENȚIE!
•Ecuația de regresie este relația matematică care exprimă
dependența dintre două sau mai multe variabile .
•Frecvent se folosește ecuația de regresie liniară =

dreapta de regresie: y = a·x +b

unde y este variabila dependentă
iar x este variabila independentă .
Parametrul a (panta dreptei de regresie = „ slope ”)
este denumit „coeficient de regresie”
– nu trebuie confundat cu „coeficientul de corelație”!!
•Trebuie aleasă ecuația de regresie care să descrie cu cea mai
mică eroare relația dintre variabile
•Estimarea parametrilor a („slope ”) și b („intercept ”) se face
uzual prin „metoda celor mai mici pătrate”

y = 1.217 x + 10.456
r = 0.965
020406080100120
0 10 20 30 40 50 60 70 80 90 100VSH 2 ore
VSH 1 ora Corelația dintre valorile VSH la 1 or ă și 2 ore la
pacienți cu diferite afecțiuni hepato -renale

Întrebări

Similar Posts