Recapitulare – Tipuri de date [629081]
Recapitulare – Tipuri de date
•Date numerice – vârst a, greutate a, talia, hemoglobin a, tensiunea
arterial ă, calcemia , glicemi a, colesterolul , transaminaze le etc.
valori continue sau discrete
numere întregi sau zecimale
•Date ordinale – stadiul evolutiv, gravitatea, starea la externare,
gradul de rudenie etc.
codurile folosite au o ordine
•Date nominale – codul bolii, grupa sanguină, consistența ficatului,
culoarea urinei etc.
codurile folosite NU au o ordine
•Date alfanumerice – nume, prenume, adresă, loc de muncă,
descrierea bolii etc.
în general texte sau alte simboluri
Graficul Histogram ă
Poligonul frecvențelor
Tipuri de distribuții
Distribuție puternic asimetric ă Distribuție asimetrică Distribuție simetrică Distribuție ușor asimetrică
Curba Gauss –
curba repartiției NORMALE
•Unul din cazurile cele mai importante este acela
când reparti ția datelor respect ă densitatea ideală –
așa numita repartiție Gauss sau normală
Curba Gauss
Curba Gauss
Coeficientul de inteligen ță
Media=100, Deviația standard=15
Cursul 5
Corelația statistică
UNIVERSITATEA DE
MEDICINĂ ȘI FARMACIE
DIN CRAIOVA
SUMAR
•Noțiunea de corelație statistică
•Graficul Scatter
•Coeficientul de corelație Pearson – r
•Interpretarea coeficientului de corelație
Karl Pearson (1856- 1936) Francis Galton (1822 -1911)
Corelația – Definiție
•Este un termen general folosit pentru a defini
interdependența sau legătura dintre variabilele observate
în populații statistice .
•Apare uneori cu un înțeles foarte larg, acoperind orice
legătură statistică fie între variabile cantitative, fie între
variabile calitative, fie între ambele tipuri de variabile .
• În sens restrâns este o măsură a gradului de legătură
statistică dintre variabilele cantitative, sub numele de
„coeficient de corelație” .
•Cel mai des folosit este coeficientul de corelație r al lui
Pearson (coeficient de corelație liniară), care măsoară
gradul de legătură între variabile .
Graficul Scatter
modalitate de vizualizare a relației dintre 2 parametri
•Selectarea datelor
•Meniul INSERT
•Opțiunea Chart …
Graficul de tip scatter oferă informații privind
Corelați a
Omogenitatea
Simetri a
datelor reprezentate și analizate
0102030405060708090100
0 10 20 30 40 50 60 70 80 90 100VSH 2 ore
VSH 1 ora Corelația dintre valorile VSH la 1 or ă și 2 ore la
pacienți cu diferite afecțiuni hepato -renale
5060708090100110120130140150
80 90 100 110 120 130 140 150 160 170 180 190 200 210 220 230 240TA diastolic ă
TA sistolic ă Corelația dintre TA sistolic ă si diastolic ă la pacienți cu
diferite afecțiuni hepato -renale
2.53.03.54.04.55.05.5
115 120 125 130 135 140 145 150K seric
Na seric Corelația dintre sodiul și potasiul seric la pacienți
cu diferite afecțiuni hepato -renale
Coeficientul de corelație
•Pentru două serii de date distribuite gaussian , cel
mai sintetic indicator al corelației este
coeficientul de corelație r al lui Pearson
r = RAPORTUL DINTRE COVARIAȚIA SERIILOR ȘI
PRODUSUL DEVIAȚIILOR LOR STANDARD
sau
unde X=x1, x2,…,xn și Y=y1, y2, ..,yn sunt valorile măsurate, iar
X̅ , Y̅ sunt mediile de eșantionare ale seriilor respective.
Coeficientul de corelație
•Coeficientul de corelație r are valori cuprinse
între -1 și 1.
•Pătratul coeficientului de corelație, notat r2,
reprezintă coeficientul de determinare între
cei doi parametri și are valori între 0 și 1.
•Putem calcula intervalul de încredere de 95%
pentru coeficientul de corelație Pearson – se
consideră că r este semnificativ atunci când
intervalul de încredere nu conține valoarea 0.
Interpretare
-1 …………………………….0……………………………….1
Corelație perfectă
inversă -negativă Corelație perfectă
directă-pozitivă Corelație nulă
inexistentă Semnul + sau – arată tipul (direcția) relației
Valoarea numerică arată intensitatea relației
Interpretare
•În cazul unui coeficient de corelație pozitiv
(ex. r = 0,5) avem o corelație directă – cele
două variabile corelate variază în același sens
(când una crește, și cealaltă crește, respectiv
când una scade, și cealaltă scade) .
•În cazul unui coeficient de corelație negativ
(ex. r = -0,5) avem o corelație inversă , cele
două variabile corelate variază în sens contrar
(când una crește, cealaltă scade) .
IMC=greutate(kg)/ înălțime2(m)
y = 0.208x + 12.245
r = 0.670
1520253035404550
40 60 80 100 120 140 160IMC
Greutate Corelația dintre greutate si IMC
y = – 0.1173x + 48.37
r = – 0.239
1520253035404550
135 145 155 165 175 185 195 205IMC
Înalțime Corelația dintre î nalțime si IMC
Interpretarea rapidă a coeficientului r
r є [0; 0.2] → corelaț ie foarte slabă, inexistentă
r є [0.2; 0.4] → corelaț ie slabă
r є [0.4; 0.6] → corelaț ie rezonabilă
r є [0.6; 0.8] → corelaț ie înalta
r є [0.8; 1] → corelaț ie foarte înaltă – relație
foarte strînsă între variabile sau eroare de calcul
Exemple – seturi de date și valori r
Dacă valoarea absolută a coeficientului de corelație este
slabă (aproape de 0), nu trebuie să se conchidă neapărat
că nu există legătură statistică între cele două variabile –
legătura poate să existe, dar nu este liniară .
OBSERVAȚII
•Pentru date care nu au o distribuție gaussiană ,
dar care se pot ordona, fără a avea un număr
mare de valori egale intre ele, putem folosi
coeficientul ρ (rho) Spearman , obținut prin
testul neparametric Spearman de corelație a
rangurilor.
•În cazul datelor ale căror ranguri egale
depășește 25% din numărul lor este indicate
folosirea testului τ (tau) al lui Kendall.
Teste statistice
•Testele statistice verifică veridicitatea unor ipoteze – inferențe statistice
ipoteza H0 (sau ipoteza de nul): datele nu prezintă legături între ele, sunt
independente / valorile comparate nu diferă între ele
ipoteza H1 (sau ipoteza alternativă) : datele prezintă legături între ele, sunt
dependente/ valorile comparate diferă între ele
•Rezultatul p al testului, furnizat ca un număr între 0 și 1, reprezintă
probabilitate de a face o eroare dacă respingem ipoteza H0 a testului .
•Dacă p este mai mic decât pragul de semnificație α ales – de obicei
α=0,05 – respingem ipoteza H0 și admitem că este adevărată ipoteza H1.
•Interpretarea valorilor p se face la majoritatea testelor statistice astfel :
p < 0.05, legătura statistică este semnificativă (S, încredere 95%).
p < 0.01, legătura statistică este semnificativă (S, încredere 99%).
p < 0.001 , legătura statistică este înalt semnificativă (HS, încredere 99.9%).
p > 0.05, legătura statistică este nesemnificativă (NS).
Semnificație statistică
•Pentru a vedea daca valoarea lui r este semnificativă
statistic , deci dacă cei doi parametri sunt corelați, se poate
calcula parametrul t, care, conform distribuției Student, se
poate transforma într-o valoare care arată probabilitatea de
eroare – p, considerând că avem N-2 grade de libertate
(degrees of freedom – df , N = numărul de perechi de valori) .
p < 0,05 – corelație semnificativă statistic
între parametrii analizați
MS Excel –– p=TDIST(t, df,nr_direcții _ critice )
ATENȚIE!
•Ecuația de regresie este relația matematică care exprimă
dependența dintre două sau mai multe variabile .
•Frecvent se folosește ecuația de regresie liniară =
dreapta de regresie: y = a·x +b
unde y este variabila dependentă
iar x este variabila independentă .
Parametrul a (panta dreptei de regresie = „ slope ”)
este denumit „coeficient de regresie”
– nu trebuie confundat cu „coeficientul de corelație”!!
•Trebuie aleasă ecuația de regresie care să descrie cu cea mai
mică eroare relația dintre variabile
•Estimarea parametrilor a („slope ”) și b („intercept ”) se face
uzual prin „metoda celor mai mici pătrate”
y = 1.217 x + 10.456
r = 0.965
020406080100120
0 10 20 30 40 50 60 70 80 90 100VSH 2 ore
VSH 1 ora Corelația dintre valorile VSH la 1 or ă și 2 ore la
pacienți cu diferite afecțiuni hepato -renale
Întrebări
Copyright Notice
© Licențiada.org respectă drepturile de proprietate intelectuală și așteaptă ca toți utilizatorii să facă același lucru. Dacă consideri că un conținut de pe site încalcă drepturile tale de autor, te rugăm să trimiți o notificare DMCA.
Acest articol: Recapitulare – Tipuri de date [629081] (ID: 629081)
Dacă considerați că acest conținut vă încalcă drepturile de autor, vă rugăm să depuneți o cerere pe pagina noastră Copyright Takedown.
