Analiza datelor [605967]

Analiza datelor

Proiectul vizeaza Analiza Componetelor Principale pentru un set de 8 variabile(cifra de
afaceri,venit,cost,profit,cashflow,roa,roe,garantie) si 40 de observatii (marci de
masini/motociclete si echipamente specifice acestora).

1. Matricea datelor standardizate

Figure 1 Matricea datelor standardizate

2. Analiza componentelor principale

Analiza componentelor principale este o tehnica de analiza multidimensionala care are ca
scop descompunerea variabilitatii totale din spatiul cauzal initial sub forma unui numar redus de
componenete si fara ca acceasta descompunere sa contina redundante informationale.
Scopul pentru c are aplicam aceasta metoda este acela de reducere a dimensiunii,de reducere a
redundantei .
Redundanța datelor este justificată pe baza matricei de corelație (Fig.2) din care reiese faptul că
între variabile există corelații puternice , ceea ce ineamna ca există suprapunere informațională
pe care urmeaza sa o eliminăm.
Dimensionalitatea datelor este justificată pe baza matricei de observații: 40 de observații cu 8
caracteristici, în total 340 de date.
Componentele principale notate wi ,sunt combi natii liniare de variabile originale care au 2
proprietati :
• au varianta maximala descrescatoare :Var(W1)>Var(W2)>… .Var(Wn);
• sunt necorelate doua cate doua :Cov(Wi,Wj)=0,i=!j.
Voi realize analiza componentelor principale in programul R.

Figure 2 Matricea de corelatie a variabilelor originale

Constructia valorilor proprii si a vectorilor proprii se poate face in doua feluri :
• utilizand matricea de covarianta;
• utilizand matricea de corelatie;

➢ Contructia valorilor proprii si vectorilor proprii folosind matricea de covarianta :
Vectorii proprii

Valorile proprii

Valorile proprii sunt : Λ1=4.748372e+26; Λ2=3.152670e+24 ; Λ3=1.837398e+23;
Λ4=6.032294e+21; Λ5=5.657840e+20; Λ6=1.265758e+00; Λ7=3.045972e -01; Λ8=9.385613e –
02.
Λ1=4.748372e+26 , este cea mai mare varianta pe care prima component principala (W (1)) o
preia.
Cea de -a doua component principal extrage maximul din ce a mai ramas,si asa mai departe.

➢ Contructia valorilor proprii si vectorilor proprii folosind matricea de corelatie :

Valorile proprii sunt : Λ1=3.781054e+00; Λ2=1.268703e+00; Λ3=1.19421e+00;
Λ4=9.260975e -01; Λ5=7.880384e -01; Λ6=4.139277e -02; Λ7=4.496102e -04; Λ8=5.087461e -05.
Valorile propri i (Λi) reprezinta variantele componentelor principale .
Λ1=3.781054e+00 , este cel mai mare vector propriu,adica este varinata cea mai mare,pe care
prima component principal a W 1 o preia.
Cea de -a doua component principal extrage maximul din ce a mai ramas,adica
Λ2=1.268703e+00 ,dupa ce s -a construit prima component principala.Si procesul continua pana
la ultima component principal.
Numarul de valorii proprii ( Λi ) ne ajuta sa determinam numarul componentelor
principale,deoarece acesta este egal cu numarul componentelor principale (Wi).
Daca avem 8 valorii proprii ,va rezulta ca vom avea 8 componente principale.

Figure 3 Matricea vectorilor proprii

Teorema de conservarea a variantei totale consta in faptul ca:
VARIANTA TOTALA A VARIABILELOR ORIGINALE=VARIANTA COMPONENTELOR
PRINCPALE.
∑Var(x)=∑Var(Wi)
tr(∑)=tr( Λ)
∑=Matricea de covarianta a variabilelor originale
Λ=Matricea de covarianta a componentelor principale
Conservarea variantei totale:

Comform teoremei ,va rezulta:
 4.781802*1026=4.781802*1026

Teorema de conservare a variantei generalizate se bazeaza pe formula:
Det (∑)=det( Λ)
Det (∑)=Varianta generalizata pentru variabilele originale;
det(Λ)=Varianta generalizata pentru componentele principale.
Conservarea variantei generalizate :

Comform teoremei de conservare a variantei generalizate,va rezulta:

 1.616594e+114=3.397028e+115

Teorema de descompunere spectrala
Se testeaza teorema de descompunete spectrala a unei matrici simetrice (matricea de
covarianta):
∑=ᾳ* Λ* ᾳt
∑=Matricea de covarianta a variabilelor originale;
ᾳ=Matricea vectorilor proprii;
ᾳt=Matricea vectorilor proprii transpusa;
Λ=Matricea de covarianta a componentelor principale.

Figure 4 Descompunerea spectral a matricii de covarianta

Figure 5 Matricea de covarianta a variabilelor originale

Determinarea si calculul componentelor principale se realizeaza cu ajutorul formulei:
W11=x1*ᾳ11+x2*ᾳ21+……………. x8*ᾳ81
W11=componenta principala 1.
x1,x2,x3…x8 sunt variabilele originale;
ᾳ11; ᾳ12;……. ᾳ81 sunt vectorii proprii.

Atunci cand calculam componentele principale utilizam vectorii proprii specifici matricii de
corelatie. Acesti vectori proprii sunt determinati pe baza valorilor proprii .
Matricea componentelor principale este:
pca$scores

Figure 6 Matricea componentelor principale

3. Criterii de alegere a numarului de componente principale.
3.1.Criteriul lui Kaiser
Criteriul lui Kaiser poate fi folosit atunci cand analiza factoriala este efectuata pe o matrice de
corelatie,adica atunci cand se presupune ca variabilele origininale sunt standardizate.In
comformitate cu acest criteriu,numerul de factori necesari a fi inclusi intr -un model de analiza
factoriala este egal cu numarul de valorii proprii mai mari sau egale cu 1.
Justificarea acestui criteriu este data de faptul ca,pentru analiza,prezinta importanta numai acei
factori comuni a caror varianta este cel putin egala cu varianta variabilelor originale,variabile
care,fiind normalizate,au varianta unitara.
In afara faptului ca un a stfel de criteriu poate fi folosit numai in cazul n care se lucreaza cu
variabilele normalizate,dezavantajul principal al criteriului Ka iser este dat de faptul ca aplicarea
lui conduce la retinerea in model a unui numar prea mare de factori.
In cazul no stru,v alorile proprii sunt :
Λ1=3.781054e+00 > 1
Λ2=1.268703e+00 > 1
Λ3=1.19421e+00 > 1
Λ4=9.260975e -01 ~1 ≥ 1
Λ5=7.880384e -01 < 1
Λ6=4.139277e -02 < 1
Λ7=4.496102e -04 < 1
Λ8=5.087461e -05 < 1
Retinem in analiza componentele principale a caror varianta /valoare proprie ≥ 1,deci vom
avea 3 componente principale W 1;W2;W3,W4.

3.2.Criteriul pantei
Dupa acest criteriu,numarul de factori ce vor fi retinuti in modelul de analiza factoriala se
stabileste pe baza unei analize grafice a valorii proprii.Graficul pe care se face analiza se
construieste luand in abscisa numarul de ordine al valorilor proprii,iar in ordonata valorile
acestor valori proprii.
Numarul de componente principale este dat de o dreapta care trece prin punctul de la care
graficul devine paralel cu abscisa.Vom retine ceea ce se afla la stanga dreptei.

Figure 7 Valoriile proprii -Screeplot
In cazul meu ,comform criteriului pantei,o sa retin ceea ce este la stanga dreptei ce trece prin
componenta principala 5 ,ceea ce inseamna ca o sa a 4 componente principale.

3.3.Criteriul procentului de acoperire.
In general,alegerea numarului de factori care sa fie inclusi in modelul factorial depinde de
proportia din variabiltatea comuna continuta in spatiul cauzal intial pe care utilizatorul doreste s –
o exprime prin intermediul unei succesiuni de factori comuni.
O estimatie aproximativa a acestei proportii,pentru cazul in care numarul de factori retinuti este
egal cu k ,poate fi obtinuta cu ajutorului formulei:
Pk=∑ i=1k ( λi)/ ∑i=1n( λi)
k reprezinta nuumarul de factori retinuti in model,
n reprezinta numarul variabilelor originale,
( λi) reprezinta valoarea proprie in raport cu care este definit factorul comun i.

Daca retin in analiza primele 4 componente principale,captez aproximativ 89% din va riablele
originale si avem o pierdere informationala de 11%.

Corelatiile dintre componentele principale
Corelatiile dintre componentele principale se pot determina in doua moduri:
pairs(pca$scores)

Figure 8 Graficul de corelatie intre CP
round(cor(pca$scores),10)

Figure 9 Matricea de corelatie intre CP

Putem observa din matricea de c orelatie a componentelor princi pale faptul ca sunt necorelate
intre ele.
4. Matricea facto r
Matricea factor este o matrice importanta utilizata in contextul analizei componentelor
principale,ale carei elemente ofera premize pentru interpretari interesante.Aceasta matrice factor
ne ajuta sa vedem in ce masura variabilele originale participa la coonstructia componentelor
principale,este o matrice de co relatie intre variabilele originale si componentele princiapale.
Cu cat vedem intr -un anummit x o corelatie mai mare ,cu atat o variabila orginala intra in
constuctia unei componente principale.
Metoda de construi re a matricii factor:
In acest scop,vom presupune ca cele 8 componente principale sunt reprezentate rin intermediul
vectorului W ,iar matricea de covarianta a componentelor principale este matricea diagonala Λ.
De asemenea, vom considera legatura dintre vectorul variabilelor originale si vectorul
omponentelor principale ca fiind data de relatia :
X=AW
A=matricea vectorilor proprii ai matricii de covarianta ∑.
Atunci matricea de covarianta dintre vectorul X al variabilelor originale si vectorul W al
componentelor princip ale poate fi definita sub forma:

Matricea de covarianta a componentelor principale Λ, fiind matricea diagonal formata din
valorile proprii ale matricii de covarianta ∑.
Pe baza acestui rezultat ,atricea de corelatie dintre vectorii n -dimensionali X si W poate fi
definita sub frma:

Var(x) este matricea diagonal ale carei elemente sunt reprezentate de variantele variabilelor
originale;
Var(W) este matricea diagonal ale carei elemente sunt variantele componentelor principale.

Matricea Var (x) are forma:

Matricea Var(W) este chiar matricea Λ.
Tinand seama de exprimarea anterioara a covariantei dintre X si W,matricea de corelatie dintre
X si W devine:

Matricea factor Ω este o matrice foarte importanta pentru analiza componentelor principale si
este cunoscuta sub forma de matrice factor.Modalitatea detaliata in care aceasta matrice poate fi
calculata este definite de relatia :

Dupa efectuare a produselor matriciale în relat ia de mai sus, matricea Ω capataa forma
urma toare:

un element generic ω ij din matricea factor Ω fiind determinat de relat ia:

Figure 10 Matricea factor

Caracteristicile venitul ,profitul si costul participa foarte mult in formarea componentei
principale W1,existand o legatura foarte puternica.
In formarea componentei principala W2, participa cel mai mult cifra de afaceri,existand o
legatura puternica.
In formarea componentei principale W3 ,participa cel mai mult caracteristicile ROA si
ROE,existand o legatura pu ternica.
De asemena,in formarea componentei W4 ,participa cel mai mult tot carcaterisiticile ROA si
ROE,avand o legatura puternica.

Figure 11 Corelatiile dintre varabilele originale si CP

In acest Fig.11 se pot identifica corelatiile dintre variabilele originale si componenetele
principale .
In cazul acesta ,variabilele cifra de afaceri ,profit,venit,cost,cashflow, garantie explica intr -o
mare masura componenta principala 1,iar variabilele ROA si ROE explica intr -o mare m asura
componenta principala 2 .
Cu cat variabila profit are o lungime mare si tinde sa fie paralela cu componenta principala 1
,cu atat ca acea variabila este mai core lata cu componenta principala 1.
In cazul variabilelor ROA si ROE ,cu cat acestea sunt mai lungi si mai paralele cu componenta
principala 2 cu atat ele sunt mai corelate.
Deoarece , variabila ROA si ROE sunt perpendicuare pe componenta principala 1 ,acest fapt
inca slaba corelatie dintre variabila ROA si componenta principala 1 si slaba corelatie intre ROE
si componenta principala 1.

Similar Posts