Evaluarea Riscurilor In Asigurarile de Masini din Romania

Introducere:

Am decis, pentru a realiza studiul de caz, să folosesc date pentru anul 2012 deoarece

Analiza în componente principale este considerată drept unul dintre cele mai valoroase rezultate ale algebrei liniare aplicate. ACP este utilizată în mod frecvent în analiza datelor din toate domeniile, pentru că este o metoda simpla, neparametrica, de extragere a informatiei relevante din multimi mari de date.

0.Introducere

Tema proiectului are ca scop evaluarea riscului în asigurările de mașini din România. Pentru această analiză, am colectat date pentru 13 companii de asigurări de pe www.unsar.ro .

Matricea TxN este formată din 13 linii ce conțin 13 companii de asigurări din România și 11 indicatori ce reprezintă diverse trăsături ale companiilor analizate. În figura 1 sunt prezentate cele 13 companii împreună cu indicatorii folosiți în analiză.

În figura 2 vom prezenta cei 11 indicatori împreună cu alias-urile acestora.

1.Descrierea variabilelor

Analiza componentelor principale este o metodă de analiză multidimensională care are ca scop determinarea unor noi variabile, numite componente principale și exprimate sub forma combinațiilor liniare de variabile originale astfel încât aceste variabile noi să fie caracaterizate de o variabilitate maximă.

Statistici descriptive:

În figura 3 am calculat media, dispersia, Skewness, Kurtosis, valoarea minimă, prima cuartilă, mediana, a treia cuartilă și valoarea maximă pentru fiecare indicator în parte pentru a ne ajuta la descrierea acestora.

În continuare, vom descrie fiecare indicator al fiecărei companii de asigurări cu ajutorul statisticilor descriptive pe care le-am obținut în Excel (vezi figura 3) și cu ajutorul reprezentărilor grafice obținute în SPSS și R(Boxplot și Histograma au fost realizate în SPSS, iar densitățile de probabilitate au fost realizate în R).

Indicatorul 1

Indicatorul 1 reprezintă numărul de contracte aflate în vigoare la sfârșitul perioadei de raportare-buc. În medie, o companie de asigurări din România,deține în jur de 339,767.50 de contracte în vigoare la sfârșitul perioadei de raportare-buc cu o abatere standard de 314,479.21. Asimetria setului de date care aparțin indicatorului I1 este 0.51637830 ceea ce înseamnă că avem o repartiție cu o coadă asimetrică extinsă pe mai multe valori pozitive. Coeficientul Kurt este -0,9217, deci avem repartiție relativ netedă. Valoarea minimă este 0, ceea ce înseamnă că în România sunt și companii de asigurări care nu au niciun contract în vigoare la sfârșitul perioadei de rapoarte-buc, iar valoarea maximă este 916,984 contracte. A 25-a percentilă pentru indicatorul I1 este 42,25, mediana 278,369, iar cea de-a 75-a percentilă este 593,609.75.

Indicatorul 2

Indicatorul 2 este reprezentat de primele brute subscrise, adică de totalitatea primelor încasate și de încasat, inclusiv primele de reasigurare încasate și de încasat, aferente tuturor contractelor de asigurare și contractelor de reasigurare, care intră în vigoare în exercițiul financiar, înainte de deducerea oricăror sume din aceastea. În medie, o companie de asigurări din România obține 102734529.35 prime brute subscrise cu o abatere standard de 89390456.08. Asimetria setului de date care aparțin indicatorului I2 este 0,3484 ceea ce înseamnă că avem o repartiție cu o coadă asimetrică extinsă pe mai multe valori pozitive. Coeficientul Kurt este -0,77739167, deci avem repartiție relativ netedă. Valoarea minimă este 0, ceea ce înseamnă că în România sunt și companii de asigurări care nu obțin nicio primă brută subscrisă, iar valoarea maximă este 255682863 prime.

Indicatorul 3

Indicatorul 3 este reprezentat de primele brute câștigate, adică valoarea primelor brute subscrise diminuată cu variația rezervei brute de prime. Datele au fost colectate de pe www.unsar.ro. În medie, o companie de asigurări din România obține 95702677.73 prime brute câștigate cu o abatere standard de 85790826.78. Asimetria setului de date care aparțin indicatorului I3 este 0,39953645 ceea ce înseamnă că avem o repartiție cu o coadă asimetrică extinsă pe mai multe valori pozitive. Coeficientul Kurt este -1,01455074, deci avem repartiție relativ netedă.

Indicatorul 4

Indicatorul 4 este reprezentat de primele brute subscrise cedate în reasigurare, adică primele brute subscrise primite în reasigurare, potrivit contractelor de asigurare, fără a se deduce partea de prime subscrise a fi cedate în reasigurare. Datele au fost colectate de pe www.unsar.ro. În medie, o companie de asigurări din România obține 28062038,48 prime brute subscrise cedate în reasigurare cu o abatere standard de 38276962,6. Asimetria setului de date care aparțin indicatorului I4 este 1,27224517 ceea ce înseamnă că avem o repartiție cu o coadă asimetrică extinsă pe mai multe valori pozitive. Coeficientul Kurt este 0,2179127, deci avem repartiție relativ abruptă. Valoarea minimă este 0, ceea ce înseamnă că în România sunt și companii de asigurări care nu obțin nicio primă brută subscrisă cedată în reasigurare, iar numărul maxim de prime obținute de către o companie este 109841907 prime. Se obervă în Boxplot existența unei valori outlier. Este vorba de firma 3, care are un nivel mult mai mic al primelor brute subscrise cedate în reasigurare, față de celelalte companii de asigurări.

Indicatorul I5

Indicatorul 5 este reprezentat de primele brute încasate, adică totalul primelor încasate, inclusiv primele primele de reasigurare în perioada de referință, înainte de deducerea oricăror sume din acestea. Datele au fost colectate de pe www.unsar.ro. În medie, o companie de asigurări din România încasează 104085824,96 prime brute cu o abatere standard de 89852723,82. Asimetria setului de date care aparțin indicatorului I5 este 0,25591382 ceea ce înseamnă că avem o repartiție cu o coadă asimetrică extinsă pe mai multe valori pozitive. Coeficientul Kurt este -1,06266833, deci avem repartiție relativ netedă. Valoarea minimă este 0, ceea ce înseamnă că în România sunt și companii de asigurări care nu încasează nicio primă brută, iar valoarea maximă este 248563403 prime.

Indicatorul I6

Indicatorul 6 este reprezentat de indemnizațiile brute plătite și datele au fost colectate de pe www.unsar.ro. În medie, o companie de asigurări din România plătește 87993635,96 indemnizații brute cu o abatere standard de 79948742,22. Asimetria setului de date care aparțin indicatorului I6 este 0,53403313 ceea ce înseamnă că avem o repartiție cu o coadă asimetrică extinsă pe mai multe valori pozitive. Coeficientul Kurt este -0,66843272, deci avem repartiție relativ netedă. Valoarea minimă este 0, iar valoarea maximă este 248563403 indemnizații. A 25-a percentilă pentru indicatorul I6 este 1021466,5, mediana 78837326, iar cea de-a 75-a percentilă este 149202924.

Indicatorul I7

Indicatorul 7 este reprezentat de indemnizațiile nete plătite, adică suma netă pe care o plătește asiguratul. Datele au fost colectate de pe www.unsar.ro. În medie, o companie de asigurări din România plătește 66564518,31 indemnizații nete cu o abatere standard de 59142493,64. Asimetria setului de date care aparțin indicatorului I7 este 0,47509979 ceea ce înseamnă că avem o repartiție cu o coadă asimetrică extinsă pe mai multe valori pozitive. Coeficientul Kurt este -0,58653324, deci avem repartiție relativ netedă. Valoarea minimă este 0, iar valoarea maximă este 179515128 indemnizații.

Indicatorul I8

Indicatorul 8 este reprezentat de valorile nete ale totalurilor rezervelor tehnice și datele au fost colectate de pe www.unsar.ro. În medie, o companie de asigurări din România deține 146595612,38 rezerve tehnice cu o abatere standard de 109083111,46. Asimetria setului de date care aparțin indicatorului I8 este -0,44812161 ceea ce înseamnă că avem o repartiție cu o coadă asimetrică extinsă pe mai multe valori negative. Coeficientul Kurt este -1,45006881, deci avem repartiție relativ netedă. Valoarea minimă este 845, iar valoarea maximă este 285701918 rezerve tehnice.

Indicatorul I9

Indicatorul 9 este reprezentat de rezervele nete de primă și datele au fost colectate de pe www.unsar.ro. În medie, o companie de asigurări din România deține 45687974,71 rezerve nete de primă cu o abatere standard de 38786525,02. Asimetria setului de date care aparțin indicatorului I9 este 0,23808626 ceea ce înseamnă că avem o repartiție cu o coadă asimetrică extinsă pe mai multe valori pozitive. Coeficientul Kurt este -0,92122839, deci avem repartiție relativ netedă. Valoarea minimă este 0, iar valoarea maximă este 116260075 rezerve nete de primă. A 25-a percentilă pentru indicatorul I9 este 76583,25, mediana 47264234,5, iar cea de-a 75-a percentilă este 73644928,75.

Indicatorul I10

Indicatorul 10 este reprezentat de rezervele nete de daune avizate și datele au fost colectate de pe www.unsar.ro. În medie, o companie de asigurări din România deține 67633408,65 rezerve nete de daune avizate cu o abatere standard de 56431303,48. Asimetria setului de date care aparțin indicatorului I10 este 0,21714887 ceea ce înseamnă că avem o repartiție cu o coadă asimetrică extinsă pe mai multe valori pozitive. Coeficientul Kurt este -0,89621227, deci avem repartiție relativ netedă. Valoarea minimă este 0, iar valoarea maximă este 169010984 rezerve nete de daune avizate. A 25-a percentilă pentru indicatorul I10 este 1970274,75, mediana 65637235, iar cea de-a 75-a percentilă este 98162558,25.

Indicatorul I11

Indicatorul 11 este reprezentat de rezervele nete de daune neavizate și datele au fost colectate de pe www.unsar.ro. În medie, o companie de asigurări din România deține 31176186,94 rezerve nete de daune neavizate cu o abatere standard de 28172795,08. Asimetria setului de date care aparțin indicatorului I11 este 0,59596384 ceea ce înseamnă că avem o repartiție cu o coadă asimetrică extinsă pe mai multe valori pozitive. Coeficientul Kurt este -0,47132375, deci avem repartiție relativ netedă. Valoarea minimă este 0, iar valoarea maximă este 85949718 rezerve nete de daune neavizate.

2.Analiza componentelor principale

Bazele matematice ale ACP

Statistica clasica este axata pe studiul unui numar restrans de caracteristici masurate pe o multime mica de indivizi. Ea a dezvoltat notiunile de estimatie si test fondate pe ipoteze probabilistice foarte restrictive. Totusi, in practica, indivizii observati sunt frecvent descrisi printr-un numar mare de caracteristici.

Analiza in componente principale este o parte esentiala a analizei datelor de dimensiuni foarte mari, o cutie neagra ce este foarte folosita dar foarte putin inteleasa. ACP este considerate una din cele mai valoroase rezultate ale algebrei liniare si e folosita abundent in toate formele analizei, de la neurostiinta la grafica computerizata, deoarece e o metoda simpla si neparametrica de a extrage informatii relevante dintr-un set de date care creaza confuzie. Cu un efort aditional minim ACP ofera o modalitate de a aduce un set complex de date la o dimensiune redusa pentru a expune structura simplificata, deseori ascunsa care se afla in spatele setului initial de date.

Analiza în componente principale este o tehnica de descriere statistica ce conduce la reprezentari grafice asemanatoare (optimale intr-un anumit sens) cu continutul tabelului de date, descriind simultan legaturile intre variabile si similitudinile intre indivizi. Este de asemenea un mijloc de reducere a dimensiunii unei multimi de variabile continue, utilizabil ca instrument intermediar de calcul in vederea analizelor ulterioare.

Bazele ACP au fost puse in 1901 de Karl Pearson. In functie de aria de utilizare se mai numeste si Transformarea Karhunen–Loève sau Transformarea Hotelling. ACP este cea mai simpla din metodele de analiza multivariata bazate pe vectori proprii. Daca un set de date multivariate e vizualizate ca un set de coordonate intr-un spatiu multidimensional, ACP ii ofera utilizatorului o imagine cu mai putine dimensiuni, o „umbra” a obiectului cand e vazut din unghiul cel mai informativ.

Analiza datelor pe component principala este utilizata pentru descrierea datelor continute de un tabel indivizi-caracteristici numerice: p caracteristici sunt masurate pe n indivizi. Prin intermediul analizei, ansamblul de date poate fi redus intr o forma compacta, dar care poate scoate in relief anumite structuri fundamentale ale datelor de intrare.

Observațiile a p variabile pentru n indivizi sunt reunite într-un tabel X cu n linii și p coloane.

este valoarea luată de variabila j pentru individul i.

Intr-o optică pur descriptivă, se va identifica o variabilă cu coloana lui X corespunzătoare; o variabilă este o listă de n valori pe care ea o ia pentru cei n indivizi:

Se va identifica, de asemenea, individul i cu ajutorul vectorului cu p componente:

Liniile matricei de date contin valorile caracteristicilor xi,x2,….xn pentru fiecare individ in parte, iar coloanele matricei contin valorile inregistrate de fiecare caracteristica, pentru toti indivizii.

Dacă datele au fost culese în urma unei extrageri aleatoare cu probabilități egale, cei n indivizi au toți aceeași importanță, 1/n, în calculul caracteristicilor eșantionului. Dar nu este totdeauna așa, și este util pentru anumite aplicații să lucrăm cu ponderi pi, eventual diferite de la un individ la altul (eșantioane redresate, date regrupate). Aceste ponderi, care sunt numere pozitive de sumă 1, comparabile cu frecvențele, sunt regrupate într-o matrice diagonală D de mărime n:

In cazul cel mai des întâlnit cu ponderi egale, avem desigur D = 1/n.

Se defineste centrul de greutate al matricei de date vectorul care are drept coordonate mediile mj ale valorilor caracteristicilor: M= (mj)j=1….p , unde mj=

Avem mj = X'D1, unde 1 desemnează vectorul din Rn , unde toate componentele sunt egale cu 1. Tabelul Y pentru care = – este tabelul centrat asociat lui X. Avem Y = X – 1mj' = (l – 11'D)X.

Descrierea multidimensională a datelor numerice V = X'DX – mjmj' = Y'DY. Avem, de asemenea, X’DX=

Această ultimă formulă este utilă pentru calculele numerice, căci ea nu presupune memorarea tabelului X, ci doar citirea succesivă a datelor.

Dacă notăm cu D1/S matricea diagonală a inverselor abaterilor medii pătratice:

și D -1/s2 matricea diagonală a inverselor dispersiilor, tabelul datelor centrate și reduse Z se obține cu: si deci Z = YDi/s.

Matricea care grupează toți coeficienții de corelație liniară între p variabile luate 2 câte 2 se notează cu R.

Unde R = Di/S V D1/S = Z'DZ si este matricea dispersie-covarianță a datelor centrate și reduse și rezumă structura de dependență liniară între p variabile.

Spatiul indivizilor

Fiecare individ, fiind un punct definit prin p coordonate, este considerat ca un element al unui spațiu vectorial F, denumit spațiul indivizilor. Mulțimea de n indivizi este atunci un nor de puncte în F și g este centrul de greutate. Spațiul F este înzestrat cu o structură euclidiană pentru a putea defini distanțele între indivizi.

Cum măsurăm distanța între 2 indivizi ? Această chestiune primordială trebuie să fie rezolvată înainte de orice studiu statistic căci rezultatele obținute depind în mare măsură de aceasta.

In fizică, distanța între două puncte ale spațiului se calculează ușor cu formula lui Pitagora: pătratul distanței este egal cu suma pătratelor diferențelor de coordonate, caci dimensiunile sunt de aceeași natură: sunt lungimi pe care le măsurăm cu aceeași unitate: d2 =

Nu este la fel în statistică, unde fiecare dimensiune corespunde unei caracteristici care se exprimă cu unitatea sa particular. Cum să calculezi distanța între doi indivizi descriși prin trei caracteristici: vârstă, salariu, număr de copii ?

Formula lui Pitagora este la fel de arbitrară ca oricare alta. Dacă se dorește să dăm importanță diferită fiecărei caracteristici, vom folosi o formulă de tipul:

ceea ce revine la a multiplica cu fiecare caracteristică (se vor lua bineînțeles aj pozitivi).

Mai mult, formula lui Pitagora nu este valabilă decât pentru axe perpendiculare, ceea ce se întâmplă ușor în spațiul fizic. Dar, în statistică, reprezentarea caracteristicilor utilizând axe perpendiculare nu este decât o pură convenție.

Se va utiliza deci formula generală următoare: distanța între doi indivizi ei și ej este definită prin forma pătratică:

unde M este o matrice simetrică de mărime p definită pozitiv. Spațiul indivizilor este deci înzestrat cu produsul scalar <e¡; ej> = e¡' M ej.

In teorie, alegerea matricei M depinde de utilizator, căci el singur poate să precizeze metrica adecvată, fn practică, matricile cele mai folosite în Analiza în Componente Principale sunt în număr redus. Cu excepția matricei M = I care revine la a utiliza produsul scalar obișnuit, matricea cea mai utilizată este matricea diagonala inverselor dispersiilor:

ceea ce revine la a împărți fiecare caracteristică prin abaterea sa medie pătratică. Printre alte avantaje, distanța între doi indivizi nu mai depinde de unitățile de măsură pentru că numerele sunt fără dimensiune, ceea ce este foarte util când variabilele nu se exprimă cu aceleași unități.

Mai mult, această matrice dă fiecărei caracteristici aceeași importanță, oricare i-ar fi dispersia utilizarea M = I ar conduce la privilegierea variabilelor celor mai dispersate pentru care distanțele între indivizi sunt cele mai mari și la neglijarea diferențelor între celelalte variabile. Matricea D1/s restabilește atunci echilibrul între variabile, dând la toate dispersia egală cu 1. Utilizarea unei matrici diagonal revine la multiplicarea caracteristicilor prin vai și utilizarea apoi a metricii obișnuite M = I.

Acest rezultat se generalizează la o metrică M oarecare în felul următor. Se știe că orice matrice simetrică pozitivă M poate fi scrisă M = TT. Produsul scalar între doi indivizi cu matricea M poate fi deci scris <e1;e2> = e'1Me2 = e'1T'Te2 = (Te2)’Te1. Totul se petrece deci ca și cum am utiliza matricea I pe date transformate, adică pe tabelul XT’

Informatia cu care participa un individ k in norul de puncte poate fi exprimata deci prin distanta de la punctul ce-l reprezinta pana la centrul de greutate al norului de puncte: Ik=

Informatia totala a norului de puncte desemneaza informatia cu care participa toti indivizii la norul de puncte si este suma informatiilor individuale:

I=

Daca in locul datelor initiale vom lucra cu date centrate, de forma xkjc= xkj-mj , atunci informatia totala este exact suma patratelor componentelor:

I=

Informatia totala se numeste inertia norului de puncte.

Se numește inerție totală a norului de puncte media ponderată a pătratelor distanțelor punctelor față de centrul de greutate:

Inerția într-un punct a oarecare este definită prin:

Se obține relația lui Huyghens:

Dacă g = 0

De altfel, se demonstrează ușor că inerția totală verifică relația:

fiind media pătratelor tuturor distanțelor între cei n indivizi. Inerția totală este urma matricei MV( sau VM):

lg= Urma MV = Urma VM

In adevăr, pi e'i M ei fiind un scalar, datorită comutativității urmei

Ig= Urma(

Dacă M = I inerția este egală cu suma dispersiilor celor p variabile. Dacă M = D i : Urma (MV) = Urma(D 1/s : V) = Urma (D1/sV D1/s) ceea ce revine la Urma R = p.

Inerția este deci egală cu numărul de variabile și nu depinde de valorile lor.

Proiectia indivizilor pe un subspatiu

Principiul metodei este de a obține o reprezentare apropiată a norului de n indivizi într-un subspațiu de dimensiune mică. Aceasta se efectuează prin proiecție.

Alegerea spațiului de proiecție se efectuează după criteriul următor care revine la deformarea cât mai puțin posibil a distanțelor prin proiectare: subspațiul de dimensiune k căutat este astfel încât media pătratelor distanțelor între proiecții să fie cea mai mare posibilă. Cu alte cuvinte, trebuie ca inerția norului proiectat pe subspațiul Fk să fie maximală.

Fie P operatorul de proiecție M – ortogonală pe Fk: P este astfel că P2 = P și P'M = MP. Norul proiectat este atunci asociat cu tabelul de date XP', căci fiecare individ ei (sau linie a lui X) se proiectează pe Fk după un vector coloană Pei, sau un vector linie ei P’.

Matricea de dispersii pentru tabelul XP' este pentru variabile centrate: (XP')'D(XP') = PVP'

Inerția norului proiectat este egală deci cu: Urmă (PVP'M).

Prin operații elementare se deduce:

Urma (PVP'M) – Urma (PVMP) căci P'M = MP

= Urma (VMP2) căci Urma AB = Urma BA

= Urma VMP căci P este idempotent

Problema este deci de a găsi P, proiector M-ortogonal de rang k care să maximizeze Urma VMP ceea ce va determina deci Fk.

Dacă F și G sunt două subspații ortogonale, atunci:

If g = If + Ig.

Este suficient să remarcăm că proiectorul asociat sumei directe a două subspații M – ortogonale este suma proiectorilor asociați fiecărei subspațiu. Din acest rezultat se deduce teorema fundamentală următoare:

Teoremă

Fie Fk un subspațiu de inerție maximală, atunci subspațiul de dimensiune k + 1 de inerție maximală este suma directă a lui Fk și a subspațiului de dimensiune 1 M -ortogonal lui Fk de inerție maximală: Soluțiile sunt "încuibate".

Demonstrație

Fie Ek + 1 un subspațiu de dimensiune k + 1. Cum dim E + 1 = k + 1 și dim = n – k avem:

dim căci dim = n+1 > n

Fie b un vector care să aparțină lui .

Punem Ek + 1 = b G unde G este suplementarul M – ortogonal al lui b în Ek + 1. G este deci de dimensiune k și F = Fk b . Avem: lk+1= Lb + LG lF = lb + lFx,

Cum Fk este subspațiul de dimensiune k de inerție maximală I G <Ifk, deci lk+1< lb+ lFk, adică Ik+1 < If și aceasta oricare ar fi Ek + 1.

Maximul de inerție este deci realizat pentru spațiul F = b Fk și b trebuie să fie astfel încât lb să fie maximal.

Pentru a obține Fk vom putea proceda din aproape în aproape, căutând mai întâi subspațiul de dimensiune 1 de inerție maximală, apoi subspațiul de dimensiune 1 M-ortogonal la precedentul de inerție maximală etc.

Axe principale, componente principale, factori principali

Trebuie să căutăm dreapta din Rp care trece prin g și maximizează inerția norului proiectat pe această dreaptă.

Fie a un vector purtat pe această dreaptă; proiectorul M – ortogonal pe dreaptă este atunci:

P = a(a'Ma)-1 a'M. Ținând cont de cele precedente, inerția norului proiectat pe această dreaptă este egală cu:

Urma VMP = Urma VMa(a'Ma) -1 a'Ma = Urma VMaa'M = Urma

sau deoarece a'MVMa este un scalar.

Matricea MVM se numește matricea inerție a norului. Ea definește forma pătratică a inerției, care, la toți vectorii a de M-normă 1, asociază inerția proiectată pe axa definită de a.

Matricea inerției nu se confundă cu matricea de dispersie – covarianță decât dacă M=1.

Pentru a obține maximul lui este suficient să anulam derivata acestei expresii in raport cu a:

De unde:

Sau VMA=λA căci M este regulată; deci a este un vector propriu al lui VM. Dacă este așa, criteriul a'MVMa este egal cu λ a' M a = λ. Trebuie deci ca λ să fie cea mai mare valoare proprie a lui VM.

Se poate aplica, de asemenea, rezultatul asupra maximizării catului a două forme pătratice.

Matricea VM, fiind M – simetrică, posedă vectori M – ortogonali doi câte doi.

De unde rezultata ca subspațiul Fk de dimensiune k este generat de cei k vectori proprii ai lui VM asociați la cele mai mari k valori proprii.

Se numesc axe principale de inerție vectorii proprii ai lui VM, cu M – norma egală cu 1. Ei sunt în număr de p. Un calcul elementar arată că axele principale sunt de asemenea -1 ortogonale. Se arată reciproc că axele principale sunt singurul sistem de vectori în același timp M și V-1 ortogonali.

Axei a i se asociază forma liniară u, coordonată M – ortogonală pe axa definită de a.

u este un element din Rp (dualul spațiului indivizilor) care definește o combinație liniară a variabilelor descriptive x1, x2,…, xp.

La axa principală a cu M – norma 1 i se asociază factorul principal u = Ma. întrucât a era vectorul propriu al lui VM VMa=λA => MVMa = λMa sau MVu=λu

Factorii principali sunt vectorii proprii M-1 – normați ai lui MV. Dacă Rp este înzestrat cu metrica M, dualul său trebuie înzestrat cu metrica M-1. Deci u' M-1 u = 1. Factorii principali sunt M-1 și V ortogonali.

Componente principale sunt variabilele ci (elemente ale lui Rn ) definite prin factorii principali:

Cj = XUi

Ci este vectorul care conține coordonatele proiecțiilor M – ortogonale ale indivizilor pe axa definită de ai cu ai unitar.

Dispersia unei componente principale este egală cu valoarea proprie λ:

V(ci)=M

Intr-adevăr, V(c) = c'Dc = u'X'DXu = u'Vu sau Vu – λM-1u deci V(c) = Ă u'M-1u = λ ci sunt combinații liniare ale lui x1, x2,…, xp de dispersie maximală cu restricția u'iM-1 Ui = 1

Componentele principale sunt ele însele vectori proprii ai unei matrice de mărime n.

MVu = X u se scrie MX'DXu= Au. Inmulțind la stânga cu X și înlocuind Xu prin c obținem XMX'Dc = Ac

Matricea XMX', notată W, este matricea al cărei termen general wij este produsul scalar

< ei,ej > = e'iMej

In practică se calculează toți u prin diagonalizarea lui MV, apoi se obțin toți c = Xu, axele principale neavând un interes practic.

Deoarece Xuj = Cj, înmulțind cei doi membri cu u'jM-1 și sumând după j obținem:

X=

Dar = 1 căci uj sunt M-1 ortonormați.

De aceea, este suficient să verificăm că:

uj = uj caci u’jM-1ui = δij

Deci X =

Se poate astfel reconstitui tabelul de date (centrat) cu ajutorul componentelor principale și ai factorilor principali.

Avem, de asemenea:

MV=

VM=

Când M = I, X = = unde Zj sunt vectorii proprii cu norma 1 ai lui XX' și vj sunt vectorii proprii ai lui X'X cu norma 1.

Dacă ne mulțumim cu suma primilor k termeni se obține atunci cea mai bună aproximație a lui X printr-o matrice de rang k în sensul celor mai mici pătrate (teorema lui Eckart-Joung).

Alegerea metricii M este totdeauna delicată; singur utilizatorul poate defini corect noțiunea de distanță între indivizi.

A lua M = I revine la a lucra cu matricea V a dispersiilor- covarianțelor, nu există atunci distincție între axe principale și factori principali. Totuși, rezultatele obținute nu sunt invariante dacă se schimbă liniar unitatea de măsură a variabilelor. Covarianțele sunt multiplicate printr-un factor k, dispersia printr-un factor k2 dacă se alege o unitate de măsură de k ori mai mică pentru variabile.

Alegerea lui M = D1/s2 este cea mai obișnuită și face ca distanțele între indivizi să fie invariante la transformările liniare separate ale fiecărei variabile și le eliberează de unitatea de măsură, ceea ce este interesant, în special când variabilele sunt eterogene.

Se știe atunci că folosirea acestei matrici echivalează cu reducerea variabilelor (împărțirea prin abaterea medie pătratică).

In practică se va lucra deci cu un tabel centrat redus Z asociat lui X și se va utiliza metrica M = I.

Cum matricea de dispersie-covarianță a datelor centrate reduse este matricea de corelații R, factorii principali vor fi deci vectorii proprii succesivi ai lui R, aranjați după ordinea descrescătoare a valorilor proprii.

Ru = λu cu ||u||2 = 1 .

Prima componentă principală c (și celelalte cu restricție de ortogonalitate) este combinația liniară de variabile centrate și reduse, având ca dispersie maximală c = Zu.

Avem în plus proprietatea următoare când se lucrează pe date centrate și reduse: c este variabila cea mai legată de xl , în sensul sumei pătratelor corelațiilor:

este maximal.

Demonstrație

Să presupunem variabilele centrate:

r2(c ; xj)= r2(c ;z j) unde zj = este variabila centrată redusă asociată lui xj:

r2(c ; zj)=

sau deci:

maximul acestui cât este deci atins pentru vectorul propriu c al lui ZZ'D asociat la cea mai mare valoare proprie a sa.

ZZ'Dc = λc

Se deduce că c este combinație liniară de zj deci că c = Zu;

ZZ'DZu = λZu

Deoarece Z'DZ = R, avem ZRu = λ Z u și dacă R este de rang p : Ru = λ u.

Interpretarea si calitatea rezultatelor:

ACP construiește variabile noi, artificiale, și reprezentări grafice care permit vizualizarea relațiilor între variabile cât și existența eventuală a unor grupuri de indivizi sau grupuri de variabile.

Interpretarea rezultatelor este o fază delicată care trebuie făcută respectând o cale ale cărei elemente sunt următoarele:

Interpretarea “interna”

Metoda cea mai naturală pentru a da o semnificație unei componente principale c este de a o lega de variabilele inițiale xJ calculând coeficienții de corelație liniară r(c, x*), interesându-ne coeficienții cei mai mari în valoare absolută.

Când se alege matricea D1/s2 ceea ce revine la a lucra cu date centrate reduse și deci la căutarea valorilor proprii și a vectorilor proprii ai lui R.

R(c,xj)=r(c,zj)=

Cum V(c) = λ, r(c,xj)= sau c = Zu unde u, factorul principal asociat lui c este vectorul propriu al lui R asociat la valoarea proprie X r(c; xJ) = u'Z'DzJ = unde (zj)'DZ este linia j a lui Z'DZ = R, deci (Zj)'DZu este componenta j a lui Ru. Cum Ru = λu, atunci:

r(c;xJ) = uj

Aceste calcule se efectuează pentru fiecare componentă principală. Pentru o pereche de componente principale c1 și c2, de exemplu, se sintetizează de obicei corelațiile pe o figură numită "cerc de corelații", unde fiecare variabilă xj este reprezentată printr-un punct de abscisă r(c1; xJ) și ordonată r(c2; x).

Astfel, figura de mai jos arată o primă componentă principală foarte corelată pozitiv cu variabilele 1, 2 și 3, anticorelată cu variabilele 4 și 5 și necorelată cu 6, 7 și 8,

Din contră, a doua componentă principală opune variabila 8 variabilelor 6 și 7. Ne vom abține să interpretăm asemănările dintre punctele ce reprezintă variabile, dacă acestea nu sunt aproape de circumferință.

In cazul matricei D1/s2, adică ACP pe date centrate reduse, cercul de corelații nu este numai o reprezentare simbolică comodă, este proiecția mulțimii de variabile centrate reduse pe subspațiul generat de c1 și c2. zJ fiind de dispersie 1, sunt situate pe suprafața sferei unitate a subspațiului de variabile (izomorf cu Rn)

Când toate variabilele xj sunt corelate pozitiv între ele, prima componentă principală definește un "factor de talie".

Se știe că o matrice simetrică care are toți termenii săi pozitivi admite un prim vector propriu ale cărui componențe sunt de același semn (teorema lui Frobenius). Dacă se aleg pozitive, prima componentă principală este atunci corelată pozitiv cu toate variabilele și indivizii sunt ordonați pe axa 1 după valorile crescătoare ale mulțimii de variabile (în medie).

Dacă în plus corelațiile între variabile sunt toate de același ordin, prima componentă principală este proporțională cu media variabilelor inițiale

A doua componentă principală diferențiază atunci indivizii de "talie" asemănătoare: se numește atunci factorul de "formă".

Interpretarea externa

Interpretările fondate pe observațiile precedente prezintă defectul de a fi tautologice: se explică rezultatele cu ajutorul datelor care au servit la obținerea lor. Riscăm să luăm drept o proprietate a datelor ceea ce nu este decât un artificiu datorat metodei. N-ar fi de mirare, de exemplu, să găsim corelații puternice între prima componentă principală c1 și anumite variabile deoarece c1 maximizează

Nu este deci sigur că am descoperit un fenomen semnificativ. Din contră, dacă găsim o corelație puternică între o componentă principală și o variabilă care n-a servit analizei, caracterul probant al acestui fenomen va fi desigur mult mai ridicat.

De unde practica curentă de a împărți în două grupuri mulțimea de variabile: de o parte variabilele active care servesc la determinarea axelor principale, de cealaltă parte "pasive" sau suplimentare care se leagă "posteriori" componentelor principale.

Vom distinge cazul variabilelor numerice suplimentare de cel al variabilelor calitative suplimentare. Variabilele numerice suplimentare pot fi plasate în cercurile de corelație: este suficientă calcularea coeficientului de corelație între fiecare variabilă suplimentară y și componentele principale c1, c2,…

O variabilă calitativă suplimentară corespunde la furnizarea unei partiții de n indivizi împărțiți în k categorii: putem face să apară prin simboluri diferite indivizii din fiecare categorie pe planurile principale. In general ne mulțumim să reprezentăm fiecare categorie prin centrul său de greutate. Putem apoi să măsurăm cu ajutorul raportului de corelație liniară corelația între o variabilă calitativă suplimentară și o componentă principală și să verificăm caracterul semnificativ cu ajutorul lui F. Fischer Snedecor.

Putem de asemenea să facem să nu participe la analiză o parte din indivizi (se calculează corelațiile fără ei) ceea ce va permite să verificăm pe acest eșantion-test ipoteze formulate conform unei ACP efectuate pe indivizi activi.

De altfel, putem imediat să poziționăm noi indivizi pe axele principale pentru că este suficient să calculăm combinații liniare ale caracteristicilor lor.

Calitatea ACP

Scopul metodei ACP fiind de a obține o reprezentare a indivizilor într-un spațiu de dimensiune mai mică decât p, întrebarea se pune de a aprecia pierderea informației survenite și de a ști câți factori trebuie reținuți.

Criteriul folosit de obicei este acela al procentajului inerției totale explicate. Se măsoară calitatea lui Fk prin:

Dacă, de exemplu, = 0,9 se observă clar că norul de puncte este aplatizat pe un subspațiu de două dimensiuni și că o reprezentare a norului într-un plan al primelor două axe principale va fi foarte nesatisfăcătoare.

Aprecierea procentului de inerție trebuie să facă să intervină numărul de variabile inițiale: un procent de 10% nu are aceeași semnificație pe un tabel de 20 variabile și pe un tabel de 100 variabile.

Procentul de inerție explicată este un criteriu global care trebuie să fie completat cu alte considerații.

Să presupunem că planul F2 al primelor două axe poartă o inerție totală importantă

(λ1+ λ2 ridicat) și că fn proiecție pe acest plan doi indivizi sunt foarte apropiați: Figura arată că această apropiere este iluzorie dacă cei doi indivizi se află depărtați in F.

Trebuie de fapt să punem în evidență pentru fiecare individ ei calitatea reprezentării sale.

Aceasta este adesea definită prin cosinusul unghiului între planul principal și vectorul ej. Dacă acest cosinus este mare, ei este apropiat de plan, vom putea atunci că examinăm poziția proiecției sale pe plan în raport cu alte puncte; dacă acest cosinus este mic ne vom abține de la orice concluzie.

(Nota autorului: Această măsură a cosinusului este cu atât mai bună cu cât ei este mai departe de g; dacă ei este aproape de g, valoarea cosinusului poate să nu fie semnificativă).

Deși mai puțin utilizată, o măsură legată de distanța între ei și Fk pare preferabilă: în particular cantitatea:

(semnul lui cIk+1)

care compară distanța între ei și Fk cu media pătratelor distanțelor tuturor in¬divizilor la Fk prezintă un interes statistic sigur (putem să o comparăm cu o variabilă Laplace – Gauss centrată redusă).

Câteva programe prevăd posibilitatea suprapozării reprezentării indivizilor (planul principal) și aceea a variabilelor (cercul de corelații) eventual cu înlănțuiri diferite.

O astfel de reprezentare simultană este fără sens și trebuie să fie interzisă: în realitate, indivizii și variabilele sunt elemente din spații diferite: dacă o variabilă definește o direcție în spațiul indivizilor ea nu poate fi rezumată la un punct șl nu putem să interpretăm o apropiere între un punct variabilă și un punct individ.

Cele două interpretări, indivizi și variabile se completează, dar nu trebuie suprapozate.

Numarul axelor de retinut

Principalul interes al ACP, constând în reducerea dimensiunii spațiului de indivizi, alegerea numărului de axe de reținut este un punct esențial, dar care, din păcate, nu are o soluție riguroasă.

Să remarcăm mai întâi că reducerea dimensiunii nu este posibilă decât dacă există redondanță între variabilele x1, x2,… xp; dacă acestea sunt independente, acesta este un rezultat foarte interesant în sine, dar ACP va fi ineficace în reducerea dimensiunii.

Criteriile teoretice constau în a determina dacă valorile proprii sunt semnificativ diferite între ele, plecând de la un anumit rang: dacă răspunsul este negativ se păstrează primele valori proprii.

Se face pentru aceasta ipoteza că cei n indivizi provin dintr-o extragere aleatoare într-o populație gaussiană unde λk+1= λk+2 =….=λp

Dacă aceasta este adevărat, media aritmetică a ultimelor k-p valori proprii și media lor geometrică g trebuie să fie puțin diferite;

Se admite ca c=(n-)(p-k)ln( urmeaza atunci o lege χ2 cu grade de liberatate; se va respinge ipoteza de agalitate a celor k-p valori proprii daca c este prea mare.

Se pot, de asemenea, construi intervale de încredere pentru valori proprii diferite, utilizând formulele lui T.W. Anderson dacă n este mare; dacă Ai este valoarea proprie a i – a a lui ACP, intervalul de încredere de 95% este dat de:

Aceste proprietăți nu sunt utilizabile din nefericire decât pentru matrice de dispersie în cazul gaussian p – dimensional. Ele nu se aplică deloc pentru matrice de corelații care reprezintă cazul cel mai frecvent în practică.

Criteriile empirice sunt în realitate singurele aplicabile, criteriul lui Kaiser fiind cel mai cunoscut.

Când se lucrează pe date centrate reduse se rețin componentele principale corespunzătoare valorilor proprii superioare lui 1; într-adevăr componentele prin¬cipale c fiind combinații liniare de zJ cu dispersia maximală V(c) = λ, singurele care prezintă interes sunt componentele care au dispersia superioară dispersiei variabilelor inițiale.

Se preconizează, de asemenea, să detectăm pe diagrama valorilor proprii exis¬tența unui "cot", ceea ce nu este prea ușor în practica. Testul lui Cattell este versiunea analitică pentru aceasta. Se calculează primele diferențe:

Λ1 – λ2 = ε1 si λ2 – λ3= ε2…

apoi diferențele următoare:

ε1-ε2=δ1 si ε2-ε3=δ2

Se rețin apoi valorile proprii λ1, λ2,…, λk astfel ca δ1,δ2, …, δk să fie toate pozitive.

Este obligatoriu să nu reținem decât componentele interpretabile și folosirea corelațiilor dintre variabilele active și suplimentare joacă aici un rol mare.

Matricea de corelație:

Am realizat matricea de corelație pentru cei 11 indicatori ale celor 13 companii de asigurări din România, folosind pachetul software SAS, cu mențiunea că matricea de corelație este simetrică față de diagonala principală.(figura 4)

Interpretarea rezultatelor matricei de corelație:

Cu cât un coeficient are valoarea mai apropiată de 1, cu atât variabilele corespunzătoare liniei și coloanei la a cărei intersecție se află valoarea respectivă, sunt mai puternic corelate.

Se observă în matricea de corelație obținută că există legături puternice între:

I1 (numărul de contracte aflate în vigoare la sfârșitul perioadei de raportare-buc) și I2 (primele brute subscrise); .

I1 (numărul de contracte aflate în vigoare la sfârșitul perioadei de raportare-buc) și I3 (prime brute câștigate); .

I1 (numărul de contracte aflate în vigoare la sfârșitul perioadei de raportare-buc) și I5 (prime brute încasate); .

I1 (numărul de contracte aflate în vigoare la sfârșitul perioadei de raportare-buc) și I6 (indemnizații brute plătite); .

I1 (numărul de contracte aflate în vigoare la sfârșitul perioadei de raportare-buc) și I7 (indemnizații nete plătite); .

I2 (prime brute subscrise) și I3 (prime brute câștigate); .

I2 (prime brute subscrise) și I5 (prime brute încasate); .

I2 (prime brute subscrise) și I6 (indemnizații brute plătite); .

I2 (prime brute subscrise) și I7 (indemnizații nete plătite);

I2 (prime brute subscrise) și I9 (rezerva netă de primă);

I3 (prime brute câștigate) și I5 (prime brute încasate);

I3 (prime brute câștigate) și I6 (indemnizații brute plătite);

I3 (prime brute câștigate) și I7 (indemnizații nete plătite);

I5 (prime brute încasate) și I6 (indemnizații brute plătite);

I5 (prime brute încasate) și I7 (indemnizații nete plătite);

I5 (prime brute încasate) și I9 (rezerva netă de primă);

I6 (indemnizații brute plătite) și I7 (indemnizații nete plătite);

I8 (total rezerve tehnice-val netă) și I10 (rezervă netă de daune avizate);

Observăm că cea mai puternică legătură între doi indicatori este legătura dintre I2 și I5!

Se observă în matricea de corelație obținută că există legături slabe între:

I1 (numărul de contracte aflate în vigoare la sfârșitul perioadei de raportare-buc) și I10 (rezerva netă de daune avizate);

I2 (prime brute subscrise) și I10 (rezerva netă de daune avizate);

I3 (prime brute câștigate) și I10 (rezerva netă de daune avizate); .

I4 (prime brute subscrise cedate în reasigurare) și I8 (total rezerve tehnice-val netă);

I4 (prime brute subscrise cedate în reasigurare) și I9 (rezerva netă de primă);

I4 (prime brute subscrise cedate în reasigurare) și I10 (rezerva netă de daune avizate);

I4 (prime brute subscrise cedate în reasigurare) și I11 (rezerva netă de daune neavizate);

Observăm că cea mai slabă legătură între doi indicatori este legătura dintre I4 și I9!

Concluzii:

Matricea de corelație obținută este aproape complet corelată.

Indicatorul I4 este destul de slab corelat cu restul indicatorilor.

Indicatorul 1 este cel mai puternic corelat cu restul indicatorilor.

Vectorii proprii:

În urma analizării datelor, am obținut cu ajutorul pachetului software SAS 9.3, matricea vectorilor proprii ce se regăsesc în figura 5.

Valorile obținute în această matrice sunt folosite pentru a scrie ecuația componentelor și pentru a calcula matricea factor.

Am calculat în SAS 9.3 valorile proprii ce ne arată cantitatea de informație extrasă de fiecare componentă principală.(figura 6)

Tabelul valorilor proprii (eigenvalues) conține, pe lângă valoarea efectivă, calculul necesar identificării varianțelor explicate de componentele respective. Suma celor 11 valori proprii este egală cu 11 (numărul de variabile).

Proporția de varianță explicată de o componentă este prin urmare raportul dintre valoarea proprie respective și 11 (reamintind că fiecare valoare proprie reprezintă partea de varianță explicată, captată de variabila respectivă).

Putem observa că primele 2 valori proprii conțin aproximativ 89,93% din informația totală , deci putem considera aceste 2 valori proprii ca și componentele principale w1 și w2, conform criteriului acoperirii totale, dar și conform criteriului lui Kaiser(8,70>1; 1.18>1).

În figura 7, am reprezentat Scree Plot.

Reprezentarea grafică a componentelor principale:

Primul factor este corelat pozitiv cu indemnizațiile nete plătite, dar și cu cele brute, primele brute încasate, subscrise, câștigate și cele cedate în reasigurare. Nu se corelează negativ cu niciunul dintre cei 11 indicatori. Vom numi acest factor “venituri”.

Al doilea factor este puternic corelat pozitiv cu rezerva netă de daune avizate și se corelează, dar mai slab și cu rezerva netă de daune neavizate și cu valoarea netă a totalului rezervelor tehnice, dar și cu rezerva netă de primă. Acest factor este negativ corelat cu numărul de contracte în vigoare la sfârșitul perioadei de raportare, primele brute câștigate, dar și cu primele brute subscrise cedate în reasigurare. Vom numi acest factor “rezerve”.

*Reprezentarea grafică a primelor două componente principale, F1 și F2, a fost realiză în XLSTAT și se regăsește în figura 8, unde F1=Component 1, iar F2=Component 2:

3.Analiza Cluster

Analiza claselor ierarhice urmărește gruparea indivizilor descriși de aceleași variabile în mulțimi omogene, astfel încât indivizii aceleiași clase să fie cât mai similari, iar între cei din clase diferite să existe diferențe cât mai mari. Putem clasifica companiile de asigurări după nivelul de dezvoltare, în raport cu variabilele impuse conform metodelor Ward, Complete și Centroid. Toate aceste tehnici au la bază o matrice de proximitate – matricea distanțelor euclidiene(simetrică, având 0 pe diagonala principală), care măsoară disimilaritatea dintre indivizi și/sau obiecte(mulțimi de indivizi).

a)Metoda Ward

Această metodă evaluează distanța dintre două clustere ca sumă totală a pătratelor abaterilor la nivelul configurației cluster rezultate din comasarea celor două clustere pentru care se evaluează distanța. Spre deosebire de celelalte metode, metoda Ward exprimă distanțele din punct de vedere al minimizării variabilității intracluster sau echivalent, din punct de vedere al maximizării variabilității intercluster. Am obținut în SAS dendograma de tip Ward reprezentată pe orizontală:

Metoda de alegere a numărului de clustere:

În alegerea numǎrului de clase trebuie sǎ echilibrǎm cele douǎ obiective ale analizei claselor ierarhice. Pentru maximizarea diferențelor dintre clase este oportunǎ alegerea unui numǎr mic de clase, decizie contradictorie cu o omogenitate ridicatǎ în cadrul fiecǎrei clase.

Se efectuează tăietura acolo unde se observă cel mai mare salt al distanței de agregare (prima oară).

Conform acestei metode, primul salt cel mai mare are loc între 0.04 și 0.05, ceea ce ne determină să facem următoarea tăietură:

Din această dendogramă, rezultă că datele sunt cel mai bine reprezentate de 5 clustere. Le vom numi generic A, B,C, D și E, astfel:

A: Allianz Țiriac și Groupama

B: Generali, UNIQA și Omniasig

C: Asirom și Carpatica Asig

D: Astra și Euroins

E: Eureko, Fata Asigurari, Garanta, Platinum

Aceste companii au fost grupate în cele 5 clustere în funcție de valorile indicatorilor de care sunt descrise.

Clusterul D este format din companiile Astra și Euroins și se observă din matricea TxN că aceste companii au cele mai multe contracte în vigoare la sfărșitul perioadei de raportare, dar au obținut și cele mai multe prime brute subscrise, prime brute câștigate și prime brute încasate. Totodată, cele mai mari valori ale indemnizațiilor nete plătite, se regăsesc la companiile menționate ulterior.

Clusterul E este format din companiile Eureko, Fata Asigurări, Garanta și Platinum. Ceea ce au în comun aceste firme, este faptul că toate

În output-ul următor, se observă modul de formare al clusterelor:

În următorul tabel rezultat în R, observăm din ce cluster face parte fiecare companie de asigurări.

b)Metoda Complete

În metoda de clusterizare pe baza legăturii complete, numită și metoda celui mai îndepărtat vecin (distanței maxime), distanța D(r,s) se calculează:

D(r,s) = max {d(i,j)} ,unde elementul i este din grupa r, iar elementul j este din grupa s. În acest caz distanța dintre două grupe este dată de valoarea celei mai lungi legături dintre grupe. La fecare etapa a grupării ierarhice spațiale, grupele r și s, pentru care distanța D(r,s) este maximă, sunt grupate (unite).

Am obținut în SAS dendograma de tip Complete reprezentată pe orizontală:

Metoda de alegere a numărului de clustere:

În alegerea numǎrului de clase trebuie sǎ echilibrǎm cele douǎ obiective ale analizei claselor ierarhice. Pentru maximizarea diferențelor dintre clase este oportunǎ alegerea unui numǎr mic de clase, decizie contradictorie cu o omogenitate ridicatǎ în cadrul fiecǎrei clase.

Se efectuează tăietura acolo unde se observă cel mai mare salt al distanței de agregare (prima oară).

Conform acestei metode, primul salt cel mai mare are loc între 1,1 și 1,6, ceea ce ne determină să facem următoarea tăietură:

În urma utilizării acestei metode, se obțin următoarele 3 clustere, pe care le-am numit generic A, B și C:

A: Allianz Țiriac, Groupama, Generali și UNIQUA

B: Eureko, Fata Asigurări, Garanta și Platinum

C: Asirom, Carpatica Asigur, Omniasig, Astra și Euroins

Vom observa în output-ul următor modul de formare al clusterelor:

În următorul tabel rezultat în R, observăm din ce cluster face parte fiecare companie de asigurări.

c)Metoda Centroidului

Metoda centroidului este metoda după care distanța dintre două clustere este măsurată ca distanță între centroizii celor două clustere. În acest fel, două clustere sunt considerate mai apropiate sau mai depărtate, în funcție de gradul de apropiere sau de depărtare dintre centroizii lor.

Centroidul sau centrul de greutate al unui cluster reprezintă obiectul, real sau abstract, ale cărui caracteristici au ca valori chiar mediile caracteristicilor obiectelor care compun clusterul respectiv.

Definiție: Metoda centroidului evaluează distanța dintre două clustere ca distanță între centroizii celor două clustere.

Am obținut în SAS dendograma de tip Centroid reprezentată pe orizontală:

Metoda de alegere a numărului de clustere:

În alegerea numǎrului de clase trebuie sǎ echilibrǎm cele douǎ obiective ale analizei claselor ierarhice. Pentru maximizarea diferențelor dintre clase este oportunǎ alegerea unui numǎr mic de clase, decizie contradictorie cu o omogenitate ridicatǎ în cadrul fiecǎrei clase.

Se efectuează tăietura acolo unde se observă cel mai mare salt al distanței de agregare (prima oară).

Conform acestei metode, primul salt cel mai mare are loc între 0.53 și 0.6, ceea ce ne determină să facem următoarea tăietură:

În urma utilizării acestei metode, se obțin următoarele 4 clustere, pe care le-am notat generic cu A, B, C și D:

A: Allianz Țiriac, Groupama și Generali

B: Omniasig și UNIQA

C: Asirom, Carpatica Asig, Astra și Euroins

D: Eureko, Fata Asigurări, Garanta și Platinum

În output-ul următor pe care l-am obținut în SAS, se observă modul de formare al clusterelor:

În următorul tabel rezultat în R, observăm din ce cluster face parte fiecare companie de asigurări.

Alegerea celei mai bune soluții:

Pentru a alege cea mai bună soluție, calculăm coeficientul Silhouette pentru cele trei metode folosite (Complete, Centroid și Ward)

Graficul Silhouette arată cum sunt încadrate obiectele în clase. Cu cât valorile obiectelor se apropie de 1, cu atât este încadrat corespunzător în clasa respectivă. Cu cât se apropie valoarea de 0, putem știi că obiectul putea fi încadrat și într-o altă clasă, mai corespunzător. Dacă avem valori negative, putem întelege că obiectul nu este încadrat în clasa corespunzatoare lui.

Este propusă (Rousseeuw – 1987) următoarea interpretare a coeficientului siluetă după valoarea sa:

• 0.71 – 1.00 s-a determinat o structură puternică (bine definită) de clustere;

• 0.51 – 0.70 s-a determinat o structură acceptabilă

• 0.26 – 0.50 structura determinată este slabă, poate fi artificială

• ≤ 0.25 structura determinată este artificială.

d)Metoda K-Means

Clusterizarea folosind algoritmiul de partiționare K-means. Algoritmii de clasificare prin partiționare furnizează soluții unice. Spre deosebire de metoda de analiză cluster de tip ierarhic, algoritmii de partiționare sunt mult mai performanți și se presupune că se știe numărul de clase k aprioric (în funcție de scopul urmărit). Folosind această metodă de partiționare, trebuie mai întâi să stabilim inițializatorii de clase (seeds) și modalitățile de alocare a formelor la clase. Algoritmul K-means este o metodă de împărțire a unui set de date într-un număr de clustere k, dat de utilizator.Această metodă de analiză cluster are scopul de a împărți n observații în k clase în care fiecare observație aparține clasei cu media cea mai apropiată. Mai exact algoritmul asignează k centre ale claselor în n puncte. Dacă privim observațiile {x1,x2…xn}, ca fiind vectori de dimensiune T, atunci clusterizarea k-means presupune împărțirea acestui set în k partiții w={w1,w2..wk} astfel încât să se minimizeze suma pătratelor distanțelor din interiorul clusterului. În prima etapă, se realizazează inițializarea care constă în alegerea numărului de clase. În etapa următoare are loc iterarea care presupune:

a)Arondarea celor t-k forme rămase la cele k clase în funcție de cea mai mica distanță de la fiecare dintre aceștia la inițializatorii clasei.

b)Se calculează centroizii celor k clase

c)Se arondează toate cele T observații în funcție de distanța dintre ele și centroizii calculați anterior

d)Se recalculează centroizii claselor corespunzătoare acestei noi arondări, apoi se reia algoritmul de la pasul c)

.

4.Evaluarea riscului la nivelul unui asigurat

Decizii în condiții de risc și incertitudine

Deciziile unui agent economic pot fi luate în 2 tipuri de condiții care caracterizează mediul economic:

Condiții de certitudine: rezultatele așteptate a unei alegeri a agentului economic sunt caracterizate de valori certe/sigure.

Condiții de risc și incertitudine: rezultatele așteptate a unei alegeri a agentului economic nu sunt sigure, dar se pot identifica alternativele posibile împreună cu probabilitățile de realizare ale acestora. Probabilitățile de realizare sunt stabilite subiectiv sau obiectiv folosindu-se eventual experiența din trecut a agenților economici.

Pentru a caracteriza atitudinea unui agent economic față de o economice, vom utiliza o variabilă aleatoare

Definiția 1: Se numește loterie mulțimea de rezultate posibile în care fiecare rezultat se produce cu probabilitatea .

Vom considera un agent economic ce desfășoară o activitate economică riscantă și care în urma unei decizii se confruntă cu mai multe loterii posibile , vom nota cu L mulțimea loteriilor posibile pentru agentul respectiv.

. Pe L definim o relație de preferință asupra loteriilor notată

Axiomele relației de preferință:

Relația de preferință este completă:

-completitudine

Relația de preferință este tranzitivă:

-tranzitivitate

Relația de preferință este continuă:

-continuitate: Mulțimile de contur inferior și superior sunt mulțimi închise.

Fie

Relația de preferință este monotonă:

-monotonicitate

Relația de preferință este substituibilă:

-substituibilitate

Definiția 2: Valoare așteptată:

Fie . Se numește valoare așteptată(speranța matematică) a loteriei :

Definiția 3: Utilitatea așteptată:

Fie și funcția de utilitate Se numește utilitatea așteptată a loteriei l valoarea: . O astfel de funcție de utilitate se numește funcție de utilitate așteptată sau funcție de utilitate de tip VNM.

Dacă relația de preferință satisface cele 5 axiome, atunci relației îi poate fi asociată o funcție de utilitate așteptată.

Criterii de ierarhizare a loteriilor

Criteriul valorii așteptate/speranței matematice a loteriilor:

Fie și . Conform acestui criteriu, agentul economic va alege loteria cu valoarea așteptată mai mare.

Dacă atunci .

Criteriul utilității așteptate a loteriilor:

Conform acestui criteriu, agentul economic preferă loteria cu utilitatea așteptată mai mare.

Considerăm un conducător auto ce deține un autoturism în valoare de 20.000 €. În cazul în care s-ar produce anumite calamități naturale (inundații, cutremure etc.) și autoturimul ar suferi o daună totală, valoarea acestuia ar scădea la 1000 €. Probabilitatea ca aceste calamități să afecteze autoturismul este de . Individul evaluează riscul cu ajutorul funcției de utilitate: , unde reprezintă valoarea finală a autoturismului.

În urma contractului de asigurare pe care conducătorul l-a încheiat cu compania CASCO, acesta prevede o rambursare R în caz de accident în schimbul unei prime fixe P. Un contract este de forma (P,R). Avem asigurare totală doar dacă R=19.000 €.

Cerinte:

Determinați și reprezentați grafic în planul (P,R) ecuațiile curbelor de izoprofit pentru compania de asigurări CASCO și ale curbelor de izoutilitate pentru conducătorul auto.

Arătați că cel mai bun contract pentru conducătorul auto și care conduce la un profit așteptat nul pentru compania de asigurări , este un contract de asigurare totală.

Societatea de asigurări suportă un cost fix egal cu 5 € pentru scrierea contractului. Să se arate că, cel mai bun contract care garantează un profit așteptat nul pentru compania de asigurări CASCO este un contract de asigurare totală. Să se arate că acest individ preferă acest contract decât să nu se încheie un contract de asigurare.

Rezolvare:

Construim loteria pentru compania de asigurări , după care vom calcula valoarea așteptată pentru aceasta:

Fie , .

Am reprezentat grafic curbele de izoprofit care sunt crescătoare și am reprezentat de asemenea și sensul de creștere al acestora.

Acum vom construi loteria pentru conducătorul auto pentru a reprezenta curba de izoutilitate:

-calculăm utilitatea așteptată:

Fie

.

b)Vom demonstra că cel mai bun contract pentru conducătorul auto este un contract de asigurare totală.

-aplicăm condițiile necesare de optim:

Vom reface loteria pentru compania de asigurări si vom scădea 5 u.m.

-aplicăm condițiile necesare de optim:

Vom demonstra că acest conducător auto preferă să încheie un contract de asigurare cu compania CASCO.

-dacă se asigură cu contractul (P,R)=(9505,19000) determinat mai sus, va rezulta următoarea loterie:

-dacă nu se asigură cu acest contract, atunci:

Concluzie!

Comparând rezultatele utilităților așteptate obținute, se observă că 9,25>8,405, rezultă prin urmare că acest conducător auto preferă să se asigure cu un contract de asigurare CASCO.

Din cauza legăturii puternice dintre indicatori, am hotărât să reduc numărul acestora și se reevaluez analiza componentelor principale.

Am realizat matricea de corelație pentru indicatorii I1, I4, I8, I10 și I11, indicatori ai celor 13 companii de asigurări din România, folosind pachetul software Microsoft Office Excel, cu mențiunea ca matricea de corelație este simetrică față de diagonala principală.

Se observă că cea mai puternică legătură între doi indicatori este legătura dintre I8 și I10.

Vectorii proprii:

În urma analizării datelor, am obținut cu ajutorul pachetului software SAS, matricea vectorilor proprii ce se regăsesc în figura următoare:

Valorile obținute în această matrice sunt folosite pentru a scrie ecuația componentelor și pentru a calcula matricea factor.

Am calculat în SAS valorile proprii ce ne arată cantitatea de informație extrasă de fiecare componentă principală.

Scree plot este o reprezentare grafică a valorilor proprii atașate matricei de covarianță a variabilelor inițiale. Putem observa porțiunea care are panta cea mai mare, iar numărul de componente luat in studiu este dat de numărul de valori proprii ce raman deasupra unei drepte paralele cu axa abciselor. La noi se identifica 2 componente principale. (Criteriul grohotisurilor).

Variance Explained exprimă legatura dintre componentele principale și varianța cumulată pe care acestea o conservă. Prima componentă principală reține 70,69% iar cea de-a doua 17,22%.

W1=3,53

W2=0,86

Primul factor este corelat pozitiv cu indemnizațiile nete plătite, dar și cu cele brute, primele brute încasate, subscrise, câștigate și cele cedate în reasigurare. Nu se corelează negativ cu niciunul dintre cei 5 indicatori. Vom numi acest factor “venituri ale companiei”.

Al doilea factor este puternic corelat pozitiv cu rezerva netă de daune avizate și se corelează, dar mai slab și cu rezerva netă de daune neavizate și cu valoarea netă a totalului rezervelor tehnice, dar și cu rezerva netă de primă. Acest factor este negativ corelat cu numărul de contracte în vigoare la sfârșitul perioadei de raportare, dar și cu primele brute subscrise cedate în reasigurare.

Reprezentarea grafică a componentelor principale:

Din reprezentarea de mai sus observăm următoarele:

Indicatorii I10(rezerva netă de daune avizate), I11(rezerva netă de daune neavizate) și I8(total rezerve tehnice-val netă) sunt pozitiv puternic corelați cu prima componentă principală W1 și slab corelați cu componenta principală W2. Vom numi W1 =componenta rezervelor.

Indicatorii I1(număr de contracte în vigoare la sfârșitul perioadei de raportare-buc) și I4(prime brute subscrise cedate în reasigurare) sunt pozitiv corelați cu componenta principală W1 și negativ corelați cu componenta principală W2. Vom numiu

Similar Posts