Modelarea Si Predictia Falimentului Utilizand Tehnici de Inteligenta Computationala

TEZĂ DE DOCTORAT

MODELAREA ȘI PREDICȚIA FALIMENTULUI UTILIZÂND TEHNICI DE INTELIGENȚĂ COMPUTAȚIONALĂ

INTRODUCERE

Interesul în predicția dificultăților financiare ale firmelor, deși a fost mult timp limitat la mediul academic, a sfârșit prin a capta interesul tot mai multor profesioniști, incluzând practicieni și autorități de reglementare.

Aziz & Dar (2006) au subliniat faptul că „economiile globale au devenit prudente în ceea ce privește riscurile de faliment ale companiilor, în special după dispariția companiilor gigant, precum WorldCom și Enron”.

Falimentul firmei nu implică numai pierderi financiare grave la creditorii săi, dar are, de asemenea, un cost ridicat pentru societate și economia țării.

Nu întâmplător, predicția falimentului a fost un subiect de cercetare activă în mediul de afaceri al ultimelor decenii. În zilele noastre, există, de asemenea, o preocupare în creșterea cu privire la contagiunea transfrontalieră declanșată de recenta criză financiară și efectele sale de domino pe piața mondială.

Tehnicile aplicate la problema predicției eșecului în afaceri pot fi grupate în două categorii: metode statistice de estimare parametrică și metode bazate pe Inteligența Computațională.

În această lucrare vom aborda predicția falimentului prin compararea acestor două categorii de metode, criteriul ce va sta la baza acestei comparații îl reprezintă performanțele predictive ale modelelor construite pe baza lor.

O serie de metode statistice clasice pentru estimarea eșecului în afaceri au apărut pentru prima dată la sfârșitul anilor 1960 și au fost rafinate în anii 1970. Aceste metode au fost în principal reprezentate de analiza discriminantă unidimensională, modele ale gradului de risc, analiza discriminantă multidimensională și modele cu probabilități condiționate (logit, probit, modele probabilistice liniare).

Modelele statistice clasice utilizează date transversale și constau dintr-un procedeu conceput pentru a clasifica firmele în două grupuri, solvabile și insolvabile, pe baza unui set de indici financiari.

În ciuda perfecționării lor în timp, metodele statistice au fost limitate de ipotezele riguroase ale statisticii tradiționale, cum ar fi liniaritatea, normalitatea distribuției erorilor, independența între variabilele predictor și specificarea ex-ante a formelor funcționale ce descriu relația dintre variabila dependentă și predictori.

În ultimele trei decenii, noi tehnici bazate pe Inteligența Computațională au devenit din ce în ce mai populare și au fost aplicate cu succes la predicția falimentului.

Aceste noi metode predictive se bazează pe învățarea inductivă, o tehnologie care extrage automat cunoștințele din datele de instruire și sunt capabile să remedieze multe dintre deficiențele asociate cu tehnicile tradiționale.

Acest lucru se datorează faptului că ele învață relația funcțională subiacentă direct din date, minimizând astfel necesitatea unor informații apriori cu privire la distribuția de probabilități a datelor de observație sau la specificarea formei funcționale a modelului.

Tehnicile din această categorie includ metode de tip Soft Computing (rețele neuronale artificiale, sisteme de inferență fuzzy, algoritmi genetici), hibridizări ale acestora (neuro-fuzzy, neuro-genetice, fuzzy-genetice), precum și alte metodologii de calcul inteligente, cum ar fi mașinile cu vectori suport, arborii de decizie consolidați (boosted decision trees), pădurile aleatoare (random forests), etc.

Cele mai multe abordări predictive bazate pe Inteligența Computațională sunt neliniare în natură și s-au dovedit a fi aproximatori universali, în sensul că sunt capabile să aproximeze, din date de intrare-ieșire, orice aplicație funcțională măsurabilă Borel, cu orice grad de precizie dorit, cu condiția să se utilizeze configurația și setările adecvate și să fie furnizate suficiente date.

În plus, ele nu necesită ipoteze cu privire la distribuția de probabilități și evită problemele legate de coliniaritate, oferind astfel analistului financiar o metodă mai sigură pentru a face previziuni ale viitoarelor evenimente financiare.

Un alt dezavantaj major asociat cu utilizarea metodelor statistice clasice pentru predicția eșecului în afaceri este acuratețea lor predictivă relativ redusă.

Multe studii experimentale susțin concluzia că, metodele bazate pe Inteligența Computațională permit obținerea unor performanțe predictive mai bune decât metodele tradiționale de estimare statistică.

În literatura empirică privind predicția falimentului au fost create metodologii diferite pentru modelarea predicției falimentului. Kasgari et al.(2013) subliniază faptul că „fiecare dintre aceste metode are propriile limite, dar ipoteza principală în cele mai multe dintre ele este că firmele pot fi clasificate în două grupe, adică firme solvabile și insolvabile”. Oricum, unele sugestii au fost furnizate cu privire la definirea a mai mult de două grupe în funcție de nivelul de risc.

Dun & Bradstreet (1998) au subliniat faptul că „determinarea motivului real al declanșării falimentului și a problemelor financiare nu este o sarcină ușoară”. În unele cazuri, cauzele premergătoare falimentului pot fi specificate prin verificarea rapoartelor și înregistrărilor financiare.

Cele mai multe dintre modelele de predicție a eșecului în afaceri apelează la o serie de indici financiari cu rol de predictori. Utilizarea indicilor financiari pentru clasificarea companiilor drept solvabile sau insolvabile se bazează pe puterea discriminatorie a informațiilor contabile, care este descrisă în termeni de acuratețe predictivă.

Selecția predictorilor care induc cea mai semnificativă acuratețe predictivă într-un model de clasificare a fost abordată intens în numeroase studii.

Cel mai frecvent, indicii financiari selectați ca predictori în modelele de predicție a falimentului ar trebui să acopere în mod adecvat trei domenii: profitabilitatea, eficiența actului de management și solvabilitatea.

Cu toate acestea, lipsa unei teorii cuprinzătoare a eșecului în afaceri a dus la selecția unei mari varietăți de variabile financiare în predicția insolvenței. Nici un acord general nu a fost atins cu privire la alegerea celor mai adecvați indici financiari pentru estimarea riscului de faliment al firmelor.

Cei mai mulți cercetători au început cu un număr mare de variabile și au aplicat apoi diferite tehnici statistice (precum analiza factorială) sau proceduri în etape, pentru a reduce numărul de predictori.

În urma a numeroase studii empirice, s-a configurat totuși un set de indici financiari a căror utilizare în diverse modele de predicție a insolvenței a devenit tot mai populară. Acest set de indici financiari va fi utilizat și în cadrul aplicației din prezenta teză.

Demyanyk & Hasan (2009) au subliniat, faptul că „în cele mai multe cazuri analizate, modelele care combină mai multe tehnici statistice au o predicție mult mai bună decât modelele statistice individuale”.

De fapt, tehnicile de Inteligență Computațională sunt la rândul lor ancorate într-o metodologie statistică de tip inferențial, dar combină principiile acestei metodologii cu principiile sistemelor adaptive și ale sistemelor cu auto-organizare, proprii inteligenței artificiale.

Datorită performanțelor lor predictive net superioare celor ale metodelor statistice clasice, ele au devenit recent foarte populare.

Cercetarea întreprinsă în această teză se concentrează în special pe compararea performanțelor predictive ale diferitelor metode de clasificare utilizate în predicția riscului de faliment, în condițiile utilizării unui set de indici financiari prestabilit.

Abordarea este de tip multi- și inter-disciplinar, acoperind domenii precum teoria economico-financiară, teoria statistică a estimației, inteligența computațională și instrumentele software necesare în implementarea aplicațiilor.

O primă motivație a unei astfel de abordări interdisciplinare pornește de la obiectivul comparării tehnicilor de Inteligență Computațională cu metodele clasice de estimare statistică, în scopul evaluării performanțelor predictive ale diferitelor modele ce pot fi utilizate în predicția falimentului firmelor.

Una din particularitățile studiului propus este dată de analizarea unui eșantion de 130 de firme românești listate la Bursa de Valori București, într-o perioadă instabilă, respectiv 2010-2013, afectată de criza financiară declanșată la nivel global în 2007 și resimțită în România începând cu 2008.

Teza se compune din șapte capitole și este structurată în două părți, la care se adaugă concluziile și direcțiile de cercetare, lista de abrevieri, indexul tabelelor, reprezentărilor grafice, figurilor, anexa.

Contribuțiile proprii ating, pe de o parte, anumite aspecte teoretice, prin raportarea critică la literatura de specialitate, iar pe de altă parte utilizează cunoștintele teoretice și metodologice pentru finalizarea unei etape experimentale consistente, constând în aplicarea celor două clase de metode pentru predicția intrării în insolvență a firmelor cuprinse în studiu.

Structura tezei este prezentată în continuare:

Partea I – reprezintă fundamentarea teoretică a cercetării și descrie stadiul actual al cunoașterii, cuprinzând șase capitole;

Partea a II-a – reprezintă cercetarea personală și este prezentată în ultimul capitol (Capitolul 7).

În cele ce urmează va fi realizată o scurtă prezentare a conținutului tezei.

Pentru o înțelegere corectă a evaluării performanțelor predictive ale diferitelor modele ce pot fi utilizate în predicția falimentului firmelor, am optat ca în prima parte a tezei să fie dedicat câte un capitol pentru metodele clasice de estimare statistică, pentru tehnicile de Inteligență Computațională și pentru evaluarea și examinarea performanței unui model de clasificare, aceste metode fiind utilizate în partea a doua a tezei. Menționăm că, fiecare capitol din prima parte conține și o raportare la literatura de specialitate.

În primul capitol vom expune importanța și necesitatea predicției falimentului și a crizelor financiare, ilustrând particularitățile falimentului și direcțiile generale prevăzute de Acordurilor Basel, urmând ca în al doilea capitol să exemplificăm cele mai cunoscute modelele statistice clasice de predicție a falimentului bazate pe metoda scorurilor.

În cel de-al treilea capitol am rezervat câte un subcapitol pentru fiecare metodă clasică de estimare statistică utilizate în predicția falimentelor, respectiv analiza discriminantă, regresia logistică, clasificatorul bayesian naiv și arborele de decizie.

În capitolul patru abordăm tehnicile propuse pentru evaluarea și examinarea performanței unui model de clasificare, dedicând câte un subcapitol pentru prezentarea matricii de confuzie și, respectiv analiza ROC.

În capitolul cinci vom prezenta cele două tehnici de clasificare bazate pe Inteligența Computațională cu cea mai mare acuratețe predictivă, respectiv rețelele neuronale și mașinile cu vectori suport.

Cel de-al șaselea capitol care încheie prima parte a tezei este dedicat sistemelor de avertizare timpurie și tehnologiilor de supraveghere care în ultimul deceniu au avut un rol important în prevenirea crizelor financiare.

Partea a doua conține ultimul capitol al tezei. În primă fază este prezentat eșantionul format din firme românești listate la bursă, precum și indicii financiari cu rol de predictori.

Scopul principal al cercetării nu constă propriu-zis în selectarea celor mai buni indici financiari cu rol de predictori, ci în compararea performanțelor predictive ale tehnicile de Inteligență Computațională în raport cu metodele clasice de estimare statistică, în condițiile utilizării unui set de indici financiari prestabilit.

Performanțele predictive și interpretarea rezultatelor aplicării fiecărei metode de clasificare sunt detaliate separat în câte un subcapitol. În ultimul subcapitol sunt prezentate concluziile comparării tehnicilor de Inteligență Computațională cu meodele clasice de estimare statistică, în scopul evaluării performanțelor predictive ale diferitelor modele ce pot fi utilizate în predicția falimentului firmelor.

Una din particularitățile studiului propus este dată de analizarea unui eșantion de 130 de firme românești listate la Bursa de Valori București, într-o perioadă instabilă, respectiv 2010-2013, afectată de criza financiară declanșată la nivel global în 2007 și resimțită în România începând cu 2008.

Teza se compune din șapte capitole și este structurată în două părți, la care se adaugă concluziile și direcțiile de cercetare, lista de abrevieri, indexul tabelelor, reprezentărilor grafice, figurilor, anexa.

Contribuțiile proprii ating, pe de o parte, anumite aspecte teoretice, prin raportarea critică la literatura de specialitate, iar pe de altă parte utilizează cunoștintele teoretice și metodologice pentru finalizarea unei etape experimentale consistente, constând în aplicarea celor două clase de metode pentru predicția intrării în insolvență a firmelor cuprinse în studiu.

Structura tezei este prezentată în continuare:

Partea I – reprezintă fundamentarea teoretică a cercetării și descrie stadiul actual al cunoașterii, cuprinzând șase capitole;

Partea a II-a – reprezintă cercetarea personală și este prezentată în ultimul capitol (Capitolul 7).

În cele ce urmează va fi realizată o scurtă prezentare a conținutului tezei.

Pentru o înțelegere corectă a evaluării performanțelor predictive ale diferitelor modele ce pot fi utilizate în predicția falimentului firmelor, am optat ca în prima parte a tezei să fie dedicat câte un capitol pentru metodele clasice de estimare statistică, pentru tehnicile de Inteligență Computațională și pentru evaluarea și examinarea performanței unui model de clasificare, aceste metode fiind utilizate în partea a doua a tezei. Menționăm că, fiecare capitol din prima parte conține și o raportare la literatura de specialitate.

În primul capitol vom expune importanța și necesitatea predicției falimentului și a crizelor financiare, ilustrând particularitățile falimentului și direcțiile generale prevăzute de Acordurilor Basel, urmând ca în al doilea capitol să exemplificăm cele mai cunoscute modelele statistice clasice de predicție a falimentului bazate pe metoda scorurilor.

În cel de-al treilea capitol am rezervat câte un subcapitol pentru fiecare metodă clasică de estimare statistică utilizate în predicția falimentelor, respectiv analiza discriminantă, regresia logistică, clasificatorul bayesian naiv și arborele de decizie.

În capitolul patru abordăm tehnicile propuse pentru evaluarea și examinarea performanței unui model de clasificare, dedicând câte un subcapitol pentru prezentarea matricii de confuzie și, respectiv analiza ROC.

În capitolul cinci vom prezenta cele două tehnici de clasificare bazate pe Inteligența Computațională cu cea mai mare acuratețe predictivă, respectiv rețelele neuronale și mașinile cu vectori suport.

Cel de-al șaselea capitol care încheie prima parte a tezei este dedicat sistemelor de avertizare timpurie și tehnologiilor de supraveghere care în ultimul deceniu au avut un rol important în prevenirea crizelor financiare.

Partea a doua conține ultimul capitol al tezei. În primă fază este prezentat eșantionul format din firme românești listate la bursă, precum și indicii financiari cu rol de predictori.

Scopul principal al cercetării nu constă propriu-zis în selectarea celor mai buni indici financiari cu rol de predictori, ci în compararea performanțelor predictive ale tehnicile de Inteligență Computațională în raport cu metodele clasice de estimare statistică, în condițiile utilizării unui set de indici financiari prestabilit.

Performanțele predictive și interpretarea rezultatelor aplicării fiecărei metode de clasificare sunt detaliate separat în câte un subcapitol. În ultimul subcapitol sunt prezentate concluziile comparării tehnicilor de Inteligență Computațională cu metodele clasice de estimare statistică, în scopul evaluării performanțelor predictive ale diferitelor modele ce pot fi utilizate în predicția falimentului firmelor.

În vederea realizării unei bune documentări a lucrării, am consultat aproximativ 270 de referințe care alcătuiesc bibliografia tezei, din care am citat direct în textul tezei un număr de 152 surse.

CAPITOLUL 1

IMPORTANȚA ȘI NECESITATEA PREDICȚIEI FALIMENTULUI ȘI A CRIZELOR FINANCIARE

În ultimele două decenii, falimentul a devenit una dintre problemele-cheie de pe tot globul, care influențează economia din toate țările. Costurile sociale și economice grele, care sunt impuse de firmele și companiile falimentare, pot determina motivarea cercetătorilor în furnizarea diferitelor metode în estimarea falimentului.

Mehrani et al.(2005) au subliniat faptul că „o avertizare timpurie a unui posibil faliment permite managerilor și investitorilor să ia măsuri preventive și să distingă oportunități de investiții favorabile din cele nefavorabile”.

În literatura de specialitate au fost prezentate diferite definiții care fac referire la faliment, de exemplu Gordon (1971) a definit într-unul din studiile sale privind teoria financiară, falimentul ca „reducerea profitului companilor a căror probabilitate de incapacitate de plată și datorie inițială este în creștere”.

Procedurile de faliment și procesul de reformă al insolvenței au un rol important în cercetările efectuate în domeniul economic, studiile publicate în acest sens fiind destul de multe, în special după crizele financiare mondiale care au avut loc.

Principalele principii ale falimentului propuse de către Stiglitz (2003) în vederea menținerii eficienței economiei de piață sunt: încurajarea reorganizării firmelor, protejarea tuturor părților care sunt afectate de faliment (debitorii, creditorii, angajații, consumatorii), realizarea unei proceduri de faliment care să asigure alocarea mai eficientă a resurselor după declanșarea falimentului.

Legislația cu privire la faliment prevede ca în cazul unei afaceri destul de bune să se evite lichidarea prematură și între protecția drepturilor creditorilor și a celorlalte părți implicate, să se stabilească un echilibru.

Claessens & Klapper (2002) au efectuat următoarea analiză a falimentelor pentru țările cu economii diferite:

țările cu o economie mai dezvoltată au o frecvență mai mare a cazurilor de faliment datorată unei mari eficiențe a sistemului juridic;

țările care au o piață dezvoltată a instrumentelor financiare au o frecvență mai mare a cazurilor de faliment datorată reducerii cazurilor care apelează la instanțele judecătorești;

țările în care există mai multe restricții pentru deschiderea unei afaceri au o rată mai scăzută de falimente;

țările cu o pondere mai mare a firmelor mici și mijlocii în totalul firmelor, au un număr scăzut de falimente care ajung în justiție, număr datorat costurilor mari deschiderii procedurii de faliment.

Westbrook (2003) a arătat faptul că „elementele de politică economică care se regăsesc în legislațiile naționale privind procedura de faliment sunt normative care se referă la rezultatele așteptate, deși de multe ori aceste alegeri se fac în lipsa unei idei clare referitoare la metodele cele mai bune de atingere a rezultatelor respective”.

Din punct de vedere juridic, România, în contextul aderării la Uniunea Europeană, a trebuit să armonizeze cadrul legislativ economic la standardele europene, în consecință în anul 2006 legea falimentului a fost înlocuită de legea insolvenței.

1.1 Particularitățile falimentului

Altman & Hotckiss (2005) au arătat, în lucrarea lor, întitulată „Corporate Financial Distress and Bankruptcy“ faptul că „eșecul după criterii economice, înseamnă că rata profitului pe capitalul investit, cu indemnizațiile pentru luare în considerare a riscului, este semnificant și continuu mai scăzută decât ratele predominante în investiții similare”. De asemenea, au fost utilizate și criteriile economice oarecum diferite, incluzând cifra de afaceri insuficientă pentru a acoperi costurile acolo unde profitul mediu al investiției este în mod continuu sub costul de capital al firmei. Aceste ipostaze economice nu fac niciun fel de declarații cu privire la existența sau discontinuitatea firmei.

O companie poate fi clasificată ca fiind eșuată din punct de vedere economic după câțiva ani, după criteriile menționate mai sus, dar este posibil ca aceasta să nu fi eșuat în îndeplinirea obligațiilor curente, datorită numărului mic de datorii sau chiar absența lor.

Eșecul unei afaceri se produce într-o perioadă de timp mai lungă, iar structura financiară a unei firme aflată în dificultate financiară începe să scadă și să se înrăutățească. Apariția acestor dificultăți financiare are impact negativ nu doar asupra firmei, dar și asupra asupra economiei țării respective.

Wheelen (2000) subliniază faptul că, „în cazul în care falimentul vine cu un declin serios la valoarea activelor sub valoarea datoriilor, decizia de a pune capăt unei afaceri ar putea fi mai bună decât încercarea de supraviețuire”.

Mai mult decât atât, în ceea ce privește cerințele în caz de faliment pentru Marea Britanie insolvența reprezintă o cerință pentru faliment, iar în SUA, insolvența nu este neapărat o condiție pentru intrarea în faliment (Franks et. al.,1996).

Firmele care nu au avut succes în afaceri au fost definite în diferite moduri pentru a portretiza procesele formale contestate și de a clasifica condițiilor economice și financiare nefavorabile în care au fost implicate.

În literatura de specialitate, conform cercetărilor întreprinse de Altman & Hotckiss (2005), se găsesc patru termeni generici de caracterizare a dificultăților financiare a firmelor, cum ar fi: eșec, insolvabilitate, neplata la timp, faliment.

Acești termeni sunt uneori folosiți alternativ, dar exprimă conținuturi diferite pentru dificultățile financiare. În continuare, vom prezenta caracteristicile importante pentru cei patru termeni generici.

Termenul eșec (engl.Failure) din punct de vedere al criteriului economic, înseamnă că realizarea ratei de rentabilitate a capitalului investit, cu indemnizațiile pentru examinarea riscului sunt semnificative și continuu mai mici decât ratele predominante pe investiții similare.

De asemenea, au fost utilizate diferite criterii economice, inclusiv veniturile insuficiente pentru a acoperi costurile atunci când randamentul mediu al investiției este continuu sub prețul de cost al firmei de capital. Aceste situații economice nu fac referire la existența sau întreruperea operațiunilor.

Deciziile cu caracter normativ pentru a întrerupe operațiunile se bazează pe rezultate așteptate și capacitatea firmei de a acoperi costurile variabile. Trebuie remarcat faptul că o firmă poate fi în eșec economic pentru mulți ani, dar niciodată nu o să reușească să își îndeplinească obligațiile curente din cauza datoriilor.

În cazul în care firma nu mai poate face față cerințelor aplicabile din punct de vedere al creditorilor săi, este numit uneori, eșec legal.Termenul legal este oarecum înșelător, deoarece condiția, așa cum am descris, poate exista și fără implicarea oficială a instanței judecătorești.

Termenul eșec în afaceri (engl.Business failure) a fost adoptat în 1998 de către Dun & Bradstreet, care timp de mulți ani a furnizat statistici relevante asupra firmelor pentru a descrie diferite condiții de afaceri nesatisfăcătoare.

Potrivit Dun & Bradstreet, eșecurile în afaceri includ companiile care:

încetează activitatea în urma falimentului;

încetează activitatea cu pierderi pentru creditori după acțiuni de blocare a pieței;

se retrag în mod voluntar, lăsând obligații restante;

au fost implicați în acțiuni în instanță, cum ar fi administrarea judiciară, reorganizarea;

compromit în mod voluntar creditorii.

Insolvabilitatea (engl.Insolvency), este un alt termen care descrie performanța negativă a firmei și este utilizat, în general, într-un mod tehnic. Insolvabilitatea tehnică există atunci când o firmă nu poate îndeplini obligațiile curente, ceea ce înseamnă o lipsă de lichiditate.

Walter (1957) a subliniat, faptul că „măsurarea insolvabilității tehnice în raport cu datoriile curente ar trebui să fie criteriul principal folosit pentru a descrie insolvabilitatea tehnică, și nu măsurarea tradițională a capitalului de lucru”.

Insolvabilitatea tehnică poate fi o condiție temporară, deși de multe ori aceasta este cauza imediată a declarării falimentului oficial.

Insolvența în sensul de faliment este mai critică și, de obicei, indică o stare de cronicitate, mai degrabă decât o stare temporară. O firmă se află în această situație, atunci când totalul pasivelor sale depășesc o evaluare corectă a activelor sale totale.Valoarea netă reală a firmei este, prin urmare, negativă.

Insolvabilitatea tehnică este ușor de detectat, în timp ce insolvabilitatea care duce la starea de faliment necesită o analiză cuprinzătoare de evaluare, care, de obicei, nu se efectuează până când lichidarea activelor este preconizată.

O altă stare a unei firme, care este inevitabil asociată cu eșecul, este neplata la timp (engl.Default).Valorile prestabilite pot fi tehnice și/sau juridice, și implică întotdeauna relația dintre debitor și un creditor.

Default tehnic are loc atunci când debitorul încalcă o condiție a unui acord cu un creditor și poate fi motivul pentru o acțiune în justiție. De exemplu, încălcarea unui convenții de împrumut, cum ar fi raportul curent sau gradul de îndatorare al debitorului, stă la baza unui default tehnic.

În realitate, aceste valori implicite sunt, de obicei, renegociate și sunt folosite pentru a semnala deteriorarea performanțelor firmei. Rareori sunt aceste încălcări catalizatorul pentru un default sau o procedura de faliment mai mult formală.

Atunci când o firmă pierde un credit sau obligațiuni de plată planificate, de obicei, un default legal este mult mai probabil, deși nu este întotdeauna rezultatul în cazul unui împrumut. Plățile de dobânzi pot fi ratate și revin creditorilor într-o tranzacție privată, cum ar fi un împrumut bancar, fără ca starea de default să fie declarată oficial.

Cu toate acestea pentru obligațiunile deținute public, atunci când o firmă pierde o plată de dobândă sau rambursarea principală, și problema nu este rezolvată în perioada de grație, de obicei 30 de zile, garanția este atunci în default.

Firma poate continua să funcționeze în timp ce încearcă să elaboreze un plan de reorganizare cu creditorii pentru a evita declararea de faliment oficială. Este chiar posibil să cadă de acord asupra unei reorganizări cu un număr suficient de solicitanți pentru a depune apoi, în mod legal cererea de intrare în faliment.

Faliment (engl.Bankruptcy) este un alt concept financiar, care este asociat cu dificultățile financiare.

Un tip de faliment a fost descris anterior și se referă la poziția valorii nete a unei companii, iar celălalt tip mai vizibil este, declarația oficială de faliment a unei firme depusă instanțelor de judecată, însoțită de o petiție, fie să lichideze activele sale sau să încerce un program de reorganizare.

În cazul unei crize financiare este dificil de determinat și verificat valoarea netă a unei firme și creanțele financiare, în sensul că activele unei firme intrate în faliment pot reprezenta creanțele pentru alte firme declarate în faliment sau în imposibilitate de plată.

Stiglitz (2003) a arătat faptul că „în țările cu o economie fragilă pot să apară aspecte importante ca un faliment să declanșeze alte falimente sau tărăgănarea falimentului din diferite motive poate să tergiverseze funcționarea unor segmente ale economiei”.

În România, criza sistemică din 2008 nu a fost depășită încă, deoarece jumătate din active sunt proprietate de stat, iar unele firme lucrează în pierdere creând astfel datorii mari la bugetul de stat.

Pentru ca o firmă să reziste condițiilor de pe piață, este necesar ca aceasta să fie solvabilă, adică să aibă capacitatea de a face față obligațiilor scadente la un moment dat.

Hada (1999) a arătat că la baza identificării firmelor aflate în dificultate stau următoarele criterii principale:

insolvabilitatea – activele nu sunt suficiente pentru achitarea datoriilor;

supraîndatorarea – caz în care gradul de îndatorare este atât de mare încât compromite capacitatea firmei de a face față datoriilor scadente;

existența unor elemente care pot împiedică continuarea activității.

Prin urmare, printre caracteristicile firmelor aflate în dificultate financiară regăsim: scăderea rentabilității și a volumului de activitate, managementul defectuos, situația financiară dificilă.

În concluzie, riscul de faliment apare atunci când firma este incapabilă de a face față angajamentelor legale, fiind în strânsă legătură cu starea de solvabilitate și starea incapacității de plată.

1.2 Reglementările Acordurilor Basel privind stabilirea performanțelor

Odată cu aderarea la Comunitatea Europeană, țara noastră a fost obligată să se afilieze la normele și metodologiile stabilite de acordurile europene, respectiv Acordul Basel II, introdus de Comitetul de la Basel.

Ca urmare a evoluției pieței financiare de-a lungul anilor, a fost necesară înlocuirea Acordului Basel I emis în 1988 și implementat în anul 1992 de către băncile internaționale, cu un alt acord.

Acordul Basel II a fost publicat în iunie 2004, apoi în 2005 Comitetul de la Basel a revizuit standardele de evaluare a capitalului, urmând ca în iulie 2006 să fie publicată versiunea completă a Acordului Basel II, păstrând elementele importante din Acordul Basel I din 1988 cu completările ulterioare. Intrarea în vigoare a Acordului Basel II s-a realizat la sfârșitul anului 2006.

Adoptarea Acordului Basel II a adus schimbări majore ale cerințelor referitoare la nivelul fondurilor proprii ale băncilor, economiile țărilor emergente fiind nevoite să se finanțeze la costuri mai mari decât costurile anterioare adoptării acordului.

Acordul Basel II se bazează pe trei „piloni”, iar în plus față de specificarea cerințelor minime de capital (pilonul 1), noul acord prevede noi orientări cu privire la intervenția de reglementare a autorităților naționale de supraveghere (pilonul 2​​) și la crearea de noi standarde de publicare de informații pentru bănci (pilonul 3).

Noul acord a fost bine primit de către bancheri și autoritățile de reglementare deopotrivă, Jean-Claude Trichet, președinte al grupului G-10 al bancherilor băncilor centrale, a afirmat că Basel II ar „spori siguranța băncilor și soliditatea, consolidarea stabilității sistemului financiar în ansamblu și îmbunătăți capacitatea sectorului financiar de a servi ca un sursă de creștere durabilă a economiei”.

Ranjit (2009) subliniază faptul că „dezbaterile academice referitoare la Basel II au fost limitate în mare parte la aspectele tehnice legate de metodologia de calculare a cerințelor de capital din pilonul 1 și implicațiile sale pentru ciclul macroeconomic, prin urmare politica procesului de la Basel a fost oarecum neglijată”.

O analiză diferită este oferită de Bjerke (2007), ce ridică întrebarea destul de abstractă: „Cum se explică realizarea acordului Basel II?”. Răspunsul, susține Bjerke, trebuie să apeleze la o înțelegere funcționalistă a rezultatelor instituționale. Ori de câte ori sunt necesare standarde comune de reglementare pentru a aborda o problemă sistemică, argumentul potrivit ne conduce la o „comunitate epistemică de tehnocrați publici cu suflet care se vor mobiliza pentru a obține o armonizare a reglementărilor internaționale” .

Griffith-Jones & Persaud (2003) au efectuat o analiză promițătoare a acordului Basel II, căutând să țină cont de tendințele inerente din Acordul Basel II în favoarea marilor bănci internaționale și împotriva debitorilor băncilor mai mici și a celor din țările în curs de dezvoltare.

Mattli & Woods (2009) au stabilit condițiile generale care sunt de așteptat să apară în procesul de reglementare la nivel internațional, sugerând un set de ipoteze plauzibile cu privire la factorii care facilitează captarea în procesul Basel. Au început prin elaborarea distincției – aluzie numai la Griffith-Jones & Persaud – între schimbarea reglementărilor care servesc interesului comun și cele de care beneficiază anumite grupuri de interese, ca rezultat al captării de reglementare.

Prin urmare, a fost necesară revizuirea Acordului Basel II impusă de criza financiară mondială din 2007 care a afectat puternic sistemul bancar american, propagându-se implicit și asupra băncilor din Europa, fiind evidențiate punctele slabe ale sistemului bancar și insuficiența capitalului regulamentar. Această revizuire s-a materializat în crearea unui alt acord, Acordul Basel III. Introducerea oficială a Acordului Basel III s-a realizat în septembrie 2010 de către membrii Comitetului de la Basel, având ca scop asigurarea stabilității financiare cu ajutorul politicilor prudențiale complexe. Principalele caracteristici corespunzătoare aspectelor importante care modifică reglementările existente sub Acordul Basel III, se referă la creșterea calității capitalului și a nivelului minim de capital al băncii, reducerea riscului sistemic și asigurarea timpului necesar pentru o tranziție cât mai ușoară către noul regim. Eforturile viitoare de revizuire a standardelor de adecvare a capitalului trebuie să respecte atât normele de bază ale unui proces echitabil și să se asigure că asimetriile informaționale sunt cât mai mici – în principal, dar nu exclusiv, prin menținerea într-un fel a distanței între organismele de supraveghere și sectorul bancar.

Deși este destul de dificil de realizat în practică, aceste schimbări ar putea merge pe un drum lung pentru garantarea reglementărilor de revizuire a standardele internaționale de capital stabilite în timp.

1.3 Analiza literaturii de specialitate privind modelele de predicție a falimentului

Roubini & Setser (2005) și Sturzenegger & Zettelmeyer (2006) au arătat, faptul că „crizele financiare care au avut loc în țările în curs de dezvoltare, în ultimul deceniu al secolului XX au reînviat interesul teoretic și empiric pentru predicția crizelor financiare, în scopul de a înțelege cauzele și consecințele acestora, precum și de a dezvolta modele statistice și econometrice care pot semnala în timp util apariția lor”.

Problema falimentului și a firmelor care nu au succes în afaceri, a fost întotdeauna o mare problemă conducând la pierderea investitorilor. De aceea, nu numai investitorii, ci și managerii ar trebui să fie interesați în estimarea condițiilor financiare ale firmelor.

Imanzadeh et al.(2011) subliniază faptul că „falimentul în afaceri și capacitatea de predicție financiară este importantă, atât din punctul de vedere al investitorului, cât și din punct de vedere social, din moment ce este un semn clar de alocare incorectă a resurselor”.

Modelele de predicție a falimentului sunt tehnici și instrumente pentru anticiparea stării viitoarelor firmelor, ele estimează posibilitatea de apariție a falimentului prin combinarea unui grup de indici financiari.

În continuare va fi prezentat un scurt istoric al studiilor de predicție a falimentului, începând cu anul 1930 până în prima parte a deceniului nostru.

Studiile univariate au avut implicații importante în dezvoltarea modelelor viitoare de predicție a falimentului, fiind considerate ca fiind baza modelelor multivariate în predicția falimentului. În 1930 BBR a publicat un buletin cu rezultatele unui studiu al indicilor firmelor industriale falimentare, fiind analizați 24 de indici pentru 29 de firme în scopul determinării caracteristicilor comune ale firmelor falimentare. Indicii medii au fost dezvoltați pe baza indicilor celor 29 de firme. Indicii fiecărei firme au fost comparați cu indicii medii pentru a demonstra că firmele insolvabile au anumite caracteristici sau trend similar. În urma studiului s-au obținut opt indici, care au fost considerați cei mai buni indicatori pentru evidențierea „punctului slab în creștere” al unei firme.

Fitzpatrick (1932) a comparat 13 indici pentru firmele insolvabile și solvabile. El a descoperit că, în majoritatea cazurilor, firmele solvabile au indici favorabili, în timp ce firmele insolvabile au avut indici nefavorabili în comparație cu indicii „standard” și indicele trend-urilor.

Winakor & Smith (1935), într-un studiu de analiză publicat de BBR în 1930, au analizat dintr-o varietate de industrii indicii pentru 183 de firme insolvabile. Au descoperit că activele circulante în raport cu activele totale scad pe măsură ce firma se apropie de faliment.

În 1942, Merwin a publicat studiul întitulat „Financing small corporations in five manufacturing industries”, în care s-a concentrat asupra producătorilor mici, observând că atunci când se compară firmele solvabile cu cele insolvabile, firmele solvabile afișează semne de slăbiciune cu patru sau cinci ani înainte de eșec.

Chudson (1945) a studiat tiparele de structură financiară pentru a stabili dacă există un tipar „normal”. El a raportat că nu a existat nici un tipar „normal” al structurii financiare la un nivel general sau la nivelul întregii economii. Cu toate acestea, a constatat că „în special în industrie, dimensiunea și grupele de profitabilitate sunt o grupare de indici”, și chiar dacă, studiul nu a abordat în mod specific predicția falimentului, rezultatele sunt semnificative pentru dezvoltarea modelelor de predicție a falimentului. Concluziile sale indică faptul că modelele elaborate cu aplicabilitate generală în industrie nu pot fi, după caz, socotite ca modele specifice industriei.

Aceste studii timpurii au pus bazele studiilor următoare, modelele de predicție a falimentului care au început să se dezvolte cu studiul univariat al lui Beaver (1966) și multivariat al lui Altman (1968), continuând să evolueze de atunci.

De la studiul modelului Altman, numărul și complexitatea modelelor de predicție a falimentului au crescut foarte repede. După studiile efectuate de Beaver și Altman, în anii 60 remarcăm faptul că a fost publicat doar un singur studiu care a fost efectuat de Daniel în 1968.

Bellovary et al.,(2007) au arătat în lucrarea lor întitulată „A Review of Bankruptcy Prediction Studies: 1930-Present” , faptul că „în anii 1970 au fost publicate 28 de studii, 53 de studii în anii 1980, 70 de studii în anii 1990, iar în prima parte a acestui deceniu (2000-2004) sunt cunoscute 11 studii”. În continuare, vor fi prezentate studiile în care au fost publicate modelele de predicție a falimentelor aplicate firmelor din Europa (Tabelul 1.1).

Tabelul 1.1 Studii europene cu modele care sunt aplicate firmelor din Europa

Sursa:Prelucare adaptată după Bellovary et al.,(2007),pg.6

Metodele și capacitatea de predicție a modelelor cu cea mai ridicată acuratețe, realizate din 1960-2000 sunt prezentate în tabelul de mai jos (Tabelul 1.2).

Tabelul 1.2 Capacitatea de predicție a modelelor deceniului

și metodele utilizate cu cea mai ridicată acuratețe

Sursa:Prelucare adaptată după Bellovary et al.(2007),pg.9

Capacitatea de predicție a metodelor cu cea mai ridicată acuratețe și studiile aferente metodei sunt prezentate în tabelul următor (Tabelul 1.3).

Tabelul 1.3 Capacitatea de predicție a metodei și studiile cu cea mai ridicată acuratețe

Sursa:Prelucare adaptată după Bellovary et al.,(2007),pg.10

Altman și Hotchkiss (2005) au clasificat cronologic metodele și studiile de predicție a falimentului, astfel:

Qualitative (Subjective) – Calitative;

Univariate (Accounting/Market Measures) – Univariate;

Multivariate (Accounting/Market Measures) – Multivariate;

Discriminant and Logit Models in Use – Discriminant și Modele Logit utilizate;

Artificial Intelligence Systems – Sisteme de Inteligență Artificială;

Option/Contingent Claims Models – Opțiuni/ Modelele eventualelor creanțe;

Blended Ratio / Market Value Models – Rate combinate/ Modele pentru valoarea de piață;

Moody’s Risk Calc – Modelele Moody de calcul al riscului.

Încă din anii 1960, studiul modelelor de predicție a falimentului au capătat un interes tot mai mare datorită cazurilor importante de apariție a falimentului.

Comentariile anterioare acestor studii sunt de ordinul trecutului, deoarece ele nu oferă o comparație completă a numeroaselor abordări referitoare la predicția falimentului, nereușind să ofere o soluție la rezolvarea problemei de alegere a unui model de aplicare empiric.

Pentru predicția falimentului firmelor au fost folosite modele predictive diferite, iar alegerea lor în aplicarea empirică nu este simplă.

Pe parcursul anilor au existat mai multe studii în literatura de specialitate, de exemplu Zavgren (1983), Altman (1984) și Keasey & Watson (1991) și-au concentrat studiile exclusiv pe modele statistice, în timp ce Jones (1987) și Dimitras et al.(1996) nu oferă în studiile lor o acoperire totală pentru modelele teoretice.

Zhang et al.(1999) restrânge revizuirea în aplicații empirice ale modelelor cu rețele neuronale, în timp ce Crouhy et al.(2000) se referă numai la cele mai importante modele teoretice de risc de credit. Morris (1998) în studiile sale, oferă cea mai cuprinzătoare revizuire până în prezent a modelelor de predicție a falimentului, dar nu discută despre modelele bazate pe Inteligența Computațională.

Aziz & Dar (2006) în lucrarea lor, întitulată „Predicting corporate bancrupcy: where we stand?” oferă o revizuire a modelelor cu scopul de a clarifica problema alegerii celui mai bun model în predicția empirică a falimentului firmelor. Analiza se bazează pe un eșantion de 89 studii empirice publicate care au fost strânse din aproximativ 180 de surse și grupate în trei mari clase, cum ar fi: modele statistice, modele de inteligență artificială și modele teoretice. S-a demonstrat că cele trei clase de modele au o putere predictivă comparabilă.

Tehnologia utilizată în anii 1980 a contribuit la dezvoltarea următoarelor categorii de modele (Tabelul 1.4).

Tabelul 1.4 Categorii de modele

Modelele statistice clasice includ atât modele bazate pe analiza univariată, cât și modele bazate pe analiza multivariată, care ulterior, vor deveni modelele utilizate cel mai frecvent. În continuare, vor fi prezentate principalele caracteristici ale diferitelor tipuri de modele statistice (Tabelul 1.5).

Tabelul 1.5 Principalele caracteristici ale diferitelor tipuri de modele statistice

În limbajul Inteligenței Artificiale, un sistem care „învață” este unul care îmbunătățește performanțele sale de rezolvare a problemelor în funcție de experiența anterioară și „mașina de învățare”. Modelelor bazate pe Inteligența Artificială au fost aplicate cu succes într-o varietate de contexte de rezolvare a problemelor, inclusiv în predicția falimentului.

Caracteristicile principale ale acestor modele sunt prezentate în tabelul următor (Tabelul 1.6).

Tabelul 1.6. Principalele caracteristici ale modelelor de inteligență artificială

Cu toate acestea, aproape toate modelele recent dezvoltate depind de o moștenire statistică, într-un fel sau altul, modelele bazate pe Inteligența Artificială utilizând deopotrivă tehnici statistice univariate și multivariate.

În mod similar, modelele teoretice (Tabelul 1.7) sunt adesea construite prin utilizarea unor tehnici statistice adecvate decât direct pe principii teoretice.

Tabelul 1.7 Principalele caracteristici ale modelelor teoretice

Abordările diferite cu privire la acuratețea predicției indică faptul că, modelele statistice au fost utilizate în 64% dintre studiile citate, urmate de modelele bazate pe Inteligența Artificială și modelele teoretice, respectiv de 25% și 11% (a se vedea Graficul 1.1). Acest lucru este în conformitate cu așteptările, în sensul că utilizarea modelelor de Inteligență Artificială pentru predicția falimentului este relativ nouă.

Sursa: Prelucrare proprie (adaptată după Aziz &Dar,2006)

Graficul 1.1 Statistica modelelor cu privire la acuratețea predicției

Abordarea metodelor bazate pe Inteligența Artificială (a se vedea Graficul 1.2) oferă de fapt cele mai bune rate globale de acuratețe (88%), urmată de abordările metodelor teoretice și statistice.

Sursa: Prelucrare proprie (adaptată după Aziz &Dar,2006)

Graficul 1.2 Performanța abordării celor trei categorii de modele

privind acuratețea predicțiilor

Performanța celor trei categorii de modele este după cum se observă este foarte asemănătoare. Aceste rezultate indică faptul că cercetările viitoare ar putea beneficia de o mai mare utilizare a metodelor bazate pe Inteligența Artificială, în special atunci când ar putea fi dezvoltate modele care să le rezolve principalele puncte slabe.

În timp ce modelele MDA și logit sunt metodele cele mai populare folosite în predicția falimentului, nu este elocvent că această popularitate este justificată în totalitate de precizia lor relativă.

Motivația pentru cercetarea empirică în predicția falimentului este foarte clară: pentru o mai bună protecție în evitarea falimentului este bine să detectăm de la început dificultățile financiare și să utilizăm măsurile corective legale.

Analiza arată că tehnicile statistice (modele MDA și logit, în special) au fost utilizate cel mai frecvent, abordarea metodelor bazate pe Inteligența Artificială este relativ nouă, iar modelele teoretice au o frecvență redusă.

În timp ce acuratețea predicției a fost observată ca fiind în general bună pentru toate cele trei modele, revizuirea articolelor sugerează că metodele bazate pe Inteligența Artificială și modelele teoretice au o acuratețe predictivă mai bună decât modelele statistice. În concluzie, putem spune că pe baza unui număr restrâns de studii publicate s-a dovedit că metodele bazate pe Inteligența Artificială au o acuratețe a performanței superioară.

CAPITOLUL 2

MODELE STATISTICE CLASICE DE PREDICȚIE A FALIMENTULUI

2.1 Modele de predicție a falimentului bazate pe metoda scorurilor

Modelul Beaver

Studiul modelelor bazate pe indicii financiari în predicția falimentului firmelor a început din anii 1960. Beaver (1966) inițiatorul primului model de analiză urmărește media indicilor financiari folosiți în analiza a două eșantioane de firme. Cele două eșantioane conțin 79 firme falimentare și 79 firme non-falimentare, rezultatele financiare fiind adunate din ultimii cinci ani înainte de faliment. În studiul realizat, Beaver a observat că valoarea medie a cinci indici financiari diferă de la un eșantion la altul (Tabelul 2.1).

Tabelul 2.1 Indicii financiari utilizați de Beaver

Efectuând testul de clasificare dihotomică în analiza univariată, Beaver a ajuns la concluzia că numai indicii financiari, Profit net/ Total active și respectiv, Capital de lucru/ Total active pot fi cei mai buni predictori ai falimentului (Tabelul 2.2).

Tabelul 2.2 Testul de clasificare dihotomică efectuat de Beaver

În urma efectuării analizei ratei de eroare a predicției falimentului, s-a observat că rata de eroare pentru tipul I (firme falimentare clasificate ca non-falimentare) este cu foarte puțin mai ridicată decât rata de eroare de tipul II (firme non-falimentare clasificate ca falimentare) (Tabelul 2.3).

Tabelul 2.3 Rata de eroare a modelului Beaver în predicția falimentului

Modelul Altman

Altman este unul dintre cei mai cunoscuți cercetători în ceea ce privește analiza predicției riscului de faliment. Modelul elaborat de Altman (1968) a fost aplicat unui eșantion format din 66 de firme din perioada 1946-1965, din care 33 sunt falimentare și 33 sunt non-falimentare.

În analiză au fost utilizați 22 indici financiari obținuți pe baza rezultatele financiare preluate din rapoartele anuale ale acestora, indici grupați în funcție de lichiditate, profitabilitate, îndatorare, solvabilitate și activitate. Dezvoltarea modelului bazat pe indicii financiari pentru predicția falimentului a fost realizată utilizând tehnici statistice și analiza discriminantă.

În urma cercetării efectuate, Altman a observat că nu a obținut rezultate concrete legate de unul din indicii financiari folosiți, iar valorile medii ale indicilor financiari incluse în model au prezentat mici diferențe între firmele falimentare și cele non-falimentare (Tabelul 2.4).

Tabelul 2.4 Valorile medii pentru indicii financiari din modelul lui Altman

Sursa:Atman(1968)

Funcția scor Z este de forma Z=1,2 X1 + 1,4 X2 + 3,3 X3 + 0,6 X4 + 0,999 X5 .

Notațiile au următoarea semnificație:X1-Active circulante/Total active, X2-Profit reinvestit/Total active, X3-Profit brut/Total active, X4-Valoarea de piață a capitalului/Datorii pe termen lung, X5-Cifra de afaceri/Total active.

Regula de decizie folosită pentru estimarea situației financiare a firmei și probabilitatea falimentului este următoarea:

dacă Z < 1,81 atunci riscul de faliment este iminent;

dacă Z > 2,99 atunci riscul de faliment este redus.

Firmele au fost analizate și clasificate după mărimea scorului Z, stabilindu-se două limite și o zonă de incertitudine (intervalul dintre cele două limite). Punctul de inflexiune a fost stabilit între 2,67 și 2,68, fiind considerat a fi egal cu 2,675.

În ceea ce privește acuratețea predicției, modelul lui Altman asigură o rată de succes ridicată numai pentru un 1 an înainte de faliment, în comparație cu rata de succes a modelului Beaver care este pentru 4-5 ani înainte de faliment (Tabelul 2.5).

Tabelul 2.5 Acuratețea predicției modelelor Beaver și Altman

Deoarece modelul prezentat anterior se aplică numai firmelor cotate la bursă, Altman a dezvoltat modelul inițial elaborând o nouă funcție scor prin înlocuirea numitorului indicelui financiar X4, și anume, valoarea de piață a capitalului propriu, cu valoarea contabilă a capitalului propriu. Prin urmare, funcția scor are următoarea formă:

Z' = 0,717 X1 + 0,847 X2 + 3,107 X3 + 0,420 X4 + 0,998 X5.

Această modificare după cum observăm în tabelul de mai jos, influențează punctul de inflexiune și ponderea modelului (Tabelul 2.6).

Tabelul 2.6 Probabilitatea falimentului în modelul Z'

În urma cercetărilor efectuate, Altman a constatat că indicele financiar X5 din cele două modele elaborate nu se poate aplica tuturor ramurilor de activitate.

Prin urmare, pentru obținerea funcției scor au fost folosiți doar patru indici financiari.

Funcția scor este de forma: Z'' = 6,56 X1 + 3,26 X2 + 6,72 X3 + 1,05 X4.

Notațiile au următoarea semnificație: X1-Capital de lucru/ Total active, X2-Profit pentru dezvoltare/ Total active, X3-Profit înainte de impozit și dobânzi/ Total active, X4-Capital propriu/Total datorii.

După cum observăm în tabelul prezentat mai jos, această modificare influențează punctul de inflexiune și ponderea modelului (Tabelul 2.7).

Tabelul 2.7 Probabilitatea falimentului în modelul Z''

Modelul Edminster

Edminster în anul 1972 a aplicat pentru modelul său, analiza discriminantă multivariată firmele mici, utilizând următorii indici financiari:

nivelul indicelui financiar considerat față de media sectorului de activitate, trendul înregistrat în 3 ani consecutivi;

media ratei pe 5 ani;

efectul combinat (trendul sectorului de activitate/nivelul sectorului de activitate).

Un eșantion format din 282 de firme pentru un an și 42 de firme pentru întreaga perioadă a fost ales aleator pentru obținerea unei interacțiuni între nivel și trend. De asemenea, s-a avut în vedere un număr de patru combinații ale nivelului și trendului pentru fiecare indice financiar, obținându-se un număr 152 de combinații.

Modelul Deakin

Deakin în anul 1977 aduce o serie de modificări modelelor Altman (1968) prin introducerea celor 15 indici financiari folosiți inițial de Beaver. În analiza sa a arătat că folosind o procedură aleatoare de selecție a firmelor non-falimentare, se poate dovedi că unii indici financiari au un coeficient discriminatoriu redus.

Conform analizei se observă că acuratețea predicției scade prin eliminarea unui indice, astfel:

în ultimii trei ani anteriori falimentului, rata de eroare a fost de 3%, 5% și respectiv 5%;

în al patrulea și al cincilea an, rata de eroare crește la 21%, respectiv 18% în comparație cu modelul Altman, care avea o putere predictivă doar cu 1 sau 2 ani înaintea falimentului.

Modelul Springate

Modelul elaborat de Springate în anul 1978 are la bază modelul Altman, utilizând pentru început un număr de 19 indici financiari dintre cei mai frecvent folosiți. În final, vor fi folosiți în funcția scor doar 4 indici financiari.

Funcția scor este de forma:

Z = 1,03 X1 + 3,07 X2+ 0,66 X3 + 0,4 X4 .

Notațiile au următoarea semnificație: X1-Capitalul de lucru/Total active, X2-Profitul brut înainte de dobânzi/Total active, X3-Profitul brut/Datorii curente, X4-Cifra de afaceri /Total active.

Regula de decizie folosită pentru estimarea situației financiare a firmei și probabilitatea falimentului este următoarea:

dacă Z<0,862, atunci firma este clasificată ca fiind falimentară.

În urma aplicării modelului pentru un eșantion de 40 de firme, a rezultat că modelul Springate are o rată de succes de 92,5%.

Modelul Conan & Holder

Conan și Holder în anul 1979 au realizat un model folosind metode statistice. Aceste metode au fost aplicate unui eșantion de 95 de firme grupate pe diferite sectoare de activitate, respectiv industrie, comerț, transport și construcții. Rezultatele financiare au fost colectate din perioada 1970-1975.

Funcția scor construită este de forma:

Z = 0,24 R1 + 0,22 R2 + 0,16 R3 – 0,87 R4 – 0,10 R5.

Notațiile au următoarea semnificație: R1-Rentabilitatea față de creditori, R2-solvabilitatea, R3-lichiditatea, R4-rata cheltuielilor financiare, R5-rata cheltuielilor cu personalul.

Regula de decizie folosită pentru estimarea situației financiare a firmei și probabilitatea falimentului este următoarea:

dacă Z > 4% atunci riscul de faliment este iminent;

dacă 4% < Z < 9% atunci riscul de faliment este nedeterminat;

dacă Z > 9% atunci riscul de faliment este redus.

Modelul Anghel (Modelul A)

Un model de referință  pentru economia românească îl reprezintă funcția scor realizată de Ion Anghel. Modelul a fost aplicat unui eșantion de 276 de firme din 12 sectoare de activitate, împărțit în două grupuri, firme falimentare și non-falimentare.

Funcția scor construită este de forma:

A=5,676 + 6,3718 X1 + 5,3932 X2 – 5,1427 X3 – 0,0105 X4.

Notațiile au următoarea semnificație: X1-Profit net/Venituri; X2-Cash-flow/Active; X3 – datorii/Active; X4 -(Obligații/Cifra de afaceri)x360.

Regula de decizie folosită pentru estimarea situației financiare a firmei și probabilitatea falimentului este următoarea:

dacă A < 0 atunci falimentul este iminent;

dacă 0 < A < 2,05 atunci probabilitatea falimentului este mare;

dacă A > 2,05 atunci probabilitatea falimentului este inexistentă.

Funcția A are o rată de succes apriorică de 97% și se poate aplica pentru un eșantion mai mare de firme.

Modelul Băileșteanu (Modelul B)

Modelul propus de Băileșteanu în anul 1998 a rezultat în urma studiului efectuat asupra metodelor elaborate de Altman, Argenti, Taffler, Conan & Holder.

Funcția scor construită este de forma:

Z= 0,444 X1 + 0,909 X2 + 0,0526 X3 + 0,0332 X4 + 1,414.

Notațiile au următoarea semnificație: X1-lichiditatea generală; X2-solvabilitatea; X3-recuperare clienți; X4-rentabilitatea costurilor.

Funcția Z are o valoare maximă egală cu 4 și o valoare minimă egala cu –1,4.

Regula de decizie folosită pentru estimarea situației financiare a firmei și probabilitatea falimentului este următoarea:

dacă Z < 0,5 atunci falimentul este iminent;

dacă 0,5< Z < 1,1 atunci există o zonă limitată;

1,1 < Z < 2,0 atunci există o zonă intermediară;

Z > 2,0 atunci falimentul este redus.

Modelul Ivonciu (Modelul I)

Modelul propus de Ivonciu în anul 1998 se aplică unui eșantion de 50 de firme românești și este format din 6 indici financiari. Modalitatea de alegere a indicilor utilizați în model, nu a fost precizată

Funcția scor construită este de forma:

Z=-1,66032 + 0,333 X1+5,555 X2 + 0,0333 X3 + 0,714229 X4 + 1,333 X5 + 4,0 X6 .

Notațiile au următoarea semnificație:

X1 reprezintă viteza de rotație a activului, având valoarea minimă=1,00 și valoarea maximă=4,00;

X2 reprezintă profitabilitatea veniturilor, având valoarea minimă=0,07 și valoarea maximă=0,25;

X3 reprezintă rotația creanțelor, având valoarea minima=6,00 și valoarea maximă=36,00;

X4 reprezintă capacitatea de rambursare a datoriilor, având valoarea minimă=0,10 și valoarea maximă=1,50;

X5 reprezintă lichiditatea rapidă, având valoarea minimă=0,50 și valoarea maximă=1,25;

X6 reprezintă marja stabilității financiare, având valoarea minimă=0 și valoarea maximă=0,25.

Funcția Z are o valoare minimă egală cu -1,66032 și maximă egală cu 6. Regula de decizie folosită pentru estimarea situației financiare a firmei și probabilitatea falimentului este următoarea:

dacă Z < 0 atunci falimentul este iminent;

dacă 0 < Z < 1,5 atunci probabilitatea falimentului este mare;

dacă 1,5 <Z < 3 atunci probabilitatea falimentului este nedeterminată;

3 < Z < 6 atunci probabilitatea falimentului este redusă;

Z > 5 atunci probabilitatea falimentului este inexistentă.

2.2 Analiza literaturii de specialitate privind aplicarea modelelor statistice clasice în predicția falimentului

Primele studii cunoscute de predicție a falimentului au fost efectuate de către Ramster & Foster (1931), Fitzpatrick (1932), Winakor & Smith (1935) și Merwin (1942), care nu au avut la dispoziție tehnologia computațională și metodele statistice avansate, cum sunt cele din ziua de azi. Aceștia au comparat valorile indicilor financiari pentru firmele falimentare cu valorile pentru firmele sănătoase și au constatat că valorile indicilor financiari au fost mai mici pentru firmele falimentare.

Modelele științifice pentru anticiparea falimentului au fost dezvoltate pentru prima dată în anii 1960 de către Beaver și Altman. Primul pas în evoluția modelelor cantitative de anticipare a falimentului a fost realizat de Beaver (1966) care a dezvoltat un test de clasificare dihotomică bazat pe un simplu t-test într-un cadru univariat. Beaver a constatat că o serie de indicatori pot diferenția cu succes un eșantion de firme aflate în faliment în comparație cu firmele fără dificultăți financiare, obținând astfel rezultate concludente pentru o perioadă de până la 5 ani înainte de debutul falimentului.

Similar cu primele studii, Beaver a comparat valorile medii a 30 de indici financiari pentru 79 firmele falimentare și 79 non-falimentare din 38 de ramuri industriale. Apoi a mers cu studiul său mai departe și a testat abilitățile predictive individuale al indicilor în clasificarea firmelor falimentare și non-falimentare, fără a ține cont de eventualele relații între ei, rezultând astfel o analiză univariată sau unidimensională.

Altman (1968) a dezvoltat modelul lui Beaver pentru predicția falimentului firmelor din industrie, prin utilizarea unui număr de 33 de companii falimentare și companii de 33 sănătoase, în perioada 1946-1964, selectând cinci variabile dintre cele mai relevante în estimarea falimentului. Modelul Z-scor a lui Altman a predictat falimentul în cazul firmelor în care scorul scade într-un anumit interval și a avut o capacitate de predicție de 95% pentru eșantionul inițial cu un an înainte de faliment.

Cu toate acestea, capacitatea de predicție a modelului cu doi ani înainte de faliment a avut doar 72% precizie, și respectiv până la 48%, 29 %, și 36% acuratețe cu trei, patru, cinci ani înainte de faliment. Capacitatea predictivă a modelului testat pe un eșantion hold-out a fost de 79%.

Deakin (1972), a descoperit că putem predicta eșecul în afaceri din datele contabile cu trei ani în avans, cu o precizie destul de mare. Cu ajutorul unui eșantion de 32 firme falimentare și 32 firme non-falimentare înregistrate în perioada 1964 – 1970, a reușit să clasifice corect 90% din totalul firmelor care au falimentat sau nu, în următorii trei ani.

CAPITOLUL 3

METODE CLASICE DE ESTIMARE STATISTICĂ UTILIZATE ÎN PREDICȚIA FALIMENTELOR

Învățarea supervizată este un tip de învățare inductivă și are ca obiectiv să formeze o funcție pentru atributele care realizează predicția cea mai bună a clasei pentru un obiect (o funcție F: X1 X2 … Xf C). Datele de intrare reprezintă un set de obiecte sau „instanțe”. Fiecare obiect este descris ca fiind o colecție de variabile independente cu valori discrete sau continue sau ca „atribute” (). Fiecare instanță are o variabilă dependentă sau o „clasă”, asociată cu ea. Datele sunt formate din vectori care dau valori atributelor și clasa fiecărui obiect . Obiectivul învățării supervizate este de a găsi funcția atributelor care anticipează cel mai bine clasa unui obiect (o funcție F: X1 X2 … Xf C). Datele de intrare sunt considerate ca fiind setul de antrenare și datele care vor fi anticipate, alcătuiesc setul de testare.

Există două mari clase de algoritmi de învățare supervizată:

algoritmi de clasificare – când variabila în legătură cu care se realizează predicția este de tip calitativ (nominală sau ordinală) sau de tip cantitativ cu valori discrete;

algoritmi de regresie – când variabila în legătură cu care se realizează predicția este cantitativă continuă (ia valori reale).

În continuare, ne vom concentra atenția asupra algoritmilor de clasificare. Clasificarea, care este sarcina de a atribui obiecte pentru una din mai multe categorii predefinite, este o problemă globală care cuprinde mai multe aplicații diverse. Exemplele de clasificare includ printre multe altele, detectarea mesajelor e-mail nesolicitate (spam) bazate pe antetul mesajului și al conținutului, clasificarea galaxiilor pe baza formele lor, etc. (Figura 3.1).

Sursa:http://www.nasa.gov/multimedia/imagegallery/

a) Galaxie în spirală b) Galaxie eliptică

Figura 3.1 Exemple de clasificare

O tehnică de clasificare este o abordare sistematică în construirea modelelor de clasificare dintr-un set de date de intrare. Fiecare clasificator utilizează un algoritm de învățare pentru identificarea unui model care se potrivește cel mai bine relației dintre atribute și eticheta clasei datelor de intrare.

Modelul generat de algoritmul de învățare trebuie să se potrivească cel mai bine datelor de intrare, cât și să predicteze corect eticheta clasei înregistrărilor pe care nu le cunoaște încă.

Tan et al.(2006) subliniază că, obiectivul principal al algoritmului de învățare este de a construi modele cu o capacitate de generalizare bună, adică modele care predictează cu exactitate etichetele clasei înregistrărilor necunoscute anterior.

În acest capitol vor fi prezentate, conceptele de bază, suportul matematic, precum și o analiza literaturii de specialitate privind predicția falimentelor pentru următoarele metode clasice de estimare statistică: analiza discriminantă, regresia logistică, clasificatorul bayesian naiv și arborele de decizie.

3.1 Analiza discriminantă

Analiza discriminantă este o metodă care face parte din grupa metodelor explicative de analiză a datelor. Aceasta metodă utilizează o variabilă de explicat Y și mai multe variabile explicative cantitative sau binare notate cu .

Principalele obiective ale analizei discriminant sunt:

determinarea variabilelor explicative care contribuie cel mai mult la diferențierea claselor definite de variabila de explicat, pentru a identifica ponderea influenței variabilelor explicative în variația variabilei de explicat prin construirea de combinații liniare în scopul alegerii celei mai bune;

construirea unui spațiu discriminant în funcție de tipul analizei discriminant, adică: pentru analiza discriminant liniară unde variabila de explicat are două stări se determină o axă discriminantă Z care explică apartenența unei unități la o clasă sau alta, iar pentru analiza discriminant multiplă se determină mai multe combinații liniare independente de variabile explicative numite (axe discriminante) fiind necesară analiza spațiului determinat de acele axe care separă cel mai bine unitățile studiate, în clasele determinate de stările variabilei de explicat Y;

repartizarea la o clasă existentă a unităților care nu au fost clasate, cunoscându-se nivelul variabilelor explicative și utilizându-se funcțiile discriminant care vor fi repartizate noilor unități în clasele deja formate.

3.1.1 Concepte teoretice privind analiza discriminant

Metoda se aplica unei populații de indivizi caracterizate prin variabile continue sau categoriale și ale cărei componente sunt împărțite în grupuri. Scopul principal al analizei discriminant este clasificarea uneia sau mai multor observații noi în aceste grupuri, deja precizate.

În continuare, vom formula enunțul problemei analizei discriminant.

Fiind dată o variabilă de explicat Y cu k grupe (stări) și p variabile explicative , trebuie găsită una sau mai multe combinații liniare de variabile explicative de forma:

(3.1)

Combinația liniară din relația (3.1) diferențiază cel mai bine grupele formate prin raportarea la stările variabilei de explicat Y.

Este cunoscut faptul că matricea de varianță-covarianță totală notată cu T, se descompune în două componente:

matricea de varianță-covarianță între grupe , notată cu B;

matricea de varianță-covarianță din interiorul grupelor, notată cu W, determinată ca o sumă de k matrici de varianță-covarianță din cadrul grupei.

T=B+W (3.2)

În continuare, vom efectua o analiză a varianței, utilizând ecuația de descompunere a varianței totale pentru o variabilă , în scopul determinării puterii de discriminare a fiecărei variabile. Varianța totală este egală cu suma varianței dintre grupe și varianța din grupe. Ecuația de descompunere a varianței totale pentru o variabilă are următoarea formă:

(3.3)

Pentru măsurarea puterii de discriminare a variabilei , se utilizează următorul raport de determinație:

(3.4)

Raportul din relația (3.4) cu cât tinde mai mult către valoarea 1 cu atât puterea de discriminare a variabilei este mai mare.

Vom utiliza variabila Fisher, notată cu F, care permite aflarea variabilelor care sunt semnificativ discriminante, având un nivel de semnificație .

Variabila Fisher F este de forma:

(3.5)

Problema analizei discriminante constă în căutarea uneia sau a mai multor direcții în care varianța totală T se descompune în cele două componente ale sale, efectuându-se operația de minimizare a lui W și operația de maximizare a lui B.

Axele discriminante Z sunt considerate ca fiind vectorii proprii ai matricii , iar numărul axelor discriminante Z este egal cu min(p;k-1).

Variabilei discriminante îi este asociată cea mai mare valoare proprie, și variabilei discriminante îi corespunde cea de-a doua valoare proprie, fiind necorelată cu prima variabilă .

Variabilei discriminante îi va corespunde cel mai mare raport de corelație, iar raportul de corelație dintre și variabila de explicat Y , notat cu este mai mic decât în cazul primei variabile discriminante, ș.a.m.d.

Prin urmare putem afirma că, variabilele discriminante nu sunt corelate între ele.

În scopul determinării numărului de variabile discriminante ce trebuie luate în considerare, se utilizează testul Wilks care determină care sunt ultimele q rapoarte de corelație nule. Testul statistic Wilks are următoarea formă:

(3.6)

În cazul în care are valori mici, atunci ipoteza este respinsă.

Bartlett (1954) și Rao (1973) au efectuat diferite studii cu privire la legile de aproximare a distribuției pentru calcularea nivelului de semnificație.

În studiul său, Bartlett a considerat că forma din relația (3.7) se poate aproxima cu o lege care are q(k-1) grade de libertate, în special atunci când numărul de clase k este mai mare decât 2 sau 3.

(3.7)

Prin urmare, putem spune că testul lui Wilks măsoară puterea de discriminare totală a axelor noi. Cu cât valoarea lui este mai mică cu atât crește puterea de discriminare a axelor, iar axele de discriminare care au o putere de discriminare mică, nu se vor lua în calcul.

Dacă dorim să interpretăm statistic axele discriminante, vom studia legătura dintre axele discriminante și variabilele explicative cu ajutorul coeficienților funcțiilor și coeficienților de corelație dintre axa discriminantă și fiecare variabilă explicativă.

Pe baza unei reguli de decizie variabilele discriminante sunt utilizate pentru repartizarea unităților în grup.

În cazul în care există numai două axe, atunci regula de decizie se poate realiza foarte ușor, dar în cazul în care sunt mai multe axe acest lucru nu se poate realiza, decât dacă se calculează probabilitățile de apartenență la grupe diferite, după cum urmează:

(3.8)

Atunci când vectorul X al variabilelor explicative urmează o lege multi-normală , probabilitățile pentru fiecare grupă le vom determina astfel:

(3.9)

Funcțiile discriminante sunt variabilele fiind estimate prin , astfel:

, , (3.10)

unde S reprezintă matricea de varianță și covarianță din grupe.

Prin urmare, putem estima probabilitatea , astfel:

(3.11)

Conform relației (3.11) putem spune că fiecare unitate va putea fi repartizată în grupa în care se înregistrează probabilitatea cea mai mare, iar prin utilizarea regulii de decizie optimale stabilite, noile unități se pot repartiza în grupele deja formate în funcție de nivelul înregistrat de variabilele explicative.

Valorile înregistrate de funcțiile discriminante estimate, se pot calcula pentru fiecare unitate nouă ce trebuie repartizată într-o grupă, adică .

3.1.2 Metode de aplicare a analizei discriminante pentru două populații

Printre metodele de aplicare a analizei discriminant pentru două populații regăsim metoda de separare și metoda de clasificare. În continuare, vom prezenta cele două metode.

Metoda de separare

Să presupunem că avem două populații. Fie cele observații din populația 1 și fie cele observații din populația 2.

De notat că, , sunt vectori dimensionali.

Metoda discriminantă a lui Fisher constă în proiectarea acestor vectori dimensionali din spațiul în spațiul prin intermediul unei funcții liniare în încercarea de a separa cele două populații cât mai mult posibil, unde a este un vector dimensional. Metoda discriminantă a lui Fisher va fi prezentată în continuare.

Să se găsească vectorul ce maximizează funcția de separație ,

(3.12)

unde (3.13)

și (3.14)

Reprezentarea intuitivă a metodei discriminante a lui Fisher, în măsura în care se poate găsi , este ilustrată grafic în figura de mai jos (Figura 3.2).

Figura 3.2 Reprezentarea intuitivă a metodei discriminante a lui Fisher

Intuitiv, măsoară diferența dintre transformate, adică în raport cu deviația standard a eșantionului . Dacă observațiile transformate și sunt complet separate, trebuie să fie mare ca variația aleatorie a datelor transformate reflectate de , care este de asemenea luată în considerare.

Rezultat important:

Vectorul maximizează separarea care este de forma:

(3.15)

unde , (3.16)

(3.17)

(3.18)

și unde   și (3.19)

Justificare:

(3.20)

În mod similar,

De asemenea,

În mod similar,

Astfel,

Astfel, (3.21)

  se obțin prin rezolvarea ecuației bazată pe prima derivată ,

(3.22)

După o simplificare suplimentară obținem:

(3.23)

Înmulțită cu inversul matricei pe cele două părți obținem:

, (3.24)

Deoarece este un număr real obținem :

, unde c este o constantă. (3.25)

Metoda de clasificare

Să presupunem că avem o observație notată cu . Apoi, pe baza funcției discriminant putem aloca această observație unei clase.

Rezultat important:

Alocarea lui a populației 1 în cazul în care

=

= (3.26)

Altfel, dacă  , atunci alocăm populației 2. În figura 3.3 este prezentată clasificarea populației 1 și 2.

Figura 3.3 Reprezentarea clasificării celor 2 populații

Dacă se află pe partea dreaptă de , atunci se alocă populației 1 și invers.

3.2 Regresia logistică

Regresia logistică este utilizată atunci când există doar două categorii de variabile dependente, fiind în general preferată în locul utilizării analizei discriminant.

3.2.1 Concepte teoretice privind regresia logistică

Regresia logistică utilizează teoria binomială a probabilității, atunci când două valori se pot estima, adică probabilitatea (p) este 1 și nu 0, adică evenimentul/persoana aparține numai unui grup și nu, celuilalt.

Aceasta formează cea mai bună ecuație sau funcție folosind metoda verosimilității maxime, care maximizează probabilitatea clasificării datelor observate în categorii potrivite, fiind dată regresia coeficienților.

Există două mari utilizări ale regresiei logistice:

anticiparea membrilor grupului – regresia logistică calculează probabilitatea de succes raportată la probabilitatea de eșec, rezultatele analizei fiind sub forma unui raport de probabilitate (odds ratio);

informarea cu privire la relațiile și forțele dintre variabile.

Premisele regresiei logistice sunt:

variabilele dependente trebuie să fie dihotomice (două categorii);

variabilele independente nu trebuie să fie în mod necesar intervale, distribuite normal, liniar legate și dispersate în mod egal în cadrul fiecărui grup;

categoriile (grupurile) trebuie să fie complete și să se excludă reciproc, un caz poate exista doar într-un grup și fiecare caz, trebuie să fie un membru al unuia din grupuri;

sunt necesare eșantioane de date mai mari decât în cazul regresiei liniare, deoarece coeficienții maximi de probabilitate sunt estimați pentru un număr mare de modele (este recomandat un număr minim de 50 de cazuri pe predictor);

nu pornește de la premisa că, există o relație liniară între variabilele dependente și cele independente.

Ecuația regresiei logistice

În timp ce regresia logistică dă fiecărui grup de predicție un coeficient „b” care măsoară contribuția sa independentă la variații în variabila dependentă, variabila dependentă poate lua doar una din cele două valori, 0 sau 1.

Ceea ce vrem să anticipăm din informația variabilelor relevante independente și a coeficienților, nu este o valoare numerică a unei variabile dependente ca în regresia liniară, ci probabilitatea (p), care este mai degrabă 1 decât 0 (aparținând numai unui grup și nu, celuilalt).

Dar chiar și folosirea probabilității ca și variabilă dependentă nu este indicată, deoarece predictorii numerici pot apărea într-o gamă nelimitată. Dacă l-am exprima pe (p) drept o funcție liniară de investiție, este posibil să ne aflăm în situația în care predictăm că p este mai mare decât 1, ceea ce nu poate fi adevărat, deoarece probabilitățile pot lua valori doar între 0 și 1.

Pentru a normaliza distribuirea este necesară de încă o transformare matematică – o transformare logaritmică. Această transformare logaritmică a valorilor (p) într-o distribuție logaritmică ne permite să creăm o legătură cu ecuația de regresie normală.

Distribuția logaritmică sau transformarea logistică a lui (p) este numită logit (p), și este de forma:

(3.27)

Figura 3.4 Distribuția logaritmică

Întrucât (p) poate varia numai între 0 și 1, scala logit (p) variază de la la (Figura 3.4), fiind dispusă simetric în jurul funcției logit.

Formula (3.28) prezintă relația dintre ecuația de regresie obișnuită (a+bx +… ), care este formula unei linii drepte, și ecuația de regresie logistică.

Formula ecuației de regresie logistică este:

logit[p(x)]=log =a+b1x1+ b2x2+ b3x3 (3.28)

În loc de folosirea criteriului deviației celor mai mici pătrate pentru cea mai bună potrivire, aceasta utilizează metoda verosimilității maxime (LL), care mărește la maxim probabilitatea de a primi rezultatele observate, dați fiind coeficienții de regresie potriviți.

O consecință a acestui fapt este corectitudinea potrivirii și statisticile generale de semnificație folosite în regresia logistică, fiind diferite de cele folosite în regresia liniară. Formula (3.29) poate fi privită ca o rescriere a formulei (3.28):

(3.29)

unde:

p – probabilitatea ca un caz să fie dintr-o anumită categorie;

exp – baza logaritmilor naturali (e 2.72);

a – constanta din ecuație;

b – coeficientul variabilei predictor.

În concluzie, putem spune că regresia logistică include potrivirea unei ecuații a formei cu datele:

logit (p) (3.30)

Interpretarea probabilității logaritmice și a raportului de probabilitate

Coeficienții logit standardizați sunt coeficienții „b” (valorile pantei) din ecuația de regresie. Panta poate fi interpretată drept schimbarea în valoarea medie a lui Y, dintr-o unitate de schimb, în X.

Regresia logistică calculează schimbările în probabilitatea logaritmică a variabilei dependente. Pentru o variabilă dihotomică, șansele de a fi membru al grupului țintă sunt egale cu probabilitatea de a fi membru în grupul țintă împărțit la probabilitatea de a fi membru în grupul celălalt.

Un concept important îl reprezintă raportul de probabilitate (OR), care estimează schimbările în șansele apartenenței la grupul țintă, fiind calculat prin folosirea unui coeficient de regresie al predicției, ca fiind exponentul său exp.

Figura 3.5 Valoarea raportului de probabilitate

Valoarea raportului de probabilitate poate varia de la 0 la și indică probabilitatea ca o observație să facă parte din grupul țintă decât să fie un membru al celuilalt grup (Figura 3.5).

3.2.2 Construirea modelului. Verosimilitatea logaritmică

La fel ca în cazul regresiei liniare, încercăm să găsim o potrivire perfectă, dar datorită faptului că valorile lui Y variază doar între 0 și 1, nu putem folosi metoda celor mai mici pătrate.

Verosimilitatea maximă (ML) este utilizată pentru a afla funcția care va maximiza abilitatea noastră de a predicta probabilitatea lui Y bazată pe ceea ce știm despre X. Cu alte cuvinte, (OR) găsește cele mai bune valori pentru formula (3.28).

Probabilitatea se referă la șansele care există, adică probabilitatea sub o ipoteză specifică.

În regresia logistică există următoarele două ipoteze importante:

ipoteza nulă, atunci când toți coeficienții din ecuația de regresie iau valoarea zero;

ipoteza alternativă care arată că modelul cu predictori ce este luat în considerare este precis, și diferă semnificativ de mulțimea vidă.

Apoi lucrăm la probabilitatea observării datelor pe care le-am observat sub fiecare din aceste ipoteze. Rezultatul este de obicei un număr foarte mic, și pentru a fi mai accesibil, este folosit logaritmul natural, care produce verosimilitatea logaritmică (LL).

Probabilitățile sunt întotdeauna mai puțin de una, prin urmare (LL) este întotdeauna negativă. Acestea reprezintă baza efectuării testelor unui model logistic.

Testul raportului de probabilitate este bazat pe raportul (-2LL), care este un test al semnificației diferenței dintre raportul de probabilitate (-2LL) pentru modelul de cercetare cu predictori, numit modelul chi pătrat (Chi-Square), și raportul de probabilitate pentru modelul standard care conține doar o constantă.

Semnificația la nivelul 0.05 sau mai scăzută semnifică faptul că, modelul de cercetare cu predictori este diferit în mod semnificativ față de cel cu doar o constantă (toți coeficienții „b” fiind zero). Aceasta măsoară îmbunătățirea pe care o aduc variabilele explicative în comparație cu modelul nul, iar chi-pătrat este folosit pentru a conferi o semnificație acestui raport.

Când probabilitatea nu atinge nivelul de semnificație de 5%, păstrăm ipoteza nulă, știind că variabilele independente nu au efecte de creștere, adică nu fac nici o diferență în a predicta variabila dependentă.

Obținerea parametrilor modelului

În practică, putem simplifica o notație având doar un singur parametru în loc de doi parametrii și .

Dacă problema noastră inițială este formulată astfel încât: , vom rescrie aceasta ca: .

Daca notăm acum și , atunci vom putea să formulăm aceeași problemă cu numai „un” parametru de model :.

Dar aceasta nu este altceva decât o schimbare de notație.

Avem nevoie de încă doi parametri pentru a estima parametrul .

Deci, vom nota ca și ca , iar problema noastră va fi, prin urmare, obținerea parametrului modelului , când .

Dacă avem n observații, cu răspunsuri și predictori, putem defini:

și .

Sistemul pe care dorim să-l rezolvăm pentru a găsi parametrul este scris ca:

Soluția minimă a erorii pătratice a acestui sistem este:

.

Este suficient să realizăm evaluarea expresiei și astfel, am obținut care minimizează suma pătratelor reziduurilor.

3.2.3 Regresia logistică multiplă

Regresia logistică este în general considerată, ca o metodă de modelare în situații pentru care există o variabilă de răspuns binar. Variabilele predictor pot fi numerice sau categoriale (inclusiv binar).

În schimb, regresia logistică multiplă poate fi utilizată atunci când există mai mult de două rezultate posibile pentru un răspuns. În continuare, ne vom axa doar pe răspunsul binar. Considerăm ca fiind o variabilă de răspuns binar și presupunem că este dependent de , un vector cu valorile predictorului.

Scopul este modelarea următoarei relații:

(3.31)

Deoarece este binar, modelarea lui este realmente modelarea lui , care este principiul metodei celor mai mici pătrate cu răspuns numeric.

Metoda celor mai mici pătrate este o metodă folosită pentru estimarea parametrilor necunoscuți în modelul regresiei liniare.

Dacă avem un model o funcție liniară cu variabilele predictor (variabile de regresie) , atunci modelul poate duce la probabilități estimate care sunt în afara intervalului [0,1].

Pentru a funcționare mai bună se presupune că:

(3.32)

unde poate fi setul original de variabile explicative, dar predictorii pot să includă variabile transformate și construite.

Prin urmare, este greșit să presupunem că variabilele explicative netransformate sunt tot ceea ce este nevoie vreodată. De exemplu, în cazul în care există doar două variabile explicative, un model de ordinul întâi care tocmai folosește și ca predictori poate să nu fie adecvat, dar un model de ordinul al doilea folosind , , , , & poate oferi o adecvare mai bună.

Se poate observa că:

(3.33)

unde este numit logit.

În timp ce modelul pentru este ceva mai complicat, modelul pentru logit este liniar la predictori. De asemenea, indiferent de ce valoare are estimarea corespunzătoare a lui va fi cuprinsă între 0 și 1.

Parametrii necunoscuți, respectiv coeficienții sunt în general estimați de maximizarea probabilității, , care este doar o expresie pentru .

3.3 Clasificatorul bayesian naiv

Rezolvarea problemelor privind probabilitatea anumitor evenimente desfășurate în anumite condiții a început încă din primele decenii ale secolului al XVIII-lea. Una din teoremele fundamentale ale teoriei probabilităților a fost enunțată de matematicianul englez, Thomas Bayes.

Odată cu dezvoltarea metodelor de analiză statistică, teorema lui Bayes este întâlnită în diverse studii, termenul „bayesian” fiind folosit încă din 1950.

3.3.1 Concepte teoretice de analiză bayesiană

Determinarea probabilităților unui eveniment care aparține unui sistem complet de evenimente format din evenimentele definește probabilitatea totală.

Probabilitatea de apariție a oricărui eveniment A, care aparține sistemului complet de evenimente este dată de următoarea relație, care este formula probabilității totale:

(3.34)

Bayes a ajuns la concluzia că, dacă inversează formula probabilității totale, atunci probabilitatea ca apariția evenimentului să se datoreze apariției unui alt eveniment , în condițiile în care probabilitatea de apariție a evenimentului și probabilitățile de apariție ale unor evenimente , care condiționează apariția evenimentului , sunt cunoscute. În ceea ce urmează vom defini formula lui Bayes.

Se dă un sistem complet de evenimente și presupunând că, probabilitatea unui eveniment îndeplinește condiția , atunci formula lui Bayes va fi definită astfel:

(3.35)

În relația (3.35) termenul reprezintă probabilitatea aposteriorică, iar probabilitățile reprezintă probabilitățile apriorice.

În continuare, va fi prezentată o altă formă a formulei lui Bayes în care probabilitatea aposteriorică este calculată ca produs între probabilitatea apriorică și ponderea pe care o are probabilitatea evenimentului condiționată de evenimentul în probabilitatea totală a evenimentului :

(3.36)

unde reprezintă ponderea pe care o are probabilitatea evenimentului condiționată de evenimentul , în probabilitatea totală a evenimentului .

Până în acest moment teorema lui Bayes a fost prezentată pentru cazul unidimensional, caz în care s-au folosit termenii eveniment, probabilități și probabilități condiționate. În analiza cantitativă economică sunt utilizate două concepte fundamentale, variabila aleatoare, și respectiv distribuția de probabilitate a unei variabile aleatoare.

Variabila aleatoare poate fi o variabilă reală cu valori care sunt dependente de rezultatele unui experiment aleator.

O variabilă aleatoare notată cu X, poate fi definită ca o funcție, în condițiile în care sunt cunoscute următoarele elemente:

– un rezultat posibil al unui experiment aleator;

– spațiul de selecție format din mulțimea rezultatelor experimentului aleator;

(,) – câmpul evenimentelor peste care variabila aleatoare este definită;

(, , ) – câmpul de probabilitate.

Fiind date aceste elemente, funcția va avea următoarea formă:

, ) (3.37)

Forma funcției rezultată este aplicată submulțimii de evenimente

(3.38)

care va fi un element al câmpului de evenimente, adică:

(3.39)

Distribuția de probabilitate a variabilei aleatoare reprezintă asocierea cu probabilități a mulțimii valorilor unei variabile aleatoare X, iar modalitatea de specificare a distribuției se realizează cu ajutorul unei funcții reale care poartă numele de funcție de repartiție, notată cu .

O altă modalitate de specificare a distribuției de probabilitate a variabilei aleatoare este realizată în cazul în care funcția de repartiție este diferențiabilă, adică:

(3.40)

Funcția din relația (3.37) este numită densitate de probabilitate.

Prin urmare funcția de repartiție, va fi de forma:

(3.41)

În cele ce urmează va fi prezentată teorema lui Bayes pentru cazul multidimensional care păstrează aceleași principii, ca în cazul unidimensional.

Pentru cazul multidimenional vor fi introduși termenii de vectori aleatori, densități de probabilitate și densități marginale de probabilitate.

Datorită faptului că, în analiza multidimensională participă mai multe variabile aleatoare notate cu vom presupune că acestea pot fi elementele unui vector, numit vector aleator.

Vectorul aleator se poate defini astfel:

X : , fiind spațiul de selecție n-dimensional (3.42)

Funcția de repartiție a vectorului aleator X este definită astfel:

: (3.43)

Densitatea de probabilitate n-dimensională a vectorului aleator este o funcție ca în relația de mai jos:

(3.44)

care este definită numai atunci când funcția de repartiție este diferențiabilă în raport cu toate argumentele.

Prin urmare, densitatea de probabilitate n-dimensională a vectorului aleator va avea următoarea formă:

(3.45)

Cunoscând densitățile multidimensionale de probabilitate a vectorului aleator, se poate defini densitatea de probabilitate a oricărei variabile aleatoare , care va purta numele de densitate marginală a vectorului aleator X.

Densitatea marginală a vectorului aleator este de forma:

(3.46)

La rândul ei, funcția de repartiție a vectorului aleator se poate defini și va purta numele de funcție de repartiție marginală a vectorului aleator, astfel:

(3.47)

Pentru exprimarea teoremei lui Bayes se consideră:

vectorii aleatori X și Y cu dimensiunile m, respectiv n, iar densitatea de probabilitate multidimensională notată cu definește distribuția comună a vectorilor;

probabilitatea apriorică a densității de probabilitate a lui X sau densitatea marginală pentru vectorul aleator X, notată cu ;

probabilitatea apriorică a densității de probabilitate a lui Y sau densitatea marginală pentru vectorul aleator X, notată cu ;

probabilitatea apriorică este densitatea de probabilitate a lui X, condiționată de vectorul aleator Y care ia valorile reprezentate de vectorul ;

probabilitatea aposteriorică care este densitatea de probabilitate a lui Y, condiționată de vectorul aleator X care ia valorile reprezentate de vectorul .

Teorema lui Bayes pentru cazul multidimensional este exprimată pentru cu condiția ca și , astfel:

(3.48)

3.3.2 Clasificatorul bayesian naiv

Clasificatorul bayesian naiv este un clasificator clasic, bazat pe teorema lui Bayes fiind des utilizat în rezolvarea problemelor privind predicția falimentului.

Conform studiilor în care au fost comparați mai mulți algoritmi de clasificare a rezultat faptul că, clasificatorul bayesian naiv are performanțe mult mai bune atunci când, este aplicat bazelor mari de date.

Pentru exemplificarea utilizării probabilităților Bayes considerăm cazul în care, sunt date două clase și pentru care obiectele urmează a fi afectate, probabilitățile apriorice cunoscute pentru fiecare clasă, notate cu P(), respectiv P() și un set de formare cu T obiecte. Dacă din T alegem T1 obiecte care aparțin clasei și T2 obiecte care aparțin clasei , atunci putem spune că:

P() și P() (3.49)

Densitățile de probabilitate condiționată sunt cunoscute și ne prezintă distribuția pentru fiecare clasă a vectorilor caracteristici. Acestea pot fi estimate din setul de formare fiind notate cu și poartă numele de funcții de verosimilitate ale claselor în funcție de . În continuare, vom calcula probabilitățile condiționate, definite anterior, astfel:

(3.50)

În concluzie, putem formula decizia de clasificare Bayes astfel:

Dacă , x va fi afectat clasei

Dacă , x va fi afectat clasei (3.51)

Dacă , x va fi afectat oricărei clase

Considerăm ipotezele de aplicare a tehnicii Bayes asupra clasificării obiectelor, în care sunt date mulțimea T de obiecte, caracteristicile obiectelor notate cu pot reprezenta coordonatele într-un spațiu n-dimensional și clasificarea obiectelor în K clase bazată pe următoarele particularități:

P() , probabilitatea apriorică a clasei ;

funcția , reprezintă densitatea de probabilitate multidimensională condiționată de clasa sau legea de probabilitate după care se repartizează vectorul proprietăților obiectelor din clasa .

Se cunosc P() (probabilitatea apriorică a clasei ) și (densitatea de probabilitate multidimensională condiționată de clasa ) pentru fiecare din cele K clase.

Conform ipotezelor formulate, se va crea un algoritm pentru o problemă de clasificare bazată pe teoria de decizie Bayes. Soluțiile obținute vor afecta obiectele, astfel încât probabilitatea clasificării greșite să fie minimă.

În vederea creării algoritmului vor fi definite următoarele:

funcția de decizie, notată cu , este definită în spațiul obiectelor și care generează rezultatele (sau output) pe baza cărora se va lua decizia de afectare a obiectului respectiv, astfel: , atunci obiectul este descris de vectorul de proprietăți clasei ;

funcția de pierdere, notată cu , reprezintă pierderea condiționată, în sensul că obiectul clasei , iar conform algoritmului clasei , deci pierderea înregistrată de către decizia greșită luată este considerată ca fiind output pentru funcția ;

probabilitatea aposteriorică, notată , reprezintă probabilitatea ca să aparțină clasei cu ajutorul căreia va fi calculată pierderea medie condiționată determinată de clasificarea lui în clasa , astfel:

, (3.52)

funcția , numită pierdere medie condiționată, fiind corespunzătoare clasificării în clasa a lui ;

identificarea clasei care va obține cea mai mică pierdere medie condiționată va fi realizată prin evaluarea funcției , prin urmare clasificarea lui în clasa se va face conform restricției:

, (3.53)

Se consideră funcția de decizie cu următoarea formă:

(3.54)

Funcția de decizie se regăsește și sub numele de funcție de clasificare sau funcție discriminant, fiind evaluată pentru toate clasele , iar afectarea lui se va realiza în clasa pentru care obținem valoarea cea mai mare.

Conform teoremei lui Bayes, probabilitatea ca evenimentul să fie considerat ca și cauză de apariție este exprimată de relația:

(3.55)

Prin urmare, funcția de clasificare din relația (3.54) împreună cu relațiile (3.52) și (3.55) va deveni:

(3.56)

Deci, putem spune că va fi clasificat în clasa , dacă și numai dacă este îndeplinit următorul criteriu de clasificare, cunoscut și sub numele de criteriul lui Bayes:

(3.57)

Din relația (3.54) se observă că, numitorii membrilor inegalității pot fi considerați ca factori comuni și pot fi eliminați datorită faptului că nu sunt dependenți de indicele de sumare i, rezultând astfel următoarea formă simplificată a criteriului lui Bayes:

(3.58)

În urma acestor rezultate, funcția de clasificare din relația (3.53) are următoarea formă:

(3.59)

În cazul în care utilizăm funcția de pierdere sub următoarea formă

, (3.60)

funcția de clasificare rezultată în urma utilizării funcției de pierdere , definită în relația (3.60) va fi de forma:

(3.61)

sau

(3.62)

Funcția de clasificare din relația (3.59) în urma eliminării termenilor din prima sumă pentru care , va avea următoarea formă:

(3.63)

Repetând același procedeu pentru criteriul de clasificare vom obține:

(3.64)

sau

(3.65)

În continuare, presupunem că densitățile de probabilitate pentru fiecare clasă sunt normale, în raport cu vectorul mediilor și matricea de covarianță, ca în relația:

(3.66)

Utilizând formula din relația (3.63) criteriul de clasificare va avea următoarea formă:

(3.67)

În relația (3.64) componenta variabilă din primul membru va fi separată și vom obține:

(3.68)

În relația (3.65) cei doi membrii din inegalitate vor fi logaritmați și, după rearanjarea termenilor exponentului din primul membru, obținem:

(3.69)

Dacă presupunem că matricile de covarianță ale densitățile de probabilitate ale claselor sunt egale, atunci criteriul de clasificare Bayes are următoarea formă:

(3.70)

3.4 Arborele de decizie

Arborele de decizie (DT) este unul din algoritmii utilizați în rezolvarea problemelor de clasificare. El este de fapt, un clasificator reprezentat sub forma unui arbore cu rădăcină, unde rădăcina nu are intrări și toate celelalte noduri au exact o intrare.

Un nod cu ramuri de ieșire este numit nod test (decizional) și reprezintă un test pentru un anumit atribut, iar fiecare arc care pleacă din nodul terminal este o valoare a atributului respectiv. Celelalte noduri sunt numite frunze sau noduri terminale, iar unui nod terminal îi corespunde o clasă (Figura 3.6).

Figura 3.6 Exemplu de arbore de decizie

În principiu, se pot construi mai mulți arbori de decizie având un set de atribute dat, dar unii dintre ei au o precizie mai mare de clasificare decât alții.

De-a lungul anilor au fost creați o serie de algoritmi pentru obținerea arborilor cu o acuratețe mai mare de clasificare. Cei mai cunoscuți algoritmi sunt: CLS-Concept Learning System (Hunt et al.,1966), ID3 (Quinlan, 1986), C4.5 (Quinlan, 1993), CART (Breiman et al.,1984).

3.4.1 Concepte teoretice privind arborele de decizie

Obiectivul principal în construirea unui arbore de clasificare este găsirea celei mai bune divizări. Fiecare divizare partiționează eșantionul de date în două sau mai multe părți și fiecare submulțime a partiției are una sau mai multe clase în ea. Dacă există numai o singură clasă într-o submulțime, atunci aceasta este pură, altfel este impură.

Cu cât este mai pură partiția, cu atât este mai bună divizarea. Această măsură a impurității este utilizată pentru specificarea criteriului de divizare.

O măsură a impurității are proprietatea de a fi minimă atunci când există doar instanțe dintr-o singură clasă și maximă atunci când toate clasele au același număr de instanțe.

Există mai multe tipuri de criterii de divizare, cum ar fi: Entropia (Entropy), Câștigul de informație (Information Gain), Indexul Gini (Gini Index), Măsura erorii de clasificare (Misclassification measure).

Entropia (Entropy) este o măsură a impurității.

Entropy(S) = (3.71)

unde am notat: – mulțimea de obiecte, – ponderea elementelor i din mulțimea , c – numărul de clase.

Pentru diferite valori ale entropiei obținem următoarele rezultate:

– dacă entropia este 0, atunci toate obiectele lui S aparțin aceleiași clase;

– dacă entropia este 1, atunci există un număr egal de elemente în fiecare clasă;

– dacă entropia este între 0 și 1, atunci numărul de obiecte diferă de la o clasă la alta.

Câștigul de informație (Information Gain)

Câștigul de informație este utilizat pentru a determina cât de bine un atribut separă datele de instruire în funcție de clasele variabilei de decizie. Această măsură a câștigului de informație, obținută printr-o divizare arbitrară a fost introdusă de Quinlan (1986).

Quinlan, utilizează binecunoscuta formulă a Entropiei din Teoria Informației, care reprezintă numărul minim de biți necesari într-o codificare binară de clasificare a unui membru arbitrar dintr-o colecție . Entropia definită pentru o colecție de date de instruire, , este de forma:

(3.72)

Câștigul de informație reprezintă scăderea așteptată în entropie, atunci când se face partiția exemplelor unui set , în funcție de un atribut .

Este definit ca:

(3.73)

unde :

Im () este imaginea lui , adică mulțimea tuturor valorilor posibile pentru un atribut ;

este o submulțime a exemplelor din care au valoarea pentru atributul ;

este numărul de exemple din S (cardinalul lui S);

este numărul de exemple din Sv (cardinalul lui Sv).

Primul termen al ecuației îl reprezintă entropia setului de date original, iar al doilea termen descrie entropia setului de date după partiționarea acestuia folosind atributul , reprezentând suma entropiilor fiecărei submulțimi S, dată de numărul de exemple aparținând submulțimii. Experimentele au arătat totuși că măsura numită câștig de informație (information gain), tinde să favorizeze predictorii care au un număr mare de exemple.

Quinlan (1986) sugerează o soluție bazată pe cantității de informație necesară pentru a determina valoarea unui predictor pentru un set de date .

Aceasta este dată de entropia predictorului pentru setul de date , adică , fiind cunoscută sub numele de informație de divizare (split information) pentru

și , și este de forma:

(3.74)

Plecând de la aceste observații, Quinlan (1986) propune o altă măsură de alegere a celui mai potrivit predictor în raport cu modalitățile căruia să se divizeze setul de date , în locul utilizării măsurii information gain, .

Mai precis, se selectează acel predictor pentru divizarea lui , pentru care se obține cel mai mare raport al câștigului de informație (gain ratio) , adică:

(3.75)

Alegerea predictorului pe baza căruia să se dividă setul de date se poate face utilizând una dintre cele două măsuri prezentate, InfoGain sau GainRatio, recomandabil ar fi ultima. Mai preci se alege predictorul pentru care măsura respectivă are cea mai mare valoare.

Indicele Gini (Gini index)

Breiman et al.(1984) au introdus pentru prima dată criteriul (sau indicele) Gini, care a fost inițial definit ca fiind probabilitatea clasificării eronate unui set de instanțe, mai degrabă decât ca impuritate a divizării. Indicele Gini al unui nod t este de forma:

= (3.76)

unde este ponderea elementelor i din mulțimea .

Plecând de la acest indice, putem să definim indicele Gini al divizării ca fiind:

= (3.77)

Măsura clasificării eronate (Misclassification measure)

Măsura clasificării eronate măsoară eroarea în timpul clasificării unui nod atunci când se utilizează o anumită partiționare. Aceasta măsură este de forma:

Măsura clasificării eronate (3.78)

Din relația (3.78) se observă că, maximul erorii se obține în momentul în care obiectele din categorii diferite sunt distribuite în nod în mod egal, obținându-se astfel cea mai mică informație. O comparație între entropie, indexul Gini și măsura clasificării eronate pentru o problemă de clasificare binară este reprezentată grafic în figura de mai jos (Figura 3.7).

Sursa: Tan et al.,2006

Figura 3.7 Comparația între măsurile impurității

unde p indică proporția obiectelor care aparțin uneia din cele două clase.

Din figura prezentată se poate observa că, cele trei măsuri ating valoarea maximă în cazul în care distribuția clasei este uniformă (p = 0.5), iar valoarea minimă se atinge atunci când toate înregistrările aparțin aceleiași clase , adică p = 0 sau p = 1 (Tan et al.,2006).

Cu toate că arborii de decizie sunt utilizați destul de des în problemele de clasificare, este bine să menționăm faptul că utilizarea arborilor de decizie nu este indicată, atunci când există clasificări cu multe clase.

Cu toate acestea, au fost dezvoltați o serie de algoritmi eficienți pentru a induce o acuratețe rezonabilă, utilizând o tehnică Greedy care este de fapt, un procedeu recursiv de „sus în jos”.

Este cunoscut faptul că, algoritmii Greedy identifică optimele locale în scopul obținerii optimului global, deci putem spune că obiectivul principal în cazul partiționării optime a unui nod este atins.

În continuare, vom prezenta un exemplu de algoritm, algoritmul lui Hunt, ce stă la baza dezvoltării celorlalți algoritmi de construire a unui arbore de clasificare și decizie.

Algoritmul lui Hunt

În cele ce urmează, vom prezenta algoritmul lui Hunt (Tan et al.,2006), unde Dt este mulțimea elementelor care se găsesc în nodul t, iar y={y1, y2,…, yc} este mulțimea etichetelor claselor corespunzătoare nodului t.

Pașii algoritmului lui Hunt vor fi prezentați în continuare, iar pentru fiecare nod se va aplica același procedeu recursiv, astfel:

P1: dacă Dt conține elemente care aparțin aceleiași clase notată cu yt , atunci t va fi frunza etichetată cu yt ;

P2: dacă Dt conține elemente ce aparțin din mai multe clase, atunci alegem un atribut test pentru a împărți mulțimea Dt în submulțimi sau noduri mult mai mici.

Metoda „divide-and-conquer”

Metoda „divide-and-conquer” (metoda „dezbină-și-cucerește”) cu privire la inducția arborilor de decizie, uneori numită și inducția de „sus în jos” a arborilor decizionali, a fost dezvoltată și îmbunătățită de-a lungul multor ani de J. Ross Quinlan de la Universitatea Sydney.

O abordare „divide-and-conquer” a problemei învățării pornind de la un set de cazuri independente, conduce în mod natural la un stil de reprezentare numit arbore de decizie. Nodurile dintr-un arbore de decizie implică testarea unui anumit atribut. De obicei, testul unui nod compară valoarea unui atribut cu o constantă.

Cu toate acestea, unii arbori de decizie compară două atribute unul cu celălalt sau folosesc o anumită funcție a unuia sau a mai multor atribute. Nodurile-frunză oferă o clasificare care se aplică tuturor instanțelor care ajung la frunză, un set de clasificări sau o distribuție de probabilități peste toate clasificările posibile.

Pentru a clasifica o instanță necunoscută, aceasta este direcționată descendent în arborele de decizie în funcție de valorile atributelor testate în noduri succesive, iar când se ajunge la o frunză, situația este clasificată potrivit clasei asociate frunzei. Dacă atributul care este testat într-un nod este unul nominal, numărul de ramuri este de obicei, numărul posibil de valori ale atributului. În acest caz, pentru că există o ramură pentru fiecare valoare posibilă, același atribut nu va mai fi reanalizat în continuare de-a lungul arborelui.

Uneori valorile atributelor sunt divizate în două submulțimi, iar ramurile arborelui doar în două moduri în funcție de submulțimea în care valoarea se află în arbore, în acest caz, atributul poate fi testat de mai multe ori într-o parcurgere. Dacă atributul este numeric, testul unui nod determină de obicei, dacă valoarea sa este mai mare sau mai mică decât o constantă prestabilită, oferind astfel o divizare binară.

Alternativ, o divizare ternară poate fi folosită, caz în care există mai multe posibilități. Dacă valoarea lipsă este considerată ca o valoare a atributului de sine stătătoare, aceasta va crea o a treia ramură.

O alternativă pentru un atribut numeric întreg ar fi divizarea ternară, astfel: mai mic decât, egal cu, mai mare decât.

O alternativă pentru un atribut cu valori reale pentru care „egal cu” nu este o opțiune semnificativă, ar fi de a testa un interval, nu doar o singură constantă, și din nou vom avea o divizare ternară, astfel: sub interval, inclus în interval, mai mare decât intervalul.

Un atribut numeric este adesea testat de mai multe ori de-a lungul unei căi descendente a arborelui, de la rădăcină la o frunză, fiecare testare implicând o constantă diferită.

3.4.2 Metode de exprimare a condițiilor de testare a atributelor

Pentru a ilustra metodele de clasificare, vom folosi un set de date despre vreme de dimensiune redusă care face referire la condițiile prielnice pentru a juca un anumit joc. În general, situațiile într-un set de date sunt caracterizate de valorile atributelor, care măsoară diferite aspecte ale situației.

În acest caz există patru atribute: Aspectul vremii (Outlook), Temperatura (Temperature), Umiditate (Humidity) și Vânt (Windy). Rezultatul este decizia cu privire la a juca sau a nu juca , da (yes), respectiv nu (no).

Toate cele patru atribute au valori exprimate prin categorii simbolice, acestea fiind prezentate în tabelul de mai jos (Tabelul 3.1).

Aspectul vremii poate fi însorit (sunny), înnorat (overcast) sau ploios (rainy), temperatura poate fi foarte caldă (hot), moderată (mild) sau răcoroasă (cool); umiditatea poate să fie ridicată (high) sau normală (normal); vântul poate fi prezent sau absent.

Acest lucru creează 36 de combinații posibile (3 3 2 2 = 36), dintre care 14 sunt prezente în setul de exemple introdus.

Tabelul 3.1 Date meteorologice cu atribute simbolice

Setul de date poate fi dat într-o formă mai complexă atunci când două dintre atribute – Temperatura și Umiditatea – au valori numerice (Tabelul 3.2). Aceasta este numită problema cu atribute numerice. Ținând cont și de existența a două atribute simbolice din totalul de patru atribute, se obține de fapt o problemă cu atribute mixte, deoarece nu toate atributele sunt numerice.

Tabelul 3.2 Date meteorologice cu atribute simbolice și numerice

Metode de discretizare

Atributele numerice se pot converti în cele nominale cu ajutorul metodele de discretizare. Procedurile de discretizare care fac uz de valorile variabilei de decizie (etichetele de clasă) se numesc metode de discretizare supervizată.

Discretizarea se face în raport cu un anumit criteriu de partiționare, iar măsurile bazate pe entropie au fost cele tradițional folosite.

Un astfel de demers a fost introdus de Fayyad & Irani (1993), care utilizează cantitatea de informație bazată pe entropia de clasă a partițiilor candidate, în scopul selectării delimitatorilor dintre diviziunile partiției. Mai întâi se găsește un singur delimitator, ce minimizează media ponderată a entropiilor de clasă asociate celor două diviziuni ale partiției, iar apoi se aplică recursiv procedura de discretizare fiecăreia dintre diviziunile induse.

O euristică bazată pe MDLP este de asemenea utilizată, pentru a controla numărul de intervale produse pentru partiția fiecărui domeniu.

Presupunem că nodul curent conține o mulțime de date , formată din cazuri (exemple). Fiecare domeniu al unui predictor continuu, se consideră inițial nepartiționat, adică este format dintr-un singur interval ce acoperă întregul domeniu.

Dacă există valori distincte ale predictorului respectiv în mulțimea curentă de exemple, atunci vor exista delimitatori potențiali ce ar putea fi folosiți pentru partiționarea domeniului .

În cazul unei discretizări dihotomice stricte, s-ar genera astfel o partiție de forma: .

Pentru a găsi delimitatorul ce maximizează criteriul de divizare pentru predictorul în nodul curent , exemplele din sunt sortate în raport cu valorile lui pentru a obține o secvență ordonată de valori distincte: .

Fiecare pereche de puncte adiacente sugerează un potențial delimitator .

Totuși, în afara păstrării doar a valorilor distincte, există și o altă cale de a reduce numărul potențial al delimitatorilor.

Fayyad a arătat, că numai valorile lui pentru care se trece de la o valoare a variabilei de decizie la altă valoare (are loc o schimbare de clasă), pot fi utilizați ca delimitatori, deoarece numai pentru aceștia se obține informația maximă în clasificare. Altfel spus, dacă și corespund aceleiași clase, un delimitator plasat între ele nu poate conduce la o partiție cu un câștig de informație maxim.

Pentru exemplificare, vom folosi datele din tabelul 3.2 cu privire la predictorul „Temperatură”. Secvența ordonată a valorilor acestui predictor și etichetele de clasă corespunzând variabilei de decizie („joc golf”) sunt prezentate în tabelul de mai jos (Tabelul 3.3).

Tabelul 3.3 Secvența ordonată a predictorului „Temperatura”

și etichete de clasă pentru variabila de decizie d

Pentru a găsi perechile adiacente ce pot fi utilizate în calculul potențialilor delimitatori, se rețin doar valorile distincte, iar dintre acestea se vor folosi efectiv doar cele reprezentând granițele de clasă.

În plus, valorile cu apariții repetate ce sunt asignate la clase diferite (cum este cazul valorii 72) vor fi și ele reținute. Pentru exemplul nostru, se obțin 7 potențiali delimitatori (Tabelul 3.4).

Tabelul 3.4 Delimitatori

Numărul punctelor ce candidează pentru statutul de delimitator s-a redus astfel de la 13 la 7. În general, vom admite că există clase , , , (în exemplul nostru , deci „da”, „nu”). Fie proporția exemplelor din ce aparțin clasei , incertitudinea reziduală în clasificare este dată de entropia claselor:

adică: , unde („da”), („ nu”), iar . După ce mulțimea de exemple este partiționată de un delimitator , entropia informației de clasificare este exprimată ca medie ponderată a entropiilor de clasă rezultate, astfel:

unde este numărul de diviziuni ale partiției generate pentru predictorul .

Delimitatorul ce va fi selectat pentru generarea partiției dintre toți delimitatorii candidați, va fi acela care îndeplinește una dintre următoarele condiții alternative (echivalente):

– minimizează ;

– maximizează ) ;

– maximizează .

3.4.3 Construirea arborilor de decizie

Metoda care a fost descrisă folosind criteriul câștigului de informație este aceeași cu cea cunoscută drept algoritmul ID3. Utilizarea raportului de câștig al informației (Gain ratio) a fost una din multele îmbunătățiri care au fost aduse algoritmului ID3 de-a lungul anilor. Quinlan l-a descris ca fiind robust într-o varietate mare de circumstanțe.

Deși este o soluție robustă și practică, acesta sacrifică o parte din motivarea pur teoretică a criteriului câștigului de informație. O serie de îmbunătățiri aduse ID3 au culminat cu un sistem practic și influent în inducția arborilor de decizie, numit C4.5. Aceste îmbunătățiri includ, metode care se ocupă de atributele numerice, valorile absente, datele afectate de perturbații și generarea regulilor din arbori.

Problema construirii unui arbore de decizie poate fi exprimată în mod recursiv. În primul rând, se selectează un atribut care se plasează în nodul rădăcină și se creează o ramură pentru fiecare valoare posibilă. Acesta va diviza setul de exemple în subseturi, unul pentru fiecare valoare a atributului. Acum procesul poate fi repetat recursiv pentru fiecare ramură în parte, folosind doar acele exemple care chiar ating ramura. Dacă se întâmplă ca toate exemplele folosite într-un nod sa aibă aceeași clasificare, trebuie oprită dezvoltarea acelei părți a arborelui.

Singurul lucru care mai trebuie decis este cum să se determine care atribut trebuie divizat, fiind dat un set de exemple cu clase diferite. Să luăm în considerare datele referitoare la vreme descrise anterior. Există patru posibilități pentru fiecare divizare și la nivelul cel mai înalt ele produc arbori (Figura 3.8). Pasul următor ar fi, să ne decidem ce alegere este mai bună. Numerele de clase „da” și „nu” sunt prezentate pe frunze. Orice frunză cu doar o clasă – „da” sau „nu” – nu va trebui divizată mai departe, iar procesul recursiv în josul ramurii va lua sfârșit. Pentru că ne dorim arbori mici, am vrea ca acest lucru să se întâmple cât mai repede. Dacă am avea o măsură pentru puritatea fiecărui nod, am putea alege atributul care produce cel mai pur nod.

Sursa: Witten & Frank (2005)

Figura 3.8 Posibilitățile de împărțire și ramurile binare

produse pentru datele referitoare la vreme

Măsura purității pe care o vom folosi este numită informație, și este măsurată în unități (biți). Asociată cu un nod al arborelui, aceasta reprezintă cantitatea de informație ce se presupune că va fi necesară pentru a specifica dacă un nou exemplu trebuie clasificat „da” sau „nu” , dat fiind faptul că exemplul a ajuns în acel nod. Spre deosebire de biții din memoria unui calculator, cantitatea de informație așteptată implică fracțiuni ale unui bit și este adesea mai mică decât unu. Calculul său se face pe baza numărului de clase „da” și „nu” în nod.

Când evaluăm primul arbore din figura de mai sus, numărul claselor cu „da” (yes) și „nu” (no) în nodurile frunză sunt [2,3], [4,0] și [3,2].

Valorile entropiei în aceste noduri sunt:

H([2, 3]) = 0.971 biți, H([4, 0]) = 0.0 biți, H([3, 2]) = 0.971 biți.

Putem a calcula entropia medie a acestora, luăm în considerare numărul de exemple ce corespund fiecărei ramuri, cinci pe prima și trei și patru pe cea de-a doua:

H([2,3], [4,0], [3,2]) = (5/14)0.971+(4/14)0+(5 14)0.971 = 0.693 biți.

Această entropie medie reprezintă cantitatea de informație pe care o presupunem ca fiind necesară pentru a specifica clasa unui nou exemplu, dată fiind structura arborelui din figură.

Înainte de crearea oricăreia din structurile de formare ale arborelui din figura de mai sus, exemplele de instruire de la rădăcină conțineau nouă noduri „da” și cinci noduri „nu”, corespunzând unei valori a entropiei de H([9,5]) = 0.940 biți. Prin urmare arborele din figură este responsabil pentru câștigul de informație:

InfoGain(Aspectul vremii) = H ([9,5]) – H ([2,3], [4,0], [3,2]) = 0.940 – 0.693 = 0.247 biți, care poate fi interpretat ca valoarea informațională a creării unei ramuri pentru atributul „Aspectul vremii ” (outlook ). În continuare, vom calcula câștigul de informație pentru fiecare atribut și vom alege pe acela pentru care câștigul de informație în urma divizării este cel mai mare. În situația din figura 3.7 avem:

InfoGain (Aspectul vremii) = 0.247 biți,

InfoGain (Temperatura) = 0.029 biți,

InfoGain (Umiditate) = 0.152 biți,

InfoGain (Vânt) = 0.048 biți.

Deci, vom selecta „Aspectul vremii” (outlook ) ca atribut de divizare în rădăcina arborelui. Din fericire, aceasta se potrivește cu intuiția noastră, fiind cea mai bună variantă. Este singura alegere în care un nod este complet pur, iar acest lucru oferă un avantaj considerabil față de celelalte atribute. Atributul „Umiditate” ar fi următoarea alegere în raport cu criteriul InfoGain (inferioară atributului „Aspectul vremii”, dar superioară celorlalte), divizarea bazată pe acest atribut producând un nod fiu mai mare, asociat valorii „normal” care este aproape complet pur. Apoi continuăm în mod recursiv.

Posibilitățile pentru încă o ramură în nodul atins , când atributul „Aspectul vremii” indică vreme însorită sunt prezentate în figura de mai jos (Figura 3.9). În mod clar, încă o divizare în raport cu atributul „Aspectul vremii” nu va produce nimic nou, prin urmare vom lua în considerare doar celelalte trei atribute. Câștigul de informație pentru fiecare se dovedește a fi:

InfoGain (Temperatura) = 0.571 biți,

InfoGain (Umiditate) = 0.971 biți,

InfoGain (Vânt) = 0.020 biți.

Deci vom selecta atributul „Umiditate” (humidity) ca fiind cel mai bun atribut de divizare în acest punct. Nu este nevoie să mai împărțim aceste noduri mai departe, așa că ramura este terminată.

Sursa: Witten & Frank (2005)

Figura 3.9 Ramurile arborelui extinse pentru datele meteorologice

Aplicarea continuă a aceleiași idei duce la arborele de decizie prezentat în figura de mai jos( Figura 3.10) pentru datele meteorologice. În mod ideal, procesul ia sfârșit când toate frunzele sunt pure, adică atunci când ele conțin toate exemplele ce au aceeași clasificare.

Sursa: Witten & Frank (2005)

Figura 3.10 Arbore decizional pentru datele meteorologice

Totuși, s-ar putea ca această situație fericită să nu fie posibilă, pentru că nu există nimic care să oprească setul de formare ce conține două exemple cu seturi identice de atribute, dar cu clase diferite. Prin urmare, ne oprim atunci când datele nu pot fi divizate mai departe.

Supra-ajustarea (overfitting)

Algoritmii ce ramifică arborele de decizie suficient pentru o clasificare perfectă a tuturor exemplelor de instruire, nu dau întotdeauna rezultate bune.

Acest lucru se întâmplă din următoarele cauze:

în primul rând – setul de date poate conține perturbații, și dacă învățăm toate exemplele vom învăța de asemenea și perturbațiile, ceea ce va reduce performanța noastră în setul de testare;

în al doilea rând – setul de instruire ar putea să nu fie un (suficient de) bun reprezentant al setului de date.

În oricare dintre aceste cazuri, algoritmii univariați și multivariați pot produce arbori care să supra-ajusteze exemplele din setul de instruire.

Pe măsură ce algoritmul de construire a arborelui adaugă noi noduri arborelui, precizia setului de instruire crește. Totuși, acuratețea setului de testare mai întâi crește, apoi scade după cum se poate vedea în figura de mai jos (Figura 3.11).

Sursa: http://isites.harvard.edu/fs/docs/icb.topic539621.files/lec7.pdf

Figura 3.11 Supra-ajustarea învățării

O posibilitate este să se „tundă” nodurile inutile sau subarborii după construirea arborelui, pentru a evita supra-ajustarea.

În aplicația noastră, vom folosi două tipuri de metode de „tundere”, metoda de „tundere” în prealabil a arborelui (pre-pruning) și metoda de „tundere” ulterioară a arborelui (post-pruning) , pe care le vom prezenta în continuare.

Metoda de „tundere” în prealabil a arborelui (pre-pruning)

Metoda de „tundere” în prealabil a arborelui (atunci când se construiește arborele de decizie) simplifică arborii de decizie, prin împiedicarea arborelui de a fi complet. O formă simplă de pre-pruning oprește extinderea arborelui de decizie în profunzime și se comportă surprinzător de bine (Holte, 1993). De obicei, arborele de decizie nu se mai extinde, atunci când nu mai este de așteptat un câștig de informație suficient. Metodele pre-pruning sunt mai eficiente decât metodele post-pruning, deoarece metodele pre-pruning termină generarea arborelui mai devreme, în timp ce metodele post-pruning necesită un pas de post-procesare în cazul în care arborele este redus pentru a obține un arbore mai mic. Pentru aplicarea metodei în prealabil vom opri divizarea atunci când raportul dintre instanțele din nodul respectiv și cel al tuturor instanțelor este sub un prag (de exemplu, 5%). Atunci vom crea un nod frunză și îl vom eticheta cu clasa , unde este clasa care are cele mai multe instanțe.Metodele pre-pruning au o performanță inconsistentă din cauza efectului de orizont (Breiman et al.,1984). Acest lucru se întâmplă atunci când expansiunea arborelui este oprită prematur. După ce acest comportament inconsistent a fost observat, cercetarea în acest domeniu a fost abandonată în favoarea unor metode post-pruning. Dar în cazul seturilor de date de dimenisuni mari, în care eficiența poate fi mai importantă decât precizia, metodele pre-pruning ar putea fi luate în considerare din nou.

Metoda de „tundere” ulterioară a arborelui (post-pruning)

Algoritmul metodei post-pruning este cel mai utilizat algoritm de reducere al arborelui de decizie, generând un arbore de decizie tuns T’, dintr-un arbore de decizie netuns. Tunderea arborelui înlocuiește un subarbore cu un nod frunză, caz în care acuratețea setului de date redus, distinct de setul de antrenare, se îmbunătățește.

Dacă un arbore de decizie este extins, folosind doar criteriul de oprire bazat pe omogenitate, nu va conține erori de resubstituție pentru setul de antrenare. Astfel, algoritmul post-pruning nu poate decât să sporească erorile de resubstituție. Cu toate acestea, atunci când arborele este extins se poate supra-ajusta spațiul de selecție prin specializarea excesivă a învățării. Deci, metoda post-pruning poate reduce rata de eroare pentru setul de date de testare.

În algoritmul post-pruning, în fiecare nod intern vom verifica schimbarea acurateții de clasificare pentru setul redus, prin tunderea subarborelui având acest nod ca rădăcină. Dacă acuratețea clasificării nu scade, vom hotărî să tundem acest subarbore transformându-l într-un nod frunză. Arborele de decizie din figura de mai jos, prezintă cazul în care nodurile numerotate 8 și 9 sunt reduse (Figura 3.12). După tundere, subarborele de sub nodul de decizie 7 este transformat într-un nod frunză.

Figura 3.12 Subarborele redus

În algoritmul post-prunning vom folosi un alt set decât seturile de instruire și testare, numit set de tundere. Prin urmare, în aplicația noastră vom împărți întregul set de date în două părți egale (un set de instruire și un set de testare) și apoi vom lua 80% din setul de instruire, pentru a forma setul de expandare și 20% pentru a obține setul de tundere. Un dezavantaj observat al acestei împărțiri este că se reduce numărul de cazuri de instruire implicate în inducția arborelui, care nu este de dorit pentru seturi mici de date.

3.4.4 Algoritmi de acoperire. Construirea regulilor

După cum am observat, algoritmii arborilor de decizie se bazează pe o abordare „divide-and-conquer” pentru problema de clasificare. Ei lucrează de „sus în jos”, căutând la fiecare etapă drept atribut de divizare pe acela care separă cel mai bine clasele și apoi, sunt procesate recursiv subproblemele care rezultă din divizare.

Această strategie generează un arbore de decizie, care, dacă este necesar, poate să fie transformat într-un set de reguli de clasificare. Regulile unui arbore de decizie reprezintă căile de la nodul rădăcină la nodurile frunză.

O abordare alternativă este de a lua fiecare clasă pe rând și de a căuta o modalitate de a acoperi toate cazurile din ea, dar în același timp excluzând cazurile care nu sunt în clasă.

Această abordare este numită, algoritm de acoperire, deoarece la fiecare etapă se va identifica o regulă care „acoperă” unele dintre cazuri. Prin însăși natura sa, acest algoritm de acoperire duce la un set de reguli, mai degrabă decât la un arbore de decizie.

Acoperirea poate fi vizualizată într-un spațiu bidimensional de cazuri ca în figura de mai jos (Figura 3.13a). Pentru început realizăm o regulă de acoperire pentru „a”., iar pentru primul test din această regulă, împărțim spațiul vertical, așa cum se arată în imaginea din centru. Acest lucru ne dă începutul regulii: Dacă x > 1.2 , atunci clasa = a.

a)

b)

Sursa: Witten & Frank (2005)

Figura 3.13 Algoritm de acoperire:

a) care acoperă cazurile b) arborele de decizie pentru aceeași problemă

Cu toate acestea, regula nu acoperă doar pe „a”, dar și mulți „b”, deci un nou test este adăugat la regulă, prin divizarea în continuare a spațiului orizontal așa cum se arată în a treia diagramă: Dacă x > 1.2 și y > 2.6 , atunci clasa = a.

Acest lucru oferă o regulă de acoperire pentru toți „a”, cu excepția unuia dintre ei. Este probabil oportun să ne oprim aici, dar în cazul în care s-ar simți nevoia să se acopere și acest ultim „a” , probabil o altă regulă ar fi necesară, care ar fi de forma: Dacă x > 1.4 și y < 2.4 , atunci clasa = a.

Aceeași procedură conduce la următoarele două reguli ce acoperă „b”:

Dacă x 1.2 , atunci clasa = b;

Dacă x > 1.2 și y 2.6 , atunci clasa = b.

Din nou, un „a” este eronat acoperit de aceste reguli. Dacă ar fi fost necesar să fie exclus, ar fi trebuit mai multe teste să fie adăugate la a doua regulă, și ar fi fost nevoie să fie introduse reguli suplimentare pentru a acoperi pe acei „b” pe care aceste noi teste îi exclud.

Reguli de clasificare versus arbori de decizie

Un algoritm „divide-and-conquer” operează pe aceleași date într-un mod destul de similar cu un algoritm de acoperire. El ar putea împărți mai întâi setul de date folosind atributul x și s-ar ajunge, probabil, la divizarea acestuia în același loc, x = 1.2.Totuși, în timp ce algoritmul de acoperire este preocupat doar cu acoperirea unei singure clase, divizarea ar lua ambele clase în considerare, deoarece algoritmii „divide-and-conquer” creează o singură descriere a conceptului care se aplică tuturor claselor.

A doua divizare ar putea fi, de asemenea, în același loc, y = 2.6, conducând la cel de-al doilea arbore de decizie prezentat mai sus (Figura 3.13b). Acest arbore corespunde exact setului de reguli, iar în acest caz nu există, de fapt, nicio diferență între algoritmul de acoperire și algoritmul „divide-and-conquer”.

În multe situații există o diferență între reguli și arbori din punct de vedere al perspicacității reprezentării. De exemplu, regulile pot fi simetrice, în timp ce arborii trebuie să aleagă la început un atribut pentru a diviza, iar acest lucru poate duce la arbori care sunt mult mai mari decât un set echivalent de reguli.

O altă diferență este aceea că, în cazul mai multor clase, o divizare a arborelui de decizie ia în considerare toate clasele, încercând să maximizeze puritatea divizării, în timp ce metoda generării regulilor se concentrează pe o singură clasă la un moment dat, indiferent de ce se întâmplă cu celelalte clase.

3.5 Analiza literaturii de specialitate privind utilizarea metodelor clasice de estimare statistică în predicția falimentelor

Ohlson (1980) a introdus metoda regresiei logistice în problematica literaturii de anticipare a eșecului corporativ, aducând argumente împotriva analizei discriminant multidimensională (MDA) care are mai multe constrângeri restrictive pentru gruparea în firme solvabile/insolvabile și solicitarea de predictori distribuiți normal. A aflat că rezultatul modelului MDA, care este o clasificare ordinală, nu oferă nimic mai mult decât probabilitatea neplății. În plus, el a criticat procedeul de îmbinare al modelelor MDA utilizate, procedeu în care au fost alese drept criterii, mărimea firmei și tipul de industrie. El susținea mai degrabă folosirea variabilelor drept predictori, decât folosirea lor ca îmbinare, introducând analiza logit condițională în estimarea probabilității de neplată.

Scott (1981) a comparat studiile lui Beaver (1967), Altman (1968), Deakin (1972) și Altman et al. (1977), din punctul de vedere al clarității clasificării și aderenței lor la propriul context conceptual despre faliment. Scott sublinia faptul că abordarea selecției variabilelor ar putea cauza erori în clasificare, dacă variabilele predictive alese au fost folosite de companii în perioade diferite de perioada inițială. El a concluzionat că din toate modelele multidimensionale, modelul ZETA este poate cel mai convingător și deține o putere discriminatorie mare, incluzând date contabile și bursiere, cât și câștiguri din datorii.

Constrângerile statisticilor tradiționale au reprezentat permanent o temă de discuție, fiind criticate dur, motivând specialiștii să facă o schimbare folosind modele de estimare structural-financiară și modele neparametrice.

Messier & Hansen (1988) au folosit algoritmul inductiv ID3 în caz de neplată a împrumutului și predicția falimentului. Rezultatele au fost evaluate prin compararea rezultatelor analizei efectuate, ID3 surclasând analiza datelor, modelele având atribute la fel de predictive.

Joos et al. (1998) au comparat eficiența arborelui de decizie și analizei logit într-un mediu de clasificare al creditelor, utilizând o bază de date extinsă a uneia din cele mai mari bănci belgiene. Ei susțineau că modelele logit erau foarte importante într-un proces de decizie a creditului, iar pe de altă parte pentru bazele mici de date, arborele de decizie era mai eficient în acuratețea clasificării.

Varetto (1998) a analizat comparația dintre GA și LDA și a concluzionat că, algoritmul genetic este metoda eficientă pentru diagnoza insolvenței, deși rezultatul LDA a fost superior celui GA.

Sarkar & Siriram (2001) au dezvoltat modelul bayesian pentru a ajuta contabilii în evaluarea eșecurilor băncilor. Modelul și performanței clasificatorului NB în acuratețea clasificării, a fost comparabilă cu cea a algoritmului arborelui de decizie C4.5. Ei au subliniat faptul că, puterea de predicție a NB crește, atunci când în model sunt folosiți indici financiari recenți.

CAPITOLUL 4

EVALUAREA ȘI EXAMINAREA PERFORMANȚEI UNUI MODEL DE CLASIFICARE

În problemele de clasificare, principala preocupare se referă la cea mai bună precizie a clasificării, dar cu toate acestea, identificarea caracteristicilor (atributelor) care au cea mai mare putere de separare este, de asemenea, foarte importantă de investigat. Se cunoaște faptul că, pentru seturi de date foarte mari, clasificarea este dependentă de selecția caracteristicilor. Cercetarea reducerii numărului de atribute pentru o problemă de clasificare este subiectul principal al numeroaselor studii.

Găsirea celei mai bune combinații de caracteristici pentru clasificare presupune un proces de combinații posibile ale celor n caracteristici disponibile, adică se ia în considerare un atribut la un moment dat, și apoi se investighează toate combinațiile de două caracteristici, trei caracteristici, etc. În acest sens, seturile mari de date sunt foarte dificil de reprezentat. Această problemă este, de asemenea, cunoscută în literatura de specialitate ca „blestemul dimensionalității”. Pe lângă reducerea dimensionalității datelor, selectarea unui număr mic de caracteristici poate îmbunătății clasificarea și poate da o mai bună înțelegere a procesului de bază care a generat aceste date. În continuare, vom prezenta matricea de confuzie, curba ROC și aria de sub curba ROC (AUC).

4.1 Matricea de confuzie

Provost et al. (1998) au demonstrat faptul că o matrice de confuzie conține informații despre clasificările actuale și anticipate, efectuate de către un sistem de clasificare.

Performanța unor astfel de sisteme este evaluată în mod obișnuit folosind datele din matricea de confuzie. Un exemplu de matrice de confuzie pentru clasificatorul a două clase este prezentat în tabelul următor (Tabelul 4.1).

Tabelul 4.1 Exemplu de matrice de confuzie

În contextul exemplului nostru, intrările matricii de confuzie sunt următoarele:

a este numărul de predicții corecte pentru cazul negativ;

d este numărul de predicții corecte pentru cazul pozitiv;

b este numărul de predicții incorecte pentru cazul pozitiv;

c este numărul de predicții incorecte pentru cazul negativ .

Condițiile standard care trebuie să fie îndeplinite sunt:

Acuratețea (AC) este raportul numărului total de predicții care sunt corecte

(4.1)

Rata adevărat pozitivă (TP) este proporția cazurilor pozitive clasificate corect

(4.2)

Rata fals pozitivă (FP) este proporția cazurilor negative care au fost clasificate incorect ca pozitive

(4.3)

Rata adevărat negativă (TN) este proporția cazurilor negative care au fost clasificate corect

(4.4)

Rata fals negativă (FN) este proporția cazurilor pozitive care au fost clasificate incorect ca negative

(4.5)

Precizia (P) este proporția cazurilor pozitive predictate care au fost clasificate corect ca negative

(4.6)

Kubat et al.(1998) au demonstrat faptul că, precizia determinată în ecuația (4.1) nu poate fi o măsură de performanță adecvată atunci când numărul de cazuri negative, este mult mai mare decât numărul de cazuri pozitive. Să presupunem că există 1000 de cazuri, din care 995 sunt cazuri negative și 5 sunt cazuri pozitive.

Dacă sistemul le clasifică pe toate ca negative, precizia va fi de 99,5%, cu toate că clasificatorul a ratat toate cazurile pozitive.

Kubat et al.(1998) au arătat că există și măsuri ale performanței care includ rata adevărat pozitivă (TP) într-un produs, cum ar fi de exemplu, media geometrică (g-media), din ecuațiile (4.7) și (4.8), și F-măsura (Lewis & Gale,1994), așa cum este definită în ecuația (4.9).

(4.7)

(4.8)

(4.9)

În ecuația (4.9), are o valoare de la 0 la infinit și este utilizat pentru a controla ponderea atribuită de TP și P. Din ecuațiile (4.7), (4.8) și (4.9) orice clasificator evaluat va avea o valoare egală cu 0, dacă toate cazurile pozitive sunt clasificate incorect.

Swets (1988) a demonstrat că o altă modalitate de a examina performanța clasificatorilor, pe lângă matricea de confuzie este analiza ROC, care va fi prezentată în continuare.

4.2 Curba ROC. Aria de sub curba ROC

Analiza ROC a fost inițial dezvoltată în domeniul teoriei deciziei statistice, dar utilizarea sa a fost extinsă în 1950 la domeniul teoriei de detectare a semnalelor (Signal Detection Theory), în timpul celui de-al doilea război mondial pentru analiza imaginilor de pe ecranul radar.

Inițial, curbele ROC au fost utilizate în teoria detectării semnalelor pentru a evalua compromisul dintre ratele de eroare și cele de clasificare corectă. Operatorii radar trebuiau să decidă dacă o imagine pe ecranul radarului reprezintă un obiectiv inamic, o navă a armatei proprii sau doar un zgomot. Teoria detectării semnalelor măsoară capacitatea operatorilor radar de a face aceste deosebiri importante. Abilitatea lor de a face acest lucru a fost numită, caracteristica receptorilor de operare.

Fawcett (2006) a subliniat că „în ultimii ani curbele ROC au fost utilizate din ce în ce mai mult în cadrul stabilirii preciziei metodelor de clasificare”. După anii 1970, teoria detectării semnalelor a fost recunoscută ca fiind utilă pentru interpretarea rezultatelor testelor medicale. Un grafic ROC este o tehnică utilizată pentru vizualizarea, organizarea și selectarea clasificatorilor bazați pe performanța lor. Graficele ROC sunt utilizate în domeniul medical pentru testarea diagnosticelor, iar în ultimii ani au fost utilizate tot mai mult în studiile de cercetare al mașinilor de învățare și Data Mining.

Un grafic ROC este un grafic cu rata fals pozitivă pe axa X și rata adevărat pozitivă pe axa Y.

Semnificația punctelor graficului ROC este următoarea:

punctul (0,1) reprezintă clasificatorul perfect, deoarece clasifică corect toate cazurile pozitive și cazurile negative, rata fals pozitivă este 0 (nici unul), iar rata adevărat pozitivă este 1 (toate);

punctul (0,0) reprezintă un clasificator care predictează toate cazurile negative,

punctul (1,1) corespunde unei clasificator care predictează toate cazurile pozitive;

punctul (1,0) este un clasificator care este incorect pentru toate clasificările.

În multe cazuri, un clasificator are un parametru care poate fi ajustat pentru a crește TP în detrimentul creșterii FP sau a micșora FP în detrimentul micșorării TP.

Fiecare setare a parametrului furnizează o pereche (FP, TP) și o serie de astfel de perechi care pot fi folosite pentru a trasa o curbă ROC.

Un clasificator non-parametric este reprezentat de un singur punct ROC, corespunzător perechii (FP, TP).

Un exemplu de grafic ROC cu două curbe ROC etichetate C1 și C2, și două puncte ROC etichetate P1 și P2 este prezentat în figura de mai jos (Figura 4.1). Algoritmii non-parametrici produc un singur punct ROC pentru un anumit set de date.

Sursa:http://www2.cs.uregina.ca/~dbd/cs831/notes/ROC/ROC.html

Figura 4.1 Exemplu de grafic ROC

Caracteristicile graficelor ROC:

o curbă ROC este independentă de clasa de distribuție sau costurile de eroare (Provost et al.,1998);

un grafic ROC strânge toate informațiile conținute în matricea de confuzie, deoarece FN este complementul lui TP și TN este complementul lui FP (Swets,1988).

curbele ROC furnizează un instrument vizual pentru examinarea capacității unui clasificator de a identifica cazurile pozitive clasificate corect și numărul de cazuri negative clasificate incorect.

Fawcett (2006) a arătat că o curbă ROC este o reprezentare bidimensională a performanței clasificatorului.

Swets (1988) sugerează în lucrările sale, că aria de sub curba ROC (AUC) poate fi utilizată ca o măsură a acurateții în multe aplicații.

Pentru a compara clasificatoarelor trebuie redusă performanță ROC la o singură valoare scalară care reprezintă performanță așteptată (Fawcett, 2006). O metodă comună este de a calcula aria de sub curba ROC (Hanley & McNeil, 1982).

Deoarece AUC este o porțiune din aria pătratului unitate, valoarea sa va fi întotdeauna între 0 și 1. Cu toate acestea, pentru că presupunerea aleatorie produce linia diagonală între (0, 0) și (1, 1), care are o suprafață de 0.5, nici un clasificator realistic n-ar avea aria de sub curba ROC, mai puțin de 0.5.

Aria de sub curba ROC are o proprietate statistică foarte importantă, în sensul că, clasificatorul care va clasa aleator cazurile pozitive este mai mare decât clasificatorul care va clasa aleator cazurile negative.

Provost & Fawcett (1997) au demonstrat că, folosirea acurateții clasificării pentru compararea clasificatorilor nu este indicată, ci este indicată doar în cazul în care distribuțiile clasei sunt complet necunoscute și există un singur clasificator pentru a gestiona orice situație. Ei propun o metodă de evaluare a clasificatorilor, folosind un grafic ROC, costul inexact și informațiile clasei de distribuție.

Un alt mod de a compara punctele ROC este prin utilizarea unei ecuații care echivalează precizia cu distanța euclidiană de clasificatorul perfect, adică punctul (0,1) pe grafic. A fost inclusă ponderea factorului, care ne permite să definim costurile de clasificare raportate eronat, atunci când aceste informații sunt disponibile.

Definim ca o distanță bazată pe măsură performanței pentru un punct ROC și o calculăm, folosind ecuația:

(4.10)

unde W este un factor, care variază de la 0 la 1, folosit pentru a atribui importanța celor fals pozitive și fals negative.

variază de la 0 pentru clasificatorul perfect, de la pentru un clasificator care clasifică toate cazurile incorect și diferă de , și – măsura, când este egală cu zero atunci când toate cazurile sunt clasificate corect.

Cu alte cuvinte, un clasificator evaluat cu primește o anumită încredere pentru clasificarea corectă a cazurilor negative, indiferent de acuratețea lor în identificarea corectă a cazurilor pozitive.

4.3 Comentarii privind evaluarea performanțelor unui model de clasificare

Predicția performanței unui model de clasificare a fost utilizată pe scară largă ca și criteriu principal de comparare a capacității de predicție a clasificatorilor, cum ar fi: arborii de decizie, rețelele neuronale și clasificatorul bayesian naiv.

În general, studiile legate de algoritmii de învățare sunt concentrate pe performanța necondiționată, deoarece calitatea algoritmilor de învățare este măsurată atunci când datele de instruire sunt tratate ca variabile aleatoare.

Cu toate acestea, Dietterich (1998) și Schiavo & Hand (2000), au arătat că performanța condiționată prezintă mai mult interes atunci când, un cercetător folosește un anumit set de date și dorește să știe cât de bine o funcție estimează învățarea setului de date dat și dacă va funcționa pe exemplele viitoare.

Spackman (1989) a demonstrat valoarea curbelor ROC în evaluarea și compararea algoritmilor, studiile sale fiind printre primele care au adoptat graficele ROC în procesul de învățare automată.

În ultimii ani s-a înregistrat o creștere a utilizării graficelor ROC în comunitatea învățării automate, datorită faptului că obținerea acurateții unei simple clasificări este de multe ori o măsură slabă de evaluare a performanței, după cum au arătat în studiile lor, Provost & Fawcett (1997) și Provost et al.(1998).

Swets et al.(2000) au arătat, faptul că graficele ROC au fost mult timp folosite în teoria detectării semnalului pentru descrierea schimbului între ratele de succes și ratele de alarmă falsă ale clasificatorilor”.

Swets (1988) subliniază faptul că „analiza ROC a fost extinsă pentru a fi utilizată în vizualizarea și analiza comportamentului sistemelor de diagnosticare”.

Aria de sub curba ROC (AUC) este o măsură bazată pe rangul performanței de clasificare, câștigând o popularitate considerabilă în comunitatea învățării automate pe parcursul ultimilor ani (Bradley,1997; Provost et al.,1998; Waegeman et al.,2008). AUC este o măsură bazată pe ierarhizarea clasificării performanței, care a câștigat o popularitate substanțială în ultimii ani în comunitatea mașinilor de învățare.

Valoarea sa poate fi interpretată ca fiind probabilitatea ca un clasificator să distingă un exemplu pozitiv de un exemplu negativ ales aleator. Contrar măsurilor alternative ale performanței, AUC este invariabilă la distribuțiile de clasă relative și la costul erorilor specifice clasei. Aceste proprietăți au determinat utilizarea măsurii AUC în diagnosticele medicale (Swets,1988), prelucrarea limbajului natural (Pahikkala et al., 2009) și evaluarea textului biomedical (Airola et al.,2008; Miwa et al.,2009).

Avantajul principal al AUC ca indicator de performanță al regulii de clasificare independent de alegerea pragului de clasificare, poate fi uneori un dezavantaj atunci când sunt comparate mai multe reguli.

În literatura de specialitate există numeroase studii care analizează proprietățile curbelor ROC. Sobehart & Keenan (2001) explică modul de utilizare al acestui concept pentru validarea modelelor interne de rating concentrându-se pe caracteristicile fundamentale al curbelor ROC, cum ar fi calcularea și interpretarea lor. Cu toate acestea, în articolele publicate de Sobehart et al.(2000) și Sobehart & Keenan (2001) nu sunt analizate măsurile prezentate din punct de vedere statistic.

Swets et al.(2000) au adus curbele ROC în atenția publicului larg cu articolul lor „Better Decisions through Science” publicat în revista Scientific American. Unul din subiectele abordate fiind: „Cum pot cei care iau decizii să se asigure că testele de diagnostic pe care le folosesc sunt cât mai exacte posibil, realizând cea mai bună diferențiere între persoanele care suferă de o boală și cei sănătoși?”. Răspuns: „Calea majoră o reprezintă alcătuirea așa numitelor curbe ROC”.

Arhitecții au inventat două dintre cele mai neconvenționale aplicații ale regulilor de estimare statistică. Regula arhitecturală se aplică clădirilor de operă fiind dezvoltată prin testarea de către dirijori a calității generale a sunetului din 23 de clădiri, printre care Operele din Buenos Aires, Dresden, Milano și Tokyo.

Opera din Tokyo, are o acustică stelară care poate fi emulată datorită unei reguli de predicție statistică. Inginerii de sunet au măsurat fizic mai multe proprietăți acustice individuale în fiecare din cele 23 de clădiri – precum întârzierile de timp dintre sunetul primit direct și cel reflectat, și difuzia undelor de sunet cauzată de lipsa uniformității pereților și tavanelor. Regula rezultată poate ghida în prezent construirea de facilități viitoare.

CAPITOLUL 5

TEHNICI DE INTELIGENȚĂ COMPUTAȚIONALĂ

Tehnicile de Inteligență Computațională se utilizează în rezolvarea problemelor ce nu pot fi rezolvate prin tehnici tradiționale sau când nu există suficiente informații despre o problemă în scopul elaborării unui model, pe baza căruia să se poată dezvolta un algoritm de rezolvare.

În acest capitol va fi prezentat, conceptul de Inteligență Computațională din literatura de specialitate și vor fi abordate două tehnici de Inteligență Computațională, respectiv rețele neuronale și mașini cu vectori suport, tehnici de mare interes și actualitate, având în vedere numărul mare de cercetări și articole publicate pe plan mondial.

5.1 Definirea conceptului de Inteligență Computațională

Dezvoltarea calculatoarelor digitale a făcut posibilă invenția sistemelor inginerești care gândesc ca oamenii și prezintă un comportament inteligent. Ramura de cunoaștere și știința care a apărut împreună cu astfel de sisteme, se numește Inteligența Artificială (AI).

În locul folosirii acestui nume general, pentru a acoperi practic orice abordare a sistemelor inteligente, comunitatea de cercetare a inteligenței artificiale restrânge sensul său prin reprezentări simbolice și manipulări într-un mod de sus în jos, după cum au arătat Craenen & Eiben (2003).

Cu alte cuvinte, AI construiește un sistem inteligent prin studierea primei structuri a problemei (de obicei, în termeni logici formali), apoi procedurile formale de raționament sunt aplicate acelei structuri.

Alternativ, abordările non-simbolice și de jos în sus (în care este descoperită structura rezultată dintr-o sursă neordonată) ale sistemelor inteligente sunt de asemenea cunoscute. Abordările convenționale pentru înțelegerea și predicția comportamentului unor astfel de sisteme bazate pe tehnici analitice se pot dovedi a fi insuficiente, chiar și în etapele inițiale de a stabili un model matematic adecvat.

Rudas (2002) subliniază că „mediul computațional utilizat într-o astfel de o abordare analitică poate fi categorică și inflexibilă, în scopul de a face față complexității sistemelor industriale din lumea reală. Se pare că în relațiile cu astfel de sisteme, trebuie să se confrunte cu un grad ridicat de incertitudine și tolerare a impreciziei, iar încercarea de a crește precizia poate fi foarte costisitoare”.

În 1994, nașterea Inteligenței Computaționale (CI) a fost atribuită la Congresul International de Inteligență Computațională (IEEE World Congress on Computational Intelligence , Orlando, Florida).

Din acel moment nu doar un număr mare de lucrări și manifestări științifice au fost dedicate Inteligenței Computaționale, dar au fost publicate numeroase definiții ale conceptului. În continuare, vor fi prezentate două definiții dintre cele mai interesante.

Prima definiție a fost propusă de Bezdek (1994) și va fi prezentată în cele ce urmează.

Definiția 1. Un sistem este numit sistem de calcul inteligent atunci când se ocupă numai cu date numerice, are o componentă de recunoaștere a formelor, și nu utilizează cunoștințele în sensul inteligenței artificiale și, în plus, atunci când începe să prezinte adaptivitate de calcul, toleranță la erori de calcul, viteză de abordare a răspunsului uman, ratele de eroare se aproximează cu performanța umană.

Marks (1993), în unul din articolele sale privind Inteligența Computațională, definește acest concept prin enumerarea elementelor constitutive, respectiv rețele neuronale, algoritmi genetici, sisteme fuzzy, programare evolutivă.

Eberhart et al.(1996) au formulat următoarea definiție și relația definiției lui cu cea a lui Bezdek.

Definiția 2. Inteligența Computațională este definită ca o metodologie care implică calculul (indiferent că este un calculator, creier uman, etc.) și care manifestă capacitatea de a învăța și/sau a face față situațiilor noi, astfel încât sistemul să fie perceput și să dispună de unul sau mai multe atribute de rațiune, cum ar fi: generalizarea, descoperirea, asocierea și abstractizarea.

5.2 Rețele neuronale

Rețelele neuronale (NN) sunt tehnici de Inteligență Computațională moderne, bazate pe construirea unui model matematic asemănător funcționării rețelelor neuronale biologice.

NN sunt utilizate în dezvoltarea modelelor predictive, în special atunci când există o bază de date foarte mare, fiind des utilizate în rezolvarea aplicațiilor din economie, informatică, inginerie, medicină, fiind cea mai utilizată tehnică dintre tehnicile de Inteligență Computațională (Chen & Shih, 2006) și (Boyacioglu et al.,2008).

Spre deosebire de alte tehnici de Inteligență Computațională, rețelele neuronale au avantajul că au o mare capacitate de autoinstruire și adaptabilitate.

În comparație cu metodele statistice, rețelele neuronale prezintă următoarele avantaje (Demyanyk & Hasan, 2009):

NN pot să realizeze presupuneri cu privire la distribuția statistică sau proprietățile datelor, fiind utile în aplicațiile practice;

NN se bazează pe abordările neliniare, astfel încât modelul să fie cât mai corect, atunci când se testează modelele de date complexe.

La mijlocul anilor 1980, Haykin a fost printre primii cercetători care au studiat rețelele neuronale, rezultatele studiilor sale fiind aplicate și în prezent. În anul 1999 a enunțat următoarea definiție a rețelelor neuronale: „Rețelele neuronale pot fi asimilate unor masive procesoare distribuite paralel, alcătuite din simple unități de procesare cu înclinație spre stocarea cunoștințelor experimentale și utilizarea lor ulterioară ”.

5.2.1 Concepte fundamentale în definirea rețelelor neuronale

O rețea neuronală este formată din două elemente fundamentale, neuronii care reprezintă un ansamblu de unități elementare de procesare și conexiunile care reprezintă o mulțime de legături între neuroni.

Într-o rețea neuronală există trei tipuri de neuroni:

neuronii de intrare care reprezintă valorile variabilelor de intrare, iar numărul neuronilor de intrare este numit strat de intrare;

neuronii ascunși care sunt dispuși pe straturi, numite straturi ascunse, aflate între stratul de intrare și cel de ieșire, numărul lor depinzând de complexitatea rețelei neuronale;

neuronii de ieșire care calculează valorile indicate de rețeaua neuronală și le compară cu anumite valori de referință, pentru a actualiza sau nu, ponderile conexiunilor.

Neuronul este o unitate de prelucrare informațională care poate propaga un semnal electrochimic, iar fiecare neuron din sistemul nervos central primește câte o informație de la ceilalți neuroni vecini cu ajutorul structurii de conexiuni, numite dendrite. Apoi, o procesează și trimite semnale răspuns prin intermediul canalului de comunicație, numit axon care și el la rândul lui se împarte în mii de ramuri.

Structura care se afla la capătul fiecărei ramuri, se numește sinapsă, și procesează semnalul transmis prin axon transformându-l într-un impuls electric care poate să stopeze sau să înceapă activitatea de la axon la neuronul la care este conectat.

Conform cercetărilor efectuate de Kohonen, primul neuron artificial a fost realizat în anul 1943 de către Warren McCulloch și Walter Pitts, fiind cunoscut sub numele de neuron McCulloch-Pitts sau unitate prag (Treshold unit).

Neuronul McCulloch-Pitts primește un semnal boolean (valorile 0 sau 1) pe fiecare dintre conexiunile sale de intrare, emițând la ieșire tot un semnal boolean. În orice model, neuronul artificial se aseamănă neuronului biologic fiind format dintr-un corp, un set de date de intrare și o ieșire.

Intrările sunt ponderate și însumate, iar suma obținută se aplică unei funcții , numită funcție de activare care determină ieșirea neuronului, reprezentând rezultatul problemei sau intrarea pentru alți neuroni.

Modelul neuronului McCulloch-Pitts este prezentat în figura următoare (Figura 5.1) este un neuron cu un set de date de intrare notate cu și cu o ieșire notată cu . Unitatea prag este liniară, și clasifică setul de date de intare în două clase diferite. Așadar ieșirea este binară.

O astfel de funcție poate fi descrisă matematic folosind următoarele ecuații:

(5.1)

(5.2)

unde semnifică ponderile aplicate intrărilor, este suma ponderilor și T este o constantă prag, este funcția de activare care determină ieșirea

Sursa: http://wwwold.ece.utep.edu/research/webfuzzy/docs/kk-thesis/kk-thesis-html/node12.html#figThreshold

Figura 5.1 Modelul neuronului McCulloch-Pitts

În continuare, vor fi prezentate câteva dintre cele mai cunoscute funcții de activare.

Funcția de activare treaptă f:ℝ→{0,1} definită prin:

Funcția de activare semn f:ℝ→{-1,1} definită prin:

Funcția de activare sigmoidală f:ℝ→(-1,1) definită prin:

unde a este parametrul pantă al sigmoidei.

Privit ca un mecanism singular un singur neuron artificial are un anumit număr m de intrări, notate cu valorile reale care sunt ponderate cu ponderile , însumate și apoi introduse într-o funcție de activare în scopul producerii ieșirii. Deci, putem spune că într-o rețea neuronală, o intrare cu valoarea reală care ajunge la intrarea în sinapsa conectată la neuronul , va fi înmulțită cu ponderea sinaptică.

În cazul acestui model neuronal, intrările (scalare) , reprezintă ieșirile altor neuroni conectați la neuronul , iar ponderile , reprezintă interconexiunile (sinapsele) între neuroni, ale căror valori pot fi și negative.

Intrările sunt ponderate, fiind apo i însumate, iar suma obținută se aplică unei funcții , numită funcție de activare care determină ieșirea neuronului, reprezentând rezultatul problemei sau intrarea pentru alți neuroni.

Din punct de vedere matematic, putem scrie următoarea ecuație ce reprezintă activitatea neuronului din rețeaua neuronală construită:

(5.3)

unde notația , reprezintă ieșirea corespunzătoare intrărilor.

De asemenea, trebuie menționat că neuronul artificial mai include și o intrare constantă notată cu , numită deplasare sau „bias” (Haykin,1999), care are scopul de a crește sau descrește valoarea de intrare a funcției de activare, în funcție de semnul său (pozitiv sau negativ).

Valoarea de ieșire a neuronului va fi exprimată de următoarea ecuație:

(5.4)

Dacă până în acest moment am considerat deplasarea ca un parametru extern, în cazul în care este considerat parametru intern, atunci este considerat pondere pentru intrarea .

Prin urmare, putem defini rețeaua neuronală artificială ca fiind un ansamblu de neuroni artificiali care au funcții diferite și sunt legați prin conexiuni care sunt de tip orientat sau direcțional. În continuare, putem spune că informația circulă de la un neuron la altul, numai într-un anumit sens cel care indică direcția fluxului calculelor într-o rețea.

Construcția unei rețele neuronale se face pe nivele, informația circulă într-un singur sens, astfel încât neuronii de intrare se conectează numai cu neuronii ascunși sau cu neuronii de ieșire ai rețelei, iar neuronii ascunși se conectează numai cu alți neuroni ascunși sau, direct cu neuronii de ieșire. În mod evident, neuronii de ieșire se conectează numai cu neuronii din straturile ascunse anterioare.

Numărul de conexiuni dintr-o rețea este teoretic nelimitat, singurele limitări sunt impuse doar de capacitatea de memorare și de viteza de prelucrare a sistemelor de calcul, unde sunt implementate rețelele neuronale.

Neuronii de intrare preiau din mediul extern, fără nici o transformare informațiile care sunt transmise neuronilor ascunși, apoi sunt transmise mai departe neuronilor de ieșire. Aceste unități transformă prin calcul intrările primite, în funcție de potențialul de activare al acestora, iar valorile produse de către neuronii de ieșire se numesc, valori indicate. Deci valoarea de ieșire pentru neuronii de intrare este chiar valoarea variabilei cu care unitatea este asociată, rolul acestor neuroni fiind doar de a transfera respectiva valoare către neuronii ascunși, sau către neuronii de ieșire ai rețelei.

5.2.2 Arhitectura și instruirea rețelei neuronale

Arhitectura rețelelor neuronale este apropiată de arhitectura creierului uman care este alcătuită din neuroni interconectați între ei, prin zeci de mii de conexiuni pentru fiecare pereche. În vederea realizării unei rețele neuronale care poate fi antrenată pentru a rezolva o anumită problemă și pentru a avea un anumit comportament, este important să se stabilească arhitectura rețelei, modul de operare al activităților desfășurate în timpul procesării informației și algoritmul de instruire.

În construirea arhitecturii unei rețele trebuie avut în vedere faptul că, într-un sistem dinamic exista o conexiune inversă atunci când ieșirea unui element din sistem influențează intrarea acelui element prin intermediul circuitului de reacție.

Prin urmare, o rețea neuronală are o structură de tip feedforward, dacă ieșirile neuronilor trec spre straturile următoare, și nu spre cele anterioare. Având în vedere faptul că neuronii sunt organizați într-unul sau mai multe straturi, Haykin în anul 1999 a împărțit tipurile de arhitectură a rețelei în următoarele trei categorii :

Rețele feedforward cu un singur strat (single-layer feedforward networks)

În acest tip de rețea, conexiunile de la un strat de neuroni către alt strat de neuroni se realizează într-un singur sens (Figura 5.2).

Sursa: http://en.wikibooks.org/wiki/Artificial_Neural_Networks/Feed-Forward_Networks

Figura 5.2 Arhitectura unei rețele feedforward cu un singur strat

Rețele feedforward multistrat (multilayer feedforward networks)

Spre deosebire de rețeaua cu un singur strat, în această rețea avem unul sau mai multe straturi „ascunse” (hidden layers) ale căror elemente sunt neuronii ascunși, care acționează între statul de intrare și cel de ieșire în vederea îmbunătățirii performanței rețelei (Figura 5.3).

Sursa: http://en.wikibooks.org/wiki/Artificial_Neural_Networks/Feed-Forward_Networks

Figura 5.3 Arhitectura unei rețele feedforward multistrat

Principiul de funcționare al acestei arhitecturi este următorul: nodurile sursă din stratul de intrare sunt valori de intrare pentru funcția de activare, iar rezultatul reprezintă intrările pentru neuronii din primul strat ascuns; aplicarea funcției de activare pentru intrările din primul strat de neuroni determină valorile de intrare pentru neuronii din cel de-al doilea strat ascuns, etc.; procedeul continuă până la ultimul strat pe care se află nodurile de ieșire.

Rețele recurente (reccurent networks)

Arhitectura unei rețele recurente spre deosebire de o rețea feedforward, are conexiuni înainte și înapoi între straturi, poate avea sau nu straturi ascunse de neuroni. Deci, putem spune că, se deosebește prin existența a cel puțin unui circuit de reacție, care are o importanță deosebită pentru algoritmul de învățare al rețelei (Figura 5.4).

Sursa: http://en.wikibooks.org/wiki/Artificial_Neural_Networks/Feed-Forward_Networks

Figura 5.4 Arhitectura unei rețele recurente

Instruirea unei rețele neuronale necesită o succesiune de operații, numite reguli de învățare care configurează rețeaua pentru efectuarea analizei sau predicției specifice tipului de probleme pentru care a fost realizată și instruită.

O rețea neuronală este construită sub forma unor straturi conectate în funcție de structura intrărilor și ieșirilor, iar ponderile sinaptice sunt actualizate pe baza unei analize a setului de instruire.

Regula de învățare reprezintă actualizarea, și se utilizează secvențial sau repetat până când valorile efective de ieșire ale rețelei neuronale sunt apropiate de valorile prestabilite.

Cele mai cunoscute reguli de învățare sunt învățarea hebbiană (hebbian learning) și învățarea cu corectarea erorii (error-correction learning).

Învățarea hebbiană (hebbian learning)

Această regulă de învățare este descrisă de Hebb în anul 1949 care precizează că dacă, rețeaua răspunde corect sau greșit pentru a anumită intrare, atunci ponderile trebuie modificate astfel încât să crească sau să scadă probabilitatea unui răspuns asemănător pentru intrări similare.

În continuare vom arăta cea mai simplă formă pentru învățarea hebbiană, propusă de Haykin:

(5.5)

unde semnifică ponderea sinaptică dinspre neuronul (intrare) către neuronul (ieșire) la momentul de timp n; – este ieșirea și – este intrarea, este o constantă pozitivă care reprezintă rata de învățare.

Formula obținută indică natura sinapsei Hebbiene, adică intrarea aplicată în mod repetat neuronului duce la creșterea ponderii sinaptice corespunzătoare lui.

Învățarea cu corectarea erorii (error-correction learning)

Această regulă de învățare stă la baza algoritmilor de învățare supervizată pentru rețelele de tip feedforward. Este cunoscut faptul că, în cadrul unei rețele ieșirea obținută din rețea este comparată cu o ieșire fixată, notată cu , iar eroarea obținută va fi .

În vederea minimizării erorilor, vom minimiza funcția:

(5.6)

Această regulă de învățare a fost demonstrată de Widrow & Hoff (1960) fiind cunoscută și sub numele de regula delta, care are forma :

(5.7)

În concluzie, putem afirma că ajustarea ponderilor sinaptice pentru conexiunea dintre doi neuroni este proporțională cu produsul dintre eroare și valoarea de intrare pentru conexiunea respectivă.

În ceea ce privește algoritmul de instruire a rețelei, avem două paradigme esențiale ale procesului de învățare:

învățarea „cu profesor”, din care face parte învățarea supervizată (supervized learning) și se utilizează în special în problemele de clasificare;

învățarea „fără profesor”, din care face parte învățarea nesupervizată (unsupervized learning) în care rețeaua primește inputurile, dar nu și ieșirile dorite.

5.2.3 Învățarea supervizată

Rețeaua neuronală cu învățare supervizată este antrenată să furnizeze rețelei exemple reprezentative de perechi de intrare/ieșire. Astfel, odată cu estimarea erorii, exprimată ca diferența dintre răspunsul așteptat și cel dorit, aceasta ajută rețeaua să își ajusteze ponderile, în funcție de algoritmii de învățare aleși.

În continuare, introducând noțiunea de perceptron ca fiind cea mai simplă formă de rețea neuronală, vom prezenta două tipuri de rețele neuronale, perceptron cu un singur strat, respectiv perceptronul multistrat.

Perceptronul cu un singur strat (SLP)

Perceptronul cu un singur strat are la bază neuronul McCulloch-Pitts, și este reprezentat sub forma:

unde:

intrările neuronului sunt notate cu ,

ieșirea neuronului este notată cu ,

ponderile sunt notate cu ,

deplasarea va fi inclusă printre ponderile cu intrarea +1.

Rolul perceptronului cu un singur strat este clasificarea corectă a unui set de vectori de intrare într-una din clasele .

Ieșirea perceptronului reprezintă următoarea regulă de decizie:

dacă , atunci ,

dacă , atunci .

Din punct de vedere geometric, cele două clase de separare reprezintă două regiuni ale spațiului m-dimensional, separate de un hiperplan a cărui ecuație este:

(5.8)

Atunci când cele două clase sunt liniar separabile, perceptronul cu un singur strat poate fi aplicat, iar când cele două clase nu sunt liniar separabile (adică, în anumite puncte sunt foarte apropiate una de alta și nu există un hiperplan care să le separe) atunci perceptronul nu se poate aplica, neavând puterea de a separa cele două clase.

Instruirea perceptronului se face prin ajustarea ponderilor sinaptice cu ajutorul unui algoritm iterativ, care se bazează pe regula de corecție a erorilor.

Pentru a înțelege acest cum funcționează acest algoritm, în continuare vom prezenta teorema de convergență a perceptronului.

Presupunem că vectorii de intrare provin din două clase liniar separabile și.

Fie mulțimea vectorilor test care aparțin clasei : , iar mulțimea vectorilor de testare care aparțin clasei : .

Rezolvarea problemei constă în construirea vectorului de ponderi notată cu , astfel încât hiperplanul determinat de ecuația să separe perfect cele două clase .

Dându-se seturile de vectori de instruire , trebuie aflat vectorul de ponderi, astfel încât să fie satisfăcute inegalitățile:

Cele două clase liniar separabile asigură existența vectorului de ponderi , care satisface inegalitățile mai sus menționate.

Algoritmul de ajustare a lui se formulează astfel:

dacă la pasul , elementul vectorului de instruire este clasificat corect de către vectorul de ponderi calculat la acest pas, atunci nu se efectuează nici o corecție a vectorului de ponderi:

dacă și

și

altfel, dacă la pasul n vectorul de instruire nu este clasificat corect de către vectorul de ponderi , atunci acesta trebuie să se modifice după cum urmează:

, dacă și

, dacă și .

unde reprezintă rata de învățare (parametrul care permite ajustarea vectorului de ponderi).

În continuare va fi demonstrată convergența algoritmului de instruire pentru o rată de învățare (fixă, pozitivă) considerată a fi egală cu 1. Acest artificiu de calcul este util datorită faptului că o valoare a ratei de instruire diferită de 1 nu produce decât o scalare a vectorilor.

Teorema de convergență a algoritmului perceptronului a fost prezentată pentru prima dată de Rosenblatt (1962).

Enunț: Să presupunem că submulțimile și ale mulțimii elementelor de antrenament sunt liniar separabile. Atunci perceptronul va converge după un număr finit de iterații.

Demonstrație:

Inițializăm vectorul de ponderi: și considerăm rata de învățare

Presupunem că pentru

Prin urmare vectorul de ponderi clasifică greșit vectorii de intrare și conform algoritmului de ajustare (adaptare), respectiv cazul al doilea avem:

, unde

Vom rescrie ecuația iterativ astfel: , având în vedere că .

Din ipoteză, cele două clase sunt liniar separabile, atunci există o soluție pentru care: , pentru vectorii .

Vom defini numărul pozitiv pentru o soluție fixă , astfel:

Odată cu definirea lui , vom înmulți ultima expresie obținută pentru cu și vom obține următoarea ecuație:

(5.9)

Vom aplica inegalitatea Cauchy-Schwartz pentru partea din stânga a ecuației de mai sus și utilizând tranzitivitatea între relații, vom obține:

, unde este norma euclidiană. (5.10)

Rescriem relația de mai sus astfel:

(5.11)

Revenind la ecuația inițială și o vom rescrie:

și (5.12)

Aplicăm norma euclidiană pentru ecuația (5.12) și vom obține:

(5.13)

Deoarece perceptronul clasifică eronat pe , vom avea , iar relația (5.13) se va transforma în următoarea inegalitate:

(5.14)

Cunoscând din ipoteză că , vom aduna cele 2 inegalități din relația (5.14) și vom obține pentru următoarea relație:

, unde (5.15)

Observăm că relațiile (5.11) și (5.15) sunt în contradicție, iar pentru a fi îndeplinite trebuie să avem următoarea egalitate:

, (5.16)

unde reprezintă iterația maximă a algoritmului și existența lui este asigurată de ipoteza de separabilitate liniară a claselor.

În concluzie, am demonstrat că dacă există un vector pondere pentru care toate elementelor de antrenament sunt corect clasificate, atunci adaptarea ponderilor sinaptice ale perceptronului se va realiza după cel mult iterații, deci putem afirma că algoritmul va fi convergent.

q.e.d.

În continuare vom prezenta algoritmul de convergență al perceptronului (Lippmann, 1987).

Date de intrare:

vectorii de intrare pentru testare : ;

vectorul pondere: ;

răspuns actual: ;

răspuns dorit: ;

rata de învățare: parametrul constant care este pozitiv și subunitar.

Pasul 1: Inițializare

vectorul de ponderi este inițializat: , după cum am procedat și în demonstrația teoremei de convergență

Pasul 2: Repetare

se introduc valorile vectorilor de intrare pentru testare, și răspunsul dorit , pentru ;

se calculează răspunsul actual , unde sign este funcția semn;

se realizează ajustarea vectorului pondere, prin actualizarea vectorului pondere al perceptronului:

, unde

Se observă că în momentul în care vectorul de ponderi clasifică corect vectorul atunci se va obține , prin urmare formula de mai sus se transformă în , iar vectorul de ponderi nu se modifică.

Pasul 3: Se repetă pasul 2 până se obține convergența algoritmului.

Perceptronul multistrat feedforward (MLP)

Printre caracteristicile importante ale unui MLP menționăm faptul că un perceptron multistrat conține unul sau mai multe straturi ascunse, iar rețeaua multistrat are o conectivitate înaltă (Figura 5.5).

Sursa: Hamdi (2012)

Figura 5.5 Perceptronul multistrat

Instruirea perceptronului multistrat este realizată prin aplicarea algoritmului de învățare cu propagare înapoi (Back-propagation), cunoscut și sub numele de „propagarea înapoi a erorilor”, adică valorile de ieșire sunt comparate cu valorile reale și se calculează eroarea cu ajutorul unei funcții predefinite, apoi în funcție de aceasta se acționează înapoi în rețea pentru ajustarea ponderilor în vederea minimizării erorii.

Algoritmul de învățare cu propagare înapoi este un algoritm de învățare supervizată. Studiile privind algoritmul de învățare cu propagare înapoi, au fost realizate din 1971, urmând ca Rumelhart et al.(1986) să readucă algoritmul în atenția cercetătorilor.

La iterația , eroarea calculată la ieșirea neuronului este:

(5.17)

unde poate fi un nod de ieșire sau un nod aflat într-un strat ascuns.

Valoarea instantanee a erorii pentru neuronul este definită ca , iar valoarea instantanee a erorii totale este egală cu:

(5.18)

unde notația a fost utilizată, pentru mulțimea neuronilor din stratul de ieșire al rețelei pentru care se poate calcula eroarea.

Scopul procesului de învățare este ajustarea ponderilor astfel încât eroarea medie generală să fie minimă, ajustarea ponderilor realizându-se în funcție de erorilor calculate pentru fiecare vector al rețelei.

În vederea prezentării algoritmului de retropropagare pentru rețelele de tip feedforward cu straturi ascunse, vom utiliza formulele obținute anterior:

, reprezintă intrările primite de la neuronul , care conduc la iterația o activare a neuronului ;

, reprezintă ieșirea asociată neuronului la iterația , iar este funcția de activare.

Ponderea sinaptică, devine și este proporțională cu derivata numită gradient și ajută la ponderarea modificărilor conexiunilor sinaptice.

Folosind un artificiu de calcul vom transforma gradientul într-o formă care se poate calcula astfel:

(5.19)

În continuare, fiecare factor din membrul drept al ecuației gradientului obținute se poate rescrie astfel:

(5.20)

= (5.21)

(5.22)

(5.23)

Formula echivalentă pentru gradient va fi următoarea:

(5.24)

În continuare se va trece la ajustarea ponderii care se realizează cu regula delta, adică se va aplica gradientul asupra ratei de învățare, notată cu :

(5.25)

unde s-a folosit notația

Înlocuind în derivatele mai sus obținute, vom obține:

= (5.26)

În funcție de stratul pe care se află neuronul apar două cazuri, astfel apărând o problemă în calcularea lui :

dacă este un neuron din stratul de ieșire, atunci se cunoaște ieșirea dorită, notată cu și se poate calcula eroarea asociată și gradientul în vederea aplicării regulii delta;

dacă este un neuron dintr-un strat ascuns, atunci nu se cunoaște ieșirea dorită și intervine retropropagarea.

Pentru obținerea lui , vom lua în calcul ultima formă obținută (5.26) pe care o vom rescrie astfel:

(5.27)

În vederea diferențierii indicilor neuronilor vom recurge la următoarele notații:

indicele j va reprezenta neuronii din straturile ascunse;

indicele k va reprezenta neuronii din straturile de ieșire.

Deci, pentru a calcula vom parcurge următorii pași:

– pornim de la

– rescriem

– din ecuația erorii pentru neuronul , ,

va rezulta

– calculând va rezulta .

Obținând aceste rezultate putem trece la înlocuirea lor în și vom aplica pentru neuronul definiția pentru , după cum urmează:

(5.28)

În continuare, vom înlocui în formula pentru expresia (5.28) și vom obține:

(5.29)

Obținând formula retropropagării vom trece la prezentarea algoritmului de învățare prin retropropagarea erorilor, care este un algoritm iterativ, nu este convergent și nu are condiții impuse de oprire.

Pentru realizarea algoritmului vom avea în vedere parcurgerea următoarele etape :

etapa „înainte” – începe de la primul strat de neuroni ascunși ai rețelei și se continuă de la un strat la altul până la stratul de neuroni de ieșire, funcția de activare trebuie să fie continuă și derivabilă (va fi folosită derivata de ordinul întâi), iar ponderile sinaptice nu vor fi ajustate;

etapa „înapoi” – utilizează calcularea gradientului și aplică regula delta pentru fiecare nod.

În continuare, vom prezenta algoritmul de instruire prin retropropagarea erorilor.

Inițializăm ponderile cu valori aleatoare;

Introducem vectorii de intrare și răspunsurile (ieșirile) dorite;

Calculăm răspunsurile actuale și se aplică funcțiile de activare ;

Se realizează ajustarea ponderilor în funcție de stratul pe care se află neuronul după cum urmează:

În demonstrațiile anterioare am obținut următoarele rezultate:

dacă neuronul se află pe statul de ieșire, avem

dacă neuronul se află pe statul de ascuns, avem:

Vom repeta pașii algoritmului, începând cu pasul al doilea.

5.3 Mașinile cu vectori suport

Una din tehnicele de Inteligență Computațională care depășește ca performanță foarte multe dintre tehnicile tradiționale este reprezentată de mașinile cu vectori suport (SVM). Acestea sunt folosite cu succes în diverse domenii pentru rezolvarea problemelor de clasificare a imaginilor medicale, a clasificării textului, recunoașterea feței, recunoașterea caracterelor (OCR – Optical Character Recognition).

5.3.1 Concepte fundamentale în definirea mașinilor cu vectori suport

Primele cercetări cu privire la mașinile cu vectori suport au fost realizate în anul 1992 de către Vapnik, ele fiind definite ca mașini liniare (linear machines) care au la bază principiile minimizării riscului structural (SRM) și teoria învățării statistice.

Mașinile cu vectori suport reprezintă un set de metode de învățare supervizată intercorelate, bazate pe teoria învățării statistice și pe dimensiunea VC, numită dimensiunea Vapnik & Chervonenkis (Figura 5.6).

Sursa:Gunn (1998)

Figura 5.6 Dimensiunea Vapnik & Chervonenkis

SVM creează suprafețe liniare, numite hiperplane de separare într-un spațiu n-dimensional, iar separarea este cu atât mai bună cu cât distanțele dintre hiperplanul de separare și obiectele cele mai apropiate din ambele clase sunt mai mari. Transpunerea tuturor datelor de intrare într-un spațiu de dimensiune mare nu este necesară, prin urmare nu se vor efectua calcule foarte multe, după cum se procedează în cazul aplicațiilor realizate pe baza rețelelor neuronale. Schema unei mașini cu vectori suport este prezentată în figura următoare (Figura 5.7).

Sursa: Shin et al.(2005)

Figura 5.7 Schema SVM (adaptată după Vapnik, 1995)

5.3.2 Construirea hiperplanului optim de separare

Algoritmul pentru clasele separabile a fost introdus pentru prima dată în anul 1995 de către Vapnik, iar în același an împreună cu Corinna Cortes au extins algoritmul pentru clasele neseparabile. Separarea claselor se referă la transformarea spațiului inițial într-un spațiu cu n-dimensiuni, în vederea construirii hiperplanelor care vor separa clasele.

Mașinile cu vectori suport funcționează după următorul principiu:

aplicăm o funcție neliniară asupra vectorilor de intrare pentru a obține un spațiu de caracteristici de dimensiune mare;

construim un hiperplan optim de separare a caracteristicilor obținute la pasul anterior.

La baza realizării primului pas se află teorema de separabilitate a lui Cover, iar al doilea pas se bazează pe principiile minimizării riscului structural, concepte teoretice pe care le vom prezenta în continuare.

Conform teoremei de separabilitate a lui Cover, un spațiu de forme care sunt liniar separabile, poate fi transformat într-un spațiu de caracteristici nou, cu forme liniar separabile, dacă funcția care transformă spațiul inițial este neliniară, iar dimensiunea noului spațiu este suficient de mare.

Principiile minimizării riscului structural se bazează pe faptul că, rata de eroare obținută pe setul de testare al unei mașini de învățare este mărginită de suma ratelor de eroare de instruire individuale, plus un termen care depinde de dimensiunea Vapnik & Chervonenkis, unde primul termen este egal cu zero, iar cel de-al doilea se minimizează.

Prin adăugarea unor date noi, ale căror variabile nu sunt cunoscute în prealabil, hiperplanul obținut poate să producă cu siguranță o separare (Figura 5.8).

Sursa: Guggenberger (2008)

Figura 5.8 Soluții pentru separarea liniară a două clase

Pentru a arăta modul de lucru al mașinilor cu vectori suport, se vor alege două clase liniar separabile și se va construi un hiperplan considerat ca fiind și suprafață de decizie, astfel încât marginile de separare dintre cele două clase să fie maxime (Figura 5.9).

Sursa: Witten & Frank (2005)

Figura 5.9 Reprezentarea grafică a hiperplanului optim de separare

Se consideră ecuația unui hiperplan de separare sub forma , unde este considerat un vector de intrare, reprezintă vectorul de ponderi dat și este deplasarea cunoscută.

Hiperplanul de separare (decizie) va separa spațiul în două regiuni, astfel:

în cazul primei clase cu

în cazul celei de-a doua clase cu

Se numește margine de separare , pentru un vector pondere și deplasarea cunoscută , separarea definită de hiperplan prin formulele obținute pentru fiecare clasă, între punctele cele mai apropiate din cele două regiuni.

Suprafața de decizie se va numi hiperplan optim și va fi notat astfel:

(5.60)

unde și reprezintă valorile pentru vectorul pondere și, respectiv deplasarea corespunzătoare hiperplanului optim.

Funcția discriminant de ecuație este și ne va da o măsură a distanței de la punctul la hiperplanul optim.

Dacă notăm cu r această distanță vom obține:

sau (5.61)

Problema care se pune în acest moment este aceea a obținerii unor valori pentru parametrii și , corespunzători hiperplanului optim pe baza mulțimii de instruire , unde este vectorul de intrare și clasa asociată.

Prin urmare, perechea de parametrii (pondere) și (deplasare) trebuie să satisfacă următoarele condiții:

dacă ,

dacă .

Punctele ce delimitează marginea, se numesc vectori suport și reprezintă marginile optime care sunt cel mai aproape de suprafața de decizie, fiind cel mai dificil de clasificat.

Considerăm o margine optimă pentru care , atunci:

, dacă

Distanța de la marginea optimă la hiperplanul optim este :

Rezultă că, marginea de separare .

În consecință, putem afirma că operația de maximizare a marginii de separare între cele două clase liniar separabile este echivalentă cu cea de minimizare a normei corespunzătoare vectorului pondere a hiperplanului optim notată cu .

Conform cercetării lui Vapnik, putem spune că problema găsirii hiperplanului optim se poate defini ca o problemă de optimizare pătratică. Fiind dată mulțimea de antrenament , vom determina valorile optime pentru vectorul pondere și deplasarea , care satisfac condiția: și funcția cost : este minimă.

Observăm că. este o problemă de minim cu legături pe care o vom rezolva prin construirea funcției Lagrange asociată și prin impunerea condițiilor de optim de ordinul întâi parametrilor ,.

Construim funcția Lagrange astfel:

(5.62)

Condițiile de optim de ordinul întâi sunt:

(5.63)

(5.64)

În continuare vom discuta discuta despre următorul pas al principiului de funcționare al mașinilor nucleu, cel al construirii unui hiperplan optim de separare a caracteristicilor obținute la primul pas, care se va realiza cu ajutorul nucleului produs-scalar (inner-product kernel).

Notăm cu un vector de intrare din spațiul inițial , de dimensiune și un vector de transformări liniare din spațiul de intrări în spațiul de caracteristici, notat cu , unde este dimensiunea spațiului caracteristicilor.

În cadrul acestui spațiu, hiperplanul de separare definit este scris ca:

(5.65)

Din condițiile de optim ale problemei de optimizare deduse anterior, am obținut relația:

(5.66)

Datorită faptului că, va fi realizată separabilitatea liniară între cele două clase în spațiul caracteristicilor, putem utiliza condițiile de optim obținute anterior.

Vom combina ultimele două relații, obținând relația:

(5.67)

unde reprezintă nucleul produs-scalar.

Vom nota nucleul produs scalar (inner-product kernel) cu:

Din ultimele două relații vom obține ecuația hiperplanului optim astfel:

(5.68)

În concluzie, spunem că funcția nucleu are un rol important în construirea hiperplanului optim în spațiul caracteristicilor, deoarece nu ia în considerare forma sa explicită.

Shin et al.(2005) considerând funcția nucleu , prezintă în vederea construirii regulilor de decizie, următoarelor forme pentru următoarele trei tipuri de SVM :

, unde d este gradul polinomului nucleu fiind numită, mașina polinomială cu funcție nucleu;

, unde este lățimea de bandă a funcției nucleu RBF numită mașina rețea RBF (utilizează funcția nucleu radială de bază);

unde și sunt parametrii funcției sigmoid, care satisface inegalitatea , numită mașina rețea neuronală cu două straturi (utilizează funcția nucleu sigmoid).

Clasele folosite în clasificare nu sunt întotdeauna liniar separabile, prin urmare algoritmul prezentat anterior nu se poate aplica claselor neseparabile deoarece, clasele neseparabile nu produc niciun fel de separare, în comparație cu claselor separabile în care marginea reprezintă distanța între perechile de hiperplane paralele.

Pentru a realiza clasificarea pentru clasele neseparabile, vom construi un hiperplan optim generalizat de separare, care separă liniar clasele, chiar dacă apar erori de clasificare.

Sursa: http://users.ecs.soton.ac.uk/srg/publications/pdf/SVM.pdf

Figura 5.10 Reprezentarea grafică a hiperplanului optim generalizat de separare

Vom folosi același principiu ca și în cazul claselor separabile, cu diferența că funcția de cost va măsura erorile de clasificare introduse de Cortes & Vapnik (1995), notate cu .

Restricția pentru cazul claselor neseparabile va fi de forma:

, unde (5.69)

De asemenea, funcția de optimizare trebuie să determine cea mai mare margine posibilă, iar numărul să fie minim. Hiperplanul optim generalizat de separare este determinat de vectorul care minimizează funcționala:

(5.70)

unde C este o constantă pozitivă, este un vector de parametrii și

(5.71)

Funcția este discontinuă, deci realizăm optimizarea unei funcții asemănătoare (5.72a), cu restricțiile din formulele (5.72b) și (5.72c):

(5.72a)

(5.72b)

(5.72c)

Funcțiile Lagrange corespunzătoare problemei de optimizare convexă obținute sunt:

L (5.73)

Condițiile Karush-Kuhn-Tucker sunt:

sau (5.73a)

sau (5.73b)

sau (5.73c)

, (5.73d)

(5.73e)

(5.73f)

Reprezentarea duală Wolfe va deveni:

(5.74a)

(5.74b)

(5.74c)

(5.74d)

(5.74e)

Înlocuind restricțiile în formula (5.73), se obține funcția cost:

(5.75a)

Pentru funcția cost obținută se impun următoarele restricții:

(5.75b)

(5.75c)

În concluzie, putem afirma că multiplicatorii Lagrange corespunzători punctelor care îndeplinesc condiția sunt egali cu valoarea maximă posibilă , având o pondere ridicată în soluția finală .

5.4 Comentarii privind superioritatea tehnicilor de Inteligență Computațională în comparație cu metodele clasice de estimare statistică în predicția falimentelor

În literatura de specialitate rețelele neuronale și mașinile cu vectori suport au fost folosite pentru a rezolva problema predicției falimentului, fiind observate o serie îmbunătățiri în anticiparea dificultăților financiare. De exemplu, într-o serie de lucrări bazate pe date financiare de la companiile americane, rețelele neuronale s-au dovedit a fi clasificatori mai buni decât metodele analizei discriminatorii (DA).

Studiile de cercetare privind rețelele neuronale în predicția falimentului au început în 1990, fiind folosite pentru anticiparea dificultățiile financiare ale băncilor și a altor firme, ele fiind active și în prezent.

NN au abilitatea de a învăța cum să execute sarcini pe baza datelor primite, pot crea o reprezentare a informațiilor primite în timpul învățării și efectuează calcule în paralel utilizând dispozitive hardware speciale proiectate în acest sens.

Odom & Sharda (1990) sunt primii cercetători care au utilizat rețelele neuronale pentru predicția eșecului financiar al firmelor. Ei au dezvoltat un model NN pentru anticiparea falimentului și l-au testat folosind date financiare de la diverse firme. Același set de date a fost analizat folosind MDA, iar rezultatele au arătat că rețelele neuronale ar putea fi adecvate acestei probleme. Ei au afirmat că rețelele neuronale pot fi folosite în domeniul predicției falimentului.

Tam & Kiang (1992) au comparat performanța rețelelor neuronale cu mai multe metode: regresie logistică, analiză discriminantă, cel mai apropiat vecin al lui k, și ID3. Au afirmat că, rețelele neuronale au depășit performanța tuturor metodelor comparate, atunci când datele folosite pentru instruirea rețelei erau cele din ultimul an înainte de falimentul firmei. În cazurile în care datele folosite erau cele din ultimii doi ani înainte de faliment, analiza discriminantă a depășit performanța rețelelor neuronale. În ambele cazuri, rețelele neuronale cu un singur strat ascuns, au depășit performanța rețelelor liniare fără straturi ascunse. Compararea cu regresia multiplă a arătat faptul că, rețeaua propusă a dovedit superioritate la testarea datelor de un anumit număr de ori, în comparație cu regresia multiplă, rețeaua depășind performanța regresiei pe eșantionul de validare în medie cu 36%.

Coats & Fant (1993) au folosit NN pentru a estima situația financiară a firmelor în viitor. Rețeaua neuronală a fost utilizată pentru a identifica modele de date care disting firmele puternice de cele aflate în dificultate financiară. Ei au propus un model NN ca o metodă alternativă folosind aceleași date, ca și în modelul MDA, demonstrând că modelul NN a depășit modelul MDA.

Udo (1993) a pus bazele unui model de rețea neuronală bazată pe rapoarte financiare pentru a prognoza dificultatea financiară a firmelor. Rezultatele au indicat că rețeaua neuronală a fost mai precisă decât analiza regresiei multiple.

Wilson & Sharda (1994) au afirmat, că deși NN au avut rezultate mai bune decât analiza discriminantă, diferențele nu erau întotdeauna semnificative. Autorii au instruit și au testat rețeaua folosind trei eșantioane: 50% firme non-falimentare și 50% firme falimentare; 80% firme non-falimentare și 20% firme falimentare; 90% firme non-falimentare și 10% firme falimentare. Fiecare din aceste eșantioane a fost testat pe un set de pregătire de 50/50, 80/20 și 90/10 rezultând astfel, un total de nouă comparații. Rețelele neuronale au depășit performanța analizei discriminante pentru toate eșantioanele, mai puțin un eșantion pentru care performanța metodelor nu a fost statistic diferită.

Altmann et al.(1994) au folosit rețeaua neuronală pe setul de date al Băncii Centrale din Italia, alcătuit din peste 1000 de firme, și a comparat rezultatele cu cele ale analizei discriminante. Rezultatele au indicat că ambele modele au oferit acuratețea clasificării în mod echilibrat. Ei au sugerat că cele două modele ar putea fi combinate în consolidarea predicției falimentului.

Boritz & Kennedy (1995) au examinat două abordări legate de rețeaua neuronală, Back-Propagation și Teoria Estimării Optimale, pentru predicția falimentului. Modelul, bazat pe Teoria Estimării Optimale a avut cea mai mică eroare de tip I și cea mai mare eroare de tip II, în timp ce tehnicile tradiționale statistice analizei discriminatorii, logit și probit au avut relația inversă. Modelul BPNN a obținut nivelul intermediar de erori de tip I și tip II. Rezultatele au indicat că performanța modelelor a fost sensibilă la variabilele selectate.

Bell (1997) a comparat regresia liniară și NN în anticiparea eșecului bancar, concluzionând că atât ANN, cât și regresia liniară, au avut aceeași performanță.

Yang et al.(1999) au utilizat modelul NN pentru anticiparea falimentului și a comparat rezultatele cu analizei discriminatorii. Ei au afirmat că modelul NN, fără exemplul de normalizare și analiza discriminantă au oferit cea mai bună estimare, iar rezultatele analizei discriminatorii au fost extraordinare pentru firmele aflate în faliment.

Lin & McClean (2000) au folosit patru modele de clasificare, DA, logit, NN și arborii de decizie pentru predicția falimentului. Fiecare model a fost subiectul a trei metode de selecție a variabilelor, judecata umană, ANOVA și analiza factorială. Aceștia au descoperit că variabilele selectate de ANOVA oferă rezultate mai bune și dintre modelele de clasificare bazate pe arborii de decizie și NN au depășit în performanță modelele statistice în ceea ce privește acuratețea clasificării.

Meyer et al.(2003) subliniază faptul că „mașinile cu vectori suport sunt un concept destul de simplu, dar foarte puternic, comportându-se foarte bine în efectuarea testelor pentru problemele în multe domenii, în comparație cu metodele tradiționale”.

Eșantioanele mici, supra-antrenarea, dimensiunile mari sunt câteva din problemele metodelor de învățare rezolvate cu ajutorul SVM. În comparație cu rețelele neuronale, mașinile cu vectori suport au o putere de generalizare mai bună și folosesc parametrii mai puțini în determinarea structurii indicate rezolvării unei probleme.

Härdle et al.(2004) au implementat SVM pentru predicția falimentului corporativ și l-au comparat cu DA. SVM a fost ușor superior modelului DA în acuratețea clasificării, totuși diferența nu a fost semnificativă, fiind de 5%. Mai mult decât atât, au dovedit că SVM a fost capabil să extragă informații din seturile de date selectate din viața economică reală.

Min & Lee (2005) au propus un model SVM pentru anticiparea falimentului. Ei au comparat modelul SVM cu modelul MDA, logit și NN, și au concluzionat faptul că, performanța modelului SVM a depășit performanța celorlalte modele, în validarea și cultivarea datelor.

Zheng & Yan-Hui (2007) au folosit algoritmul arborelui de decizie CHAID pentru predicția falimentului și au comparat rezultatele cu un model NN. Rezultatele au indicat că modelul arborelui de decizie CHAID poate oferi predicția falimentului, fără să utilizeze cifre de clasificare interpretabile.

Chen (2011) a comparat câteva modele folosind date adunate de la 200 de firme din Taiwan. El a concluzionat, că modelele SVM oferă un echilibru bun de acuratețe înaltă, predicții ale performanței pe o perioadă lungă și scurtă, atât pentru firmele sănătoase, cât și pentru cele falimentare.

Datele financiare din lumea reală și procesele lor economice de bază sunt de cele mai multe ori de natură neliniară. Dezvoltările rapide ale tehnologiei digitale au permis modelelor neliniare să devină aplicabile pentru modelarea și anticiparea unei mulțimi de relații financiare.

CAPITOLUL 6

SISTEME DE AVERTIZARE TIMPURIE ȘI TEHNOLOGII DE SUPRAVEGHERE

De-a lungul timpului, avertizarea timpurie a crizelor financiare a reprezentat o condiție esențială în procesul de prevenire a situațiilor de criză pentru evitarea consecințelor ireparabile. Crizele pot crea destabilizarea societății în care trăim, iar gestionarea incorectă a lor poate conduce la situații devastatoare pe termen lung.

Mitroff & Anagnos (2001), au arătat în lucrarea intitulată „Managing crises before they happen”, faptul că „apariția crizelor se datorează afectării unei părți importante a unui sistem complex, și nu datorită faptului că o parte componentă a sistemului a fost afectată”. Prin urmare, necesitatea abordării gestionării riscului și a obținerii de informații exacte și oportune în scopul avertizării timpurii este imperios necesară.

Totodată, prevenirea crizelor reprezintă unul din obiectivele principale ale Uniunii Europene, cât și al statelor membre, fiind create numeroase organisme care să monitorizeze o eventuală criză încă din faza de început. În ultimul deceniu, mai multe studii empirice și-au concentrat atenția în dezvoltarea modelelor care au posibilitatea de a semnala în timp util apariția unei crize financiare, așa-numitele sisteme de avertizare timpurie (EWS).

6.1 Rolul avertizării timpurii în gestionarea crizelor financiare

Marea majoritate a crizelor emit semnale de avertizare timpurie înainte de apariția lor, iar dacă acestea sunt sesizate la timp, atunci cele mai multe dintre ele pot fi evitate, înainte de declanșare. Sistemele de avertizare timpurie acționează ca un mecanism de prevenire a unor eventuale crize, care poate furniza semnale de avertizare pe baza informațiilor obținute din situațiile financiare ale instituțiilor.

Folosind tehnici statistice și econometrice aceste modele sunt aplicate pentru a estima probabilitatea apariției crizelor financiare, utilizând un număr mare de indicatori legați de factorii interni și externi, precum și de starea socială și politică.

Krugman (1999, 2001) și Kaminsky (2003) în studiile efectuate afirmă că teoria economică a dezvoltat trei generații de modele care explică crizele financiare. Modelele din prima generație dezvoltată de Krugman în 1979 și modelele din a doua generație dezvoltată de Obstfeld în 1996, se concentrează pe crizelor valutare, iar modelele din a treia generație s-a dezvoltat pe parcursul ultimele două decenii pe indicatorii din sectorul financiar derivați din bilanțurile cumulate de bănci, fiind indicate pentru evenimentele care au avut loc la sfârșitul anilor 1990.

Krznar (2004) subliniază, faptul că „cele trei generații de modele, dezvoltate în ultimele două decenii, nu oferă un consens cu privire la cauzele crizelor financiare, deoarece acestea nu identifică factorii determinanți apariției crizelor finanicare”.

Datorită faptului că aceste avertizări nu sunt tot timpul cunoscute în plan local, Barr (2006) a sugerat în articolul său întitulat „Conflict Early Warning: Warning Who?” includerea „comunităților amenințate în circuitul de transmitere a avertizărilor, după modelul folosit în sistemele de avertizare timpurie dedicate dezastrelor naturale”.

Nyheim (2009) a propus în raportul OECD „Preventing Violence, War and State Collapse – The Future of conflict Early Warning and Response”, „crearea de parteneriate între instituții și civilii locali pentru dezvoltarea unor sisteme de avertizare timpurie”.

Sistemele de avertizare timpurie indicate pentru realizarea propunerii sale sunt sistemele din generația a treia care au capacitatea de răspuns ridicată, datorită faptului că, rețelele locale sau naționale sunt folosite de monitori desemnați pentru fiecare zonă care au misiunea să avertizeze apariția unor eventuale crize. Printre cele mai importante avantaje obținute prin implementarea noilor tehnologii în sistemele de avertizare timpurie, menționăm creșterea vitezei de transmitere a informației și reducerea costurilor.

6.2 Analiza principalelor caracteristici ale sistemelor actuale de avertizare timpurie a falimentelor bancare sau corporatiste și a crizelor financiare

Cercetările în domeniul sistemelor de avertizare timpurie a crizelor sunt consecința conștientizării incapacității piețelor financiare de a detecta timpuriu apariția crizelor, a marjelor de dobândă și a anticipațiilor privind evoluția cursului de schimb.

Abiad (2003), Berg et al.(2004) și Ciarlone & Trebeschi (2004) au demonstrat faptul că în funcție de tipul de abordare, modelele pot fi clasificate în parametrice și non-parametrice.

Studiile realizate de Frankel & Rose (1996) și Kaminsky et al.(1998) au fost printre primele studii în care cele două tipuri de abordare au fost aplicate predicției crizelor valutare. Folosind modelul probit, Frankel & Rose (1996) au estimat probabilitatea crizelor valutare pentru mai mult de 100 de țări în curs de dezvoltare, în perioada 1971-1992.

Kaminsky et al.(1998) au propus „abordarea semnalului” fără parametrii care implică monitorizarea evoluției unui număr de indicatori economici ce arată un comportament diferit în perioada de liniște și înainte de începutul unei crize. Când un indicator depășește un anumit prag, acest lucru este interpretat ca un semnal, cum că ar putea avea loc o criză în următoarele 24 luni. Folosind un set de date din 23 de țări dîn perioada 1970-1995, și o gamă largă de indicatori, au arătat că rezervele internaționale, cursul de schimb real, de credit intern, de credit pentru sectorul public și inflația internă sunt foarte utile în semnalizarea unei crize.

În paralel, studiile din literatura empirică dedicate crizelor de creanțe sunt destul de puține, în comparație cu cea aferentă crizelor valutare, dar pot fi și ele la rândul lor, clasificate în parametrice și non-parametrice.

Nag & Mitra (1999) utilizează rețelele neuronale recurente separat pentru Malaezia, Thailanda și Indonezia pentru a testa performanțele sale în predicția crizelor valutare din aceste țări, comparând rezultatele obținute cu cele de abordare a semnalului. Ei au găsit că modelul NN se comportă mai bine decât modelul Kaminsky et al.(1998), în special atunci când se compară cu predicția out-of-sample.

Detragiache & Spilimbergo (2001) se concentrează asupra datoriei externe și, folosind o analiză probit, încearcă să testeze ipoteza rulării lichidităților ca urmare a neconcordanței scadenței. Ei folosesc variabilele macroeconomice de creanță și lichiditate ale țărilor în curs de dezvoltare, pentru a construi un model capabil să realizeze predicția unei crize. Concluzia principală, este că variabilele de lichiditate arată o importanță mare, confirmând astfel teoria rulării lichidității, ca fiind auto-satisfăcătoare.

Manasse et al.(2003) utilizează abordări atât parametrice (logit) cât și non-parametrice (clasificarea și analiza arborelui de regresie-CART) pentru a dezvolta un sistem de avertizare timpurie pentru criza datoriilor. Ei arată că o combinație a celor două abordări îmbunătățește performanța logit în predicția intrării într-o criză.

Franck & Schmied (2003) prin utilizarea datelor din țările Asiei de Est, arată că o rețea neuronală optimizată are o performanță mult mai bună în estimarea crizelor valutare în comparație cu metoda logit, în special de semnalizare a crizelor valutare, cum au fost cele din Rusia și Brazilia, la sfârșitul anilor 1990.

Recent, Ciarlone & Trebeschi (2005) utilizează o analiză logit multinomială pentru a estima intrarea într-o criză, și arată că are o performanță mult mai mare decât o analiză logit simplă. Prin urmare, nivelul datoriei externe, rezerva internațională, deservirea datoriei și gradul de deschidere sunt foarte importante în estimarea probabilității unei crize.

Cele mai multe bănci centrale au folosit de-a lungul timpului diferite sisteme de avertizare timpurie (EWS) pentru monitorizarea riscului de faliment.

Canbas et al.(2005) propune un sistem de avertizare timpurie integrat (IEWS) care combină modelele de analiza discriminată (DA), logit, probit, și analiza componentelor principale (PCA) ce poate ajuta la predicția falimentului bancar. În primul rând, ei folosesc analiza componentelor principale pentru a detecta trei componente financiare care pot explica schimbările stării financiare a unei bănci. Apoi, au folosit modelele DA, Logit și regresie probit. Prin combinarea tehnicilor , ei construiesc un IEWS utilizând date din 40 de bănci comerciale turce private pentru testarea puterii de predicție a IEWS, concluzionând că IEWS are o capacitate de predicție mai mare decât celelalte modele utilizate în literatura de specialitate.

Modelele dezvoltate au condus la rezultate bune în emiterea de semnale timpurii pentru crizele manifestate în Korea, Thailanda, Indonezia și Malaezia, dar cu toate acestea, crizele bancare s-au tot repetat în ultimele două decenii, ne referim la criza din Asia, criza

bancară din Rusia, și criza bancară braziliană. Rețelele neuronale sunt des utilizate în predicția falimentului (Perez,2006), dar puține aplicații se concentrează asupra crizelor financiare.

Tam (1991) utilizează un model BPNN pentru a predicta falimentele bancare pe un eșantion de bănci din Texas, cu un an și doi ani înainte de eșecurile lor. Variabilele de intrare pe care le foloseste sunt bazate pe criteriul CAMELS.

Cole & Gunther (1998) modelează insolvabilitatea bancară prin intermediul unei regresii logit. În cadrul analizei, datele extrase din rapoartele off-site s-au dovedit a avea o capacitate predictivă mai bună decât datele colectate on-site, acestea având un caracter perisabil, alterându-se semnificativ după doar câteva luni.

Modelul logit multivariat elaborat de Demirgüç-Kunt & Detragiache (1998) permite estimarea probabilității de manifestare a unei crize pe baza unui vector de variabile explicative.

Estrella et al.(2000) constată că în previzionarea falimentului bancar din SUA un model univariat care folosește doar indicatorul de solvabilitate are o performanță mai bună decât modelele multivariate sau neparametrice.

Prin urmare, protejarea sistemului bancar nu este o sarcină ușoară și de aceea Acordul Basel II a impus băncilor construirea propriilor sisteme de evaluare a probabilității de insolvență.

Urmare a crizei din 2008, Bucevska (2011) a construit un model de avertizare timpurie a crizelor valutare pentru statele candidate la aderarea Uniunii Europene (Croația, Macedonia și Turcia), folosind date trimestriale din perioada 2005-2009 și modelul logit.

În Statele Unite ale Americii, potrivit actului federal din 1991, FDIC efectuează verificări de risc bancar la sediul băncii, la fiecare 12-18 luni și folosesc modele statistice în procesul de evaluare off-site a riscului bancar. Unul din sistemele de rating folosite pentru a indica siguranța și soliditatea băncii este CAMELS care este un acronim pentru cele șase componente ale sistemului de rating: capital adecvat, calitatea activelor, management și administrație, venituri, lichiditate, și senzitivitate la riscurile de piață.

Modelul SCOR utilizat de FDIC a fost estimat pe baza unei regresii de tip logit cu o putere de discriminare cuantificată prin AUC de 79 la sută (Gilbert et al.,2002).

Boyacioglu et al.(2008) compară tehnicile de Inteligență Computațională, NN, respectiv SVM cu metodele statistice multivariate pentru predicția eșecului bancar în Turcia. Ei folosesc raporturi financiare similare celor folosite în CAMELS.

Banca Italiei a estimat o funcție de supraviețuire a instituțiilor de credit italiene folosind modelul Cox Proportional Hazards care cuantifică probabilitățile apariției unor stări de dificultate la nivelul băncilor italiene pe o perioadă de doi ani (Laviola et al.,1999).

Experții băncii cercetează permanent informațiile suplimentare privind calitatea creditelor pe baza informațiilor colectate de Centrala Riscurilor Bancare din Italia (Marullo-Reedtz & Trapanese, 2000).

Jagtiani et al.(2003) folosesc regresii de tip logit/probit în estimarea probabilității de faliment sau de deteriorare a ratingului.

Din ce în ce mai multe bănci și instituții financiare construiesc sisteme interne de atribuire a ratingului pentru clienți din portofoliile pe care le gestionează.

De asemenea, literatura de specialitate cuprinde modele de avertizare timpurie construite pe baza rețelelor neuronale (Tung et al.,2004).

Rose & Spiegel (2011), examinează, de asemenea, în cadrul unui model de avertizare timpurie, cauzele crizei din perioada 2007-2008, descoperind că sunt puține variabilele care pot fi folosite pentru a emite avertizări timpurii privind manifestarea crizelor, cea mai importantă dintre acestea fiind cea cu privire la indicii bursieri.

Sistemul de rating bancar și avertizare timpurie CAMELS a fost adoptat și în România. Primul model construit în Romania poartă numele de CAAMPL, și are în plus pe lângă cele 6 componente ale sistemului CAMELS, componenta calității acționariatului.

În scopul menținerii nivelului ridicat al acurateții modelului, performanța sa este revizuită semestrial, conform paragrafului numărul 443 din Acordul Basel II, revizuit prin Acordul Basel III.

În concluzie, putem afirma că literatura de specialitate cuprinde o serie de modele de avertizare timpurie elaborate în urma evenimentelor din SUA în 2007, sau construite anterior actualei crize. Prin urmare, este esențială descoperirea predictorilor comuni în vederea construirii unui sistem de avertizare timpurie având la bază datele istorice obținute în urma marilor crize sistemice înainte și după 2007.

CAPITOLUL 7

COMPARAREA PERFORMANȚELOR UNOR METODE DE INTELIGENȚĂ COMPUTAȚIONALĂ CU METODE CLASICE DE ESTIMARE STATISTICĂ PENTRU PREDICȚIA INTRĂRII ÎN INSOLVENȚĂ A UNOR FIRME ROMÂNEȘTI LISTATE LA BURSĂ, ÎN TIMPUL CRIZEI FINANCIARE

În această secțiune a lucrării evidențiem studiul cu privire la analiza comparativă a performanțelor pentru predicția intrării în insolvență a unor firme din țara noastră listate la bursă în timpul crizei financiare. Vom compara performanțele a două metode bazate pe Inteligență Computațională, respectiv rețelele neuronale și mașinile cu vectori suport, în raport cu trei metode clasice de estimare statistică, respectiv analiza discriminantă multidimensională, clasificatorul bayesian naiv și clasificatorul bazat pe arborii de decizie, metode tratate în capitolele anterioare.

7.1 Evoluția firmelor solvabile și insolvabile din România

În contextul actual, evoluția procedurilor noi de insolvență poate fi exprimată prin raportarea la metodele utilizate de țările din Europa Centrală și de Est.

Conform datelor preliminare publicate de BPI și studiului Coface România, în anul 2013 s-au deschis 27.145 de proceduri noi de insolvență, iar numărul firmelor cu cifra de afaceri mai mare de 1 milion de euro care au intrat în insolvență în primele nouă luni este de 523 de firme, comparativ cu 331 de cazuri de insolvență din aceeași categorie, înregistrate în aceeași perioadă a anului 2012. 

Privind situația cazurilor de insolvență din România pentru anul 2013 în studiul realizat, este precizat că au fost considerate cazurile de insolvență nou deschise din ultimii 4 ani, pe baza datelor publicate de BPI, iar datele privind cazurile de insolvență deschise în anul 2013 sunt preliminare.

După cum putem observa în tabelul de mai jos (Tabelul 7.1), în anul 2013 România a înregistrat un număr record al insolvențelor în toată regiunea Europei Centrale și de Est

Tabelul 7.1 Numărul de insolvențe din Europa Centrală și de Est în anul 2013

Sursa: www.coface.ro/Stiri-Publicatii/Publicatii/Insolvente-Coface-CEE-2013

După cum vom observa în continuare, valorile datelor preliminare ale studiului efectuat de Coface România sunt mult mai mici decât datele publicate de către ONRC pe site-ul oficial.

În nota din rapoartele emise de către ONRC se precizează că sunt considerate active din punct de vedere juridic doar firmele înregistrate la ONRC care nu și-au declarat suspendarea activității și nu se află în nici una din stările ce pot duce la pierderea personalității juridice.

Conform datelor publicate de către ONRC pentru perioada 2011-2013 situația firmelor active se prezintă astfel:

pentru anul 2011 – 951.803 de firme au fost înregistrate ca fiind active la sfârșitul anului, iar după eliminarea persoanelor fizice autorizate au rămas 653.418 de firme deținute de persoane juridice ;

pentru anul 2012 – 1.007.087 de firme au fost înregistrate ca fiind active la sfârșitul anului, iar după eliminarea persoanelor fizice autorizate au rămas 695.492 de firme deținute de persoane juridice ;

pentru anul 2013 – 1.067.417 de firme au fost înregistrate ca fiind active la sfârșitul anului, iar eliminarea persoanelor fizice autorizate au rămas 719.258 de firme deținute de persoane juridice ;

Pe baza rapoartelor anuale emise de către ONRC și BPI s-a efectuat un studiu privind repartizarea pe cele opt regiuni de dezvoltare din țara noastră a firmelor solvabile și insolvabile în perioada 2011-2013. De asemenea, va fi expusă și o reprezentare grafică a acestora.

Tabelul 7.2 Repartizarea pe regiuni de dezvoltare a firmelor solvabile

Sursa: Prelucrare proprie

Graficul 7.1 Reprezentarea grafică a firmelor solvabile pe regiuni de dezvoltare

Tabelul 7.3 Numărul total de insolvențe și dinamica în perioada 2011-2013

Sursa: BPI și prelucrare proprie

Tabelul 7.4 Repartizarea pe regiuni de dezvoltare a firmelor insolvabile

Sursa: BPI și prelucrare proprie

Graficul 7.2 Reprezentarea grafică a firmelor insolvabile pe regiuni de dezvoltare

În privința firmelor listate la Bursa de Valori București (BVB) se poate observa din graficul de mai jos, o creștere treptată a firmelor admise la tranzacționare după criza financiară din perioada 2007-2008. În continuare, este prezentată evoluția firmelor admise la tranzacționare conform rapoartelor anuale emise de BVB, începând din 1995 (anul reînființării BVB) până în 2013 când a fost emis și postat pe site-ul www.bvb.ro ultimul raport până în prezent (Graficul 7.3).

Sursa: Prelucrare proprie

Graficul 7.3 Numărul firmelor admise la tranzacționare în perioada 1995-2013

7.2 Prezentarea eșantionului selectat și a predictorilor

Cercetarea experimentală s-a realizat pe baza unui eșantion alcătuit din 130 firme românești care au fost selectate dintre cele listate la Bursa de Valori București, cu restricția suplimentară de a avea cifra de afaceri mai mare de un milion de euro. Firmele selectate aparțin tuturor celor 8 regiuni de dezvoltare și efectuează activități în diverse sectoare economice. Reprezentarea grafică a procentului firmelor pe regiuni de dezvoltare este expusă în graficul următor (Graficul 7.4).

Graficul 7.4 Procentul firmelor din eșantion pe regiuni de dezvoltare

Pentru toate firmele din eșantionul selectat au fost calculați 16 indici financiari pe baza rezultatelor financiare colectate din raportările contabile anuale aferente anului 2010, aflate pe site-ul oficial al BVB (Anexa 1). Unii din acești indici financiari pot fi selectați ca predictori în construcția unor modele vizând predicția falimentului firmelor pe un orizont de predicție scurt (1-3 ani). În continuare, vor fi prezentați indicii financiari cu rol de predictori (Tabelul 7.5) utilizați în modele.

Tabelul 7.5 Predictori

Categoriile din care fac parte indicii financiari utilizați în modele sunt: lichiditate, solvabilitate, profitabilitate, activitate. Selectarea celor patru categorii se bazează pe popularitatea lor în literatura de specialitate, fiecare categorie prezentând următoarele caracteristici:

prima categorie – lichiditatea – analiza lichidității unei firme măsoară capacitatea firmei de a-și plăti obligațiile pe termen scurt, fiind utilizată când firmele au probleme de numerar;

a doua categorie – solvabilitatea – analiza solvabilității unei firme exprimă capacitatea unei firme de a efectua în timp util plățile pe o anumită perioadă de timp;

a treia categorie – profitabilitatea – analiza profitabilității unei firme indică informații despre eficiența cu care o firmă își utilizează propriile resurse pentru a genera profit;

a patra categorie – activitatea – analiza activității unei firme oferă informații despre cursul intrării și ieșirii fluxurilor de numerar și capacitatea firmei de a-și controla activitățile sale de bază.

În continuare, este prezentată o scurtă descriere și modul de calcul folosit pentru fiecare indice financiar cu rol de predictor utilizat.

Rata rentabilității activelor totale

Rata rentabilității activelor totale se clasează în a treia categorie și măsoară performanța netă a activului disponibil al firmei după calculul impozitului pe profit.

Notația folosită este ROA și are formula de calcul ROA = (PN/AT)*100, unde am notat: PN – profit net, AT – activul total.

Rata rentabilității capitalului propriu

Rata rentabilității capitalului propriu se clasează în a treia categorie și este considerată ca fiind cea mai importantă rată de măsurare a performanței unei firme.

Notația folosită este ROE și are formula de calcul ROE = (PN/CPR)*100, unde am notat PN – profit net, CPR – capitaluri proprii.

Rotația activului total

Rotația activului total se clasează în a patra categorie și măsoară teoretic de câte ori au fost înlocuite activele totale cu ajutorul cifrei de afaceri. Prin urmare, o rată de rotație a activelor mai mare are o marja de profit mai mică, iar marjele de profit mai ridicate indică o rată de rotație a activelor mai mică.

Notația folosită este RAT și are formula de calcul RAT = CA/AT, unde am notat CA – cifra de afaceri, AT – activul total.

Rata de lichiditate curentă

Rata de lichiditate curentă se clasează în prima categorie și este una din cele mai folosite rate de măsurare, fiind des folosită de economiști, deoarece cunoscând capitalul circulant se poate oferi soluția acoperirii datoriilor curente din active curente.

Notația folosită este CR și are formula de calcul CR = AC/DTS, unde am notat AC – active circulante și cu DTS – datorii pe termen scurt.

Rata de lichiditate rapidă

Rata de lichiditate rapidă se clasează în prima categorie și se regăsește în lucrările de specialitate și sub numele de „test acid”.

Notația folosită este QR și are formula de calcul QR = (AC-S)/DTS, unde am notat AC – active circulante, S – stocuri, DTS – datorii pe termen scurt.

Solvabilitatea patrimonială

Solvabilitatea patrimonială se clasează în a doua categorie și reprezintă capacitatea firmei de a-și îndeplini obligațiile față de partenerii de afaceri, fiind echivalentul ratei de finanțare a activelor, iar suma rezultatelor dintre rata de finanțare a activelor și gradul de îndatorare trebuie să fie egală cu 100%.

Notația folosită este SP și are formula de calcul SP= (CPR/TP)*100, unde am notat CPR – capitaluri proprii, TP – Total pasiv.

Rata rentabilității financiare

Rata rentabilității financiare se clasează în a doua categorie și este calculată pe baza informațiilor provenite din bilanțul contabil al unei firme. Este un indicator a gradului de îndatorare. Cu cât rata este mai mare, cu atât mai mult firma este îndatorată. O rată mai mare de 1,5 înseamnă că firma are datorii mari, iar capacitatea sa de a se împrumuta este foarte limitată.

Notația folosită este DER și are formula de calcul DER= (DT/CPR)*100, unde am notat DT – datorii totale, CPR – capitaluri proprii.

Rata capitalului propriu

Rata capitalului propriu se clasează în a doua categorie și indică ponderea capitalului propriu a unei firme în raport cu totalitatea activelor deținute de firmă. Această rată este măsurată ca procent. Un procent mai mic de 70% indică faptul că firma este în pericol, iar capacitatea sa de a se împrumuta este scăzută.

Notația folosită este EAR și are formula de calcul EAR=(CPR/AT), unde am notat CPR – capitaluri proprii, AT – activul total.

Rata de îndatorare globală

Rata de îndatorare globală se clasează în a doua categorie și măsoară ponderea datoriilor totale ale unei firme în raport cu activele totale deținute de firmă. Cu cât procentul este mai ridicat, cu atât firma are mai multe datorii.

Notația folosită este DAR și are formula de calcul DAR= (DT/AT)*100, unde am notat DT – datorii totale, AT – activul total.

Marja profitului operațional

Marja profitului operațional se clasează în a treia categorie și este folosită pentru compararea companiilor de către investitori, ajutându-i pe aceștia să evalueze progresul firmelor într-un interval de timp stabilit. Acest indicator este obținut prin raportarea profitului operațional la cifra de afaceri. Variațiile acestui raport în decursul timpului, indică dacă o firma devine mai eficientă în folosirea activelor.

Notația folosită este EBITM și are formula de calcul EBITM=EBIT/CA, unde am notat EBIT – Profitul înainte de dobânzi și impozit, CA – cifra de afaceri.

Rotația activelor imobilizate

Rata activelor imobilizate se clasează în a patra categorie și este un indice util deoarece arată care este rezultatul sumei investite în active pe termen lung, dacă ținem cont de cifra de afaceri. Activele fixe sunt folosite eficient, dacă avem o rată de rotație ridicată.

Notația folosită este FATR și are formula de calcul FATR=CA/AI, unde am notat CA – cifra de afaceri, AI – active imobilizate.

Rotația creanțelor

Viteza de rotație a creanțelor se clasează în a patra categorie și indică eficiența cu care firma își utilizează creanțele către clienți. O valoare mai mare a acestui indice semnifică faptul că firma colectează repede creanțele, iar o valoare mică semnifică faptul că firma are probleme în colectarea creanțelor la timpul potrivit.

Notația folosită este RTR și are formula de calcul RTR=CA/CT, unde am notat CA – cifra de afaceri, CT – creanțe.

Rotația capitalului de lucru

Indicele de rotație a capitalului de lucru se clasează în a treia categorie și indică frecvența transformării capitalului de lucru în încasări pe parcusul unei perioade considerate, sau cât de eficientă este conducerea firmei în folosirea capitalului de lucru pentru a produce încasări.

Notația folosită este WCTR și are formula de calcul WCTR=CA/(AC-DTS), unde am notat CA – cifra de afaceri, AC – active circulante, DTS – datorii pe termen scurt.

Rentabilitatea capitalului angajat

Rentabilitatea capitalului angajat se clasează în a treia categorie și măsoară rentabilitatea realizată de o companie în urma utilizării capitalului angajat. Indicele ar trebui să fie tot timpul mai ridicat decât rata împrumutării, în caz contrar, orice creștere a îndatorării va reduce câștigul acționarilor, și invers.

Notația folosită este ROCE și are formula de calcul ROCE=(EBIT/CPRM)*100, unde am notat EBIT – Profitul înainte de dobânzi și impozit, CPRM – capitaluri permanente.

Marja netă din vânzari

Marja netă din vânzari se clasează în a treia categorie și este calculată după taxe raportat la cifra de afaceri, o marja a profitului mai ridicată înseamnă că firma este mai eficientă în transformarea încasărilor în profit.

Notația folosită este ROR și are formula de calcul ROR=(PN/CA)*100, unde am notat PN – Profit net, CA – cifra de afaceri.

Rata rentabilității comerciale

Rata rentabilității comerciale se clasează în a treia categorie și este folosită pentru a evalua performanța operațională a unei firme și a analiza performanța actuală a unei firme, în comparație cu cea trecută, sau pentru a compara performanța diferitelor firme între ele.

Notația folosită este ROS și are formula de calcul ROS=EBIT/VT, unde am notat EBIT – Profitul înainte de dobânzi și impozit,VT – venituri totale.

7.3 Compararea performanței a două metode reprezentative de Inteligență Computațională cu diferite metode clasice de predicție a falimentului

Problema predicției dificultăților financiare ale firmei se circumscrie cadrului statistic general al clasificării binare. Într-adevăr, două grupuri de firme sunt relevante pentru acest studiu: firme solvabile, respectiv firme insolvabile.

Prin urmare, vom numi Insolvență variabila ce face obiectul predicției și va fi codificată cu -1 pentru firmele solvabile și cu 1 pentru cele insolvabile.

Sarcina clasificării constă în construirea de modele de clasificare, plecând de la un eșantion de exemple etichetate (adică formate atât din valorile predictorilor cât și din valoarea variabilei prezise) și se bazează pe căutarea unei reguli de decizie optimă care discriminează cel mai bine între grupurile din eșantion.

În cazul specific al predicției falimentului avem de a face cu o problemă de clasificare foarte dificilă, deoarece este de dimensiune mare, cele mai multe distribuții de probabilități ale datelor nu sunt de tip gaussian, iar excepțiile privind comportamentul firmelor sunt frecvent întâlnite.

Metodele de referință alese pentru realizarea modelului, respectiv rețelele neuronale (NN) și mașinile cu vectori suport (SVM) fac parte din tehnicile de clasificare bazate pe Inteligența Computațională cu cea mai mare acuratețe predictivă.

Performanțele predictive ale NN și SVM vor fi apoi comparate cu cele ale altor trei metode de clasificare, ce vor fi aplicate pe același set de date: prima este metoda clasică a analizei discriminante multidimensionale, iar celelalte sunt reprezentate de două metode de învățare supervizată foarte populare și anume, clasificatorul bayesian naiv și clasificatorul bazat pe arborele de decizie.

Acest lucru conduce la testarea a cinci algoritmi diferiți pe setul de date menționat, în scopul de a determina care dintre ei îi surclasează pe ceilalți.

La evaluarea performanței predictive a unuia sau mai multor modele, unul dintre principiile de bază este acela că testarea acurateței nu se face pe setul de date de instruire, ci pe un set de date de test.

Metoda de validare folosită în experimente este metoda „hould-out”, potrivit căreia setul de date este împărțit inițial în două subgrupuri: aproximativ 60% din date sunt utilizate pentru instruire și 40% pentru testare.

Pentru a asigura comparabilitatea, aceleași seturi de instruire și de testare au fost folosite pentru construirea și testarea tuturor celor cinci clasificatori.

Cu toate acestea, pentru a rezolva problema legată de capacitatea limitată de a face generalizări, ce caracterizează de obicei rețelele neuronale, în cazul lor au fost utilizate două strategii de învățare: învățare fără oprire timpurie și învățare cu oprire timpurie.

În cea de-a doua strategie, setul de date disponibil trebuie să fie împărțit în trei subseturi: subsetul de instruire, subsetul de validare și subsetul de testare.

În clasificarea binară, acuratețea este o măsură statistică a capacității unui clasificator de a identifica în mod corect dacă un obiect aparține uneia dintre cele două grupe.

Cu toate acestea, acuratețea nu este o măsură de încredere pentru performanța reală a unui clasificator, deoarece aceasta va da rezultate înșelătoare dacă setul de date este dezechilibrat. Din păcate, acesta este cazul cu datele utilizate în acest experiment, unde numărul de firme din cele două clase variază foarte mult: 104 firme solvabile și 26 firme intrate în insolvență. Astfel, este necesară o analiză mai detaliată decât simplul raport dintre predicțiile corecte și cele incorecte (reprezentând acuratețea predicției).

De fapt, performanța clasificatorilor concurenți a fost evaluată folosind matricea de confuzie și analiza ROC. Matricea de confuzie este un tabel cu două rânduri și două coloane care reprezintă numărul de rezultate fals pozitive, fals negative, real pozitive și real negative.

O predicție fals pozitivă este o eroare de tipul I, care în cazul nostru se referă la clasificarea eronată a unei firme insolvabile ca fiind solvabilă, în timp ce o predicție fals negativă este o eroare de tipul II, care se referă la clasificarea eronată a unei firme solvabile ca fiind insolvabilă.

Pe de altă parte, o curbă ROC este un grafic care ilustrează performanța unui clasificator binar atunci când pragul de discriminare este făcut să varieze, grafic în care:

ordonata reprezintă ponderea predicțiilor fals pozitive în totalul celor negative și este cunoscută sub numele de sensibilitate, sau de rată a predicțiilor real pozitive, fiind notată cu TPR (True positive rate);

abscisa reprezintă ponderea predicțiilor real pozitive în totalul celor negative și este cunoscută sub numele de specificitate, sau de rată a predicțiilor fals pozitive, fiind notată cu FPR (False positive rate).

Cele două ponderi TPR și FPR se calculează pentru diferite setări de prag.

O curbă ROC ce atinge punctul (0,1) indică un clasificator perfect, deoarece el clasifică corect toate cazurile pozitive, respectiv negative. Analiza ROC permite utilizarea ariei de sub curba ROC (AUC) ca un indice sintetic neparametric.

Configurarea demersului experimental constă din evaluarea puterii predictive deopotrivă pentru datele de învățare și datele de testare, folosind aria de sub curba ROC care este o metrică mai fiabilă decât acuratețea, prin care se se pot evita rezultatele înșelătoare cauzate de un set de date cu clase dezechilibrate. Un accent deosebit s-a pus pe testarea puterii de generalizare în raport cu riscul de supra-ajustare a datelor.

Pentru prelucrarea datelor a fost utilizat programul Matlab versiunea 8.1.0.604 (R2013a).

Studiul efectuat asupra eșantionului selectat va începe cu testarea celor trei metode clasice:analiza discriminantă multidimensională, clasificatorul bayesian naiv și clasificatorul bazat pe arborii de decizie. Urmând ca apoi, performanțele acestora să fie comparate cu clasificatoare bazate pe Inteligența Computațională, respectiv rețelele neuronale fără oprire timpurie, rețelele neuronale cu oprire timpurie și mașinile cu vectori suport.

7.3.1 Performanțele predictive și interpretarea rezultatelor în cazul aplicării MDA

Analiza discriminantă multidimensională (MDA) este o tehnică statistică ce constă în elaborarea unui model pentru separarea grupurilor distincte de obiecte și utilizarea modelului pentru clasificarea de noi obiecte, adică pentru alegerea grupului celui mai potrivit la care acestea să fie asignate.

MDA încearcă să estimeze o funcție ce are drept argumente un set de variabile (numite predictori), cu ajutorul căreia să se obțină cea mai bună predicție posibilă a categoriei sau grupului din care un anumit caz face parte.

În etapa de estimare a modelului, apartenența la un anumit grup a fiecărui caz din eșantionul considerat trebuie să fie cunoscută (cazurile cu apartenență de grup cunoscută se numesc cazuri etichetate).

Funcția definită în raport cu variabilele predictor se numește funcție de clasificare, iar această funcție poate fi apoi utilizată pentru a clasifica cazurile noi a căror apartenență la un anumit grup este necunoscută (numite și cazuri neetichetate).

MDA în comparație cu rețelele neuronale prezintă următoarele puncte slabe:

consideră doar cazuri complete (nu admite date cu valori lipsă, sau cu valori în afara domeniilor de variație ale variabilelor folosite în etapa de estimare a modelului);

prezența valorilor extreme poate afecta grav analiza.

Mai mult decât atât, metodele de analiză discriminantă sunt foarte mult afectate de natura matricilor de covarianță intra-grup. În cazul analizei discriminante liniare, matricile de covarianță sunt presupuse egale pentru toate grupurile.

Deși o astfel de ipoteză severă nu mai este necesară în cazul analizei discriminante pătratice, nu se poate totuși elimina ipoteza restrictivă ca variabilele să urmeze o distribuție normală multidimensională.

În ciuda limitărilor sale, MDA este încă larg folosită ca un instrument standard pentru predicția falimentului. Performanța MDA în cazul aplicării sale pe setul de date analizat se poate observa în figurile de mai jos (Figura 7.1 și Figura 7.2).

Figura 7.1 Analiza discriminantă multidimensională: matrici de confuzie

Figura 7.2 Analiza discriminantă multidimensională:

curbe ROC și ariile de sub curbele ROC (AUC)

Interpretarea rezultatelor

Acuratețea clasificării pentru MDA este aceeași (88,5%) pentru subsetul de instruire, subsetul de testare și întregul set de date. Cu toate acestea, deoarece numărul de firme solvabile și insolvabile în eșantionul utilizat este dezechilibrat, rata acurateței este o metrică înșelătoare a performanței predictive.

Performanța „in-sample” (atunci când modelul se aplică pentru predicția cazurilor din subsetul de instruire, numită și reclasificare) este următoarea:

MDA clasifică în mod incorect 7 (9%), companii nefalimentare ca fiind falimentare (eroare de tipul I) și 2 (2,6%), companii falimentare ca fiind nefalimentare (eroare de tipul II);

aria de sub curba ROC (AUC) pentru subsetul de date de instruire este de aproximativ 0,76512 pentru ambele clase.

Performanța „out-of-sample“ (atunci când modelul se aplică pentru predicția cazurilor din subsetul de testare) este următoarea:

MDA clasifică în mod eronat 2 (3,8%), companii nefalimentare ca fiind în stare de faliment și 4 (7,7%), companii falimentare ca fiind nefalimentare;

aria de sub curba ROC este de aproximativ 0,85238 pentru ambele clase mai mare chiar decât în cazul subsetului de instruire – ceea ce arată o bună capacitate de generalizare pentru această metodă clasică.

7.3.2 Performanțele predictive și interpretarea rezultatelor în cazul aplicării NB

Clasificatorul bayesian naiv (NB) este un clasificator statistic, bazat pe teorema lui Bayes, respectiv pe ipoteza maximizării probabilității aposteriori, și poate prezice probabilitatea ca un caz dat să aparțină unei anumite clase. Această metodă este printre metodele de învățare cele mai larg utilizate în practică, nefiind sensibilă la includerea unor variabile predictor irelevante. Clasamentul final este produs prin combinarea probabilității a priori și a măsurii de verosimilitate, pentru a forma o probabilitate aposteriorică.

NB se bazează pe ipoteze stricte (deci naive) de independență condiționată a claselor, care reduce dramatic numărul de parametri de estimat când se estimează modele de forma P(X|Y).În practică, ipoteza de independență condiționată este adesea încălcată, dar clasificatorul încă funcționează destul de bine pentru majoritatea aplicațiilor.

Performanța clasificatorului bayesian naiv pentru predicția falimentului în cazul aplicării sale pe setul de date analizat în model este prezentată în figurile de mai jos (Figura 7.3 și Figura 7.4).

Figura 7.3 Clasificatorul bayesian naiv: matrici de confuzie

Figura 7.4 Clasificatorul bayesian naiv:

curbe ROC și ariile de sub curbele ROC (AUC)

Interpretarea rezultatelor

Dovezile empirice arată că, cel puțin în cazul aplicării metodei pe setul de date analizat, clasificatorul bayesian naiv are performanțe mai slabe atunci când se compară cu MDA. Numărul de companii eronat clasificate este mare pentru ambele subseturi de date (de instruire și de testare).

NB produce numeroase predicții fals negative:

37 (47,4%), pentru subsetul de date de instruire;

21 (40,4%) pentru subsetul de date de testare.

Aria de sub curba ROC pentru subsetul de instruire este de aproximativ 0,67036, iar aria de sub curba ROC pentru subsetul de testare este de 0,65.

7.3.3 Performanțele predictive și interpretarea rezultatelor în cazul aplicării DT

Arborele de decizie (DT) este un clasificator sub forma unei structuri arborescente, unde rădăcina nu are ramuri incidente și toate celelalte noduri au exact o ramură incidentă.

Un nod cu ramuri de ieșire se numește nod intern sau nod de testare. Toate celelalte noduri sunt numite frunze sau noduri terminale.

Algoritmul de inducție asociat arborelui de decizie dezvoltă un arbore de decizie în mod recursiv prin partiționarea cazurile din subsetul de instruire în subseturi succesive din ce in ce mai mici (în mod ideal, până când toate cazurile din subseturile rezultate prin divizare fac parte din aceeași clasă).

Rădăcina și nodurile interne conțin condiții de testare a atributelor pentru a separa cazurile care au caracteristici diferite, divizând astfel spațiul atributelor în subspații, pe baza unui criteriu de evaluare a eficienței predictive a fiecărei condiții de testare.

În fiecare nod terminal este atribuită o etichetă de clasă, reprezentând valoarea cea mai potrivită a variabilei de decizie.

Cu toate acestea, atunci când cazurile prezente într-o frunză fac parte din mai multe clase, frunza poate să conțină un vector de probabilități care indică probabilitatea ca variabila de decizie să aibă o anumită valoare.

Odată ce arborele de decizie a fost construit, alte cazuri neetichetate pot fi clasificate prin parcurgerea arborelui de la rădăcină până la o frunză, în funcție de rezultatele testelor de-a lungul traseului. Eticheta de clasă asociată cu nodul frunză este apoi asignată cazului respectiv.

Nodul rădăcină al arborelui de decizie construit (Figura 7.5) conține 78 de cazuri din subsetul de instruire care sunt distribuite astfel: 62 de firme nefalimentare și 16 firme falimentare.

Condițiile de testare sunt afișate pe ramurile de ieșire din nodurile neterminale, iar etichetele de clasă sunt afișate în nodurile terminale.

Figura 7.5 Arborele de decizie, cu nodurile neterminale reprezentate

de triunghiuri, și nodurile terminale reprezentate de puncte

Performanța clasificatorului bazat pe arborele de decizie pentru predicția falimentului în cazul aplicării sale pe setul de date analizat este prezentată în figurile de mai jos (Figura 7.6 și Figura 7.7).

Figura 7.6 Arborele de decizie: matrici de confuzie

Figura 7.7 Arborele de decizie:

curbe ROC și ariile de sub curbele ROC (AUC)

Interpretarea rezultatelor

În urma realizării predicției au fost obținute următoarele rezultate:

pentru subsetul de instruire doar 6 (7,7%) companii au fost eronat clasificate, toate fiind fals pozitive;

pentru subsetul de testare doar 3 (5,8%) companii au fost eronat clasificate, toate fiind fals pozitive.

AUC pentru subsetul de instruire este de 0,8125 și AUC pentru subsetul de testare este de 0,85.

În concluzie, se poate afirma faptul că DT surclasează semnificativ NB și are o performanță de predicție similară cu cea a MDA.

7.3.4 Performanțele predictive și interpretarea rezultatelor în cazul aplicării NN fără oprire timpurie

Rețelele neuronale (NN) au evoluat ca una dintre cele mai importante instrumente pentru clasificare. Deoarece rețelele neuronale sunt capabile să identifice și să reprezinte relații neliniare prezente în setul de date, utilizarea lor în sfera problemelor financiare, inclusiv al celor de predicție a falimentului, este foarte atractivă.

NN sunt caracterizate prin caracteristicile arhitecturii de tip rețea, adică numărul de straturi, numărul de noduri din fiecare strat și modul în care sunt conectate nodurile.

Simulările din model au fost efectuate cu o rețea de tip perceptron multistrat (MLP) cu un strat de intrare, un strat ascuns și un strat de ieșire.

Stratul ascuns și stratul de ieșire au următoarele caracteristici:

stratul ascuns este format din 40 de neuroni cu funcțiile de transfer de tip tangentă-sigmoid (tansig);

stratul de ieșire este format dintr-un neuron cu funcție de transfer liniară (purelin).

În timpul procesului de instruire, exemplele (cazurile) sunt prezentate stratului de intrare al rețelei.Valorile de activare ale nodurilor de intrare sunt ponderate și acumulate în fiecare nod din stratul ascuns. Suma ponderată obținută este transformată de către funcția tansig în valoarea de activare a nodului. Ea furnizează astfel intrările pentru nodurile stratului de ieșire.

În final se obține o valoare de ieșire care trebuie comparată cu valoarea dorită și ar trebui, în principiu, să corespundă cu aceasta.

Scopul fazei de instruire este de a minimiza diferențele dintre valorile de ieșire ale NN și valorile variabilei de decizie, cunoscute pentru toate cazurile din subsetul de instruire.

NN este antrenată prin algoritmul de propagare înapoi (backpropagation), care folosește un algoritm de tipul descreșterii gradientului pentru a actualiza ponderile rețelei neuronale. Gradientul este determinat prin propagarea erorilor înapoi de la stratul de ieșire către stratul ascuns.

Pentru început vom instrui o rețea neuronală fără oprire timpurie. Figura 7.8 prezintă cum se îmbunătățește performanța în etapa de instruire (erorile pentru subsetul de instruire scad cu fiecare ciclu de instruire, numit epocă), pe măsură ce procesul avansează.

Figura 7.8 Rețele neuronale fără oprire timpurie:

îmbunătățirea performanțelor de instruire

Matricile de confuzie și curbele ROC, care permit să se evalueze performanța predictivă a rețelei neuronale sunt prezentate în figurile de mai jos (Figura 7.9 și Figura 7.10).

Figura 7.9 Rețele neuronale fără oprire timpurie: matrici de confuzie

Figura 7.10 Rețele neuronale fără oprire timpurie:

curbe ROC și ariile de sub curbele ROC (AUC)

Interpretarea rezultatelor

Se poate observa că acuratețea predicției pentru subsetul de instruire este de 100%. Ratele de eroare de tipul I și de tipul II sunt egale cu 0% și AUC pentru subsetul de instruire este egal cu 1, confirmând astfel că performanța „in-sample” (de reclasificare) a NN este excelentă.

Cu toate acestea, este un fapt binecunoscut că folosirea unei strategii de instruire fără oprire timpurie poate să conducă la modele predictive cu putere de generalizare mică, expuse riscului de a se specializa în predicția cazurilor din subsetul de instruire, în detrimentul cazurilor noi din subsetul de testare a căror acuratețe predictivă se deteriorează într-o anumită măsură. În cazul nostru, AUC pentru subsetul de testare de aproximativ 0,88.

7.3.5 Performanțele predictive și interpretarea rezultatelor în cazul aplicării NN cu oprire timpurie

În conformitate cu principiul parcimoniei modelele trebuie să conțină tot ceea ce este necesar pentru modelare, dar nimic mai mult. Noțiunea de supra-ajustare (overfitting) desemnează utilizarea de modele care încalcă parcimonia, conducând la o ajustare a datelor excesivă în raport cu realitatea pe care acestea o reprezintă.

În general, supra-ajustarea se produce atunci când un model este mai flexibil decât ar trebuie să fie, sau este excesiv de complex, având prea mulți parametrii în raport cu numărul de observații.

Interesul nostru atunci când instruim o rețea neuronală este de a obține o rețea cu performanță de generalizare optimă. Cu toate acestea, toate arhitecturile standard de rețele neuronale, cum ar fi cele de tip perceptron multistrat, sunt predispuse la supra-ajustare.

Oprirea timpurie este o tehnică simplă, dar eficientă, de a oferi o soluție la problema de supra-ajustare. În cazul opririi timpurii, datele disponibile sunt împărțite în trei subseturi: subsetul de instruire, subsetul de validare și subsetul de testare.

În cazul rețelelor neuronale, subsetul de instruire este utilizat pentru calcularea gradientului și actualizarea ponderilor rețelei.

Subsetul de validare este utilizat doar în procesul de instruire pentru a decide asupra momentului opririi acestuia, prin monitorizarea erorii pentru subsetul de validare în timpul procesului de instruire.

Eroarea asociată subsetului de validare scade în mod normal în timpul fazei inițiale de instruire, la fel ca eroarea pentru subsetul de instruire.

Cu toate acestea, atunci când rețeaua începe să supra-ajusteze datele, eroarea asociată subsetului de validare de obicei începe să crească.

Când eroarea pentru subsetul de validare crește pentru un număr specificat de iterații, procesul de instruire este oprit, iar ponderile returnate sunt acelea ce corespund erorii minime de validare.

Modelul de rețea cu cea mai bună performanță pentru subsetul de validare este în cele din urmă selectat. Cu toate acestea, eroarea de validare nu este o estimare bună a erorii de generalizare.

Pentru a obține o estimare neviciată a erorii de generalizare, modelul de rețea neuronală ar trebui să fie rulat pe un subset separat de date (subsetul de testare), care nu a fost implicat deloc în timpul procesului de instruire.

Eroarea pentru subsetul de testare dă o estimare a erorii de generalizare și poate fi utilizată pentru a compara diferite modele.

Performanța asociată etapelor de instruire, de validare și de testare este prezentată în figura de mai jos (Figura 7.11).

Figura 7.11 Rețele neuronale cu oprire timpurie:

performanțele de instruire, validare și testare

Matricile de confuzie și curbele ROC care permit evaluarea performanței predictive a clasificatorului NN ( Figura 7.12 și Figura 7.13).

Figura 7.12 Rețele neuronale cu oprire timpurie: matrici de confuzie

Figura 7.13 Rețele neuronale cu oprire timpurie:

curbe ROC și ariile de sub curbele ROC (AUC)

Interpretarea rezultatelor

Se poate observa faptul că instruirea rețelelor neuronale cu oprire timpurie produce performanțe predictive mai echilibrate pentru subseturile de instruire, validare și testare:

AUC pentru subsetul de instruire este aproximativ 0,94;

AUC pentru subsetul de validare este aproximativ 0,94;

AUC pentru subsetul de testare este aproximativ 0,95.

7.3.6 Performanțele predictive și interpretarea rezultatelor în cazul aplicării SVM

În ultimii ani, un interes sporit a fost dedicat folosirii metodelor de tip kernel (nucleu) într-o arie largă de probleme de învățare supervizată. Mașinile cu vectori suport (SVM) sunt exemplul cel mai proeminent. SVM folosește un model liniar pentru a implementa limite de clasă neliniare prin aplicarea de vectori de intrare non-liniar, într-un spațiu al caracteristicilor cu număr mare de dimensiuni, utilizând funcții kernel.

Un astfel de model se numește hiperplanul de marjă maximă și produce separarea maximă între clasele de decizie. Exemplele de instruire care sunt cele mai apropiate de hiperplanul de marja maximă se numesc vectori suport.

Întrucât acestea sunt determinate prin rezolvarea unei probleme de programare patratică cu restricții liniare, SVM garantează existența unei soluții unice, optimale și globale. Vectorii suport sunt apoi utilizați pentru a construi un hiperplan de separare liniar optimal (în cazul clasificării), sau o funcție de regresie liniară (în cazul regresiei) în acest spațiu al caracteristicilor.

SVM s-a dovedit de multe ori superior altor tehnici de predicție neliniare, incluzând aici și rețelele neuronale. Un avantaj major al SVM față de NN este faptul că are doar doi parametrii liberi, și anume limita superioară C și parametrul nucleului .

Prin contrast, există un număr mare de parametrii de control în NN, cum ar fi numărul de straturi ascunse, numărul de noduri ascunse, rata de învățare, termenul impuls, numărul de epoci, funcțiile de transfer și metodele de inițializare a ponderilor care sunt selectate empiric.

Un alt avantaj major al SVM este de a avea o bună performanță de generalizare, fiind capabil să generalizeze bine chiar dacă instruirea s-a realizat cu un număr mic de exemple.

În acest model vom utiliza funcția de bază radială, ca funcție nucleu a SVM. Deoarece SVM nu are o rețetă generală pentru determinarea limitei superioare C și a parametrului kernel , vom varia parametrii pentru a selecta valorile optime pentru cea mai bună performanță predictivă.

În urma cercetărilor empirice efectuate s-a ajuns la concluzia că, cele mai bune performanțe predictive sunt obținute atunci când este de 12 și C este 16.

Figurile 7.14 și 7.15 prezintă matricile de confuzie și curbele ROC care permit evaluarea performanței predictive a clasificatorului SVM.

Figura 7.14 Mașini cu vectori suport: matrici de confuzie

Figura 7.15 Mașini cu vectori suport:

curbe ROC și ariile de sub curbele ROC (AUC)

Interpretarea rezultatelor

Rezultatele obținute demonstrează că SVM are o performanță bună de generalizare. Într-adevăr, AUC pentru subsetul de testare este de aproximativ 0,964, care este chiar mai mare decât valoarea AUC pentru subsetul de instruire, adică 0,936.

7.3.7 Concluziile comparării performanței în predicția falimentului a NN și SVM în raport cu MDA, NB și DT

În cele ce urmează vor fi prezentate concluziile comparării performanțelor în predicția falimentului unor firme românești listate la bursă în timpul crizei financiare, între două tehnici de clasificare bazate pe Inteligența Computațională cu cea mai de mare acuratețe predictivă, respectiv rețelele neuronale (NN) și mașinile cu vectori suport (SVM) și trei metode clasice de clasificare, respectiv metoda analizei discriminante multidimensionale (MDA), clasificatorul bayesian naiv (NB) și clasificatorul bazat pe arborii de decizie (DT).

Prin aplicarea clasificatorului bayesian naiv s-a constatat că are mai degrabă o performanță slabă și este în mod clar inferior celorlalte metode, atât în cazul predicției „in-sample”, cât și al predicției „out-of-sample”.

Pe de altă parte, clasificatorul bazat pe arborii de decizie are performanțe superioare față de analiza discriminantă multidimensională în cazul predicției „in-sample” și performanțe similare în cazul al predicției „out-of-sample”.

Clasificatorul bazat pe rețele neuronale fără oprire timpurie este predispus la supra-ajustarea datelor care produce clasificări perfecte pe setul de date de instruire, dar predicția se deteriorează în mod semnificativ pe setul de date de test, dovedindu-și astfel incapacitatea de a generaliza bine.

Dimpotrivă, clasificatorul bazat pe rețele neuronale cu oprire timpurie are performanțe consistente și constant bune atât în cazul predicției „in-sample”, cât și al predicției „out-of-sample”.

Strategia de oprire timpurie permite evitarea supra-ajustării datelor și conduce la o bună capacitate de generalizare.

Rezultatele obținute demonstrează că mașinile cu vectori suport au o putere predictivă foarte bună și cea mai bună performanță de generalizare, datorită faptului că mașinile cu vectori suport implementează principiul minimizării riscului structural, care încearcă să minimizeze limita superioară a erorii de generalizare, mai degrabă decât să minimizeze eroarea de instruire.

CONCLUZII ȘI DIRECȚII DE CERCETARE

Cercetarea întreprinsă în această teză pleacă de la realitatea care ne înconjoară, realitate datorată efectelor marii crize financiare declanșată la nivel global în 2007, resimțită în România începând cu 2008 și care, a atins punctul critic în primăvara anului 2009. Consecințele care s-au resimțit puternic în anul 2010, nu au dispărut încă, există și actualmente în țara noastră. Necesitatea cercetării este explicată în partea introductivă a lucrării.

În prima parte a lucrării am prezentat contextul teoretic în care poziționăm problema cercetării. În primul capitol, am evidențiat particularitățile falimentului și am prezentat principiile de bază ale Acordurilor de la Basel însoțite de noile concepte introduse de acordul Basel III. La finalul capitolului am efectuat o analiză comparativă și critică a literaturii de specialitate privind modelele de predicție a falimentului, a metodelor și capacității de predicție a modelelor cu cea mai ridicată acuratețe.

În următorul capitol al lucrării am trecut în revistă cele mai populare modele statistice clasice de predicție a falimentului bazate pe metoda scorurilor. Am încheiat capitolul cu o analiză a literaturii de specialitate privind aplicarea modelelor statistice clasice în predicția falimentului.

Continuăm cu al treilea capitol al lucrării, care este și cel mai dens, având în vedere faptul că am rezervat câte un subcapitol pentru fiecare din cele patru metode clasice de estimare statistică utilizate în predicția falimentelor. Începem fiecare subcapitol cu conceptele teoretice care cuprinde și suportul matematic pentru fiecare metodă în parte.

În plus, pentru fiecare metodă am prezentat următoarele: pentru analiza discriminant am expus metodele de aplicare a analizei discriminant pentru două populații; pentru regresia logistică am introdus noțiunile de construire a modelului și regresia logistică multiplă; pentru clasificatorul bayesian naiv, am efectuat o analiză a elementelor bayesiene și am prezentat caracteristicele clasificatorului bayesian naiv; pentru arborele de decizie am exemplificat metodele de exprimare a condițiilor de testare a atributelor, metoda de construire a arborelui de decizie, algoritmii de acoperire, construirea regulilor în cadrul cărora am efectuat și o comparare a regulilor cu arborii de decizie. În ultima parte a acestui capitol am analizat comparativ și critic modul privind utilizarea metodelor clasice de estimare statistică în literatura de specialitate pentru predicția falimentelor.

În cel de-al patrulea capitol dedicat evaluării și examinării performanței unui model de clasificare, am introdus noțiunile necesare evaluării performanței clasificatorilor efectuată cu matricea de confuzie și analiza ROC care permite utilizarea ariei de sub curba ROC, ca un indice sintetic neparametric.În încheierea capitolului am prezentat comentarii din literatura de specialitate privind evaluarea performanțelor unui model de clasificare.

Următorul capitol tratează tehnicile de Inteligență Computațională cu cea mai mare putere predictivă, care vor fi utilizate în cercetarea din partea a doua a tezei. Începem cu definirea conceptului de Inteligență Computațională, introducerea conceptelor fundamentale în definirea rețelelor neuronale, arhitecturi de rețele, etc. Continuăm cu prezentarea principiului de funcționare al mașinilor cu vectori suport pentru clasele separabile și neseparabile. În ultima parte a acestui capitol, am prezentat comentariile efectuate în literatura de specialitate privind superioritatea tehnicilor de Inteligență Computațională în raport cu metodele clasice de estimare statistică în predicția falimentelor.

În ultimul capitol al primei părți am prezentat rolul sistemelor de avertizare timpurie și tehnologiilor de supraveghere în prevenirea crizelor financiare, urmând ca la finalul capitolului să prezint o analiză a principalelor caracteristici ale sistemelor actuale de avertizare timpurie a falimentelor bancare sau corporatiste și a crizelor financiare.

Partea a doua a tezei conține cercetarea propriu-zisă. Problema de cercetare pe care o abordăm este compararea performanțelor predictive a metodelor bazate pe Inteligența Computațională cu metodele clasice de estimare statistică, prezentate în prima parte a lucrării. Cercetarea are ca scop evaluarea performanțelor predictive ale diferitelor modele ce pot fi utilizate în predicția falimentului firmelor.

În prima fază este prezentat eșantionul format din 130 firme românești listate la Bursa de Valori București, pentru care au fost calculați 16 indici financiari cu rol de predictori, pe baza rezultatelor financiare colectate din raportările contabile anuale aferente anului 2010.

O particularitate a cercetării este dată de analizarea eșantionului selectat într-o perioadă instabilă, respectiv 2010-2013, afectată de criza financiară.

Problema predicției falimentului firmelor din eșantionul selectat se circumscrie cadrului statistic general al clasificării binare, cele două grupuri de firme solvabile, respectiv firme insolvabile fiind relevante în cercetarea propriu-zisă.

Primul pas efectuat a fost testarea a trei metode de estimare clasică, și anume: analiza discriminantă multidimensională, clasificatorul bayesian naiv și clasificatorul bazat pe arborii de decizie. Urmând ca, la următorul pas, performanțele celor trei metode de estimare clasică să fie comparate cu clasificatoarele bazate pe Inteligența Computațională, cum ar fi rețelele neuronale fără oprire timpurie, rețelele neuronale cu oprire timpurie și mașinile cu vectori suport.

Rezultatele obținute demonstrează că mașinile cu vectori suport au o putere predictivă foarte bună și cea mai bună performanță de generalizare. Prin urmare, putem spune că se validează rezultatele obținute în urma cercetărilor din literatura de specialitate, adică mașinile cu vectori suport au o putere predictivă foarte bună și cea mai bună performanță de generalizare

Pentru eșantionul de firme ales, rezultatele obținute se validează în literatura de specialitate, în sensul că tehnicile de Inteligență Computațională utilizate, respectiv rețelele neuronale și mașinile cu suport vectorial constituie tehnicile cu performanța (acuratețea) cea mai bună (cea mai ridicată) în predicția falimentului.

Setul de date pe care am dezvoltat cercetarea sunt aferente anului 2010, perioadă instabilă, afectată de criza economică, ceea ce ne permite să afirmăm că seria de concluzii obținute se adaptează oricărei perioade economice, fiind confirmată într-o perioadă de recesiune economică.

Aplicația propusă este de actualitate, rezultatele obținute fiind de un real folos managerilor firmelor și analiștilor financiari, oferind rapiditate și siguranță în predicția viitoarelor evenimente financiare, în special datorită utilizării datelor reale pe baza cărora s-a realizat estimarea predicției eșecului în afaceri, prin compararea metodele clasice de estimare statistică cu tehnicile de Inteligență Computațională.

Rezultatele cercetării personale prin compararea performanțelor predictive ale diferitelor metode de clasificare aplicate unui set de indici financiari prestabiliți, reprezintă un element de noutate în clasificarea firmelor românești listate la bursa de valori, în solvabile, respectiv insolvabile.

Experimentele numerice realizate în această teză confirmă, pe baza datelor reale utilizate, faptul că modelele bazate pe tehnici de Inteligență Computațională conduc la predicții mult mai bune decât metodele clasice de estimare statistică.

Rezultatele obținute au la bază o abordare de tip multidisciplinar, reflectată pe de o parte în multitudinea temelor din studiile științifice consultate, iar pe de altă parte în necesitatea de a îmbina și corobora o paletă foarte largă de cunoștințe din domenii diferite precum teoria economico-financiară, teoria probabilităților, statistica matematică (în special teoria estimației), inteligența computațională și tehnologiile software.

O asemenea abordare mi-a permis să dobândesc o privire de ansamblu asupra temei studiate, sugerându-mi totodată lărgirea spectrului de aplicații bazat pe metode inovatoare și noi direcții viitoare de cercetare.

Ca primă direcție de cercetare viitoare, mi-am propus extinderea analizei prin includerea unei etape de selectare automată a celor mai relevanți predictori (dintr-un set mai larg de predictori disponibili), etapă care să preceadă construcția propriu-zisă a modelelor de predicție. Scopul introducerii unei astfel de etape este îmbunătățirea calitații predictive a modelelor, care nu vor mai pleca de la un set prestabilit de predictori, ci vor fi specificate prin selectarea celor mai relevanți predictori din punct de vedere al capacității lor de discriminare.

În cursul acestei cercetări ne-am limitat la utilizarea a celor mai cunoscute două tehnici de clasificare bazate pe Inteligență Computațională, respectiv rețelele neuronale și mașinile cu vectori suport. Studiile viitoare ar putea avea în vedere explorarea și a altor metode predictive din aria celor de Inteligență Computațională, cum ar fi metodele predictive bazate pe inferențe fuzzy, sau utilizarea unor metode hibride de tip neuro-fuzzy. De aici, decurge o altă direcție viitoare de cercetare importantă, ce poate aborda problema temei studiate, care poate deveni o temă de interes în cercetările științifice.

BIBLIOGRAFIE

LISTA DE ABREVIERI

INDEXUL TABELELOR

CAPITOLUL 1

Tabelul 1.1 Studii europene cu modele care sunt aplicate firmelor din Europa / pg.13

Tabelul 1.2 Capacitatea de predicție a modelelor deceniului și metodele utilizate cu cea mai ridicată acuratețe / pg.14

Tabelul 1.3 Capacitatea de predicție a metodei și studiile cu cea mai ridicată acuratețe / pg.14

Tabelul 1.4 Categorii de modele /pg.16

Tabelul 1.5 Principalele caracteristici ale diferitelor tipuri de modele statistice / pg.16

Tabelul 1.6 Principalele caracteristici ale modelelor de inteligență artificială / pg.17

Tabelul 1.7 Principalele caracteristici ale modelelor teoretice / pg.18

CAPITOLUL 2

Tabelul 2.1 Indicii financiari utilizați de Beaver / pg.21

Tabelul 2.2 Testul de clasificare dihotomică efectuat de Beaver / pg.21

Tabelul 2.3 Rata de eroare a modelului Beaver în predicția falimentului / pg.22

Tabelul 2.4 Valorile medii pentru indicii financiari din modelul lui Altman / pg.22

Tabelul 2.5 Acuratețea predicției modelelor Beaver și Altman / pg.23

Tabelul 2.6 Probabilitatea falimentului în modelul Z' / pg.23

Tabelul 2.7 Probabilitatea falimentului în modelul Z'' / pg.24

CAPITOLUL 3

Tabelul 3.1 Date meteorologice cu atribute simbolice / pg.59

Tabelul 3.2 Date meteorologice cu atribute simbolice și numerice / pg.59

Tabelul 3.3 Secvența ordonată a predictorului „Temperatura” și etichete de clasă pentru variabila de decizie d / pg.61

Tabelul 3.4 Delimitatori / pg.61

CAPITOLUL 4

Tabelul 4.1 Exemplu de matrice de confuzie / pg.73

CAPITOLUL 7

Tabelul 7.1 Numărul de insolvențe din Europa Centrală și de Est în anul 2013 / pg.115

Tabelul 7.2 Repartizarea pe regiuni de dezvoltare a firmelor solvabile / pg.116

Tabelul 7.3 Numărul total de insolvențe și dinamica în perioada 2011-2013 / pg.117

Tabelul 7.4 Repartizarea pe regiuni de dezvoltare a firmelor insolvabile / pg.117

Tabelul 7.5 Predictori / pg.119

INDEXUL REPREZENTĂRILOR GRAFICE

CAPITOLUL 1

Graficul 1.1 Statistica modelelor cu privire la acuratețea predicției / pg.19

Graficul 1.2 Performanța abordării celor trei categorii de modele privind acuratețea predicțiilor / pg.19

CAPITOLUL 7

Graficul 7.1 Reprezentarea grafică a firmelor solvabile pe regiuni de dezvoltare / pg.116

Graficul 7.2 Reprezentarea grafică a firmelor insolvabile pe regiuni de dezvoltare / pg.117

Graficul 7.3 Numărul firmelor admise la tranzacționare în perioada 1995-2013 / pg.118

Graficul 7.4 Procentul firmelor din eșantion pe regiuni de dezvoltare / pg.118

INDEXUL FIGURILOR

CAPITOLUL 3

Figura 3.1 Exemple de clasificare / pg.29

Figura 3.2 Reprezentarea intuitivă a metodei discriminante a lui Fisher / pg.34

Figura 3.3 Reprezentarea clasificării celor 2 populații / pg.37

Figura 3.4 Distribuția logaritmică / pg.39

Figura 3.5 Valoarea raportului de probabilitate / pg.41

Figura 3.6 Arbore de decizie / pg.53

Figura 3.7 Comparația între măsurile impurității / pg.56

Figura 3.8 Posibilitățile de împărțire și ramurile binare produse pentru datele referitoare la vreme / 63

Figura 3.9 Ramurile arborelui extinse pentru datele meteorologice / pg.65

Figura 3.10 Arbore decizional pentru datele meteorologice/ pg.66

Figura 3.11 Supra-ajustarea învățării / pg.67

Figura 3.12 Subarborele redus / pg.68

Figura 3.13 Algoritmul de acoperire / pg.70

CAPITOLUL 4

Figura 4.1 Exemplu de grafic ROC / pg.76

CAPITOLUL 5

Figura 5.1 Modelul neuronului McCulloch-Pitts / pg.83

Figura 5.2 Arhitectura unei rețele feedforward cu un singur strat / pg.86

Figura 5.3 Arhitectura unei rețele feedforward multistrat / pg.86

Figura 5.4. Arhitectura unei rețele recurente / pg.87

Figura 5.5 Perceptronul multistrat / pg.93

Figura 5.6 Dimensiunea Vapnik & Chervonenkis / pg.98

Figura 5.7 Schema SVM / 98

Figura 5.8 Soluții pentru separarea liniară a două clase / pg.99

Figura 5.9 Reprezentarea grafică a hiperplanului optim de separare / 100

Figura 5.10 Reprezentarea grafică a hiperplanului optim generalizat de separare / pg.103

CAPITOLUL 7

Figura 7.1 Analiza discriminantă multidimensională: matrici de confuzie / pg.126

Figura 7.2 Analiza discriminantă multidimensională: curbe ROC și ariile de sub curbele ROC / pg.127

Figura 7.3 Clasificatorul bayesian naiv: matrici de confuzie / pg.129

Figura 7.4 Clasificatorul bayesian naiv: curbe ROC și ariile de sub curbele ROC / pg.130

Figura 7.5 Arborele de decizie cu nodurile neterminale reprezentate de triunghiuri, și nodurile terminale reprezentate de puncte / pg.132

Figura 7.6 Arborele de decizie: matrici de confuzie / pg.133

Figura 7.7 Arborele de decizie: curbe ROC și ariile de sub curbele ROC / pg.134

Figura 7.8 Rețele neuronale fără oprire timpurie: îmbunătățirea performanțelor de instruire / pg.136

Figura 7.9 Rețele neuronale fără oprire timpurie: matrici de confuzie / pg.137

Figura 7.10 Rețele neuronale fără oprire timpurie: curbe ROC și ariile de sub curbele ROC / pg.138

Figura 7.11 Rețele neuronale cu oprire timpurie: performanțele de instruire, validare și testare / pg.140

Figura 7.12 Rețele neuronale cu oprire timpurie: matrici de confuzie / pg.141

Figura 7.13 Rețele neuronale cu oprire timpurie: curbe ROC și ariile de sub curbele ROC / pg.142

Figura 7.14 Mașini cu vectori suport: matrici de confuzie / pg.144

Figura 7.15 Mașini cu vectori suport: curbe ROC și ariile de sub curbele ROC / pg.145

ANEXA 1. Indicii financiari pentru perioada 2010 – 2013

A.Indicii financiari pentru anul 2010

Sursa:Prelucrare proprie

continuare pentru anul 2010

Sursa:Prelucrare proprie

continuare pentru anul 2010

Sursa:Prelucrare proprie

continuare pentru anul 2010

Sursa:Prelucrare proprie

continuare pentru anul 2010

Sursa:Prelucrare proprie

continuare pentru anul 2010

Sursa:Prelucrare proprie

continuare pentru anul 2010

Sursa:Prelucrare proprie

continuare pentru anul 2010

Sursa:Prelucrare proprie

B. Indicii financiari pentru anul 2011

Sursa:Prelucrare proprie

continuare pentru anul 2011

Sursa:Prelucrare proprie

continuare pentru anul 2011

Sursa:Prelucrare proprie

continuare pentru anul 2011

Sursa:Prelucrare proprie

continuare pentru anul 2011

Sursa:Prelucrare proprie

continuare pentru anul 2011

Sursa:Prelucrare proprie

continuare pentru anul 2011

Sursa:Prelucrare proprie

continuare pentru anul 2011

Sursa:Prelucrare proprie

C. Indicii financiari pentru anul 2012

Sursa:Prelucrare proprie

continuare pentru anul 2012

Sursa:Prelucrare proprie

continuare pentru anul 2012

Sursa:Prelucrare proprie

continuare pentru anul 2012

Sursa:Prelucrare proprie

continuare pentru anul 2012

Sursa:Prelucrare proprie

continuare pentru anul 2012

Sursa:Prelucrare proprie

continuare pentru anul 2012

Sursa:Prelucrare proprie

continuare pentru anul 2012

Sursa:Prelucrare proprie

D. Indicii financiari pentru anul 2013

Sursa:Prelucrare proprie

continuare pentru anul 2013

Sursa:Prelucrare proprie

continuare pentru anul 2013

Sursa:Prelucrare proprie

continuare pentru anul 2013

Sursa:Prelucrare proprie

continuare pentru anul 2013

Sursa:Prelucrare proprie

continuare pentru anul 2013

Sursa:Prelucrare proprie

continuare pentru anul 2013

Sursa:Prelucrare proprie

continuare pentru anul 2013

Sursa:Prelucrare proprie

BIBLIOGRAFIE

ANEXA 1. Indicii financiari pentru perioada 2010 – 2013

A.Indicii financiari pentru anul 2010

Sursa:Prelucrare proprie

continuare pentru anul 2010

Sursa:Prelucrare proprie

continuare pentru anul 2010

Sursa:Prelucrare proprie

continuare pentru anul 2010

Sursa:Prelucrare proprie

continuare pentru anul 2010

Sursa:Prelucrare proprie

continuare pentru anul 2010

Sursa:Prelucrare proprie

continuare pentru anul 2010

Sursa:Prelucrare proprie

continuare pentru anul 2010

Sursa:Prelucrare proprie

B. Indicii financiari pentru anul 2011

Sursa:Prelucrare proprie

continuare pentru anul 2011

Sursa:Prelucrare proprie

continuare pentru anul 2011

Sursa:Prelucrare proprie

continuare pentru anul 2011

Sursa:Prelucrare proprie

continuare pentru anul 2011

Sursa:Prelucrare proprie

continuare pentru anul 2011

Sursa:Prelucrare proprie

continuare pentru anul 2011

Sursa:Prelucrare proprie

continuare pentru anul 2011

Sursa:Prelucrare proprie

C. Indicii financiari pentru anul 2012

Sursa:Prelucrare proprie

continuare pentru anul 2012

Sursa:Prelucrare proprie

continuare pentru anul 2012

Sursa:Prelucrare proprie

continuare pentru anul 2012

Sursa:Prelucrare proprie

continuare pentru anul 2012

Sursa:Prelucrare proprie

continuare pentru anul 2012

Sursa:Prelucrare proprie

continuare pentru anul 2012

Sursa:Prelucrare proprie

continuare pentru anul 2012

Sursa:Prelucrare proprie

D. Indicii financiari pentru anul 2013

Sursa:Prelucrare proprie

continuare pentru anul 2013

Sursa:Prelucrare proprie

continuare pentru anul 2013

Sursa:Prelucrare proprie

continuare pentru anul 2013

Sursa:Prelucrare proprie

continuare pentru anul 2013

Sursa:Prelucrare proprie

continuare pentru anul 2013

Sursa:Prelucrare proprie

continuare pentru anul 2013

Sursa:Prelucrare proprie

continuare pentru anul 2013

Sursa:Prelucrare proprie

Similar Posts