Era informa ională în care trăim se caracterizează prin existen a unei cantită i impresionante de ț ț ț [625577]
Introducere
Era informa ională în care trăim se caracterizează prin existen a unei cantită i impresionante de ț ț ț
date puse la dispozi ia noastră i prin u urin a cu care le putem accesa. Odată cu trecerea timpului, ț ș ș ț
numărul lor are tendin a de a cre te în continuare, iar rezultatele ob inute prin procesarea acestora sunt ț ș ț
nepre uite. țPrin extragerea i analiza datelor este posibil sa rezolvăm probleme din diferite domenii de ș
activitate, care au un impact major asupra omenirii. Există ase metodologii de abordare a problemei : ș
detectarea anomaliilor, reguli de asociere, gruparea datelor, clasificarea, regresia i sumarizarea, iar ș
această lucrare abordeaza tema clasificării.
Clasificarea este una dintre cele mai cercetate teme din cadrul extragerii datelor i învă ării ș ț
automate datorită aplicabilită ii sale în diferite domenii, motiv pentru care problema a fost studiată ț
decenii la rând. Aceasta presupune stabilire unui anumit rezultat fundamentat pe un set de date de
intrare (setul con ine diferite atribute precum i rezultatul). În urma unui proces de antrenare, ț ș
programul trebuie să prezică clasa din care face parte un anumit aspect neetichetat pe baza legaturilor
dintre atribute. Este bine tiut faptul că setul de date ales în procesul de antrenare determină cât de bun ș
va fi algoritmul de clasificare implementat.
Exista apte tipuri de algoritmi de clasificare i anume: analiza regresiei, ș ș algoritmul Naive
Bayes, cel mai apropiat vecin, arborele decizional, re ea neuronala, pădure aleatoare, vectorul de ț
suport. Nu se poate spune despre un algoritm anume ca este cel mai optim, inând seamă de faptul că ț
ace tia reactionează diferit în func ie de datele folosite. Pentru analiza complexită ii, a avantajelor iș ț ț ș
dezavantajelor este necesar un studiu comparativ pe baza implementării algoritmilor utilizând acelea i ș
date de antrenament i testare în cazul tuturor, astfel să se poată observa cu o mai mare usurin ă ș ț
diferen a fiecarei abordări. ț
Data mining
Extragerea datelor este la ora actuală unul dintre cele mai semnificative procese care î i face ș
sim ită prezen a în majoritatea domeniilor. De i este adesea în eles gre it, conceptul de data miningț ț ș ț ș
nu înglobează doar prelucrarea datelor ci cuprinde trei discipline tiin ifice puternic conectate între ș ț
ele: înva area automata, statistica i inteligen a artificială. Ca i definire, data mining reprezinta acel ț ș ț ș
proces prin care sunt descoperite noi abloane i rela ii pe baza analizei datelor, folosind anumite ș ș ț
instrumente i tehnici matematice. ș
Dacă ar fi să raspundem la întrebarea ”de ce este importantă extragerea datelor?”, răspunsul
ar fi destul de simplu: majoritatea companiilor investesc bani în stocarea informa iei iar fără ajutorul ț
tehnologiei care să analizeze datele i să le transforme în profit, toată cantitatea de date acumulată ș
ar fi doar octeti irosi i. Nu doar companiile axate pe ob inerea profitului pot beneficia de pe urma ț ț
extragerii datelor, din potrivă, există numeroase aplica ii care rezolvă probleme din domeniul ț
serviciilor medicale , lucru de care beneficiază atât pacien ii cât i personalul medical. Luând aceste ț ș
lucruri în considerare, firmele care investesc în analiza datelor pot ob ine un adevărat avantaj fa ă de ț ț
firmele competitoare.
Tehnicile utilizate în extragere datelor sunt diferite insă procesul în sine este identic,având o
direc ie prestabilită. Unul dintre cele mai des utilizate modele de analiză folosit de companii este ț
Procesul Standard Interprofesional pentru exploatarea datelor (cunoscut sub numele de CRISP-DM)
i este constituit din ase etape.ș ș
Etapele procesului:
1. În elegerea afacerii – ț această fază presupune analiza proiectului care urmează a fi
dezvoltat, acum trebuie stabilite i detaliate în termeni de afaceri obiectivele urmărite, de asemenea ș
luarea în considerare a factorilor de risc i a resurselor are o importan ă majoră. După ce obiectivele ș ț
sunt formulate, urmează partea de creare unei strategii privind extragerea datelor iar în final este
necesară crearea unor cerin e care sa atingă scopurile urmărite atât de proiectul în sine cât i de ț ș
procesul de extragere a datelor.
2.În elegerea datelor -ț în decursul acestei faze se ob in datele i se verifică dacă sunt ț ș
potrivite pentru afacerea care urmează a fi dezvoltată. Această fază este divizată la rândul ei în alte
patru subetape:
•Strângerea datelor – cheia succesului proiectului este reprezentată de cât de potrivite sunt datele
alese pentru scopul urmărit de noi, din acest motiv este necesară verificarea ob inerii datelor i dacă ț ș
avem acces la ele. Încă un aspect care trebuie luat în seamă este compatibilitatea datelor cu
instrumentele folosite în dezvoltarea proiectului.
•Descrierea datelor- prin intermediul raportului de descriere a datelor se verifică dacă datele
procurate sunt într-adevăr ceea ce am cerut. Se analizează fiecare aspect: cantitatea de date, numărul
de atribute, câmpurile existente sau orice altă informa ie care ar putea fi folositoare procesului de ț
extragere a datelor.
•Explorarea datelor- în completare fa ă de subetapa precedentă, acum este momentul în care ț
detaliem într-un raport de exploatare a datelor detalii precum impactul acestora ascupra
obiectivelor, probleme de calitate întâlnite, tot ceea ce ar putea afecta întregul proces i în ce ș
manieră.
•Cercetarea calită ii datelor- calitatea datelor presupune existen a unor informa ii corecte, iar în ț ț ț
cazul în care setul de date nu este complet, con ine informa ii eronate sau nu este potrivit cerin elor ț ț ț
formulate deja, se vor consemna în raportul de caltitate al datelor posibile rezolvări la problemele
apărute . Dacă nu este pobilibă găsirea unui remediu eficient, se poate lua în calcul revizuirea
obiectivelor stabilite anterior.
3.Pregătirea datelor – este probabil una dintre cele mai importante etape și în acela i timp ș
cea mai lungă ca i durată, cuprinzând alte 4 subetape: ș
•Selectarea datelor- în acest proces se decide care dintre date de inute sunt relevane conform ț
obiectivelor stabilite. Se aleg atributele i înregistrările dorite, renun ându-se la informa iile inutile ș ț ț
i se argumentează motivele alegerilor făcute .ș
•Cută area datelor- există o mare probabilitate ca datele să nu fie în întregime corecte, iar datorită ț
existen ei erorilor este necesară cură area lor, ac iune care presupune găsirea gre elilor i înlocuirea ț ț ț ș ș
lor cu date exacte. Aceste aspecte trebuie consemnate în raportul de cură are a datelor alături de o ț
lămurire în legătură cu decizile alese i posibilele consecin e care ar putea modifica analiza. ș ț
•Construirea de date- în anumite cazuri este necesară crearea de noi atribute în setul de date, fapt
care impune descrierea prelucrării realizate, a modului de realizare, precum i a motivului. ș
•Integrarea datelor- în cazul în care procesul este fundamentat pe mai multe baze de date, pentru a
putea trece la etapa următoare de modelare este necesară o îmbinare a seturilor de date.Acest lucru
se poate realiza prin două opera ii: fuziune(combinarea a doua sau mai multor seturi de date care au ț
atribute diferite dar se referă la acelea i produs) i agregarea( determinarea de noi valori prin ș ș
opera ii pe atributele existente în seturile de date). ț
4.Modelarea datelor- această fază este una dintre cele mai plăcute luând în calcul faptul că
datele au fost deja pregătire în etapele anterioare i nu mai con in erori, deci totul este pregătit ș ț
pentru descoperirea de noi modele.Acest lucru este structurat în 4 procese:
•Selectarea tehnicii- de i este posibil să se fi ales încă de la început instrumentele de lucru, acesta ș
este momentul în care se stabile te ștehnica folosită (arborele decizional, tehnica Naive Bayes, re ele ț
neuronale, etc) i documenta ia acesteia. ș ț
•Proiectarea testelor- pentru a stabili cât de bine func ionează modelul construit este necesară ț
aplicarea unor teste pe datele selectate special pentru această sarcină i construirea unui plan care să ș
verifice validitatea modelului.
•Construirea modelului- bazându-se pe datele de antrenament, este momentul creării de noi modele.
În func ieț de tehnica folosită, este esen ial să-i descriem caracteristicile pentru a putea fi utilizate în ț
etapele ce vor urma, să notăm orice aspect referitor la parametri i să analizăm concluziile. ș
•Evaluarea modelului- în acest moment se apreciază rezultatele ob inute, modelul fiind analizat atât ț
tehnic cât i economic. Se apreciază: clasa rezultatelor în func ie de anumite criterii, noile modele ș ț
ob inute în func ie de utilitatea lor, cât de credibile sunt rezultatele i se interpretează de cătreț ț ș
exper ii rezultatele vazute prin prisma afacerii. ț
5.Evaluarea- în fazele anterioare am exploatat datele găsind mai apoi noi modele, iar acum
este necesară o analiză asupra poten ialul procesul i asupra rezultatelor pentru a concluziona dacă ț ș
ce am ob inut este corect. Această sarcină cuprinde: ț
•Evaluarea rezultatelor- această etapă verifică precizia proiectului, dacă obiectivele propuse au fost
îndeplinite i în cazul unui deficit se cercetează motivul acestui dezechilibru . ș
•Revizuirea procesului- există posibilitatea să nu fi observat posibile probleme , lucru care trebuie
remediat înaintea lasării proiectului. Accentul în acest stadiu trebuie pus pe factorii care cer o
rezolvare imediată.
•Determinarea următorilor pa i- există mai multe op iuni în ceea ce prive te activită iile viitoare, fie ș ț ș ț
finalizăm proiectul, fie alegem să îl dezvoltăm aducând posibile îmbunătă iri. Dacă este aleasă cea ț
de-a doua op iune, se impune descrierea următoarelor opera ii, a ponte ialului i a motivului care a ț ț ț ș
dus la luarea acestei decizii.
Ințelegerea afaceriiÎnțelegerea datelor
Pregătirea datelor
Modelare
EvaluareLansare6.Lansarea- probabil este cea mai a teptată etapă, luând în considerare munca depusă în ș
etapele anterioare. Pentru ca totul să decurgă bine, trebuie să ne focusăm aten ia pe următorele ț
sarcini:
•Crearea planului de lansare- în urma ob inerii modelelor se realizează un plan de lansare, însă este ț
bine tiut că mijloacele de lansarea ar trebui planificate încă din momentrul în elegerii afacerii ș ț
datorită importan ei acestei ultime etape asupra întregului proiect. ț
•Monitorizarea i între inerea proiectului- presupune crearea unei strategii de men inere în situa ia ș ț ț ț
în care extragerea datelor devine o activitate permanentă, men ionând pa ii urma i i metodele prin ț ș ț ș
care s-au executat.
•Realizarea raportului final- cuprinde un rezumat al întregului proiect i o prezentare, pentru ș
întâlnirea cu clientul, a rezultatelor finale.
•Examinarea planului- se realizează un raport de experien ă care con ine ce anume s-a îndeplinit i ț ț ș
ce nu a mers bine. Prin redarea dificultă ilor întâlnite i a abordărilor gre ite se pot evita în viitor ț ș ș
efectuarea acelora i incorectitudini. ș
Figura 1 CRISP–DM este un proces iterativ, adaptativ.
A a cum este ilustrat i în ș ș Figura 1, procesul CRISP-DM con ine ase etape adaptative în care ț ș
fiecare stadiu depinde de rezultatele ob inute în faza precedentă, fenoment eviden iat prin ț ț
intermediul săge ilor. În ceea ce prive te iterativitatea, solu ia rezultată poate duce la anumite ț ș ț
neclarită i ceea ce determină reluarea procesului. ț
Aplica iile concepute pe baza extragerii datelor rezolvă ase tipuri de sarcini: predic ia, descrierea, ț ș ț
estimarea, clasificarea, clustering-ul i asocierea. ș
Clasificarea
Numeroase aplica ii din diverse domenii sunt rezolvate prin tehnici de clasificare privind extragerea ț
de date. Aplicabilitatea acestei metode se poate explica prin însă i defini ia clasificării, identificarea ș ț
căreia dintre clasele deja cunoscute i a căror caracteristici sunt con inute în datele de antrenament ș ț
îi apar ine un anumit aspect. Problema clasificării poate fi enun ată astfel: ț ț
Având în vedere un set de date de instruire împreună cu etichetele de antrenament asociate,
determina i eticheta de clasă ț pentru o instan ă de testare neetichetă. ț
Procesul de clasificare debutează cu stadiul de antrenare în cadrul căruia se dore te realizarea ș
conexiunii dintre modele i răspunsul corect, urmat mai apoi de testare, adică repartizarea unei ș
etichete fiecărei instan e neetichetate. În cazul unor probleme se sare peste prima fază i procesul de ț ș
clasificare se bazează strict pe rela ia dintre instan ele de formare i cele de testare. Vorbim a adar ț ț ș ș
de învă area lene ă, întâlnită la algoritmul celui mai apropiat vecin i la algoritmul Naive Bayes. ț ș ș
Clasificarea este resim ită în numeroase aplica ii din diferite domenii, unele dintre acestea sunt: ț ț
Marketing: este o latură foarte populară datorită puterii mari de cre tere a profitului, prezicându-se ș
poten ialele cumpărături făcute de client pe baza achizi iilor anterioare. ț ț
Biologie: după cum este bine tiut, cea mai veche problemă de clasificare a constat în împăr irea ș ț
organismelor în anumite grupe inând seamă de caracteristicile fiecăruia. ț
Clasificarea documentelor: este un domeniu de cercetare în sine având rolul de a u ura găsirea ș
informa iei în timp real, inând cont de dimensiunea mare de date nestructurate. Un exemplu de ț ț
aplica ie din acest domeniu este clasificarea documentelor medicale care duce la o reprezentare ț
fundamentată pe concepte.
Re elele sociale: acest domeniu prezintă o problemă de actualitate. Principala caracteristică aț
aplica iilor de socializare este rapiditatea cu care opiniile sunt impărtă ite, acest fapt ducând la o ț ș
analiză, spre exemplu clasificarea colectivă, care asociază etichetele cu nodurile aferente.
Diagnosticarea bolilor: clasificarea textului medical reprezintă una dintre cele mai populare probleme
de cercetare din domeniul clasificării, de obicei folosit pentru a prezice dacă un pacient va avea o
anumită boală, bazându-se pe atriibutele din dosarul medical.
Detectarea evenimentelor: în cazul unor evenimente neobi nuite, clasificarea bazându-se pe serii de ș
timp poate fi foarte avantajoasă. Func ionarea acestei metode constă în asocierea clasei cu marcajul de ț
timp potrivit evenimentului.
Analiza datelor multimedia: sunt efectuate numeroase activită i de cercetare în domeniul multimedia ț
pentru a clasifica marea capacitatea de date video, audio, fotografii, text, etc. Acest lucru poate fi dificil
dacă luăm în calcul complexitatea care stă la baza discrepan ei dintre valorile caracteristicilor i ț ș
interfe e. ț
Figura 2 Procesul de clasificareInformațiile etichetei
Mulțimea de
antrenamentGenerarea
caracteristicilorCaracteristiciAlgoritmul de
învățare
Mulțimea de
testareCaracteristici Clasificator
Etichetă
După cum este ilustat i în Figura 2, procesul de clasificare este realizat în doua etape: antrenare i ș ș
predic ie. Faza de antrenarea este folosită cu scopul de a învă a algoritmul , ca în faza următoare să ț ț
atribuie o etichetă unei instan e neetichetate ț
Metode de selec ie a caracteristicilor ț
Colectoarea atributelor unui set de date reprezintă o cerin ă foarte importantă, aceasta stabile te cât de ț ș
optimă va fi solu ia ob inută. În cazul în care persoanele care se ocupă de această primă fază nu sunt ț ț
exper i, este posibil ca lucrurile să nu decurgă bine i atrbutele selectate să fie irelevante, afectând ț ș
procesul de modelare. Cercetările arată că metodele de selec ie a caracteristicilor existente sunt ț
dependente de clasificarea unidimensională, ignorând interferen a dintre caracteristici i astfel este ț ș
justificată o eficien ă mai mare în cazul seturilor de date care con in mai multe atribute. ț ț
Există patru metode de selec ie a caracteristicilor: ț
1.Metoda de filtrare
Această metodă are avantajul de a fi total independentă de algoritmul utilizat, însă acest lucru poate
duce la o acurate e mai scazută. Evaluarea poate lua doua forme: univariată, când caracteristica este ț
evaluată separat i multivariată, când caracteristicile sunt evaluate în serii. Metodele de filtrare folosesc ș
valori precum informa ia, interdependen a, distan a sau coeren a pentru a stabili adecva ia ț ț ț ț ț
caracteristicilor.
Câteva exemple de metode de filtrare includ:
1.1 Ob inerea informa iei(IG): este folosită pentru a măsura corela ia dintre doua variabile. Această ț ț ț
metoda define te câte informa ii se pot ob ine pe baza atributelor i stabile te dacă entropia (puritatea ș ț ț ș ș
setului) este redusă. Un dezavantaj al acestei metode este tendin a de a favoriza caracteristicile care ț
con in mai multe valori, cu toate că pot fi mai pu in informative. Eț ț cua ia entropiei este definită:ț
E= -∑i=1k
pi∗log(pi),
pireprezentând fraciunea de clase asociate care îi apar ine unui atribut aparte.ț ț
Astfel, putem formula ob inerea informa iei(IG) ca fiind: ț ț
IG(T , X)= E(T) – E(T , X)
1.2 Indicele lui Fisher: se bazează pe ideea că un caracteristicile distribuie valori apropiate dacă apar in ț
aceleia i clase i valori distincte fa ă de instan ele din alte clase. Utilizând nota iile ș ș ț ț ț pj- diviziunea
instan elor de antrenament care fac parte din clasa j, ț μj- media uneia dintre atributele specifice
clasei j, μ- media globala a atributei i șσj- devia ia standard a aceleia i atribute pentru clasa j, putem ț ș
descrie formula ca fiind:
F=∑i=1k
pj∗(μj−μ)2
∑j=1k
pj∗σj2
1.3 Raportul de ca tig( gain ratio=GR): este o metoda nesimetrică de filtrare concepută cu scopul de aș
corecta problema de favorizare a caracteristicilor cu mai multe valori, ceea ce duce la efectul invers.
Pentru a prezice variabila Y, trebuie să normalizăm IG prin intermediul divizării cu entropia lui X i ș
reciproc, raport căruia i se datorează valorile GR cuprinse inre 0 i 1. Ob inerea valorii 1 indică ș ț
prezicerea lui Y prin cunoa terea lui X, iar ob inerea valorii 0 sugerează inexisten a unei legături între X ș ț ț
i Y. Astfel, formula de calcul a GB este următoarea:ș
GB= IG
E(x)
2. Metoda de învelire(Wrapper)
Bazându-se pe dezavantajul metodelor de filtare care constă în omiterea consecin elor subsetului de ț
caracteristici selectate asupra rezultatului algoritmului de clasificare, wrapper-ul folose te un ș
clasificator pentru a prezice calitatea caracteristicilor selectate i abordează această problemă de selec ie ș ț
necontând tipul de învă are automată. Cei trei pa i efectua i prin metoda wrapper, în rezolvarea unei ț ș ț
probleme predefinite de clasificare sunt următorii:
-selectarea unei set de caracteristici
-aprecierea setului ales având în vedere performan a atinsă de către clasificator ț
– repetarea pa ilor anteriori până se ob ine performan a dorită ș ț ț
Func ionare clasificatorului prin metoda wrapper poate fi asemănată cu o cutie neagră, componenta de ț
de căutare alături de componenta de evaluare a caracteristicilo, vor stabili performan a returnată ulterior ț
componentei de căutare pentru itera ia următoare. Setul de caracteristici cu cele mai multe valori corect ț
estimate va fi setul final de antrenament pentru clasificator, iar evaluarea acestuia se va realiza pe un set
nou, nefolosit în timpul antrenamentului.
Estimările rezultate cu ajutorul metodei wrapper sunt mai bune decât cele folosite prin metoda de
filtrare, acest fapt fiind resim it în costurile computa ionale, iar performan a cea mai bună se poate ț ț ț
vedea la clasificatorul predefinit.
Clasificarea modelelor wrapper este dată de algoritmi de selec ie secven ială i algoritmi de căutare ț ț ș
euristică.
2.1 Algoritmi de selec ie secven ială: un astfel de algoritm poate face selc ie înainte sau inversă. În ț ț ț
ceea ce prive te selec ia înainte, adăugarea caracteristicilor se face pe etape, pornind în prima faza de la ș ț
un set de date gol căruia îi este adaugată caracteristica care ob ine cele mai mari valori. În continuare ț
sunt adăugate setului restul caracteristicilor treptat, urmat de o evaluare a noului subset. În cazul în care
estimările ob inute de clasificator sunt maxime, se poate adauga caracteristica respectivă setului. ț
Acela i proces de adăugare se repetă până caracteristicile selectate sunt suficiente. De i este ș ș
asemănătoare ca i procedeu, abordatea total opusă este selec ia inversă: se porne te de la setul de date ș ț ș
con inând toate caracteristicile i de exclude aceea a carei eliminare nu infulen ează performan aț ș ț ț
clasificatorului.
2.2 Algoritmi de căutare euristică : ace tia fac o apreciere asupra diferitelor subseturi pentru a optimizaș
func ia obiectivă. Aceste subseturi sunt generate atât printr-un spa iu de căutare cât i prin generareaț ț ș
rezultatelor la problema de optimizare. Este posibil ca solu ia ob inută prin ace ti algoritmi sa nu fie cea ț ț ș
mai bună, însă găsirea acesteia este garantată datorită reducerii completitudinii. Problemele care
utilizează căutarea euristică fie nu pot fi rezolvate în alte moduri, fie timpul de aflare a solu iei este ț
foarte lung sau chiar infinit.
3. Metode încorporate: î nglobează dependen ele caracteristicilor luând în considerare i rela iile dintre ț ș ț
acestea, nu numai legătura dintre caracteristicile de intrare i cele de ie ire, pentru o mai bună observare ș ș
a diferen ei. Cunoscând cardinalitatea, sunt folosite principii independente pentru hotărârea alegerii ț
subsetului optim. În cele din urmă subsetul optim final este ales, prin folosirea algoritmului de învă are, ț
dintre subseturile optime de diferite cardinalită i. Spre deosebire de metoda wrapper, încorporarea nu ț
este la acela i nivel computa ional, însă acestă abordare este avantajată de a interfera cu modelul de ș ț
clasificare.
4. Modelul hibrid: folose te în prima parte o abordare secven ială prin metoda de filtrare cu scopul de a ș ț
limita numărul caracteristicilor care urmează a fi utilizate în următoarea etapă. Mai apoi, prin metoda
de împachetare, se sec ioneză numărul de caracteristici dorite din setul redus în prima fază. ț
Metode supervizate i metode nesupervizate ș
Extragerea datelor con ine atât metode supervizate cât i metode nesupervizate, însă majoritatea dintre ț ș
aceste aplica ii de învă are mecanică se bazează pe învă area supervizată. Aceasta este definită prin ț ț ț
existen a unei variabile de intrare i a unei variabile de ie ire, plus un algoritm necesar învă ării func iei ț ș ș ț ț
de mapare pornind de la variabila de intrare spre variabila de ie ire, adică Y= f(x). ș
Copyright Notice
© Licențiada.org respectă drepturile de proprietate intelectuală și așteaptă ca toți utilizatorii să facă același lucru. Dacă consideri că un conținut de pe site încalcă drepturile tale de autor, te rugăm să trimiți o notificare DMCA.
Acest articol: Era informa ională în care trăim se caracterizează prin existen a unei cantită i impresionante de ț ț ț [625577] (ID: 625577)
Dacă considerați că acest conținut vă încalcă drepturile de autor, vă rugăm să depuneți o cerere pe pagina noastră Copyright Takedown.
