PORCEANU Miruna -Roxana FABBV [615615]

PORCEANU Miruna -Roxana – FABBV
Grupa 2 – Management financiar si investitii

PROIECT – BUSINESS INTELLIGENCE
Data Mining
PORCEANU Miruna -Roxana
p.miruna. [anonimizat]

1

Data Mining

În contextul în care tehnologia este într -o continuă dezvoltare, tot mai multe informații sunt stocate
în mediul virtual astfel că volumul de date estistente se află într -o permanentă creștere. În zilele
noastre nu doar volumul datelor stocat e online este considerabil, dar și tipul informațiilor este
diversificat. Exstă în prezent un interes ridicat în dezvoltarea de tehnici care să permită utilizarea
optimă a informațiilor stocate pentru a extrage din acestea informația relevană pentru un anu mit
scop. Aceste preocupări au condus la dezvoltarea unei tehnologii cunoscută sub denumirea de
„Data Mining”, care s -ar traduce sub denumirea de „Mineritul de date”.
Există mai multe definitii consacrate ale procesului de Data Mining -ului. Conform Richard J.Roiger
(2002) , Data Mining -ul este modalitatea prin care un proces de învățare automată este adoptat
pentru a analiza și extrage date. O altă definiție, este dată Edelstein (1999) și susține că Data
Miningul utilizaează unelte sofisticate de analiză a d atelor cu scopul de a descoperi legături între
datele necunoscute anterior, dar valide în cadrul unor baze mari de date. O definiție mai simplă
folosită de Nitchi & Avram -Nitchi (1997) cons ideră Data M ining -ul ca fiind procesul de extrage re
a informațiilor predictibile, ascunse în seturi mari de date . Fabris (1988) în contextul aplicațiilor
din domeniul bancar, definește Data Mining -ul ca fiind „analiza automatizată a unor baze de date
mari cu scopul de a descoperi pattern -uri și trenduri, care altfel ar ra mâne nedesoperite”.
În Data Mining, sistemul informatic are ca misiune investigarea exhaustivă a datelor, pentru a
scoate la lumină clasificări, asocieri sau alte modele ale datelor, în ti mp ce analistului/managerului
îi revine sarcina de a decide ce să f acă apoi cu aceste informații (IBM, 1996).
Din punct de vedere etimologic, î n anii 1960, statisticienii foloseau termeni cum ar fi data fishing
(„pescuitul de date ”) sau data dredging („dragarea datelor ”) pentru a face referi re la ceea ce au
considerat o p ractică proastă de a analiza a datelor fără stabilirea unor ipoteze initiale .
Termenul de Data Mining („ exploatare a datelor ”) a apărut în jurul anului 1990 . Pentru scurtă
perioadă de timp , în anii 1980, a fost folosită expresia de „Database M ining ", dar deoarece a fost
marcă înregistrată de HNC, o companie din San Diego, pentr u a-și dezvolta stația de lucru,
cercetătorii au început să folosească temenul de Data Mining. Alți termeni folosiți includ
arheologia datelor („data archaeology ”), recoltarea inform ațiilor („information harvesting ”),
descoperirea informațiilor („information discovery ”) și extragerea cunoștințelor („knowledge
extraction ”).
Gregory Piatetsky -Shapiro a folosit termenul de "descoperirea cunoștințelor în bazele de date"
("knowledge discove ry in databases" ) pentru primul workshop pe același subiect (KDD -1989) și
acest termen a devenit ulterior mai popular. Cu toate acestea, termenul de Data Mining a devenit
mai popular în com unitățile de afaceri și în presă. În prezent, termenii Data Mining și Knowledge
Discovery sunt utilizați interschimbabil. Data Mining este parte integrata a domeniului
Klowledge Discovery in Database (KDD), care reprezintă un întreg proces de conversie a datelor
primare în cunoștințe (informație).

2
Extragerea ma nuală a ti parelor de date are loc de secole. Metodele timpurii de identificare a
modelelor din date includ teorema lui Bayes (anii 1700) și analiza de regresie (anii 1800).
Proliferarea, omniprezența și creșterea puterii tehnologiei informatice au sporit considerabi l
capacitatea de colectare, stocare și manipulare a datelor.
Pe măsură ce seturile de date au crescut în mărime și complexitate, analiza directă a datelor a
fost sporită din ce în ce mai mult cu prelucrarea automată a informațiilor indirecte, ajutată de alte
descoperiri din domeniul informaticii, cum ar fi rețelele neuronale, analiza clusterului, algoritmii
genetici (anii '50) , arbori de decizie și reguli de decizie (anii 1960) și mașini vectoriale de suport
(anii 1990).
Data Mining implică șase clase co mune de sarcini: detectarea anomaliilor, învațarea egulilor de
asociere, clustering -ul, clasificarea, regresia și sumarizarea. Detectarea anomaliilor (detectarea
defazajulu i / modificării / deviației) presupune dentificarea înregistrărilor neobișnuite de d ate, care
ar putea fi de interes sau erori de date care necesită investigații suplimentare. Învățarea regulilor
de asoc iere (modelarea dependenței) presupune c ăutări ale relațiilor dintre variabile. De exemplu,
un supermarket ar putea colecta date despre o biceiurile de cumpărare ale clienților. Utilizând
învățarea regulilor de asociere, supermarketul poate determina ce produse sunt frecvent
achiziționate împreună astfel încât să folosească aceste informații în scopuri de marketing.
Aceasta este uneori denum ită analiză a coșului de pe piață. Clustering este sarcina de a
descoperi grupuri și structuri în datele care sunt într -un fel sau altul "similar e", fără a folosi structuri
cunoscute în date. Clasificarea este sarcina generalizării unei structuri cunoscut e care se aplică
noilor date. De exemplu, un program de e -mail ar putea încerca să clasifice un mesaj de poștă
electronică drept "legitim" sau "spam". Regresia încearcă să găsească o funcție care modelează
datele cu cea mai mică eroare care este, pentru es timarea relațiilor dintre dat e sau seturi de date.
Sumarizarea ofera o reprezentare mai compactă a setului de date, inclusiv vizualizarea și
generarea de rapoarte.
Data Mining -ul este procesul de aplicare a acestor metode cu intenția de a descoperi modele
ascunse în seturi de date mari. Acesta e limină golurile dintre statisticile aplicate și inteligența
artificială (care oferă fundalul matematic) și gestionarea bazelor de date prin exploatarea modului
în care datele sunt stocate și indexate în baze de date pentru a executa mai eficient algoritmii de
învățare și descoperire, permițând aplicarea unor astfel de metode pe seturi de date mai mari.
Organizațiile apelează la consituirea de aplicații de Data Mining în special în situatiile enumerate
în continuare. Î n primul rând vor apela la aceste soluții în cazul piețelor saturate, dat fiind faptul
ca le este greu să identifice și să cucerescă clienții pentru produsele lor. Un al caz ar fi cel în care
lipsește o diferențiere clară, în sensul în care nu este stabili t clar ce tipuri de clienți servește sau
ar dori să servească entitatea economică. Se aplelează la soluții de tip Data Maining și în cazul
în care ariile de influență nu sunt bine definite, operațiile de achizitii, fuziuni, preluări între
solcietățile come rciale creează modificări bruște ale ofertei de pe piață. De aseemea. apariția de
noi canele de livrare pateu determina recurgerea la noi soluții de procesare a datelor, considerând
drept exemplu internetul ca nou canal de promovare și livrare a produselor . Astfel că în aceste
situații, entitatea economică nu deține informații privitoare la comportamentul pieței, deși există
cantități uriașe de date, nu este clar modul în care informația poate fi ințeleasă.
Prin urmare, cu ajutorul Data Mining se poate răsp unde la întrebări de tipul: Care sunt clienții cei
mai profitabili?, Ce produse aduc cel mai mare profit?, Care sunt persoanele care comit fraude și
cum îi pot recunoaște?, Cum pot prezice și preveni erorile apărute în procesul de producție?,

3
Cum pot optim iza stocul, maimizând în același timp vânzările? sau Cum îmi pot face produsele
sau serviciile mai atractive în ochii clienților?.
La nivel organizațional, Data Mining se realizează pe trei niveluri: nivelul aplicatiilor,al operațiilor
și al tehnicilor și strategiilor. La nivelul aplicațiilor se utilizează una sau mai multe strategii și se
aplică la nivel decizional de business. La nivelul operațiilor se utilizează una sau mai multe
tehnici/strategii care se aplică la nivel informațional. La nivelul tehnici lor și strategiilor se utilizează
instrumente de Data Mining pentru a se extrage cunoștințele din date.

Figură 1: Aplicații, Operații, Tehnici, Strategii

Aplicațiile de Data Mining depind de domeniul de activitate al organizați ei. În marketing și vânzări
întâlnim adesea aplicații de optimizare a coșului de cumpărături, segmentare a pieței, analiză a
datelor web sau managementul canalelor de distribuție, În managementul riscului întalnim aplicații
de previziune, analiză comepetit iva sau prevenirea fraudelor.

4
Data Mining -ul a fost aplicat cu succes în domenii variate. În identificarea fraudelor, putem vorbi
despre succesul companiei AT&T care utilizează o aplicație de tip Data Mining pentru
identificarea apelurilor internaționale f rauduloase. De asemenea, sistemul american FAIS
(Financial Crimes Enformcement Network AI System) utilizează Data Mining pentru a identifica
aplicațiile care au legătură cu spălarea banilor în cadrul tranzacțiilor cu sume mari de bani.
În economie și fina nțe putem vorbi despre aplicațiie de gestine a riscului care utilizează tehnologii
de tip Data Mining pentru determinarea riscului în asigurări, pentru gestinea eficientă a portofoliilor
financiare, pentru identificarea persoanelor sau entităților economic e cu risc de credit scăzut
respectiv ridicat. Banca Americii utilizează Data Mining pentru a identifica clienții ce utilizează
anumite produse ale băncii și pentru a identifica și produsele preferate ale clenților, cu scopul de
a crea mixuri de produse car e să satisfacă nevoile clienților.
În domeniul sănătății, Merck -Medco Managed Care, societate americană activă în domeniul
farmaceutic folosește soluții de tip Data Mining pentru identificarea de remedii farmaceutice mai
puțin costisitoare, însă la fel de eficiente pentru animite categorii de pacienți.
În domeniul științific există numeroase aplicații pentru analiza obiectelor cerești, localizarea
vulcanilor de pe alte planete sau identificarea cutremurelor.
Data Mining este utilizată și în sport și divert isment, un exemplu în acest sens este cel al
altrenorului Brain James, antrenor al echipei de baschet Toronto Raptos, care se folosese
folosește de Data Mining pentru a identifica cele mai potrivite scheme de joc. De asemenea, Data
Mining este utilizată și în cadrul jocurilor de noroc pentru a identifica suma minimă sau maximă
pe care un jucător este dispus să o joace – și să o piardă, într -un casino.
Domeniile de aplicare ale Data Mining sunt diverse, dar orientate cu precădere către sectororul
Bancar așa cum se poate vedea în rezultatele sondajelor de mai jos. Deși acesta nu este tocmai
de actualitate, consultând alte sudii recente proportiile nu au suferit modificări semnificative.

Figură 2: Aplicarea Data Mining – sondaj 2002

5
Data Mining -ul poate fi descris ca și unificarea dezvoltărilor în statistică, Inteligență Artificială și
baze de date. Succesul Data Mining -ului consistă în faptul că reușește să facă diferența între date
și informații: transformând datele în informații. Pentru succesul implementării Data M ining -ului,
este nevoie de sistematizare sub forma unui model de proces. În literatura de specialitate se
găsesc mai multe modele dezvoltate de către producătorii de soft ware sau alte organizații
interesate. Acestea descriu paș ii de urmat de către utilizator, de la culegerea datelor și până la
obținerea rezultatelor .
Pe scurt, Data Mining -ul converteste datele in cunostinte valoroase care pot fi utilizate ca suport
pentru decizii , fiind o colectie de metodologii, tehnici și algoritmi de analiza a datelor folosite în
scopul descoperirii de modele noi in date. Data Mining -ul este folosit pentru seturi mari de date,
iar procesul este unul automatizat, intervenția umană nefiind necesa ră. Modelele de Data Mining
trebuie sa fie valide, utile si inteligibile.
Prin Data Mining se prelucrează date care se raportează la perioade anterioare (date istorice),
care sunt examinate și deja cunoscute, pe baza lor constituindu -se un model. Acest mod el va
putea fi aplicat situațiilor noi similare cu cele deja existente. Metodele implicate de acest proces
sunt la intersectia dintre inteligența artificială, invatarea automată (machine learning), statistică și
sisteme de baze de date.
Informatiile care s e pot obtine prin Data Mining pot fi predictive sau descriptive. Metodele
predictive utilizează o serie de variabile în scopul prezicerii valorilor altor variabile. Printre
metodele predictive cele mai cunoscute se numără clasificarea (bazată pe date cunos cute,
etichetate astfel că algoritmii construiesc modele pentru clasificarea datelor noi), regresia și
detectarea deviațiilor. În cadrul metodelor descriprive se folosesc algoritmi care găsesc modele
care descriu structura internă a setului de date.În aces t scop se folosesc: clusterizarea (acesta
identifică grupurile de obiecte similare din seria de date, numite „clustere”, precum și valorile
extreme), identificarea regulilor de asociere și a pattern -urilor secventiale.
Spre exemplu , direcționarea actiunilo r de marketing în scopul maximizării vanzarilor poate
constitui o problemă predictivă, în timp ce d etectarea fraudelor produse la cardurile bancare
reprezintă o problemă de aplica ție descriptivă. Explorarea tranzacțiilor în ansablu permite
evidențierea unu i anumit tipar comportamental, considerat normal. Când la un bancomat se cere
efectuarea unei tranzacții ce iese din acest tipar, solicitarea poate fi refuzată pentru a preveni
orice consecințe nedorite .
Principalele instrumente ale Data Mining -ului sunt r eprezentate de arborii de decizie, algoritmii
generici, instrumentele de vizualizare, retelele neuronale, logica fuzzy sau de metodele statistice
clasice. Un exemplu clasic din cadrul sitemului bancar îl constituie arborii de decizie constituiti pe
baza is toricului imprumuturilor acordate de catre bănci pentru a se decide daca se va acorda un
credit.
Procesul de Data Mining necestită mai multi pași, primul constând în culegerea datelor, urmând
apoi procesarea lor în vederea analizei, urmată de analiza pr opriu -zisă (etapă în care se poate
aplica și un agloritm sau o metodă specifică – fiind compusă din alte două subetape: învățarea
supervizată și nesupervizată). În urma analizei va rezulta un algoritm care va fi vizualizat și
interpretat, urmând apoi aplic area rezultatelor obținute la alte probleme.

6
Culegerea datelor prosupune colectarea acestora din bazele de date existente sau din mediul
onlne (cautări web). Procesarea datelor are mai mulți sub -pași. În primul rând datele sunt
„curățate” în sensul în car e se vor încolui valorile lipsă, se vor indentifica/elimina valorile extreme,
iar incosistențele din seria de date vor fi înlaturate. Apoi datele vor fi integrate, dat fiind faptul că
acestea pot fi preluate din surse multiple rezultând tipuri și structuri diferite, acestea trebuie
intergare în scopul eliminării duplicatelor și inconsistențelor. Urmează apoi transformarea datelor
prin normalizare/standardizare, generalizări, sumarizări sau constituire de noi atribute. Datele
urmează a fi reduse în scopul ex tragerii unor caracteristici ale seriei, astfel că doar atributele
relevante vor fi selectate pentru procesarea ulterioară. În final urmează discretizarea, necesară
din perspectiva în care o parte din algoritmi lucreză numai cu valori discrete, valorile at ributelor
continue trebuie să fie înlocuite cu valori discrete dintr -o listă predefinită.
În cadrul analizei datelor vor fi aplicați o serie de algoritmi de Data Mining în scopul extragerii și
descoperirii de modele. Urmatoarea etapă constă în vizualizarea rezultatelor pentru a fi întelese
și evaluate corect. Etapa finală, constă în evaluarea rezultatelor, dat fiind faptul ca nu toate
rezultatele obtinute prin procesul de Data Mining sunt valoroase pentru o situație partiulară, astfel
că această evaluare es te realizată de regulă de către experți.
Exită o gamă variată de metode de data mining, de aici nevoia de a le înțelege funcționarea,
interconectivitatea și clasificarea. Pot fi identificate două mari categorii: metodele orientate spre
explorare și metodel e orientate spre descoperire (Sayad, 2011). Metodele orientate spre
explorare sunt utilizate pentru a explica trecutul și a atrage atenția asupra aspectelor importante
descoperite, în timp ce metodele orientate spre descoperire încearcă să construiască mod e noi.
În general, metodele bazate spre explorare studiază ipoteze prin metode statistice (analiza
varianței, testul T -statistic, ANOVA). Data Mining -ul încearcă să descopere cunoștințe noi prin
analiza datelor, din acest motiv această categorie fiind mai puțin asociată cu conceptul, accentul
fiind pe crearea de modele.
Metodele bazate pe descoperire au la bază două căi principale pentru atingerea obiectivelor: una
bazată pe previziuni și cealaltă pe descrierea datelor. Metodele bazate pe descriere interpre tează
datele, studiind relațiile din cadul acestora. Metodele de previziune se centralizează pe
comportamentul datelor, creând modele iar pe baza lor realizează previziuni ale valorilor
variabilelor studiate, dar și expun datele într -un mod care să fie int elgibil și util pentru utilizatorul
final. Tehnicile folosite sunt de regulă bazate pe inducție, modelul învățând reguli dintr -un set de
date de antrenament fiind apoi testat pe date noi, până în momentul în care este atins un nivel
acceptabil de acuratețe a rezultatelor.
Tehnicile de Data Mining sunt utilizate pentru a aplica o strategie unei mulțimi de date. Tehnica
de Data Mining se poate defini de un algoritm și de o structură asociată de cunoștințe. Acestă
structură de cunoștințe poate fi reprezentată prin intermediul unui arfore de decizie sau a unui set
de reguli de producție.
Arborii de decizie reprezintă arbori în cadrul cărora fiecare nod nefrunză al unei ramuri reprezintă
o alegere dintre mai multe alternative, iar fiecare nod frunză reprezintă o decizie. Fiecare ramură
a arborelui reprezintă un scenariu diferit în cadrul procesului de decizie.

7
Un exemplu ar fi clasificarea indiviziilor în funcție de decizia lor de a avea sau nu asigurare de
locuniță.

Figură 3: Arbore de decizie pentru clasificarea unor indivizi în ținând cont de faptul că are sau nu asigurare
Arborele or ganizează observațiile sortându -le de -a lungul întregului arbore de la rădăcină pe ramuri în
funcție de criteriile dorite și prestabilite. Fiecare nod al arborelui reprezintă un test asupra unui atribut, iar
fiecare ramurp a nodului constituie o valoare posibilă.
Clasificarea pornește de la rădăcina arborelui, testând atributul specificat de acest nod și coborând apoi pe
ramura corespunzătoare valorii at ributului. Procesul de testare al atributului se reia pentru noul nod, ia
coborârea continuă în cadrul arborelui până când se atinge un nod frunză, care va specifica și clasa din
care face parte.
Arborele de mai sus clasifică indivizii pornind de la criter iul vârstă, astfel că un subiect cu vârsta mai mică
de 35 de ani este puțin probabil să fi contractat o asigurare a locuinței. În cazul în care subiectul are cel
puțin 35 de ani împliniți, se va coborî pe arbore, ajungând la următorul test și anume venitul dau anual. S-
a considerat că daca venitul sau depășește 10 000 EUR pe an acesta va avea o asigurare, pe când daca
câștică sub această sumă ajungem la următorul nod. Acesta are drept criteriu daca subiectul în cauză este
familist sau nu, în cazul în care s ubiectul a fost clasificat ca fiind familist, sa considerat că are aisgurare
pentru locuință, în ca caz contrar s -a considerat ca nu are.

8
Un arbore de decizie poate fi convertit într -un set de reguli de producție. Regulile de producție indentifică
relații între atributele descriptive ale observațiilor (input -uri). Regulile acestea pot fi simple, cu un sigur
element ascendent sau complexe, cu mai multe elemente ascendente, conectatea între ele. Regulile de
produție au o singură variabilă rezultantă (output) fiind prezentate sub forma „daca(conditie/condiții), atunci
concluzie”.
Urmând exemplul folosit anterior pentru explicarea arborelui decizional, dacă vârsta este mai mare sau
egala cu 35 de ani împliniți și venitul este cel putin de 10 000 EUR anual atun ci concluzia la care se ajunge
este aceea că subiectul analizat poseda asigurare de locuință.
Regulile de decizie se pot genera pornind de la arborii de decizie, considerând următorul raționament.
Pentru a genera o regulă se urmărește fiecare ramură a arb orelui pronind de la răcăcina acestuia, către
nodul frunză, considerând condițiile identificate în nodurile non -frunză , iar nodul frunză la care se ajunge
va fi considerat a fi concluza sau rezultatul.
Regulile sunt utilizate pentru a idenitifca pattern -uri pe baza comportamentului actual, fiind utile și pentru
previziune. Regulile sunt caracterizate de acuratețe și acoperire. Acuratețea reprezintă probabilitatea ca
daca antecedentul este adevărat atunci și precedentul s ă fie adevărat. Acoperirea este repre zentată de
numărul de instanțe din total cărora se aplică regula.
Pe exemplul anterior putem considera un total de 100 de indivizi, din care 30 au asigurare de locuință, 40
au vârsta de cel puțin 35 de ani, iar 20 de indivizi au varsta de peste 35 de ani și posedă o poliță de
asigurare a locuinței.
Regula ar fi aceea că, dacă subiectul are cel puțin 35 de ani atunci va contracta o poliță de asigurare a
locuniței. Acuratețea va fi 20/40 adică 50%, acoperirea va fi 40/100 adică 40%, iar suportul regulii va f i
acutatetea*acoperirea adică 20%.
Regulile pot deveni mai complexe prin creșterea numărului de condiții . Acest lucru se realizează în practică
prin utilizarea operatorilor and ș i or.

9
Bibliografie
Alexandru, D. I. (2010). Manual de Inteligența Afacerilor
Lepădatu, C. (2011).Soluții informatice pentru descoperierea cunoștințelor di n date/mineritul
datelor
Edelstein, H. A. (1999). Introduction to Data Mining and Knowledge Discovery. Two Crows
Corporation.
Moldovan, D. (2011). Inteligență Economică: Data Mining aplicat datelor financiare
Nitchi, S., & Avram -Nitchi, R. (1997, Feb). Dat a mining, o noua era in informatica. Byte Romania
Richard J.Roiger, M. G. (2002). Data Mining: A Tutorial Based Primer. Addison Wesley
Sayad, S. (2011). Real Time Data Mining. Self -Help Publishers.
https://docs.oracle.com/cd/B28359_01/datamine.111/b28129/ process.htm#DMCON046
https://en.wikipedia.org/wiki/Data_mining

Similar Posts