1. Rezumat ………………………….. ………………………….. ………………………….. …………………………….. [610077]

UNIVERSITATEA AUREL VLAICU, ARAD
FACULTATEA DE STIINT E EXACTE
INFORMATICA APLICATA , ANUL 3
Data Mining
O introducere in Data Mining

Student: [anonimizat]
1/15/2019

CUPRINS
1. Rezumat ………………………….. ………………………….. ………………………….. ………………………….. ………………………….. …………. 2
2. Introducere ………………………….. ………………………….. ………………………….. ………………………….. ………………………….. …… 2
3. Procesul mineritului ………………………….. ………………………….. ………………………….. ………………………….. ……………….. 3
4. Tehnici fundamentele de analiza a datelor ………………………….. ………………………….. ………………………….. ……… 4
4.1. Mineritul de modele asociate ………………………….. ………………………….. ………………………….. ……………………. 4
4.2. Gruparea de date ………………………….. ………………………….. ………………………….. ………………………….. …………….. 4
4.3. Detectarea deviatiilor ………………………….. ………………………….. ………………………….. ………………………….. …….. 5
4.4. Clasificarea de date ………………………….. ………………………….. ………………………….. ………………………….. ………….. 5
4.5. Aplicatii a modelelor de analiza ………………………….. ………………………….. ………………………….. ……………….. 6
4.5.1. Exemplu 1 ………………………….. ………………………….. ………………………….. ………………………….. …………………. 6
4.5.2. Exemplu 2 ………………………….. ………………………….. ………………………….. ………………………….. …………………. 6
4.5.3. Exemplu 3 ………………………….. ………………………….. ………………………….. ………………………….. …………………. 6
5. Mineritul de date Web ………………………….. ………………………….. ………………………….. ………………………….. …………….. 7
5.1. Aplicatie. ‚Web crawling’ si indexarea site -urilor web ………………………….. ………………………….. ……… 7
5.1.1. Algoritm pentru un crawler obisnuit ………………………….. ………………………….. ………………………….. . 7
5.1.2. Indexarea motoarelor de cautare si procesarea cautarilor web ………………………….. …………. 8
6. Concluzie ………………………….. ………………………….. ………………………….. ………………………….. ………………………….. ……….. 9
7. Bibliografie ………………………….. ………………………….. ………………………….. ………………………….. ………………………….. ……. 9

1. REZUMAT
Data mining (extragerea de cunostiinte din date sau in traducere libera: min erit din date)
este studiul modelelor din date , astfel incat rezultatul acestui studiu sa ofere o
perspectiva noua asupra unui domeniu . Colectare a, procesarea si analiza datelor
constituie etapele succesive in cadrul mineritului . Elementale fundamentale care stau la
baza multor algoritmi in analiza informatiilor extrase sunt mineritul de modele asociate,
gruparea de date , clasificarea si detectarea deviatii lor 1. O aplicatie raspandita in cadrul
mineritului de date sunt software -le de tip crawler/spider care sunt folosite in indexarea
paginilor web .
2. INTRODUCERE
In ziua de azi, toate sistemele automate genereaza sub o forma sau alta date care sunt
folosite pentru diagnosti care sau pentru analiza. Volumul mare de inform atie este o
consecinta a progresului tehnologic iar dorinta de a studia si a examina aceste informatii
este fireasca in contextul in care se pot extrage perspective noi si utile pentru a plicatii
specifice. Aici apare ‚data mining’ -ului, care are rolul de a analiza informatia extrasa. Mai
specific, aceasta analizeaza modele care apar in mod repetat, insa avand in vedere
cantitatea substantiala din informatie, procesul trebuie sa fie automat ic sau semi –
automat ic. Scopul final al analizei este sa ofere un avantaj unei entitati, de obicei unul
economic. Exemple elocvente de date potentiale :
 World Wide Web: numarul de documente indexate pe internet se numara undeva
in cadrul miliardelor iar accesul utilizatorilor pe site -uri web creeaza log -uri care
descriu a ctivitatea acestora creand ca de exemplu profiluri clientilor pe site -uri
comerciale. Structura compusa a Web -ului este cunoscuta ca si Web Graph, insusi
un tip de data. Aceste tipuri de date sunt folositoare in sensul ca un site web poate
fi mineri t pentr u a determina legaturi intre anumite domenii, pen tru a gasi
frecventa utilizari lor a anumitor link -uri de catre un vizitator, sau pentru a detecta
anomalii sau comportamente neobisnuite din partea unui utilizator, ceea ce ar
putea sugera o activitate mal itioasa.
 Interactiuni financiare: multe din activitati considerate banale pentru un
utilizator ca si preluarea de bani de la un bancomat, achitarea produselor cu cardul
sau achizitionarea unui obiect online poate fi minerita . Aceste tranzactii pot fi
urm arite pentru frauda sau alte activitati suspicioase.
 Interactiuni ale utilizatorilor: multe din interactiunile utilizatorilor pot fi minerite .
Ca de exemplu, folosirea unui furnizor de telefonie mobila ofera acestuia posibilitatea

1 Engleza: association pattern mining, data clustering, classification, outlier detection
Data Mining – The Textbook, Charu C. Aggarwal, Publicatia Springer International , 2015, pag. 2

de a inregistra numarul de apeluri, durata lor sau destinatia a pelurilor. Rezultat ul analizei
acestor date poate influenta furnizorul sa mareasca capacitatea retelei, sa creeze promotii
sau sa ajusteze preturi .
3. PROCESUL MINERITULUI
Data mining este un proces c are incepe cu colectarea de date in mod automat, prin
senzori si computere sau in mod manual, prin chestionare sau software de tip
crawl/spider care extrag informatii de pe pagini web . Aceste date sunt de regula
nestructurate, nefiind optime pentru procesare automata. Ca de exemplu, o sursa de date
poate avea mai multe formate care trebuie omogenizate pentru procesare automata sau
chiar informatie ireleventa care trebuie indepartata .
Pe langa format -uri diferite, informatia poate sa aiba tipuri de date diferi te. Aceste pot fi
de tip cantitativ (varsta, greutate, inaltime), de tip categori e (etnie, rasa, sex), text
(comment -uri prin care se cauta cuvinte cheie) , temporal, de tip graf, cea mai intalnita
fiind de tip multidimensionala, care intruneste tipurile me ntionate mai sus. Intr -o baza de
date tipica, un ‚camp’ contine mai multe trasaturi, atribute sau dimensiuni. Un exemplu
de astfel de data poate fi vazuta in urmatoarea imagine:

Fig. 1 : parti ale unui request header HTTP furnizand in formatii vitale pentru un analist .
Informatia extrasa din acest header HTTP este compus a din urmatoarele: IP -ul
utilizatorului, data accesarii, pagina accesata, browser -ul folosit in accesare si numele
domeniului de care tine pagina accesata. Avand in vedere interesul unui comerciant in
eficientizarea vanzarii, acesta poate studia interesul IP -ului pentr u produs ele accesate pe
site sau cate accesari au avut loc intr -un anumit timp pe pagina pereche. Se poate observa
ca un comerciant nu ar acorda importanta browser -ului folosit de catre utilizator si in
consecinta este considerata o informatie irelevanta.
O alta clasificare care contribuie la structurarea studiului informatiei minerite este
dependenta acesteia. O informatie independenta nu necesita legaturi cu alte elemente
extrase . Un astfel de exemplu ar fi varsta, sexul sau oras ul. Pe de alta parte, pentru a fi
utila, o informatie dependenta cree aza legaturi intre alte elemente extrase. Ca de
exemplu, timpul nu ar avea valoare intrinseca dar corelat la alte valori se pot extrage
informatii utile.

Pentru a adresa problema datelor eterogene se urmareste un flux de lucru pentru a
procesa aceste date. Odata ce datele au fost colectate , urmatorul pas ar fi transformarea si
sterilizarea lor intr -un format potrivit unui algoritm automat pentru a fi studiate prin
metode analitice. Odata sterilizate, aceste informatii sunt introduse intr -o baza de date.
Acest proces este similar procesului de mineri t a minereurilor unde se incepe cu
prospectarea, extragerea si in final rafinarea lor pentru a fi folosite mai dep arte.
4. TEHNICI FUNDAMENTELE DE ANAL IZA A DATELOR
Avand in vedere ca procesul de analiza nu poate fi aplicat in mod larg la orice aplicatie
(considerente de format, aplicatii cu scopuri diferite si rezultate diferite) fiecare aplicatie
de data mining trebu ie adaptat la scopul sau. Totusi, exista patru solutii care stau la baza
construirii unui algoritm adecvat ce pot fi folosite impreuna sau individual pentru a
indeplini o sarcina. Acestea sunt: mineritul de modele asociate, gruparea de date ,
clasificarea si detectarea deviatii lor si sunt folosite ca instrumente de analiza in gasirea
relatiilor intre date care sunt intalnite frecvent sau foarte rar.
4.1. MINERITUL DE MODELE ASOCIATE
In cea mai primitiva forma, mineritul de modele asociate este folosita in matric i binare
voluminoase , unde campurile iau valoare 0 si 1. Ca de exemplu, pentru un cos de
cumparaturi, o coloana poate sa reprezinte un produs iar o linie clientul. Pentru fiecare
produs cumparat, valoarea asociata cu aceasta devine 1. Produsele care au fr ecvent
valoarea 1 sunt denumite modele frecvente. O problema interesanta este determinarea
modelelor care apar frecvent impreuna. Ca de exemplu, intr -un tabel unde coloanele
corespund produselor paine, unt si lapte , daca acestea au valoarea 1 frecvent impr euna,
se poate spune ca aceste produse sunt cumparate frecvent impreuna.
Intr -o baza de date (matrice), pentru a determina aceasta frecventa in cadrul modelelor,
se cere ca o submultime de coloane a matricii sa aiba valoarea 1 pentru cel putin o
fractiune din linile matricii. Aceasta fractiune se numeste sprijinul modelului.
4.2. GRUPAREA DE DATE
Gruparea de date se poate defini ca si partionarea intr -o baza de date(matrice) in mai
multe submultimi bazate pe similaritati intre element ele sale. O problema d e grupare este
in esenta o problema de optimizare, in care mai multe variabile stau la baza acestor
submultimi si sunt folosite in functii matematice pentru a gasi similaritati le grupului.
Datele rezultate din grupare sunt considerate asemanatoare una cu alta si se pot folosi ca
si rezumate despre aceste date.

Un exemplu de grupare ar fi determinarea clientilor care sunt asemanatori in contextul
promotiilor de produse adresate lor.
4.3. DETECTAREA DEVIATII LOR
O deviatie este o observatie care se abate suficient de mult de la norma incat se poate
considera ca a fost produsa de catre un alt mecanism.
In majoritatea aplicatiilor, datele sunt create de un proces care reflecta activitatea
sistemului. Cand acest pr oces are un comportament neobisnuit, se creeaza o deviatie.
Prin urmare, o deviatie contine informatii utile despre caracteristicile neobisnuite ale
sistemelor care pot avea un impact asupra producerii de informatie.
Detectarea deviatiilor este strans lega ta de gruparea de date. In esenta, deviatiile sunt
datele care nu corespund niciunui grup de informatii similare care sunt urmare a
algoritmului de grupare. O metoda simpla de gasire a deviatiilor este gruparea de date.
Exemple pentru detectarea deviatiilo r in aplicatii sunt:
 Sistemele de detectare a intruziunii: intr -o retea de calculatoare, datele sunt
colectate despre activitatea sistememului de operare, traficul de retea sau alte
activitati ale sistemului. Activitatea neobisnuita este inregistrata si po ate fi
reperata ca activitate malitioasa.
 Frauda folosind carti de credit: activitatea cardurilor de credit urmeaza un model,
dar anomalii po t aparea cand, ca exemplu, se fac achizitii mari si multe din zone
geografice obscure.
 Diagnosticare medicala: in aplicatiile medicale, datele sunt colectate din
dispozitive ca si RMN, PET, ECG . Modelele neobisnuite sunt considerate semne ale
unei boli.
4.4. CLASIFICAREA DE DATE
In unele aplicatii cu scop specializat se urmareste descoperirea unei variabile
necunoscut e, bazat pe informatie anterior colectata. Aceasta informatie este compusa
dintr -o ‚eticheta clasa’ si ‚date invatate’. Avand la dispozitie aceasta informatie si ‚datele
invatate’ pentru o noua entitate introdusa, se urmareste prezicerea acestei ‚etichete
clase’ pentru noua entitate.
Spre exemplu, o banca doreste sa afle daca in urma unui imprumut dat unui individ,
acesta il va plati inapoi(eticheta clasa). Avand la dispozitie informatia despre acest
individ(venitul sau, varsta, vechime la locul de munca) aceasta este comparata cu
informatia colectata anterior de la alti debitori(‚date invatate’).

Gruparea si clasificare sunt asemenatoare, in sensul ca se creeaza clase, dar in timp ce
prima se creeaza pe baza de similaritate, a doua se creeaza prin studier ea datelor invatate
si descoperirea ‚etichetei clase’. De altfel, se poate spune ca gruparea este un model de
invatare nesupravegheata, pentru ca nu are niciun reper, in timp ce clasificarea este
supravegheata.
4.5. APLICATII A MODELELOR DE ANALIZA
4.5.1. EXEMPLU 1
Un comerciant are un set de produse impreuna cu istoricul lor de cumparare. Acesta ar dori
sa stie cum sa -si aranjeaze produsele care de regula sunt cumparate impreuna astfel incat
sa fie cumparate mai des.
In cazul acesta se poate aplica mineritul de modele unde un analist poate afla frecventa
produselor cumparate impreuna. Dupa plasarea lor, se pot face modificari incrementale
pentru a optimiza algoritmul si vanzarea acestor produse.
4.5.2. EXEMPLU 2
Un comerciant are o matrice binara care reflecta clientul ca linie si produsele
comerciantului ca si coloane. Orice produs cumparat are valoarea 1, iar restul 0.
Comerciantul doreste sa afle ce produse sa recomande clientilor, bazat pe produsele care au
fost cumparate impreuna .
O simpla solutie ar fi folosirea mineritului de modele , unde un analist poate afla sprijinul
modelului impreuna cu alte produse cumparate. Produsele cumparate de client vor fi
ulterior asociate intre ele, si in consecinta recomandate altor clienti cand vor cumpara
acelasi produs.
O a doua solutie ar fi determinarea similaritatii intre clienti si se recomanda produsele
care apar cel mai des intre ei in matricea binara.
O solutie finala este gruparea clientilor bazata pe similaritate. Odata ce au fost
segmentati, se poate folosi solutia mineritului de modele pentru a afla produsele
cumparate in acest grup. Se poate nota ca de aici se pot face si clasificari de date.
4.5.3. EXEMPLU 3
Se ia in considerare mai multe ECG -uri colectate intr -o succesiune de timp de la mai multi
pacienti. Se doreste aflarea anomaliilor in ca drul acestui set.
Daca nu exista date anterioare specifice acestei aplicatii, se poate folosi detectarea
deviatiilor. Un ECG care e diferit in cadrul unui set poate fi considerat o deviatie. In
schimb, daca exista informatie anterioara metodologia se schim ba. In acest caz, se

foloseste clasificarea datelor, unde deviatia cautata este eticheta de clasa, iar informatia
depusa ‚date invatate’.
5. MINERITUL DE DATE WEB
Internetul este o sfera larga de informatii, servicii, comert, stiri, divertisment, s.a.m.d.
Avand in vedere amplitudinea si neorganizarea sa, web -ul este ideal pentru colectarea de
informatii despre diferite subiecte sau informatie personala despre utilizatori.
Web -ul este minerit in primul rand pentru continutul de pe acesta. Aici sunt incluse
documentele web si link -urile create de utilizatori. In al doilea rand, datele web sunt
colectate des pre activitatea utilizatorilor, cum ar fi tranzactiile, contributiile, recenziile
dar si activitatea uzuala de surfing .
5.1. APLICATIE . ‚WEB CRAWLING ’ SI INDEXAREA SITE -URILOR WEB
‚Web crawlers’, ‚spiders’ sau ‚robots’ sunt roboti care acceseaza diferite site -uri cu rolul
de a le indexa. Motivatia principala pentru a folosi crawlers este raspandirea ampla a site –
urile web, facandu -le imposibil de indexat man ual. Ele pot fi folosite si pentru scopuri
specifice, unde se selecteaza un subiect anume unde se cauta si se monitorizeaza pagini
care au legatura cu acel subiect.
5.1.1. ALGORITM PENTRU UN CR AWLER OBISNUIT
Urmatorul algoritm este unul simplu, proiectat pen tru a arata in esenta cum functioneaza
un crawler:

Fig. 2 : Un algoritm de baza

Algoritmul functioneaza astfel: un set de URL -uri seed S si un algoritm A sunt folosite ca
parametrii. Algoritmul A decide urmatorul link pe care il va vizita din FrontierList , care
initial este set-ul de URL S. In fiecare iteratie algoritmul alege un link din FrontierList ,
care apoi va fi stearsa din lista si accesata prin protocol HTTP. Pagina accesata va fi
stocata intr -o baza de date, iar toate URL -uri din aceasta vor fi extrase si adaugate la
FrontierList. Daca URL -ul a fost accesat, atunci va fi omis din lista. Procesul continua pana
cand lista devine goala.

Fig. 3: Structura de fisier a unui website, impreuna cu toate paginile accesate in urma utilizarii unui
crawler (BurpSuite -Spider )
5.1.2. INDEXAREA MOTOARELOR DE CAUTARE SI PROCESAREA CAUTAR ILOR WEB
Dupa ce documentele au fost accesate de crawler, ele sunt procesate pentru a fi folosite
pentru cautari web. In primul rand, se extrag orice parametrii ar avea pagina si i se
acorda un calificativ bazat pe calitatea sa. Apoi, aceasta colectie este utilizata pentru
cautari folosind cuvinte cheie. In aceasta etapa, paginile web vor primi calificative care
reflecta calitatea lor relativ la cuvantul cheie.
Unul din cele mai importante probleme intr -un motor de cautare este rangul paginilor
existente. De regula, o cautare pe un motor ofera milioane de pagini care nu pot fi
asimila te usor de catre oameni. In schimb, browser -ul va afisa o lista minima de 10
rezultate, cu optiunea de a naviga mai departe. Pentru a arata cele mai relevante si
calitative rezultate reperat la termenul de cautare, se foloseste rangul paginilor. Rangul
este partial format din scorul continutului, care intr -o anumita masura contine urmatorii
factori:
 termenul de cautare are mai multa valoare daca este in titlul paginii sau intr -un
link

 frecventa intalnii termenului de cautare in cadrul pagin ii
 termenul de ca utare sa apara in font mai mare sau colorat diferit
 daca mai multi termeni sunt folositi, pozitia lor relativa este folosita, daca sunt
mai apropiate una de alta, atunci scorul creste
Scorul continutului nu este suficient pentru ca nu reflecta reputatia sa u calitatea paginii.
Ca de exemplu, o persoana poate sa publice un document stintiific care contine material
incorect. Un alt exemplu este un spammer de continut. Un comerciant de tablouri are un
site si doreste ca site -ul sau sa apara in top -ul rezultatelor cautate. Acesta va lua cuvantul
‚tablou ’ si il va repeta de multe ori pe site, dar il va colora cu aceeasi culoare ca fundalul,
astfel incat un utilizator sa nu vada aceste repetitii. Astfel, apare nevoia de a implementa
mai multi parametrii pentru gasirea site -urilor calitative .
Intr -o lista de cautari, o submultime din aceasta va fi mai utila ca restul. Pent ru a ajunge
la aceste cautari, se folosesc mai multe mecanisme de vot pentru a creste in rang. Citatiile
de catre alte site -uri indica ca site -ul este de calitate. Cand un utilizator acceseaza o
pagina dintr -o multime afisata, inseamna ca aceasta este mai releventa pentru acesta.
6. CONCLUZIE
Mineritul de date este un proces complex, bazat pe mai multe etape. Aceste etape sunt
colectarea de date, procesarea si analiza. Colectarea de date consta in accesarea de
informatii in mod automat sau manual. Procesarea consta in pregatirea datelor pentru
analiza, prin transformarea si extragerea de informatii irelevante intr-un format potrivit
pentru analiza. Exista mai multe solutii ce stau la baza construirii unui algoritm de
analiza. Printre acestea se numara mineritul de modele asociate, gruparea de date,
clasificarea si detectarea deviatiilor .
Mineritul de date web este o activitate care de multe ori se poate realiz a cu ajutorul unui
crawler. Ace stea sunt folosite pentru indexarea site -urilor web si ofera o harta a
continutului web. Dupa ce paginile au fost colectate de catre crawler, acestea sunt
indexate si atribuite un rang care determina scorul si pozitia lor in lista de cauturi web.
7. BIBLIOGRAFIE
 Charu C. Aggarwal . Data Mining – The Textbook . Publ icatia Springer
International . 2015 . New York.
 Ian H. Witten, Eibe Frank, Mark A. Hall . Data Mining – Practical Machine
Learning Tools and Techniques . Publicatia Morgan Kaufmann . 2011 . Burlington
– USA.

 Claude Sammut, Geoffrey I. Webb. Encyclopedia of Machine Learning and Data
Mining. Publicatia Springer Science+Business Media. 2017. New York.

Similar Posts