Data Mining și Lumea lui R [604096]

Tema : Data Mining și Lumea lui R

V1 Cuprins
Introducere
Cap 1 Data mining
Cap 1.1 Introducere
Cap 1.2 Activitatea de „minerit”
Cap 2 Lumea lui R. Limbajul R în detaliu
Cap 3 Demararea unei afaceri pe internet utilizând limbajul R și tehnici de Data Mining.
Anexe

Capitolul 1. Data mining

1.1 Introducere

Noțiunea de „data mining” a fost prezentă în viața oamenilor încă din anul 1990, văzută
în mod firesc ca un proces de minerit după date ce a fost utilizat în domenii foarte variate de la
afaceri la medicină și chiar în domeniul academic, domenii cu date variate ce puteau fi stoarse
pentru a se ajunge la o concluzie logică și general valabilă. După cum afirmă și Daryl Pregibons,
unul din marii statisticieni ai lumii: „extrage rea de date reprezintă un amestec de Statistică,
Inteligență și de cercetare în baza de date ce încă se ridică” (Daryl Preglbon, Data Mining,
Statistical Computing & Graphics Newsletter, December 1996, 8).
Înainte de a trece efectiv la a vedea o definiție exactă atribuită termenului de „data
mining” sau mineritul datelor, vreau să prezint câteva elemente importante, prezente oarecum,
în rădăcina acestui domeniu fără de care această formă de căutat în date nu ar putea fi
prezentă și folosită. Data mining, cu noscut și sub forma: descoperirea cunoști nțelor în bazele de
date, KDD ( knowledge discovery in databases), cuprinde trei legaturi primordiale din care s -au
desprins tehnicile și terminologia întregului domeniu:
– Statistică : fără această veche legătură , dat a mining nu ar fi putut exista. Cu ajutorul
ei s-a putut ajunge la termenul comun, frecvent utilizat astăzi Analiza Exploratorie a
Datelor, folosit pentru identificarea relațiilor sistematice dintre variabile, când nu
există informații suficiente cu privire la nat ura lor. Pe lângă acest element primordial
se mai utilizează și alte metode des întâlnite preluate din statistică precum: media,
mediana, deviația standard, corelații și multiple elemente grafice, oferind astfel o
imagine cât mai clară a bazei de date anal izate.
– Inteligența Artificială: este partea care ajută la formarea întregului, data mining, dar
se opune statisticii, un alt element desprins din întreg. Bazându -se pe modelele de
gândire umane, contribuie cu informații esențiale, diferite de cele oferite de
statistică. Pe aceeași filieră a relevanței, apropiat de Inteligența Artificială este și
procesul de Învățare a Mașinăriei, o importantă disciplină științifică utilizată în data
mining prin tehnica de învățare a calculatoarelor să gândească asemeni unui om
specializat.

– Sistemul bazelor de date: ultima componentă, oferă intormații ce vor fi minerite,
utilizând metodele menționate mai sus, Statistica și Inteligența Artificială.
Necesitatea acestei forme de minerit, este prezentă în foarte multe domenii de
activitate: în economie unde se culeg foarte multe date din diversele siteuri prezente pe
internet și care utilizează o formă de comerț generatoare de date, în medicină și farmacie și în
multe alte cercetări științifice de pe urma cărora se încearcă obține rea unor răspunsuri și
recomandări. Cu toate astea există încă o cantitate mare de date ce nu au fost explorate încă și
trebuie utilizate și în același timp calculatoarele, puterea calculatoarelor trebuie să se dezvolte
pentru a putea face față presiunii, dezvoltării noilor metode de identificare a informațiilor
ascunse în date. Sunt foarte multe informații ce pot fi extrase din date, dar acest lucru poate
deveni imposibil păstrând medodele tradiționale de detecție sau utilizând preponderent
abilitățile oa menilor de a genera analize.
Așadar data mining reprezintă: un mod de căutare și extracție automată a diferitelor
tipare prezente în bazele de date de mari dimensiuni utilitând tehnici din informatică și
statistică ; un proces automat sau semi -automat de analiză și explorare a cantităților uriașe de
date , precum și identificarea unor informații calitative folositoare pentru creeare a legăturilor
ascunse în date, concluzionarea tiparelor înrădăcinate în date și extragerea cunoștințelor aflate
în informații . Sir Francis Bacon în anul 1597 „Knowledge is power” .
Pornind de la prognoza de marketing pentru companiile mari tranzacționabile la bursă
și trecând prin analiza tendinței acțiunilor tranzacționate pe principalele burse de valori,
identificarea profilulu i clienților loiali, modelarea cererii pentru produsele farmaceutice,
automatizarea diagnosticelor pentru cancer, urmărirea seismelor, uraganelor, clasificarea
stelelor și a galaxiilor prezente… etc, se poate remarca o gamă foarte largă de domenii în car e
tehnicile de minerit date sunt utilizate într -un mod eficient, oferind un răspuns viabil la multe
întrebări puse de omenire.
Utilizând un alt punct de vedere, nu trebuie să considerăm că data mining poate rezolva
toate problemele găsite în informațiile obținute din date. Este posibil ca într -o activitate de
minerit, pentru a descoperi noi informații întâlnite în date, să existe și porțiuni care să nu ofere
informațiile, cunoștințele așteptate. Cunoștințele folositoare și multe informații folositoare
desc operite pot depinde de mulți factori, începând cu activitatea efectivă de minerit a datelor și
terminând cu ustensilele și persoanele utilizate în minerit. Astfel dacă nu există nicio bucățică
de aur în mină, pot spune că nu este nimic de săpat, mineritul în acea zonă poate aduce doar
pierderi pentru minerul care s -a încumetat în căutări. Pe de altă parte filonul care prezintă urme
de aur ,dacă este cazul, ar trebui să fie identificate și evaluate în mod corect și apoi, în cazul în
care merită să fie explo rat, această operațiune trebuie să fie efectuată cu dispozitive

corespunzătoare pentru o eficiență cât mai mare a întregului proces și un final mulțumitor al
proiectului.
DE completat ….. big data, date informatii cunostinte, alti termeni din curs

1.2 Activitatea de pr elucreare a datelor „mineritul”

Acest proces preliminar conceptului efectiv de data mining este unul foarte important
pentru rezultatele ce vor fi obținute în viitor. Spun asta întrucât un set de date prost găsite sau
altfel spus curățate într -un mod neglijent pot atrage concluzii neconcludente și pot îngreuna
extrem de mult activitatea de minerit.
Așadar pentru a putea ușura munca „minerului”, trebuie să existe de la început o
schemă, itinerar ce trebuie urmat pentru a facilita p rocesul laborios și meticulos aflat în sarcina
acestui membru de bază al echipei de cercetare. Din punctul meu de vedere schema procesului
de minerit ar trebui să cuprindă următoarele trei mari puncte:
1. Analiza, parcurgere a datelor .
Este un prim proces în care are loc transformarea datelor, curățarea lor, comprimarea
datelor pentru ușurința analizei, creearea seturilor de date reprezentative, din care se poate
observa ușor un element important . Înainte de a începe este absolut important ca fiecare rând,
fiecare intrare a datelor să fie pregătită în prealabil. Trebuie să descoperim problemele
prezente și să modificăm calitatea datelor avute, pentru asta se începe cu fiecare intrare,
fiecare rând trebuie să conțină elemente valide, să nu fie prezente date fără valoare să se
elimine datele identice, care apar de mai multe ori, datele incorecte sau datele expirate ce nu
pot oferi o imagine clară asupra analizei ce urmează a fi făcută. În funcție de neconformitățile
identificare se trece la corectarea probleme lor utilizând filtrări, eliminarea datelor fără valoare,
eliminarea semnelor de punctuație prezente în textul datelor, eliminarea formulelor de calcul
pentru a ușura întreg procesul de prelucrare a datelor.
Pentru comprimarea datelor acestea se vor minimiz a în mai puține atribute pentru a
reduce numărul acestora, astfel obținându -se un set de date mult mai stabil și concis. Modul
asta de gândire poate fi de un real folos în lucrul cu bazele de date de mari dimensiuni, care pot

fi greu de manipulat necesitân d putere de procesare foarte mare, devenind foarte costisitoare
pentru firma ce se ocupă cu mineritul datelor. În aceeași notă a simplității metoda împrumutată
din Statistică, cea a selectării unui eșantion reprezentativ din întreg setul de date poate redu ce
dimensiunea setului ce trebuie analizat oferind răspunsuri rapide la diverse probleme. Cu toate
acestea odată cu reducerea drastică precum cea făcută de alegerea eșantionului reprezentativ
poate elimina din analiză chiar datele esențiale, mici, aparent nesemnificative ce pot influiența
foarte mult rezultatul final , metoada de reducere neputând fi utilizată decât în cazul anumitor
probleme ce trebuie rezolvate rapid cu putere de procesare redusă . Termenul de discretizare
micșorează, poate face trecerea de la datele continuue la datele discrete, transformă valorile
multiple în valori binare, exact ca în cazul conversiei de la o imagine în 256 de culori la una în
alb și negru.
2. Identificarea problemelor, c reearea și validarea unui model reprezentativ
pentru s etul de date disponibile .
Pasul cu numărul doi, din procesul de data mining este reprezentat de acest tip de
cercetare pentru a putea identifica problemele care trebuie rezolvate și mai exact pentru a avea
o viziune clara asupra aspectelor importante, de u nde va începe cercetarea și unde, când se va
sfârși. Analiza efectivă va începe cu mineritul, săpatul în datele existente pentru a descoperi
informațiile păstrate în date, informații ce vor oferi în viitor soluții pentru situațiile avute. Un
aspect important î -l reprezintă modul în care datele sunt alese spre a fi analizate, întreg studiul,
întreaga activitate de cercetare va fi influiențată de acest aspect referitor la modul de alegere.
În „data mining” sunt utilizate preponderent două mod alități de învățare, de insuflare a
modului de învățare, extras oare cum din modelul uman, pentru o mașină ce nu este capabilă
momentan să adopte decizii, nu poate să gândească fără prezența unui om. Prin urmare
învățarea supravegheată, înseamnă procesul p rin care se stabilește un corespondent, o funcție
utilizând seturi de date pentru realizarea antrenamentului, devenind astfel un model de
învățare bazat pe experiențele din trecut. Un exemplu destul de elocvent pentru acest model
poate fi văzut în metodele predictive prin care se dorește clasificarea diferitelor procese, în
timp se pot trage concluzii despre acțiunile pozitive sau negative din trecut și astfel
implemen tându -se în mod evident cunoști nțe tacite ce ar putea fi transf ormate întrun pachet
de cun oștințe explicite. Spre deosebire de modelul trecut învățarea nesupravegheată , este un
model adaptat mai mult spre observare, caracterizat prin faptul că nu prezintă teoretic ieșiri,
rezultate, procesul de învățare fiind alimentat doar de obiectivele nerea lizate. Un exemplu
reprezentativ pentru acest model este reprezentat de procesul de clusterizare , altfel spus
metoda descriptivă preluată din Statistică. În cazul utilizării medodei de învățare supravegheată
definiția studiului va face referire atât la ide ntificarea unei variabile dependente, atribut, care
va fi utilizată ca o ieșire, cât și la alegerea altor variabile care explică într-un fel sau altul
variabila de ieșire , ce a fost utilizată ca o variabilă, atribut tip „prezicător”. Spre exemplu, in

lumea vânzărilor un supermarket va fi interesat să înțeleagă modul în care volumul vânzărilor,
profitul obținut, poat fi influiențate de modul de aranjare al magazinului, prezența la raft a
produselor, diversele asocieri între produse ce pot genera creșteri poz itive. Corelând cu modul
de învățare nesupravegheat obiectivul general al modelului este de a grupa obiectivele similare
sau de a identifica exceptiile întâlnite în date. De exemplu, dacă avem în plan găsirea
persoanelor care au același comportament, achiz iționează produse identice, și în același timp ,
procesul de identificare a excepțiilor prezente în date , oferă diferențe semnificativ e față de
situația reală, pu tem considera ca fiind un proces generator de fraudă în detecție ce necesită
măsuri de corecți e, adoptându -se astfel un nou model .
Odată ce datele ce trebuie analizate au fost identificate cu succes, toată atenția trebuie
să fie îndreptată spre a defini scopul general al procesului de minerit. Prima problemă apărută
este legată acum de importanța identificării unui obiectiv, Cât de importantă este prezența unui
obiectiv ? Merit ă eforturile de identificare a unui obiectiv ? Cu toate astea, consider ca fiind
foarte importantă setarea unui obiectiv bine stabilit. Această setare mentală poate aduce
succe sul unui proiect mult mai aproape și poate creea timp în momentele de maximă încărcare,
cu cât este mai precis cu atât eficiența va crește și succesul final va fi mai ușor de obșinut. Altă
situație este cea a datelor inadecvate , neconforme. În acest caz, va trebui aplicată ideea
privind căreia o mai bună înțelegere a datelor poate oferi o mai bună utilizare a lor.
Pentru problemele particulare, metoda trebuie să facă referire la modul natural de
alegere a unui studiu care să poată să ofere o soluție viab ilă. Un exemplu de studiu bine
identificat este găsirea profilului consumatorilor pentru a ști la orice moment al zilei cu -i ne
adresăm și mai exact cum trebuie să ne adaptăm noilor dorințe ale consumatorilo. În data
mining categoriile de modele se referă la țintele idetificate, toate păstrate într -un cont. Mai
exact, pentru a identifica profilul consumatorilor de băuturi alcoolice, în relație cu persoanele
ce nu acceptă consumul de alcool bazându -ne pe așteptările medicale ale acestora, utilizând
baze de d ate cu bolile ce apar la consumatorii și la neconsumatorii de băuturi alcoolice, vom
clasifica rezultatele pe diverse categorii , segmentând astfel consumatorii pe diferite ierarhii,
astfel obținând piața țintă actualizată a acestora ce ne va ajuta în noi c ampanii de promovare
atât în mediul online cât și în cel offline. Pag 10 final pentru dezvoltare
3. Aplicarea modelului adoptat pentru a putea prezice soluții pentru
problemele identificate la punctul precedent.
Pentru o bună aplicare a modelului trebuie avute în vedere mai multe aspecte
importante ce pot influiența rezultatul final. Un prim aspect ar fi cel legat de acuratețea
modelului, puterea modelului de a oferi informații corecte, când vor fi folosite în sit uațiile dure
din viața reală. Când analizăm un aspect din viața reală trebuie să ne asigurăm că modelul a fost
testat corespunzător în perioada de probă, iar trecerea lui la mediul curent, va aduce

rezultatele așteptate și nu alte surprize neplăcute, ce se vor traduce în cheltuieli exagerate și
timp pierdut.
Un alt element care trebuie luat în considerare este inteligibilitatea modelului. În
situația aceasta modelul trebuie să fie înțeles de orice persoană care î -l utilizează indiferent de
situația scolară sau pregătirea de care dispune. Totul trebuie să fie într -o interconectare
perfectă, începând cu modul în care intrările, datele introduse în utilajul folosit pentru
activitatea de minerit , ajungând la ieșiri, concluziile obținute și terminând cu modul în care este
prezentată acuratețea prognozei, persoanelor interesate. Referitor la performața unui model
de data mining, este definită de timpul necesar activității de construcție a modelului și de viteza
de prelucrare a datelor, cu scopul de a oferi predicț ii rapide și calitative. În ceea ce privește
ultima parte, viteza de procesare a datelor în momentul în care se utilizează baze de date de
mari dimensiuni sau atunci când se utilizează baze de date de foarte mari dimensiuni, este
foarte importantă. Spre ex emplu când se utilizează rețele neuronale, formate din baze de date
de mari dimensiuni, viteza de procesare scade dramatic deoarece ele utilizează întregul bagaj
de date, formate din milioane de prelucrări, legături și formule matematice care trebuie
calcu late atunci când se realizează previziunea.
Pentru a putea înțelege și aplica eficient modelul după ce baza de date a fost
prelucratăse vor avea în atenție conform spuselor lui Florin Gorunescu: rezumatul modelului ,
informațiile specifice oferite de mode l, distribuția datelor, validarea, văzută ca un mod de
evaluare și predicțiile oferite.
Fiecare model oferă o gamă largă de rapoarte, concluzii, de aceea rezumarea lor într -o
concluzie esențială care să sublinieze cele mai importante informații (ca de exe mplu fecvențele
de apariție, distrubuții ale produselor, corelații, hărți cu produse)și în același timp să explice
rezultatele obținute din date (spre exemplu modelul care să explice fluxul consumatorilor în
magazin și modul în care aceștia sunt influiența ți de poziția intrării, muzică, diverse asocieri de
produse) . Astfel trebuie să rezumăm modelul la informații specifice ce se referă la factorii de
cazualitate, intrările, care sunt semnificative pentru producerea unui anumit efect și să le
excludem pe cele irelevante. De exemplu dacă ne propunem să identificăm tipul clienților dintr –
un supermarket care sunt susceptibile de frecventarea compartimentului cosmetice, intrările,
criteriul folosit pentru deosebire este sexul clienților care apar mereu în date le avute
(preponderent femei la raionul cosmetice), excluzând datele nerelevante precum ocupația
profesionlă. În concluzie, este important să se identifice acei factori care explică în mod natural
datele, pentru obținerea scopului propus și să se elimine informațiile irelevante din analiză.
Distribuția datelor, la fel ca în statistică, în ceea ce privește eșantionarea statistică ca
proces , este foarte importantă pentru acuratețea, fiabilitatea procesului de minerit în date. La
fel ca acolo, avem nevoie m ai întâi de un volum suficient de mare de date și, în al doilea rând,

aceste date trebuie să fie reprezentative pentru analiză. Spre deosebire de statistică, unde
problema se pune de obicei pentru identificarea unei limite inferioare pentru eșantionarea
dimensiunii astfel încât astfel încât rezultatele să poată fi extrapolate cu o marjă suficientă de
încredere la întreaga populație, inferență statistică, în acest caz ar trebui să săpăm într -o
cantitate apreciabilă de date. Cu toate acestea, trebuie să ne a sigurăm că volumul de date este
suficient de mare și divers structurat pentru a fi relevant și utilizat la scară largă. În cazul
profilului clientului de încredere pentru sistemul bancar trebuie să fie suficient de flexibil în
general și nu doar pentru o a numită bancă, dacă studiul nu a fost comandat, evident, de o
anumită bancă. În al doilea rând, după cum am văzut mai sus, datele trebuie să aibă o
distribuție bine împărțită, echitabilă, pentru toate categoriile luate în considerare în cadrul
studiului. Ma i exact, în cazul în care atributul sex este inclus în analiză, atunci cele două sexe
trebuie să fire reprezentate corect în baza de date: în general 51 % feminin, 49% masculin, nu o
extrapolare complet dezechilibrată de tipul 98% feminin, 2% masculin.
Validarea, procesul de evaluare finală privind calitatea preciziei de predicție a modelului,
face referire la obținerea de predicții utilizând modelul existent și apoi compararea rezultatelor
cu cele deja cunoscute, astfel validarea devenint cel mai importa nt pas în procesul de creeare a
și aplicare a unui model. Utilizarea unui model care nu se potrivește cu datele nu poate oferi
rezultate corecte și nu poate răspunde concludent studiului pentru care a fost propus spre
folosire. Așadar se poate înțelege de stul de limpede că există o întreagă metodologie și o
varietate de etape interdepentente pentru a putea valida un model bazat pe datele existente ca
de exemplu: eșantionarea aleatorie, validare parțială, eșantionare stratificată… În final,
important este să se înțeleagă că trebuie să se identifice factorii care pot duce la obținerea
succesului, dar și factorii generatori de eșec în predicțiile oferite de model.
Predicțiile oferite de model reprezintă capacitatea unui model de a prezice cel mai bun
răspuns ,ieșire, cel mai apropiat de realitate, pe baza datelor de intrare stocate în bazele de date
de mari și foarte mari dimensiuni. Astfel, cu cât predicția a fost făcută mai bine cu atât diferența
dintre ceea ce se așteaptă să se întâmple și ceea ce se întâmp lă în prezent, este mai mică.
Trebuie menționat faptul că în procesul de predicție unele modele oferă ca un atașament la
prognoza făcută așa numita „cutie albă”, ce pune la dispoziție toate detaliile despre cum s -a
ajuns la acel rezultat, în timp ce altel e atașează doar rezultatele nu cum s -a ajuns la ele, „cutia
neagră”. O altă problemă cu privire la prognoze se referă la previziunile făcute de concurenții
aflați pe piață. Din moment ce nici o predicție nu poate fi considerată adevărul suprem, toate
pot f i contestate, pe lângă predicția cea mai bună găsită în rândul competitorilor trebuie să le
cunoaștem și pe cele următoare, încadrându -le într -o ierarhie descrescătoare a prognozelor
pentru a avea o imagine cât mai clară a tuturor posibilităților. În acest context. Dacă este posibil
este de preferat să cunoaștem diferențele dintre predicția declarată câștigătoare și al doilea
prezicător aflat în cursă. Este clar că o diferență mare între primii doi competitori aflați în

concurs, vom avea mai puține semne de întrebare cu privire la validarea predicției câștigătoare.
Pot concluziona că în momentul predicțiilor oferite de un model data mining, pot interveni
dificultăți privind prognoza în diverse dome nii de studiu precum aplicațiile informatice,
dezastrele naturale, meteorologie, etc.
Probleme rezolvate de Data mining
Ramas Pagina 14 spre sfarsit

Similar Posts