Ciclul de Utilizare al Data Mining

Data warehouse

Informațiile reprezintă un bun extrem de valoros pentru orice întreprindere, și din cauza aceasta, trebuie să fie depozitate în mod corespunzător și ușor accesibil, ori de cate ori acestea sunt necesare. Cu toate acestea, disponibilitatea prea mare de date, face ca extragerea celor mai importante informatii sa devina dificila, dacă nu imposibila.

Depozitare de date(data warehousing) este un fenomen care a crescut datorita cantitatii imense de date electronice stocate în ultimii ani,dar și datorita necesitatii urgente de a utiliza aceste date, pentru a realiza obiective dincolo de prelucrarea tipica de zi cu zi.

Într-un scenariu tipic, o mare corporație are multe ramuri, iar managerii generali trebuie să cuantifice și să evalueze modul în care fiecare ramură contribuie la performanța afacerii la nivel mondial. Baza de date centrala,stocheaza informatii detaliate cu privire la atributiile fiecarei ramuri. Pentru a satisface nevoile managerilor, pot fi realizate interogări personalizate pentru a prelua datele necesare. Pentru ca acest proces să funcționeze, administratorii bazei de date trebuie mai întâi să formuleze interogarea dorita (de obicei, o interogare SQL) după ce au studiat îndeaproape componența de bazei de date. Apoi interogarea este procesată. Aceasta poate dura câteva ore, din cauza cantitatii imensă de date, complexitatii de interogare, precum și efectelor concurente ale rularii unor interogari pe date din aceeasi baza de date. În cele din urmă, este generat un raport,iar acesta este livrat catre manageri sub forma unei foi de calcul.

Un depozit de date(Data Warehouse) este o colectie de date orientata pe subiect, integrata,evolutiva in timp si ne-volatila, care sustine procesele de luare a deciziei (Bill Inmon,2005).

Depozitele de date sunt orientate pe subiect, deoarece acestea sunt folosite pentru stocarea de date dintr-o anumita categorie.De exemplu, „vanzari”, „produse”, „clienti” , pot reprezenta un subiect al depozitului de date.

Un depozit de date, integrează date din surse multiple. De exemplu, sursa A și B pot avea diferite moduri de identificare a unui produs, insa într-un depozit de date, va exista doar un singur mod de identificare a acelui produs.

Din punct de vedere al evolutiei in timp, un depozit de date păstreaza toate datele istorice. De exemplu, se pot prelua date vechi de 3 luni, 6 luni, 12 luni, sau date chiar mai indepartate,dintr-un depozit de date. Acest lucru contrastează cu un sistem de tranzactii, unde de cele mai multe ori, sunt tinute doar cele mai recente date. De exemplu, un sistem de tranzacții poate deține cea mai recentă adresa unui client, în timp ce un depozit de date poate stoca toate adresele asociate cu un client.

Fundamental, datele nu sunt niciodată șterse din depozitele de date,iar actualizările sunt

facute în mod normal atunci când baza de date este offline. Acest lucru înseamnă că depozitele de date pot fi, în esență, văzute ca baze de date read-only,de unde tragem concluzie de ne-volatilitatea acestora in timp.

Din punct de vedere arhitectural,un depozit de date este caracterizat de urmatoarele concepte:

Separare: procesele analitice si procesele tranzactionale trebuie,pe cat de mult posibil,sa fie privite diferit;

Scalabilitate: caracteristicile Hardware si Software trebuie sa fie imbunatatite foarte rapid si usor,deoarece volumul de date care trebuie manipulat si procesat si cerintele utilizatorilor,cresc progresiv;

Extensibilitate: arhitectura trebuie sa fie astfel realizata, incat sa gazduiasca noi aplicatii si tehnologii,fara ca intregul sistem sa fie reproiectat;

Securitate: monitorizarea accesului este un aspect esential de securitate,datorita datelor care sunt stocate in depozitul de date;

Administrare: managementul depozitului de date nu ar trebui sa fie dificil;

In figura urmatoare, este prezentata arhitectura unui depozit de date:

Source layer: un depozit de date foloseste surse de date diferite. Aceste date sunt stocate initial in baze de date relationale, in aplicatii corporate de baza(CRM,sisteme de feedback etc.), sau provin din sisteme informationale din afara firmei(de exemplu: baze de date ale altor firme, care au nevoie de analiza pe acele date)

Data staging: data stocata in sursele enumerate mai sus trebuie sa fie extrasa,curatata pentru a fi inlaturate inconsistentele si umplute golurile si integrata intr-o singura schema,pentru a fuziona cu datele din alte surse. Tehnicile ETL (Extract Transform Load) se ocupa de fuzionarea datelor eterogene,de extragere,transformare,curatare,validare,filtrare si incarcare a acestora in depozitul de date. Din punct de vedere tehnologic, aceaasta faza se ocupa de probleme specifice sistemelor informatice distribuite,cum ar fi gestionarea inconsistenta a datelor,sau structuri incompatibile de date.

Data warehouse layer: informatia este stocata intr-un singur depozit logic,centralizat: Depozitul de Date. Depozitul de Date poate fi accesat direct,dar poate si utilizat,de asemenea ca sursa pentru creare de Data Mart-uri,care replica partial continutul Depozitului de Date. Data Mart-urile sun create pentru anumite departamente,cu scopul dezvoltarii de rapoarte. Depozitele de tip Meta Data retin informatii despre surse,proceduri de acces,utilizatori,schemele din Data Mart etc.

Analysis: In cadrul acestui strat, datele integrate sunt utilizate eficient,cu scopul dezvoltarii de rapoarte, al analizei dinamice de date si al simularii diferitelor scenarii spre care pot sa mearga anumite situatii sau proiecte. Tehnologic vorbind, ar trebui sa contina diferiti navigatori, optimizatori pentru interogari complexe si interfete cu utilizatorul.

Data mining

După mai multe decenii în cursul cărora mijloace și tehnici informatice tot mai evoluate au contribuit la amplificarea capacității de memorare și stocare a datelor, ultimii ani au marcat o reorientare semnificativă în utilizarea volumelor de date stocate, de la un proces de explorare retrospectivă spre unul cu caracter prospectiv. Această schimbare a devenit posibilă ca urmare a maturizării tehnologiilor legate de data mining.

Denumirea provine de la analogia cu activitatea minieră; tot așa cum este necesară dislocarea și rafinarea a tone de minereu pentru a obține câteva grame de aur, aici sunt examinate și analizate sute de mii sau milioane de date pentru a extrage din ele informații și semnificații noi, dincolo de scopurile pentru care acestea au fost colectate și memorate la origine.

Data mining are, ca și alte concepte folosite în informatică, mai multe definiții. În esență, acestea converg spre ideea formulată anterior: un proces de extragere de informații noi din colecțiile de date existente. Termenul de dată este utilizat aici cu semnificația de descriere a unui eveniment precis, produs în lumea reală și verificabil prin raportare la aceasta. Informația (sau cunoașterea transmisă) constituie descrierea unei categorii abstracte, ce acoperă mai multe evenimente sau exemple concrete.

Principiul de funcționare în data mining este următorul: se prelucrează datele referitoare la perioadele trecute, examinând o varietate de situații care s-au produs și ale căror rezultate sau consecințe sunt deci, bine cunoscute, pentru a evidenția caracteristicile acestora și a permite elaborarea unui model. Odată construit, modelul poate fi aplicat situațiilor noi de același tip.

Informațiile obținute prin data mining sunt de natură predictivă sau descriptivă.

Un exemplu tipic de problemă predictivă este direcționarea acțiunilor de marketing. Datele rezultate din corespondența promoțională trecută se folosesc pentru a identifica destinatarii pentru care următoarea campanie promoțională poate aduce un maxim de efect.

Fundamentele explorarii datelor

Expansiunea tehnicilor de data mining se explică, printre altele, prin faptul că firmele au acumulat volume foarte mari de date, stocate pe suporturi informatice, privitoare la tranzacții de diverse tipuri, derulate de-a lungul mai multor ani. Băncile posedă, spre exemplu, arhive de milioane de înregistrări, în care sunt consemnate în detaliu operațiile efectuate de clienții lor. În orice firmă se găsesc mii și sute de mii de înregistrări privitoare la cumpărările, vânzările, încasările și plățile făcute. Societățile de telefonie mobilă posedă date privitoare la fiecare convorbire efectuată de abonații lor, incluzând data, momentul și locul apelului, numărul de telefon al corespondentului, durata convorbirii.

Toate exemplele enumerate au un element comun: vizează, în mod direct sau indirect, clienții. Exploatarea lor din această perspectivă oferă oportunități deosebite. Datele sunt la dispoziția organizației respective; datele sunt cât se poate de precise și analitice; datele sunt în volum mare și acoperă perioade de timp de ordinul anilor. Dar relația cu clienții nu este singura direcție de re-utilizare a acestor date. În multe alte domenii ale activității de afaceri, tendințele pe care acestea le încorporează sau le reflectă în mod obiectiv, structurile sau tiparele pe care le relevă sunt deosebit de valoroase.

Depozitele de date și tehnologiile OLAP vizează și ele datele colectate la nivelul organizațiilor. În ciuda unor cerințe și prelucrări preliminare asemănătoare, există deosebiri esențiale în privința demersului la care recurg fiecare dintre ele și nu mai puțin, a obiectivelor urmărite. Nu este mai puțin adevărat că depozitele de date se pretează foarte bine ca surse pentru data mining iar rezultatele furnizate de acesta pot completa câmpurile înregistrărilor celor dintâi și pot fi valorificate apoi prin proiecțiile multidimensionale specifice OLAP(Fig. 1).

Ciclul de utilizare a Data Mining

Potențialul oferit de tehnicile de data mining trebuie încorporat în procesele comerciale curente ale organizațiilor pentru a deveni realmente utile. Căutarea de informații nu este un scop în sine; ea devine utilă doar în măsura în care se transpune în acțiune.

Declanșarea unui demers bazat pe data mining se face ca urmare a observării sau constatării unei necesități sau oportunități comerciale. Observarea diminuării numărului de clienți, scăderea vânzărilor la un anumit produs, lansarea unui nou produs sau serviciu sunt câteva exemple de situații de acest tip. O firmă poate alege să reacționeze sau nu la asemenea situații și, în caz afirmativ, poate alege diverse moduri de a o face. Tehnicile de data mining constituie una dintre acestea. Totuși, este de reținut că fiecare dintre ele este adecvată unui anumit gen de probleme sau de circumstanțe și că, de multe ori, aplicarea lor în combinație poate produce rezultatele cele mai bune. Alegerea trebuie să aibă în vedere și compatibilitatea dintre cerințele în materie de date ale tehnicii sau tehnicile alese și cele de care se poate dispune realmente.

Pasul următor constă în explorarea propriu-zisă a datelor. La rândul său, acesta este departe de a fi simplu sau liniar. Multe dintre aceste tehnici solicită, înainte de a putea fi utilizate, un proces de învățare; datele, fiind eterogene, impun o etapă de pregătire prealabilă; rezultatele sunt rareori aplicabile în forma în care sunt obținute, cerând un efort suplimentar de interpretare și adaptare, la care să participe și decidentul, cu cunoștințele și experința sa în afaceri. Spre exemplu, aplicarea unui algoritm de grupare poate evidenția existența a 20 de clustere diferite; dintre acestea, doar unul se poate dovedi util dar relevanța lor nu poate fi apreciată decât de specialistul sau specialiștii din firmă.

Informațiile obținute anterior au valoarea acțiunilor întreprinse pe baza lor. Tehnicile de data mining permit obținerea de cunoștințe mai bogate privitoare la mediul în care există și funcționează întreprinderea. Acestea trebuie însă transformate în acțiune iar efectul acțiunilor măsurat

Toate aceste conturează ideea unui ciclu în utilizarea data mining, în cursul căruia se parcurg cele patru etape menționate:

• identificarea oportunității comerciale și a datelor pe care se poate baza explorarea

• extragerea de informații din colecțiile de date existente prin tehnici adecvate de data mining

• adoptarea de decizii și întreprinderea de acțiuni pe baza informațiilor obținute

• măsurarea rezultatelor concrete pentru a identifica și alte modalități de exploatare a datelor disponibile

Verificarea ipotezelor si cautarea cunostintelor

Aplicarea tehnicilor de data mining poate fi făcută din perspectiva unui demers ascendent sau descendent.

În abordarea descendentă, efortul este orientat spre confirmarea sau infirmarea unor idei (ipoteze) formulate în prealabil prin alte mijloace. Un demers asemănător se aplică în statistică și în analiza datelor, dar folosind alte tehnici și metode.

Abordarea ascendentă are o cu totul altă finalitate; ea urmărește extragerea de cunoștințe sau informații noi din datele disponibile. Căutarea poate fi dirijată sau nedirijată .

Căutarea dirijată ia în considerare un atribut sau un câmp, ale cărui valori încearcă să le explice prin celelalte câmpuri. Este cea mai folosită în practică.

Căutarea nedirijată are ca scop identificarea relațiilor sau structurilor existente în ansamblul datelor examinate, fără a acorda prioritate unui câmp sau altul. Deși mai spectaculoasă, în practică se recurge mult mai puțin la ea decât la căutarea dirijată.

Tehnici si actiuni

Ceea ce se exploatează prin data mining sunt colecțiile de date de care dispune o organizație, colecții care au fost însă constituite pentru alte scopuri; în cazurile cele mai frecvente, este vorba de datele privitoare la tranzacțiile derulate într-o anumită perioadă de timp: comenzi, livrări, plăți, încasări etc. La acestea se adaugă, deseori, date provenite din alte surse, cum ar fi, spre exemplu, statistici oficiale privitoare la evoluția economiei în ansamblu, date privitoare la concurență, diverse măsuri legislative sau normative etc. Aceasta explică utilizarea frecventă a calificativului de informații ascunse: volumul mare sau foarte mare și faptul că structura și conținutul lor sunt edificate în perspectiva altor finalități, fac foarte dificilă sau imposibilă detectarea corelațiilor sau raporturilor de ansamblu pe care le încorporează în mod intrinsec.

Rezultatele sunt cu atât mai sigure și relevante, cu cât se bazează pe un volum mai mare de date, din motive lesne de înțeles: o tendință relevată de un număr foarte mare de cazuri practice este mult mai pertinentă decât cea dedusă din doar câteva situații.

Data mining nu este un panaceu universal, capabil să rezolve orice problemă de gestiune. În fapt, aportul său se rezumă la un număr limitat de acțiuni: clasificarea, estimarea, predicția, gruparea, analiza grupărilor, dar care, folosite în mod adecvat, se pot dovedi extrem de utile pentru numeroase probleme și situații din domeniul decizional.

Clasificarea urmărește să plaseze obiectele prelucrate într-un grup limitat de clase predefinite. Spre exemplu, o cerere de credit va fi încadrată, prin clasificare, în una dintre următoarele categorii de risc: scăzut, mediu, ridicat. Obiectele clasificate sunt reprezentate, în general, sub formă de înregistrări, compuse din atribute sau câmpuri. Dintre tehnicile de data mining, cele mai adecvate clasificării sunt arborii de decizie și raționamentul bazat pe cazuri.

Estimarea urmărește să atribuie o valoare unei variabile, pe baza celorlalte date de intrare. Prin intermediul său se poate aprecia, de exemplu, numărul de copii sau venitul total al unei familii. Rezultatele obținute prin estimare sunt valori continue. Rețelele neuronale sunt printre cele mai bune tehnici de data mining pentru acest gen de prelucrări.

Predicția urmărește să claseze înregistrările tratate în funcție de un comportament sau o valoare estimată viitoare. În acest scop, se recurge la o colecție de exemple, bazate pe date din trecut, în care valorile variabilei de previzionat sunt deja cunoscute. Cu ajutorul acestora se construiește un model care să explice comportamentul observat. Aplicând acest model asupra înregistrărilor de prelucrat, se obține o predicție a comportamentului sau valorilor acestora în viitor. Cu condiția folosirii unui set adecvat de exemple trecute, toate tehnicile de clasificare sau estimare pot fi folosite și pentru predicții.

Gruparea urmărește să determine care sunt obiectele care apar cel mai frecvent împreună. Exemplul tipic pentru acest gen de acțiune este determinarea mărfurilor care se cumpără uzual împreună, de unde și denumirea de “analiză a coșului gospodinei”.

Analiza grupurilor urmărește să dividă o populație eterogenă în grupuri mai omogene, numite “cluster”. Spre deosebire de celelalte tipuri de acțiuni asemănătoare, aici nu există un set predeterminat de clase ca în cazul clasificării și nici exemple trecute. Segmentarea se face în exclusivitate pe baza similitudinilor sesizate între obiecte.

Big Data

Date Big presupune, de obicei, seturi de date cu dimensiuni care depasesc capacitatea instrumentelor software utilizate în mod obișnuit pentru a extrage, gestiona și prelucra datele, într-un timp tolerabil.

Termenul se referă adesea, pur și simplu, la utilizarea analizei predictive („Predictive Analytics”) sau a altor metode avansate pentru extragerea valorii din date, și rareori la o dimensiune specifica a setului de date.

Definitia data pentru conceptul Big Data, de catre Viktor Mayer-Schönberger și Kenneth Cukier, in cartea „Big Data: A revolution that will transform how we live” este urmatoarea: „Datele păstrate și prelucrate în cantități imense, datorită unor medii de stocare mai ieftine, unor metode de procesare mai rapide și unor algoritmi mai performanți”.

Seturile de date cresc in dimensiune, deoarece acestea sunt adunate de numeroase dispozitive, cum ar fi : telefoane mobile, camere video, frecvente radio (RFID), microfoane, retele si senzori wireless. Capacitatea tehnologica de stocare la nivel mondial, per capita, s-a dublat la aproximativ 40 de luni, din 1980 pana in prezent. Incepand cu anul 2012, au fost creati, in fiecare zi, aproximativ 2,5 exabytes (~2,5 miliarde gigabytes) de date. Provocarea pentru marile intreprinderi este de a determina cine sa conduca initiativele Big Data, de care depinde intreaga companie.

Big Data a devenit o problemă în afaceri, sau cel puțin o problemă pe care oamenii de afaceri incep să o conștientizeze. Presa începe să aloce din ce în ce mai mult spațiu acestui subiect. Pornind cu Wall Street Journal "Companiile sunt inundate cu date" (“Companies are being inundated with data") la Financial Times "Din ce în ce în afaceri sunt aplicate analize din mass-media, cum ar fi Facebook și Twitter" ("Increasingly businesses are applying analytics to social media such as Facebook and Twitter"), Forbes "Big Date a ajuns la Seton Health Care Family" ("Big Data has arrived at Seton Health Care Family"). De ce atâtea articole pe aceasta temă? Deoarece Big Data are potențialul de a afecta profund modul in care facem afaceri și chiar modul de a trăi.

Big Data are 4 caracteristici principale:

Prima caracteristică este volumul.

Experții prezic că volumul de date din lume, va crește la 25 de Zettabytes în 2020. Același fenomen afectează fiecare companie – datele sunt în creștere la aceeași rată exponențială. Dar nu este numai volumul de date care este în creștere, numărul de surse de date este de asemenea în creștere.

A doua caracteristică este viteza.

Datele se creează la viteze din ce în ce mai mari. Companiile își mută aplicațiile de la aplicații de tip "batch" la aplicații în timp real. Și cerințele de afaceri au crescut la fel – de la răspunsuri săptămâna viitoare sau măine la un răspuns într-un minut sau la secundă. Și lumea este, de asemenea, din ce în ce mai instrumentată și interconectată. Volumul de date de streaming de pe aceste instrumente este exponențial mai mare decât a fost chiar cu 2 ani în urmă.

A treia caracteristică este varietatea datelor.

Varietatea datelor prezintă o provocare la fel de dificilă. Creșterea surselor de date a alimentat și creșterea tipurilor de date. De fapt, 80% din datele generate în lume sunt date nestructurate. Cu toate acestea, metodele tradiționale de analiză se aplică numai la informații structurate.

A patra caracteristică este veridicitatea datelor.

Cum se poate acționa pe baza acestor informații, dacă nu sunt de încredere? Stabilirea încrederii în datele pe care le folosește orice companie reprezintă o provocare uriașă odată cu creșterea surselor și tipurilor de date.

Un alt motiv pentru care Big Data este un subiect fierbinte astăzi este noua tehnologie care permite unei organizații să beneficieze de resursele interne de date. Ceea ce este nou, este tehnologia pentru a procesa și analiza aceste date la volumul și viteza dorită. Scopul tehnologiei Big Data este să analizeze toate datele disponibile, eficient din punct de vedere costuri. Orice date, așa cum sunt. Se pot analiza date structurate, video, audio, date spațiale sau orice tip de date.

Datele pot veni de la sistemele tradiționale – sisteme de facturare, sisteme ERP, sisteme CRM. De asemenea, vin de la mașini – de la etichetele RFID, senzori, comutatoare de rețea. Și datele vin de la oameni – site-ul web, social media, etc. Acest lucru face foarte dificilă analiza datelor sociale – extragerea ideilor de conținut în mare parte sub formă de text într-un timp foarte scurt.

Similar Posts