Data Mining In Contextul Cloud Computing

Dragan Dragos

Grupa 1069

Data mining in contextul cloud computing

Introducere

Internetul devine din ce in ce mai pronuntat un instrument vital in viata noastra de zi cu zi, atat in viata profesionala cat si in viata personala, acesta atragand din ce in ce mai multi utilizatori noi.

Avand in vedere acest fapt nu este de mirare ca afacerile au inceput sa migreze din mediul traditional catre Internet.

Poate unul dintre cele mai revolutionare concepte aparute in domeniul Internetului in ultimii ani este conceptul de Cloud Computing

Termenul “Cloud Computing”- greu de tradus astfel incat sa sune bine in limba romana, defineste un concept IT dezvoltat in ultimii ani. Mai clar, cloud computing, se refera la un serviciu de inchiriere a unor resurse virtuale hardware si software. Prin acest serviciu, clientul nu va obtine fizic serverele pe care urmeaza sa fie instalate anumite aplicatii software ci niste capacitati virtuale de procesare si stocare pe care le poate accesa online [1] .

Din ce in ce mai multe companii aleg ca alternativa la construirea propriilor infrastructuri IT, sa-si depoziteze bazele de date sau programele de tip software pe servicii de tip cloud, astfel avand acces la date si programe prin intermediul Internetului.

Folosirea serviciilor de Cloud Computing capata popularitate datorita mobilitatii, disponibilitatii si pretului scazut. Pe de alta parte folosirea Cloud Computing aduce cu sine si anumite amenintari de securitate la adresa datelor si informatiilor companiei.

In acelasi timp, tehnicile de Data Mining au evoluat intr-un ritm comparativ cu evolutia Cloud Computing, acestea fiind folosite in scoaterea de informatii din baze de date in domenii precum afacerile, medicina, stiinta si ingineria, date spatiale etc.

Tendintele emergente Cloud Computing furnizeaza utilizatorilor sai beneficiul unic de acces fara precedent la date valoroase, care pot fi transformate in informatii utile, ce ii poate ajuta sa-si atinga obiectivele de afaceri .

Cloud Computing

Cloud Computing – model de arhitectura de calcul (Figura 2), ce permite accesul printr-o retea de calculatoare, convenabil si la cerere, la un fond comun de resurse de calcul, dinamic configurabil. Aceste resurse pot fi gasite rapid si usor prin interactiunea cu un furnizor de resurse si servicii (provider).

Acest model este compus din cinci caracteristici esentiale, trei modele de servicii si patru modele de implementare [2].

Caracteristici esentiale : serviciu la cerere, acces prin retea, punere in comun a resurselor, elasticitate, control si optimizare a resurselor.

Modele de servicii (Figura 1):

Software as a Service (SaaS) – aplicatiile informatice si datele aferente sunt stocate intr-un centru de date si sunt oferite utilizatorilor, la cerere, prin Internet (cu un navigator specializat). Acest serviciu ofera un stadiu de lucru ridicat. Se foloseste pentru aplicatii colaborative, mobile etc., mai putin pentru aplicatii in timp real.

Infrastructure as a Service (IaaS) – un ansamblu de componente hardware (servere, medii de stocare, retele etc.) impreuna cu anumite componente software (sisteme de operare, virtualizare, clusterizare etc. ) ce este oferit utlizatorilor. Acest model ofera un stadiu intermediar ce se foloseste pentru cereri volatile, nu se foloseste atunci cand se cer multe standarde.

Platform as a Service (PaaS) – mediile pentru dezvoltarea si inplementarea aplicatiilor informatice sunt oferite dezvoltatorilor.

Figura 1. Modele de servicii Cloud Computing

Modele de implementare :

Servicii private – Private cloud – infrastructura este disponibila doar in interiorul unei organizatii ce inglobeaza mai multi consumatori. Poate fi cazul unei retele de magazine de retail. Infrastructura poate fi detinuta, configurata si utilizata de organizatia respectiva sau de terti, ori combinatii ale celor doua variante.

Servicii comunitare – Community cloud – infrastructura este utilizata de entitati diferite ce impartasesc o parte din scopuri. Poate fi exemplul serviciilor de urgenta – politia, pompierii, ambulanta.

Servicii publice – Public cloud – infrastructura este deschisa utilizarii de catre publicul larg in scopuri academice sau guvernamentale. Presupune existenta unui tert care sa furnizeze fizic infrastructura cloud.

Servicii mixte – Hybrid cloud – infrastructura este o combinatie de servicii private, comunitare si publice care isi pastreaza caracterul unitar, dar sunt unite printr-o tehnologie ce asigura portabilitatea informatiilor si a aplicatiilor software utilizate.

Figura 2. Arhitectura Cloud Computing

Data Mining

Data mining reprezinta gasirea de modele utile sau tendinte din cantitati mari de date.

Data mining este definita ca un tip „de analiza a bazei de date, care incearca sa descopere tipare utile sau legaturi intr-un grup de date. Aceasta analiza utilizeaza metode de statistica avansata, cum ar fi analiza de clustere, inteligenta artificiala si uneori chiar tehnici de retele neuronale. Scopul principal al data minig este sa descopere legaturi nestiute intre date, in special cand datele vin din baze de date diferite. [3]”

Prin data mining nu se urmareste verificarea sau confirmarea/infirmarea de ipoteze, ci se intentioneeaza descoperirea unor cunostinte noi, neintuitive, care pot contrazice perceptia intuitiva, fiind deci informatii complet necunoscute la momentul realizarii procesului de data mining. Din acest motiv rezultatele obtinute sunt cu adevarat valoroase.

Procesul de data minig este deseori utilizat impreuna cu tehnici traditionale de interogare sau de analiza a datelor. Din aceasta cauza, data minig-ul este asociat frecvent cu : interogari SQL, regasiri de date, cu ajutorul unor instrumente avansate precum agentii inteligenti, analize in sisteme de baze de date multidimensionale cu ajutorul sistemelor OLAP, rapoarte si grafice de prezentare a datelor, prelucrari statistice traditionale ale datelor. Insa aceste tehnici nu permit descoperirea de cunostinte fara formularea prealabila de ipoteze.

Functii specifice procesului de data minig [4]:

Clasificarea : grupeaza articolele in clase discrete si prezice carei clase ii apartine un articol

Regresia : aproximarea si prezicerea valorilor comune

Importanta atributelor : identificarea celor mai importante atribute in prezicerea rezultatelor

Detectia anomaliilor : identificarea articolelor ce nu satisfac caracteristicile datelor normale (articole ce prezinta caracteristici straine)

Clusterizare : gasirea gruparilor naturale intre date

Modele asociate : analizarea costului pietei

Extragere de caracteristici : crearea de noi atribute caracteristice folosind combinatii ale atributelor originale

Data mining si cloud computing

Tehnicile de data mining si aplicatiile acestora au un rol foarte important in contextul cloud computing.

Deoarece cloud computing isi face simtita prezenta din ce in ce mai mult in toate ariile de afaceri si chiar ale cercetarii stiintifice, acesta devine o zona de interes pentru implementarea tehnicilor de data minig.

Cloud computing devine noul trend in serviciile ce utilizeaza Internetul pentru a indeplini sarcini cu ajutorul serverelor. Data mining in cloud computing este procesul de extragere a informatiilor structurate din surse de date nestructurate sau semistructurate din domeniul web.

Folosirea procesului de data mining impreuna cu cloud computing ofera organizatiilor posibilitatea de a-si centraliza managementul produselor software pe care le foloseste si a spatiilor de stocare pentru date virtuale, cu asigurarea unor servicii eficiente, fiabile și sigure pentru utilizatorii lor [5].

Deoarece scopul principal al cloud computing este sa ofere software si hardware, ca si servicii, prin intermediul Internetului, software-ul pentru data minig va fi oferit utilizatorului in aceeasi maniera.

Principalele avantaje ale folosirii unui instrument de data minig prin intermediul unui serviciu cloud sunt urmatoarele [6]:

Clientii platesc doar pentru instrumentele de data mining de care au nevoie la un moment dat, ceea ce duce la reducerea costurilor companiei cu licentele de software. Acestia nu mai trebuie sa plateasca pentru suite complexe de software specializat in data minig.

Clientii nu mai trebuie sa aiba o intreaga infrastructura hardware, deoarece pot avea acces la servicii de data mining doar cu ajutorul unui navigator specializat. Iarasi costurile companiei scad deoarece se platesc doar costurile generate de folosirea serviciului de cloud computing.

Clientii au acces la serviciile de data mining oriunde si oricand deoarece acestea sunt disponibile prin cloud computing si pot fi accesate de pe orice dispozitiv cu legetaura la Internet, prin intermediul unui browser ( Figura 3 ).

Utilizarea serviciilor de data mining prin intermediul cloud computing darama bariera ce tinea departe companiile mici si mijlocii de beneficiile date de instrumentele de data minig, datorita costurilor mai mici fata de suitele traditionale de data minig.

Implementarea tehnicilor de data mining prin intermediul cloud computing, ofera utilizatorilor posibilitatea de a extrage informatii importante din depozite de date integrate virtual prin cloud computing, ceea ce duce la reducerea costurilor cu infrastructura si spatiul de stocare al datelor.

Figura 3. Accesul la Cloud Computing

Concluzii

Tehnologiile data mining puse la dispozitie prin servicii de cloud computing sunt o carcateristica absolut necesara pentru zona de afaceri din zilele noastre, ajutand companiile sa ia decizii proactive, bazate pe cunoastere si oferind acestora tendintele viitoare si comportamente predictibile in dezvoltarea mediului de afaceri.

Folosirea tehnologiilor de data mining impreuna cu mediul cloud computing ofera posibilitatea nu numai a companiilor mari sa aiba acces la data mining, dar si companiilor mici si mijlocii, care nu isi puteau permite sa cumpere solutii de data mining foarte costisitoare.

Folosirea serviciilor de cloud computing devine din ce in ce mai populara, in ultimii ani facandu-si aparitia in domeniul afacerilor sintagma „If you are not in the cloud you are not going to be in business”.

Nevoia companiilor de servicii de data mining creste pe zi ce trece, astfel incat necesitatea integrarii serviciilor de data mining in serviciile de cloud computing devine o problema din ce in ce mai stringenta.

Bibliografie

[1] „Cloud computing – Definitie” – http://despretot.info/2012/02/cloud-computing-definitie-referat/

[2] Peter Mell, Timothy Grance, “ The NIST Definition of Cloud Computing ” , http://csrc.nist.gov/publications/nistpubs/800-145/SP800-145.pdf.

[3] Merriam-Webster Dictionary, “Definition of data mining”, http://www.merriam-webster.com/dictionary/data%20mining.

[4] „Raport de cercetare – sinteza IDEI-2007 – Prelucrarea genomurilor biologice prin tehnici de data mining” – http://mercur.utcluj.ro/bioinf_dm/bioinf_dm_files/Sinteza_ID_903-2007.pdf

[5] Bhagyashree Ambulkar, Vaishali Borkar – “Data Mining in Cloud Computing” – MPGI National Multi Conference 2012 – http://research.ijcaonline.org/ncrtc/number6/mpginmc1047.pdf.

[6] Ruxandra-Stefania Petre – “Data mining in Cloud Computing” – Database Systems Journal vol. III, no. 3/2012 – http://www.dbjournal.ro/archive/9/9_7.pdf

Similar Posts