Solutii de Extragerea Cunostintelor din Volume Mari de Date

Conceptul de Big Data a fost folosit în informatică încă de la începutul primelor zile de calcul și care înseamnă volum mare de date, date care nu au putut fi procesate cu ajutorul metodelor și instrumentelor tradiționale.

Analiza datelor mari a fost și este în centrul științelor moderne și a celor de afaceri. Aceste date se află în emil-uri, imagini, tranzacții on-line, interacțiunile pe rețelele de socializare, etc., . Aceste date sunt stocate în baze de date care au o creștere masivă și devin greu gestionate, analizate și vizualizate cu ajutorul instrumentelor software tipic privind bazele de date.

Până în anul 2003 datele au fost la nivelul de 1018 bytes (adică 5 exabytes) , iar în anul 2012 acestea au fost de tipul 1021 bytes (adică 2.72 zettabytes) și se preconizează ca până la sfârșitul anului 2015 acestea să ajungă până la 8 zettabytes.

Firma IBM, din studiile realizate a indicat faptul că sunt create în fiecare zi aproximativ 2,5 exabytes de date și aproximativ 90% dintre acestea au fost obținute în ultimii doi ani.

Tot din studiile realizate până în prezent, pot da ca exemplu și calculatorul personal care are aproximativ 500 de gigaocteți și pentru a se putea stoca toate datele lumii ar trebui să existe aproximativ 20 de miliarde de calculatoare.

Un impact la fel de mare l-a avut și asupra datelor multimedia, și mai exact asupra asupra creșterii traficului de date până la 70% până în anul 2013.

Se știe că doar Google are peste un milion de servere în toată lumea, există în jur de 6 miliarde de abonamente te telefonie mobilă, peste 10 miliarde de mesaje trimise în fiecare zi, iar până în anul 2020 se preconizează să fie conectate la rețelele de internet peste 50 de miliarde de discpozitive.

Pot defini “Big Data” ca fiind o cantitate mare de date cu scopul stocării și gestionării informațiilor. Acum 5 ani au fost mai puțin de câteva zeci de sute de gigabytes de stocare, iar astăzi sunt la câteva sute de terabytes.

Creșterea cantităților de date stocate a provocat și provoacă pentru cercetătorii IT multe întrebări, și anume:

trebuiesc proiectate sisteme adecvate care să facă față în mod eficient datelor;

extragerea informațiilor se poate realiza doar după o analiză strictă.

Termenul de “Big Data” este un termen folosit în identificarea seturilor de date care au dimeniune mare și care nu se pot gestiona cu ajutorul instrumentelor software tipice din Data Mining.

Institutul McKinsey Global a realizat și publicat un raport referitor la Big Data, raport în care sunt descrise oportunitățile de afaceri care conțin date mari.

În lucrul cu bazele de date mari există două strategii principale, și anume: prelevarea probelor (dacă setul de date este mare și nu se pot utilize toate exemplele, atunci se poate obține o soluție aproximativă realizată cu ajutprul unui subset de exemple) și utilizarea sistemelor distribuite.

O metodă bună pentru realizarea unei eșantionări este aceea de a selecta cele mai bune cazuri pentru a obține o performanță bună folosind puțin timp și o cantitate mică de memorie.

În anul 1967, Stanley Milgram a realizat un experiment referitor la utilizarea tehnicilor probabilistice, adică, a dorit să trimită cărți poștale doar persoanelor cunoscute folosind tot persoanele cunoscute.

Acest experiment a fost repetat și de Backstrom, Boldi, Rosa, Ugander și Vigna și au calculat distanța dintre media legăturilor care se află între utilizatori. Pentru aceasta, ei au folosit HyperANF, au îmbunătățit-o și varianta a denumit-o ANF. Acesta este un instrument rapid și scalabil pentru Data Mining care calculează aproximările în funcțiile graficelor.

În continuare, doresc să menționez lucrarea Pulse Global pentru Big Data folosită pentru îmbunătățirea vieții din țările în curs de dezvoltare. Aceasta este o inițiativă lansată în 2009 de Națiunile Unite având la bază Big Data și constă în:

Cercetarea tehnicilor și metodelor utilizate pentru analiza datelor;

Îmbinarea tuturor tehnologiilor pentru analiza datelor.

În această lucrare sunt descrise opotunitățile oferite de Big Data către țările în curs de dezvoltare cu oprtunități și provocări, și anume:

realizarea unor programe pentru proiectarea politicilor reprezentând o realitate mai fină asupra țărilor din cursul de dezvoltare;

avertizarea privind anomaliile care apar în mass-media și în era digitală;

feedback-ul să fie în timp real, adică, verificarea politicilor și a programelor de monitorizare să fie în timp real.

Exploatarea datelor de tipul Big Data nu a fost și nu este limitată în lumea industrializată, estimîndu-se aproximativ, spre exemplu, peste 6 miliarde de telefoane mobile, iar 81% dintre țări se află în curs de dezvoltare.

Instrumentele utilizate în Big Data

Fenomenul “Big Data” este legat de software-ul open source. Multe companii precum Yahoo, Facebook, LinkedIn, Twitter lucrează la proiecte precum open source oferind oferte de infrastructură de date cu Hadoop, cum ar fi:

Apache Cassandra este un sistem de management al bazelor de date dezvoltat de Facebook utilizând bazele de date de tipul back-end.

Apache Hadoop este un software pentru realizarea aplicațiilor distribuite având la bază modelul MapReduce și un system de fișiere numit Hadoop Distributed Filesystem (HDFS).

Hadoop are la bază Java și platforma de open source și nu este un înlocuitor pentru depozitele de date, bazele de date sau ETL (Extract, Transform, Load) incluzănd un sistem distribuit de fișiere și analiză și platformă pentru stocarea datelor. HDFS (Hadoop Distributed File System) traversează nodurile unui cluster și conectează sistemele de fișiere pe mai multe noduri de intrare și ieșire pentru a le transforma într-un sistem mare de fișiere.

Apache HBase este scris în Java și este proiectat pentru rularea Hadoop Distributed Filesystem (HDFS);

Apache Pig este un software pentru analiza seturilor mari de date care are la bază limbajul similar cu SQLfolosit în exprimarea datelor;

Apache S4 este o platform utilizată și concepută la procesarea fluxurilor de date;

Cascading este nivelul de abstractizare pentru Hadoop care permite utilizatorilor să execute și să creeze fluxuri pentru prelucrarea datelor folosind un limbaj JVM;

Scribe este un software de tip server lansat în 2008 și dezvoltat de Facebook este destinat pentru realizarea datelor jurnal în timp real;

Storm este un software dezvoltat de Nathan Marz folosit în aplicațiile de date distribuite.

Cele mai populare și utilizate open source folosite în Data Mining sunt:

Apache Mahout este un software bazat pe Hadoop și are implelmentare în algoritmii de clusterizare, clasificare, etc;

GraphLab este construit fără a se utiliza Mapreduce și calculează înregistrările dependente care sunt stocate în noduri și pot interacționa cu nodurile învecinate;

MOA este un software folosit în Data Mining având implementări în regresie, clusterizare, clasificare fiind conceput de Universitatea Waikato din Noua Zeelandă pentru software-ul Weka;

PEGASUS este un sistem grafic construit de MapReduce permițând găsirea unor modele și anomalii care apar în lumea reală;

R este un limbaj mediu de programare conceput de Ross Ihaka și Robert Gentleman în anul 1993 proiectat pentru amaliza statistic a seturilor de date mari și realizarea calculelor statistice;

Vowpal Wabbit este un proiect realiyat de Yahoo și continuând cu Microsoft Research pentru proiectarea și realizarea unor algoritmi scalabili, rapizi și utili de învățat.

Caracteristici ale Big Data

Un punct de vedere referitor la caracteristicile datelor mari l-a avut Gartner Doug Laney și a spus că acestea au trei dimensiuni: viteza, volum și diversitate.

IDC (International Data Corporation) a definit datele mari ca fiind o generație de arhitecturi și tehnologii pentru a se putea extrage datele din punct de vedere economic permițând și o analiză asupra acestora și spunând că pe lângă cele trei caracteristici ar mai exista două, și anume: complexitate și valoare.

Datele mari au reprezentat un pas important în analiza datelor caracterizate prin: volum, varietate și viteză.

Viteza datelor reprezintă măsurile de creare și agregare a acestor și sunt necesare pentru toate procesele, procese care sunt limitate de timp, iar datele mari trebuie să fie folosite ca un flux de date cu scopul maximizării acestora;

Volumul datelor se măsoară în cantitatea de date disponibile de o organizație, date care au dimensiunea mai mare de terabytes sau petabytes;

Diversitatea (sau varietatea) este o măsură pentru reprezentarea datelor, iar din punct de vedere analitic este cea mai mare piedică privind utilizarea în mod eficient a volumelor mari de date. Datele mari (Big Data) provin dintr-o diversitate de surse și în general sunt de trei feluri: nestructurate (sunt dificile de analizat), semi structurate (nu sunt conforme cu domeniile fixe și conțin elemente de date separate) și structurate (sunt introduce în depozitul de date și ușor de sortat);

Complexitatea datelor evaluează gradul de interdependență și interconectare în structurile datelor mari astfel încât, o mică schimbare poate da modificări foarte mari sau o mică schimbare poate afecta comportamentul acestora.

Valoarea datelor reprezintă necesitatea datelor în luarea deciziilor.

Knowledge Discovery din Big Data

Knowledge Discovery (KDD) este conceput pentru obținerea informațiilor din seturi mari de date.

KDD conține nouă pași importanți, cum ar fi:

Definirea procesului din punctual de vedere al clientului și realizarea domeniului informațiilor;

Realizarea subseturilor de date pentru descoperirea cunoștințelor;

Manipularea datelor lipsă și colectarea informațiilor pentru modelarea și calculul informațiilor în timp;

Găsirea proprietăților utile în realizarea funcțiilor ;

Metodele de Data Mining;

Algoritmi folosiți în exploatarea datelor și metode pentru căutarea modelelor de date;

Modele de cercetare;

Revenirea la orice iterație din 1-7 pentru vizualizarea moelelelor;

Folosirea și combinarea informațiilor pentru realizarea rapoasrtelor.

Conform Hadoop, KDD cuprinde trei principii, și anume:

KDD include metode de analiză, de programare distribuită, de procesare a limbajului natural, etc.

Analiza statistică definește modelele de predicție și de înțelegere a datelor

Data Mining corelează cu descoperirea modelelor utilizate în seturile de date

Zona de analiză a datelor este în curs de dezvoltare;

Arhitectura KDD trebuie să cuprindă și să mențină date, astfel încât, pregătirea și analiza lor trebuie să fie făcute pentru depanarea erorilor și a valorilor lipsă;

Rezultatele sunt accesibile și ușor de manevrat și din acest motiv trebuiesc utilizate următoarele abordări pentru depășirea acestei probleme, și anume:

Utilizarea standardelor populare;

Arhitecturi de tipul Web Based;

Rezultatele disponibile trebuie să fie publice.

1.5) Concluzii

Big Data se referă la volumul mare de date mai mari de 1018, astfel încât, volumul acestora depășește capacitatea sistemelor actuale de stocare.

Datele, cunoștințele, informațiile sunt create și colectate într-un ritm care se apropie de zettabytes / an în timp scurt.

Volumul datelor reprezintă un aspect al datelor care au atribute ca: valoare, varietate, complexitate și viteză, iar depozitara și transportul acestora sunt probleme legate de tehnologie și care vor fi rezolvate în viitorul apropiat.

Din cele discutate mai sus, pot spune că Big Data reprezintă cunoștințele și cantitatea de informații care pot fi extrase și totodată, evoluția tehnologiei a demonstrat că, în câțiva ani vor fi la aproximativ 50 gigabytes / zi (spre exemplu Facebook și Twitter), iar triplarea cestora se va realiza în fiecare an.

Deci, pot spune că, în câțiva ani ne vom confrunta cu un volum de date foarte mare și provocarea va fi pe măsură.

BIBLIOGRAFIE

(24) 1.1 – [9] A. Bifet, G. Holmes, R. Kirkby, and B. Pfahringer. MOA: Massive Online Analysis http://moa.cms.waikato.ac.nz/. Journal of Machine Learning Research (JMLR), 2010.

(7) 1.2 – [3] B.Gerhardt, K. Griffin and R. Klemann, "Unlocking Value in the Fragmented World of Big Data Analytics", Cisco Internet Business Solutions Group, June 2012,

http://www.cisco.com/web/about/ac79/docs/sp/Information-Infomediaries.pdf

(1) 1.3 – [4] C. Eaton, D. Deroos, T. Deutsch, G. Lapis and P.C. Zikopoulos, Understanding Big Data: Analytics for Enterprise Class Hadoop and Streaming Data, Mc Graw-Hill Companies, 978-0-07-179053-6, 2012

(10) 1.4 – [30] C. R. Palmer, P. B. Gibbons, and C. Faloutsos. ANF: a fast and scalable tool for data mining in massive graphs. In Proceedings of the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, July 23-26, 2002, Edmonton, Alberta, Canada, pages 81–90, 2002.

(31, 33) 1.5 – [6] E. Begoli and J. Horey, "Design Principles for Effective Knowledge Discovery from Big Data", Software Architecture (WICSA) and European Conference on Software Architecture (ECSA) Joint Working IEEE/IFIP Conference on, Helsinki, August 2012

(12) 1.6 – [22] E. Letouzé. Big Data for Development: Opportunities & Challenges. May 2011.

(3, 28) 1.7 – [8] Intel IT Center, "Planning Guide: Getting Started with Hadoop", Steps IT Managers Can Take to Move Forward with Big Data Analytics, June 2012

http://www.intel.com/content/dam/www/public/us/en/documents/guides/getting-started-with-hadoop-planning-guide.pdf

(8) 1.8 – [26] J. Manyika, M. Chui, B. Brown, J. Bughin, R. Dobbs, C. Roxburgh, and A. H. Byers. Big data: The next frontier for innovation, competition, and productivity. May 2011.

(6) 1.9 – [9] J. Manyika, M. Chui, B. Brown, J. Bughin, R. Dobbs, C. Roxburgh and A.H. Byers, "Big data: The next frontier for innovation, competition, and productivity", McKinsey Global Institute, 2011

http://www.mckinsey.com/~/media/McKinsey/dotcom/Insights%20and%20pubs/MGI/Research/Technology%20and%20Innovation/Big%20Data/MGI_big_data_full_report.ashx

(18) 1.10 – [29] L. Neumeyer, B. Robbins, A. Nair, and A. Kesari. S4: Distributed Stream Computing Platform. In ICDM Workshops, pages 170–177, 2010.

(9) 1.11 – [13] P. Boldi, M. Rosa, and S. Vigna. HyperANF: approximating the neighbourhood function of very large graphs on a budget. In Proceedings of the 20th International Conference on World Wide Web, WWW 2011, Hyderabad, India, March 28 – April 1, 2011, pages 625–634, 2011.

(26) 1.12 – [32] R Core Team. R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria, 2012. ISBN 3-900051-07-0.

(2) 1.13 – [13] R.D. Schneider, Hadoop for Dummies Special Edition, John Wiley&Sons Canada, 978-1-118-25051-8, 2012

(29) 1.14 – [16] S. Madden, "From Databases to Big Data", IEEE Internet Computing, June 2012, v.16, pp.4-6

(4, 30) 1.15 – [17] S. Singh and N. Singh, "Big Data Analytics", 2012 International Conference on Communication, Information & Computing Technology Mumbai India, IEEE, October 2011

(32) 1.16 – [18] U. Fayyad, G. Piatetsky-Shapiro and P. Smyth, "From Data Mining to Knowledge Discovery in Databases", American Association for Artificial Intelligence, AI Magazine, Fall 1996, pp. 37- 54

(25) 1.17 – [19] U. Kang, D. H. Chau, and C. Faloutsos. PEGASUS: Mining Billion-Scale Graphs in the Cloud. 2012.

(15) 1.18 – [19] V. Borkar, M.J. Carey and C. Li, "Inside “Big Data Management”: Ogres, Onions, or Parfaits?", EDBT/ICDT 2012 Joint Conference Berlin Germany, 2012

(23) 1.19 – [25] Y. Low, J. Gonzalez, A. Kyrola, D. Bickson, C. Guestrin, and J. M. Hellerstein. Graphlab: A new parallel framework for machine learning. In Conference on Uncertainty in Artificial Intelligence (UAI), Catalina Island, California, July 2010.

(13) 1.20 – [2] Apache Cassandra, http://cassandra. apache.org.

(14) 1.21 – [3] Apache Hadoop, http://hadoop.apache.org.

(16) 1.22 – [4] Apache HBase, http://hbase.apache.org.

(22) 1.23 – [5] Apache Mahout, http://mahout.apache.org.

(17) 1.24 – [6] Apache Pig, http://www.pig.apache.org/.

(19) 1.25 – [15] Cascading, http://www.cascading.org/.

(20) 1.26 – [16] Facebook Scribe, https://github.com/ facebook/scribe.

(27) 1.27 – [21] J. Langford. Vowpal Wabbit, http://hunch.net/˜vw/,2011.

(21) 1.28 – [34] Storm, http://storm-project.net.

(5) 1.29 – [22] http://hpccsystems.com/ , last access 11.03.2013

(11) 1.30 – [37] United Nations Global Pulse, http://www.unglobalpulse.org.

http://www.intel.com/content/dam/www/public/us/en/documents/guides/

getting-started-with-hadoop-planning-guide.pdf

Similar Posts