Big Date Solutii Pentru Managementul Modern al Organizatilor
Big Date solutii pentru managementul modern al organizatilor
“Big dată este o tehnologie nouă care se focusează atât pe știință cât și pe industrie și motivează schimbarea tehnologiei către arhitectura data centric și modelele operaționale. Există o nevoie vitală de a defini informațiile care stau la baza a ceea ce numim Ecosistemul Big Data. Acest raport de cercetare reprezintă o descriere a domeniului actual în care se află Big Data precum și domeniile în care această nouă tehnologie își găsește aplicabilitatea. Totodată sunt abordate și câteva dintre tehnologiile în plină dezvoltare care sunt utilizate odată cu Big Data. De asemenea sunt discutate câteva aspecte legate de cum poate Big Data să soluționeze anumite provocări actuale, folosindu-se de componentele descrise.”
Keywords:Big Date, Performance Management, InfoSphere BigInsights
1
Introducere
Atunci când ne ocupăm cu Big Date, vorbim de numere care nu fac parte din conversații noastre de zi cu zi. Termeni ca kilobytes, megabytes, și gigabytes ne sunt cunoscuți. Termenul terabyte a fost adăugată în discuțiile noastre în ultimii ani. Dar pentru majoritatea oamenilor termenii petabyte, exabyte, zettabyte și yottabyte au fost auziți doar de la copii. Îți place sau nu, acești termeni sunt necesari atunci când ne ocupăm cu big date.
Pentru a înțelege mai bine ar trebui să te familiarizezi cu următorii termeni:
Wikipedia, http://en.wikipedia.org/wiki/Kibibytes
Pentru a înțelege mai bine numerele mari, cel mai bine ar fi să le vizualizăm în comparație cu ceva ce putem înțelege:
-Capacitatea creierului uman este de aproape 2,5 petabytes (Aceasta este, de asemenea, mărimea estimată a bazelor de date Walmart care se ocupa cu 1 milion de operațiunilor pe zi.).
-Valoarea totală a datelor digitale create în 2008 a fost de 422 de exabytes.
Statisticile ultimilor ani arata o avalanșă imensă în lume, de date existente și 90% dintre acestea au fost create în ultimii doi ani. În fiecare an este creat un volum mare de date și acesta va continua să crească. Legea lui Moore prevede că viteza de procesare a computerului se va dubla la fiecare doi ani. În aceste condiții Big Date a devenit o problemă în afaceri, sau cel puțin o problemă pe care oamenii de afaceri încep să o conștientizeze. Presa începe să aloce din ce în ce mai mult spațiu acestui subiect.
Problema pe care o avem atunci când ne ocupăm cu atât de multe date este faptul că devine aproape imposibil de separat faptele importante de non-faptele importante. Deci, avem nevoie de programe de calculator pentru a ne ajuta să procesam datele. Dar un singur program, care să lucreze cu terabytes, are nevoie de mult timp pentru a procesa datele. Și în momentul în care prelucrarea a fost finalizată, răspunsul nu mai poate fi relevant. De exemplu, știind tiparele de trafic din ultimele trei zile nu mă ajuta pentru a determina cum să traverseze o stradă în această instanță.
Un alt lucru care îngreunează acest proces este faptul că cea mai mare parte a datelor sunt nestructurate. Programe de calculator lucrează bine cu date structurate. Dacă există un câmp de date care are doar valori de cod poștal, atunci este ușor pentru a căuta pe acest domeniu și de a lua toate magazinele într-o anumită zonă geografică. Dar ce se întâmplă dacă sunteți în căutarea pentru unele cuvinte-cheie în conversații înregistrate? Datele sunt acolo, dar accesarea devine semnificativ mai grea. Câteva exemple de Big Datele sunt: rețelele sociale, informații RFID, video și arhive audio, date senzor, supraveghere militară, astronomie, genomica și căutare pe internet indexare.
Datele explodează în volum, veridicitate, varietatea și viteza. Atât date structurate cât și cele nestructurate va continua să crească la rațe astronomice pentru acele companii care sunt capabile să proceseze această sumă de date, există o oportunitate extraordinară pentru organizațiile să ia decizii în timp util și pentru a atinge obiectivele de afaceri.
Există două grupuri de Big Dată. Unele se încadrează în categoria de curgere în timp real, de exemplu, informații provenind de la senzori sau fluxuri video. Uneori, datele în timp real pot avea volume foarte mari, cum ar fi tickerele de cotații pentru sistemele de monitorizare a pacientului într-un spital. Pentru acest tip de date nu se poate utiliza o metodă "magazin și acces". Cunoscând volumul tranzacțiilor pentru un anumit stoc sau semnele vitale ale pacientului de acum două zile nu a vă ajuta să ia o decizie acum. InfoSphere Streams IBM a fost dezvoltat să se ocupe de acest tip de date, care este menționată ca fiind fluxuri informaționale.
Pe de altă parte, putem avea cantități masive de date stocate, cum ar fi e-mailuri, bușteni web care trebuie analizate. Aceste date poate fi compuse din date structurate și nestructurate. Întrebarea devine atunci cum putem procesa această cantitate mare de date într-un timp util. Ne referim la datele de acest tip ca fiind oceanele de informare pentru care InfoSphere BigInsights IBM a fost conceput pentru a aborda.
Când se discută despre Big Dată, se face referire la date adunate (de către senzori specializați sau introduse manual) care se subscriu celor 4 V: volum, viteză, varietate și veridicitate:
Volum = nevoia de a analiza 12 terabytes de tweet-uri pe zi sau de a citi 350 de miliarde de contoare anual.
Viteză = necesitatea de a analiza datele în timp real; uneori o întârziere de 2 minute a analizei poate fi mult prea mare (de exemplu în depistarea din timp a problemelor ca de pildă fraudele). Datele se creează la viteze din ce în ce mai mari.
Varietate = date structurate sau nestructurate ca de exemplu text, date de la senzori, audio, video, loguri, toate fiind analizat împreună. Varietatea datelor prezintă o provocare la fel de dificilă.
Veridicitate = posibilitatea de a avea încredere în date în luarea de decizii. Cum se poate acționa pe baza acestor informații, dacă nu sunt de încredere.
Există 4 etape cu privire la modul de aplicare a 4 V anii în datele mari pentru a adăuga valoare la eforturile de marketing. Aceasta include următoarele:
achiziționare
organizare,
analiza,
decide
http://www.business2community.com/digital-marketing/4-vs-big-data-digital-marketing-0914845
Date Big a crescut cererea de specialiști în managementul informațiilor în care Software AG , Oracle Corporation , IBM , Microsoft , SAP , EMC , HP și Dell au cheltuit mai mult de 15 miliarde de dolari pentru firme de software specializate în gestionarea datelor și analiză. În 2010, această industrie a fost în valoare de peste 100 miliarde de dolari și a fost în creștere, la aproape 10 la sută pe an. Aproximativ de două ori la fel de repede ca și software pentru afaceri în ansamblu.
Există 4,6 miliarde de abonamente de telefonie mobilă la nivel mondial și între 1 miliard și 2 miliarde de oameni care accesează internetul. Între 1990 și 2005, mai mult de 1 miliard de oameni din întreaga lume au intrat în clasa de mijloc, ceea ce înseamnă mai mulți oameni care câștiga bani vor deveni mai mult știință de carte care, la rândul său, duce la creșterea informații. Capacitate efectivă din lume de a face schimb de informații prin intermediul retelei de telecomunicații fost de 281 petabytes în 1986, 471 petabytes în 1993, 2,2 exabytes în anul 2000, 65 de exabyte în 2007. Se estimează că o treime a informațiilor stocate la nivel global este sub formă de text alfanumeric. În timp ce mulți furnizori oferă soluții off-the-shelf pentru Big Data, experții recomanda dezvoltarea in-house de soluții personalizate adaptate pentru a rezolva problema companii la îndemână în cazul în care compania are capacități tehnice suficiente.
Inspirat în parte de MapReduce, Hadoop oferă un cadru software bazat pe Java pentru prelucrarea distribuită a datelor,transformare și analiză. Topul celor trei comercianți-furnizori: Oracle, IBM, și Microsoft- Bazele de date au adoptat Hadoop, unii într-o infrastructură cloud.
Big Data a inceput sa fie adoptat in cadrul diferiletor arii:
Guvern – în cadrul proceselor guvernamentale, folosirea Big Date este benefic și permite eficiență din punct de vedere al costurilor, productivitate și inovare. Analiza datelor necesită adesea mai multe părți ale guvernului (centrale și locale), pentru a lucra în colaborare și de a crea procese noi și inovatoare pentru a oferi rezultatul dorit.
Producție – Big Data prevede o infrastructură de transparență în industria prelucrătoare, care este capacitatea de a se descurca incertitudini, cum ar fi în componente, performanță și disponibilitate. Fabricația Predictivă ca o abordare de zero timpii morți și transparență, necesită o cantitate mare de date și instrumente de previzionare avansate pentru un proces sistematic de date în informații utile. Un cadru conceptual din procesul de fabricație predictivă începe cu achiziția de date în cazul în care diferite tipuri de date senzoriale sunt disponibile pentru a obține: vibrații, presiune, curent. Cantitate mare de date senzoriale în plus față de datele istorice construi datelor mari în producție.
Media – Pentru a perfectiona scopul în care mass-media utilizează Big Data, este mai întâi necesar să se prevadă unele mecanisme contextuale utilizate pentru procesul de mass-media. Industria pare a fi trecerea de la abordarea tradițională de a folosi medii mass-media specifice, cum ar fi ziare, reviste, sau emisiuni de televiziune și, în loc robinet în consumatori cu tehnologii care ating oamenii destinate momente optime în locații optime. Scopul final este, desigur, de a servi, sau transmite un mesaj sau conținut care este (statistic vorbind), în conformitate cu mentalitatea consumatorilor
Tehnologie
eBay.com folosește două depozite de date la 7,5 petabytes și 40PB, precum și o 40PB Hadoop grup de căutare, recomandări de consum, și de merchandising. În interiorul 90PB depozitul de date eBay
Amazon.com se ocupă de milioane de operațiuni de back-end în fiecare zi, precum și a interogărilor de mai mult de o jumătate de milion de vânzători terțe părți. Tehnologia de bază care ține Amazon funcționare pe Linux-based și din 2005 au avut cele mai mari trei baze de date Linux din lume, cu capacități de 7,8 TB, 18,5 TB, și 24,7 TB.
Facebook se ocupă de 50 de miliarde de fotografii de pe bază de utilizator.
etc
Analiza Big Data
Analiza de date se referă la BI&A, tehnologii care sunt la pământ mai ales în data minig și în analiza statistică. Cele mai multe dintre aceste tehnologii se bazează pe tehnologii comerciale mature: baze de date relaționale, depozite de date, ETL, OLAP și BPM. De la sfârșitul anilor 1980, diverși algoritmi au fost dezvoltați de cercetătorii de la inteligența artificială. Cei mai mulți dintre acești algoritmi au fost introduși în comercializare cu ar fi: în rețelele neuronale pentru clasificare, predicție și grupare.
Datorită succesului obținut în mod colectiv în data mining și în comunitatea de analiza statistică, analiza de date continua să fie o zonă activa de cercetare. Creșterea problemelor de confidențialitate în diverse e_commerce, e-guvernare și în aplicații din domeniul sănătății au cauzat privacypreserving, astfel, data mining a devenit o zonă în curs de dezvoltare în cercetare. În plus datele din rețelele de socializare și conținutul web au ajutat cercetarea de analiza Derby. În plus față de cercetarea academică activa pe analiza de date, cercetarea de dezvoltare a industriei a generat, de asemenea, multe emoții, în special în ceea ce privește analiza de date mari pentru conținuturi nestructurate și semi-structurate. Spre deosebire de datele structurate care pot fi manipulate în mod repetat printr-o RDBMS, datele nestructurate și cele semi-structurate au nevoie de extracție, parsare, procesare, indexare, analiza și distribuție MapReduce sau de mediul Hadoop. Map Reduce a fost văzut că o platformă revoluționară, noua pentru o scară largă și acces rapid la date în paralel.
Analitica Big Dată în aplicațiile modern
Analitica Big Dată este procesul de examinare printre volume mari de date de tipuri variate pentru a descoperi șabloanele ascunse, corelațiile necunoscute și alte informații utile. Asemenea informații pot furniza avantaje competitive deasupra organizațiilor rivale și au rezultate benefice în procesul afacerilor, precum marketing mai eficient sau venituri crescânde.
Scopul principal al analiticii big dată este acela de a ajuta companiile să ia decizii mai bune în afaceri de la solicitarea oamenilor de știință care se ocupă cu datele și ai altor utilizatori să analizeze marile volume de tranzacții de date precum și alte surse de date care pot fi lăsate neexploatate de către programele de inteligență business (BI – business intelligence). Analitica Big Dată poate fi făcută cu instrumente software folosite în general ca parte a disciplinelor analitice avansate precum analitici predictive sau data mining. Însă sursele de date nestructurate folosite pentru analitica big dată pot să nu se potrivească cu datele tradiționale warehouse. Mai mult, datele tradiționale warehouse pot să nu fie capabile să manipuleze procesarea cererilor impuse de către big data. Ca și un rezultat, o nouă clasă de tehnologii big dată a apărut și este folosită în mai multe medii de analitică big data. Tehnologiile asociate cu analitica big data includ bazele de date NoSQL, Hadoop și MapReduce. Aceste tehnologii formează nucleul unui framework software open source, care să suporte procesarea seturilor largi de date de-a lungul sistemelor.
Big Data Apache Hadoop
În continuare este prezentată una dintre tehnologiile semnificative din lumea Big Data și anume Apache Hadoop. Apache Hadoop reprezintă un framework care facilitează procesarea unor seturi de date mari și foarte mari, pe mai multe calculatoare, utilizând un model de programare simplu și anume paradigma map/reduce. Modelul este implementat așa încât să scaleze de la o mașină la mii de mașini, fiecare dintre ele furnizând putere de procesare și spațiu de stocare. Framework-ul în sine este conceput în așa fel încât să detecteze erorile la nivel de aplicație, el nu se bazează efectiv pe hardware pentru „high – availability”.
Există o mulțime de companii atât din domeniul IT și nu numai care folosesc Apache Hadoop (Twitter, IBM, HP, Fox, Foursquare, Linkedin, American Airlines, Foursquare, Linkedin, Chevron etc.). Acest framework le ajută la rezolvarea problemelor de diverse tipuri: călătorii online, e – commerce, detectare de fraude, procesare de imagini, sănătate etc.
Arhitectura:
Apache Hadoop este implementat în Java și are două componente principale: HDFS (Hadoop Distributed File System) și MapReduce.
HDFS: Reprezintă un sistem de fișiere care furnizează acces cu throughput ridicat la datele aplicațiilor. De asemenea are în componență o structură de tip master/slave. Un cluster HDFS este compus în general dintr-un singur Namenode, un server master care ajută la gestionarea namespace-ului sistemului de fișiere și reglementează accesul clienților la fișiere. Există un număr de servere Datanode, pentru fiecare mașină a clusterului care gestionează eficient spațiul de stocare al mașinii respective pe care rulează. HDFS are un namespace al sistemului de fișiere care permite stocare datelor utilizator în fișiere. Ca și structură internă, un fișier este compus dintr-unul sau mai multe blocuri (cu dimensiune configurabilă, în general între 16 și 128 Mb), aceste blocuri fiind memorate pe Datanode-uri. Serverul Namenode rulează operații asupra sistemului de fișiere, precum: ștergerea, deschiderea, redenumirea fișierelor și a directoarelor. De asemenea determină și maparea blocurilor de date la serverele Namenod. Serverele Datanod au responsabilitatea de a servi cererile de citire și scriere primite de la clienții sistemului de fișiere. Ele execută operații de creare, ștergere și replicare de blocuri, în urma comenzilor de la Namenode.
Puterea de calcul a calculatorului a crescut de aproximativ 3.000% din 1990. Cantitatea de memorie pe PC-uri a crescut cu circa 200.000%. Iar capacitatea de disc a crescut cu 50.000%. Deci, dacă datele sunt în creștere geometric, cum putem procesa că datele în timp util? Am putea folosi hardware mult mai scump sau am pute, de asemenea, utilizarea hardware-ul calculatoarelor în paralel.
• 1TB (at 80Mb / sec):
–1 disk -3.4 hours
–10 disks -20 min
–100 disks -2 min
–1000 disks -12 sec
Citirea unui terabyte de date pe un singur nod poate dura ore aproape trei ani și jumătate. Dar dacă datele au fost repartizate pe o mie de noduri și datele au fost citit de fiecare nod în paralel, atunci ar putea dura doar 12 secunde.
Crește puterii de procesare prin utilizarea de mai multe calculatoare care să aducă datele la care capacitatea de procesare care este disponibilă se poate realiza cu idea GRID. Este un lucru extraordinar concept, dar scrierea de cereri de a pune în aplicare acest concept poate fi dificilă. Ai nevoie să te gândești la ceea ce se întâmplă dacă unul dintre nodurile se duce în jos și cum se distribuie datele. Prelucrare în paralel, însă, nu este ceva nouă. Unele sisteme de baze de date relaționale au avut această capacitate de ceva timp.
Pentru a procesa cantități mari de date în paralel, trebuie să fie în măsură să se ocupe de eșec hardware parțial, fără a provoca un eșec total de transformare. În cazul în care un procesor eșuează, atunci avem nevoie pentru a schimba volumul de muncă la un alt procesor. În cazul în care o unitate de disc nu reușește, trebuie să fie în măsură automat să reconstruiască datele de pe o altă unitate (RAID) sau să acceseze un al doilea exemplar (oglindă). Pentru a gestiona eșecuri majore, ne-am restaura backup de date. Deci, noi trebuie să transmită recupera datele noastre, prin aplicarea actualizărilor de la fișierele jurnal. Pentru recuperarea în caz de dezastru, am putea reflecta chiar toate datele noastre de la un alt site.
Hadoop nu este un înlocuitor pentru un sistem RDBMS. Așa cum am spus mai înainte, ambele au puncte forte și slabe. Sisteme de RDBMS depind în mare parte pe date structurate cu o schemă cunoscută. DB2 de asemenea are capacitatea de a lucra bine cu date XML. Hadoop funcționează bine cu date nestructurate și poate, de asemenea, lucra cu date structurate. Sistemele RDBM sunt puternice în procesarea tranzacțională întrucât Hadoop este orientată spre lot. Dacă sunteți îngrijorat cu siguranță, atunci ai nevoie pentru a lucra cu un sistem RDBMS. Sistemele RDBM au o compresie a datelor mai sofisticate.
Nu este o chestiune de a înlocui un sistem RDBM cu Hadoop sau invers.
Hadoop este un proiect Apache de nivel superior fiind construit și folosit de către o comunitate globală de contribuabili. Yahoo a fost cel mai mare contribuitor la proiect, și-l folosește pe scară largă în afacerile sale. Hadoop și sistemul de fișiere Hadoop Distributed (HDFS) a fost creat prin Yahoo (Doug Cutting), în scopul de a prelucra datele cu caracter la scara internetului. Am discutat deja că sistemele de mare putere sunt scumpe. Dar nici un PC nu ar avea puterea de procesare necesară. Pentru a depăși , Hadoop a dezvoltat pentru a distribui volumul de muncă într-un număr mare de mașini și de a prelucra datele privind fiecare mașină în paralel.Unul dintre angajații săi, Doug tăiat, revizuit documente-cheie din Google și a concluzionat că tehnologiile descrise ar putea rezolva problemele de scalabilitate ale Nutch, o tehnologie open source de căutare pe Web. Așadar, tăiere a condus la dezvoltarea.
Caracteristicile cheie includ abilitatea de a distribui și gestiona datele într-un număr mare de noduri și discuri. Prin utilizarea modelului de programare MapReduce cu cadrul Hadoop, programatorii pot crea aplicații care automat iau avantajele de procesare paralelă. O cutie singură constând din, să zicem, un singur procesor și un disc, formează un nod în Hadoop. Astfel de cutii pot fi combinate în grupuri, iar noi noduri pot fi adăugate la un cluster fără un administrator sau programate să schimbe formatului datelor (logica de programare).
HDFS nu este un sistem de fișiere POSIX-compatibil. Acesta funcționează pe partea de sus a unui sistem de fișiere existent. Acest lucru înseamnă că, într-un mediu Hadoop, nu va fi două sisteme de fișiere, sistemul de fișiere local și sistemul de fișiere Hadoop. Comenzi normale a sistemului de fișiere de operare nu funcționează cu HDFS. Nu poți face o listă normală de directore și să vezi directoarele din HDFS. Trebuie să utilizați API HDFS pentru a lucra cu date în HDFS.
Datele citite de sistemul de fișiere devine un sistem de operare cache. Acest lucru se datorează faptului că există posibilitatea ca datele să fie citite din nou (citește aleator) sau actualizate și nu vrem să diminueze impactul I / O. HDFS nu are capacitatea de cache de date. Acest lucru se datorează faptului că se așteaptă să facă prelucrare a lotului folosind citirea secvențiala. Nu există nici o capacitate de citire aleatoare, nici capacitatea de a actualiza datele în loc.
Există două categorii de noduri, care vor fi discutate în detaliu mai târziu. Noduri master includ NameNode, JobTracker, și NameNode secundar. A doua categorie sunt nodurile slabe formate din noduri de date și TaskTrackers. După cum sugerează și numele, DataNodes sunt utilizate pentru stocarea de date.
Mai devreme am vorbit despre potențialele eșecuri pe disc. Pentru a preveni pierderea de date, fiecare bloc de date HDFS este desemnat pentru a fi stocat pe un anumit DataNode ,NameNode și, implicit, a replicat două noduri de date suplimentare.
HDFS utilizează permisiunile de fișiere similare cu ceea ce se găsește în Linux, dar securitatea se limitează doar la permisiunile fișierelor simple
NameNode este controlerul pentru un grup HDFS.
Secondary NameNode nu este un standby cald, dar poate fi folosit pentru a restabili un NameNode care nu a reușit.
Fișierele HDFS sunt stocate pe DataNodes. DataNode este responsabil pentru citirea și scrierea datelor de fișiere
JobTracker este controlor de locuri de muncă. Clientul susține locuri de muncă la JobTracker.
TaskTracker rulează pe harta și reduce sarcinile în JVM.
Open source programming
• Jaq este un limbaj de interogare JSON, care, așa cum sugerează și numele, este folosit pentru a face prelucrarea datelor cu caracter de. Dar adevărata frumusețe a limbajului este faptul că folosește transparent paralelismul masiv, folosind Apache Hadoop MapReduce.
• PIG este de fapt o platformă Apache pentru a analiza seturi mari de date. Limbă care este utilizări se numește Pig Latin. Pig Latin este un limbaj de nivel înalt conceput pentru a simplifica Map / Reduce de programare.
• Hive vă permite să accesați magazinul de date în HDFS folosind SQL. Din moment ce folosește semantica SQL, datele care urmează să fie accesate trebuie să fie structurate. Datele sunt read-only etc
MapReduce
MapReduce reprezintă un framework care permite scrierea de aplicații care procesează volume mari de date, în paralel, într-un mod sigur și cu o mare toleranță la erori.
Un job de tip MapReduce împarte setul de date de intrare în părți independente care sunt procesate de task-urile de map în paralel. Framework-ul concatenează și sortează datele de ieșire ale task-urilor de map fiind apoi utilizate ca date de intrare pentru task-ul de reduce. În mod normal, atât datele de intrare cât și cele de ieșire sunt stocate în HDFS. Framework-ul este responsabil de planificarea execuției task-urilor, monitorizarea lor precum și de reinițializarea task-urilor care prezintă erori.
Nodurile care memorează datele (Datanode) precum și cele de calcul sunt aceleași. Altfel spus, HDFS și MapReduce rulează pe același set de noduri. Astfel i se permite framework-ului să planifice execuția task-urilor pe nodurile pe care datele de intrare sunt deja existente, ajutând la optimizarea traficului de date din rețeaua cluster-ului.
MapReduce are un singur proces master și anume JobTracker și câte un proces TaskTracker asociat fiecărui nod al clusterului. JobTracker-ul planifică task-urile pe TaskTrackere și monitorizează task-urile MapReduce care rulează pe diferite TaskTrackere, iar dacă există vreunul care să nu aibă succes, realocă task-ul unui alt TaskTracker. Mai exact JobTracker se asigură că o interogare pe un set de date mare se execută cu succes și de faptul că rezultatul va ajunge la client în siguranță.
Programele MapReduce nu sunt garantate a fi rapide. Principalul beneficiu al acestui model de programare este de a exploata funcționarea shufflului pentru a optimiza platforma. În practică, autorul unui program MapReduce trebuie totuși să țină pasul shuffle în considerare; în special funcția de partiție și cantitatea de date scrise de funcția Map poate avea un impact mare asupra performanței. Module suplimentare, cum ar fi funcția de Combiner poate ajuta pentru a reduce cantitatea de date scrise pe disc, și transmise în rețea.
Când se proiectează un algoritm MapReduce, autorul trebuie să aleagă un compromis bun între calculul și costurile de comunicare. Costul de comunicare domină adesea costul de calcul, și multe implementări MapReduce sunt proiectate pentru a scrie orice comunicare către stocare distribuit de recuperare in urma accidententelor. Acest recuperare este scumpă, și nu se amortizează în cazul în care calculul implică mai multe calculatoare și o rulare.
MapReduce este utilă într-o gamă largă de aplicații, inclusiv căutarea distributivă pe bază de model, sortare distributivă, web link-grafic inversare,statistici jurnal de acces pe web, și traducere automată etc
În primul rând, uita de Hadoop. Să ne uităm la paradigma MapReduce care este mai familiară, un sistem de baze de date relaționale. Să presupunem că aveți un mediu bază de date de procesare în paralelă. Acest lucru este similar cu un grup Hadoop în care aveți mai multe mașini sau noduri de lucru împreună. Mai departe presupunem că aveți un tabel angajat care este împărțit pe mai multe noduri în sistemul dumneavoastră a bazei de date . Aceasta este doar o modalitate oarecum tehnic de a spune că porțiuni din tabelul angajat se găsesc pe mai multe noduri din cluster de baze de date, deși pentru utilizator, tabelul angajat apare ca o singură entitate.
Clientul se conectează la nodul coordonator și trimite o solicitare la un total al numărului de angajați în fiecare clasificare a locuri de muncă. Nodul coordonator, la rândul său trimite această cerere la fiecare subagent de pe fiecare dintre nodurile pe care se află o porțiune din tabelul angajat. Întrucât pentru această cerere nu există dependențe între date, astfel încât fiecare subagent este capabil să prelucreze cererea în partea sa din tabelul în paralel cu toate celelalte subagenți. Fiecare subagent citește porțiunea din tabelul angajat pe care îl deține și extrage clasificarea de joburi pentru fiecare angajat. Apoi, fiecare subagent sortează rezultatele din secvențele lor de clasificarea joburilor. Mai departe fiecare subagent citește prin rezultatele sortate, număra numărul de înregistrări pentru fiecare clasificare de job. În cele din urmă fiecare subagent reușește, pentru fiecare clasificare, să trimită înapoi la nodul coordonator care are valoarea de clasificare și numărul de apariții.
Odată ce nodul coordonator este dotat cu toate rezultatele de la subagenți, este capabil apoi a sorta înregistrările și să vină cu un total de fiecare clasificare. Coordonatorul apoi revine cu rezultatele la client. O funcție Map are o serie de perechi cheie / valoare, procesează fiecare pereche, și generează zero sau mai multe chei de ieșire / perechi de valoari.
După ce o funcție Map își procesează inputurile, funcției MapReduce framework sortează înregistrările de ieșire în ordine cheii. Acest lucru se întâmplă pe fiecare din nodurile în care funcția Map se execută.
Funcția este apelata de fiecare dată pentru fiecare cheie unică în ordinea sortată. Apoi reiterează, prin valorile care sunt asociate cu acele chei și ieșirile( de zero sau mai multe valori) funcția de reducere este capabilă de a lucra pe un set de perechi de chei / valoare independent de orice alt set de perechi cheie / valoare și așa funcțiile reduce pot fi prelucrate în parale, Outputul funcției scris de HDFS.
IBM InfoSphere BigInsights
Multe companii văd o creștere dramatică a vitezei și volumului de informații generate de afacerile lor. Organizațiile se luptă cu modul de a gestiona cantități mari și diverse ale ambelor date tradiționale structurate și tipuri de mari de date, seturi de date semi-structurate sau nestructurate de date neexploatate care definesc o nouă categorie de informații: date mari. Organizații văd un potențial enorm pentru intuiții profunde care conduc procesul decizional rapid, clar și nuanțat, dar au nevoie de instrumente de management și analiză a datelor care sunt eficiente la un nivel complet diferit decât oricând înainte.
IBM InfoSphere BigInsights Enterprise Edition permite organizațiilor să creeze soluții noi, cost – eficientă la o scară mare și să transforme volume mari, complexe de date.
InfoSphere BigInsights ia Hadoop și adaugă funcționalitatea enterprise-class și integrarea necesară pentru a ajuta la satisfacerea cerințelor critice de business. Organizațiile pot rula pe scară largă, job-uri de analiză distribuite pe clustere de servere hardware-cost-eficiente. Această infrastructură folosește cadru MapReduce Hadoop a aborda seturi foarte mari de date prin spargerea datelor pe mai multe noduri și coordonarea de prelucrare a datelor pe un mediu masiv paralelă. Odată ce datele brute au fost depozitate de-a lungul distribuite cu dispersie, interogările și analiza datelor pot fi manipulate în mod eficient, cu interpretare dinamică a formatului de date în timp de citire. InfoSphere BigInsights oferă o soluție testare și integrare, care combină avantajele tehnologiilor de vârf, cu, caracteristici mature.
Enterprise Edition oferă o consolă web-based pentru gestionarea cluster BigInsights, examinarea stării dejoburilo, precum și navigarea prin HDFS. Puteți detalia starea sănătății sistemului dumneavoastră făcând clic pe diferite file și articole.
Iată câteva informații opționale despre consola:
• Consola este instalat pe nodul unde este rulat scriptul de instalare start.sh
• Port de instalare: În mod implicit instalat pe portul 8080. configurabile în BigInsights de instalare
• Ambalate ca un fișier .war ($ BIGINSIGHTS_HOME / consolă / BIConsole.war)
• Distribuit ca aplicație BigInsights web pe un server WebSphere Application Server Community Edition
• accesate prin intermediul URL http: // <ConsoleNode>: 8080 / date / html / index.html
Administratorii începe cu o unealtă de instalare bazată pe GUI care le permite să se ridice și să difuzeze mai repede. Instalarea ghidului permite administratorilor să specifice componentele opționale pentru a instala și a configura platforma. Aceste caracteristici avansate de instalare a minimizat cantitatea de timp necesară pentru a monta, reglară și a elibera administratorii pentru a lucra la alte proiecte importante.
Enterprise Edition oferă posibilitatea de a achiziționa o capacitate nelimitată de stocare. De asemenea, oferă la pachet, licențele de utilizare limitate pentru InfoSphere Streams, InfoSphere Data Explorer și Cognos Business Intelligence.
• Annotation Query Language (AQL) este cababilitatea textului de analiza sofisticat care permit utilizatorilor să specificați cu ușurință reguli pentru a extrage intuiții o acțiune de cantități mari de text
• BigSheets este un instrument bazat pe browser-foaie de calcul ce permite utilizatorilor să exploateze colecții BigInsights și pentru a crea job-uri fără a scrie nici un cod
• BigInsights Scheduler este un planificator îmbunătățită care permite optimizarea și controlul programare post bazat pe metrici aleși de utilizator
• Large-scale este capacitatea de eficientă la scară largă pentru generarea indexurilor.
• Conector JDBC care permite accesul la orice magazin de date compatibil JDBC, ceea ce face datele accesibile la o varietate de aplicații, cum ar fi Cognos BI
• Consola de management bazate pe Web permite vizualizarea clusterului, gestionarea, acces securizat, gestiona și instalarea instanțele de grup
• Securitatea, folosind suport LDAP și Guardium
• Securitatea Import și Export include aplicații web pentru importul de siguranță, de fișiere, baze de date relaționale, pe web și social media pentru un cluster și exportul fișierelor și bazelor de date relaționale din cluster
• Instrumente de dezvoltare oferite ca un Eclipse plug- pentru a ajuta la creșterea productivității în construcții de analiză de text și aplicații MapReduce, precum și Jaql și instrumente de dezvoltare Hive.
• Secure REST oferă acces pe bază de REST pentru cluster Hadoop
• acceleratoare care facilitează procesul de accesare a datelor.
Aplicații BigInsights pot fi invocate de consola de administrare. Nimeni nu vorbește vreodată despre modul în care implementați o aplicație pentru analiștii. Cum poți face mai ușor pentru utilizatorii non-tehnici pentru a invoca joburile Big Dată pe care le creează.
Platforma IBM Big Data are un serviciu de implementare care se aseamănă foarte mult Apple's App Store sau BlackBerry App World. Ai acces la un set de instrumente și servicii care vă permit să publicați cereri la site-ul de implementare. Utilizatorii pot invoca apoi joburi, în care își pot trece orice parametrii necesari, și își pot monitoriza progresul în lucrarea lui.
Ceea ce am permis este ca orice lucru care poate rula în MapReduce poate fi de fapt transformat într-o aplicație fără a mai schimba codul sursă. Ceea ce înseamnă că orice lucru care care este deja scris, precum și orice nouă evoluție, se poate face într-o aplicație.
Puteți converti mai multe tipuri de programe într-o aplicație; de exemplu: JAQL, MapReduce, Java, Hive, PIG, File System, și altele. Aplicația utilizează un flux de lucru Oozie pentru a stabili pașii pentru execuție și permite ca aplicațiile multiple să fie încătușat împreună. Utilizatorul trebuie să aibă o BigInsights Application Administrator sau BigInsights Ușer pentru a putea publica o cerere.
textul analitic suportat în BigInsights vă permite să extrageți informații structurate din texturi nestructurate.Caseta din dreapta arată o colecție de texte "adnotări", care prelucrează documentele pentru a extrage entităților de interes, cum ar fi URL-uri, persoane, numere de telefon, și așa mai departe. Puteți crea propriile adnotări, utilizând un mediu Eclipse pe bază de dezvoltare plug-in.
BigInsights Enterprise Edition oferă BigSheets. Aceasta este o vizualizare și un instrument de analiza bazat pe browser proiectat pentru a ajuta non-programatorii care lucrează cu Big Dată. Caracteristicile acestui instrument sunt: • Specificarea dezvoltării pentru business intelligence și utilizatorii de afaceri non-tehnice pentru a facilita colectarea și analiza datelor • Abilitatea de a lucra cu date structurate și nestructurate, inclusiv date returnate. • Abilitatea de a combina date din diferite surse de date, astfel încât utilizatorii pot spune exact ce oportunități și riscuri sunt "ascunse în datele".
Când lucrați cu volume mari de date cu BigInsights, este adesea benefic de a împărți datele comprimate, permițând astfel să rulați de locuri de muncă pe mai multe cartografi.
BigInsights acceptă următoarele codecuri de compresie. Un codec este un program de calculator capabil pentru codificare sau decodificare unui flux de date digitale
• org.apache.hadoop.io.compress.DefaultCodec
• org.apache.hadoop.io.compress.GzipCodec
• org.apache.hadoop.io.compress.BZip2Codec
• com.ibm.biginsights.compress.CmxCodec
Codec BigInsights LZO-based utilizează .cmx fișier sufixul.
BigInsights recunoaște automat ce codec utiliza pentru a decomprima un fișier uitându-se la sufixul dosarului. Deoarece Hadoop 1.1.1 nu are suport nativ de compresie de text ramificat, în mod implicit o singură sarcină Map procesează întregul fișierul text comprimat. Cu toate acestea, Jaql recunoaște automat comprimarea textul ramificat de tipul de fișier .cmx și creează mai multe sarcini Map pentru procesarea unui singur fișier .cmx.
Puteți utiliza această funcție în programele Java MapReduce utilizând următorul format de intrare, în loc de standard Hadoop: TextInputFormat: com.ibm.biginsights.compress.mapred.Compressed TextInputFormat.
În timpul instalării de BigInsights, trebuie să se ia decizia dacă autentificarea este necesara pentru a accesa Consola Web. O opțiune este să nu fie necesită nici o autentificare. Celelalte trei opțiuni necesită un ca utilizator să fie autentificat înainte de a accesa consola Web. Cele trei metode de autentificare sunt PAM, LDAP și flat file. LDAP vă permite să configurați consola Web pentru a comunica cu un magazin LDAP acreditare. Atât LDAP și LDAPS (LDAP peste HTTPS) sunt acceptate pentru comunicare între consola BigInsights web și serverul LDAP. Dacă utilizați PAM puteti utiliza fie un fișier parolă umbră sau LDAP. Pentru a va autentifica la flat file, există două fișiere care sunt folosite. Un fișier, biginsights_user.properties care conține o listă de useri și parole care sunt utilizate pentru autentificare. Al doilea dosar, biginsights_group.properties conține roluri Web Console și o listă de grupuri care sunt asociate cu fiecare rol. Dacă vrei sa utilizazi LDAP ca metodă de autentificare, în timpul instalării BigInsights aveți nevoie pentru a preciza informațiile de conectare pentru serverul dumneavoastră LDAP. Utilizatorul de administrare BigInsights care intenționați să il creați trebuie să fie deja definite în serverul LDAP, precum și următoarele roluri – BigInsights SystemAdmin, BigInsights DataAdmin, BigInsightsAppAdmin, și BigInsightsUser. Utilizator de administrare trebuie să fie, de asemenea, mapate la aceste patru roluri.
Folosind PAM vă este permis să va autentificati folosind un fișier Linux parolă umbră sau prin comunicarea cu un server LDAP. Dacă folosiți un fișier parolă umbră Linux, atunci utilizatorul de administrare BigInsights care să fie definite în / etc / shadow, împreună cu parola criptată. După ce se instalează BigInsights, trebuie să definiți grupurile din / etc / grupurile pe care le asociate cu rolurile Console Web, BigInsights SystemAdmin, BigInsightsDataAdmin, BigInsightsAppAdmin, și BigInsightsUser. Trebuie să asocieze asemenea, utilizatorul administrare BigInsights cu un grup asociat cu fiecare rol Console Web.
InfoSphere Streams prelucrează date cu caracter continuu pe zbor. Acest tip de date este diferit decât, să zicem, de logare de date. Deși datele de logare pot fi actualizate continuu, sunt, de asemenea stocate pe disc. Nu este, de asemenea, un sentiment de urgență la procesarea acestor date.
Deși InfoSphere Streams poate citi datele de pe disc, acesta este conceput pentru a lucra cu date care curg continuu și, teoretic, nu poate avea un sfârșit. Deci, de așteptare pentru acest tip de date pentru a fi scrise într-un fișier care nu s-ar putea face sens. De exemplu, datele de la o cameră de supraveghere sau a datelor de monitorizare a pacientului curg continuu. În multe cazuri, cu acest tip de date, nu vă puteți permite să aștepte pentru ca datele să fie întărite înainte de a face analiza. În cazul datelor de monitorizare a pacientului, că datele trebuie să fie analizate în clipa care acesta devine generat. Pentru a aștepta ca datele să fie acumulate și apoi scrise pe disc înainte de a începe analiza ar putea fi diferenta dintre viata si moarte.
După ce analiza corespunzătoare a fost finalizată pe datele de streaming, s-ar putea decide că unele rezultate ar trebui să fie păstrate pentru mai mult, analiza mai puțin critică. Este motivul pentru care InfoSphere Izvoare este, de asemenea, posibilitatea de a scrie rezultatelor sale în fișiere HDFS.
Atunci când se deplasează date dintr-un depozit de date, (sau orice RDBMS), o tehnica este de a exporta datele și apoi utilizați comenzi Hadoop pentru a importa datele. O a doua tehnică, care va avea, probabil, o performanță mai bună este de a folosi Scoop. Scoop este un set de conectori open source de înaltă performanță care pot fi personalizati pentru conexiunile externe specifice. Dacă aveți BigInsights instalat și lucrati in Netezza sau un sistem DB2 puteti utiliza modulele Jaql furnizate. De asemenea, cu BigInsights, puteți încărca date în BigSQL de DB2, Netezza, iar inTeradata utilizând Load BigSQL. Flume este un serviciu pe niveluri distribuitive de colectare a datelor, posibila prelucrare a datelor, precum și mișcare a datelor. Agenți de Flume sunt instalati la sursele de date și la locul țintă. Acești agenți apoi, fie externalizazeaza data sau trece datele la un alt agent Flume ca un eveniment. Interceptori pot fi specificati în mod opțional la configurarea sursă a unui agent.Separatorului poate fi folosit pentru a modifica sau șterge evenimentul din fluxul
Concluzii
În cele spuse mai sus am arătat cum Big Dată este folosit pe server dar se spune că Big Dată a fost făcut special pentru cloud, mulți chiar neputându-și imagina stocarea locală a avalanșei de date din ziua de azi fără simbioza cloud – big data. Cloud computing, prin caracteristicile sale principale pare să existe special pentru volumul masiv, dinamica și complexitatea datelor create la nivel mondial în ultimii ani. Astfel, înlocuind modelul hardware limitat, cu ajutorul virtualizării, elasticității și capacităților cloud obținem resurse nelimitate, dimensionate în funcție de necesitate…plus, costuri optime – e imposibil să îți imaginezi Big Dată fără aceste facilități oferite de cloud. În spatele unor analize de date se află întotdeauna resurse masive de procesare și de stocare, acestea făcând posibilă transformarea unor date relativ necorelate în date importante și care pot determina viitorul unei companii. Aceste resurse necesare pentru analiza datelor pot deveni un factor de limitare pe măsură ce volumul datelor și complexitatea lor crește – dar aici cloud-ul vine în ajutor. De ce Big Dată pe Cloud?Imaginați-vă cei 100 petabytes stocați de date ai celor de la Facebook fără cloud!
Analiza Big Data reprezintă oportunitatea companiilor de a vedea structură acolo unde aparent nu există și de analiza informații imposibil de corelat și filtrat până acum. Iar concluziile analizei pot duce la schimbări eficiente în privința modului de livrare al business-ului companiei.
Asistăm deja la o schimbare profundă în modul nostru de trai, la nașterea unei lumi în care mult mai puține lucruri decât azi vor rămâne ascunse altora, în măsura în care ei vor fi interesați să le afle. Înțelesul noțiunilor de discreție, intimitate, confidențialitate, treburi personale, s-ar putea schimba. Vom asista, cu mare probabilitate, la o luptă pentru apărarea intimității, ce va necesita o mentalitate nouă, obiceiuri sociale noi, atitudini noi, legi noi.
Copyright Notice
© Licențiada.org respectă drepturile de proprietate intelectuală și așteaptă ca toți utilizatorii să facă același lucru. Dacă consideri că un conținut de pe site încalcă drepturile tale de autor, te rugăm să trimiți o notificare DMCA.
Acest articol: Big Date Solutii Pentru Managementul Modern al Organizatilor (ID: 137031)
Dacă considerați că acest conținut vă încalcă drepturile de autor, vă rugăm să depuneți o cerere pe pagina noastră Copyright Takedown.
