Creșterea și digitalizarea capacității globale de stocare a [618497]

Creșterea și digitalizarea capacității globale de stocare a
informațiilor[1]Big data
De la Wikipedia, enciclopedia liberă
Termenul Big Data (big data,
metadate) se referă la extragerea,
manipularea și analiza unor seturi de date
care sunt prea mari pentru a fi tratate în
mod obișnuit.[2] Din această cauză se
utilizează software special și, în multe
cazuri, și calculatoare și echipamente
hardware special dedicate. În general la
aceste date analiza se face statistic. Pe
baza analizei datelor respective se fac de
obicei predicții ale unor grupuri de
persoane sau alte entități, pe baza
comportamentului acestora în diverse
situații și folosind tehnici analitice
avansate. Se pot identifica astfel tendințe,
necesități și evoluții comportamentale ale
acestor entități. Oamenii de știință
folosesc aceste date pentru cercetări în
meteorologie, genomică, (Nature 2008)
conectomică, simulări fizice complexe,
biologie, protecția mediului, etc.[3]
Odată cu creșterea volumului de date pe Internet, în media socială, cloud c omputing, dispozitive mobile și date
guve rnamentale, Big Data devine în același timp o amenințare și o oportunitate pentru cercetători în ceea ce
privește gestionarea și utilizarea acestor date, menținând în același timp drepturile persoanelor implicate.
Definiții
Tehnologii
Dimensiunile Big Data
Caracteristici
Virtualizarea datelor
Note
BibliografieCuprins
Definiții

Big Data includ, de obicei, seturi de date cu dimensiuni care depășesc capacitatea software și hardware
obișnuite, folosind date nestructurate, semi-structurate și structurate, cu accentul pe datele nestructurate.[4]
Dimensiunile Big Data au crescut în timp din 2012, de la câteva zeci de terabyte până la multe exabyte de
date.[5] Eficientizarea lucrului cu Big Data implică învățarea mașinilor pentru a detecta modele,[6] dar adesea
aceste date sunt un pr odus secunda r al altor activități digitale.
O definiție din 2018 afirmă că „Big Data sunt datele care necesită instrumentele de calcul paralel pentru a
gestiona datele”, aceasta reprezentând o turnură în informatică, prin utilizarea teoriilor de programare paralelă
și lipsa unor garanții presupus e de modelele anterioare.” Big Data utilizează statistici induc tive și concepte de
identificare a sistemelor neliniare pentru a deduce legi (regresii, relații neliniare și efecte cauzale) din seturi
mari de date cu densitate scăzută de informații pentru a obține relații și dependențe sau pentru a efectua
predicții ale rezultatelor și comportamentelor.[7]
La nivelul Uniunii Europene nu există o definiție obligatorie dar, în conformitate cu Avizul 3/2013 al Grupului
european de lucru privind pr otecția datelor,
„Big Data este un termen care se referă la creșterea enormă a accesului și a utilizării automate
a informațiilor: se referă la cantitățile uriașe de date digitale controlate de companii, autorități și
alte organizații mari, care sunt supuse unor analize ample bazate pe utilizarea de algoritmi. Big
Data pot fi folosite pentru a identifica tendințele și corelațiile generale, dar pot fi utilizate și
pentru a afecta direct persoanele.”[8]
Problema cu această definiție e că nu ia în considerare reutilizarea datelor cu caracter personal.
Regulamentul nr. 2016/ 679 de finește datele personale (articolul 4, pa ragraful 1) drept
„orice informație referitoare la o persoană fizică identificată sau identificabilă (persoana
vizată); o persoană fizică identificabilă este cea care poate fi identificată, în mod direct sau
indirect, în special prin referire la un identificator cum ar fi un nume, un număr de identificare,
date de localizare, un identificator online sau unul sau mai mulți factori specifici identității
fizice, fiziologice, genetice, mentale, econom ice, culturale sau sociale a acelei persoane fizice.”
Definiția se aplică, la nivelul UE, și persoanelor neidentificate dar care pot fi identificate prin corelarea datelor
anonime cu alte informații suplimentare. Datele cu caracter personal, o dată anonimizate (sau pseudo-
anonimizate), pot fi prelucrate fără a fi nevoie de o autorizație, ținându-se totuși cont de riscul re-identificării
persoanei vizate.
Un raport al Institutului Global McKinsey din 2011 caracterizează principalele compone nte și ecosistemul
datelor mari după cum urmează:[9]
Tehnici de analiză a datelor, cum ar fi testarea A / B, învățarea automată și prelucrarea
limbajului natural
Tehnologii de date mari, cum ar fi business intelligence, cloud computing și baze de date
Vizualizare, cum ar fi diagrame, grafice și alte afișări ale datelor
Datele mari multidimensionale pot fi, de asemenea, reprezentate ca cuburi de date OLAP sau, matematic, ca
tensori. Sistemele de baze de date Array și-au propus să ofere suport de stocare și interogare la nivel înalt
pentru acest tip de date. Tehnologiile suplimentare aplicate big data includ calcule eficiente bazate pe
tensori,[10] cum ar fi învățarea sub-spațială multiliniară,[11] baze de date cu procesare masivă paralelă (MPP),
aplicații bazate pe căutare, extragerea datelor,[12] sisteme de fișiere distribuite , cache distribuită (de exemplu,Tehnologii

buffer de rafală și Memcached), baze de date distribuite, infrastructură bazată pe cloud și HPC (aplicații,
resurse de stocare și calcul)[13] și Internet. Deși au fost dezvoltate multe abordări și tehnologii, rămâne încă
dificil pentru a efectua învățarea automată cu big data.[14]
Unele baze de date relaționale MPP au capacitatea de a stoca și gestiona petabytes de date. Implicit este
capacitatea de a încărca, monitoriza, face copii de rezervă și optimiza utilizarea tabelelor mari de date din
RDBMS.[15]
Practicanții proceselor de analiză a datelor mari sunt, în general, ostili față de stocarea partajată mai lentă,[16]
preferând stocarea direct atașată (DAS) în diferitele sale forme, de la unitatea SSD (SSD) la discul SATA de
mare capacitate îngropat în nodur ile de procesare paralele. Percepția arhitecturilor de stocare partajată – rețea de
stocare (SAN) și stocare conectată la rețea (NAS) – este că acestea sunt relativ lente, complexe și costisitoare.
Aceste calități nu sunt în concordanță cu sistemele de analiză de date mari care se dezvoltă în funcție de
performanța sistemului, de infrastructura de marfă și de costuri reduse.
Datele sunt partajate și stocate pe servere, prin interacțiunea dintre entitatea implicată și sistemul de stocare. În
acest context, Big Data se poate clasifica în sisteme active (interacțiune sincronă, datele entității sunt trimise
direct către sistemul de stocare), și sisteme pasive (interacțiune asincronă, datele sunt colectate printr-un
intermediar și apoi introduse în sistem.
De asemenea, datele pot fi transmise direct în mod conștient, sau ne-conștient (dacă persoana ale cărei date
sunt transmise nu e ste notificată la timp și clar). Datele sunt apoi prelucrate pentru a genera statistici.
În funcție de ținta analizelor statisticilor respective, dimensiunile datelor pot fi a) individuale (este analizat o
singur entitate); sociale (se analizează grupuri discrete de entități din cadrul unei popul ații; și hibride (când o
entitate este analizată prin prisma apartenenței sale la un gr up de ja definit).
Produc ția actuală imensă de date generate de utilizatori este estimată că va crește cu 2000% 1 2 3 la nivel
mondial până în 2020, ș i sunt adesea nestructurate. În general, Big Data se caracterizează prin:
Volum (cantitatea de date);
Varietate (produse de diferite surse în diferite formate);
Viteză (viteza de analiza online a datelor);
Veracitate (datele sunt incerte și trebuie verificate);
Valoare (evaluată prin analiză).
Volumul de date produse și stocate evoluează în prezent expone nțial, peste 90% din ele fiind ge nerate în ultimii
patru ani.[8] Volumele mari necesită viteză mare de analiză, cu impact puternic asupra veracității. Datele
incorecte au pot ențialul de a genera probleme atunci când sunt folosite în procesul de decizie.
Una din problemele important cu Big Data este dacă este nevoie de datele complete pentru a trage anumite
concluzii cu privire la proprietățile lor, sau este suficient un e șantion. B ig Data conține chiar în num e un termen
legat de dimensiune, care este o caracteristică importantă a Big Data. Dar eșantionarea (statistică) permite
selectarea unor punc te corecte de colectare de date dintr-un set mai larg pentru a estima caracteristicile întregii
popul ații. Big Data pot fi eșantionate pe diferite categorii de date în procesul de selecție a probelor cu ajutorul
unor algoritmii de eșantionare pentru Big Data.Dimensiunile Big Data
Caracteristici

"Datele păstrate și prelucrate în cantități imense, datorită unor medii de stocare mai ieftine, unor metode de
procesare mai rapide și unor algoritmi mai performanți" definiția din – Big Data: A revolution that will
transform how we live – de Viktor Mayer-Schönbe rger (https://en.wikipedia.org/wiki/Viktor_Mayer-Sch%C
3%B6nbe rger) și Kenneth Cukier.
Big Data a devenit o problemă în afaceri, sau cel puțin o problemă pe care oamenii de afaceri încep să o
conștientizeze. Presa începe să aloce din ce în ce mai mult spațiu acestui subiect. Pornind cu Wall Street
Journal "Companiile sunt inunda te cu date" (“Companies are being inunda ted with data") la Financial Times
"Din ce în ce în afaceri sunt aplicate analize din mass-media, cum ar fi Facebook și Twitter" ("Increasingly
businesses are applying analytics to social media such as Facebook and Twitter"), Forbes "Big Date a ajuns la
Seton H ealth Care Family" ("Big Data has arrived at Seton H ealth Care Family").
Volumul
Da, volumul de date este în creștere. Experții prezic că volumul de date din lume, va crește la
25 de Zettabytes în 2020. Același fenomen afectează fiecare companie – datele sunt în
creștere la aceeași rată exponențială. Dar nu este numai volumul de date care este în
creștere, numărul de surse de date este de asemenea în creștere.[17]
Viteza
Datele se creează la viteze din ce în ce mai mari. Companiile își mută aplicațiile de la
aplicații de tip "batch" la aplicații în timp real. Și cerințele de afaceri au crescut la fel – de la
răspunsuri săptămâna viitoare sau măine la un răspuns într-un minut sau la secundă. Și
lumea este, de asemenea, din ce în ce mai instrumentată și interconectată. Volumul de date
de streaming de pe aceste instrumente este exponențial mai mare decât a fost chiar cu 2 ani
în urmă.[18]
Varietatea
Varietatea datelor prezintă o provocare la fel de dificilă. Creșterea surselor de date a
alimentat și creșterea tipurilor de date. De fapt, 80% din datele generate în lume sunt date
nestructurate. Cu toate acestea, metodele tradiționale de analiză se aplică numai la informații
structurate.
Veridicitatea
Cum se poate acționa pe baza acestor informații, dacă nu sunt de încredere. Stabilirea
încrederii în datele pe care le folosește orice companie reprezintă o provocare uriașă odată
cu creșterea surselor și tipurilor de date. Un alt motiv pentru care Big Data este un subiect
fierbinte astăzi este noua tehnologie care permite unei organizații să beneficieze de
resursele interne de date. Ceea ce este nou, este tehnologia pentru a procesa și analiza
aceste date la volumul și viteza dorită. Scopul tehnologiei Big Data este să analizeze toate
datele disponibile, eficient din punct de vedere costuri. Orice date, așa cum sunt. Se pot
analiza date structurate, video, audio, date spațiale sau orice tip de date.[19] Datele pot veni
de la sistemele noastre tradiționale – sisteme de facturare, sisteme ERP, sisteme CRM. De
asemenea, vin de la mașini – de la etichetele RFID, senzori, comutatoare de rețea. Și datele
vin de la oameni – site-ul web, social media, etc. Acest lucru face foarte dificilă analiza
datelor sociale – extragerea ideilor de conținut în mare parte sub formă de text într-un timp
foarte scurt.
Alte caracteristici importante ale Big Data sunt:[20]
Exhaustiv
Dacă întregul sistem (i.e., =toate) este capturat sau înregistrat sau nu.
Cu granulație fină și lexical unic
Respectiv, proporția de date specifice din fiecare element pe element colectat și dacă
elementul și caracteristicile acestuia sunt indexate sau identificate în mod corespunzător.

Relațional
Dacă datele colectate conțin câmpuri comune care ar permite o conexiune sau meta-analiză
a diferitelor seturi de date.
Extensional
Dacă câmpurile noi din fiecare element al datelor colectate pot fi adăugate sau modificate cu
ușurință.
Scalabilitate
Dacă dimensiunea datelor se poate extinde rapid.
Valoare
Utilitatea care poate fi extrasă din date.
Variabilitate
Se referă la date a căror valoare sau alte caracteristici se schimbă în raport cu contextul în
care sunt generate.
Virtualizarea datelor este o modalitate de colectare a datelor din mai multe surse într-o singură "vizualizare".
Aduna rea este virtuală: spre deosebire de alte metode, cele mai multe date rămân acolo unde a fost inițial și
sunt preluate din surse brute la cerere.[21]
1. ^ Hilbert, Martin; López, Priscila (2011). „The World's Technological Capacity to Store,
Communicate, and Compute Information” (http://www.martinhilbert.net/WorldInfoCapacity.html).
Science. 332 (6025): 60–65. Bibcode:2011Sci…332…60H (http://adsabs.harvard.edu/abs/2011
Sci…332…60H). doi:10.1126/science.1200970 (https://doi.org/10.1126%2Fscience.1200970).
PMID 21310967 (https://www.ncbi.nlm.nih.gov/pubmed/21310967). Accesat în 13 aprilie 2016.
2. ^ „Big Data” (https://www.setthings.com/ro/big-data/). SetThings.com. 1 iunie 2019. Accesat în
28 mai 2020.
3. ^ Reichman, O. J.; Jones, Matthew B.; Schildhauer, Mark P. (2011). „Challenges and
Opportunities of Open Data in Ecology”. Science. 331 (703). doi:10.1126/science.1197962 (http
s://doi.org/10.1126%2Fscience.1197962).
4. ^ Dedić, Nedim; Stanier, Clare (2017). ”Towards Differentiating Business Intelligence, Big Data,
Data Analytics and Knowledge Discovery”, în Innovations in Enterprise Information Systems
Management and Engineering. Springer International Publishing. pp. 114–22.
5. ^ „Information Overload” (https://www.sciencehistory.org/distillations/magazine/information-over
load). Science History Institute (în engleză). Sarah Everts. 18 iulie 2016. Accesat în 28 mai
2020.
6. ^ Mayer-Schönberger,, Viktor; Cukier, Kenneth (2014). Big Data: A Revolution That Will
Transform How We Live, Work, and Think. Boston: Eamon Dolan/Mariner Books.
7. ^ Sfetcu, Nicolae (2019). „Etica Big Data în cercetare” (https://www.researchgate.net/publicatio
n/334274095_Etica_Big_Data_in_cercetare). ResearchGate.
doi:10.13140/RG.2.2.27629.33761 (https://doi.org/10.13140%2FRG.2.2.27629.33761).
8. ^ a b „The Ethics of Big Data: Balancing Economic Benefits and Ethical Questions of Big Data
in the EU Policy Context” (https://www.eesc.europa.eu/en/our-work/publications-other-work/pub
lications/ethics-big-data) (în engleză). European Economic and Social Committee. 22 februarie
2017. Accesat în 28 mai 2020.Virtualizarea datelor
Note

9. ^ Manyika, James; Chui, Michael; Bughin, Jaques; Brown, Brad; Dobbs, Richard; Roxburgh,
Charles; Byers, Angela Hung (mai 2011). „Big Data: The next frontier for innovation,
competition, and productivity” (http://www.mckinsey.com/Insights/MGI/Research/Technology_an
d_Innovation/Big_data_The_next_frontier_for_innovation). McKinsey Global Institute. Accesat
în 16 ianuarie 2016.
10. ^ „Future Directions in Tensor-Based Computation and Modeling” (http://www.cs.cornell.edu/cv/
tenwork/finalreport.pdf) (PDF). mai 2009.
11. ^ Lu, Haiping; Plataniotis, K.N.; Venetsanopoulos, A.N. (2011). „A Survey of Multilinear
Subspace Learning for Tensor Data” (http://www.dsp.utoronto.ca/~haiping/Publication/SurveyM
SL_PR2011.pdf) (PDF). Pattern Recognition. 44 (7): 1540–1551.
doi:10.1016/j.patcog.2011.01.004 (https://doi.org/10.1016%2Fj.patcog.2011.01.004).
12. ^ Pllana, Sabri; Janciak, Ivan; Brezany, Peter; Wöhrer, Alexander (2016). „A Survey of the State
of the Art in Data Mining and Integration Query Languages”. 2011 14th International
Conference on Network-Based Information Systems. 2011 International Conference on
Network-Based Information Systems (NBIS 2011). IEEE Computer Society. pp. 341–348.
arXiv:1603.01113 (https://arxiv.org/abs/1603.01113)
. Bibcode:2016arXiv160301113P (http://a
dsabs.harvard.edu/abs/2016arXiv160301113P). doi:10.1109/NBiS.2011.58 (https://doi.org/10.1
109%2FNBiS.2011.58). ISBN 978-1-4577-0789-6.
13. ^ Wang, Yandong; Goldstone, Robin; Yu, Weikuan; Wang, Teng (octombrie 2014).
„Characterization and Optimization of Memory-Resident MapReduce on HPC Systems”. 2014
IEEE 28th International Parallel and Distributed Processing Symposium. IEEE. pp. 799–808.
doi:10.1109/IPDPS.2014.87 (https://doi.org/10.1109%2FIPDPS.2014.87). ISBN 978-1-4799-
3800-1.
14. ^ L'Heureux, A.; Grolinger, K.; Elyamany, H. F.; Capretz, M. A. M. (2017). „Machine Learning
With Big Data: Challenges and Approaches”. IEEE Access. 5: 7776–7797.
doi:10.1109/ACCESS.2017.2696365 (https://doi.org/10.1109%2FACCESS.2017.2696365)
.
ISSN 2169-3536 (https://www.worldcat.org/issn/2169-3536).
15. ^ Monash, Curt (30 aprilie 2009). „eBay's two enormous data warehouses” (http://www.dbms2.c
om/2009/04/30/ebays-two-enormous-data-warehouses/).
Monash, Curt (6 octombrie 2010). „eBay followup – Greenplum out, Teradata > 10 petabytes,
Hadoop has some value, and more” (http://www.dbms2.com/2010/10/06/ebay-followup-greenpl
um-out-teradata-10-petabytes-hadoop-has-some-value-and-more/).
16. ^ CNET News (1 aprilie 2011). „Storage area networks need not apply” (http://news.cnet.com/8
301-21546_3-20049693-10253464.html).
17. ^ Sagiroglu, Seref (2013). „Big data: A review”. 2013 International Conference on Collaboration
Technologies and Systems (CTS): 42-47. doi:10.1109/CTS.2013.6567202 (https://doi.org/10.11
09%2FCTS.2013.6567202). ISBN 978-1-4673-6404-1.
18. ^ Kitchin, Rob; McArdle, Gavin (17 februarie 2016). „What makes Big Data, Big Data?
Exploring the ontological characteristics of 26 datasets”. Big Data & Society. 3 (1):
205395171663113. doi:10.1177/2053951716631130 (https://doi.org/10.1177%2F20539517166
31130)
.
19. ^ Big Data's Fourth V (https://web.archive.org/web/20180731105912/https://spotlessdata.com/b
log/big-datas-fourth-v)
20. ^ Kitchin, Rob; McArdle, Gavin (5 ianuarie 2016). „What makes Big Data, Big Data? Exploring
the ontological characteristics of 26 datasets”. Big Data & Society (în engleză). 3 (1):
205395171663113. doi:10.1177/2053951716631130 (https://doi.org/10.1177%2F20539517166
31130)
. ISSN 2053-9517 (https://www.worldcat.org/issn/2053-9517).
21. ^ „Big Data Virtualization” (https://www.datawerks.com/data-virtualization/).
Bibliografie

Sfetcu, Nicolae (2019). Big Data (https://books.google.ro/books?id=UWOkDwAAQBAJ).
MultiMedia Publishing. ISBN 978-0-393-00583-7.
Adus de la https://ro.wikipedia.org/w/index.php?title=Big_data&oldid=13673648
Ultima editare a paginii a fost efectuată la 29 octombrie 2020, ora 12:03.
Acest text este disponibil sub licența Creative Commons cu atribuire și distribuire în condiții identice; pot exista și
clauze suplimentare. Vedeți detalii la Termenii de utilizare.

Similar Posts