Univ ersitatea P olitehnic a [617771]
Univ ersitatea P olitehnic a
din Bucur es ti
Facult atea de Aut oma tica
s i Calcula toare, Ca tedra de Calcula t oare
Proiect de diploma
Titlul Lucrarii
Conduc a
tori s tiint ifici
Prof. Dr. Ing Vlad Posea
As. Ing. Octavian RÎNCIOG
Autor Teodor-Petre STEFU
-2017-
Cuprins
Introducere 3
Scopul lucr ă rii 3
Prezentarea capitolelor din lucrare 4
State of the art 5
Poluantii aerului 5
Pulberi in suspensie cu diametru de 2.5 µ m si 10 µ m (PM2.5, PM 10) 5
Monoxid de carbon – CO 6
Dioxid de sulf SO2 7
Ozon – O3 7
Oxizi de azot – NOx 8
Indexul de calitate a aerului (Air Quality Index) 8
Common Air Quality Index 9
Algoritmi de predic ț ie a calita ț ii aerului 11
Studii anterioare asupra predictiei calitatii aerului 11
Sistemul DRG 13
Achizi ț ia datelor 14
Reteaua de monitorizare in Romania 14
Datele poluarii aerului 15
Sursa 15
Procesare 16
Definirea claselor pentru fiecare parametru 17
Datele medicale 20
Descrierea arhitecturii aplica ț iei 20
Rezultatele ob ț inute 21
Concluzii si imbun ă t ă ț iri 21
Bibliografie 21
Anexe 22
1. Introducere
1.1. Scopul lucr ă rii
Poluarea aerului este din ce in ce mai discuta in zilele noastre, ea devenind din ce in ce mai
puternica cu cat industria si tehnlogia se dezvolta. Poluarea are un impact foarte mare asupra vietii
noastre de zi cu zi, dar efectele ei se pot observa si de-a lungul timpului prin distrugerea stratului
superior de ozon. Impreuna si cu reducerea si degradarea spatiilor verzi, se poate observa ca
temperaturile sunt din ce in ce mai mari, an de an, tragand semne de alarma asupra unei posibile
“Incalziri globale”, cu impact devastator in timp. Aceste consecinte nu pot fi ignorate, iar din perioada
anilor 2000 fenomenul de crestere a poluarii la nivel mondial a devenit un subiect de interes pentru
multi cercetatori din domeniul meteorologic, biologic si al calculatoarelor.
Desi efectele poluarii nu sunt neaparat vizibile cu ochiul liber, poluarea are efecte nocive asupra
sanatatii umane. Efortul necesar si resursele nu faciliteaza descoperirea de remedii moderne pentru
cresterea sperantei de viata, drept urmare printre cele mai multe cazuri de deces le creaza cancerul si
efectele secundare ale acestuia precum accidentele vasculare cerebrale. Omenirea investeste foarte
multi bani in aceste proiecte de cercetare pentru noi remedii care sa combata bolile letale, in loc ca
prioritatea investitiilor sa fie in reducerea cauzelor pentru aparitia lor sau in proiecte ce incearca sa
asigure un mediu de trai cat mai evoluat si sanatos.
Intr-adevar, remediile contra anumitor boli au crescut speranta de viata, insa in ultimii ani
acestea nu au mai tinut pasul cu frecventa cazurilor de boli actuale. Pe termen lung preventia anumitor
boli ce necesita tratamente costisitoare sau pe termen lung este mult mai benefica atat financiar cat si
evolutiv, fata de administrarea medicamentelor catre pacienti, dependenta de un anumit tratament, sau
investitia in noi spitale pentru a face fata numarului de bolnavi, in loc de modernizarea celor deja
existente. Problema oricarei natiuni este sa asigure un mediu prielnic vietii umane, cu o populatie
sanatoasa si conditie fizica buna, cu o mentalitate pozitiva pentru a aduce un spor economic mult mai
mare, care se traduce intr-un un pas in plus pentru evolutia noastra.
In Romania, an de an, pe langa alarme trase de Uniunea Europeana auzim zeci de stiri despre
conditiile precare din spitale si despre infectii care inregistreaza victime . Alaturi de problema conditiilor
din spitale se adauga si lipsa de personal, cauzata din majoritatea absolventilor facultatilor de profil care
aleg sa plece in tari mai dezvoltate, unde conditiile sunt mai bune si unde li se ofera fonduri pentru
cercetare. Aceste fenomene adunate creaza o stare de pesimism, de neincredere, nesiguranta a
populatiei, care nu ajuta Romania pe nici un plan intern sau extern.
Plecand de la situatia curenta in Romania, aceasta lucrare are scopul de a arata ca exista o
corelare intre poluantii ce se gasesc in aer si numarul de bolnavi internati in spitalele din tara. Aplicatia
aferenta lucrarii ofera posiblitatea utilizatorilor de a privi cronologic evolutia celor mai frecvente boli din
Romania din perioada 2012-2017, evolutia gradului de poluare din perioada 2010 – 2017, dar si
posibilitatea de predictie a unui interval estimativ de cazuri viitoare ale bolilor prezentate, pe baza
parametrilor poluanti ai aerului si a cazurilor de boli anterioare.
1.2. Prezentarea capitolelor din lucrare
Lucrare este structurata in felul urmator:
● Capitolul 2 prezinta notiunile teoretice necesare acestei lucrari si cele mai bune rezultatele
obtinute in legatura cu subiectul poluarii
● Capitolul 3 descrie modul de achizitie al datelor, problemele intampinate si modul de analiza al
lor.
● Capitolul 4 ofera o vizualizare a arhitecturii aplicatiei, o descriere a interfetelor si posibilitatile
expuse de acestea
● Capitolul 5 prezinta metrici si comparatii intre algoritmii pe care am ales sa ii folosesc
● Capitolul 6 incheie lucrarea prezentand concluziile descoperite in lucrare, precum si o directie de
viitor a aplicatiei
2. State of the art
Pentru a putea intelege cat mai bine problema poluarii in Romania, am pornit de la rezultatele
articolelor anterior publicate de catre profesori si cercetatori din lumea Stiintei Calculatoarelor. Dintre
acestia cei mai multi s-au orientat catre o predic ț ie a calitatii aerului in orasele Hong Kong, Beijing,
Hangzbou, Istanbul, dar si pe suprafata Belgiei. Am ajuns la concluzia ca aceasta problema reprezinta un
interes major in zonele importante din punct de vedere economic, unde populatia este numeroasa si
fluxul de turisti este foarte mare. In general sunt zone predispuse la poluarea excesiva. De exemplu,
Beijing-ul este unul din cele mai poluate orase din lume, de aceea, in ultimii 10 ani, autoritatile au
inceput sa ia masuri serioase pentru a reduce cantitatea de poluanti din aer.
2.1. Poluantii aerului
Aerul este elementul de baza care formeaza straturile inferioare ale atmosferei Pamantului[].
Oameni se afla in contact permanent cu aerul, fiind si elementul cheie pentru viata umana, animala si
cea vegetala. Aerul este un amestec de gaze in diferite proportii, format din:
● 78.084% Azot (N 2 )
● 20.947% Oxigen (O 2 )
● 0.934% Argon (Ar)
● 0.03% Dioxid de carbon (CO 2 )
Pe langa aceste gaze de baze, mai pot aparea urme de: Neon(Ne), Heliu(He), Kripton(Kr), Dioxid
de sulf(SO2), Metan(CH4), Hidrogen(H2), vapori de apa, pulberi in suspensie.
Printre acestia se afla unii dintre poluentii principali ai aerului, care daca depasesc anumite
limite pot influenta intr-un mod negativ sanatatea oamenilor, in caz contrar nu reprezinta un pericol.
Poluentii care prezinta un interes deoseb it sunt :
● Pulberi in suspensie cu diametrul de 10 µ m – PM10
● Pulberi in suspensie cu diametrul de 2.5 µ m – PM2.5
● Monoxid de carbon – CO
● Dioxid de sulf – SO2
● Oxizi de azot – NOx
● Ozon – O3
R elatiile dintre poluenti si boli precum si o discutie a literaturii existente pe aceasta tema vor fi
discutate in sectiunile urmatoare
2.1.1. Pulberi in suspensie cu diametru de 2.5 µ m si 10 µ m (PM2.5,
PM 10)
Pulberile de suspensie sunt cele mai raspandite poluante al aerului si au efecte directe asupra
sanatatii umane.
In functie de diametrul lor se impart in 2 categorii principale.
Prima categorie, PM2.5, se refera la pulberile in suspensie ce au diametrul mai mic ca 2.5 µ m, se
mai numesc si particule fine. Acestea au dezavantajul de a ajunge direct in plamani in urma inhalarii. A
doua categorie, PM10, este reprezentata de restul particulelor cu diametrul pana la 10 µ m. In mediu
ambiental PM2.5 constituie aproximativ 70-80% din PM10.
Pulberile de suspensie pot fi emise direct in aer(PM principal) sau se poate forma in atmosfera
din precursori gazosi, precum dioxidul de sulf, oxizi de nitrogen, amoniac(PM secundar).
Pulberile principale au multe surse de provenient ă printre care se num ă ra: emisia de
combustibil a motoarelor, emisia combustibililor solizi a uzinelor si fabricilor, sau din activitati industriale
precum: santierele de constructii, mine, topirea metalelor.
PM secundar se formeaza in aer in urma reactilor chimice a poluantilor gazosi. Ele apar din
transformarile atmosferice a oxizilor de nitrogen, emi ș i de automobile sau procese industriale, sau
arderea prin combustie a combustibilului pe baza de sulf.
Pulberile de suspensie(PM10 si PM2.5) sunt alcatuite din particule inhalabile, care sunt suficient
de mici, astfel incat pot ajunge in regiunea toracica a aparatului respirator. Efectele nocive sunt
datorate, atat expunerii pe termen lung, cat si a expunerii pe termen scurt, iar acestea includ:
● Morbiditate respiratorie si cardiovasculara, precum agravarea astmului, simptome de
insuficienta respiratorie si o crestere a ratei de spitalizare
● Cresterea ratei mortalitatii din bolile cardiovasculare si respiratorii sau frecventa aparitiei
cancerului pulmonar
Cu toate ca ambele categorii de PM au efecte patologice directe asupra sanatatii, expunerea pe
termen lung la PM2.5 reprezinta un factor de risc mai ridicat fata de PM10, din cauza dimensiunilor mai
reduse.
Expunerea la PM10 este asociata cu o crestere procentuala a mortalitatii zilnice cu 0.2-0.6% per
10µg/m3.
Expunerea pe termen lung la PM2.5 este asociata cu o crestere de 6-13% per 10µg/m3 a riscului
pe termen lung de mortalitate datorata bolilor cardiopulmonare.
Cele mai susceptibile grupuri de persoane sunt reprezentate de [7]:
● persoane cu afectiuni cardiace sau respiratorii preexistente
● persoane in varsta
● copii (expunerea la PM produce deficite reversibile in dezvoltarea pulmonara si
afecteaza performanta respiratorie pe termen lung)
Expunerea la concetratii mult mai mari decat valorile maxime admise pe o perioada scurta de
timp, favorizeaza aparitia inflamatiei acute la nivelul mucoasei oculare, nazale si bronsice. La nivelul
mucoasei conjuctivale, acesti poluanti reprezinta agenti traumatici si pot favoriza conjuctivita acuta sau
blefarite.
2.1.2. Monoxid de carbon – CO
Monoxidul de carbon[7], la temperatura medie, se prezinta ca un gaz incolor, inodor, insipid cu
origini atat naturale cat si industriale.
Sursele naturale ale gazului sunt: arderea padurilor, emisiile vulcanice si descarcarile electrice.
Avantajul in aceste situatii este ca raspandirea lui pe suprafete este rapida si cauzeaza mai putine efecte
nocive.
Omul influenteaza cantitatea de monoxid de carbon din mediu prin activitati precum: arderea
incompleta a combustibililor fosili, producerea otelului si a fontei, rafinarea petrolului si traficul rutier,
aerian si feroviar.
In cantitati mari, de aproximativ 100 mg/m3, monoxidul de carbon are efecte directe asupra
capacitatii de transport a oxigenului in sange, consecintele find severe pentru sistemul respirator si
cardiovascular.
Pe de alta parte,si expunerea la cantitati mici, pe termen lung, poate cauza probleme precum[7]:
● Afectarea sistemului nervos central
● Reduce activitatea inimii, avand consecinte directe asupra sistemului respirator si circulator
● Reduce performanta fizica
● La persoanele cu boli cardiovasculare preexistente poate ingreuna respiratia si poate agrava
cauza dureri in zona toracica
● Probleme minore: iritabilitate, migrene, lipsa de coordonare, greata, confuzie, ameteala
Cele mai susceptibile clase de oameni sunt: copiii, varstnicii, persoanele cu probleme respiratorii
si cardiovasculare, anemici sau fumatorii.
2.1.3. Dioxid de sulf SO2
Dioxidul de sulf este un gaz incolor, inodor, neinflamabil, cu gust amarui si cu miros patrunzator,
ce poate irita sistemul ocular si caile respiratorii. Ca surse de provenienta exista surse naturale si surse
industriale, cauzate de om.[7]
Cele mai frecvente surse naturale sunt eruptiile vulcanice, fitoplanctonul marin sau fermentatia
bacteriilor in zonele mlastinoase.
Activitatile si necesitatile umane joaca un rol important in cantitatea de dioxid de sulf din
atmosfera, prin sisteme de incalzire care nu utilizeaza gaz mentan, centrale termoelectrice sau prin
procese industriale precum: siderurgie, rafinarie, producerea acidului sulfuric (folosit pentru
ingrasaminte si procesarea minereurilor si apelor reziduale), fabricarea celulozei si hartiei.
Expunerea pe termen scurt la o concentratie ridicata de dioxid de sulf poate cauza efecte severe
asupra sistemului respirator, in special la persoanele care sufera de astm, copii, persoane in varsta sau
care sufera de afectiuni cronice ale sistemului respirator.
Expunerea pe termen lung la o concentratie redusa de dioxid de sulf poate cauza infectii la
nivelul sistemului respirator si slabeste sistemul imunitar, agravand efectele nocive ale ozonului.
Pe langa efectele nocive asupra sanatatii umane, el afecteaza si mediul inconjurator, crescand
aciditatea precipitatiilor, avand repercusiuni negative asupra solului, vegetatiei, coroziunii metalelor si
erodarea fibrelor, zidariilor, hartiei, pielii sau componentelor electronice.
2.1.4. Ozon – O3
Ozonul este un gaz reactiv, foarte oxidant, cu miros inecacios. In general el se concentreaza in
partile stratosferei, cu rol protector impotriva radiatilor UV, daunatoare sanatatii.[7]
La nivelul solului ozonul este un poluant secundar, care apare prin actiunea radiatilor UV asupra
gazelor de esapament.
Expunerea la concentratia de ozon de la nivelul solului are efecte daunatoare asupra sistemului
ocular, sistemului respirator, agravand efectele asmului si BPOC-ului ( Bronhopneumopatia cronica
obstructiva ). Acest poluant cu puternic potential oxidant suprasolicita mecanismul de curatare
pulmonar, ceea ce duce la exacerbarea puseelor de bronhoree, avand ca simptome[31]:
● Cresterea expectoratiei
● Dispnee
● Aparitia infectiei bronsice
Efectele sale asupra mediului sunt daunatoare, in special vegetatiei, deoarece poate influenta
atrofierea unor specii de arbori in zonele urbane.
2.1.5. Oxizi de azot – NOx
Oxizi de azot sunt o categorie de gaze reactive, formate din azot si oxigen in cantitati variabile.
Cei mai frecventi oxizi sunt: monoxidul de azot (NO) si dioxidul de azot(NO2).
Monoxidul de azot, este un gaz incolor, inodor, iar dioxidul de azot este un gaz de culoare
brun-roscat cu miros inecacios.
Sursele de provenienta a oxizilor de azot sunt de natura industriala precum: arderea
combustibililor la temperaturi foarte mari, traficul rutier, uzinelor si producerii energiei electrice.
Oxizi de azot sunt gaze toxice, iar gradul de toxicitate al dioxidului de carbon este de 4 ori mai
mare ca cel al monoxidului de carbon. Expunerea la astfel de substante poate cauza dificultati
respiratorii, iritatii ale cailor respiratorii, disfunctii ale plamanilor, iar in cazul unei concetratii foarte
mari, consecintele pot fi fatale.[7]
Expunerea pe termen lung poate distruge tesuturile pulmonare, cauzand emfizem pulmonar.
Cele mai susceptibile persoane la aceasta plaja de efecte negative sunt copiii.
Conform studiului[29], industria si alte activitati umane au condus in timp la acumularea
diferitilor agenti carcinogeni (Ex: dioxid de azot, benzen, hidrocarburi aromatice etc). Desi cantitatea de
poluare este cert mai mare in zonele cu populatie crescuta si foarte bine industrializate, nu se observa o
frecventa de aparitie a cazurilor de cancer cu mult mai mare in aceste zone, fata de cele rurale sau mai
putin afectate de poluanti. Totusi, aerului atmosferic poluat creste riscul de aparitie a cancerului
bronho-pulmonar, al unei persoane, cu 5 – 7%.
Plantele si animalele nu sunt scutite de efecte negative ale oxizilor de azot. Plantele sunt
afectate prin albirea sau moartea tesuturilor vegetal si prin diminuarea ratei de dezvoltare. La animalele
expuse la un mediu cu oxizi de azot, pot aparea boli pulmonare asemanatoare emfizemului pulmonar,
iar daca expunerea se petrece in preajma dioxidului de carbon, sistemul imunitar al animalor este
afectat, provocand boli precum pmeumonia sau gripa.
Oxizii de azot sunt principalii responsabili pentru ploile acide care afecteaza atat suprafata
terestra(deteriorarea tesaturilor, degradarea metalelor, decolorarea vopselurilor) cat si mediul acvatic.
In momentul in care o persoana este expusa la dioxidul de azot, poate aparea edemn pulmonar
toxic. Acest efect a fost confirmat in urma studiilor experimentale pe soareci[31].
2.2. Indexul de calitate a aerului (Air Quality Index)
Indexul de calitate al aerului este un numar folosit de agentiile guvernamentale pentru a descrie
cat mai clar gradul de poluare al aerului, sau modificarile acestuia in urma predictiilor.
Cu cat numarul este mai mare, cu atat populatia are sanse mai mari de a suferi de pe urma poluarii.
Exista mai multe standarde de interpretare ale indexului de calitate a aerului:
I) Air Quality Health Index (folosit in Canada)
II) Air Pollution Index (folosit in Malaezia)
III) Pollutant Standards Index (folosit in Singapore)
III) Common Air Quality Index (folosit in Europa)
In aplicatia dezvoltata, am folosit indexul de calitate a aerului folosit in Europa, pentru a
evidentia cat mai corect fiecare zona din Romania. (si pentru a putea efectua comparatii ulterioare cu
datele tarilor vecine). In sectiunea urmatoare o sa fie prezentat in detaliu indexul calitatii aerului,
precum si metoda lui de calcul.
2.3. Common Air Quality Index
Common Air Quality Index este sistemul de referinta pentru poluarea aerului in Europa. Indexul
poate sa aiba valori intre (0, ∞ ), dar sistemul de gradare relevant este delimitat la valoarea 100. Astfel
sistemul de referinta este impartit in 5 clase conform valorii indexului:
Pentru o comparatie cat mai precisa intre doua orase din Europa se pot folosi 3 indici: [4]
a) Indexul per ora – care exprima calitatea aerului in ziua curenta, bazat pe valorile
masurate din ora in ora.
b) Indexul per zi – care exprima calitatea generala a aerului in ziua anterioara, avand la baza
masuratorile zilnice
c) Indexul anual – care reprezinta conditiile anuale ale aerului intr-un ora ș . El este calculat
prin media poluantilor raportata la limitele anuale.
2.3.1 Indexul per ora si Indexul per zi
Acesti indici au 5 valori posibile: de la 0 (foarte redus), la 5 (foarte ridicat), fiind o masuratoare
relativa a cantita ț ii de aer degradat. Indicii sunt bazati pe 3 poluanti principali (PM10, NO2, O3) si 3
poluanti adi ț ionali (CO, PM2.5, SO2) in cazul in care sunt date disponibile.
Pentru o comparatie cat mai exact ă intre doua regiuni, statiile de masurare sunt clasificate in
doua categori:
– Fond (Background) – reprezentand situatia generala a unei aglomerarii umane
– Traffic (Roadside) – reprezentand situatia anumitor strazi din orase, cu trafic intens
Conform CITEAIR[], grila pentru calcularea indexului in Europa este urmatoarea:
Dupa cum se poate observa, valorile limitelor admise de UE sunt aceleasi pentru cele doua tipuri
de statii, diferenta fiind ca la cele de Fond, se ia in considerare si dioxidul de sulf (SO2). Prin urmare in
cadrul aplicatiei am folosit un singur sistem de referinta, facand o imbinare a datelor intre cele doua
tipuri de statii de monitorizare.
Pentru fiecare clasa (rosu, portocaliu, galben, verde deschis, verde) de poluare, in grila de mai
sus, exista un interval de valori al fiecarui poluant, dupa care putem sa clasificam in functie de factorul
care o provoaca. Poluantul cu valoarea cea mai ridicata, o sa ofere valoarea indexului aerului, ca valoare
generala.
2.3.2 Indexul anual
Este indexul care ofera o imagine generala a calitatii aerului intr-un anumit oras raportata la
normele Europene. Este calculat atat pentru statiile de fond, cat si pentru statiile de trafic. El reprezinta
distanta din momentul curent pana la desavarsirea cerintelor impuse de Uniunea Europeana referitoare
la calitatea aerului.
Daca index-ul are valoarea mai mare de “1”, pentru unul sau mai multi poluanti, atunci limitile
impuse nu sunt respectate, altfel valoarea medie a poluantilor este in limitele impuse.
Acest prag impus de UE sunt gandite avand in vedere consecintele unei expuneri pe termen lung
la aerul poluat, mai exact, efectele pe care le poate avea o calitate alterata a aerului asupra sanatatii
omului, conform recomandarilor si studiilor facute de WHO (Word Health Organization)[].
2.4. Algoritmi de predic ț ie a calita ț ii aerului
2.5. Studii anterioare asupra predictiei calitatii aerului
Pentru a intelege maniera in care datele despre poluarea aerului au fost folosite, am studiat 6
articole[8][9][10][11][12][13], ce au ca tematica predictia poluantilor si calitatii aerului pe folosind
diversi algoritmi de invatare automata.
In articolul [8], Dan Wei a realizat o predictie nivelului de PM2.5 din aer, pentru orasul Beijing,
pe baza datelor oferite de “China Meteorological Data Sharing Service System”, “Beijing Transportation
Research Center” si ambasada Statelor Unite. Problema a fost transformata in una binara, folosind un
set de intrare format din temperatura, viteza vant, umiditate relativa, indexul traficului, calitatea aerului
in ziua precedenta, a prezis daca cantiatea PM25 este “High” (> 115 ug/m3) sau “Low” (< 115 ug/m3).
Pentru etapa de invatare a folosit 322 date observate, iar pentru testare 55, acoperind in total 330 de
zile din 2013 si 47 de zile din 2014. Algoritmii de invatare automata folositi au fost: regresie logistica,
clasificare Naive Bayes, support vector machine, iar metodele de evaluare folosite au fost: Precision,
Recall(R), si F-Measure. Pentru fiecare algoritm, evaluarea cu F-Measure a avut cel mai bun scor: SVM –
100%, clasificare Naive Bayes – 84.6%, regresie logistica: 92.3%.
In articolul [9], s-a realizat o predictie a particulelor ultra fine cu diametru < 100 nm si a
pulberilor in suspesine cu diametru mai mic de 1 um (PM1.0). Ele au fost impartite in 2(“High”, “Low”) si
3 clase(“High”, “Medium”, “Low”), comparandu-se rezultatele obtinute pentru fiecare caz. Ca parametrii
de intrare algoritmii de predictie au avut indicatori de trafic: fluxul traficului, viteza medie a
autoturismelor, viteza instanta de trecere in punctele de observatie si indici meteorologici: temperatura,
umiditate relativa, directia vantului, precipitatii si presiunea barometrica. Spre deosebire de s-au mai
folosit in plus doua metode AUC(Area Under the Curve) si masura F ponderata. In acest articol, gama de
algoritmi de invatare automata este mult mai mare, dar un rezultatele care au prezentat un interes mai
mare sunt ale: SVM, Retele neurale, Random Forests. Rezultatele au fost de mai bune pentru problema
cu 2 clase, fata de cea cu 3 clase, pentru UFP obtinandu-se rezultate de intre 54% si 85%, iar pentru
PM1.0 rezultate intre 82% si 97%.
Articolul [10] prezinta modul in care a prezis apicatia AirPolTool folosind retele neurale,
poluantii din aer pentru orasul Istambul. Aceasta aplicatie afisa in fiecare zi o predictie a gazelor nocive
din aer pentru urmatoarele 3 zile. Setul de date folosit in acest proiect este format din partea
meteorologica furnizata de BBC si partea cu gazele poluante(SO2, PM10, CO) facute publice de catre
“Istambul Metropolitan Municipality”. Setul de date contine valorile celor 2 parti din august 2005 pana
in iulie 2006, iar in cazul unor datelor incomplete, acestea au fost completate cu media aritmetica a
celor mai apropiate date in functie de timp. Ca modalitati de evaluare a performantelor s-au folosit:
eroare absoluta si eroarea relativa. Autorii articolului au descris trei experimente pe care le-au realizat
cu scopul de a optimiza rezultatele predictiei. Primul experiment a abordat predictia fiecarui poluant in
parte folosind cate o retea neurala, fata de predictia tuturor poluantilor prin intermediul aceleasi retele
neurale. Al doilea experiment a avut ca scop determinarea setului de date optim (intre 3 si 15 zile
anterioare) pentru care predictia poluantilor este maxima, iar ultimul experiment a incercat adaugarea
zilei saptamanii de la care incepe predictia in setul de intrare si observarea influentei ei. (Ar trebui sa
pun rezultatele obtinute?)
Articolul [11] prezinta o comparatie intre modelul clasic si cel “Online” (OSVM) al algoritmului
Support Vector Machine asupra predictiei poluantilor din aer. Algoritmul OSVM ofera posibilitatea
redescoperirea solutiei optime pe parcurs ce seturi noi de date sunt disponibile. Setul initial de date este
oferit de catre “Mong Kok Roadside Monitoring Station” in anul 2000, iar poluanti folositi sunt NOx, SO2
si RSP (pulberi de suspensie respirabili PM2.5 si PM10). Metodele de evaluare folosite au fost abatere
medie patratica si Indexul de acord al lui Willmott. Ambele modele ale algoritmului s-au dovedit a fi
adecvate pentru aceasta problema, insa balanta in care se afla cele doua, inclina spre OSVM, avand
valorile prezise putin mai aproape de cele masurate.
In lucrarea [12] cercetatorii din domeniu au creat un model de predictie folosind retele neurale,
al pulberilor in suspensie cu diametrul mai mic de 10 um pentru teritoriul Belgiei. In Belgia exista 41 de
statii pentru masurarea poluantilor din aer, insa pentru acest studiu au fost folosite primele 10 statii in
functie de longivitatea datelor pe care le-au masurat. Setul de date disponibil este format din 5 ani
(1997-2001), 4 ani fiind folositi pentru etapa de antrenare, iar ultimul an pentru pentru testare. Reteaua
neurala descrisa in lucrare, contine un singur nivel ascuns cu 4 perceptroni. In procesul de abordare a
problemei, pentru reteaua neurala utilizata au fost folositi ca intrari parametrii meteorologici precum:
viteza vantului, directia vantului, temperatura, procentul de acoperire al norilor (cloud cover), indexul
BLH (limita superioara peste care numarul lui Richardson[13] depaseste valoarea 0.5), ziua din
saptamana si cantitatea de pulberi in suspensie cu diametrul mai mic de 10 um pentru primele 9 ore ale
zilei, iar ca iesire a retelei este cantitatea de PM10 pe intreaga zi. Pentru a face o comparatie si a
determina importanta anumitor parametrii s-au ales doua modele pentru predictie. Primul model
foloseste ca intrari PM10 in primele 9 ore si indexul BLH, iar al doilea model adauga la lista intrarilor
gradul de acoperire al norilor, directia vantului si ziua saptamanii. Modelele au obtinut scoruri
asemanatoare, primul model 70%, iar al doilea 73%.
In studiul [13], se prezinta un experiment pentru determinarea in timp real al poluentilor SO2,
PM2.5 si PM10 din aer pentru orasul Beijing. In lucrarea de fata, setul de date este mult mai mare fata
de cele din articolele anterioare, prin urmare una din noutatile inovative aduse sunt abordarea intr-o
maniera distribuita a predictiei. Setul de date folosit este public, oferit de Microsoft Research si contine
masuratorile de pe parcursul unui an (8 februarie 2013 – 8 februarie 2014) si contine 170.000 de tupluri.
Pentru a determina daca modelul este scalabil, au multiplicat acelasi set de date, iar rezultatele au fost
pozitive. Pentru etapa de predictie, au folosit ca metode de evaluare acuratetea, Recall si Precision.
Impartirea datelor in setul de invatare si setul de testare este diferita de cazurile anterioare. Un anumit
numar de statii a fost folosit pentru antrenare, iar restul pentru testare, renuntand la ideea de impartire
cronologica, urmarind una spatiala. In final cu algoritmul random forests distribuit s-au obtinut rezultate
de 79.5% corectitudine.
Examinand aceste studii din literatura de specialitate, am observat ca majoritatea lucrarilor au
abordat problema utilizand retele neurale, support vector machine, random forest, fapt prin care se
demonstreaza ca acesti algoritmi de invatare automata sunt potriviti pentru acest tip de problema.
Diferenta majora dintre abordari consta in modul de interpretare a datelor si modul de parametrizare al
algoritmilor precum: arhitectura si numarul de neuroni per nivel ascuns al retelelor neurale, functia de
kernel si parametrii ei in cazul SVM-ul. O a doua observatie asupra lucrarilor publicate este legata de
acuratetea predictiei obtinute, dar si a metodelor de masurare a acuratetii, aceasta fiind peste pragul de
70%.
Prin urmare luand in considerare multimea de posibilitati care exista pentru realizarea unei
predictii legate de poluarea aerului si efectele lui, am decis sa folosesc cei mai utilizati algoritmi (retele
neurale, svm si random forests) pentru etape de predictie din cadrul aplicatiei curente. Cu toate ca in
momentul de fata tehnologia a ajuns la un nivel la care datele sunt colectionate mult mai usor, am decis
ca nu este necasar utilizarea unui framework precum Spark[15] pentru o abordare distribuita. Motivul
acestei decizii a fost luat in urma analizei datelor relevante oferite de Guvernul Romaniei (sursa pe care
am ales-o), fiind unul cu aproximativ 2000 de puncte observate pentru care nu imi lipsesc anumite date.
Modurile in care au fost datele prelucrate si analizate, vor fi descrise in amploare in capitolul urmator.
2.6. Sistemul DRG
In capitolul “Achizitia datelor” se vor descrie, pe larg, sursele de date libere folsite si modurile de
procesare si analizare efectuate. Statisticile despre bolile din spitalele romanesti au fost gasite sub
reprezentarea sistemului DRG. Pentru a putea explica in detaliu gruparea bolilor, este necesara o
prezentare scurta a sistemului DRG.
Conform manualului[27], grupurile inrudite de diagnostic(DRG), folosite pentru prima data in
Romania in anul 2001, sunt o metoda prin care se pot clasifica si caracteriza perioadele de ingrijire
primite de pacienti pe durata admiterii lor in spitale.
Sistemul DRG este o modalitate de corelare a numarului si tipului de pacienti tratati intr-un
spital, cu resursele cerute de acesta. Principalul rol al sistemului, este de a oferi o masuratoare
aproximativa a posibilitatilor de ingrijire ale pacientilor de catre spitale, astfel incat sa fie posibila o
alocare cat mai optima a resurselor de care acestea au nevoie.
DRG-urile pot fi definite ca un numar acceptabil de clase caracterizate pe baza diagnosticelor,
care sunt la randul lor diferentiate in functie de tabloul clinic pe care il prezinta pacientul, si al cantitatii
de resurse consumate.
In acest sistem, fiecare boala, sindrom sau afectiune, tratata intr-un spital, se identifica
printr-un cod unic, care se compune din 5 caractere, cu urmatoarea semnificatie:
● Caracterul 1 – categoriam majora de diagnostic (CMD)
● Caracterul 2 – Tipul de DRG
○ 1 – chirurgical
○ 2 – altele
○ 3 – medical
● Caracterele 3 si 4 – Numarul de ordine in al DRG-ului in cadrul tipului (chirurgical, altele, medical)
● Caracterul 5 – Gradul de complexitate al DRG-ului. Are 5 valori posibile, unde 0 reprezinta faptul
ca DRG-ul este unic in cadrul unui DRG Adiacent, iar valorile 1 – 4 caracterizeaza gradul de
complexitate astfel: 1 – cel mai mare, 4 – cel mai mic.
Categoria majora de diagnostic (DMG) este o clasificare bazata in general pe un singur sistem al
corpului (Ex: respirator, cardiovascul, nervos, endocrin, etc) sau etiologie a diferitelor afectiuni, care este
asociata cu o anumita specialitate medicala. Cu toate acestea, anumite CMD-uri precum 01, 15, 18 si 21,
pot avea diagnostice principale asociate si cu alte categorii.
In ultima versiune descrisa a metodei DRG pentru Romania (RO DRG v1), exista 23 CMD-uri.
CMD-urile sunt subdivizate in maximum 3 diviziuni separate: “chirurgical”, “alta”, “medical”.
Repartizarea bolilor, intr-o subdiviziune sau alta este, in general, produsa pe baza prezentei sau absentei
procedurilor efectuate sau nu in salile de operatii.
Tratamentul bolilor si tulburarilor unui anumit sistem poate deveni mai facil si mai costisitor prin
prezenta comorbiditatilor si dezvoltarea complicatiilor pe intreaga durata de ingrijire/spitalizare. Prin
urmare, pentru clasificarea in sistemul DRG, un element important consta in recunoasterea si masurarea
severitatii bolilor si prognosticul favorabil sau defavorabil al acestora. Codurile de complicatii si
comorbiditati sunt diagnostice adiacente celui principal, care au o probabilitate mare de a determina un
consum semnificativ mai mare de resurse.
In capitolul ce urmeaza, va avea loc o detaliere a intregului proces de achizitionare, procesare si
analiza de date atat pentru poluanti din mediul inconjurator cat si statisticile, in sistem DRG, despre
numarul de bolnavi din Romania.
3. Achizi ț ia datelor
Din nevoia si dorinta oamenilor de a-si experimenta si studia idei ce necesita date care nu au un
caracter personal sau secret, a luat nastere miscarea de date libere(open data). O prima conturare a
conceptului de Open Data a aparut in anul 1957, iar ea presupune ca anumite date sa fie facute publice,
cu drept de utilizare, copiere si redistribuire, dupa bunul plac al fiecaruia, fara a exista vreo
restrictie[16]. Aceasta miscare doreste sa faca parte dintr-o familie alcatuita din: surse libere(open
source), open hardware, continut liber(open content), open government si acces liber (open access)[16].
In Romania, lucrurile s-au miscat mult mai incet fata de state precum China, Turcia, Belgia. In
preajama anului 2009 au aparut primele date publice, cu caracter de date libere in Romania, expuse de
catre [17], site-ul national al sistemul de clasificare si evidenta a bolilor din tara. In UE se doreste ca
guvernul fiecarei tari sa puna la dispozitie cat mai multe date libere, posibil de reutilizat (in format RDF,
Xlsx, Docx) legate de activitatea tarii, pentru a oferi oamenilor incredere si transparenta.
Aceasta lucrare, prezinta o influenta a parametrilor poluanti din mediu inconjurator, asupra
numarului de bolnavi in fiecare judet din Romania. Pentru aceast experiment a fost nevoie de cantitati
cat mai mari de date. In subcapitolele urmatoare vor fi detaliate procesul de achizitionare, procesarea,
analizarea si stocarea al datelor necesare, puse la dispozitie de catre sistemul de statistica al bolilor[17]
si Guvernul Romaniei, prin portalul sau online[18], dar si o prezentare a retelei de monitorizare a aerului
in Romania.
3.1. Reteaua de monitorizare in Romania
In Romania reteaua de monitorizare a aerului[2] cuprinde 142 de statii automate pentru
monitorizarea calitatii aerului si 17 statii mobile, avand urmatoarea repartizare in functie de raza de
acoperire si parametrii masurati:
– 24 statii de tip trafic;
– 57 statii de tip industrial;
– 37 statii de tip fond urban;
– 15 statii de tip fond suburban;
– 6 statii de tip fond regional;
– 3 statii de tip EMEP.
O statie de monitorizare are rolul de a furniza date despre calitatea aerului, date care sunt
reprezentative pentru o anumita arie din jurul ei.
Statie de tip trafic
Statia de tip trafic evalueaza influenta traficului asupra calitatii aerului pentru raze intre 10 si
100 de metri. Poluantii masurati sunt: dioxid de sulf (SO2) , oxizi de azot (NOx), monoxid de carbon (CO),
ozon (O3) si pulberi in suspensie (PM10 si PM 2.5)
Statie de tip industrial
Statia de tip industrial are rolul de a evalua impactul activitatilor industriale asupra calitatii
aerului, pe raze intre 100m – 1km. Acest tip de statie masoara atat poluantii din aer (SO2, NOx, CO, O3,
PM10, PM2.5) dar si parametrii meteorologici ( directia si viteza vantului, presiune, temperatura, radiata
solara, umiditate relativa, precipitatii ).
Statie de tip urban si suburban
Statie de tip urban evalueaza influenta asezarilor umane, in mediul urban, asupra calitatii aerului
si are o raza de masurare pana la 5km. Statia masoara atat poluantii din aer (SO2, NOx, CO, O3, PM10,
PM2.5), cat si parametrii meteorologici ( directia si viteza vantului, presiune, temperatura, radiata solara,
umiditate relativa, precipitatii ).
Statie de tip regional
Statia de tip regional este statia de referinta pentru evaluarea poluantilor din aer si a calitatii lui.
Raza de actiune a acestui tip de statie este intre 200-500km, iar unitatile masurate sunt poluantii aerului
si conditiile meteorologice.
Statie de tip EMEP
Statiile de tip EMEP sunt folosite pentru a monitoriza si evalua poluarea aerului in context
transfrontier de lunga distanta. Ele sunt amplasate in zonele montane de altitudine medie: Fundata,
Semenic si Poiana Stampei. Precum si celelalate statii, sunt masurati parametrii de poluare si
meteorologici.
3.2. Datele poluarii aerului
3.2.1. Sursa
In programul de guvernare din perioada 2013-2016 a luat nastere proiectul Data Gov[18],
portalul Guvernului Romaniei. Aceasta interfata a Guvernului expune intr-o maniera libera date si
statistici despre multe domenii de activitate ale Romaniei precum economic, medical, sanitar, sub forma
de seturi de date. In prezent proiectul Data Gov contine 981 de seturi disponibile, dintre care 216 au fost
publicate de catre Agentia Nationala pentru Protectia Mediului (ANPM), ce contin un istoric al
masuratorilor compusilor aerului pornind din anul 2009 si informatii despre statile de monitorizate.
3.2.2. Procesare
Procesul de procesare contine doua etape: etapa de procesare a caracteristicilor fiecarei statii si
etapa de procesare a masuratorilor pentru fiecare statie in parte.
Etapa de procesare a caracteristicilor fiecarei statii
In prima etapa am folosit informatiile oferite de Portalul Guvernului expuse la adresele [20] si
[21]. La adresa [20] se gasesc informatii caracteristice fiecarei statii de pe teritoriul Romaniei, precum
categoria din care face parte (Industrial, Trafic, Fond), localizarea ei (altitudine, longitudine, latitudine,
adresa), data punerii in functiune si identificatorii la nivel national si mondial. Fiecare statie este
identificata de un identificator unic la nivel national(de exemplu: AXXX – statia Bla) si de un identificator
unic la nivel mondial (de exemplu: RO000001 – statia bla). Impreuna cu repartizarea statiilor in functie de
judet si oras, disponibila la adresa [21], am realizat o corelare intre informatiile caracteristice statiilor si
amplasarea lor teritoriala.
1) Etapa de procesare a masuratorilor
Etapa aceasta presupune obtinerea masuratorilor din anul 2010 pana in 2017 pentru fiecare
statie. In cadrul celor 216 seturi de date, pentru fiecare statie exista cel putin un set de date care contine
valorile masurate intr-un interval de ani, sub forma de fisiere XML. Fisierele contin pentru fiecare statie,
o suita de parametri masurati identificati printr-un cod “index” unic si masuratorile aferente.
2) Analiza
Dupa procesarea masuratorilor in baza de date exista o colectie pentru fiecare statie in care se
afla fiecare masuratoare in functie de an, luna si parametrul masurat. In fisiere XML cu masuratori,
fiecare masurare este unica prin an, luna, zi, ora, iar la o analiza a mai multor fisiere, am observat ca
pentru foarte multi parametrii lipsesc foarte multe masuratori. Din acest motiv, pentru fiecare statie, am
utilizat o valoare medie a fiecarei lunii, formata din suma tuturor masuratorilor (cele care exista pe ore)
impartita la numarul lor.
Pentru a observa cantitatea de date lipsa, am creat pentru fiecare judet un XLSX care contine o
vizualizare a tuturor masuratorilor pentru statiilor din acel judet. Prin aceasta modalitate am reusit sa
evaluez calitatea datelor, aceasta nefiind una foarte buna deoarece majoritatea statiilor, ori nu au valori
pentru anumiti parametrii (adica acestia nici nu prefigureaza in fisierele de masuratori), ori au valoarea 0
(parametri prefigureaza in fisierele de masuratori dar nu au nici o valoare masurata). Pentru o predictie
si o vizualizare relevanta discontinuitatea datelor trebuie evitata sau redusa, deoarece pot aparea
pattern-uri care conduc catre o invatare eronata. Prin urmare, este necesar sa folosesc statiile cu cele
mai multe multe si relevante masuratori. Pentru a identifica aceste statii, am contorizat intr-un dictionar
de forma {“parametru” : [statie1, statie2]}, pentru fiecare parametru, statiile care il monitorizeaza.
Termenul de “parametrii comuni” in cadrul acestui proiect este considerat orice parametru care
este masurat de cel putin 100 de statii. Valoarea de prag 100, a fost aleasa experimental, observand care
sunt numerele de statii pentru toti parametrii. Ca exemplu cea mai mare valoare este 135, aproape 90%
din statiile din tara au masurat dioxidul de sulf . Un al doilea motiv pentru valoarea de prag 100 este ca
reprezinta ⅔ din numarul maxim, 150. Dupa aceasta operatie de trunchiere a parametrilor, au ramas 10
cei mai relevanti si frecventi parametri, la care am adaugat indexul de calitate a aerului, calculat pe baza
valorilor inregistrate pentru dioxidul de sulf, monoxidul de carbon, ozon, si pulberi in suspensie.
Deoarece valorile masurate pentru Umiditatea relativa, Directia Vantului si Radiatie solara nu erau
documentate si nici nu se aflau in concordanta cu valorile medii lunare pentru Romania gasite, nu a fost
posibila incadrarea in clase reprezentative, am eliminat parametrii din vizualizare si predictie. Notiunea
de clase reprezentative pentru parametrii va fi detaliata in subcapitolul urmator. Lista de parametri
comuni finali contine urmatoarele elemente: Dioxid de sulf, Oxizi de azot, PM10 – aut, PM10 – grv, Ozon,
Monoxid de azot, Viteza vant, Temp. 2 m, Presiune, Precipitatii, Air Quality Index.
(Calcularea dioxidului de azot)
Dupa determinarea parametrilor comuni, este necesar sa aflam cel mai mare multime de statii
care au ca parametrii masurati toti parametrii comuni. Pentru acest rezultat, mai intai am creat
multimea tuturor statiilor posibile, realizand o reuniune asupra tuturor multimilor de statii, pentru
fiecare parametru comun, din dictionarul de forma {“parametru” : [statie1, statie2]}. Pentru a selecta
cele mai potrivite statii, am verificat fiecare statie daca contine fiecare parametru comun in cei masurati,
iar in caz negativ atunci aceasta statie era inlaturata, altfel era adaugata la multimea de statii comune.
Calculand si folosind doar parametrii comuni ai statiile comune am reusit sa diminuez spatiile
datelor lipsa de orice natura si ofer o corectitudine a predictiei si vizualizarilor, puse la dispozitie de
aplicatie. Dimensiunea setului de date este diminuat la 7 ani si contine 3696 de puncte observate.
3.2.3. Definirea claselor pentru fiecare parametru
Urmatoarea problema intampinata a fost definirea unor intervale(clase) pentru fiecare
parametru care sa descrie cantitatea masurata. Pentru a fi corelata cu gradatiile Indexului de Calitate al
Aerului, in aplicatie se definesc cate 6 clase, avand aceeasi insemnatate a gradatiilor.
Conform informatiilor publicate de ANPM si Ministrul Mediului si al Padurilor pe site-ul [22],
parametrii ce intra in componenta indicelui de calitate al aerului, au definite o impartire graduala,
fiecare grad fiind bine limitat de o valoare inferioara si superioada. Tabelul urmator descrie, intr-un mod
detaliat, fiecare gradare a fiecarui parametru.
Indice\Parametru SO2( ug/m3 ) NO2( ug/m3 ) O3( ug/m3 ) CO( ug/m3 ) PM10( ug/m3 )
1 0 – 49 0 – 49 0 – 39 0 – 2 0 – 9
2 50 – 74 50 – 99 40 – 79 3 – 4 10 – 19
3 75 – 124 100 – 139 80 – 119 5 – 6 20 – 29
4 125 – 349 140 – 199 120 – 179 7 – 9 30 – 49
5 350 – 499 200 – 399 1 80 – 239 10 – 14 50 – 99
6 > 500 > 400 > 240 > 15 > 100
Din nefericire, ANPM nu a furnizat suficiente masuratori pentru monoxidul de carbon pentru a
putea fi luat in considerare, acesta fiind eliminat in procesul de diminuarea a spatilor cu valori lipsa.
Alaturi de parametri ce compun indicile de calitate al aerului, in multimea finala de parametrii
folositi se mai regasesc precipitatiile si temperatura. Cei doi parametrii au fluctuatii majore in fuctie de
anotimp, iar pentru a ii putea putea clasifica, a fost necesara o cautare a valorilor anuale in functie luna.
In cadrul site-ului [23] se afla o arhiva istorica a climei din Romania, pe baza temperaturilor si
precipitatilor inregistrate intervalul de ani 1901 – 2006, rezumata in urmatorul tabel.
Pe baza acestor valori medii am realizat clasificarea temperaturii in clase reprezentative bine
delimitate de un prag inferior si superior. Urmatoarele 2 tabele presupun o vizualizare completa a
gradarii claselor.
Temperatura ( °C)
Marimea fiecarui interval a fost determinata analizand valorile masurate anul acesta si
experimental.
Luna \ Clasa Foarte Scazuta Scazuta Mediu Ridicate Foarte ridicate
Ianuarie < -5 -5 – -3 -3 – -1 -1 – 1.5 > 1.5
Februarie < -3 -3 – -1 -1 – 1 1 – 3 > 3
Martie < 0 0 – 3 3 – 6 6 – 10 > 10
Aprilie < 5 5 – 9 9 – 12 12 – 15 > 15
Mai < 12 12 – 15 15 – 17 17 – 20 > 20
Iunie < 15 15 – 17 17 – 20 20 – 23 > 23
Iulie < 15 15 – 19 19 – 23 23 – 26 > 26
August < 15 15 – 19 19 – 22 22 – 26 > 26
Septembrie < 11 11 – 14 14 – 17 17 – 20 > 20
Octombrie < 6 6 – 9 9 – 12 12 – 15 > 15
Noiembrie < 0 0 – 3 3 – 6 9 – 12 > 12
Decembrie < -4 -4 – -1 -1 – 2 2 – 5 > 5
Precipitatii (mmHg)
Marimea de 5 unitati a fiecarui interval a fost determinata experimental.
Luna \ Clasa Foarte Scazuta Scazuta Mediu Ridicate Foarte ridicate
Ianuarie < 32.5 32.5 – 37.5 37.5 – 42.5 42.5 – 47.5 > 47.5
Februarie < 30 30 – 35 35 – 40 40 – 45 > 45
Martie < 28.5 28.5 – 33.5 33.5 – 38.5 38.5 – 43.5 > 43.5
Aprilie < 40 40 – 45 45 – 50 50 – 55 > 55
Mai < 55 55 – 60 60 – 65 65 – 70 > 70
Iunie < 75 75 – 80 80 – 85 85 – 90 > 90
Iulie < 50 50 – 55 55 – 60 60 – 65 > 65
August < 45 45 – 50 50 – 55 55 – 60 > 60
Septembrie < 35 35 – 40 40 – 45 45 – 50 > 50
Octombrie < 42.5 42.5 – 47.5 47.5 – 52.5 52.5 – 57.5 > 57.5
Noiembrie < 40 40 – 45 45 – 50 50 – 55 > 55
Decembrie < 42.5 42.5 – 47.5 47.5 – 52.5 52.5 – 57.5 > 57.5
Ultimii doi parametrii, din lista celor folositi, care nu au fost descrisi in acest capitol sunt viteza
vantului si presiunea atmosferica. Ei nu contribuie in mod direct la indicele de calitate al mediului, dar
influenteaza dispersia poluantilor in atmosfera, in mod special viteza vantului. Asemeni temperaturii si
precipitatiilor, acesti doi parametrii au si eu fluctuatii majore, dar nu in functie de perioade ale anului, ci
de altitudinea la care sunt masurati[24][25][26]. Pentru oferi un aspect obiectiv al valorilor, pentru
presiune am folosit gradarea prezenta in referinta [26], iar pentru viteza vantului am definit
experimental gradarea, acoperind toate valorile medii prezente in lucrarile [25] si [26]. Tabelul urmator
descrie cele 2 gradari folosite.
Parametru\Clasa Foarte scazuta Scazuta Mediu Ridicata Foarte Ridicata
Viteza vant (km/h) < 10 10 – 20 20 – 35 35 – 40 > 40
Presiune (mb) < 745 745 – 760 760 – 770 770 – 775 > 775
In cadrul interfetei grafice, care va fi explicata in capitolul “Arhitectura aplicatiei”, este posibila o
vizualizare a tuturor claselor parametrilor in functie de momentul de timp. Acest subiect o sa fie
dezvoltat pe larg in acel capitol. In continuare voi descrie procesul de obtinere al datelor statistice
asupra bolilor din Romania.
3.3. Datele medicale
3.3.1. Sursa
Tot in gama datelor libere se incadreaza si resursele expuse, la dispozitia publicului larg, de catre
Centrul de Cercetare si Evaluare a Serviciilor de Satanatate (la adresa[28]).
Primele statistici au aparut in anul 2005, insa acestea nu contin statistici ale bolilor din spitale. Din anul
2009 sunt publicate date intr-o maniera detaliata, sub forma unui tabel, a numarul de cazuri ale bolilor,
dar din nefericire sunt disponibile doar sub forma de PDF. Deoarece este necesar intreg continutul
tabelor, nu a fost posibila gasirea unei metode de parcurgere automata a fisierelor pdf. Incepand cu anul
2012, alaturi de fisierele PDF sunt publicate si fisiere XLS. In cadrul fiecarui an, pentru fiecare luna sunt
disponibile 3 clasificari:
● CMD – contine o statistica lunara, la nivel de numar de cazuri pentru fiecare dintre cele 23 de
categori de diagnostic
● DRG – contine o raportare a datelor lunare, indicand la nivel de boala numarul de cazuri din
cadrul spitalelor.
● NON – contine o raportare a statisticilor din punct de vedere al Indicelui de Complexitate al
Cazurilor (ICM)
Am ales folosirea datelor din sistemul DRG, deoarece poluantii aerului nu influenteaza o
intreaga categorie de diagnostice, ci anumite boli din ele, iar NON se afla in afara subiectului de studiu al
lucrarii.
3.3.2. Procesarea si analiza datelor
Spre deosebire de datele oferite de ANPM despre poluantii aerului, Centrul de Cercetare si
Evaluare a Serviciilor de Satanatate a publicat date de o calitate superioara. Numarul de boli lipsa este
mult mai scazut, acesta fiind ghidat de frecventa de aparitie a lor. Setul contine fisiere de date pe durata
a 5 ani de activitate, din anul 2012, pana in anul 2017, pentru fiecare judet din Romania. Informatia este
distribuita in 2691 de fisiere, care contin si anul 2011, dar acesta este incomplet, deoarece exista o
statistica asupra intregului an, iar lunar incepand cu luna iunie. Din punct de vedere cantitativ setul de
date al bolilor are un calificativ foarte bun, dar din punct de vedere al formatului, in ciuda faptului ca
sunt XLS-uri, nu pastreaza un aliniament constant al coloanelor, dar am reusit sa
Numarul total de boli distincte din punct de vedere al sistemului DRG este 666. Din acest numar
mare de boli, pentru care nu este posibila o vizualizare facila, am ales cele mai frecvente boli care pot
avea o corelare cu poluarea aerului.
In prima etapa am creat un fisier cu statistica celor mai frecvente boli, contorizand numarul de
aparitie al lor in fiecare judet, in fiecare luna din cei 5 ani. Cea mai frecventa boala are numarul de
aparitii egal cu numarul de fisiere, 2691, iar de la pozitia 500 in jos numarul de apartii scade sub 50%. Ca
urmare a statisticii efectuate, am luat toate bolile pana la pozitia 500, care pot avea ca si cauze
expunerea pe termen lung sau scurt la poluantii prezentati in capitolul “Studiu Bibliografic”.
Aceste boli sunt identificate prin codul lor DRG, care nu delimiteaza bolile doar dupa diagnostic,
le diferentiaza si in functie de complicatiile care pot aparea. Acest fapt nu este de interes pentru aceasta
lucrare, deoarece complicatiile pot aparea si in functie de istoricul medical al pacientului si scopul
lucrarii este de a gasi o corelare intre boli indiferent de gravitatea lor.
In functie de codul DMG al bolilor, le-am grupat in 9 tipuri de afectiuni specifice fiecarui sistem
de organe ce poate fi afectat de poluarea mediului inconjurator. Aceste afectiuni sunt detaliate in
continuare, impreuna cu denumire generica ce incadreaza codurile DRG similare care sunt influentate de
factorii de poluare:
● Neoplasm:
○ Neoplasm pulmonar: 'E3122', 'E3121', 'E3123'
○ Neoplasm renal: 'L3031', 'L3032'
○ Neoplasm al sistemului nervos: ‘B3071’
● Afectiuni Neurologice:
○ Accident vascular cerebral: 'B3113', 'B3112', 'B3114', 'F3142', 'F3141'
● Afectiuni Cardiovasculare:
○ Hipertensiune: 'F3081', 'F3082'
○ Artmie: 'F3111', 'F3121', 'F3122', 'F3112',
○ Tulburari vasculare: 'F3041', 'F3042', 'F3071', 'F3062', 'F3061', 'F2031', 'F3011',
'F3012', 'F2021', 'F3013'
○ Insuficienta Cardiaca: 'F3032', 'F3031', 'F3101', 'F3161'
○ Angina: 'F3131', 'F3132'
● Afectiuni Respiratorii:
○ Astm: 'E3102', 'E3101', 'E3103'
○ Infectii respiratorii: 'E3031', 'E3032', 'E3033', 'E3081', 'D3050', 'E3111', 'E3112'
○ BPOC: 'E3061', 'E3062',
○ Boala interstitiala pulmonara: 'E3151', 'E3152', 'E3153'
○ Edem pulmonar: 'E3050’
● Afectiuni dermatologice:
○ Tulburari ale pielii: 'J3071', 'J3061', 'J3052'
● Afectiuni hematologice:
○ 'Leucemie': ['R3022', 'R3012', 'R3011', 'R3013'],
○ 'Tulburari ale globulelor rosii': ['Q3023', 'Q3022', 'Q3021'],
○ 'Anomalii de coagulare': ['Q3030']
● Afectiuni Oftalmologice:
○ Infecti oculare': ['C3011', 'C3012'],
○ Leziuni oculare': ['C1010', 'C1070', 'C1080', 'C3030'],
○ Tulburari oculare': ['C3042', 'C3041', 'C1100', 'C1111', 'C3020', 'C1020']
● Afectiuni imunologice': {
○ Tulburari reticuloendoteliale': ['Q3011', 'Q3013'],
○ Reactii alergice': ['X3020']
● Afectiuni Metabolice': {
○ Tulburari metabolice': ['K3031', 'K3033']
3.3.3. Definirea claselor pentru fiecare boala
(modul de parsare, cantitatea, calitatea datelor, relevanta fata de poluentii aerului)
4. Descrierea arhitecturii aplica ț iei
Descrierea tehnologiilor si bibliotecilor folosite
(React, Flask, Webpack, Nginx, MongoDB, Scikit, Docker)
5. Rezultatele ob ț inute
(Rezultatul predictiei + grafice)
6. Concluzii si imbun ă t ă ț iri
7. Bibliografie
[1] https://en.wikipedia.org/wiki/Air_quality_index
[2] http://www.calitateaer.ro/structura.php
[3] http://www.who.int/en/
[4] https://www.airqualitynow.eu/about_indices_definition.php
[5] https://ro.wikipedia.org/wiki/Aer
[6]
http://www.euro.who.int/__data/assets/pdf_file/0006/189051/Health-effects-of-particulate-matter-fin
al-Eng.pdf
[7] http://www.calitateaer.ro/parametri.php
[8] Dan Wei – Predicting air pollution level in a specific city
[9] Gaurav Pandey, Bin Zhang, Le Jian – Predicting submicron air pollution indicators: a machine
learning approach
[10] Atakan Kurt, Betul Gulbagci, Ferhat Karaca b, Omar Alagha – An online air pollution
forecasting system using neural networks
[11] Wenjian Wanga, Changqian Mena, Weizhen Lub – Online prediction model based on
support vector machine
[12] Hooyberghs Jef, Mensink Clemens, Dumont Gerwinb, Fierens Frans, Brasseur Olivier – A
neural network forecast for daily average PM10 concentrations in Belgium
[13] https://en.wikipedia.org/wiki/Richardson_number
[14] Chuanting Zhang, Dongfeng Yuan – Fast Fine-Grained Air Quality Index Level Prediction
Using Random Forest. Algorithm on Cluster Computing of Spark
[15] https://spark.apache.org/
[16] https://en.wikipedia.org/wiki/Open_data
[17] http://drg.ro/
[18] http://data.gov.ro/
[19]
[20]
http://data.gov.ro/dataset/informatii-privind-statiile-din-reteaua-nationla-de-monitorizare-a-calitatii-ae
rului-in-romania
[21]
http://data.gov.ro/dataset/informatii-privind-repartizarea-statiilor-de-monitorizare-a-calitatii-aerului-pe
-zone-si-aglomerari
[22] http://www.calitateaer.ro/indici.php
[23] https://ro.wikipedia.org/wiki/Clima_Rom%C3%A2niei
[24] http://www.vremea.ro/gt/despre-vant/
[25] http://www.asrm.ro/evenimente/schimbari_climatice/Sandu%20Ion.pdf
[26] http://vremea.meteoromania.ro/taxonomy/term/17
[27] Grupuri Inrudite de Diagnostic – clasfiicarea RO DRG v.1 –
http://www.drg.ro/DocDRG/download.php?fi=15
[28] http://drg.ro/inc/
[29]
http://www.scientia.ro/biologie/corpul-omenesc/4065-etiopatogenia-cancerului-si-factorii-de-risc.html
[30] http://www.rom edic.ro/intoxicatia-cu-plumb-saturnism
[31] https://www.sc ribd.com/document/248309895/Compendiu-de-Igiena
8. Anexe
(Cod si descrierea graficelor)
Copyright Notice
© Licențiada.org respectă drepturile de proprietate intelectuală și așteaptă ca toți utilizatorii să facă același lucru. Dacă consideri că un conținut de pe site încalcă drepturile tale de autor, te rugăm să trimiți o notificare DMCA.
Acest articol: Univ ersitatea P olitehnic a [617771] (ID: 617771)
Dacă considerați că acest conținut vă încalcă drepturile de autor, vă rugăm să depuneți o cerere pe pagina noastră Copyright Takedown.
