Közgazdaság – és Gazdálkodástudományi Kar Gazdasági informatika Szakdolgozat Végzős hallgató , KOCSIS Malvina – Gréti Témavezető , Dr. KOVÁCS… [619312]
BABEȘ –BOLYAI TUDOMÁNYEGYETEM
Közgazdaság – és Gazdálkodástudományi Kar
Gazdasági informatika
Szakdolgozat
Végzős hallgató ,
KOCSIS Malvina – Gréti
Témavezető ,
Dr. KOVÁCS Gyöngyvér egyetemi adjunktus
2019
BABEȘ –BOLYAI TUDOMÁNYEGYETEM
Közgazdaság – és Gazdálkodástudományi Kar
Gazdasági informatika
Szakdolgozat
Adatvizualizáció és Big Data a non -profit szervezetek
életében
Végzős hallgató,
KOCSIS Malvina – Gréti
Témavezető ,
Dr. KOVÁCS Gyöngyvér egyetemi adjunktus
2019
UNIVERSITATEA BABEȘ –BOLYAI
Facultatea de Științe Economice și Gestiunea Afacerilor
Informatic ă economică
Lucrare de licență
Data Visualisation și Big Data în viața organizațiilor
non-guvernamentale
Absolvent: [anonimizat],
Lect. univ. dr. Gyöngyvér KOVÁCS
2019
Összefoglaló
A dolgozat készítése során vizsgáltam azt, hogy lehet -e beszélni adatvizualizációról és big
data-ról egy nonprofit, ezen belül diákszervezet esetén. Munkám során tanulmányoztam az
adatvizualizáció, big data fogalmát valamint azt is, hogy melye k azok az eszközök, amelyekkel
költséghatékonyan, de minőségi elemzéseket és vizualizációkat kész íthetek. Ehhez a
szakirodalomban megemlített könyvek és tudományos cikkek nyújtottak segítséget. Inkább
angol anyaggal dolgoz tam a téma aktualitásának és újdonság jellegének köszönhetően. Fontos
volt azt is elemezni, hog y egy diákszervezet hogyan működik és melyek azok az alappillérek,
amelyekre épül. Ebben nagy segítség volt az, hogy tagja vagyok egy diákszervzetnek, viszont
a szakirodalomban használt könyv és cikkekből is merítkeztem. Következő lépésként a vizsgált
diákszervezettől kapott adatokat dolgoztam fel és készítettem adatvizualizációkat, annak
érdekében, hogy kiderítsem van -e értelme dolgozzon, illetve tud -e egy diákszervezet ilyen
technológiával dolgozni.
ii
Tartalomjegyzék
Táblázatok és ábrák jegyzéke ………………………….. ………………………….. ………………………….. …………. iii
Bevezetés ………………………….. ………………………….. ………………………….. ………………………….. ……………. 1
1. Téma ………………………….. ………………………….. ………………………….. ………………………….. ………………. 3
1.1 Adatvizualizáció és Big Data ………………………….. ………………………….. ………………………….. …….. 3
1.2 Nonprofit és diákszervezetek ………………………….. ………………………….. ………………………….. …….. 6
2. Kutatási minta bemutatása ………………………….. ………………………….. ………………………….. ………….. 8
2.1 A -kártya adatbázis ………………………….. ………………………….. ………………………….. …………………… 8
2.2 Diáknapok adatbázis ………………………….. ………………………….. ………………………….. ………………… 9
3. Kutatás módszertana ………………………….. ………………………….. ………………………….. …………………. 10
3.1 Használt technológiák ………………………….. ………………………….. ………………………….. …………….. 10
3.1.1 Colab Notebooks ………………………….. ………………………….. ………………………….. ……………… 10
1.1.2 Pandas ………………………….. ………………………….. ………………………….. ………………………….. .. 13
1.1.3 Qlik Sense ………………………….. ………………………….. ………………………….. ……………………….. 14
3.2 Adatok feldolgozásának lépései ………………………….. ………………………….. ………………………….. .. 16
3.2.1 Adatok tisztítása ………………………….. ………………………….. ………………………….. ………………. 16
3.2.2 Adatvizualizáció ………………………….. ………………………….. ………………………….. ………………. 21
3.3 Weboldal látogatottságának tanulmányozása ………………………….. ………………………….. …………. 30
4. Következtetések ………………………….. ………………………….. ………………………….. …………………………. 34
Irodalomjegyzék ………………………….. ………………………….. ………………………….. ………………………….. .. 36
iii
Táblázatok és ábrák jegyzéke
Ábrák :
Ábra 1 . BI&A áttekintése ………………………….. ………………………….. ………………………….. ………………….. 4
Ábra 2 . BI&A -vel kapcsolatos publikációk ………………………….. ………………………….. ……………………… 4
Ábra 3 . Piacon levő első tíz adatvizualizációs eszköz ………………………….. ………………………….. ……….. 5
Ábra 4 . KMDSZ Diáknapok adatbázisok ………………………….. ………………………….. ………………………… 9
Ábra 5 . Colab Notebooks ………………………….. ………………………….. ………………………….. ………………… 11
Ábra 6 . Kódvégrehajtási cella ………………………….. ………………………….. ………………………….. ………….. 12
Ábra 7 . Szöveg cella ………………………….. ………………………….. ………………………….. ………………………. 12
Ábra 8 . Connected ………………………….. ………………………….. ………………………….. ………………………….. 12
Ábra 9 . Pandas importálása Colab munkalapba ………………………….. ………………………….. ………………. 13
Ábra 10 . Hagyományos BI és Qlik Sense ………………………….. ………………………….. ………………………. 14
Ábra 11 . Qlik Sense ………………………….. ………………………….. ………………………….. ……………………….. 15
Ábra 12 . Kódrészlet ………………………….. ………………………….. ………………………….. ……………………….. 16
Ábra 13 . Megyék átalakítása – kódrészlet ………………………….. ………………………….. ………………………. 17
Ábra 14 . Updatelt tábla ………………………….. ………………………….. ………………………….. …………………… 17
Ábra 15 . Munkalapok egységesítése és egybefűzése – kódrészlet ………………………….. ………………….. 18
Ábra 16 . A-kártya adatbázis normalizálás ………………………….. ………………………….. ……………………… 20
Ábra 17. A-kártya felhasználók a térképen ………………………….. ………………………….. …………………….. 21
Ábra 18 . A-kártya felhasználók a térképen 2 ………………………….. ………………………….. ………………….. 22
Ábra 19 . A-kártya felhasználók Romániában ………………………….. ………………………….. …………………. 22
Ábra 20 . A-kártya eloszlása kolozsvári egyetemeken – Tree map ………………………….. …………………. 23
Ábra 21 . A-kártya eloszlás a BBTE karokon – Tree map ………………………….. ………………………….. …. 23
Ábra 22 . A-kártya felhasználók száma képzési szint és évfolyam szerint – filter pane és nyomtáv … 24
Ábra 23 . Tandíjas én tandíjmentes helyeken tanuló diákok ………………………….. ………………………….. . 25
Ábra 24 . Diáknapozók a térképen ………………………….. ………………………….. ………………………….. …….. 26
Ábra 25 . Három évnyi diáknapozó a térképen ………………………….. ………………………….. ………………… 27
Ábra 26 . Diáknapos csapatok diverzifikáltsága ………………………….. ………………………….. ………………. 27
Ábra 27 . Sportolók és nem sportolók aránya ………………………….. ………………………….. ………………….. 28
Ábra 28 . Sportolók száma a nyertes csapatokban ………………………….. ………………………….. ……………. 29
Ábra 29 . diaknapok.ro oldal látogatottsága backlinkek alapján ………………………….. ……………………… 30
Ábra 30 . diaknapok.ro látogatottsága az idővonalon ………………………….. ………………………….. ……….. 31
Ábra 31 . diaknapok.ro – backlink típusok ………………………….. ………………………….. ………………………. 31
Ábra 32 . Oldal látogatottsága külföldi domainekről ………………………….. ………………………….. ………… 31
Ábra 33 . diaknapok.ro –horgony szavak ………………………….. ………………………….. ………………………… 32
Ábra 34 . akartya.ro oldal látogatottsága backlinkek alapján ………………………….. …………………………. 32
Ábra 35 . akartya.ro látogatottsága az idővonalon ………………………….. ………………………….. ……………. 33
1
Bevezetés
A Big Da ta és az adatvizualizáció egy új, aktuális téma , napjainkb an kezd egyre
népszerűbb lenni, hiszen rengeteg területen használják már, többek között az orvostudmányban
is. A zonban nagyon sokan nem tudják mi az, illetve azt sem, hogy mennyi mindenre lehet
használni. Célom az, hogy egy non -profit szervezet, konkrétabban egy diákszervezetben való
szerepét boncolgassam, tanulmányozzam, van -e értelme egy ilyen szervezetnek használni ezt
a technológiát? Mire tudják felhasználni, illetve beszélhetünk -e egyáltalán big dat a-ról egy
diákszervezet esetén?
A téma két okb ól kifolyólag is fontos és érdekes . Első sorban Big Data és
adatvizualizáció f elkapottsága, érdekessége miatt, hiszen egy nagyon aktuális téma és egyre
több területen alkalmazzák már, úgy multinacionális vállalkozások, mint az orvostudomány is.
Másodsorban a diákszervezetek fontossága miatt a di ákok életében, ezen belül az én életemben
is. Egyetemista létem nagy része a diákszervezetről , az önkéntességről szólt, így egyre
fontosabb lett számomra ennek a jóléte, jól működése, jó hírneve. Ezen kívül minden diák
Kolozsváron találkozott valamilyen fo rmában a Kolozsvári Magyar Diákszövetséggel. Az
adatvizualizáció pedig egy erős és hatékony eszköz arra, hogy valakit meggyőzzünk rövid időn
belül a meglátásunkat illetően és sikeres en el tudjuk adni az ötletünket, valamint egy biztosabb
irány t és alapot ad a döntéshozatalba n.
A Kolozsvári Magyar Di ákszövetség A -kártya adattárát és a KMDSZ Diáknapos adat tárát
felhasználva és feldolgozva, egy felület/ applikáció készült, amely adatvizualizáción alapszik.
Ennek kettős célja is van, és mindkét cél külö nböző módon fogja szolgálni a szervezet
stratégiáját , terveit és igényeit . Elsősorban a vizualizációk partnerek keresését szolgálják. A cél
az, hogy olyan módon eladja a szervezetet vagy egy szolgáltat ását, hogy az bemutassa a
partnerség nyereséges oldalát, a sz ervezet pozitív umait, eddigi elért eredményeit szemléltesse .
Mindezt maximum 10 perc alatt, ábrák, formák, mozgó alakzatok és térképek alapján, amelyek
alapja a szervezet adattárai . Ezen kívül pedig a szervezet jól működéséh ez és átlátásához is
fontos, ugy anis monitorizálva lesz látványosan az A -kártya használat, valamint a diáknapozók
tendenciá ja is. Kézzel fogható adatokba l ehet kapaszkodni, hiszen ezek megbízhatóak és nem
kell többet tippekből tervezni a következő lépést.
A sza kdolgozat első fejezetében a fontosabb fogalmak vannak tisztázva elméleti
szinten, tehát az adatvizualizáció, big data, nonprofit szervezet, illetve diákszervezet.
Köveketző fejezetben bemutatásra kerülnek a minták, amelyekkel dolgoztam. Az A -kártya és
2
a KMDSZ Diáknapok adatbázisai nak a szerkezete és felépítése van bemutatva és leírva. A
vizsgált diákszervezet ezen két projektjén keresztül vizsgáltam az adatvizualizáció hasznát a
szervezet életében. A harmadik a kutatás módszertanáról szól, amelyben a kutatás lépéseit,
felhasznált t echnológiákat és a gyakorlatba ültetést, azaz az adatvizualizációs felület
megvalósítását tartalmazza. Végezetül pedig a következtetések fejezet alatt szó kerül az
eredményekről, fejlesztési lehetőségekről, ku tatás esetleges következő lépései ről.
Adatvizualizáció és Big Data a non -profit szervezetek életében
3
1. Téma
A fejezetben a dolgo zat témája van boncolgatva és a két kulcsszó meghatározva, amel yek az
adatvizualizáció, big data és a non -profit/diákszervezet. Ez szükséges ahhoz, hogy a
későbbiekben érthetőbb legyen a készített alkalmazás célja és a használata is.
1.1 Adatvizualizáció és Big Data
A Big Data olyan adatkészletre vonatkozik, amely mérete vagy típusa túlmutat azokon a
készleteken, amelyet a hagyományos relációs adatbázisok lassú kereséssel tudná nak rögzíteni,
kezelni, feldolgozni. Általában ezek a nagy mennyiségű adatok real time vann ak generálva,
például különböző szenzorok által, készülékekkel, videó vagy aud ió technológiákkal,
applikációkkal, vagy közösségi médiát látogató felhasználóktól is jöhet ez a nagy mennyiségű
adat.
A Bloomber Businessweek üzleti elemzésének a felmérése alapján 97% -a a 100 millió dollárt
meghaladó árbevételű vállalatok nak alkalm azott valamilyen üzleti elemzést, adatok
feldolgozását. Ezen kívül a McKinsey Globális Intézet jelentése előrevetítette, hogy 2018 -ra
csak az Egyesült Államokban 140000 -190000 fős hiány lesz olyan emberekből, akik mély
analitikai készségekkel rendelkeznek, ille tve 1.5 millió olyan adatfeldolgozó -menedszer
hiányban fog szenvedni az ország , akik tudják, hogy hogyan dolgozzanak fel jól adatokat annak
érdekében, hogy megfelelő döntés szülessen ezek alapján. Hal Varian, a Google vezető
közgazdásza és a professzora a Kaliforniai Egyetemnek azt nyilatkozta, hogy az adat lesz az,
ami mindenhol ott lesz és mégis olcsó, illetve ezt kiegészíti a tanulmányozása. A zt javasolta a
diákjainak, hogy minél több olyan tárgyat vegyenek fel, ami adatmanipulálásról és adatokról
szól, legyen az adatbázisok, gépi tanulás, ökonometria, statiszika, adatvizualizáció.
Adatvizualizáció és Big Data a non -profit szervezetek életében
4
BI&A (Business Intelligence & Analytics ) áttekintése – fejldődése, applikációk, feltörekvő
kutatások:
Forrás: MIS Quarterly – Business Intelligence And Analytics: From Big Data To Big Impact Vol. 36 No. 4/December 2012
Amint az a fenti ábrán látható, a BI&A fejlődésének három szakasza van, amelyek a BI& A
1.0, 2.0 és a 3.0. Az is szemlétetve van, hogy applikációk és kutatás szempontjából hogyan
haladt.
BI&A -vel kapcsolatos publikációk 2000 és 2011 között:
Forrás: MIS Quarterly – Business Intelligence And Analytics: From Big Data To Big Impact Vol. 36 No. 4/December 2012
A fenti ábrán látszik, hogy 2010 után egy drasztikus növekedés következett be a big data és a
business analytics területeken, míg a business intelligence már 2002 -ben mutat egy növekedést.
Ábra 1. BI&A áttekintése
Ábra 2. BI&A -vel kapcsolatos publikációk
Adatvizualizáció és Big Data a non -profit szervezetek életében
5
Az adatvizualizáció fogalma új nak minősül társadalmunkban és idegen sokak számára, viszont
mióta létezik az emberiség létezik adatvizualizáció is. Az adatvizualizáció adatok vizuális
ábrázolását jelenti úgy, hogy azt gyorsan be lehessen fogadni, könnyen meg lehessen érteni.
Célja történet ábrázolás, összefüggések keresése és ábrázolása szinek, alakzatok és különböző,
akár animáci ók segítségével is.
Az adatvizualizáció és a big data közötti út pedig a feldolgozás, az adatok tisztítása vagy
rendszerezése van, ami nélkül nem lehet adatokat vizualizálni. A kettő együtt pedig lehetővé
teszi a kutatóknak és a vállalatvezetőknek azt, ho gy hatékonyabb és jobb döntéseket hozzanak
a jövővel kapcsolatban.
Minden vállalat és akár non -profit szervezet rendelkezik mindazzal az adattal, ami segítségével
hatékonyabbá tudná tenni a tevékenységét, csak ezeket fel kell dolgozni és érthető,
értelmez hető formába kell hozni.
Adatvizualizációt rengeteg eszközzel lehet készíteni . A financesonline.com weboldal szerint
az első tíz most a piacon a következők :
Forrás Logok: https://financesonline.com/data -visualization/
Ábra 3. Piacon levő első tíz adatvizualizációs eszköz
Amint látható a táblázatban is a piacvezető jelenleg a SiSense. Az általam választott szoftver a
hetedik helyen levő QlikSense. Azért választottam ezt, mivel ingyenes és benne van a top t íz
adatvizualizációs termékek között.
Adatvizualizáció és Big Data a non -profit szervezetek életében
6
1.2 Non profit és diákszervezetek
„A nonprofit szervezeti modell lényege, hogy a szervezet működésének központi kérdése,
közvetlen célja valamilyen közösségi szükséglet és igény kielégítésére alkalmas javak, (a
társadalom egyes csoportjainak vagy egészének fontos és értékes termékek, szolgáltatások
vagy gondolatok) önkéntes biztosítása, amelyben meghatározó integráló és koordináló
mechanizmus az anyagi és szellemi szolida ri-tás, nem pedig a forrásgyarapító kereskedelmi
ügylet vagy a jog és a politika eszköze .” (Pavluska, 2003)
A diákszervezetek is nonprofit szervezetek, amelyek egyetemista diákokból állnak, ezek
érdekeit képviselik. Céljuk a köz össégépítés, a szakmai fejlődés és a diákok igényeinek
kiszolgálása. Diákok dolgoznak diákokért, azok jólétéért, illetve diákok teremtenek diákoknak
lehetőséget rengeteg extrakurikuláris tevékenységre, fejlődési lehetőségre különböző terület en,
illetve lehetőséget adnak egy közösséghez való tartozásra .
A nonporfit szervezetek működésében a marketing lényeges eleme az értékcsere, ami igazából
az ilyen szervezetek működésének az alapja. Egy ilyen szervezet rengeteg olyan
tevékenységgel kell foglalkozzon, a mivel a vállalkozások nem. Ilyen például a fundraising,
vissza nem térítendő támogatások keresése, lobbi, önkéntesek toborzása. Éppen ezért rengeteg
olyan sajátos marketing és reklám tulajdonsága van egy nonprofit sz ervezetn ek, amely által
mindegyik sajáto s stratégiát és támpontokat kell magának felállítson. A legfontosabb
kritériumok a következők:
1. Az ajánlani kívánt szolgáltatás és magatartásminta.
2. Az ajánlat olyan módon való bemutatása, amely előtérbe helyezi a társadalmi és
pszichológiai előnyöket is.
3. Sok, érthető információ és részletes magyarázat kommunikálása.
4. A szolgáltatás, „termék” megváltoztatása nem lehetséges, de a tálalás igen.
5. A nonprofit szervezetek folyamatosan küzdenek a közömbös célközönséggel, ami
drágává teszi a reklámot. Ilyen a vállala ti szférában nincs. Akit nem érdekel a termék,
azt nem is akarják elérni és nem foglalkoznak vele.
6. A nonprofit szervezetek nagyon sokszor csak pilóta -programszerű marketing
tevékenységet folytatnak, hiszen nagyon sokszor ezek a termékek re és szolgáltatásokra
nem tudnak konkrét visszajelzést kapni, nincs megfogható adat. Maximum annyi, hogy
egy rendezvényen hány mosolygó embert látnak.
Adatvizualizáció és Big Data a non -profit szervezetek életében
7
7. Nehéz mérni az eredményt, mivel nem lehet pénzben kifejezni, hogy mekkora volt a
siker vagy a bukás, mert nem profitorientált. Így itt is a szubjektivitást alkalmazzák.
8. A nonprof it szervezetek tevékenységei nem a jövedelemszerzésre fókuszálnak, így egy
szolgáltatást/projektet finanszíroz ni külső forrásokból kell, azaz támogatókból,
szponzorokból. Ez azt jelenti, hogy két célközönsége is van egy szervezetnek: a
potenciális támogató és a fogyasztó. Ennek a két csoportnak pedig különböző
módszerekkel kell eladni a szervezetet és annak szolgáltatásait.
9. Nagyon fontos felada t a közvélemény formálása is, az önkéntesek véleménye, a
politikai döntéshozók véleménye, a média véleménye. Így tehát ez is egy plusz feladat.
10. És talán az egyik legfontosabb részecske ebben a történetben a közönséggel való
kapcsolat (Public Relations), hi szen egy nonprofit szervezetre figyelmesebbek az
emberek, a média.
Az általam választott nonprofit szervezet a Kolozsvári Magyar Diákszövetség (KMDSZ),
amely, ahogy azt az alapszabályzata is írja, kolozsvári felsőfokú oktatási intézmények magyar
diákjainak érdekképviseleti, érdekvédelmi és kulturális szervezete. A szervezet évente több,
mint 60 rendezvénnyel/projekttel foglalkozik, amelyek között van szórakoztató és szakmai,
valamint gólyaprogram is, ezen kívül pedig szolgáltatások is. Mindezek mellett 20 szakosztály
által minden egyetem en, illetve karon jelen van és minden diák számára biztosít ezáltal
egyetemen kívüli tevékenységen való rész vételi lehetőséget. A KMDSZ 2020 -ban tölti a 30
évet, és e 30 év alatt Erdély legnagyobb és legerősebb magyar diákszervezetévé nőtte ki magát.
Az évek során a fentebb említett pontokra többé -kevésbé sikerü lt figyelni és, mint minden
szervezet esetén, itt is voltak mélyebb pontok, de sikerült a közvéleményt pozitívabbá alakítani.
Azonban a vállalkozások néhány esetben elég szkeptikusan állnak hozzá a szervezethez, így
szükség van egy olyan stratégiára, amely előtérbe helyezi a számukra releváns információkat
és sikerül őket meggyőzni arról, hogy érdemes fektetni a rendezvényekbe és a különböző
projektekbe.
Adatvizualizáció és Big Data a non -profit szervezetek életében
8
2. Kutatási minta bemutatása
Az adatok amelyeket feldolgozt am a KMDSZ ingyenes diákkártyájának, az A -kártya adattára ,
illetve a már 26 éve megszervezet t KMDSZ Diáknapok adattára . A választás azért esett az A –
kártyára és a Diáknapokra, mivel ez a két projekt/szolgáltatás érinti a diákság legnagyobb
részét. Minden é vben körülbelül 5000 magyar diáknak van A -kártyája Kolozsváron és a
regisztráltak száma pedig körülbelül kétszerese szokott lenni. A KMDSZ Diáknapokon pedig
csak a csapatban résztvevők száma meghaladja a 2000 diákot.
2.1 A-kártya ada ttára
Az A-kártya adattára sajnos csak az idei év adatait tartalmazza, hiszen a GDPR
szabályozások miatt mindenki újra kellett regisztráljon és elfogadja azt, hogy az adatai tárolva
lesznek. Ezért ebben a tárban 5150 rekord szerepel. Az előbb is említett GDPR miatt nevek et
és semmilyen olyan adatot nem tartalmaz, amellyel konkrétan tudnék egy személyt azonosítani.
Az adatbázis tartalmaz születési megyét/régiót, közeget (falu/város), egyetemet, illetve kart,
szakirányt, évfolyamot, szintet (alapképzés, mesteri, doktori), ille tve azt is, hogy államilag
támogatott helyen vagy nem támogatott helyen tanul a regisztrált A -kártya felhasználó. Az
adatokat egy Excel file formájában kaptam meg, azonban a KMDSZ szerveren tárolja. A
szerverre a www. akartya.ro weboldalon való jelentkezéssel jutnak el az adatok.
Adatvizualizáció és Big Data a non -profit szervezetek életében
9
2.2 KMDSZ Diáknapok a dattára
A KMDSZ Diáknapok adatai három forrásból származnak, amely mindegyik egy -egy
évi résztvevő csoportot tartalmaz. Ez a három év a 2016, 2018 és 2019 -es évek. Kettőben
szerepel a csapatnév, elérhetőségek, nevek, diákigazolványszám, nem és, hogy sportol -e vagy
sem. A 2019 -esben nem szerepel a sportolók száma, az egy külön adatbázisban volt tárolva.
Értelemszerűen ezek az adattárak nem egyeztek meg szerkezetileg, így elég nehéz lett volna
dolgozni vele, tehát tisztítani, egységesíteni kellett őket. Ezeket is Excel fi leként kaptam meg
és mindegyikben 2000 rekord van.
A következőképpen néztek ki eredeti formában:
Olyan adatot nem használtam fel itt sem, amely egyértelműen azonosít egy személyt. Ezekből
a sportolók száma volt az, ami inkább érdekelt, valamint a származási hely és a csapatnév.
Ábra 4. KMDSZ Diáknapok adatbázisok
Adatvizualizáció és Big Data a non -profit szervezetek életében
10
3. Kutatás módszertana
Ez a fejezet a kutatás menetéről fog szólni használt technológiák szempontjából majd a
lépésekről, amelyek által az eredményhez jutottam. Fontos ismerni a használt technológiákat
ahhoz, hogy későbbiekben érthető legyen a felület használata és a választott alkalmazás
miértje.
3.1 Használt technológiák
A kutatásom során felhasznált technológiák közül a fontosabbak a Google Colaboratory,
Python és a Qlik Sense. Ezen technológiák különböző lehetőségei , működésük és felépítésük
van a következőkben bemutatva .
3.1.1 Col ab Notebooks
A Google Colaboratory egy cloud szolgáltatás, amely a Jupyter Notebookokon alapszik
és a gép i tanulás illetve kutatás terjesztését/átadását szolgálja. Egy teljesen konfigurált futási
időt biztosít és egy teljesen ingyenes hozzáférést egy nagy méretű GPU -hoz ( grafikai
processzor ).
A deep learning (mély tanulásos) alkalmazások jelen vannak a mindenn api életünkben
különböző formákban, például webes keresőmotorok, a közösségi média ajánlások, nyelvek
felismerése és különböző e-kereskedelmi javaslatok . Ebben a csoportban levő
alkalmazások nak az alapja általában óriási adathalmazokkal elvégzett körülmény es
számítások. Így a párhuzamos számítások azok, amelyek ezeket egy megvalósítható futási
időben el tudják végezni. A GPU -k olyen eszközök, amelyek megfelelőek erre a feladatra.
Azonban a hardver erőforrások kockázatokkal járnak. Nincs eléggé kihasználva , túl van
terhelve, csökken az értéke a har dvernek, illetve különböző hibák is becsúszhatnak. Ezen kívül
költséges karb antartás energia és hu mánerőforrás szempontjából is, h iszen minden személynek
a csapatban biztosítani kellene egy nagy kapacitásu GPU -t, ahhoz, hogy megfelelőek legyenek
a munkakörülmények. Így napjainkban inkább a cloud vagy felhő megoldások az elterjedtek,
hiszen ezek nem költségesek, gyorsak is, és vannak olyan platformok, például az Amazon,
Adatvizualizáció és Big Data a non -profit szervezetek életében
11
Intel, Google Cloud, amelyek biztosí tanak olyan GPU -t, amely deep learningre van
kifejlesztve.
Ilyen szolgáltatás a már fentebb említett Colaboratory vagy Colab, amelyet a Google hozott
létre. Ez a szolgáltatás egy Google fiókhoz van kapcsolva és ingyenes. Tehát a felhasználó egy
Google fiókkal k ell rendelkezzen és hozzá tudja adni díjmentesen a fiókjához a Collab
Notebook -ot. Ugyanúgy, mint minden Google Drive eszközt, itt is meg lehet osztani a
munkalapot más felhasználóval és a felhasználók látják egymás változtatásait.
Forrás: https ://colab.research.google.com
Forrás: saját szerkesztés
Ábra 5. Colab Notebooks
Adatvizualizáció és Big Data a non -profit szervezetek életében
12
A Google Colaboratory a Jupyter Notebook on alapszik, amely egy open -source és browser –
based eszköz. M agába foglal különböző interpreteres programozási nyelvet, könyvtárakat és
eszközöket adatvizualizációhoz. Egy Jupyter notebook működik lokálisan vagy cloudon is.
A Colab -ban egy notebook cellák listája, minden cella magyarázó szöveget vagy végrehajtható
kódot és ennek a kimenetét tartalmazza. Python 2 és Python 3 -at támogatja, valamint fontos
tudni, hogy a VM egy idő után lecsatlakozik és az összes adat, amit a felhasználó feltöltött
elveszlődik.
Végrehajtható kódot tartalmazó cella:
Forrás: saját sze rkesztés
A play gombot megnyomva vagy shift+enter billentyűkombinációt lenyomva hajtódik végre a
cellákba beírt utasítás.
Forrás: https://colab.research.google.com/notebooks/basic_features_overview.ipynb#scrollTo=Id6tDF1HQSHD
Ábra 7. Szöveg cella
Csak akkor futtatható bármilyen kód, ha az eszköztár CONNECTED -et jelez. Vagy ahogy
lentebb is láthtó, megjelenik a zöld pipa.
Forrás: saját szerkesztés
Ábra 8. Connected
A Colab -ot használtam az adatok tisztításáhos és az adattárak feldolgozását a pandas könyvtár
segítségével végeztem.
Ábra 6. Kódvé grehajtási cella
Adatvizualizáció és Big Data a non -profit szervezetek életében
13
1.1.2 Pandas
A pandas egy nyílt forráskódú BSD licenszes könyvtár, amely nagy teljesítményű és
könnyen használható adatstruktúrákat és adatelemző eszközöket biztosít a Python
programozási nyelv számára.
Célja egy magas színtű építő elem a Pythonban történő valós időben történő adatelemzéshez. A
pandas megfelelő a következő felépítésű adatok feldolgozásához:
Táblázatos adatok SQL vagy Excel táblázatban
Idősoradatok – rendezett és rendezetlen is
Véletlen mátrixadatok sor – és oszlopcímkékkel
Bármilyen más megfigyelési vagy statisztikai adatállomány.
Az adatok nem kell cimkézve legyenek ahhoz, hogy be l ehessen őket helyezni egy panda s
adatstruktúrába.
Colab Python 3 -ba importáltam a pandas könyvtárat és a pd nevet kapja a
következőképpen:
Forrás: saját szerkesztés
Ábra 9. Pandas importálása Colab munkalapba
Adatvizualizáció és Big Data a non -profit szervezetek életében
14
1.1.3 Qlik Sense
A Qlik Sense egy adat felfedező platform, amely fejlesztáse a QlickView.Next név alatt
futott, majd később lett Qlik Sense a neve. Ez a platfrom volt az első ilyen jellegű
adatfeldolgozó platform. Azért jött létre, mert a vállalkozás tulajdonosai úgy gondo lták, hogy
mindenkinek lehetősége kell legyen látni az adatokat, felfedezni őket és analizálni őket.
„Everyone should be able to experience that „a -ha” moment of discovery.” (Ilacqua, Henric ,
& James , 2015) . Szerintük a z adat felfedezés nem csak BI, hanem felhasználóközpontú,
dinamikus és megerősít . Egy egész proce dúrát jelent az adatok tanulmányozása és megértés e
– az a procedúra, amely által új információkra teszel szert és ezek alapján döntést hozol és
lépsz.
A hagyományos BI technológiák és a Qlik Sense közötti különbség a köve tkező két ábrán
tisztán látszik
Forrás: Christopher Ilacqua, Henric Cronstrom, James
Richardson – Learning Qlik Sense : The Official Guide,
2015
A jobb oldalon látható a hagyományos BI, míg a bal oldalon a Qlik Sense platform. A
hagyományosban minden elem külön működik, egymástól függetlenül valamilyen s zinten és
minden résszel más cs oport foglalkozott.
Ezzel szemben a QlikView és Qlik Sense esetén minden egy helyen van, és a felhasználó
mindenhez hozzá tud férni, saját maga is meg tudja oldani akár a scriptek írását, adatok
feldolgozását és tárolását is.
A Qlik Sense első sorban a felhasználói élményt tartja szem előtt és azt, hogy minél
egyszerűbben és minél logikusabban lehessen adatok at feldolgozni a segítségével. A platform
Ábra 10. Hagyományos BI és Qlik Sense
Adatvizualizáció és Big Data a non -profit szervezetek életében
15
használható desktopon, illetve telefonon is, tehát reszponzív web design -t használ. Ennek
köszönhetően egy ilyen platformon készült vizualizációt könnyen lehe t tárolni és bármikor meg
lehet mutatni egy potenciális támogatónak vagy egy döntés esetén gyorsan rá lehet vetni egy
pillantást akár a buszon is.
A következőképpen néz ki a felület, amelyen én dolgoz om és az én projektjeim vannak:
Forrás: saját készítés
Ábra 11. Qlik Sense
Adatvizualizáció és Big Data a non -profit szervezetek életében
16
3.2 Adatok feldolgozásának lépései
Ebben a fejezetben a kutatás gyakorlati részének a konkrét lépései vannak leírva. Be van
mutatva az, hogy miként jutottam el az eredményekig, adatok egységesítésétől kezdve, egészen
az adatvizualizációk készítéséig.
3.2.1 Adatok tisztí tása
Az első lépés az adatok egységesítése volt, amely több, különböző l épést jelentett
minden adatforrás esetén. Az adatok tisztítása és egységesítése Colab -ban történt, ahova
importáltam a pandas könyvtárat.
A KINCS2k18.xlsx volt az első, amellyel dolgoztam, mivel ebben az adatbázisban kevésbé
voltak zajosak az adatok.
Kezdésként kitöröltem minden olyan oszlopot, amelyre nem volt szükségem azért, hogy ne
foglaljon felesleges memóriát és átláthatóbbá tegyem magamnak az adattárat .
Forrás: saját szerkesztés
A df a dataframe, amelybe elhelyeztem az excel fájlt, így tudok törölni, hozzáadni és bármilyen
más műveletet is végrehajtani rajta . A del df[’mezőnév’] paranccsal töröltem ki a számomra
nem szükséges oszlopokat, majd a list(df) -el kilistáztam az adatbázisom f ejléceinek a halmazát.
Következő lépésben elmentettem az új adatbázist egy excel file formájában biztonsági okok
miatt. A Colab működésénél említettem, hogy abban a pillanatban, amikor már nincs
csatlakozva a szerverhez a felhasználó, minden adata elveszl ődik. Így a feltöltött fájlok is
Ábra 12. Kódrészlet
Adatvizualizáció és Big Data a non -profit szervezetek életében
17
törlődnek, valamint az adatbázison történt változtatások sem maradnak meg. Ezért
elmentettem, hogy ne kelljen többször ugyanazokat a lépéseket, ugyanannál az adattárnál
végrehajtani. A mentés a df.to_excel(’ujkincs2k18 .xlsx') paranccsal végeztem, az új fájl a Colab
notebookba mentődött és onnan lementettem a készülékemre.
Következő lépésben létrehoztam egy új oszlopot, amelybe behelyeztem a megyéket a
személyigazolvány s orozatszámából levágva az első két betűt. Utána a létrehozott oszlopból
még egyet létrehoztam, amely a megyék teljes nevét tartalmazza, hiszen így, ha térképet
használok, akkor az adatvizualizációs eszközöm majd el tudja helyezni ezeket a helységeket.
A következő kódot használtam ehhez:
df['Megyerö vidítés']=df['Személyigazolvány sorozatszáma'].astype(str).str.replace('
','').str.replace(' \n','').str.replace(' \t','').str.replace('"','').str[:2].str.upper()
Minden két betűs rövidítésnek, amelyet a személyigazolvány sorozatszámból vágtam le,
megfeleltettem a neki megfelelő megyét. Ahol hibásan volt írva, annak megfeleltettem egy üres
karaktert, ahol pedig külföldi szám szerepelt, megfeleltettem a régió nevét.
Forrás: saját szerkesztés
A következő lett az eredmény:
Forrás: saját szerkesztés
Ábra 13. Megyék átalakítása – kódrészlet
Ábra 14. Updatelt tábla
Adatvizualizáció és Big Data a non -profit szervezetek életében
18
Ezek után a személyigazolvány számot t artalmazó oszlopot is töröltem, mivel arra sem lesz
már szükség, illetve újra lementettem az adatbázist.
A második adatforrás a 2016-os KMDSZ Diáknapos adattár , amelyet hasonló alakra
formáztam a Colab -ben importált pandas segíts égével, mint a 2018 -ast. Majd a fentihez
hasonló parancsok után az oszlopok sorrendjét is változtattam a 2018 -as ad atbázisban levő
sorrend alapján a következő parancsokkal:
my_column=df.pop(’Csapat’)
df.insert(0, my.column.name, my_column)
my_column=df.pop(’ Születési_Dátum ’)
df.insert( 1, my.column.name, my_column)
my_column=df.pop(’ Neme ’)
df.insert( 2, my.column.name, my_column)
A harmadik adatforrás , a 2019 -es nagy mértékben különbözött az előző kettőtől, ugyanis ebben
minden csapatnak külön munkalapja volt és a sportolókat külön tábláztba jelölték meg. Ez azt
jelenti, hogy 56 táblázatot olvasztottam egybe szintén úgy, hogy az előzőekhez hasonló formája
legyen.
Mivel minden csapatnak az adatai külön munkalapon voltak, ezért mindegyik munkalapot
külön meg kellett nyitni és külön fel kellett dolgozni. A következő kódot használtam erre:
Forrás: saját szerkesztés
Ábra 15. Munkalapok egységesítése és egybefűzése – kódrészlet
Adatvizualizáció és Big Data a non -profit szervezetek életében
19
Minden csapat esetén töröltem a felesleges oszlopokat a drop paranccsal. Ezek után beszúrtam
egy új oszlopot, ahova beírtam a csapatnevet, ugyanis ez külön nem szerepelt, hiszen a
munkalap a csapatnévvel volt elnevezve. Következő lépésben az oszlopot, ahov a a
csapatneveket szúrtam be, elhelyeztem a második helyre az egységesség gyanánt.
Majd ezek után következett az a lépés, amely az előző táblázatoknál is megtörtént. A megyék
rövidítéseinek leválasztása és kiírása e gy új oszlopba. Itt is üres sor lett írv a hibás adatok esetén
és külföldiek esetén pedig a régió. A legvégén exportáltam a Colab notebookomba egy excel
filet, amelyet a csapatnak a nevével neveztem el.
A fentebb leírt pár lépést mind az 55 csapat esetén végrehajtottam.
Ezek után a létrejött 55 táblázatot egybe olvasztott am, egy DataFrame -be helyeztem a
következő kódot használva:
import os
path = os.getcwd()
files = os.listdir(path)
files
files_xls = [f for f in files if f[ -4:] == ‘xlsx’]
files_xls
df = pd.DataFrame()
for f in files_xls:
data = pd.read_excel(f, ‘Sheet1’)
df = df.append(data)
Importáltam az OS modult, amely biztosít különböző olyan függvényeket, amelyekkel az
operációs rendszerrel tudok kommunikálni, kapcsolatba lépni. Ezek olyan függvények,
amelyek oprációs rendszer függő ek.
Ezek után a path változóba tettem az os.getcwd() -t, amely egy függvény és megadja azt a
katalógust, ahol épp van a file, amelyen dolgozom. A files_xlsx -be helyeztem az összes olyan
filet, amely kiterjesztése .xlsx, így megtaláltam a csapatok táblázatait . Létrehoztam egy
DataFrame -et és egy for ciklussal betettem az összes xlsx kiterjesztésű fájlt a DataFrame -be.
Még csak egy feladat maradt hátra. Még nincs feltüntetve sehol a mostmár összesített
táblázatban, hogy ki sportol és ki nem.
Adatvizualizáció és Big Data a non -profit szervezetek életében
20
Ehhez beolvastam mindkét táblázatot külön DataFrame -be és egyikből átmásoltam szükséges
információkkal rendelkező oszlopot a másikba készített új oszlopba. Ezek után normalizáltam
az adatokat, tehát igen vag y nem szavak szerepelhetnek csak az új oszlopban .
df1 = pd.read_ excel(‘Kincs2019version2.xlsx’)
df2=pd.read_excel(‘Végleges sportolói lista – 2k19.xlsx’)
df1[‘Sportol -e’] = df2[‘Sportlhat’]
df1[‘Sportol -e’] = df1[‘Sportol -e’].str.replace(‘igen há’,’igen’).str.replace(‘nope’,’nem’)
Egy következő adatbázis, amelyet normalizáltam az A -kártya adatbázisa volt. Mivel ebb en az
adatok nem voltak zajosak és nem volt felesleges oszlop, így nem sokat kellett módosítani rajta.
Ide is beillesztettem egy új oszlopot, amelybe a a régió rövidítések alapján beírtam a teljes
nevet, ahol hibás volt oda egy üres karaktert írtam.
Forrás: saját szerkesztés
Ábra 16. A-kártya adatbázis normalizálás
Végezetül pedig let t három adattár három évnyi diáknapozókkal, illetve egy A -kártyás
adattár.
Adatvizualizáció és Big Data a non -profit szervezetek életében
21
3.2.2 Adatvizualizáció
Ebben a fejezetben van bemutatva az, hogy a fentebb feldolgozott adatokat milyen módon lehet
felhasználni és milyen kimutatásokat lehet elvégezni a segítségükkel, eszközként az
adatvizualizációt használva.
Első körben a két projekt adata it külön kezeltem és azt néztem meg, hogy a kettővel külön –
külön hogy lehet dolgozni és mire lehet felhasználni, majd utána közös pontokat kerestem és
próbáltam összekötni ezek alapján az adattárakat, azonban a későbbiekben kiderül, hogy nem
jártam sikerre l.
A vizualizció során lehetnek hibák és eltérések, ugyanis az adatbázisok feldolgozásakor
hibásan kitöltött rekordokba is ütköztem, amelyeket nem tu dtam besorolni sehova.
A-kártya
Az A -kártya adatbázisát első sorban külsősöknek , potenciális partnereknek dolgoztam
fel, így az első szempont az volt, hogy meg kell mutatni azt, hogy mennyire messzire ér el az
A-kártya. Ezt első körben egy térképpel próbáltam , amelyen be van az jelölve, hogy a világ
milyen tájair ól jöttek az A -kártya igénylők. A v izualizációból kiderült, hogy majdnem a világ
minden pontjáról vannak itt diákok, akik A -kártyát igényelnek.
Forrás: saját szerkesztés – Qlik Sense
Ábra 17. A-kárty a felhasználók a térképen
Adatvizualizáció és Big Data a non -profit szervezetek életében
22
A térképen látható narancssárga buborékok jelzik azokat a régiókat, ahonnan a felhasználó
származik. A buborékok mérete jelzi a felhasználók számát egy adott területről. A nagyobb
buborék több felhasználót jelent, a kisebb pedig kevesebbet.
Egyértelműen E urópa és azon belül is Románia az, ahol több A -kártya felhasználó van, de
érdekes az, hogy van négy Észak Amerikai felhasználó, Oroszországból is egy, Szíriából és
Törökországból is.
Egy kicsit ráközelítve a térképen Európára, látszik is, hogy Romániában nagyjából minden
megyéből van A -kártya felhasználó, ami azt jelenti, hogy Kolozsvárra az ország minden
pontjából jönnek egyetemisták.
Forrás: saját szerkesztés – Qlik Sense
És ha még jobban ráközelítünk, akkor látszik az is, hogy Hargita megye van az élen. Illetve az
is, hogy Gala ți, Tulcea, Constanta környékéről nincs senki. Ez annak tudható be, hogy nagyon
kevés a magyar, illetve Bukarest sokkal közelebb van és oda mennek egyetemre a diákok.
Forrás: saját szerkesztés – Qlik Sense
Ábra 18. A-kártya felhasználók a térképen 2
Ábra 19. A-kártya felhasználók Romániában
Adatvizualizáció és Big Data a non -profit szervezetek életében
23
A következő egy treemap, amely segítségével vizsgáltam az A -kártya felhasználók eloszlását
a kolozsvári egyetemeken és az egyetemeken levő karokon.
Forrás: saját szerkesztés – Qlik Sense
A kockák mérete is jelzi az eloszlást és a színek is. A nagyobb kockák több felhasználót
jelentenek és ugyanúgy a nagyobb kockák is. A fenti ábrán az adatbázisban szereplő összes
egyetem és összes kar van megjelenítve. Tisztán látszik az, hogy a Bab eș – Bolyai
Tudományegyetemen van a legtöbb A -kártya felhasználó, majd ezt követi a Kolozsvári
Műszaki Egyetem, Állatorvosi, Sapientia, Zeneakademia, Képzőművészeti . Ez annak tudható
be, hogy A BBTE -n van a legtöbb magyar diák Kolozsváron, illetve a KMDS Z 20 szakosztálya
közül 16 a BBTE különböző karán működik, valamint a magyar diákképviselet is itt a
legerősebb. Ki lehet választani egy egyetemet és azt is lehet külön tanulmányozni. Válasszuk
ki a BBTE -t.
Forrás: saját szerkesztés – Qlik Sense
Ábra 20. A-kártya eloszlása kolozsvári egyetemeken – Tree map
Ábra 21. A-kártya eloszlás a BBTE karokon – Tree map
Adatvizualizáció és Big Data a non -profit szervezetek életében
24
Tisztán látszik, hogy a Közgazdaság – és Gazdálkodástudományi Kar vezet, majd a Matematika
és Informatika Kar követi. A legkevesebb pedig a Katólikus Teológia Kar.
Ezek után megvizsgáltam azt, hogy évfolyamonként és képzési szint szerint hány A -kártya
felhasználó van. Számítani lehetett arra, hogy a legtöbb elsőéves lesz, hiszen elsőévesek
vannak a legtöbben. Az adatvizualizáció is bebizonyítja ezt . Ami érdekes az az , hogy
alapképzés első éven 200 diákkal van több, mint másodév és harmadéven, ahol mindkét
évfolyamon 1200. Ez azt mutatja, hogy első év után nagy a lemorzsolódás és aki másodévet is
végigviszi, az legtöbb esetben el is végzi az egyetemet.
Ezt két vizualizációs elem segítségével sikerült megmérjem. Két filter pane -t használtam és
egy nyomtávat. A nyomtávon van feltüntetve a diákok száma és a filter pane -k segítségével
választom ki azt, hogy milyen évfolyamra és milyen képzési szintre vagyok kiváncsi .
Mesteris elsőéves A -kártya felhasználók 542 -en vannak.
Forrás: saját szerkesztés – Qlik Sense
A sárga csík is, ahogyan a szám, jelzi, hogy hány diákról van épp szó a kiválasztott filterek
alapján. Így nagyon látványos az évfolyamok és képzési szintek közti különbség.
Megvizsgáltam azt is, hogy hány A -kártya f elhasználó van tandíjas, illetve hány van
tandíjmentes helyen. Ehhez egy pie chartot tartottam a legmegfelelőbbnek.
Ábra 22. A-kártya felhasználók száma képzési szint és évfolyam szerint – filter pane és nyomtáv
Adatvizualizáció és Big Data a non -profit szervezetek életében
25
Forrás: saját szerkesztés – Qlik Sense
Ábra 23. Tandíjas én tandíjmentes helyeken tanuló diákok
A sárga a tandíjas helyeken tanulók, míg a barna a tandíjmentes. Óriási a különbség a tandíjas
és a tandíjmentes helyeken tanuló A -kártya felhasználók között. Mivel az A -kártyának eddigi
években nem igazán volt partnere, azért a diákok csak a buszbérletek miatt csináltatták. Viszont
a tandíjas he lyeken tanulóknak nem érte meg, ugyanúgy jártak egy mási k bármilyen kártya
készítésével. Sokan választottak StudCardot vagy Omnipasst, mivel ezeknek partneres füzete
is van és rengeteg utalványt tartalmaz .
KMDSZ Diáknapok
A Diáknapos adatforr ással a cél az lenne, hogy a potenciália partnereknek,
támogatóknak bemutatni, hogy ez a rendezvény nem csak az erkölcstelen, züllött
tevékenységekről szól, hanem sokkal több ennél. A Diáknapok közösségépítésről szól,
sportokról, kultúráról, csapatjátékról , fairplayről. Adatok szempontjából a közösségépítés és a
sport tevékenységeket tudtam kimutatni, így ezek lesznek a centrális tényezők. Három
adattáram van, amelyeket normallizáltam és egységesítettem. Ezek a 2016, 2018 és 2019 -es
diáknapozók adattára .
Ez a három adatforrás nem teljesen egységes a normalizálás után sem, mivel a 2019 -es évben
nem volt begyűjtve születési dátum a résztvevőktől, viszont előző években igen.
Adatvizualizáció és Big Data a non -profit szervezetek életében
26
Első lépésként betölt öttem a Qllik Sense -be a fájlokat, majd elkezedtem a vizualizáció k
készítését.
Itt is a térképpel kezdtem, mivel fontos látnunk azt, hogy honnan is érkezik az a 2000 ember,
aki részt vesz ezen a rendezv ényen. A következő az eredmény :
Forrás: saját szerkesztés – Qlik Sense
Ábra 24. Diáknapozók a térképen
Mivel nem minden megye nevét imserte fel a Qlik Sense, ezért a megyeszékhelyet írtam be a
megye neve helyett, így sikerült felismernie és jó helyre helyezze az értékeket. Ennek
köszönhetően lesz az, hogy a későbbi vizualizáci óknál a megye helyett a megyeszékhely vagy
egy másik település jelenik meg.
A világ rengeteg pontjáról érkeznek diákok Kolozsvárra és nagyon sokan részt vesznek a
KMDSZ Diáknapokon. Ez a térképen is tisztán látszik.
A ké k buborék jelzi a 2016 -os évben szervezett rendezvény résztvevőit, a narancssárga
háromszög a 2018 -as résztvevőket és a zöld négyzet pedig a 2019 -es résztvevőket. A külföldiek
nagy részben csak egy évben vettek részt a rendezvényen, míg látszik, hogy Román iában azért
nagyjából minden régióból vannak diáknapozók minden évben. Meg is lehet ezt nézni, ha kicsit
ráközelítünk a térképre. Románia területénél buborék, háromszög és négyzet is van.
Adatvizualizáció és Big Data a non -profit szervezetek életében
27
Forrás: saját szerkesztés – Qlik Sense
A közösségépítő erejét a rendezvénynek nem csak az összlétszáma a diáknapozóknak mutatja,
hanem az is, hogy egy csapatban hány különböző régióból származnak az emberek. A csapat
tagjai, ami 35 -37 embert jelent, egész évben edzenek, próbálnak és közös tevékenységeken
vesznek részt, hiszen készülnek a Diáknapokra. Ezáltal egy nagyon szoros kapcsolat tud
kialakulni, amely ez a rendezvény nélkül nem létezne.
A csapatok diverzifikáltságát régió szempontjából egy filter pane és egy pie chart segítségével
vizsgáltam. A filteren ki lehet választani a csapat nevét és a kördiagra mmon pedig megjelenik
a felosztás.
Forrás: saját szerkesztés – Qlik Sense
A kiválasztott csapat a Rámszesz és amint látszik a csapatban nagyon sok térségről érkeznek
az emberek. Bihar, Szilágy megye, Szatmár, Fehér megye és a székelységből is.
Következőkben a sportolók és a nem sportolók arányát mértem, valamint vizsgáltam, hogy
volt-e növekedés sportolók terén az évek során. Ehhez egy pivot táblázatot és egy
Ábra 25. Három évnyi diáknapozó a térképen
Ábra 26. Diáknapos csapatok diverzifikáltsága
Adatvizualizáció és Big Data a non -profit szervezetek életében
28
kördiagrammot használtam. A táblázatban számszerűen látjuk, hogy hány sportoló és hány nem
sportoló van az adott évben, alatta pedig a neki megfelelő kördiagrammot.
Forrás: saját szerkesztés – Qlik Sense
Az eredmény azt mutatja, hogy jóval
több a sportoló diáknapozó, mint a nem sportoló mindhárom évben. Minden évben közel 90% –
a a résztvevőknek sportol. Viszont az évek során nem nőtt a sportolók aránya a nem sportolóké
mellett. Sőt, a 2019 -es évben, tehát az utolsó Diáknapokon voltak legtöbben a nem sportolók.
Valószínű ez annak t udható be, hogy 2019 -ben kevesebb volt a résztvevő csapat, viszont nőtt
a létszám egy csapaton belül , azonban a sportoknál a résztvevők száma ugyanaz kellett
maradjon.
Amely egy érdekes és hasznos kimutatás lehet, az a sportoló és nem sportoló tago k eloszlása
egy csapaton belül . Tudva azt, hogy melyik csapat hogy teljesített és hányadik helyen végzett,
érdekes következtetéseket tudunk levonni. Ehhez a felméréshez két filtert használtam,
amelyben az egyik a csapatot választja ki, a másik pedig, hogy a sportolókat vagy a nem
sportolókat szeretnénk -e látni. Ezek mellé pedig egy bar chartot használtam.
2018 -ban az első helyen a DípPörpöl végzett, a második pedig a Balls&Dolls nevű csapat.
2019 -ben a DípPörpöl már nem játszott és a Balls &Dolls nyert. Els ő körben ezeket a csapatokat
néztem meg 2018 és 2019 -es adatok esetén is.
Forrás: saját szerkesztés – Qlik Sense
Ábra 27. Sportolók és nem sportolók aránya
Adatvizualizáció és Big Data a non -profit szervezetek életében
29
Díp Pörpöl esetén nem lehet kiválasztani a Nem -et a filterben, mivel nem volt olyan ember a
csapatban, aki nem sportolt. Ezzel ellentétben a második helyen végzett csapat ban 5 személy
nem spor toló és egy semleges . 2019 -es nyertes csapatnak 6 nem sportoló t agja volt és ugyanúgy
a másodiknak és a harmadiknak is.
Ezen vizualizációk bizonyítják azt, hogy a Diáknapok nagy részben a sportokról is szól nak és
rengetegen sportolnak a csapatok tagjai közül. Ezen kívül a szervezői csapatnak is egy hasznos
információ, hiszen a vizualizációk alapján csak a sportos csapatoknak van esélyük nyerni, míg
aki más területen jobb, azoknak nem. Tehát innen kiderül, hogy nem arányos a pontozás, a
sportok sokkal többet érnek, mint minden más próba.
A rendelkezésre álló adatokat ilyen módon lehetett feldolgozni. Ezen megoldások mindkét célt
szolgálják, hiszen irányt tudnak adni a döntéshozatalban a szervezet vezetőségén, i llettve
bemutatja az A -kártya esetén, hogy milyen sok emberhez jut el, hány helyen van jelen a
világon, Diákna pok esetén pedig azt is, hogy nagy szerepe van a sportnak ezen a
rendezvénynek. Szinte sportrendezvény nek lehetne nevezni , ha csak a kézzzelfogható adatokat
vesszük alapnak.
Ábra 28. Sportolók száma a nyertes csapatokban
30
3.3 Weboldal látogatottságának tanulmányozása
Az egész kutatást megelőzően a SEMrush.com weboldal segítségével elemeztem a
diaknapok.ro és az akartya.ro oldalakat. A SEMrush.com weboldal online láthatóságot és
marketing analitikai szoftver előfizetéseket értékesít. Vizsgálja, hogy hány oldalról volt
látogatva a vizsgált domain, hány és milyen kulcsszó alapján kerestek rá, milyen régiókbeli,
országbeli domainekről keresték meg, illetve hogyan változott az idő során a látogatottsága.
Ezen kutatás alapján ne gatív eredményekre leltem mindkét projektet illetően. Mindkét projekt
weboldala elég kevés nézettségnek örvend és nem növekvő a tendencia. Azonban az
adatbázisokat feldolgozva és a vizualizációkat elkészítve láttam, hogy igazából rengeteg
élvezője van úgy a diáknapoknak, mint az A -kártyának is, azonban nincs kihasználva a sok
lehetőség. Kiderült, hogy nincs egy stabil, biztonságos online rendszere sem a KMDSZ -nek,
ami miatt veszíthetnek minőségükből a projektek. Ninsc elég partner sem ahhoz, hogy a diákok
elsőre az A -kártyát válasszák, ezért a weboldal sem túl látogatott.
Ezen kívül a weboldalak inaktivitása annak is lehet az eredménye, hogy inkább a közösségi
médián, ezek közül is facebookon és instagramon aktív a szervezet diáknapok és A -kártya
szempontjá ból is.
A SEMrush segítségével végzett elemzés a következő eredményeket szülte.
Az A -kártya weboldal nincs láto gatva, mert nincs elég partner. Vagy ha van is, nem tudják a
diákok, így csak a buszbérlet miatt igényelnek A -kártyát.
A KMDSZ Diáknapok webolda la esetén február óta összesen 111 backlink vezetett a
diaknapok.ro domainre, 14 domain weboldalán volt hivatkozás a diaknapok.ro -ra és 18 egyedi
IP-ről volt rákeresv e az URL címre.
Forrás: semrush.ro
Ábra 29. diaknapok.ro oldal látogatottsága backlinkek alapján
31
Mivel a szervergép, amelyiken tárolva volt a diáknapok weboldala leégett, ezért 2019 -ben újra
el kellett készíteni a weboldal. Márciusra lett készen a weboldal, így márciustól mostanig
lehetett elemezni a weboldal. Ez látszik a grafikonon is.
Forrás: semrush.ro
Ábra 30. diaknapok.ro látogatottsága az idővonalon
A grafikonon az is egyértelműen látszik, hogy április végén nem voltak látogatók, ami a húsvéti
vakációk és a május 1 -es szabadnapoknak tudható be. Majd május 6 -án, pár nappal a
rendezvény előtt felugrott a nézettsége és utána konstans 0 volt .
Forrás: semrush.ro
Az oldalt csak szöveges tipusú backlinkekről érték el. Nem volt sem kép, sem űrlap és keret
sem. A weboldalt több országbeli domainről is felkeresték. Természe tesen a listán az első
Románia. Ezek után az Amerikai Egyesült Államok, Magyarország és Svedország
helyezkednek az első 4 között.
Forrás: semrush.ro
Ábra 31. diaknapok.ro – backlink típusok
Ábra 32. Oldal látogatottsága külföldi domainekről
32
Horgony szövegeknek vannak nevezve azok a szövegek, amelyek rávezetnek a tanulmányozott
domain címre. A népszerűsége attól függ, hogy hány backlink használja. A diaknapok.ro
esetében a következők a legnépszerűbb horgony szövegek:
Forrás: semrush.ro
Az A -kártya esetén sem tudunk hosszabb időszakra szóló elemzést megtekinteni, ugyancsak a
szervergép leégése miatt.
Mivel itt egy egész éves projektről beszélünk, nem csak egy pár napos rendezvényről,
egyértelműen több a látogatottság száma. Viszont nem sokkal több, amely nem túl pozitív
visszajelzés a szervezetnek . Csupán 265 backlink vezetett az utóbbi egy évben az akarta.ro
domainre, ebből 4 9 elveszlődött. Az elveszlődött azt jelenti, hogy valamikor volt hivatkozás
rá, de már nem szerepel. 10 domain, 15 IP hivatkozott rá.
Forrás: semrush.ro
Ábra 34. akartya.ro oldal látogatottsága backlinkek alapján
Az authority score megmutatja, hogy mennyire népszerű és mennyire erős a vizsgált domain.
Az akartya.ro 8 -ast ért el, azonban van két elveszlődött backlink, amely egy minuszt jelent az
értékelésben.
Ábra 33. diaknapok.ro –horgony szavak
33
Az éves látogatottsága a következőképpen néz ki:
Forrás: semrush.ro
Ábra 35. akartya.ro látogatottsága az idővonalon
Január és február környékén volt egy megugrás, valamint májusban egy nagy vesztés. A
backlinkek típusa 30% -ban szöveg és 70% -ban pedig képek. Ez azért van, mert az A -kártyát
inkább képekk el reklámozták a partnerek logó i és illusztrációi s egítségével.
Ezeken kívül fontos megjegyezni azt is, hogy Románia, Magyarország, Amerikai Egyesült
Államok, Kína és Franciaország állna k az első régiók/országok között, akik rákerestek az
akartya.ro -ra, a leírt sorrendben.
A horgony szavak között a legnépszerűbb a kártya szó, de szerepel a honlap, kmdsz és a
partnerek listája is.
34
4. Következtetések
A kutatás során tehát vizsgáltam, hogy lehet -e beszélni big dataról egy diákszervezet
esetén, illetve lehet -e használni az adatvizualizációt ezen a területen is.
Az eredmények kettős jellgűek lettek . Első kézben rengeteg adatot gyűjt össze egy
diákszervez et a rendezvényei és projektjei során, így lehet velük dolgozni és lehet érdekes
következtétesek levonni. Lehet potenciális befektetőnek is bemutatni és lehet döntéshozatalra
segítségként is létrehozni vizualiz ációkat. Van értelme egy diákszervezet foglalk ozzon vele és
haszna is válh at belőle. Ezek alapján tisztább az, hogy hova nem ér eléggé a KMDSZ keze,
melyik területre, melyik egyetemre, melyik évfolyamra kell jobban odafigyelni. Ezen kívül
irányt ad arra is, hogy a közösségi médiákon a fizetett hirdeté sek kinek legyenek célozva.
Potenciális támogatók szempontjából olyan szinten hasznos, hogy vizuális elemekkel is látszik,
hogy mennyire sok embert ér el a diákszervezet a projektek által, nem csak egy számot lát a
partner, amit talán elfelejt, nem érdekli , nem jut el úgy hozzá, mint egy térkép például. Egy
térképpel lehet a legjobban szemléltetni azt, hogy mennyire messze juthat el a logója akár egy
potenciális partnernek.
Azonban egy d iákszervezet nem feltétlen fek tet, legalábbis a KMDSZ eddig nem fektetett
hangsúlyt arra, hogy tudatosan gyűjtse az adatokat annak érdekében, hogy azokat majd fel
lehessen dolgozni a jövőben. Ezért hiányoznak adatok vagy helytelenül szerepelnek, amely
torzít az eredményen. Hasonlóan sz ükség van egy stabil szerverre, ahol a weboldalak és
adatbázisok tárolva vannak, vagy fontos lenne egy backup -ot készíteni, amely megmarad.
Hiszen nincsenek előző évi A -kártya adatok, csak az idei létezik, így többek között nem lehet
összehasonlításokat ké szíteni, amely nagyon hasznos lenne. Ha elvesznek adatok, akkor nincs
mit feldolgozni és az információk sem lesznek annyira hitelesek, valamint nehezebb kevés
adatból következtetéseket levonni. Sőt, akár tévesek lehetnek , vagy rossz útra terelhetik a
halad ási irányt.
Kutatás folytatása esetén első sorban a Qlik Sense felhasználóm Enterprise nézetre alakítanám,
amely viszont már nem ingyenes, de ez azt jelentené, hogy tudnám a vizualizációkat publikálni,
meg tudnám osztani másokkal, nem csak én lennék az aki hozzáfér . Ez azt is jelentené, hogy
lehetőségem lenne egy Hub nevezetű felületét is használni az alkalmazásnak, amely egy oldalra
helyezi az egy adattár alapján készült összes vizualizációt, és egyszerre lehet nézi a
változásokat a különböző illusztrációk nál, ha egy filtert alkalmazunk.
35
Egy másik lehetőség, amelyet érdemes lenne megnézni és vizsgálni, az a szervezet által
használt közösségi médiák segítségével kibányászott adatok. Ez egy hosszasabb kutatás lenne,
hiszen ennek is csak akkor van értelme, ha egy hosszabb időre vonatkozó adatokat gyűjtünk
össze és azokat majd feldolgozzuk. Mindenképp hasznos lenne a jövőbeli döntéseket illetően
és a támogatók bevonzása szempontjából is.
Egy harmadik lehetőség az a különböző adatbázisok és adattárak összekötése és ezek alapján
vizsgálni az összképet a szervezetről. Ez is egy hosszabb folyamat lenne, mivel nincsenek
adataink visszamenőleg, vagy csak nagyon kevés van, ezért gyűjteni kell az ezután
létrejövőket.
Összegezve tehát, egy diákszervezet életében nagyon hasznos lehet ezen technológia
használata és érdemes vele foglakozni, hiszen céltudatosabb, pontosabb és magabiztosabb
döntések születhetnek, valamint az esetleges támogatók is tisztábban látják azt, ami eddig csak
egy szám volt nekik . Azonban addig nem le het hiteles, valósághű eredményekről beszélni,
amíg nincs elég adat, nem tudatosan gyártják és gyűjtik őket, illetve nem tárolják
biztonságosan.
36
Irodalomjegyzék
https://visualdataanalytics.wordpress.com/2017/05/27/az -adatvizualizacio -elmelete/
https://www.ibm.com/analytics/hadoop/big -data-analytics
PAVLUSKA,V. [2003]:A marketing sajátos természete a nonprofit szervezetekben, In:
Tudásmenedzsment4. 2003. 2. pp.18 -26.
MIS Quarterly – Business Intelligence And Analytics: From Big Data To Big Impact
Vol. 36 No. 4/December 2012
https://financesonline.com/data -visualization/
Tiago Carneiro, Raul Victor Medeiros Da Nóbrega, Thiago Nepomuceno, Gui -Bin
Bian, Victor Hugo C. De Albuquerque, Pedro Pedrosa Rebouças Filho – Performance
Analysis of Google Colaboratory as a Tool for Accelerating Deep Learning
Applications date of publication October 8, 2018, date of current version No vember 9,
2018. Digital Object Identifier 10.1109/ACCESS.2018.2874767
De John Paul Mueller, Luca Massaron – Python for Data Science For Dummies , January
16, 2019. Pages 1 -110
https://colab.research.google.com/notebooks/welcome.ipynb
https://pandas.pydata.org/pandas -doc
Christopher Ilacqua, Henric Cronstrom, James Richardson – Learning Qlik Sense : The
Official Guide , 2015
Copyright Notice
© Licențiada.org respectă drepturile de proprietate intelectuală și așteaptă ca toți utilizatorii să facă același lucru. Dacă consideri că un conținut de pe site încalcă drepturile tale de autor, te rugăm să trimiți o notificare DMCA.
Acest articol: Közgazdaság – és Gazdálkodástudományi Kar Gazdasági informatika Szakdolgozat Végzős hallgató , KOCSIS Malvina – Gréti Témavezető , Dr. KOVÁCS… [619312] (ID: 619312)
Dacă considerați că acest conținut vă încalcă drepturile de autor, vă rugăm să depuneți o cerere pe pagina noastră Copyright Takedown.
