Dotsent kafedry prikladnyh informatsionnyh tehnologiy Instituta obshchestvennyh nauk RANHiGS k.t.n., dotsent Mosyagin Aleksandr Borisovich albor99@mail.ru… [617224]
ISPOLZOVANIE METODOLOGII
DATA MINING
PRI REShENII ZADACh OBRABOTKI
SOTsIALNYH DANNYH
Dotsent kafedry prikladnyh informatsionnyh tehnologiy
Instituta obshchestvennyh nauk RANHiGS
k.t.n., dotsent Mosyagin Aleksandr Borisovich [anonimizat]
Vvedenie
Segodnya v prikladnyh sotsiologicheskih
issledovaniyah proishodit nastoyashchaya
revolyutsiya, svyazannaya s poyavleniem
printsipialno novyh istochnikov dannyh,
prezhde vsego osnovannyh na t.n.
obektivnoy registratsii realnogo
povedeniya lyudey .
Na osnove novyh informatsionnyh
tehnologiy razlichnye subekty
(gosorgany i biznes -struktury) sobirayut
ogromnye massivy dannyh (Big Data ),
kotorye ispolzuyutsya v sotsialnoy
diagnostike i prikladnyh issledovaniyah .
Analitiki dazhe predrekayut smert
traditsionnym metodam sotsiologicheskih
issledovaniy, v bolshey mere
osnovannym na subektivnoy
informatsii, poluchaemoy v hode raznogo
roda oprosov . Sushchestvuet horoshee vyskazyvanie,
chto
"Za poslednie gody, kogda,
stremyas k povysheniyu
effektivnosti i pribylnosti
biznesa, pri sozdanii BD vse stali
polzovatsya sredstvami
obrabotki tsifrovoy informatsii,
poyavilsya i pobochnyy produkt etoy
aktivnosti – gory sobrannyh
dannyh : I vot vse bolshe
rasprostranyaetsya ideya o tom, chto
eti gory polny zolota" .
V proshlom protsess dobychi zolota
v gornoy promyshlennosti sostoyal
iz vybora uchastka zemli i
dalneyshego ee proseivaniya
bolshoe kolichestvo raz.
1 2
Ponyatie Data Mining
Termin Data Mining chasto perevoditsya kak dobycha dannyh,
izvlechenie informatsii, raskopka dannyh, intellektualnyy
analiz dannyh, sredstva poiska zakonomernostey, izvlechenie
znaniy, analiz shablonov, raskopka znaniy v bazah dannyh . Ponyatie
"obnaruzhenie znaniy v bazah dannyh" (Knowledge Discovery in
Databases , KDD ) mozhno schitat sinonimom Data Mining .
Ponyatie Data Mining , poyavivsheesya v 1978 godu, priobrelo vysokuyu
populyarnost v sovremennoy traktovke primerno s pervoy poloviny
1990 -h godov . Do etogo vremeni obrabotka i analiz dannyh
osushchestvlyalsya v ramkah prikladnoy statistiki, pri etom v osnovnom
reshalis zadachi obrabotki nebolshih baz dannyh .
2 3
Faktory vozniknoveniya i
razvitiya Data Mining
sovershenstvovanie apparatnogo i
programmnogo obespecheniya;
sovershenstvovanie tehnologiy
hraneniya i zapisi dannyh ;
nakoplenie bolshogo kolichestva
retrospektivnyh dannyh ;
sovershenstvovanie algoritmov
obrabotki informatsii.
3 4
Opredelenie Data Mining
Data Mining – eto protsess podderzhki prinyatiya resheniy,
osnovannyy na poiske v dannyh skrytyh
zakonomernostey (shablonov informatsii ), t.e. eto
protsess obnaruzheniya v syryh dannyh ranee
neizvestnyh, netrivialnyh, prakticheski poleznyh i
dostupnyh interpretatsiy znaniy, neobhodimyh dlya
prinyatiya resheniy v razlichnyh sferah chelovecheskoy
deyatelnosti .
Metodologiya Data Mining – eto multidistsiplinarnaya
oblast, voznikshaya i razvivayushchayasya na baze takih nauk
kak prikladnaya statistika, raspoznavanie obrazov,
iskusstvennyy intellekt, teoriya baz dannyh i dr.
4 5
Data Mining kak
multidistsiplinarnaya oblast
5 6
Osnova tehnologii Data Mining
Kontseptsiya shablonov (patterns ), kotorye
predstavlyayut soboy zakonomernosti,
svoystvennye vyborkam dannyh, kotorye mogut
byt vyrazheny v forme, ponyatnoy cheloveku .
Tsel poiska zakonomernostey – predstavlenie
dannyh v vide, otrazhayushchem iskomye protsessy .
Postroenie modeley prognozirovaniya takzhe
yavlyaetsya tselyu poiska takih zakonomernostey .
Chtoby maksimalno ispolzovat moshchnost
masshtabiruemyh instrumentov Data Mining , v
sotsiologicheskih issledovaniyah neobhodimo
vybrat, ochistit i preobrazovat dannye, inogda
integrirovat informatsiyu, dobytuyu iz vneshnih
istochnikov, i ustanovit spetsialnuyu sredu dlya
raboty Data Mining algoritmov .
6 7
Tehnologiya Data Mining
Data Mining – eto protsess podderzhki prinyatiya resheniy , osnovannyy na poiske
v dannyh skrytyh zakonomernostey ( shablonov informatsii) .
Tehnologiyu Data Mining dostatochno tochno opredelyaet Grigoriy Piatetskiy -Shapiro (Gregory
Piatetsky -Shapiro ) – odin iz osnovateley etogo napravleniya :
Data Mining – eto protsess obnaruzheniya v syryh dannyh ranee neizvestnyh, netrivialnyh,
prakticheski poleznyh i dostupnyh interpretatsii znaniy, neobhodimyh dlya prinyatiya resheniy v
razlichnyh sferah chelovecheskoy deyatelnosti .
Sut i tsel tehnologii Data Mining mozhno oharakterizovat tak: eto tehnologiya, kotoraya
prednaznachena dlya poiska v bolshih obemah dannyh neochevidnyh, obektivnyh i poleznyh na
praktike zakonomernostey .
Neochevidnyh – eto znachit, chto naydennye zakonomernosti ne obnaruzhivayutsya standartnymi
metodami obrabotki informatsii ili ekspertnym putem .
Obektivnyh – eto znachit, chto obnaruzhennye zakonomernosti budut polnostyu sootvetstvovat
deystvitelnosti, v otlichie ot ekspertnogo mneniya, kotoroe vsegda yavlyaetsya subektivnym .
Prakticheski poleznyh – eto znachit, chto vyvody imeyut konkretnoe znachenie , kotoromu mozhno
nayti prakticheskoe primenenie .
Znaniya – sovokupnost svedeniy, kotoraya obrazuet tselostnoe opisanie, sootvetstvuyushchee
nekotoromu urovnyu osvedomlennosti ob opisyvaemom voprose, predmete, probleme i t.d.
Ispolzovanie znaniy (knowledge deployment ) oznachaet deystvitelnoe primenenie naydennyh
znaniy dlya dostizheniya konkretnyh preimushchestv (naprimer, v konkurentnoy borbe za rynok) .
7 8
Data Mining kak chast rynka
informatsionnyh tehnologiy
Agentstvo Gartner Group , zanimayushcheesya analizom rynkov informatsionnyh tehnologiy, v 1980 -h
godah vvelo termin " Business Intelligence " (BI), delovoy intellekt ili biznes -intellekt . Etot
termin predlozhen dlya opisaniya razlichnyh kontseptsiy i metodov, kotorye uluchshayut biznes
resheniya putem ispolzovaniya sistem podderzhki prinyatiya resheniy .
Business Intelligence – programmnye sredstva, funktsioniruyushchie v ramkah predpriyatiya i
obespechivayushchie funktsii dostupa i analiza informatsii, kotoraya nahoditsya v hranilishche dannyh ,
a takzhe obespechivayushchie prinyatie pravilnyh i obosnovannyh upravlencheskih resheniy .
BI-sistemy takzhe izvestny pod nazvaniem Sistem Podderzhki Prinyatiya Resheniy (SPPR ,
DSS, Decision Support System ). Eti sistemy prevrashchayut dannye v informatsiyu, na osnove kotoroy
mozhno prinimat resheniya, t.e. podderzhivayushchuyu prinyatie resheniy .
Gartner Group opredelyaet sostav rynka sistem Business Intelligence kak nabor programmnyh
produktov sleduyushchih klassov :
sredstva postroeniya hranilishch dannyh (data warehousing , HD);
sistemy operativnoy analiticheskoy obrabotki (OLAP) ;
informatsionno -analiticheskie sistemy (Enterprise Information Systems , EIS);
sredstva intellektualnogo analiza dannyh (data mining );
instrumenty dlya vypolneniya zaprosov i postroeniya otchetov (query and reporting tools ).
8 9
Mnenie ekspertov o Data Mining
Rukovodstvo po priobreteniyu produktov Data Mining (Enterprise Data Mining Buying Guide ) kompanii Aberdeen
Group : " Data Mining – tehnologiya dobychi poleznoy informatsii iz baz dannyh . Odnako v svyazi s sushchestvennymi
razlichiyami mezhdu instrumentami, opytom i finansovym sostoyaniem postavshchikov produktov, predpriyatiyam
neobhodimo tshchatelno otsenivat predpolagaemyh razrabotchikov Data Mining i partnerov .
Chtoby maksimalno ispolzovat moshchnost masshtabiruemyh instrumentov Data Mining kommercheskogo urovnya,
predpriyatiyu neobhodimo vybrat, ochistit i preobrazovat dannye, inogda integrirovat informatsiyu,
dobytuyu iz vneshnih istochnikov, i ustanovit spetsialnuyu sredu dlya raboty Data Mining algoritmov .
Rezultaty Data Mining v bolshoy mere zavisyat ot urovnya podgotovki dannyh , a ne ot "chudesnyh vozmozhnostey"
nekoego algoritma ili nabora algoritmov . Okolo 75% raboty nad Data Mining sostoit v sbore dannyh , kotoryy
sovershaetsya eshche do togo, kak zapuskayutsya sami instrumenty . Negramotno primeniv nekotorye instrumenty,
predpriyatie mozhet bessmyslenno rastratit svoy potentsial, a inogda i milliony dollarov" .
Mnenie Herba Edelshtayna (Herb Edelstein ), izvestnogo v mire eksperta v oblasti Data Mining ,
Hranilishch dannyh i CRM : "Nedavnee issledovanie kompanii Two Crows pokazalo, chto Data Mining nahoditsya vse
eshche na ranney stadii razvitiya . Mnogie organizatsii interesuyutsya etoy tehnologiey, no lish nekotorye
aktivno vnedryayut takie proekty . Udalos vyyasnit eshche odin vazhnyy moment : protsess realizatsii Data
Mining na praktike okazyvaetsya bolee slozhnym, chem ozhidaetsya .
IT-komandy uvleklis mifom o tom, chto sredstva Data Mining prosty v ispolzovanii . Predpolagaetsya, chto
dostatochno zapustit takoy instrument na terabaytnoy baze dannyh , i momentalno poyavitsya poleznaya
informatsiya . Na samom dele, uspeshnyy Data Mining -proekt trebuet ponimaniya suti deyatelnosti,
znaniya dannyh i instrumentov, a takzhe protsessa analiza dannyh ".
9 10
Nedostatki tehnologii
Data Mining
Data Mining ne mozhet zamenit analitika
Slozhnost razrabotki i ekspluatatsii prilozheniya Data Mining
Kvalifikatsiya polzovatelya
Izvlechenie poleznyh svedeniy nevozmozhno bez horoshego ponimaniya suti dannyh
Slozhnost podgotovki dannyh
Bolshoy protsent lozhnyh, nedostovernyh ili bessmyslennyh rezultatov
Vysokaya stoimost
Nalichie dostatochnogo kolichestva reprezentativnyh dannyh
10 11
Otlichiya Data Mining ot drugih
metodov analiza dannyh
Traditsionnye metody analiza dannyh (statisticheskie metody) i OLAP v osnovnom
orientirovany na proverku zaranee sformulirovannyh gipotez (verification –
driven data mining ) i na "grubyy" razvedochnyy analiz, sostavlyayushchiy osnovu
operativnoy analiticheskoy obrabotki dannyh (OnLine Analytical Processing , OLAP), v to
vremya kak odno iz osnovnyh polozheniy Data Mining – poisk
neochevidnyh zakonomernostey . Instrumenty Data Mining mogut nahodit
takie zakonomernosti samostoyatelno i takzhe samostoyatelno stroit gipotezy o
vzaimosvyazyah . Poskolku imenno formulirovka gipotezy otnositelno zavisimostey
yavlyaetsya samoy slozhnoy zadachey, preimushchestvo Data Mining po sravneniyu s drugimi
metodami analiza yavlyaetsya ochevidnym .
Bolshinstvo statisticheskih metodov dlya vyyavleniya vzaimosvyazey
v dannyh ispolzuyut kontseptsiyu usredneniya po vyborke, privodyashchuyu k operatsiyam
nad nesushchestvuyushchimi velichinami, togda kak Data Mining operiruet realnymi
znacheniyami .
OLAP bolshe podhodit dlya ponimaniya retrospektivnyh dannyh , Data
Mining opiraetsya na retrospektivnye dannye dlya polucheniya otvetov na voprosy o
budushchem .
11 12
Perspektivy tehnologii
Data Mining
Otnositelno perspektiv Data Mining vozmozhny sleduyushchie
napravleniya razvitiya :
vydelenie tipov predmetnyh oblastey s sootvetstvuyushchimi im
evristikami, formalizatsiya kotoryh oblegchit reshenie
sootvetstvuyushchih zadach Data Mining , otnosyashchihsya k etim oblastyam ;
sozdanie formalnyh yazykov i logicheskih sredstv, s pomoshchyu
kotoryh budut formalizovany rassuzhdeniya i avtomatizatsiya
kotoryh stanet instrumentom resheniya zadach Data Mining v
konkretnyh predmetnyh oblastyah ;
sozdanie metodov Data Mining , sposobnyh ne tolko izvlekat
iz dannyh zakonomernosti , no i formirovat nekie teorii,
opirayushchiesya na empiricheskie dannye ;
preodolenie sushchestvennogo otstavaniya vozmozhnostey
instrumentalnyh sredstv Data Mining ot teoreticheskih dostizheniy
v etoy oblasti .
12 13
Klassifikatsiya stadiy
Data Mining
Data Mining mozhet sostoyat iz dvuh ili treh stadiy :
Stadiya 1. Vyyavlenie zakonomernostey ( svobodnyy poisk ).
Stadiya 2. Ispolzovanie vyyavlennyh zakonomernostey dlya predskazaniya
neizvestnyh znacheniy ( prognosticheskoe modelirovanie ).
V dopolnenie k etim stadiyam inogda vvodyat stadiyu validatsii , sleduyushchuyu
za stadiey svobodnogo poiska . Tsel validatsii – proverka dostovernosti
naydennyh zakonomernostey .
Stadiya 3. Analiz isklyucheniy – stadiya prednaznachena dlya vyyavleniya i
obyasneniya anomaliy, naydennyh v zakonomernostyah .
Itak, protsess Data Mining mozhet byt predstavlen ryadom takih
posledovatelnyh stadiy :
SVOBODNYY POISK (v tom chisle VALIDATsIYa) ->
-> PROGNOSTIChESKOE MODELIROVANIE ->
-> ANALIZ ISKLYuChENIY
13 14
Klassifikatsiya metodov
Data Mining
Tehnologicheskie metody :
1. Neposredstvennoe ispolzovanie dannyh, ili sohranenie dannyh .
2. Vyyavlenie i ispolzovanie formalizovannyh zakonomernostey , ili distillyatsiya
shablonov .
Statisticheskie metody :
1. Deskriptivnyy analiz i opisanie ishodnyh dannyh .
2. Analiz svyazey (korrelyatsionnyy i regressionnyy analiz, faktornyy
analiz, dispersionnyy analiz) .
3. Mnogomernyy statisticheskiy analiz (komponentnyy analiz, diskriminantnyy analiz,
mnogomernyy regressionnyy analiz, kanonicheskie korrelyatsii i dr.).
4. Analiz vremennyh ryadov (dinamicheskie modeli i prognozirovanie) .
Kiberneticheskie metody : iskusstvennye neyronnye seti (raspoznavanie, klasterizatsiya,
prognoz ); evolyutsionnoe programmirovanie (v t.ch. algoritmy metoda gruppovogo ucheta
argumentov ); geneticheskie algoritmy (optimizatsiya ); assotsiativnaya pamyat (poisk analogov,
prototipov ); nechetkaya logika ; derevya resheniy ; sistemy obrabotki ekspertnyh znaniy .
Metody Data Mining takzhe mozhno klassifitsirovat po zadacham Data Mining :
V sootvetstvii s takoy klassifikatsiey vydelyayut dve gruppy .
Pervaya iz nih – eto podrazdelenie metodov Data Mining na reshayushchie zadachi
segmentatsii (t.e. zadachi klassifikatsii i klasterizatsii) i zadachi prognozirovaniya .
14 15
Postavshchiki Data Mining
15 16
Programmnye pakety s
instrumentami Data Mining
16 17
STATA , S-PLUS, Stadia, STATGRAPHICS,
SYSTAT, Minitab
SPSS (SPSS, Clementine),
Statistica (StatSoft ), SAS Institute
(SAS Enterprise Miner ), Cognos
Zaklyuchenie
Oblasti, gde primeneniya tehnologii Data Mining , skoree vsego, budut uspeshnymi, imeyut takie
osobennosti :
trebuyut resheniy, osnovannyh na znaniyah ;
imeyut izmenyayushchuyusya okruzhayushchuyu sredu ;
imeyut dostupnye, dostatochnye i znachimye dannye ;
obespechivayut vysokie dividendy ot pravilnyh resheniy .
I vse eti harakteristiki prisushchi sotsiologii .
Takim obrazom, tehnologiya Data Mining postoyanno razvivaetsya, privlekaet k sebe vse bolshiy
interes, kak so storony nauchnogo mira, tak i so storony primeneniya dostizheniy tehnologii v
biznese, sotsiologicheskih issledovaniyah .
S sentyabrya 2014 g. v Institute obshchestvennyh nauk sozdana i uspeshno funktsioniruet kafedra
Prikladnyh informatsionnyh tehnologiy , sostoyashchey iz matematikov -informatikov , obladayushchih
bolshim opytom ispolzovaniya, razrabotki i vnedreniya informatsionnyh tehnologiy v
razlichnye prikladnye oblasti . V tom chisle, est i spetsialisty, sposobnye obuchat i peredavat
znaniya metodologii Data Mining , osobennostey ispolzovaniya algoritmov i instrumentov
programmnyh prilozheniy dlya obrabotki i analiza strukturirovannyh dannyh .
17 18
Literatura
1. Encyclopedia of Data Warehousing and Mining. – Idea Group Inc.,
2006.
2. Vercellis C. Business Intelligence: Data Mining and Optimization for
Decision Making. – Wiley Publishing, Inc., 2009.
3. Paklin N.B., Oreshkov V.I. Biznes -analitika: ot dannyh k znaniyam:
Uchebnoe posobie. 2 -e izd., ispr . – SPb: Piter, 2013. – 704 s.
4. Sayt http://www.kdnuggets.com/ – sovremennye tehnologii
ispolzovaniya Data Mining v prikladnyh oblastyah, osobennosti
primeneniya instrumentariya tehnologii
5. Sayt http://www.knowldiscovery.com/ – periodicheskie izdaniya po
Data Mining // Data Mining and Knowledge Discovery.
18 19
Copyright Notice
© Licențiada.org respectă drepturile de proprietate intelectuală și așteaptă ca toți utilizatorii să facă același lucru. Dacă consideri că un conținut de pe site încalcă drepturile tale de autor, te rugăm să trimiți o notificare DMCA.
Acest articol: Dotsent kafedry prikladnyh informatsionnyh tehnologiy Instituta obshchestvennyh nauk RANHiGS k.t.n., dotsent Mosyagin Aleksandr Borisovich albor99@mail.ru… [617224] (ID: 617225)
Dacă considerați că acest conținut vă încalcă drepturile de autor, vă rugăm să depuneți o cerere pe pagina noastră Copyright Takedown.
