Dotsent kafedry prikladnyh informatsionnyh tehnologiy Instituta obshchestvennyh nauk RANHiGS k.t.n., dotsent Mosyagin Aleksandr Borisovich albor99@mail.ru… [617224]

ISPOLZOVANIE METODOLOGII
DATA MINING
PRI REShENII ZADACh OBRABOTKI
SOTsIALNYH DANNYH
Dotsent kafedry prikladnyh informatsionnyh tehnologiy
Instituta obshchestvennyh nauk RANHiGS
k.t.n., dotsent Mosyagin Aleksandr Borisovich [anonimizat]

Vvedenie
Segodnya v prikladnyh sotsiologicheskih
issledovaniyah proishodit nastoyashchaya
revolyutsiya, svyazannaya s poyavleniem
printsipialno novyh istochnikov dannyh,
prezhde vsego osnovannyh na t.n.
obektivnoy registratsii realnogo
povedeniya lyudey .
Na osnove novyh informatsionnyh
tehnologiy razlichnye subekty
(gosorgany i biznes -struktury) sobirayut
ogromnye massivy dannyh (Big Data ),
kotorye ispolzuyutsya v sotsialnoy
diagnostike i prikladnyh issledovaniyah .
Analitiki dazhe predrekayut smert
traditsionnym metodam sotsiologicheskih
issledovaniy, v bolshey mere
osnovannym na subektivnoy
informatsii, poluchaemoy v hode raznogo
roda oprosov . Sushchestvuet horoshee vyskazyvanie,
chto
"Za poslednie gody, kogda,
stremyas k povysheniyu
effektivnosti i pribylnosti
biznesa, pri sozdanii BD vse stali
polzovatsya sredstvami
obrabotki tsifrovoy informatsii,
poyavilsya i pobochnyy produkt etoy
aktivnosti – gory sobrannyh
dannyh : I vot vse bolshe
rasprostranyaetsya ideya o tom, chto
eti gory polny zolota" .
V proshlom protsess dobychi zolota
v gornoy promyshlennosti sostoyal
iz vybora uchastka zemli i
dalneyshego ee proseivaniya
bolshoe kolichestvo raz.
1 2

Ponyatie Data Mining
Termin Data Mining chasto perevoditsya kak dobycha dannyh,
izvlechenie informatsii, raskopka dannyh, intellektualnyy
analiz dannyh, sredstva poiska zakonomernostey, izvlechenie
znaniy, analiz shablonov, raskopka znaniy v bazah dannyh . Ponyatie
"obnaruzhenie znaniy v bazah dannyh" (Knowledge Discovery in
Databases , KDD ) mozhno schitat sinonimom Data Mining .

Ponyatie Data Mining , poyavivsheesya v 1978 godu, priobrelo vysokuyu
populyarnost v sovremennoy traktovke primerno s pervoy poloviny
1990 -h godov . Do etogo vremeni obrabotka i analiz dannyh
osushchestvlyalsya v ramkah prikladnoy statistiki, pri etom v osnovnom
reshalis zadachi obrabotki nebolshih baz dannyh .

2 3

Faktory vozniknoveniya i
razvitiya Data Mining
sovershenstvovanie apparatnogo i
programmnogo obespecheniya;
sovershenstvovanie tehnologiy
hraneniya i zapisi dannyh ;
nakoplenie bolshogo kolichestva
retrospektivnyh dannyh ;
sovershenstvovanie algoritmov
obrabotki informatsii.
3 4

Opredelenie Data Mining
Data Mining – eto protsess podderzhki prinyatiya resheniy,
osnovannyy na poiske v dannyh skrytyh
zakonomernostey (shablonov informatsii ), t.e. eto
protsess obnaruzheniya v syryh dannyh ranee
neizvestnyh, netrivialnyh, prakticheski poleznyh i
dostupnyh interpretatsiy znaniy, neobhodimyh dlya
prinyatiya resheniy v razlichnyh sferah chelovecheskoy
deyatelnosti .
Metodologiya Data Mining – eto multidistsiplinarnaya
oblast, voznikshaya i razvivayushchayasya na baze takih nauk
kak prikladnaya statistika, raspoznavanie obrazov,
iskusstvennyy intellekt, teoriya baz dannyh i dr.
4 5

Data Mining kak
multidistsiplinarnaya oblast
5 6

Osnova tehnologii Data Mining
Kontseptsiya shablonov (patterns ), kotorye
predstavlyayut soboy zakonomernosti,
svoystvennye vyborkam dannyh, kotorye mogut
byt vyrazheny v forme, ponyatnoy cheloveku .
Tsel poiska zakonomernostey – predstavlenie
dannyh v vide, otrazhayushchem iskomye protsessy .
Postroenie modeley prognozirovaniya takzhe
yavlyaetsya tselyu poiska takih zakonomernostey .
Chtoby maksimalno ispolzovat moshchnost
masshtabiruemyh instrumentov Data Mining , v
sotsiologicheskih issledovaniyah neobhodimo
vybrat, ochistit i preobrazovat dannye, inogda
integrirovat informatsiyu, dobytuyu iz vneshnih
istochnikov, i ustanovit spetsialnuyu sredu dlya
raboty Data Mining algoritmov .
6 7

Tehnologiya Data Mining
 Data Mining – eto protsess podderzhki prinyatiya resheniy , osnovannyy na poiske
v dannyh skrytyh zakonomernostey ( shablonov informatsii) .
 Tehnologiyu Data Mining dostatochno tochno opredelyaet Grigoriy Piatetskiy -Shapiro (Gregory
Piatetsky -Shapiro ) – odin iz osnovateley etogo napravleniya :
 Data Mining – eto protsess obnaruzheniya v syryh dannyh ranee neizvestnyh, netrivialnyh,
prakticheski poleznyh i dostupnyh interpretatsii znaniy, neobhodimyh dlya prinyatiya resheniy v
razlichnyh sferah chelovecheskoy deyatelnosti .
 Sut i tsel tehnologii Data Mining mozhno oharakterizovat tak: eto tehnologiya, kotoraya
prednaznachena dlya poiska v bolshih obemah dannyh neochevidnyh, obektivnyh i poleznyh na
praktike zakonomernostey .
 Neochevidnyh – eto znachit, chto naydennye zakonomernosti ne obnaruzhivayutsya standartnymi
metodami obrabotki informatsii ili ekspertnym putem .
 Obektivnyh – eto znachit, chto obnaruzhennye zakonomernosti budut polnostyu sootvetstvovat
deystvitelnosti, v otlichie ot ekspertnogo mneniya, kotoroe vsegda yavlyaetsya subektivnym .
 Prakticheski poleznyh – eto znachit, chto vyvody imeyut konkretnoe znachenie , kotoromu mozhno
nayti prakticheskoe primenenie .
Znaniya – sovokupnost svedeniy, kotoraya obrazuet tselostnoe opisanie, sootvetstvuyushchee
nekotoromu urovnyu osvedomlennosti ob opisyvaemom voprose, predmete, probleme i t.d.
 Ispolzovanie znaniy (knowledge deployment ) oznachaet deystvitelnoe primenenie naydennyh
znaniy dlya dostizheniya konkretnyh preimushchestv (naprimer, v konkurentnoy borbe za rynok) .
7 8

Data Mining kak chast rynka
informatsionnyh tehnologiy
 Agentstvo Gartner Group , zanimayushcheesya analizom rynkov informatsionnyh tehnologiy, v 1980 -h
godah vvelo termin " Business Intelligence " (BI), delovoy intellekt ili biznes -intellekt . Etot
termin predlozhen dlya opisaniya razlichnyh kontseptsiy i metodov, kotorye uluchshayut biznes
resheniya putem ispolzovaniya sistem podderzhki prinyatiya resheniy .
 Business Intelligence – programmnye sredstva, funktsioniruyushchie v ramkah predpriyatiya i
obespechivayushchie funktsii dostupa i analiza informatsii, kotoraya nahoditsya v hranilishche dannyh ,
a takzhe obespechivayushchie prinyatie pravilnyh i obosnovannyh upravlencheskih resheniy .
 BI-sistemy takzhe izvestny pod nazvaniem Sistem Podderzhki Prinyatiya Resheniy (SPPR ,
DSS, Decision Support System ). Eti sistemy prevrashchayut dannye v informatsiyu, na osnove kotoroy
mozhno prinimat resheniya, t.e. podderzhivayushchuyu prinyatie resheniy .
 Gartner Group opredelyaet sostav rynka sistem Business Intelligence kak nabor programmnyh
produktov sleduyushchih klassov :
 sredstva postroeniya hranilishch dannyh (data warehousing , HD);
 sistemy operativnoy analiticheskoy obrabotki (OLAP) ;
informatsionno -analiticheskie sistemy (Enterprise Information Systems , EIS);
 sredstva intellektualnogo analiza dannyh (data mining );
 instrumenty dlya vypolneniya zaprosov i postroeniya otchetov (query and reporting tools ).
8 9

Mnenie ekspertov o Data Mining
 Rukovodstvo po priobreteniyu produktov Data Mining (Enterprise Data Mining Buying Guide ) kompanii Aberdeen
Group : " Data Mining – tehnologiya dobychi poleznoy informatsii iz baz dannyh . Odnako v svyazi s sushchestvennymi
razlichiyami mezhdu instrumentami, opytom i finansovym sostoyaniem postavshchikov produktov, predpriyatiyam
neobhodimo tshchatelno otsenivat predpolagaemyh razrabotchikov Data Mining i partnerov .
 Chtoby maksimalno ispolzovat moshchnost masshtabiruemyh instrumentov Data Mining kommercheskogo urovnya,
predpriyatiyu neobhodimo vybrat, ochistit i preobrazovat dannye, inogda integrirovat informatsiyu,
dobytuyu iz vneshnih istochnikov, i ustanovit spetsialnuyu sredu dlya raboty Data Mining algoritmov .
 Rezultaty Data Mining v bolshoy mere zavisyat ot urovnya podgotovki dannyh , a ne ot "chudesnyh vozmozhnostey"
nekoego algoritma ili nabora algoritmov . Okolo 75% raboty nad Data Mining sostoit v sbore dannyh , kotoryy
sovershaetsya eshche do togo, kak zapuskayutsya sami instrumenty . Negramotno primeniv nekotorye instrumenty,
predpriyatie mozhet bessmyslenno rastratit svoy potentsial, a inogda i milliony dollarov" .
 Mnenie Herba Edelshtayna (Herb Edelstein ), izvestnogo v mire eksperta v oblasti Data Mining ,
Hranilishch dannyh i CRM : "Nedavnee issledovanie kompanii Two Crows pokazalo, chto Data Mining nahoditsya vse
eshche na ranney stadii razvitiya . Mnogie organizatsii interesuyutsya etoy tehnologiey, no lish nekotorye
aktivno vnedryayut takie proekty . Udalos vyyasnit eshche odin vazhnyy moment : protsess realizatsii Data
Mining na praktike okazyvaetsya bolee slozhnym, chem ozhidaetsya .
 IT-komandy uvleklis mifom o tom, chto sredstva Data Mining prosty v ispolzovanii . Predpolagaetsya, chto
dostatochno zapustit takoy instrument na terabaytnoy baze dannyh , i momentalno poyavitsya poleznaya
informatsiya . Na samom dele, uspeshnyy Data Mining -proekt trebuet ponimaniya suti deyatelnosti,
znaniya dannyh i instrumentov, a takzhe protsessa analiza dannyh ".

9 10

Nedostatki tehnologii
Data Mining
Data Mining ne mozhet zamenit analitika
Slozhnost razrabotki i ekspluatatsii prilozheniya Data Mining
Kvalifikatsiya polzovatelya
Izvlechenie poleznyh svedeniy nevozmozhno bez horoshego ponimaniya suti dannyh
Slozhnost podgotovki dannyh
Bolshoy protsent lozhnyh, nedostovernyh ili bessmyslennyh rezultatov
Vysokaya stoimost
Nalichie dostatochnogo kolichestva reprezentativnyh dannyh
10 11

Otlichiya Data Mining ot drugih
metodov analiza dannyh
Traditsionnye metody analiza dannyh (statisticheskie metody) i OLAP v osnovnom
orientirovany na proverku zaranee sformulirovannyh gipotez (verification –
driven data mining ) i na "grubyy" razvedochnyy analiz, sostavlyayushchiy osnovu
operativnoy analiticheskoy obrabotki dannyh (OnLine Analytical Processing , OLAP), v to
vremya kak odno iz osnovnyh polozheniy Data Mining – poisk
neochevidnyh zakonomernostey . Instrumenty Data Mining mogut nahodit
takie zakonomernosti samostoyatelno i takzhe samostoyatelno stroit gipotezy o
vzaimosvyazyah . Poskolku imenno formulirovka gipotezy otnositelno zavisimostey
yavlyaetsya samoy slozhnoy zadachey, preimushchestvo Data Mining po sravneniyu s drugimi
metodami analiza yavlyaetsya ochevidnym .
Bolshinstvo statisticheskih metodov dlya vyyavleniya vzaimosvyazey
v dannyh ispolzuyut kontseptsiyu usredneniya po vyborke, privodyashchuyu k operatsiyam
nad nesushchestvuyushchimi velichinami, togda kak Data Mining operiruet realnymi
znacheniyami .
OLAP bolshe podhodit dlya ponimaniya retrospektivnyh dannyh , Data
Mining opiraetsya na retrospektivnye dannye dlya polucheniya otvetov na voprosy o
budushchem .

11 12

Perspektivy tehnologii
Data Mining
Otnositelno perspektiv Data Mining vozmozhny sleduyushchie
napravleniya razvitiya :
vydelenie tipov predmetnyh oblastey s sootvetstvuyushchimi im
evristikami, formalizatsiya kotoryh oblegchit reshenie
sootvetstvuyushchih zadach Data Mining , otnosyashchihsya k etim oblastyam ;
sozdanie formalnyh yazykov i logicheskih sredstv, s pomoshchyu
kotoryh budut formalizovany rassuzhdeniya i avtomatizatsiya
kotoryh stanet instrumentom resheniya zadach Data Mining v
konkretnyh predmetnyh oblastyah ;
sozdanie metodov Data Mining , sposobnyh ne tolko izvlekat
iz dannyh zakonomernosti , no i formirovat nekie teorii,
opirayushchiesya na empiricheskie dannye ;
preodolenie sushchestvennogo otstavaniya vozmozhnostey
instrumentalnyh sredstv Data Mining ot teoreticheskih dostizheniy
v etoy oblasti .
12 13

Klassifikatsiya stadiy
Data Mining
Data Mining mozhet sostoyat iz dvuh ili treh stadiy :
Stadiya 1. Vyyavlenie zakonomernostey ( svobodnyy poisk ).
Stadiya 2. Ispolzovanie vyyavlennyh zakonomernostey dlya predskazaniya
neizvestnyh znacheniy ( prognosticheskoe modelirovanie ).
V dopolnenie k etim stadiyam inogda vvodyat stadiyu validatsii , sleduyushchuyu
za stadiey svobodnogo poiska . Tsel validatsii – proverka dostovernosti
naydennyh zakonomernostey .
Stadiya 3. Analiz isklyucheniy – stadiya prednaznachena dlya vyyavleniya i
obyasneniya anomaliy, naydennyh v zakonomernostyah .
Itak, protsess Data Mining mozhet byt predstavlen ryadom takih
posledovatelnyh stadiy :
SVOBODNYY POISK (v tom chisle VALIDATsIYa) ->
-> PROGNOSTIChESKOE MODELIROVANIE ->
-> ANALIZ ISKLYuChENIY
13 14

Klassifikatsiya metodov
Data Mining
 Tehnologicheskie metody :
 1. Neposredstvennoe ispolzovanie dannyh, ili sohranenie dannyh .
 2. Vyyavlenie i ispolzovanie formalizovannyh zakonomernostey , ili distillyatsiya
shablonov .
 Statisticheskie metody :
 1. Deskriptivnyy analiz i opisanie ishodnyh dannyh .
 2. Analiz svyazey (korrelyatsionnyy i regressionnyy analiz, faktornyy
analiz, dispersionnyy analiz) .
 3. Mnogomernyy statisticheskiy analiz (komponentnyy analiz, diskriminantnyy analiz,
mnogomernyy regressionnyy analiz, kanonicheskie korrelyatsii i dr.).
 4. Analiz vremennyh ryadov (dinamicheskie modeli i prognozirovanie) .
 Kiberneticheskie metody : iskusstvennye neyronnye seti (raspoznavanie, klasterizatsiya,
prognoz ); evolyutsionnoe programmirovanie (v t.ch. algoritmy metoda gruppovogo ucheta
argumentov ); geneticheskie algoritmy (optimizatsiya ); assotsiativnaya pamyat (poisk analogov,
prototipov ); nechetkaya logika ; derevya resheniy ; sistemy obrabotki ekspertnyh znaniy .
 Metody Data Mining takzhe mozhno klassifitsirovat po zadacham Data Mining :
 V sootvetstvii s takoy klassifikatsiey vydelyayut dve gruppy .
Pervaya iz nih – eto podrazdelenie metodov Data Mining na reshayushchie zadachi
segmentatsii (t.e. zadachi klassifikatsii i klasterizatsii) i zadachi prognozirovaniya .

14 15

Postavshchiki Data Mining
15 16

Programmnye pakety s
instrumentami Data Mining
16 17
STATA , S-PLUS, Stadia, STATGRAPHICS,
SYSTAT, Minitab
SPSS (SPSS, Clementine),
Statistica (StatSoft ), SAS Institute
(SAS Enterprise Miner ), Cognos

Zaklyuchenie
Oblasti, gde primeneniya tehnologii Data Mining , skoree vsego, budut uspeshnymi, imeyut takie
osobennosti :
 trebuyut resheniy, osnovannyh na znaniyah ;
 imeyut izmenyayushchuyusya okruzhayushchuyu sredu ;
 imeyut dostupnye, dostatochnye i znachimye dannye ;
 obespechivayut vysokie dividendy ot pravilnyh resheniy .
I vse eti harakteristiki prisushchi sotsiologii .

 Takim obrazom, tehnologiya Data Mining postoyanno razvivaetsya, privlekaet k sebe vse bolshiy
interes, kak so storony nauchnogo mira, tak i so storony primeneniya dostizheniy tehnologii v
biznese, sotsiologicheskih issledovaniyah .
 S sentyabrya 2014 g. v Institute obshchestvennyh nauk sozdana i uspeshno funktsioniruet kafedra
Prikladnyh informatsionnyh tehnologiy , sostoyashchey iz matematikov -informatikov , obladayushchih
bolshim opytom ispolzovaniya, razrabotki i vnedreniya informatsionnyh tehnologiy v
razlichnye prikladnye oblasti . V tom chisle, est i spetsialisty, sposobnye obuchat i peredavat
znaniya metodologii Data Mining , osobennostey ispolzovaniya algoritmov i instrumentov
programmnyh prilozheniy dlya obrabotki i analiza strukturirovannyh dannyh .
17 18

Literatura
1. Encyclopedia of Data Warehousing and Mining. – Idea Group Inc.,
2006.
2. Vercellis C. Business Intelligence: Data Mining and Optimization for
Decision Making. – Wiley Publishing, Inc., 2009.
3. Paklin N.B., Oreshkov V.I. Biznes -analitika: ot dannyh k znaniyam:
Uchebnoe posobie. 2 -e izd., ispr . – SPb: Piter, 2013. – 704 s.
4. Sayt http://www.kdnuggets.com/ – sovremennye tehnologii
ispolzovaniya Data Mining v prikladnyh oblastyah, osobennosti
primeneniya instrumentariya tehnologii
5. Sayt http://www.knowldiscovery.com/ – periodicheskie izdaniya po
Data Mining // Data Mining and Knowledge Discovery.
18 19

Similar Posts