Доцент кафедры прикладных информационных технологий Института общественных наук РАНХиГС к.т.н., доцент Мосягин Александр Борисович albor99@mail.ru… [617224]

ИСПОЛЬЗОВАНИЕ МЕТОДОЛОГИИ
DATA MINING
ПРИ РЕШЕНИИ ЗАДАЧ ОБРАБОТКИ
СОЦИАЛЬНЫХ ДАННЫХ
Доцент кафедры прикладных информационных технологий
Института общественных наук РАНХиГС
к.т.н., доцент Мосягин Александр Борисович [anonimizat]

Введение
Сегодня в прикладных социологических
исследованиях происходит настоящая
революция, связанная с появлением
принципиально новых источников данных,
прежде всего основанных на т.н.
объективной регистрации реального
поведения людей .
На основе новых информационных
технологий различные субъекты
(госорганы и бизнес -структуры) собирают
огромные массивы данных (Big Data ),
которые используются в социальной
диагностике и прикладных исследованиях .
Аналитики даже предрекают смерть
традиционным методам социологических
исследований, в большей мере
основанным на субъективной
информации, получаемой в ходе разного
рода опросов . Существует хорошее высказывание,
что
"За последние годы, когда,
стремясь к повышению
эффективности и прибыльности
бизнеса, при создании БД все стали
пользоваться средствами
обработки цифровой информации,
появился и побочный продукт этой
активности – горы собранных
данных : И вот все больше
распространяется идея о том, что
эти горы полны золота" .
В прошлом процесс добычи золота
в горной промышленности состоял
из выбора участка земли и
дальнейшего ее просеивания
большое количество раз.
1 2

Понятие Data Mining
Термин Data Mining часто переводится как добыча данных,
извлечение информации, раскопка данных, интеллектуальный
анализ данных, средства поиска закономерностей, извлечение
знаний, анализ шаблонов, раскопка знаний в базах данных . Понятие
"обнаружение знаний в базах данных" (Knowledge Discovery in
Databases , KDD ) можно считать синонимом Data Mining .

Понятие Data Mining , появившееся в 1978 году, приобрело высокую
популярность в современной трактовке примерно с первой половины
1990 -х годов . До этого времени обработка и анализ данных
осуществлялся в рамках прикладной статистики, при этом в основном
решались задачи обработки небольших баз данных .

2 3

Факторы возникновения и
развития Data Mining
совершенствование аппаратного и
программного обеспечения;
совершенствование технологий
хранения и записи данных ;
накопление большого количества
ретроспективных данных ;
совершенствование алгоритмов
обработки информации.
3 4

Определение Data Mining
Data Mining – это процесс поддержки принятия решений,
основанный на поиске в данных скрытых
закономерностей (шаблонов информации ), т.е. это
процесс обнаружения в сырых данных ранее
неизвестных, нетривиальных, практически полезных и
доступных интерпретаций знаний, необходимых для
принятия решений в различных сферах человеческой
деятельности .
Методология Data Mining – это мультидисциплинарная
область, возникшая и развивающаяся на базе таких наук
как прикладная статистика, распознавание образов,
искусственный интеллект, теория баз данных и др.
4 5

Data Mining как
мультидисциплинарная область
5 6

Основа технологии Data Mining
Концепция шаблонов (patterns ), которые
представляют собой закономерности,
свойственные выборкам данных, которые могут
быть выражены в форме, понятной человеку .
Цель поиска закономерностей – представление
данных в виде, отражающем искомые процессы .
Построение моделей прогнозирования также
является целью поиска таких закономерностей .
Чтобы максимально использовать мощность
масштабируемых инструментов Data Mining , в
социологических исследованиях необходимо
выбрать, очистить и преобразовать данные, иногда
интегрировать информацию, добытую из внешних
источников, и установить специальную среду для
работы Data Mining алгоритмов .
6 7

Технология Data Mining
 Data Mining – это процесс поддержки принятия решений , основанный на поиске
в данных скрытых закономерностей ( шаблонов информации) .
 Технологию Data Mining достаточно точно определяет Григорий Пиатецкий -Шапиро (Gregory
Piatetsky -Shapiro ) – один из основателей этого направления :
 Data Mining – это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных,
практически полезных и доступных интерпретации знаний, необходимых для принятия решений в
различных сферах человеческой деятельности .
 Суть и цель технологии Data Mining можно охарактеризовать так: это технология, которая
предназначена для поиска в больших объемах данных неочевидных, объективных и полезных на
практике закономерностей .
 Неочевидных – это значит, что найденные закономерности не обнаруживаются стандартными
методами обработки информации или экспертным путем .
 Объективных – это значит, что обнаруженные закономерности будут полностью соответствовать
действительности, в отличие от экспертного мнения, которое всегда является субъективным .
 Практически полезных – это значит, что выводы имеют конкретное значение , которому можно
найти практическое применение .
Знания – совокупность сведений, которая образует целостное описание, соответствующее
некоторому уровню осведомленности об описываемом вопросе, предмете, проблеме и т.д.
 Использование знаний (knowledge deployment ) означает действительное применение найденных
знаний для достижения конкретных преимуществ (например, в конкурентной борьбе за рынок) .
7 8

Data Mining как часть рынка
информационных технологий
 Агентство Gartner Group , занимающееся анализом рынков информационных технологий, в 1980 -х
годах ввело термин " Business Intelligence " (BI), деловой интеллект или бизнес -интеллект . Этот
термин предложен для описания различных концепций и методов, которые улучшают бизнес
решения путем использования систем поддержки принятия решений .
 Business Intelligence – программные средства, функционирующие в рамках предприятия и
обеспечивающие функции доступа и анализа информации, которая находится в хранилище данных ,
а также обеспечивающие принятие правильных и обоснованных управленческих решений .
 BI-системы также известны под названием Систем Поддержки Принятия Решений (СППР ,
DSS, Decision Support System ). Эти системы превращают данные в информацию, на основе которой
можно принимать решения, т.е. поддерживающую принятие решений .
 Gartner Group определяет состав рынка систем Business Intelligence как набор программных
продуктов следующих классов :
 средства построения хранилищ данных (data warehousing , ХД);
 системы оперативной аналитической обработки (OLAP) ;
информационно -аналитические системы (Enterprise Information Systems , EIS);
 средства интеллектуального анализа данных (data mining );
 инструменты для выполнения запросов и построения отчетов (query and reporting tools ).
8 9

Мнение экспертов о Data Mining
 Руководство по приобретению продуктов Data Mining (Enterprise Data Mining Buying Guide ) компании Aberdeen
Group : " Data Mining – технология добычи полезной информации из баз данных . Однако в связи с существенными
различиями между инструментами, опытом и финансовым состоянием поставщиков продуктов, предприятиям
необходимо тщательно оценивать предполагаемых разработчиков Data Mining и партнеров .
 Чтобы максимально использовать мощность масштабируемых инструментов Data Mining коммерческого уровня,
предприятию необходимо выбрать, очистить и преобразовать данные, иногда интегрировать информацию,
добытую из внешних источников, и установить специальную среду для работы Data Mining алгоритмов .
 Результаты Data Mining в большой мере зависят от уровня подготовки данных , а не от "чудесных возможностей"
некоего алгоритма или набора алгоритмов . Около 75% работы над Data Mining состоит в сборе данных , который
совершается еще до того, как запускаются сами инструменты . Неграмотно применив некоторые инструменты,
предприятие может бессмысленно растратить свой потенциал, а иногда и миллионы долларов" .
 Мнение Херба Эдельштайна (Herb Edelstein ), известного в мире эксперта в области Data Mining ,
Хранилищ данных и CRM : "Недавнее исследование компании Two Crows показало, что Data Mining находится все
еще на ранней стадии развития . Многие организации интересуются этой технологией, но лишь некоторые
активно внедряют такие проекты . Удалось выяснить еще один важный момент : процесс реализации Data
Mining на практике оказывается более сложным, чем ожидается .
 IT-команды увлеклись мифом о том, что средства Data Mining просты в использовании . Предполагается, что
достаточно запустить такой инструмент на терабайтной базе данных , и моментально появится полезная
информация . На самом деле, успешный Data Mining -проект требует понимания сути деятельности,
знания данных и инструментов, а также процесса анализа данных ".

9 10

Недостатки технологии
Data Mining
Data Mining не может заменить аналитика
Сложность разработки и эксплуатации приложения Data Mining
Квалификация пользователя
Извлечение полезных сведений невозможно без хорошего понимания сути данных
Сложность подготовки данных
Большой процент ложных, недостоверных или бессмысленных результатов
Высокая стоимость
Наличие достаточного количества репрезентативных данных
10 11

Отличия Data Mining от других
методов анализа данных
Традиционные методы анализа данных (статистические методы) и OLAP в основном
ориентированы на проверку заранее сформулированных гипотез (verification –
driven data mining ) и на "грубый" разведочный анализ, составляющий основу
оперативной аналитической обработки данных (OnLine Analytical Processing , OLAP), в то
время как одно из основных положений Data Mining – поиск
неочевидных закономерностей . Инструменты Data Mining могут находить
такие закономерности самостоятельно и также самостоятельно строить гипотезы о
взаимосвязях . Поскольку именно формулировка гипотезы относительно зависимостей
является самой сложной задачей, преимущество Data Mining по сравнению с другими
методами анализа является очевидным .
Большинство статистических методов для выявления взаимосвязей
в данных используют концепцию усреднения по выборке, приводящую к операциям
над несуществующими величинами, тогда как Data Mining оперирует реальными
значениями .
OLAP больше подходит для понимания ретроспективных данных , Data
Mining опирается на ретроспективные данные для получения ответов на вопросы о
будущем .

11 12

Перспективы технологии
Data Mining
Относительно перспектив Data Mining возможны следующие
направления развития :
выделение типов предметных областей с соответствующими им
эвристиками, формализация которых облегчит решение
соответствующих задач Data Mining , относящихся к этим областям ;
создание формальных языков и логических средств, с помощью
которых будут формализованы рассуждения и автоматизация
которых станет инструментом решения задач Data Mining в
конкретных предметных областях ;
создание методов Data Mining , способных не только извлекать
из данных закономерности , но и формировать некие теории,
опирающиеся на эмпирические данные ;
преодоление существенного отставания возможностей
инструментальных средств Data Mining от теоретических достижений
в этой области .
12 13

Классификация стадий
Data Mining
Data Mining может состоять из двух или трех стадий :
Стадия 1. Выявление закономерностей ( свободный поиск ).
Стадия 2. Использование выявленных закономерностей для предсказания
неизвестных значений ( прогностическое моделирование ).
В дополнение к этим стадиям иногда вводят стадию валидации , следующую
за стадией свободного поиска . Цель валидации – проверка достоверности
найденных закономерностей .
Стадия 3. Анализ исключений – стадия предназначена для выявления и
объяснения аномалий, найденных в закономерностях .
Итак, процесс Data Mining может быть представлен рядом таких
последовательных стадий :
СВОБОДНЫЙ ПОИСК (в том числе ВАЛИДАЦИЯ) ->
-> ПРОГНОСТИЧЕСКОЕ МОДЕЛИРОВАНИЕ ->
-> АНАЛИЗ ИСКЛЮЧЕНИЙ
13 14

Классификация методов
Data Mining
 Технологические методы :
 1. Непосредственное использование данных, или сохранение данных .
 2. Выявление и использование формализованных закономерностей , или дистилляция
шаблонов .
 Статистические методы :
 1. Дескриптивный анализ и описание исходных данных .
 2. Анализ связей (корреляционный и регрессионный анализ, факторный
анализ, дисперсионный анализ) .
 3. Многомерный статистический анализ (компонентный анализ, дискриминантный анализ,
многомерный регрессионный анализ, канонические корреляции и др.).
 4. Анализ временных рядов (динамические модели и прогнозирование) .
 Кибернетические методы : искусственные нейронные сети (распознавание, кластеризация,
прогноз ); эволюционное программирование (в т.ч. алгоритмы метода группового учета
аргументов ); генетические алгоритмы (оптимизация ); ассоциативная память (поиск аналогов,
прототипов ); нечеткая логика ; деревья решений ; системы обработки экспертных знаний .
 Методы Data Mining также можно классифицировать по задачам Data Mining :
 В соответствии с такой классификацией выделяют две группы .
Первая из них – это подразделение методов Data Mining на решающие задачи
сегментации (т.е. задачи классификации и кластеризации) и задачи прогнозирования .

14 15

Поставщики Data Mining
15 16

Программные пакеты с
инструментами Data Mining
16 17
STATA , S-PLUS, Stadia, STATGRAPHICS,
SYSTAT, Minitab
SPSS (SPSS, Clementine),
Statistica (StatSoft ), SAS Institute
(SAS Enterprise Miner ), Cognos

Заключение
Области, где применения технологии Data Mining , скорее всего, будут успешными, имеют такие
особенности :
 требуют решений, основанных на знаниях ;
 имеют изменяющуюся окружающую среду ;
 имеют доступные, достаточные и значимые данные ;
 обеспечивают высокие дивиденды от правильных решений .
И все эти характеристики присущи социологии .

 Таким образом, технология Data Mining постоянно развивается, привлекает к себе все больший
интерес, как со стороны научного мира, так и со стороны применения достижений технологии в
бизнесе, социологических исследованиях .
 С сентября 2014 г. в Институте общественных наук создана и успешно функционирует кафедра
Прикладных информационных технологий , состоящей из математиков -информатиков , обладающих
большим опытом использования, разработки и внедрения информационных технологий в
различные прикладные области . В том числе, есть и специалисты, способные обучать и передавать
знания методологии Data Mining , особенностей использования алгоритмов и инструментов
программных приложений для обработки и анализа структурированных данных .
17 18

Литература
1. Encyclopedia of Data Warehousing and Mining. – Idea Group Inc.,
2006.
2. Vercellis C. Business Intelligence: Data Mining and Optimization for
Decision Making. – Wiley Publishing, Inc., 2009.
3. Паклин Н.Б., Орешков В.И. Бизнес -аналитика: от данных к знаниям:
Учебное пособие. 2 -е изд., испр . – СПб: Питер, 2013. – 704 с.
4. Сайт http://www.kdnuggets.com/ – современные технологии
использования Data Mining в прикладных областях, особенности
применения инструментария технологии
5. Сайт http://www.knowldiscovery.com/ – периодические издания по
Data Mining // Data Mining and Knowledge Discovery.
18 19

Similar Posts