Область "добычи данных" представляет собой совокупность методов аналитической обработки больших массивов данных (часто связанных с деловой активностью или рыночными показателями) с целью выявить в них значимые закономерности и/или систематические связи между переменными, которые затем можно применить к новым совокупностям данных. Основная цель "добычи данных" - это прогноз; Предсказывающая добыча данных - наиболее общий тип "добычи данных", имеющий непосредственное коммерческое применение. Процедура включает три основных этапа:
Этап 1: Исследование.
Этот этап обычно начинается с подготовки данных, которая может включать очистку данных, преобразования данных, выбор подмножеств, а также, в случае наборов данных с большим числом переменных ("полей"), анализа их свойств для того, чтобы количество переменных свести к разумному числу (в зависимости от рассматриваемых статистических методов). Затем, в зависимости от характера аналитической задачи, первый этап процесса "добычи данных" может включать как простой выбор непосредственных предикторов для регрессионной модели, так и тщательное проведение разведочного анализа с использованием ряда графических и статистических методов для нахождения наиболее подходящих переменных и определения сложности и/или общего характера моделей, которые можно использовать на следующем этапе.
Этап 2: Построение модели и проверка.
Этот этап включает рассмотрение различных моделей и выбор наилучшей на основании их характеристик (например, объяснение изменчивости и получение надежных результатов по выборкам). Может показаться, что эта простая операция. Но, на самом деле, она иногда является очень сложным процессом. Имеется ряд методов, разработанных для достижения этой цели, многие из которых основаны на так называемой "конкурентной оценке моделей," которая состоит в применении различных моделей к одному и тому же набору данных и последующем сравнении их характеристик для выбора наилучшей модели. Эти методы, которые часто рассматриваются как ядро Предсказывающей добычи данных, включают: Накопление (Голосование, Усреднение), Бустинг, и Мета-обучение.
Этап 3: Развертывание.
Этот завершающий этап включает использование модели, выбранной в качестве наилучшей на предыдущем этапе, и ее применение к новым данным с целью получения прогнозов или оценок ожидаемых результатов. Концепция "добычи данных" приобретает все большее распространение, как инструмент для управления деловой информацией в тех случаях, когда предполагается, что из имеющихся данных можно будет извлечь знания для принятия решений в условиях неопределенности. Хотя в последнее время возрос интерес к разработке новых методов анализа данных, специально предназначенных для сферы бизнеса (например, Деревья классификации, Общие модели деревьев классификации и регрессии, Общие CHAID модели), в целом системы добычи данных по-прежнему основываются на классических принципах разведочного анализа данных (РАД) и построения моделей и используют те же подходы и методы. Имеется, однако, важное отличие процедуры "добычи данных" от классического разведочного анализа данных (РАД). Cистемы "добычи данных" в большей степени ориентированы на практическое приложение полученных результатов, чем на выяснение природы явления. Иными словами, при "добыче данных" нас не интересует конкретный вид зависимостей между переменными. Выяснение природы участвующих здесь функций или конкретной формы интерактивных многомерных зависимостей между переменными не является главной целью этой процедуры. Основное внимание уделяется поиску решений, на основе которых можно было бы строить достоверные прогнозы. Таким образом, в области "добычи данных" принят подход к анализу данных и извлечению знаний, который иногда характеризуют словами "черный ящик", при котором используются не только классические приемы разведочного анализа данных (РАД), но и такие методы, как нейронные сети, позволяющие строить достоверные прогнозы, не уточняя конкретный вид тех зависимостей между переменными, на которых такой прогноз основан. Очень часто область "добычи данных" трактуется как "смесь статистики, методов искусственного интеллекта (ИИ) и анализа баз данных" (Pregibon, 1997, стр. 8), и до самого последнего времени она не признавалась полноценной областью интереса специалистов по статистике, а порой ее даже называли "задворками статистики" (Pregibon, 1997, стр. 8). Однако, благодаря своей большой практической значимости, эта проблематика ныне интенсивно разрабатывается и привлекает большой интерес (в том числе и в ее статистических аспектах), и в ней достигнуты важные теоретические результаты.
Шаг 1. Работу в Data Miner начнем с подменю «Добыча данных» в меню «Анализ».

Выбрав пункт «Добытчик данных – Мои процедуры» или «Добытчик данных – Все процедуры», мы запустим рабочую среду STATISTICA Data Mining.

Шаг 2. Для примера возьмем файл «Boston2.sta» из папки примеров STATISTICA. В следующем примере анализируются данные о жилищном строительстве в Бостоне. Цена участка под застройку классифицируется как Низкая - Low, Средняя - Medium или Высокая - High в зависимости от значения зависимой переменной Price. Имеется один категориальный предиктор - Cat1 и 12 порядковых предикторов - Ord1 - Ord12. Весь набор данных, состоящий из 1012 наблюдений, содержится в файле примеров Boston2.sta.

Шаг 3. После выбора файла появится окно диалога «Выберите зависимые переменные и предикторы».

Выбираем зависимые переменные (непрерывные и категориальные) и предикторы (непрерывные и категориальные), исходя из знаний о структуре данных, описанной выше. Нажимаем OK.
Шаг 4. Запускаем «Диспетчер узлов» (нажимаем на кнопку
в окне Data Miner ). В данном диалоге мы можем выбрать вид анализа или задать операцию преобразования данных.

Диспетчер узлов включает в себя все доступные процедуры для добычи данных. Всего доступно около 260 методов фильтрации и очистки данных, методов анализа. По умолчанию, процедуры помещены в папки и отсортированы в соответствии с типом анализа, который они выполняют. Однако пользователь имеет возможность создать собственную конфигурацию сортировки методов.
Для того, чтобы выбрать необходимый анализ, выделите его на правой панели и нажмите кнопку вставить (
). В нижней части диалога дается описание выбираемых методов.
Выберем , для примера , Descriptive Statistics и Standard Classification Trees with Deployment(C And RT) . Окно Data Miner выглядит следующим образом.

Источник данных в рабочей области Data Miner автоматически будет соединен с узлами выбранных анализов. Операции создания/удаления связей можно производить и вручную.
Шаг 5. Теперь выполним проект. Все узлы, соединенные с источниками данных активными стрелками будут проведены.

Далее, можно просмотреть результаты (в столбце отчетов).


Подробные отчеты создаются по умолчанию для каждого вида анализа. Для рабочих книг результатов доступна полная функциональность системы STATISTICA .
Шаг 6. На следующем шаге просматриваем результаты, редактируем параметры анализа.
Кроме того, в диспетчере узлов STATISTICA Data Miner содержатся разнообразные процедуры для классификации и Дискриминантного анализа, Регрессионных моделей и Многомерного анализа, а также Обобщенные временные ряды и прогнозирование. Все эти инструменты можно использовать для проведения сложного анализа в автоматическом режиме, а также, для оценивания качества модели.
