Пятница, 12.02.2010, 20:09
Приветствую Вас Гость | RSS
Меню сайта
Статистика

Инструменты data mining: что лучше выбрать?

Вопрос о том, как правильно выбрать пакет инструментов data mining (DM), актуален уже несколько лет. Ответ на него, рассматриваемый в данной статье, будет построен, исходя из двух основных положений:

  • лучшего инструмента, который подходил бы для всех, не существует;
  • самые полезные средства — это те, что упрощают большую часть задач для тех приложений data mining, которые необходимы конкретной компании.

В прошлом разработка инструментов data mining была нацелена преимущественно на обеспечение мощных аналитических алгоритмов. Однако аналитические «машины» обрабатывают только небольшую часть всех задач DM-проекта. Большинству специалистов известно, что от 70% до 90 % DM-проекта составляет подготовка данных. Кроме того, хорошие инструменты для прямого маркетинга должны включать средства оценки моделей.

Инструменты оценки моделей

В аналитической теории лучшая модель — та, которая дает максимальную точность в прогнозировании всех классификационных состояний целевой переменной и достаточно надежна при работе с тестовым набором данных.

Этот подход получил название метода Global Accuracy (Глобальной точности). Большинство инструментов data mining используют этот метод для идентификации «лучшей» модели. Однако тут есть одна хитрость. Теория, лежащая в основе метода глобальной точности, основана на предположении, что затраты на все классификационные ошибки одинаковы. Этот подход хорошо работает в учебном классе, однако в реальной ситуации (например, при подготовке маркетинговых кампаний по рассылке), результаты могут получиться не столь блестящими.

Фактически, это одна из причин, по которой многие проекты поддержки маркетинговых кампаний в прошлом были не очень удачными. Основа для оценки моделей имела мало отношения к наиболее интересным для маркетинга понятиям — максимизации положительной реакции клиентов и минимизации расходов на эту цель. Большинство инструментов data mining направлены на обеспечение общей точности прогнозирования, но полностью игнорируют вопрос затрат.

В маркетинговых кампаниях расходы на рассылку потенциальному покупателю, который в итоге на нее не отреагирует (это называется «ложно-положительной» ошибкой), в общем-то невелики; однако потенциальные потери по причине отсутствия рассылки тому клиенту, который, вероятно, откликнулся бы («ложно-отрицательная» ошибка), могут быть достаточно большими (если вычислить ценность клиента в течение его жизненного цикла, размеры невыплаченных сумм и не приобретенных услуг). Это значит, что методы оценки модели должны быть направлены на минимизацию ложно-отрицательных, а не ложно-положительных ошибок. Так как специалисты в области маркетинга заботятся только об уровне отклика и затратах, рассылка первым 30% клиентов, покрывающая 60% откликающихся, как правило, решает обе задачи. Рассылка не отвечающим (ложно-положительные ошибки) среди первых тридцати процентов — это вполне приемлемая затрата ради 60% отвечающих. Такой вариант привлечения клиентов обнаруживает 100%-ое превышение над случайной выборкой и более эффективен, чем массовая рассылка.

Большинство DM-инструментов используют для оценки модели метод глобальной точности. Иногда этот метод приходится использовать, чтобы выявить лучшую модель с помощью возможностей отчетности инструментов. Оценка лучшей модели среди многих, выполненных на различных алгоритмах, не должна проводиться путем сравнения отчетов точности каждого из инструментов. Критерием сравнения должно быть качество сегментации клиентов с положительным откликом среди первых нескольких десятков из списка, отсортированного по вероятности прогнозирования.

Имея четкое представление о правильной оценке DM-моделей, можно более детально рассмотреть бизнес-процессы, которые необходимо координировать с помощью DM-инструментов, позволяющих использовать результаты модели для повышения прибыльности компании.

К таким бизнес-процессам относятся:

  • процесс data mining;
  • процесс поиска знаний (knowledge discovery);
  • программы управления бизнес-процессами;
  • системы управления знаниями;
  • процессы управления бизнес-экосистемами.

Процессы data mining

В своей статье «Приобретение средств data mining. Как избежать серьезных неудач в прогнозной аналитике» Эрик Кинг (Eric King) указывает, что самый главный аспект data mining — это сам путь, а не цель. Этот путь он называет «процессом» data mining и описывает его основные элементы следующим образом:

  1. это процесс обнаружения;
  2. он имеет гибкую инфраструктуру;
  3. выполняется на основе четко определенной стратегии;
  4. содержит множество контрольных точек;
  5. включает периодические оценки;
  6. дает возможности настроек с помощью обратной связи.
  7. основан на итеративной архитектуре.

Модели процессов

Поставщики нескольких DM-пакетов решили для ясности упростить процесс. Например, одна из фирм разбила его на 5 этапов:

  • выборка;
  • объяснение;
  • манипулирование;
  • моделирование;
  • оценка.

Раньше для описания DM-процесса применялась хорошая метафора. Технологию data mining сравнивалась с потоком воды, циркулирующем в каскадном фонтане: вода (данные) падает на первый уровень (фазу анализа), образуя водовороты (усовершенствования и обратная связь), пока не накопится достаточно «переработанной» воды для того, чтобы перелиться вниз на следующий уровень. «Обработка» продолжается до тех пор, пока не достигается самый нижний уровень, где вода снова перебрасывается наверх и процесс начинается заново. Действительно, DM-процесс очень напоминает этот итеративный каскадный процесс. Даже внутренняя обработка множества DM-алгоритмов (например, нейронных сетей) выполняется за множество прогонов (периодов) на выборке данных, до тех пор, пока не будет найдено лучшее решение.

Некоторые компании встраивают версии простых моделей процессов в пользовательский интерфейс. Это дает пользователю возможность организовать необходимые DM-задачи в нужном порядке.

Недостаток аналогии с фонтаном воды состоит в том, что в ней никак не отображаются циклы обратной связи, которые часто имеют место в DM-процессе. Например, оценка данных может отразить некоторые аномалии, которые требуют извлечения дополнительных данных из исходных систем. Или после моделирования становится очевидным, что дополнительные записи данных необходимы для адекватного отражения родительской популяции.

Одна из попыток решения этой проблемы предложена в следующей модели, охватывающей весь контекст data mining.



Рис.1. Модель процессов DM

Моделирование данных часто напоминает работу с глиной или мрамором. Художник начинает с куска материала, а затем за множество серий (итераций) манипулирования и сверки с изначальным замыслом художественный образец, наконец, достигает своей формы. Однако при моделировании данных возникает дополнительная проблема. Природа моделируемой среды не до конца известна, по крайней мере до середины процесса. Эрик Кинг считает, что DM-процесс — циклический (как это показано на рисунке), а не линейный. Его работа напоминает принцип действия роторно-поршневого двигателя. Двигатель проходит круг за кругом, вырабатывая кинетическую энергию в форме роторного движения, которая используется для движения автомобиля. Аналогично и DM-процесс движется круг за кругом и вырабатывает информацию, которую можно использовать для достижения бизнес-целей. Эта информация — «энергия», питающая бизнес. Также необходима и обратная связь с предыдущими этапами процесса (например, получение дополнительных данных после выполнения предварительного моделирования).

Есть, однако, один элемент, которого не хватает в представленном на рисунке процессе: обратная связь с Хранилищем данных или исходной системой. Результаты предыдущих маркетинговых кампаний должны передаваться в Хранилище, чтобы обеспечить понимание последующих операций моделирования и отслеживание тенденций этих компаний.

Структура процесса data mining дает информацию о том, какие необходимые задачи должны решать DM-инструменты. Однако открытыми остаются следующие вопросы:

  • что делать с результатами DM?
  • как действия, «порожденные» результатами data mining, влияют на последующие операции DM?

 

Перечислим задачи, которые должны упрощать DM-инструменты: