интересно
Предыдущая | Содержание | Следующая

Решаемая задача и традиционный подход.

В качестве первого примера применения разрабатываемого подхода была выбрана классическая задача извлечения знаний direct marketing, когда по базе данных о продажах требуется найти наиболее перспективных покупателей для продажи тех или иных товаров.

Для примера рассмотрим данные о приобретении разных видов товаров А, Б, В покупателями разных возрастов (рис. 1). Здесь каждой покупке соответствует точка на плоскости Возраст покупателя – Цена товара.

Данная задача может быть решена известными методами кластерного анализа, например методом расширяющихся окружностей . При этом каждая запись рассматривается как потенциальный центр кластера и для каждой из них строится расширяющаяся окрестность, для которой вычисляется локальная плотность. Если плотность увеличивается, то очередная точка присоединяется к кластеру, если уменьшается – фиксируется граница кластера. Далее строится матрица вхождений записей в кластеры и определяется наилучшее (оптимальное) распределение точек по кластерам.

В результате для приведенного примера наиболее интересными кластерами будут являться: группа 1 из 12 – 23-летних покупателей, покупающих продукты категории А (восемь записей), группа 2 из 20 – 30-летних – для продуктов категории Б (пять записей) и группа 3 из 29 – 42-летних – для категории В (четыре записи). Заметим, что для каждого кластера налицо баланс интересов записей: добавление или удаление любой точки приводит к уменьшению плотности кластера, что собственно и используется в разрабатываемом подходе.

Рис. 1 Исходные данные для кластеризации

Однако прежде чем перейти к изложению предлагаемого подхода, зададим вопрос: что будет в случае, если записи поступают постепенно, в некотором порядке? Картина кластеров на каждом таком шаге будет некоторым образом меняться в зависимости от порядка прихода записей, причем на каждом шаге придется заново запускать данную процедуру. Если же счет идет на десятки и сотни мегабайт, то рассмотренная процедура централизованного и оптимального решения задачи будет мало эффективной.