интересно
Предыдущая | Содержание | Следующая

Принятие решения о количестве кластеров

Главный вопрос кластерного анализа — вопрос о количестве кластеров. Здесь нет твердых правил, позволяющих быстро принять решение, но можно руководствоваться следующим.

При определении количества кластеров руководствуются теоретическими и практическими соображениями. Например, если цель кластеризации — выявление сегментов рынка, то менеджмент может захотеть получить конкретное число кластеров.

В иерархической кластеризации в качестве критерия можно использовать расстояния, при которых объединяют кластеры, В нашем случае из плана агломерации в табл. 20.2 видно, что значение в колонке "Коэффициент" увеличивается больше, чем вдвое при переходе от 17 к 18 стадии. Аналогично, на последних стадиях древовидной диаграммы (рис. 20.8) кластеры объединяются при больших расстояниях. Следовательно, самое приемлемое решение — это решение о трех кластерах.

В неиерархической кластеризации чертят график зависимости отношения суммарной внут-ригруттовоЙ дисперсии к межгрупповой дисперсии от числа кластеров. Точка, в которой наблюдается изгиб или резкий поворот, указывает на приемлемое количество кластеров. Увеличение числа кластеров за эту точку обычно безрезультативно.

Относите л ьньк размеры кластеров должны быть достаточно выразительными. Из табл. 20.2, просто подсчитав частоты кластерной принадлежности, мы увидим, что решение с тремя кла стерами приводит к кластерам, содержащим 8, 6 и 6 элементов. Однако если мы перейдем к четырем кластерам, то размеры кластеров будут 8, 6, 5 и I, Бессмысленно создавать кластер с одним случаем, поэтому в данной ситуации предпочтительнее решение с тремя кластерами.

Интерпретация и профилирование кластеров

Интерпретация и профилирование кластеров включает проверку кластерных центроидов. Центроиды представляют средние значения объектов, содержащиеся в кластере по каждой из переменных. Они позволяют описывать каждый кластер, если присвоить ему номер или метку. Если компьютерная программа кластеризации не выдаст такую информацию, ее можно получить через д искри ми нантный анализ. В табл. 20.3 приведены центроиды или средние значения для каждого кластера в рассматриваемом примере.

Кластер 1 имеет относительно высокие значения по переменной У. (посещение магазинов — приятный процесс) и переменной К, (я совмещаю посещение магазинов с питанием вне дома). Он также имеет низкое значение по переменной ^(меня не интересуют покупки). Следовательно, кластер I можно назвать так: "любители посещать магазины и делать покупки". Этот кластер состоит из случаев 1, 3, б, 7, 8, 12, 15 и 17. Кластер 2 — прямая противоположность кластеру 1: он имеет низкие значения по переменным Ух и У3 и высокое значение по переменной Уь, значит, этот кластер можно назвать "апатичные покупатели". В кластер входят случаи 2, 5, 9, 11, 13 и 20. Кластер 3 имеет высокие значения по переменным У3 (посещение магазинов плохо сказывается на моем бюджете), К, (я стараюсь сделать лучшие покупки, посещая магазины) и V6 (можно сэкономить много денег, сравнивая цены в разных магазинах). Таким образом, этот кластер можно назвать "экономные покупатели". Кластер 3 охватывает случаи 4, 10, 14, 16,18 и 19.

Часто имеет смысл профилировать кластеры через переменные, которые не явились основанием для кластеризации. Эти переменные могут включать демографические, психографические характеристики, использование продукта или другие переменные. Например, кластеры можно вывести, исходя из искомых преимуществ. Дальнейшее профилирование осуществляют через демографические или психографические переменные, чтобы определить маркетинговую стратегию для каждого кластера. Переменные, существенно различающиеся между кластерами, можно идентифицировать дискриминантным анализом и однофактор-ным дисперсионным анализом.