интересно
Предыдущая | Содержание | Следующая

Выполнение кластерного анализа

Этапы выполнения кластерного анализа представлены на рис. 20.3.

Первый этап — формулировка проблемы кластеризации путем определения переменных, на базе которых она будет проводиться, Затем выбирается соответствующий способ измерения расстояния. Мера расстояния показывает, насколько объекты, подвергнутые кластеризации, схожи или не схожи между собой. Разработано несколько методов кластеризации, и исследователю необходимо выбрать наиболее подходящий для решения данной проблемы. Решение а числе кластеров также принимает исследователь. Сформированные кластеры нужно анализировать с точки зрения переменных, использованных для их получения, а также для профилирования кластеров можно использовать дополнительные явно выраженные переменные. И наконец, исследователь должен оценить достоверность (качество) процесса кластеризации.

Формулировка проблемы

Возможно, самая важная часть формулирования проблемы кластеризации — это выбор пере менных, на основе которых проводят кластеризацию. Включение даже одной или двух посторон них (не имеющих отношение к группированию) переменных может исказить результаты класте- ризации. Задача состоит в том, чтобы выбранный набор переменных смог описать сходство между объектами с точки зрения признаков, имеющих отношение к данной проблеме маркетингового исследования. Переменные следует выбирать, исходя из опыта прошлых исследований, теории или тестируемой гипо         Экспериментатор должен обладать интуицией и уметь делать выводы.

Для иллюстрации сказанного рассмотрим кластеризацию потребителей на основе их отношения к посещению магазинов для покупки товаров. Опираясь на прошлый опыт, маркетологи определили шесть переменных. Потребителей попросили ныразить их степень согласия со следующими утверждениями по семибалльной шкале (1 — не согласен, 7 — согласен):

  Посещение магазинов для покупки товаров — приятный процесс.

  Посещение магазинов для покупки товаров плохо сказывается на вашем бюджете.

  Я совмещаю посещение магазинов для покупки товаров с питанием вне дома.

  Мне не нравится посещение магазинов покупки товаров.

  Вы можете сэкономить много денег, сравнивая цены в разных магазинах, Данные, полученные от20 респондентов, приведены втабл. 20.1.

На практике кластеризацию выполняют для значительно больших по размеру выборок, состоящих из 100 и больше респондентов. Мы взяли небольшую выборку для иллюстрации процесса кластеризации.

Выбор способа измерения расстояния или меры сходства

Цель кластеризация — группирование схожих объектов. Поэтому для того чтобы оценить, насколько они похожи или непохожи, необходимо использовать некую единицу измерения. Наиболее распространенный метод заключается в том, чтобы в качестве такой меры использовать расстояния между двумя объектами. Объекты с меньшими расстояниями между собой больше похожи, чем объекты с большими расстояниями. Существует несколько способов вычисления расстояния между двумя объектами.

Наиболее часто используемая мера сходства— евклидово расстояние или его квадрат, Евклидово расстояние (геометрическое расстояние в многомерном пространстве) равно квадратному корню из суммы квадратов разностей значений для каждой переменной.

Существуют и другие способы измерения расстояния. Расстояние городских кварталов) (city-block, или манхштенскоерасстояние (Manhattan distance) между двумя объектами — это сумма абсолютных разностей в значениях для каждой переменной. Расстояние Чебышева (Chebychev distance) между двумя объектами — это максимальная абсолютная разность в значениях для любой переменной. Для нашего примера используем квадрат евклидова расстояния.

Если переменные измерены в различныхединицач, то единица измерения влияет нареше-ние кластеризации. В исследовании, посвященном посещению супермаркетов для покупки товаров, переменные, выражающие отношение к посещению магазина, можно измерить по шкале Лайкерта; патронаж (постоянство в посещении магазина) можно выразить через частоту посещений магазина в месяц и через сумму, потраченную на покупки; лояльность к торговой марке — через процент средств, потраченных на покупку товаров в любимом супермаркете. В этих случаях перед кластеризацией респондентов мы должны нормализовать Данные, изменив шкалу измерения каждой переменной таким образом, чтобы среднее равнялось нулю, а стандартное отклонение — единице. Хотя нормализация может исключить влияние единицы измерения, она также уменынаетразличия между группами по переменным, которые наилучшим образом дискриминируют (отличают) группы или кластеры. Кроме того, желательно удалить выбросы (т.е. случаи с нетипичными значениями) [111.

Использование различных способов измерения расстояния ведет к разным результатам кластеризации. Следовательно, целесообразно использовать различные меры сходства и затем сравнить результаты. Выбрав меру сходства, затем можно выбрать метод кластеризации.