интересно
Предыдущая | Содержание | Следующая

Сущность кластерного анализа

Кластерный анализ представляет собой класс методов, используемых для классификации объектов или событий в относительно однородные группы, которые называют К/Шстерами (clusters). Объекты в каждом кластере должны быть похожи между собой и отличаться от объектов в других кластерах. Кластерный анализ также называют классификационным анализом (classification analysis) или численной таксономией (систематикой) (numerical taxonomy). Мы рассмотрим процедуры кластеризации, которые относят каждый объект к одному и только одному кластеру. На рис. 20.1 показана идеальная ситуация кластеризации, когда кластеры четко отделены друг от друга на основании различий двух переменных: ориентация на качество (переменная 1), и чувствительность к цене (переменная 2),

Следует отметить, что каждый потребитель попадает в один из кластеров, и перекрывающихся областей нет. С другой стороны, на рис. 20.2 представлена ситуация кластеризации, которая чаще всего встречается на практике.

На рис. 20.2 границы некоторых кластеров очерчены нечетко, и отнесение некоторых потребителей к конкретному кластеру не очевидно, поскольку многие из них нельзя сгруппировать в тот или иной кластер.

Кластерный анализ, как и дискриминантный, предназначен для классификации переменных. Однако в дискриминантном анализе необходима предварительная информация о кластерной (групповой) принадлежности каждого рассматриваемого объекта или события для того, чтобы разработать правило классификации. В отличие от этого, в кластерном анализе нет необходимости в предварительной информации о кластерной принадлежности любого из объектов. Группы, или кластеры, определяют с помощью собранных данных, а не заранее.

Кластерный анализ используют в маркетинге для различных целей.

Сегментация рынка. Например, потребителей можно разбить на кластеры на основе выгод, которые они ожидают получить от покупки данного товара. Каждый кластер может состоять из потребителей, которые ищут схожие выгоды. Этот метод называют сегментаций преимуществ (benefit segmentation). Мы проиллюстрируем его на следующем примере.

Понимание поведения покупателей. Кластерный анализ используется для идентификации однородных групп покупателей. Затем поведение каждой группы при покупке товара изучается отдельно, как, например, в проекте "Выбор универмага". В этом случае респондентов разбили на группы, исходя из оценок важности, которую они присвоили каждому критерию, используемому для выбора универмага. Кластерный анализ также использовали, чтобы определить виды стратегий, применяемых покупателями автомобилей для получения внешней информации.

Определение возможностей нового товара. Кластеризацией торговых марок и товаров можно определить конкурентоспособные наборы в пределах данного рынка. Торговые марки в одном и том же кластере конкурируют более жестко между собой, чем с марками других кластеров. Фирма может изучить свои текущие предложения в сравнении с предложениями своих конкурентов, чтобы определить потенциальные возможности новых товаров.

Выбор тестовыхрьшков. Группировкой городов в однородные кластеры можно подобрать сравнимые города для проверки различных маркетинговых стратегий,

Сокращение размерности данных. Кластерный анализ можно использовать как основной инструмент сокращения размерности данных при создании кластеров или подгрупп данных, более удобных для анализа, чем отдельные наблюдения. Последующий многомерный анализ выполняют над кластерами, а не над отдельными наблюдениями. Например, чтобы описать отличия в поведении потребителей по отношению к товарам, их вначале разбивают на группы. Затем различия между группами проверяют с помощью множественного дискриминантного анализа.

СТАТИСТИКИ, СВЯЗАННЫЕ С КЛАСТЕРНЫМ АНАЛИЗОМ

Прежде чем начать разговор о статистиках, соответствующих кластерному анализу, следует упомянуть о том, что большинство методов кластеризации — относительно простые проиедуры, не требующие изощренных статистических расчетов. Можно даже сказать, что методы кластеризации представляют собой эвристические методы, основанные на определенных алгоритмах действий исследователя. Тем самым кластерный анализ резко отличается от дисперсионного, регрессионного, дискриминантного и факторного, которые базируются на обширных статистических расчетах. Хотя многие методы кластеризации обладают важными статистическими свойствами, необходимо признать фундаментальную простоту этих методов. Следующие статистики и понятия связаны с кластерным анализом.

План агломерации, объединения (agglomeration schedule). Дает информацию об объектах (событиях, случаях), которые должны быть объединены на каждой стадии процесса иерархической кластеризации.

Кластерный центроид (cluster centroid). Среднее значение переменных для всех случаев или объектов в конкретном кластере,

Кластерные центры (cluster centers). Исходные начальные точки в неиерархической кластеризации. Кластеры строят вокруг этих центров, или зерен кластеризации.

Принадлежность кластеру (cluster membership). Указывает кластер, которому принадлежит каждый случай или объект.

Древовидная диаграмма (дендрограмма) (dendrogram). Ее также называют древовидный граф— графическое средство для показа результатов кластеризации. Вертикальные линии представляют объединяемые кластеры. Положение вертикальной линии на шкале расстояния (горизонтальная ось) показывает расстояния, при которых объединяли кластеры. Древовидную диаграмму (рис, 20.8) читают слева направо.

Расстояния между кластерными центрами (distances between cluster centres). Указывают, насколько разнесены отдельные пары кластеров, Кластеры, которые разнесены широко, ясно выражены и поэтому желательны.

Сосульчатая диаграмма (icicle diagram), Это графическое отображение результатов кластеризации. Она названа так потому, что имеет сходство с рядом сосулек, свисающих с крыши дома. Сосульчатую диаграмму (рис. 20.7) читают сверху вниз.

Матрица сходства/матрица расстояний между объединяемыми объектами (similarity/distance coefficient matrix). Матрица сходства (расстояний) — это нижняя треугольная матрица, содержащая значения расстояния между парами объектов или случаев.