интересно
Предыдущая | Содержание | Следующая

Выбор метода кластеризации

На рис. 20.4 приведена классификация методов кластеризации.

Методы кластеризации могут быть иерархическими и неиерархическими. Иерархическая кластеризация (hierarchical clustering) характеризуется построением иерархической, или древовидной, структуры.

Иерархические методы могут быть аг.тамератиеными (объединительными) и дивиэивны-ми. Агломеративная кластеризация (agglomerative clustering) начинается с каждого объекта в отдельном кластере. Кластеры объединяют, группируя объекты каждый раз во все более и более крупные кластеры. Этот процесс продолжают до тех пор, пока все объекты не станут членами одного единственного кластера.

Разделяющая, или дивнзивная, кластеризация (divisive clustering) начинается со всех объектов, сгруппированных в единственном кластере. Кластеры делят (расщепляют) до тех пор, пока каждый объект не окажется в отдельном кластере.

Обычно в маркетинговых исследованиях используют агломеративные методы, например методы связи, дисперсионные и центроидные методы. Методы связи (linkage methods) включают метол одиночной связи, метод полной связи и метод средней связи.

В основе метода одиночной связи (single method) лежит минимальное расстояние, или правило ближайшего соседа.

При формировании кластера первыми объединяют два объекта, расстояние между которыми минимально. Далее определяют следующее по величине самое короткое расстояние, и в кластер с первыми двумя объектами вводят третий объект. На каждой стадии расстояние между двумя кластерами представляет собой расстояние между их ближайшими точками (рис. 20.5).

На любой стадии два кластера объединяют по единственному кратчайшемурасстоянию между ними. Этот процесс продолжают до тех пор, пока все объекты не будут объединены в кластер. Если кластеры плохо определены, то метод одиночной связи работает недостаточно хорошо. Метод полной связи (complete linkage) аналогичен методу одиночной связи, за исключением того, что в его основе лежит максимальное расстояние между объектами, или правило дальнего соседа. В методе полной связи расстояние между двумя кластерами вычисляют как расстояние между двумя их самыми удаленными точками.

Метод средней связи (average linkage) действует аналогично. Однако в этом методе расстояние между двумя кластерами определяют как среднее значение всех расстояний, измеренных между объектами двух кластеров, при этом в каждую пару входят объекты из разных кластеров (см. рис. 20.5).

Из рис. 20.5 видно, что метод средней связи использует информацию обо всех расстояниях между парами, а не только минимальное или максимальное расстояние. По этой причине обычно предпочитают метод средней связи, а не методы одиночной или полной связи.

Дисперсионные методы (variance methods) формируют кластеры таким образом, чтобы минимизировать внутрикластерную дисперсию.

Широко известным дисперсионным методом, используемым для этой цели, является метод Варда (Wards procedure).

Для каждого кластера вычисляют средние всех переменных. Затем для каждого объекта вычисляют квадраты евклидовых расстояний до кластерных средних (рис. 20.6).

Эти квадраты расстояний суммируют для всех объектов. На каждой стадии объединяют два кластера с наименьшим приростом в полной внутрикластерной дисперсии. В цеятроидных методах (centroid method) расстояние между двумя кластерами представляет собой расстояние между их центроидами (средними для всех переменных), как показано на рис. 20.6.

Каждый раз объекты группируют и вычисляют новый центроид. Изо всех иерархических методов методы средней связи и Вара показывают наилучшие результаты по сравнению с другими методами.

К другому типу процедур кластеризации относятся ненерахические методы кластеризации (nonhierarchical clustering), часто называемые методом t-срсдних.

Эти методы включают последовательный пороговый метод, параллельный пороговый метод и оптимизирующее распределение. В последовательном пороговом методе (sequential threshold method) выбирают центр кластера и все объекты, находящиеся в пределах заданного от центра порогового значения, группируют вместе. Затем выбирают новый кластерный центр, и процесс повторяют для несгруппированных точек. После того как объект помещен в кластер с этим новым центром, его уже не рассматривают как объект для дальнейшей кластеризации.

Аналогично работает параллельный пороговый метод (parallel threshold method), за исключением того, что одновременно выбирают несколько кластерных центров и объекты в пределах порогового уровня группируют с ближайшим центром.

Метод оптимизирующего распределения (optimizing partitioning method) отличается от двух изложенных выше пороговых методов тем, что объекты можно впоследствии поставить в соответствие другим кластерам (перераспределить), чтобы оптимизировать суммарный критерий,, такой как среднее внутри кластерное расстояние для данного числа кластеров.

Два главных недостатка неиерархических методов состоят в том, что число кластеров определяется заранее и выбор кластерных центров происходит независимо. Более того, результаты кластеризации могут зависеть от выбранных центров. Многие неиерархические процедуры выбирают первые к случаев (к — число кластеров), не пропуская никаких значений в качестве начальных кластерных центров. Таким образом, результаты кластеризации зависят от порядка наблюдений в данных. Неиерархическая кластеризация быстрее иерархических методов, и ее выгодно использовать при большом числе объектов или наблюдений, Высказано предположение о возможности использования иерархических и неиерархических методов в тандеме. Во-первых, первоначальное решение по кластеризации получают, используя такие иерархические методы, как метод средней связи или метод Варда. Полученное этими методами число кластеров и кластерных центроидов используют в качестве исходных данных в методе оптимизирующего распределения.

Выбор метода кластеризации и выбор меры расстояния взаимосвязаны. Например, квадраты евклидовых расстояний используют наряду с методом Варда и центроидным методом. Некоторые из неиерархических методов также используют квадраты евклидовых расстояний.

Для иллюстрации иерархической кластеризации используем метод Варда. Результаты, полученные при кластеризации данных табл. 20.1, приведены втабл. 20.2.

Полезную информацию можно извлечь из плана агломерации, где показано число случаев или кластеров, которые нужно объединить на каждой стадии. Первая строка представляет первую стадию, когда есть 19 кластеров. На этой стадии объединены респонденты 14 и 16, что показано в колонках, озаглавленных"Объеди няемыекластеры". Квадратевклидового расстояния между точками, соответствующими этим двум респондентам, дан в колонке "Коэффициент", Колонка "Стадия, на которой впервые появился кластер" показывает стадию, на которой впервые был сформирован кластер. Например, цифра (входа в кластер) 1 на стадии 7 указывает на то, что респондента 14 впервые включили в кластер на стадии 1. Последняя колонка, "Следующая стадия, показывает стадию, на которой другой случай (респондент) или кластер объединили с этим кластером. Поскольку число в первой строке последней колонки равно 7, значит, респондента 10 объединили с респондентами 14 и 16 на стадии 7, чтобы сформировать один кластер. Аналогично, вторая строка представляет стадию 2 с 18 кластерами. На стадии 2 респондентов 2 и 13 группируют вместе.

Другая важная часть результата кластеризации содержится в сосульчатой диаграмме, представленной на рис. 20.7.

Столбики соответствуют объектам, которые подлежат кластеризации, в этом случае респондентам присвоили номера от I до 20. Ряды соответствуют числу кластеров. Эту диаграмму читают снизу вверх. Вначале все случаи считают отдельными кластерами. Так как мы имеем 20 респондентов, количество исходных кластеров равно 20. На первой стадии объединяют два ближайших объекта, что приводит к 19 кластерам. Последняя строчка на рис. 20.7 показывает эти 19 кластеров. Два случая, а именно респонденты 14 и 16, которых объединили на этой стадии, не имеют между собой разделяющего пустого (белого) пространства. Ряде номером 18 соответствует следующей стадии с 18 кластерами. На этой стадии вместе группируют респондентов 2 и 13. Таким образом на этой стадии мы имеем 18 кластеров, 16 из них состоят из отдельных респондентов, а два содержат по два респондента. На каждой последующей стадии формируется новый кластер одним из трех способов: два отдельных объекта группируют вместе; объект присоединяют к уже существующему кластеру; два кластера группируют вместе.

Еще одно полезное графическое средство отображения результатов кластеризации — это древовидная диаграмма (денлрогралша) (рис. 20.8).

Древовидную диаграмму читают слева направо. Вертикальные линии показывают кластеры, объединяемые вместе. Положение линии относительно шкалы расстояния показывает расстояния, при которых кластеры объединили. Поскольку многие расстояния на первых стадиях объединения примерно одинаковой величины, трудно описать последовательность, в которой объединили первые кластеры. Однако понятно, что на последних двух стадиях расстояния, при которых кластеры должны объединиться, достаточно большие. Эта информация имеет смысл при принятии решения о количестве кластеров (см. следующий раздел).

Кроме того, если число кластеров определено, то можно получить информацию о принадлежности к кластеру, Хотя эта информация следует и из сосульчатой диаграммы, табличная форма нагляднее, Табл. 20,2 содержит данные о кластерной принадлежности объектов, в зависимости от принятого решения; два, три или четыре кластера. Информацию такого рода можно получить для любого числа кластеров, и она полезна при принятии решения о числе кластеров.