интересно
Предыдущая | Содержание | Следующая

Формулирование проблемы

Первый шаг дискриминантного анализа — формулирование проблемы путем определения целей, зависимой переменой и независимых переменных. Зависимая переменная должна состоять из двух или больше взаимоисключающих и взаимно исчерпывающих категорий. Если зависимая переменная измерена с помощью интервальной или относительной шкалы, то ее следует, в первую очередь, перевести в статус категориальной. Например, отношение к торговой марке, измеренное по семибалльной шкале, можно категоризировать как неблагоприятное (1, 2, 3), нейтральное (4) и благоприятное (5, 6, 7). Можно поступить иначе. Для этого следует построить график распределения значений зависимой переменной и сформировать группы равного размера с помощью точек отсечения. Предикторы следует выбирать, исходя из теоретической модели или ранее проведенного исследования, или, в случае поискового исследования, из интуиции и опыта исследователя.

Следующий шаг — разделение выборки на две части. Одна из них — анализируемая выборка (analysis sample) — используется для вычисления дискриминантной функции.

Другая часть — проверочная выборка (validation sample) — предназначена для проверки дискриминантной функции.

Когда выборка достаточно большая, ее можно разбить на две равные части. Одна служит анализируемой выборкой, а другую используют для проверки. Затем роль этих половинок взаимно меняют и повторяют анализ. Это называется двойной перекрестной проверкой, и она аналогична методу, рассмотренному в регрессионном анализе.

Часто распределение количества случаев в анализируемой и проверочной выборки явствует из распределения в обшей выборке. Например, если общая выборка содержит 50% лояльно и 50% нелояльно настроенных покупателей, то анализируемая и проверочная выборки должны каждая содержать 50% лояльных и 50% нелояльных покупателей. В другом случае, если выборка содержит 25% лояльных и 75% нелояльных покупателей, следует выбрать анализируемую и проверочную выборки таким образом, чтобы их распределения отражали аналогичную картину (25% против 75%).

И наконец, проверку достоверности дискриминантной функции предлагают выполнять неоднократно. Каждый раз выборку следует разбивать на две части: для анализа и проверки. Вычисляют дискриминантную функцию и выполняют анализ достверности модели. Таким образом, оценка достоверности основана на ряде испытаний. Предлагаются также более точные методы.

Чтобы лучше проиллюстрировать дискриминантный анализ для двух групп, обратимся к примеру. Предположим, что мы хотим определить главные характеристики семей, которые отдыхали на курорте в последние два года, Данные получены на основании выборки, включающей 42 семьи. Из них 30 включены (как показано в табл. 18.2) в анализируемую выборку, а оставшиеся 12 (как показано в табл. 18.3) стали частью проверочной выборки.

Семьям, которые отдыхали на курорте в последние два года, присвоен код 1: тем же, которые не посетили курорт за указанный период времени, присвоен код 2. Обе выборки (как анализируемая, так и проверочная) сбалансированы с точки зрения посещаемости курорта. Как видно, анализируемая выборка содержит 15 семей каждой категории, а проверочная — по 6 семей каждой категории, Кроме того, получены данные о ежегодном доходе каждой семьи (доход), отношении к путешествию (путешествие, оценивали по девятибалльной шкале), значении, придаваемом семейному отдыху (отдых, оценивали по девятибалльной шкале), размеру семьи (размер семьи) и возрасту главы семьи (возраст).

Определение коэффициентов дискриминантной функции

После определения анализируемой выборки (табл. 18.2) мы можем вычислить коэффициенты дискриминантной функции, используя два метода. Прямой метод (direct method) — вычисление дискриминантной функции при одновременном введении всех предикторов.

В этом случае учитывается каждая независимая переменная. При этом ее дискриминирующая сила не принимается во внимание. Этот метод больше подходит к ситуации, когда аналитик, исходя из результатов предыдущего исследования или теоретической модели, хочет, чтобы в основе различения лежали все предикторы. Альтернативным методом является пошаговый метод. При пошаговом дискриминантом анализе (stepwise discriminant analysis) предикторы вводят последовательно, исходя из их способности различить (дискриминировать) группы.

Этот метод лучше применять в ситуации, когда исследователь хочет отобрать подмножество предикторов для включения их в днскриминатную функцию.

Результаты выполнения дискриминантного анализа для двух групп данных из табл. 18.2 с использованием SPSS представлены в табл. 18.4.

 


Некоторые результаты можно получить, изучив групповые средние и стандартные отклонения. Маркетологи обнаружили, что в деление совокупности на две группы самый большой вклад внесла переменная "доход". Кроме того, оказалось, что переменная "значение, придаваемое семейному отдыху", важнее для различения групп, чем переменная "отношение к путешествию". По возрасту главы семьи две группы различаются мало, а стандартное отклонение этой переменной большое.

Объединенная внутригрупповая корреляционная матрица указывает на низкие коэффициенты корреляции между предикторами. Маловероятно, что возникнет проблема мульти-колл и неарности. Значимость одномерных F-статистик (отношений внутри групповых сумм квадратов к обшей сумме квадратов) указывает, что когда предикторы рассматриваются по отдельности, то только доход; значение, придаваемое семейному отдыху; и размер семьи значимо различаются между семьями, которые посетили курорт, и между теми, кто не отдыхал на курорте.

Поскольку имеется две группы, то оценивается только одна дискриминантная функция, Собственное значение, соответствующее этой функции, равно 1,7862. Каноническая корреляция, соответствующая этой функции, равна 0,8007. Квадрат корреляции, равный (0,8007)* = 0,64, показывает, что 64% дисперсии зависимой переменной (посещение курорта) объясняется этой моделью. Следующая стадия дискриминантного анализа включает определение значимости дискриминантной функции.