интересно
Предыдущая | Содержание | Следующая

Дискриминантный анализ

краткий обзор

Эта глава посвящена дискриминантному анализу. В начале главы мы установим его связь с регрессионным  и дисперсионным  анализом. Опишем модель и общую процедуру выполнения дискриминантного анализа, отметив такие стадии: формулировка проблемы, вычисление коэффициентов дискриминантной функции, определение значимости, интерпретация и проверка результатов. Данная процедура проиллюстрирована на примере дискриминанто-ного анализа для двух групп. Рассмотрен пример множественного дискриминантного анализа (для трех групп). Кроме того, мы изучим пошаговый дискриминантный анализ.

Начнем с примеров, иллюстрирующих применение дискриминантного анализа для двух групп и множественного дискриминантного анализа.

В указанном примере с универмагом задействованы две группы респондентов (знакомые и не знакомые с универмагом), в то время как в примере с предрасположенностью к покупкам товаров со скидками проверяли три группы (лица, не являющиеся покупателями товаров со скидкой; редкие покупатели и частые). В данных исследованиях обнаружены существенные межгрупповые различия при использовании многих предикторов (независимых переменных), Исследование различий между группами — основа концепции дискриминантного анализа.

ОСНОВЫ ДИСКРИМИНАНТНОГО АНАЛИЗА

Дискриминантный анализ (discriminant analysis) используется для анализа данных в том случае, когда зависимая переменная категориальная, а предикторы (независимые переменные) интервальные.

Например, зависимая переменная может быть выбором торговой марки персонального компьютера (торговые марки А, В или С), а независимыми переменными могут быть рейтинги свойств персональных компьютеров, измеренные по семибалльной шкале Лайкерта. Дискриминантный анализ преследует такие цели.

Определение дискриминанты* функций (discriminant functions) или линейных комбинаций независимых переменных, которые наилучшим образом различают (дискриминируют) категории (группы) зависимой переменной.

Проверка существования между группами значимых различий с точки зрения независимых переменных.

Определение предикторов, вносящих наибольший вклад в межгрупповые различия,

Отнесение случаев к одной из групп (классификация), исходя из значений предикторов.

Оценка точности классификации данных на группы.

Метод дискриминантного анализа описывается числом категорий, имеющихся у зависимой переменной. Если она имеет две категории, то метод называют дискрнмипантным анализом для двух групп (two-group discriminant analsysis).

Если анализируют три или больше категорий, то метод называют множественным дискри мннантным анализом (multiple descriminant analysis).

Главное отличие между ними заключается в том, что при наличии двух групп возможно вывести только одну дискриминантную функцию. Используя множественный Дискриминантами анализ, можно вычислить несколько функций.

В маркетинговых исследованиях можно привести массу примеров применения дискриминантного анализа. Так, с помощью этого метода можно получить ответы на следующие вопросы.

Чем, с точки зрения демографических характеристик, отличаются приверженцы данного магазина от тех, у кого эта приверженность отсутствует?

Отличаются лив потреблении замороженных продуктов покупатели, которые пьют безалкогольные напитки мало, умеренно и много?

Какие психографические характеристики помогают провести различия между восприимчивыми и не восприимчивыми к цене покупателями бакалейных товаров?

Различаются ли между собой различные сегменты рынка по своим предпочтениям к средствам массовой информации?

Какие существуют различия между постоянными покупателями местных универсальных магазинов и постоянными покупателями общенациональных сетей универмагов с точки зрения стиля жизни?

Какими отличительными характеристиками обладают потребители, реагирующие на прямую почтовую рекламу?

СВЯЗЬ С РЕГРЕССИОННЫМ И ДИСПЕРСИОННЫМ АНАЛИЗОМ

Связь между дискриминантным, дисперсионным и регрессионным анализом показана в табл. 18.1.

Мы объясним эту связь на примере, в котором исследователь пытается установить зависимость величины суммы, на которую заключается договор страхования жизни, от возраста и дохода. Все три метода включают единственную зависимую переменную и несколько предикторов или независимых переменных. Однако природа этих переменных различна. В случае дисперсионного и регрессионного анализа зависимая переменная метрическая или интервальная (страховая премия выражена в долларах), в то время как в дискриминантном анализе зависимая переменная категориальная (страховая премия классифицируется как высокая, средняя или низкая). Независимые переменные являются категориальными в дисперсионном анализе (возраст и доход классифицируют как старый (высокий), средний и молодой (низкий)), но выступают метрическими в регрессионном и дискриминантной анализе (возраст в годах и доход в долларах, т.е. оба измерены с помощью относительной шкалы).

Дискриминантный анализ для двух групп, когда зависимая переменная имеет только две категории, тесно связан со множественным регрессионным анализом. В этом случае множественный регрессионный анализ, в котором зависимую переменную кодируют как фиктивную переменную, имеющую значение 0 или 1, приводит к частным коэффициентам регрессии, которые пропорциональны коэффициентам дискриминантной функции (см. следующий раздел).

МОДЕЛЬ ДИСКРИМИНАНТНОГО АНАЛИЗА

Модель дискримннантного анализа (discriminant analysis model) имеет следующий вид:

где D — д искрим инантны Й показатель (дискриминант), Ь — дискри минантный коэффициент или вес, X— предиктор или независимая переменная.

Коэффициенты или веса (/>) определяют таким образом, чтобы группы максимально возможно отличались значениями дискриминантной функции. Это происходит тогда, когда отношение межгрупповой суммы квадратов к внутри групповой сумме квадратов для дискрими-нантных показателей максимально. Любая другая линейная комбинация предикторов приводит к меньшему значению этого отношения. Технические детали вычисления описаны в приложении 18А. С дискриминантным анализом связан ряд статистик.

СТАТИСТИКИ, СВЯЗАННЫЕ С ДИСКРИМИНАНТНЫМ АНАЛИЗОМ

Ниже приведены основные статистики, связанные с дискриминантным анализом.

Каноническая корреляция (canonical correlation). Измеряет степень связи между дискриминантными показателями и группами. Это мера связи между единственной дискриминирующей функцией и набором фиктивных переменных, которые определяют принадлежность к данной группе.

Центроид (средняя точка) (centroid). Центроид — это средние значения для дискриминантных показателей конкретной группы. Центроидов столько, сколько групп, т.е. один центроид для каждой группы. Средние группы для всех функций — это групповые центроиды.

Классификационная матрица (classification matrix). Иногда ее называют смешанной матрицей, или матрицей предсказания. Классификационная матрица содержит ряд правильно классифицированных и ошибочно классифицированных случаев. Верно классифицированные случаи лежат на диагонали матрицы, поскольку предсказанные и фактические группы одни и те же. Элементы, не лежащие по диагонали матрицы, представляют случаи, классифицированные ошибочно. Сумма элементов, лежащих на диагонали, деленная на общее количество случаев, дает коэффициент результативности.

Коэффициенты дискриминантной функции (discriminant function coefficients). Коэффициенты Дискримцнантной функции (ненормированные) — это коэффициенты переменных, когда они измерены в первоначальных единицах.

Дискрнминантные показатели (discriminant scores). Сумма произведений ненормированных коэффициентов дискриминантной функции на значения переменных, добавленная к постоянному члену.

Собственное (характеристическое) значение (eigenvalue). Для каждой дискриминантной функции собственное значение — это отношение межгрупповой суммы квадратов к внутри-групповой сумме квадратов. Большие собственные значения указывают на функции более высокого порядка.

F-статистика и ее значимость (F values and their significance). Значения /"-статистики вычисляют однофакторный дисперсионный анализ, разбивая на группы независимую переменную. Каждый предиктор, в свою очередь, служит в ANOVA метрической зависимой переменной.

Средние группы и групповые стандартные отклонения (group means and group standard deviations). Эти показатели вычисляют для каждого предиктора каждой группы.

Объединенная межгрупповая корреляционная матрица (pooled within-group correlation matrix). Объединенную межгрупповую корреляционную матрицу вычисляют усреднением отдельных ковариационных матриц для всех групп.

Нормированные коэффициенты дискримннантных функций (standardized discriminant function coefficients). Коэффициенты дискримннантных функций используют как множители для нормированных переменных, т.е. переменных с нулевым средним и дисперсией, равной 1.

Структурные коэффициенты корреляции (structure correlations). Также известны как дискри-минантные нагрузки, представляют собой линейные коэффициенты корреляции между предикторами и дискриминантной функцией.

Общая корреляционная матрица (total correlation matrix). Если при вычислении корреляций наблюдения обрабатывают так, как будто они взяты из одной выборки, то в результате получают общую корреляционную матрицу.

Коэффициент л Уилкса (Wilkss л)- Иногда называемый (/-статистикой, коэффициент X. Уилкса для каждого предиктора — это отношение внутригрупловой суммы квадратов к общей сумме квадратов. Его значение варьирует от 0 до I, Большое значение X (около 1) указывает на то, что средние групп не должны различаться. Малые значения Я (около 0) указывают на то, что средние групп различаются.

В дискриминантной анализе существуют такие допущения: каждая группа является выборкой из многомерной нормально распределенной совокупности; все совокупности имеют одну и ту же ковариационную матрицу. Чтобы лучше понять роль допущений и описанных выше статистик, следует изучить методы выполнения дискриминантного анализа.