интересно
Предыдущая | Содержание | Следующая

Определение значимости дискриминантной функции

Бессмысленно интерпретировать результаты анализа, если определенные дискрими-нантные функции не являются статистически значимыми. Поэтому следует выполнить, статистическую проверку нулевой гипотезы о равенстве средних всех дискриминанткых функций во всех группах генеральной совокупности. В программе SPSS эта проверка базируется на коэффициенте лямбда (X) Уилкса. Если одновременно проверяют несколько функций, как в случае множественного дискриминантного анализа, то коэффициент X является суммой одномерных X для каждой функции. Уровень значимости оценивают, исходя из преобразования А-статистики в статистику хи-квадрат (исходя из распределения хи-квадрат, которому подчиняется Х-статистика). При проверке значимости в примере с посещением курорта (табл. 18.4) можно отметить, что Я, равная 0,3589, преобразуется в хи-квадрат статитстику, равную 26,13 с пятью степенями свободы. Она значима при уровне, превышающем 0,05. В программе SAS вычисляют приближенную /-статистику, основанную на апроксимации к распределению отношения правдоподобия. В программе BMDP проверка нулевой гипотезы базируется на преобразовании Х- статистики Уилкса в /"-статистику. В Minitab нельзя выполнить проверку значимости. Если нулевую гипотезу отклоняют, что указывает на значимую дискриминацию, то можно продолжать интерпретировать результаты.

Интерпретация результатов

Интерпретация дмскриминантных весов аналогична интерпретации во множественном регрессионном анализе. Значение коэффициента для конкретного предиктора зависит от других предикторов, включенных в дискриминантную функцию. Знаки коэффициентов условны, но они указывают, какие значения переменной приводят к большим и маленьким значениям функции и связывают их с конкретными группами.

При наличии мультиколлинеарности между независимыми переменными не существует однозначной меры относительной важности предикторов для дискриминации между группами. Помня об этом предостережении, можно получить некоторое представление об относительной важности переменных, изучив абсолютные значения нормированных коэффициентов дискриминантной функции. Как правило, предикторы с относительно большими нормированными коэффициентами вносят больший вклад в дискриминирующую мощность функции по сравнению с предикторами, имеющими меньшие коэффициенты.

Некоторое представление об относительной важности предикторов можно также получить, изучив структурные коэффициенты корреляции, которые также называют каноническими или дискриминантными нагрузками. Эти линейные коэффициенты корреляции между каждым из предикторов и дискриминантной функцией представляют дисперсию, которую предиктор делит вместе с функцией. Как и нормированные коэффициенты, эти коэффициенты корреляции следует использовать осторожно.

Полезно исследовать нормированные коэффициенты дискриминантной функции в примере с отпуском на курорте. С данными низкими коэффициентами корреляциями между предикторами можно использовать значения нормированных коэффициентов, чтобы предположить, что доход — наиболее важный предиктор при дискриминации между группами, а за ним следуют размер семьи и значение, придаваемое семейному отдыху. Аналогичное наблюдение получено из проверки структурных корреляций. Эти коэффициенты линейной корреляции между предикторами и дискриминантной функцией перечислены в порядке их убывания.

Также даны и ненормированные коэффициенты дискриминантной функции. Для классификации данных их можно применить к необработанным значениям переменных в проверочной выборке. Кроме того, показаны групповые центроиды, дающие значения дискриминантной функции, оцененные по групповым средним. Центроид группы 1 (семьи, отдыхающие на курорте) имеет положительное значение, а центроид группы 2 — равное ему, но отрицательное. Знаки коэффициентов соответствующих предикторов положительны. Это означает, что чем выше доход семьи; ее размер; значение, придаваемое семейному отдыху; отношение к путешествию и возраст, тем выше вероятность семейной поездки на курорт. Разумно создать профиль двух групп с точки зрения трех предикторов, которые кажутся наиболее важными: доход, размер семьи и значение, придаваемое семейному отдыху. Значения этих трех переменных для двух групп приведены в табл. 18.4.

Относительную важность предикторов иллюстрирует следующий пример.

Замечание. Ранговый порядок важности переменной Присвоен в соответствии с величиной канонической нагрузки.

Примечание Удовлетворение

Эффективность работы

Неопределенность

Конфликт

Ранговый порядок важности переменной в соответствии с относительной величиной канонических нагрузок представлен в первой колонке. Удовлетворение работой и возможность продвижения по службе самые важные дискриминаторы, за которыми следовали условия безопасной работы. Продавцы, оставшиеся работать в компании, в отличие от уволившихся, считали свою работу увлекательной, интересной и приносящей удовлетворение.

Обратите внимание, что в этом примере, исходя из канонических нагрузок, продвижение по службе идентифицировали как вторую наиболее важную переменную. Однако продвижение по службе не является второй наиболее важной переменной, если исходить из абсолютной величины нормированных коэффициентов дискриминантной функции. Эта аномалия — результат мультиколлинеарности.

При интерпретации результатов дискриминантного анализа также может помочь разработка характеристической структуры (characteristic profile) для каждой группы посредством описания каждой группы через групповые средние для предикторов.

Если важные предикторы установлены, то сравнение групповых средних по этим переменным может помочь понять межгрупповые различия. Однако прежде чем интерпретировать какие-либо факты, необходимо убедиться в достоверности результатов.

Оценка достоверности дискриминантного анализа

Как уже говорилось, данные разбивают случайным образом на две подвыборки. Анализируемую часть выборки используют для вычисления В искримннантной функции, а проверочную — для построения классификационной матрицы. Дискриминантные веса, определенные анализируемой выборкой, умножают на значения независимых переменных в проверочной выборке, чтобы получить дискриминантные показатели для случаев в этой выборке. Затем случаи распределяют по группам, исходя из д искрим и нантных показателей и соответствующего правила принятия решения. Например, при дискриминантном анализе двух групп случай может быть отнесен к группе с самым близким по значению центроидом. Затем, сложив элементы, лежащие на диагонали матрицы, и разделив полученную сумму на общее количество случаев, можно определить коэффициент результативности (hit ratio) или процент верно классифицированных случаев.

Полезно сравнить процент случаев, верно классифицированных с помощью дискриминантного анализа, с процентом случаев, который можно получить случайным образом. Для равных по размеру групп процент случайной классификации равен частному от деления единицы на количество групп. Превысит ли и насколько количество верно классифицированных случаев их случайное количество? Здесь нет общепринятого подхода, хотя некоторые авторы считают, что точность классификации, достигнутая с помощью дискриминантного анализа, должна быть, по крайней мере, на 25% выше, чем точность, которую можно достичь случайным образом.

Большинство программ для выполнения дискриминантного анализа также определяют классификационную матрицу, исходя из анализируемой выборки. Поскольку программы учитывают даже случайные вариации в данных, то полученные результаты всегда точнее, чем классификация данных на основе проверочной выборки

В табл. !" (пример семейного отдыха на курорте) также показаны результаты классификации, полученные на основе анализируемой выборки. Коэффициент результативности или процент верно классифицированных случаев равен (12 + 15)/30 = 0,90 или 90%. Могут возникнуть сомнения, что этот коэффициент результативности искусственно завышен, поскольку данные, использованные для вычисления, использовались и для проверки. Выполнение классификационного анализа по независимому набору данных приводит к классификационной матрице с немного меньшим коэффициентом результативности (4 + 6)/12 = 0,833 или 83,3% (табл. 18.4). Задав случайным образом дне группы равного размера, можно ожидать, что коэффициент результативности равен 1/2 = 0,50 или 50%. Однако превышение точности классификации над случайной классификацией составляет свыше 25%, и поэтому достоверность дискриминантного анализа оценивают как удовлетворительную.

Следующий пример иллюстрирует иное применение дискриминантного анализа двух групп.