интересно
Предыдущая | Содержание | Следующая

Множественный дискриминантныи анализ

Формулирование проблемы

Данные табл. 18.2 и 18.3 можно использовать для иллюстрации дискриминантного анализа для трех групп. В последней колонке этих таблиц домашние хозяйства классифицируют по трем категориям, исходя из суммы, потраченной на семейный отдых (Б — большая, С — средняя и М — маленькая). Десять домашних хозяйств попали в каждую из категорий. Интересно выяснить, действительно ли семьи, которые потратили большую, среднюю или маленькую сумму на отдых (сумма), различаются с точки зрения семейного дохода (доход), отношения к путешествию (путешествие), значения, придаваемого семейному отдыху (отдых), размера семьи (размер семьи) и возраста главы семьи (возраст).

ОпределениекоэффициентовдискриминантноЙфункции

В табл. 18.5 представлены результаты, полученные с помощью дискриминантного анализа трех групп. Изучение групповых средних показало, что переменная "доход" разделяет группы более широко, чем любая другая переменная. Существует некоторое разделение по переменным "путешествие" и "отдых". А вот с точки зрения размера семьи и возраста главы семьи группы 1 и 2 почти не различаются.

Самое большое стандартное отклонение внутри группы для всех трех групп имеет переменная "возраст". Объединенная межгрупповая корреляционная матрица указывает на некоторую корреляцию переменных "отдых" и "размер семьи" с "доходом". Переменная "возраст" имеет отрицательную корреляцию с "путешествием" (т.е. зависимость между путешествием и возрастом обратная). К тому же эти корреляции находятся в нижнем ряду, указывая, что хотя муль-тиколлинеарность и может иметь место, но она, вероятно, не вызовет серьезной проблемы. Значимость соответствующих одномерных /"-статистик (отношений межгрупповой суммы квадратов к внутригрупповой) указывает, что когда предикторы рассматриваются по отдельности, то при дифференциации двух групп только доход и путешествие значимы.

Если при проведении множественного дискриминантного анализа имеется G групп, tcv можно определить (G— 1) дискриминантную функцию, если число предикторов больше этого количества. Вообще, с G группами и к предикторами можно вычислить и меньше, чем (G — 1) или кдискриминантных функций. Первая функция имеет самое высокое значение отношения межгрупповой суммы квадратов к внутригруппововой сумме квадратов. Вторая функция, не-коррелирующая с первой, имеет второе по величине собственное значение и т.д. Однако не все функции могут быть статистически значимыми.

Поскольку имеется три группы, можно определить значения двух функций. Собственное значение первой функции равно 3,8190, и эта функция объясняет 93,93% объяснимой дисперсии.

Поскольку собственное значение большое, то первая функция, вероятно, старше. Вторая функция имеет небольшое собственное значение, равное 0,2469, и объясняет только 6,07% объяснимой дисперсии.