интересно
Предыдущая | Содержание | Следующая

Определение числа факторов

Можно вычислить столько главных компонент, сколько имеется переменных, но это неэкономично. Чтобы обобщить информацию, содержащуюся в исходных переменных, лучше Ьыделить небольшое число факторов. Вопрос в том: сколько? Для определения числа факторов предлагается несколько процедур: определение, основанное на предварительной информации; определение, основанное на собственных значениях факторов; критерий "каменистой осыпи"; определение на основе процента объясненной дисперсии; метод расщепления и критерии значимости.

Определение, основанное на предварительной информации. Иногда, руководствуясь предварительной информацией, исследователь знает, сколько факторов можно ожидать, и таким образом, может заранее определить число выделяемых факторов. После извлечения желаемого числа факторов их выделение прекращают. Большинство компьютерных программ позволяют пользователю определить число факторов, значительно упрошая применение этого метода.

Определение, основанное на собственных значениях факторов. В этом методе учитывают только факторы, собственные значения которых выше 1,0; остальные факторы в модель не включают. Собственное значение представляет значение дисперсии, обусловленной действием этого фактора. Следовательно, рассматривают только факторы с дисперсией выше 1,0. Если число переменных меньше 20, то этот метод завышает число факторов.

Определение, основанное на критерии "каменистой осыпи". Графическое изображение критерия "каменистой осыпи" представляет собой график зависимости собственных значений факторов от их номеров в порядке выделения. Для определения числа факторов используют форму графика. Обычно график имеет четкий разрыв между крутой частью кривой, где факторам свойственны большие собственные значения, и плавной хвостовой частью кривой, связанной с остальными факторами (в этом месте убывание собственных значений факторов слева направо максимально замедляется). Это плавное убывание собственных значений называется юсыпь (scree). Опыт показывает, что точка, с которой начинается осыпь, указывает на действительное число факторов. Обычно число факторов, определенное по графику "каменистой осыпи", на единицу или несколько единиц больше числа факторов, полученных методом, основанным на собственных значениях.

Определение на основе процента объясненной дисперсии. В этом методе число выделяемых факторов определяют так. чтобы кумулятивный процент дисперсии, выделяемой факторами, достиг удовлетворительного уровня. Какой уровень дисперсии считать удовлетворительным, зависит от поставленной задачи. Однако рекомендуется выделять такое число факторов, которое объясняют, по крайней мере, 60% дисперсии.

Определение, основанное на оценке надежности, выполняемой расщеплением. В этом методе выборку расщепляют напополам и факторный анализ выполняют для каждой половины. При этом оставляют только факторы с высокой степенью соответствия факторных нагрузок в двух подвыборках.

Определение, основанное на критериях значимости. Можно определить статистическую значимость отдельных собственных значений и оставить только статистически значимые факторы. Недостаток этого метода в том, что при больших размерах выборок (больше 200) многие факторы, вероятно, статистически значимые, хотя с практической точки зрения, многие из них объясняют небольшую долю полной дисперсии.

В табл. 19.3, исходя из собственных значений факторов, превышающих единицу (по умолчанию), будет выделено два фактора. Из опыта (предварительная информация) мы знаем, что зубную пасту покупают по двум основным причинам. График "каменистой осыпи" приведен на рис. 19.2.

На графике четкий разрыв виден в области трех факторов. И наконец, из значения кумулятивного процента объясненной дисперсии видно, что два первых фактора объясняют 82,49% дисперсии, и увеличение этого значения при переходе к трем факторам будет предельным. Кроме того, метод расщепления выборки также указывает на два фактора. Таким образом, в, данной ситуации целесообразно рассмотреть два фактора.

Во второй колонке части табл. 19.3 под названием "Общности" дана информация после выделения желаемого числа факторов. Общности в колонке "Выделенная" отличаются от значений в колонке "Начальная", поскольку всю дисперсию, соответствующую этим переменным, нельзя объяснить, если не оставить в модели все факторы. В части таблицы под названием "Сумма квадратов нагрузок выделенных факторов" даны дисперсии, соответствующие факторам, которые оставили в модели. Обратите внимание, что их значения совпадают со значениями дисперсий в колонке "Исходные собственные значения". Это характерно для анализа главных компонент. Процент дисперсии, объясненной фактором, определяют, разделив соответствующее собственное значение на число факторов и умножив полученное значение на 100. Таким образом, первый фактор объясняет (2,731/6) х 100, или 45,52%, от дисперсии, соответствующей шести переменным. Аналогично, второй фактор объясняет (2,218/6) х 100, или 36,969% полной дисперсии. Интерпретация решения часто становится более ясной после вращения факторов.