интересно
Предыдущая | Содержание | Следующая

Статистики, связанные со множественной регрессией

Большинство статистик и статистических терминов, описанных при рассмотрении парной регрессии, также применимы и во множественной регрессии. Дополнительно используют следующие статистики.

Скорректированный коэффициент множественной детерминации А>; Коэффициент множественной детерминации R2 корректируют с учетом числа независимых переменных и размера выборки, чтобы снизить влияние зависимости коэффициента детерминации от количества переменных. После введения нескольких первых переменных дополнительные независимые переменные не так сильно влияют на коэффициент детерминации.

Коэффициент множественной детерминации Я}. Тесноту связи между переменными при множественной регрессии измеряют, возводя в квадрат коэффициент множественной корреляции.

Статистика, лежащая в основе критерия для проверки

гипотезы, подчиняется F-распределению с £ и (п — к — 1) степенями свободы.

Частный F-критерий. Значимость частного коэффициента регрессии /<. переменной X, можно проверить, используя приростную /""-статистику. Она основана на приращении в объясняемой сумме квадратов, полученном добавлением независимой переменной А. в уравнение регрессии после исключения всех других независимых переменных.

Частный коэффициент регрессии. Частный коэффициент регрессии / обозначает изменение в предсказанном значении 1 при изменении.V,- на единицу, когда другие независимые переменные от X, доXt остаются неизменными.

ВЫПОЛНЕНИЕ МНОЖЕСТВЕННОГО РЕГРЕССИОННОГО АНАЛИЗА

Стадии, входящие в процедуру выполнения множественного регрессионного анализа, аналогичны рассмотренным для двумерного регрессионного анализа. При обсуждении мы обратим особое внимание на частные коэффициенты регрессии, тесноту связи, проверку значимости и анализ остаточных членов.

Частные коэффициенты регрессии

Чтобы понять значение частного коэффициента регрессии, рассмотрим случай с двумя независимыми переменными:

Во-первых, отметим, что величина частного коэффициента регрессии независимой переменной, в основном, отличается от коэффициента двумерной регрессии той же переменной. Другими словами, частный коэффициент регрессии Ь! отличается от коэффициента регрессии Ь, полученного при установлении зависимости Столько от переменной Л,. Это происходит потому, что Xt и Лобычно взаимосвязаны. В парной регрессии Хне принимают во внимание, и любое изменение вариации в Y, за которую совместно отвечают^ и X, относят на счет А-,. Однако в случае нескольких независимых переменных это несправедливо.

Интерпретация частного коэффициента регрессии bs заключается в том, что он представляет ожидаемое изменение величины У, когда X, изменяется на единицу, a X остается постоянной, т.е. управляемой (контролируемой) переменной. В отличие от этого, А, представляет ожидаемое изменение Кпри изменении Хна единицу, когдаX, остается постоянной. Поэтому названия bt и Ь2 — частные коэффициенты регрессии, соответствуют действительности. Кроме того, результаты совместного влияния X; и Хна Yсуммируются. Иначе говоря, если каждую из переменных^ и Х} изменить на единицу, то ожидаемое изменение значения Убудет равно (Ь, + Ь,).

Это можно сделать, установив регрессию X, по X. Иначе говоря, мож-

. Тогда

Таким образом, частный коэффициент регрессии Ь, равен коэффициенту парной регрессии Ь между переменной Уи остаточным значением переменной X,, не учитывая эффекта от влияния переменной Xs. Частный коэффициент регрессии Ь} интерпретируем аналогично.

Распространение этого примера на случай с к переменными не вызывает затруднений. Частный коэффициент регрессии h, представляет ожидаемое изменение У, когда Х{ изменяется на единицу, а переменные от Хдо Хк остаются неизменными. Это можно интерпретировать как коэффициент парной регрессии b для регрессии переменной У от остаточных значений переменной X, при исключенных эффектах переменных агХ2цаХк.

нормированы с получением их среднего значения, равного нулю, и дисперсии, равной 1. Связь между нормированным и ненормированным коэффициентами та же, что и рассмотренная ранее;

Отрезок, отсекаемый на оси OY, и частный коэффициент регрессии определяют решением системы уравнений, выведенной дифференцированием и приравниванием к нулю частных производных. Поскольку эти коэффициенты можно вычислить с помощью разных компьютерных программ, мы не будем вдаваться в детали. Однако стоит отметить, что уравнения нельзя решить, если размер выборки л меньше или равен числу независимых переменных к; или одна независимая переменная тесно связана с другой.

Предположим, что при объяснении зависимости отношения к городу от длительности проживания в нем, мы сейчас введем вторую переменную— погодные условия. Данные, полученные от 12 респондентов и касающиеся отношения к городу, длительности проживания в нем и погодных условий, приведены в табл. 17.1. Результаты множественного регрессионного анализа даны в табл. 17.3. Значение частного коэффициента регрессии для переменной X, (длительность проживания), равное 0,4811, теперь отличается от значения, полученного в анализе парной регрессии. Соответствующий "бета"-коэфициент равен 0,7636. Частный коэффициент регрессии для переменной Х:(погодные условия) равен 0,2887 с "бета"-коэффцциснтом, равным, 0,3138.

Теоретическое уравнение регрессии имеет вид:

или

отношение к городу = 0,33732 + 0,48108 (длительность проживания) + 0,28865 (погодные условия)

Это уравнение можно использовать для разных целей, включая предсказание отношения к городу при заданных длительности проживания в нем и отношения респондента к погодным условиям региона.

Теснота связи

Степень тесноты связи определим, используя соответствующие показатели связи между переменными. Полную вариацию можно разложить (как и для парной регрессии) следующим образом:

Тесноту связи измеряют, возводя в квадрат коэффициент множественной корреляции, получая коэффициент множественной детерминации Я2

Коэффициент множественной корреляции R можно рассматривать как линейный коэффициент корреляции г между 7 и }. Следует сделать несколько замечаний относительно определения Л*. Коэффициент множественной детерминации Я не может быть меньше, чем самое высокое значение глюбой отдельной независимой переменной с зависимой переменной. Значение R~ больше, когда корреляция между независимыми переменными слабее. Если независимые переменные статистически независимы (не коррелированы). то значение R1 представляет собой сумму коэффициентов парной детерминации каждой независимой переменной с зависимой переменной. Значение R: не может уменьшаться при добавлении независимых переменных в уравнение регрессии. Однако снижение влияния зависимости коэффициента детерминации от количества переменных устанавливается таким образом, что после введения нескольких первых переменных дополнительные независимые переменные не вносят такой большой вклад в значение коэффициента детерминации. Поэтому R1 корректируют с учетом числа независимых переменных и размера выборки, используя следующую формулу:

Для данных регрессии, приведенных в табл. 17.3, значение Я* равно

Это значение выше, чем значение г. равное 0,8762, полученное для парной регрессии. Значение г парной регрессии представляет собой квадрат простого коэффициента корреляции между отношением к городу и длительностью проживания в нем. Значение Д*, полученное в множественной регрессии, также выше, чем квадрат простого коэффициента корреляции между отношением к городу и отношением к погодным условиям (которое определено как 0,5379), Скорректированный коэффициент детерминации /допределен следующим образом:

Обратите внимание, что значение скорректированного коэффициента детерминации R2 близко к значению обычного коэффициента детерминации А" и их значение больше, чем у коэффициента детерминации г для парной регрессии. Это означает, что добавление второй неза-

висимои переменной — погодные условия, вносит определенный вклад в вариацию переменной — отношение к городу.

Проверка значимости

Проверка значимости включает проверку значимости общего уравнения регрессии и конкретных частных коэффициентов регрессии. Нулевая гипотеза для проверки общего уравнения гласит, что коэффициент множественной детерминации для генеральной совокупности равен нулю:

которая имеет /^-распределение с к и (л — к — 1) степенями свободы. Результаты проверки даны в табл. 17.3

которая является значимой при а = 0,05.

Если обшую нулевую гипотезу отклоняют, то один или несколько частных коэффициентов регрессии в совокупности имеют значение, отличное от нуля. Чтобы определить, какие из конкретных коэффициентов Д отличны от нуля, выполним дополнительные проверки. Проверку значимости Д выполним тем же способом, что и в случае парной регрессии, т.е. используя t-статистику. Значимость частного коэффициента для переменной — погодные условия — можно выполнить с помощью уравнения

которое подчиняется ^-распределению с (п — к — 1) степенями свободы. Этот коэффициент статистически значим при уровне значимости а = 0,05. Значимость коэффициента для переменной — длительность проживания, проверяют аналогичным образом и находят, что он статистически значимый. Следовательно, обе переменные: погодные условия и длительность проживания, имеют значение при объяснении отношения респондента к своему городу.

проверяют, используя /^-статистику при ращения:

которая имеет /-распределение с 1 и (п — к — 1) степенями свободы. В то время как высокое значение Я2 я значимые частные коэффициенты регрессии достаточно удобны, эффективность регрессионной модели должны быть оценена анализом остатков.

Анализ остатков

Остаток, остаточный член (residual) — это разность между наблюдаемым значением Y, и теоретическим значением, предсказанным регрессионным уравнением Y..

Значения остаточных членов используют при вычислении некоторых статистик, связанных с регрессией. В дополнение к этому диаграммы рассеяния остатков, которые показывают их значения в зависимости от предсказанных значений }.. времени или предикторов дают полезную информацию для анализа правильности сделанных допущений.

Допущение нормальности распределения ошибочного члена проанализируем, построив гистограмму остатков. Визуальный осмотр покажет, является ли распределение нормальным. Дополнительное доказательство получим, определив процент остатков, попадающих в область ± 1 SE или ± 2 SE. Эти проценты можно сравнить с ожидаемыми для нормального распределения (68% и 95% соответственно). Более формальную оценку можно получить, применив од-новыборочный критерий Колмогорова—Смирнова.

Предположение о постоянном значении дисперсии ошибочного члена проанализируем, нанеся на график значения остатков в зависимости от вычисленных значений независимой

переменной Yi. Если точки нанесены на график неупорядоченно, то дисперсия ошибочного

члена — величина постоянна. На рис. 17.6 показана форма расположения остаточных членов,

дисперсия которых зависит от значений Yj.

График зависимости значений остатков от времени или последовательности наблюдений прольет некоторый свет на допущение, что ошибочные члены некоррелированны. Если это предположение справедливо, то форма рсположения остаточных членов носит случайный характер. График, подобный приведенному на рис. 17.7, показывает линейную зависимость значений остатков от времени.

Более формальную процедуру проверки корреляции между ошибочными членами даст критерий Дарбина — Уотсона.

Графическое изображение зависимости значений остаточных членов от независимых переменных предоставляет доказательство того, насколько подходит теоретическая модель регрессии. График должен показывать случайную форму расположения остаточных членов. Значения остатков должны располагаться случайным образом относительно одинаково вокруг нуля. Они не должны смешаться ни в положительную, ни в отрицательную стороны.

Для того чтобы понять, следует ли в уравнение регрессии вводить дополнительные независимые переменные, можно построить регрессию остатков от предполагаемых переменных. Если какая-либо переменная объясняет значительную долю остаточной вариации, то, вероятно, ее следует включить в уравнение регрессии. При введении переменных в уравнение регрессии необходимо руководствоваться целью исследования. Таким образом, анализ остатков позволяет глубже понять как соответствие лежащим в основе регрессионной модели допущениям, так и соответствие регрессионной модели. На рис. I 7,S изображен график, который показывает, что лежащие в основе регрессионной модели предположения удовлетворяются и линейная модель соответствует фактическим данным.

Если проверка остатков выявит, что лежащие в основе регрессионной модели допущения не выполняются, то исследователь может преобразовать переменные таким образом, чтобы эти предположения выполнялись. Такие преобразования, как логарифмирование, извлечение квадратного корня или вычисление обратных величин, могут стабилизировать дисперсию, сделать распределение нормальным и зависимость линейной. В дальнейшем мы проиллюстрируем применение множественной регрессии на примере.