интересно
Предыдущая | Содержание | Следующая

Модель парной регрессии

В модели парной регрессии форма прямой линии выражается уравнением:

можно предсказать значение Y. Однако в маркетинговом исследовании немного связей между переменными четко детерминированы. Поэтому, чтобы учесть вероятностную природу связи, в регрессионное уравнение вводят ошибочный член. Базовое уравнение регрессии принимает вид:

где щ—член уравнения, характеризующий ошибку i-го наблюдения. Оценка регрессионных параметров Д, и /^относительна проста.

Определение параметров уравнения регрессии

В большинстве случаев Д, и/i, неизвестны, и их определяют (оценивают), исходя из имеющихся выборочных наблюдений с помощью следующего уравнения:

соответственно,

и дисперсию \ю формуле:

Обратите внимание, что эти коэффициенты вычислены из исходных (не преобразованных) данных. Если данные нормированы, то вычисление нормированных коэффициентов не вызовет затруднений.

Нормированный коэффициент регрессии

Более того, каждый из этих коэффициентов регрессии равен простому (линейному) коэффициенту корреляции между Л" и Y;

Существует простая связь между нормированным и ненормированным коэффициентами регрессии:

Для регрессии, показатели которой представлены в табл. 17.2, значение "бега"-коэффициента оценивается как 0,9361.

Поскольку параметры определены, можно проверить их значимость.

Проверка значимости

Статистическую значимость линейной связи между X и Уможно проверить, исследовав гипотезы:

Нулевая гипотеза предполагает, что ме-ждуЛГи Уне существует линейной зависимости. Альтернативная гипотеза утверждает, что между Хи У существует зависимость, либо положительная, либо отрицательная. Обычно проводят двустороннюю проверку. Можно использовать I-статистику с п — 2 степенями свободы, где

SEb обозначает стандартное отклонение Ь, и этот показатель называют стандартной ошибкой коэффициента регрессии b. /-распределение обсуждалось в главе 15.

Используя компьютерную программу (например SPSS) и данные табл. 17.1, регрессия отношения к городу от длительности проживания в нем даст результаты, представленные в табл. 17.2. Величина отрезка а, отсекаемого на оси OY, равна 1,0793, угловой коэффициент (наклон кривой) Ъ равен 0,5897. Следовательно, вычисленное (теоретическое) уравнение регрессии иметь вид

(длительность проживания)

Стандартная ошибка, или стандартное отклонение b определено как 0,07008, и значение I-статистики равно: I = 0,5897/0,0701 = 8,414 с п - 2 = 10 степенями свободы. Из табл. 4 Статистического приложения видно, что критическое значение /-статистики с 10 степенями свободы и уровнем значимости а = 0,05 равно 2,228 для двусторонней проверки. Поскольку вычисленное значение Ьстатистики больше критического значения, то нулевую гипотезу отклоняют. Следовательно, между отношением к городу и длительностью проживания в нем существует статистически значимая линейная зависимость. Положительный знак углового коэффициента указывает на то, что эта связь положительная (прямо пропорциональная). Другими словами, чем дольше человек живет в городе, тем лучше он к нему относится.

Теснота и значимость связи

раскладывается на вариацию, которую можно объяснить, исходя из линии регрессии S и вариацию ошибки или остаточную вариацию,

рассмотрим снова влияние продолжительности проживания в городе на отношение к нему. Из ранее сделанных вычислений коэффициента парной корреляции видно, что

= 1,0793 + 0,5897 (длительность проживания)

Для первого наблюдения в табл. 17.1 это значение равно

Для каждого последующего наблюдения теоретические значения будут следующими (в порядке расположения): 8,1557; 8,1557; 3,4381; 8,1557; 4,6175; 5,7969; 2,2587; 11,6939; 6,3866; 11,1042; 2,2587. Следовательно,

имеют следующий вид:

Соответствующей статистикой, лежащей в основе критерия, является /-статистика;

которая подчиняется ^-распределению с 1 и п - 2 степенями своооцы. г-критерии представляет собой обобщенную форму ^-критерия (см. главу 15). Если случайная переменная подчиняется ^-распределению с л-степенями свободы, то значения г подчиняются /"-распределению с 1 и -степенями свободы. Следовательно, критерий для проверки значимости коэффициента детерминации эквивалентен проверке следующих гипотез:

это равно ранее рассчитанному значению. Вычисленное значение F-статистики равно:

с 1 и 10 степенями свободы, Вычисленное значение /-статистики превышает критическое значение, равное 4,96 (определено по табл. 5 Статистического приложения). Следовательно, зависимость статистически значима при уровне значимости а = 0,05, подтверждая результаты проверки с помощью /-критерия. Если зависимость между X и У статистически значима, то имеет смысл вычислить значения Y, исходя из значений X, и оценить точность предсказания.

Точность предсказания

или, в более общем виде, при наличии к независимых переменных

Чтобы оценить точность предсказанных (теоретических) значений У, полезно вычислить стандартную ошибку оценки уравнения регрессии SEE. Эта статистика представляет собой стандартное отклонение фактических значений У от предсказанных значений У:

SEE можно интерпретировать как вид среднего значения остатка или среднюю ошибку предсказания Y, исходя из уравнения регрессии.

Могут иметь место два случая предсказания. Исследователь хочет предсказать среднее значение У для всех вариантов с заданным значением X, скажем А,., или значение У для одного случая. В обеих ситуациях предсказанное значение одно и то же, обозначаемое У и равное

Однако стандартная ошибка для этих ситуаций разная, хотя в обеих ситуациях она является функцией SEE. Для больших выборок стандартная ошибка предсказания среднего значения У

равна SEE/yfn, а ошибка предсказания отдельного значения Уравна SEE. Следовательно, построение доверительных интервалов (см. главу 12) для предсказанных значений варьирует в зависимости от того, необходимо ли предсказать единственное значение наблюдения или среднее значение.

Для данных табл. 17.2 ЖЕвычисляют по формуле

Последние две стадии выполнения парного регрессионного анализа, а именно, анализ остаточного члена и модель перекрестной проверки, мы рассмотрим ниже, а сейчас вернемся к предпосылкам, лежащим в основе регрессионной модели.

Предпосылки регрессионного анализа

Регрессионная модель при оценке параметров и проверке значимости (рис. 17.4) исходит из ряда допущений.

Ошибочный член уравнения регрессии (остаточный компонент) подчиняется закону нормального распределения. Для каждого определенного значения X распределение У нормальное.

Средние значения всех этих нормальных распределений У, при заданном X, лежат на прямой линии с угловым коэффициентом Ь.

Среднее значение ошибочного члена равно 0.

Дисперсия ошибочного члена постоянна. Эта дисперсия не зависит от значений, принятых X.

Между ошибочными членами автокорреляция отсутствует. Другими словами, значения ошибочных величин независимы между собой.

То. в какой степени модель должна соответствовать этим допущениям, можно понять из анализа остаточных членов, который рассматривается в разделе, посвященном множественной регрессии.