интересно
Предыдущая | Содержание | Следующая

Корреляция и регрессия

краткий обзор

В главе 16 рассматривались взаимосвязи между/-критерием, дисперсионным и ковариационным анализом, а также регрессией. В этой главе вы познакомитесь с регрессионным анализом, объясняющим вариацию в доли рынка, продажах, предпочтении торговой марке и других маркетинговых результатах, получаемых при управлении такими маркетинговыми переменными, как реклама, цена, распределение и качество продукции. Однако прежде чем приступить к изучению регрессии, мы рассмотрим парную корреляцию и частный коэффициент корреляции, лежащие в основе регрессионного анализа.

Разбираясь с регрессионным анализом, мы сначала обсудим самый простой его тип — двумерную регрессию, опишем процедуры оценки, нормирования коэффициентов регрессии, проверку и определение тесноты и значимости связи между переменными, а также точность прогноза и допущения, которые лежат в основе регрессионного анализа. Затем мы разберем модель множественной регрессии, уделив особое внимание интерпретации параметров, тесноте связи, проверкам значимости и анализу остатков.

Зти примеры иллюстрируют использование регрессионного анализа для определения независимых переменных, которые обуславливают статистически значимую вариацию в исследуемой зависимой переменной; установления структуры и формы взаимосвязи, силы взаимосвязи и определения предсказанных значений зависимой переменной. Главное в регрессионном анализе — это понять, что такое парная корреляция.

ПАРНАЯ КОРРЕЛЯЦИЯ

Часто при проведении маркетингового исследования нас интересует связь между двумя метрическими переменными, как, например, в следующих ситуациях.

Насколько сильно связан объем продаж с расходами на рекламу?

Существует ли связь между долей рынка и количеством торгового персонала?

Связано ли восприятие качества товаров потребителями с их восприятием цены?

В таких ситуациях наиболее широко используемой статистикой является коэффициент парной корреляции, г (product moment correlation г), который характеризует степень тесноты связи между двумя метрическими (измеряемыми с помощью интервальной или относительной шкал) переменными, скажем, X и Y. Этот коэффициент используют, чтобы определить, существует ли между переменными линейная зависимость. Он показывает степень, в которой вариация одной переменной Х связана с вариацией другой переменной Y, т.е. меру зависимости между переменными Xvl Y

Поскольку этот коэффициент первоначально предложил Карл Пирсон (Karl Pearson), его также называют коэффициентом корреляции Пирсона. Кроме того, он известен как простой коэффициент корреляции, линейный коэффициент корреляции или просто коэффициент корреляции, Имея выборку, размером п наблюдений, коэффициент парной корреляции г, для переменных Хи Кможно вычислить по формуле:

— соответствующие

стандартные отклонения. СО ^.представляет собой комриацию (covariance) между Хя Y, являясь мерой зависимостиХи Y.

Ковариация может быть как положительной, так и отрицательной. Деление на SxSy приводит к нормированному виду, так что коэффициент корреляции г находится в пределах от минус 1 до плюс 1. Обратите внимание, что коэффициент корреляции никак не связан с единицами измерения, в которых выражены переменные.

Предположим, что исследователь хочет выяснить, зависит ли отношение респондента к местожительству от длительности проживания его в этом городе. Отношение выражают в I I балльной шкале (1— не нравится город, I I — очень нравится город), а продолжительность проживания измеряют количеством лет, которые респондент прожил в этом городе. Полученные от 12 респондентов данные приведены втабл. 17.1.

В этом примере г = 0,9361, что близко к 1. Это означает, что отношение респондента к своему городу сильно зависит от времени проживания в нем. Более того, положительный знак г указывает на прямую связь (прямопропорционалъную): чем дольше респондент проживает в городе, тем больше он ему нравится, и наоборот.

Так как коэффициент корреляции показывает меру, в которой вариация значений одной переменной зависит от вариации другой, то г можно выразить через разложение полной вариации (см. главу 16). Другими словами,

являются симметричными показателями связи между переменными. Иначе говоря, корреляция между А" и У та же, что и корреляция между Y ;Х. Корреляция не зависит от того, какая из переменных взята в качестве зависимой, а какая в качестве независимой. Коэффициент корреляции является мерой линейной зависимости, и он не предназначен для измерения силы связи в случае нелинейной зависимости. Таким образом, г = 0 просто означает отсутствие линейной зависимости между Хя Y. Это не означает, что X и У не взаимосвязаны. Между ними может существовать нелинейная зависимость, которую нельзя определитьс помощью коэффициента корреляции г (рис. 17.1).

Если коэффициент корреляции вычисляют не для выборки, а для всей генеральной совокупности, то он обозначается греческой буквой р (ро). Коэффициент г — это оценка р. Обратите внимание, что расчет г предполагает, что Хя Y— метрические переменные, кривые распределения которых имеют одинаковую форму. Если эти допущения не удовлетворяются, то значение г уменьшается и р получается недооцененным. В маркетинговых исследованиях данные, полученные с использованием относительной шкалы при небольшом числе категорий, могут не быть строго интервальными. Это приведет к снижению г я недооценке р.

Статистическую значимость связи между двумя переменными, измеренную коэффициентом корреляции г, можно легко проверить. Гипотезы имеют такой вид:

которая имеет /-распределение с п — 2 степенями свободы. Для коэффициента корреляции, вычисленного на основе данных, приведенных в табл. 17.1. значение /-статистики равно:

Статистику, лежащую в основе критерия для проверки гипотезы, вычисляют по формуле:

а число степеней свободы — 12 — 2 = 10. Из таблицы /-распределения (табл. 4 Статистического приложения) критическое значение t-статистики для двусторонней проверки и уровне значимости а = 0,05 равно 2,228. Следовательно, нулевую гипотезу об отсутствии связи между переменными X и У отклоняют. Это наряду с положительным знаком коэффициента корреляции показывает, что отношение респондента к своему городу прямо пропорционально зависит от Продолжительности проживания его в городе. Более того, высокое значение г показывает, что эта связь сильная.

При выполнении многомерного анализа данных часто полезно изучить простую корреляцию между каждой парой переменных. Эти результаты представляют в форме корреляционной матрицы, которая показывает коэффициент корреляции между каждой парой данных. Обычно, рассматривают только самую нижнюю треугольную часть матрицы. Все элементы по диагонали равны 1,00. так как переменная коррелирует сама с собой. Верхняя треугольная часть матрицы — зеркальное отражение нижней треугольной части матрицы, поскольку / — симметричный показатель связи между переменными. Форма корреляционной матрицы для пяти переменных от У,до Vs представлена ниже:

Хотя матрица простых коэффициентов корреляций позволяет уяснить суть попарных связей, иногда исследователю хочется изучить связи между двумя переменными при условии управления одной или несколькими переменными. В последнем случае следует оценивать частную корреляцию.