интересно
Предыдущая | Содержание | Следующая

Параметрические критерии

Использование параметрических критериев позволяет сделать статистический вывод относительно среднего значения генеральной совокупности. Обычно для этой цели используют t-критерий (t-test). В основе критерия лежит/-статистика Стьюдента (Student).

Т-Статистика (t-statistic) подразумевает, что переменная нормально распределена, среднее известно (или предполагается, что оно должно быть известно) и дисперсия генеральной совокупности определена по данным выборки.

Примем, что случайная переменная Анормально распределена, со средним х и неизвестной дисперсией генеральной совокупности ст. которая оценивается с помощью выборочной дисперсии s2. Вспомним, что стандартное отклонение выборочного среднего X определяется как

  является 1-распределенным с л -1 степенями свободы.

Т-распределение (t-distribution) по внешнему виду аналогично нормальному распределению. Графики обоих распределений симметричны и имеют колоколообразную форму. Однако по сравнению с нормальным распределением в распределении Стьюдента хвостовые части графика по площади больше, а центральная часть по площади — меньше. Это связано с тем, что дисперсия совокупности О неизвестна, и ее оценивают во выборочной дисперсии s2.

При данной неопределенности в значении s1 наблюдаемые значения I -статистики более изменчивы, чем значения г-статистикн. Однако с ростом числа степеней свободы распределение приближается к нормальному. Фактически, для выборок большого размера (120 и больше) /-распределение и нормальное распределение практически не отличаются. В табл. 4 Статистического приложения даны избранные процентили /-распределения.

Процедура проверки гипотезы в случае использования в качестве метода проверки /-критерия состоит из следующих этапов.

Сформулировать нулевую <//:)и альтернативную (Я^гипотеэы.

Выбрать соответствующую формулу для вычисления /-статистики.

Выбрать уровень значимости а для проверки нулевой гипотезы Н0. Обычно выбирают уровень значимости а, равный 0,05.

Взять одну или две выборки и для каждой вычислить значение средней и стандартное отклонение.

Вычислить значение / -статистики, приняв, что нулевая гипотеза ff верна.

Вычислить число степеней свободы и оценить вероятность получения большего значения статистики из табл. 4 Статистического приложения. (Альтернативно, вычислить критическое значение / -статистики).

Если вероятность, рассчитанная на этапе 6 меньше, чем уровень значимости //,„ выбранный на этапе 3, то отклонить нулевую гипотезу //„ Если значение вероятности больше, то Щ не отклонять. (Альтернативно, если значение, вычисленной на этапе 5 /-статистики. больше критического значения, определенного на этапе 6, то отклонить нулевую гипотезу Н0. Если вычисленное значение меньше критического значения, то //., не следует отклонять). Неудачная попытка отклонить нулевую гипотезу необязательно подразумевает, что #о верна. Это только означает, что истинное положение несущественно (статистически незначимо) отличается от положения, утверждаемого //„.

Выразить полученный результат с точки зрения решения проблемы маркетингового исследования.

Мы проиллюстрируем общую процедуру проверки гипотез с помошью /-критерия в последующих разделах главы, начав с рассмотрения одной выборки.

Одна выборка

В маркетинговом исследовании аналитика часто интересует утверждение о сотноше-нии одной переменной по сравнению с известной или заданной величиной. Примерами таких утверждений являются: доля рынка для нового товара превышает 15%; по крайней мере 65% потребителей понравится новая упаковка; 80% дилеров предпочтут новую политику ценообразования. Эти утверждения сформулируем с точки зрения нулевой гипотезы, которую затем проверим, используя статистический критерии для одной выборки, такой как /- или г-критерий. Если маркетолог использует /-критерий для проверки значения средней, его интересует, совпадает ли значение генеральной средней со значением, задаваемым в утверждении нулевой гипотезы (//,,). Для данных табл. 15.2 предположим, что мы хотим проверить гипотезу о том, что среднее значение степени знакомства с Internet превышает 4,0 (балла) — нейтральное значение по семибалльной шкале. Выберем уровень значимости, равный а = 0,05. Сформулируем гипотезы:

Число степеней свободы для /-статистики, используемой для проверки гипотезы в отношении среднего значения, равно я ~ 1. В нашем случае п — 1 = 29 1 или 28. Из табл. 4 Статистического приложения находим, что вероятность получения более высокого значения, чем 2,471, ;меныне 0,05. (Альтернативно, критическое значение /-статистики для 28 степеней свободы и уровня значимости 0,05 равно 1,7011, что меньше рассчитанного значения, равного 2,471). Следовательно, нулевую гипотезу отклоняют. Степень знакомства с Internet превышает 4,0,

Обратите внимание, что если нам известно стандартное отклонение генеральной совокупности, и оно, допустим, равно 1,5, а, значит мы используем его, а не определенное на основании выборки, то лучше использовать z-критерий (z-test).

В нашем случае значение г-статистики было бы равно:

Из табл. 2 Статистического приложения вероятность получить более высокое значение статистики г, чем 2,595, меньше 0,05. (Альтернативно, критическое значение г-статистики для односторонней проверки при уровне значимости 0,05 равно 1,645, что меньше полученного значения, равного 2,595). Следовательно, нулевую гипотезу отклоняют и получают тот же результат, что и при проверке гипотезы с помощью /-критерия.

Процедура проверки нулевой гипотезы относительно доли уже проиллюстрирована в этой главе, когда мы знакомились с теорией проверки гипотезы.

Две независимые выборки

Иногда гипотезы в маркетинге связаны с параметрами, взятыми из двух разных генеральных совокупностей; например, пользователи и непользователи торговой марки по-разному воспринимают данную торговую марку; люди с высокими доходами больше тратят на развлечения по сравнению с лицами, имеющими низкий доход; доля приверженцев данной торговой марки в сегменте 1 больше их доли в сегменте 2. Выборки, взятые случайным образом из разных изучаемых совокупностей, называют независимыми выборками (independent samples). Как и для одной выборки, проверка гипотез может проводиться относительно значений средних или долей.

Средние. В случае проверки средних для двух независимых выборок гипотезы имеют следующий вид:

Если окажется, что обе рассматриваемые

совокупности имеют одинаковые значения дисперсий, то значение объединенной дисперсии, рассчитанное из двух дисперсий выборок, равно:

Стандартное отклонение проверяемой статистики рассчитывается по формуле:

Соответствующее значение /-статистики вычислим по формуле:

Если две генеральные совокупности имеют разные значения дисперсий, то точное значение /-статистики нельзя подсчитать из-за различия в выборочных средних. Вместо этого аппроксимируем значения /-статистики. Число степеней свободы в этом случае обычно не будет целым числом, но приемлемо точное значение вероятности можно получить округлением до ближайшего целого числа.

Если неизвестно, равны ли дисперсии двух совокупностей, то для проверки выборочной дисперсии используем F-критерий, или критерий Фишера (F-test). В этом случае гипотезы имеют вид:

F-статистику (F-statistic) вычисляют как отношение выборочных дисперсий по формуле:

Как видно, критическое значение F-распределения (F-distribution) зависит от значений числа степеней свободы: в числителе и в знаменателе.

Критическое значение /-статистики для различных степеней свободы в числителе и знаменателе дано в табл. 5 Статистического приложения. Если вероятность /"-статистики выше уровня значимости а, то //„не отклоняют и используют/-критерий, в основе которого лежит оценка объединенной дисперсии. С другой стороны, если вероятность /-статистики меньше или равна а, то.//„отклоняют и используют/-критерий, в основе которого лежит оценка отдельных дисперсий.

Предположим, что с помощью данных табл. 15.1 мы хотим определить, действительно ли интенсивность использования Internet мужчинами отличается от использования Internet женщинами. Для.этого выполним/-критерий для двух независимых выборок. Результаты приведены в табл. 15.14.

Обратите внимание, что критерий имеет вероятность меньше 0,05. В соответствии с этим нулевую гипотезу отклоняют. В данном случае следовало бы использовать f-критерий, в основе которого лежит утверждение "Предполагается, что дисперсии не равны". Значение t равно 4,492 и с учетом 18,014 степеней свободы это дает значение вероятности, равное 0,000, которое меньше уровня значимости, равного 0,05. Следовательно, нулевую гипотезу о равенстве средних отклоняют. Так как среднее значение степени использования Internet для мужчин (пол — 1) равно 9,333, а для женщин (пол — 2) — 3,867, то мужчины пользуются Internet значительно больше по сравнению с женщинами. Мы также локаэываемоценивание с помощью/-критерия для равных дисперсий, поскольку большинство компьютерных программ автоматически выполняет /-критерий обоими способами. Применение/-критерия рассмотрим в следующем примере.

В этом примере мы проверили различие между средними. Аналогичную проверку можно выполнить для различия долей для двух независимых выборок.

Доли. Рассмотрим ситуацию для долей двух независимых выборок, данные для которой приведены в табл. 15.1, где дано количество мужчин и женщин, использующих Internet для приобретения товаров. Одинаковы ли доли людей, использующих Internet для приобретения товаров, среди мужчин и женщин? Нулевая и альтернативная гипотезы имеют вид:

Для одной выборки используют г-критерий. Однако в этом случае статистику, лежащую в основе критерия, вычисляют по формуле:

Здесь числитель представляет собой разность долей в двух выборках Pv и Р2 Знаменатель — это стандартная ошибка разности двух долей, вычисляемая по формуле:

Выбран уровень значимости а = 0,05. С учетом данных табл. 15.15 тест-статистику можно вычислить следующим образом:

При двусторонней проверке область справа от критического значения равна а/2 или 0,025. Следовательно, критическое значение тест-статистики равно 1,96. Так как вычисленное значение меньше, чем критическое, нулевую гипотезу нельзя отклонить. Таким образом, различие в долях пользователей (0,733) для мужчин и (0,400) для женщин не считается статистически значимым. Обратите внимание, хотя различие довольно существенное, оно статистически незначимое из-за небольшого размера выборки (по 15 человек в каждой группе).