интересно
Предыдущая | Содержание | Следующая

Вариационный ряд, таблицы сопряженности признаков и проверка гипотез

краткий обзор

Эта глава посвящена базовому анализу данных, включающему изучение распределения частот значений переменной (вариационных рядов), кросс-табуляцию (построение таблиц сопряженности) и проверку гипотез. Сначала мы рассмотрим распределение частот и объясним, как с его помощью определить количество выбросов, пропущенных и экстремальных значений данных, а также выявим центральную тенденцию в значениях изучаемых данных, их вариацию и форму кривой распределения. Затем введем понятие проверки гипотез и опишем общую процедуру проверки. Процедуры проверки гипотез делятся на проверку связей и проверку различий. Мы также рассмотрим использование кросс-табуляции для установления связи между двумя или тремя переменными. Хотя природу связи можно увидеть из таблиц, статистики позволяют определить значимость и силу связи. И наконец, мы познакомим вас с методами статистической проверки гипотез, связанных с различиями в одной или двух выборках.

Многие маркетинговые исследовательские проекты не выходят за рамки базового анализа данных. Полученные по итогам исследования результаты часто отображают с помощью таблиц и графиков

Результаты базового анализа данных ценны сами по себе и, кроме того, показывают направление для последующего многомерного анализа. Чтобы читатель понял особенности статистических методов, мы приведем ряд примеров применения кросс-табуляции, критерия хи-квадрат и проверки гипотез.

Пример, касающийся универсального магазина, показывает роль базового анализа данных при использовании его в сочетании с методами многомерного анализа, в то время как два других примера показывают, что этот анализ полезен и сам по себе. Использование кросс-табуляции и критерия хи-квадрат в примере, связанном с телевизионной рекламой, и парного 1- критерия в примере с продажей товаров по каталогу позволяют маркетологам сделать вполне конкретные выводы.

Статистические понятия, обсуждаемые в этой главе, проиллюстрированы на примере, показывающим использование респондентами Internet для личных (не связанных с профессиональной деятельностью) целей. Табл. 15.1 содержит данные о 30 респондентах, включающие пол (1 — мужчина, 2 — женщина), степень знакомства с Internet (1 — почти незнаком, 7 — хорошо знаком), использование Internet (в часах в неделю), отношение к Internet и Internet-технологиям (измеренные по семибалльной шкале: 1 — неблагосклонное, 7 — благосклонное), использование Internet для приобретения товаров или банковских операций (1 — да, 2 — нет). На первом этапе анализа следует изучить распределение частот значений или вариационный ряд соответствующих переменных.

ВАРИАЦИОННЫЙ РЯД

При проведении маркетинговых исследований часто необходимо получить информацию об одной переменной. Например;

Какое количество потребителей определенной марки товара можно считать лояльными ей?

Каково соотношение между разными группами потребителей товара: много использующими, средне, слабо и непользователями?

Какое количество потребителей хорошо осведомлены о предлагаемом новом товаре? Сколько потребителей поверхностно знакомы, сколько — что-то слышали, а сколько вообше ничего не знают о данной торговой марке? Какова средняя степень осведомленности о товаре? Сильно ли различается степень осведомленность потребителей о новом товаре?

!• Что представляет собой кривая распределения дохода для приверженцев данной марки товара? Смещено ли данное распределение в сторону группы потребителей с низкими доходами?

Ответы на подобные вопросы можно получить, изучив распределение частот значений переменной, или вариационный ряд (frequency distribution). При таком анализе рассматривается одна переменная.

Целью построения вариационного ряда является подсчет ответов респондентов, в которых приводятся различные значения переменной. Относительную частоту различных значений переменной выражают в процентах и называют частоапями, Подсчет распределения частот значений переменной дает возможность построить таблицу, с указанием частоты, частости и накопленных частостей для всех значений этой переменной.

В табл. 15.2 представлено распределение частот осведомленности об Internet. Первая колонка содержит отметки, присвоенные различным категориям переменной, а вторая — коды, присвоенные каждому значению переменной.

Обратите внимание, что код 9 присвоен пропущенным значениям. В третьей колонке приведено количество ответивших респондентов. Например, три респондента отметили в анкете галочкой значение 5, указав, что они что-то слышали об Internet. В четвертой колонке приведен процент респондентов, отметивших в анкете галочкой данное значение. В следуюшей колонке показаны проценты, подсчитанные с учетом пропущенных значений. Если пропущенных значений нет, то колонки 4 и 5 идентичны. В последней колонке представлены накопленные частости после корректировки пропущенных случаев (ответов респондентов). Как видно, из 30 респондентов, участвующих в опросе, 10% отметили значение 5. Если исключить одного респондента с пропущенным значением, то частость увеличится до 10,3%. Накопленная частость, относящаяся к значению 5, равна 58,6. Другими словами, 58,6% респондентов с достоверными ответами показали значение осведомленности 5 или меньше.

Вариационный ряд помогает определить долю неответивших респондентов (и табл. 15.2 один респондент из 30 не ответил на вопрос), а также указывает долю ошибочных ответов. Значения, равные 0 или 8, соответствуют ошибочным ответам. Следует определить количество случаев с такими значениями и соответственно откорректировать результат. Кроме того, можно установить наличие выбросов, т.е. случаев с экстремальными значениями. При анализе распределения частот относительно размера домохозяйства (семьи) выбросами следует считать, несколько семей, состоящих не меньше чем девяти человек. Распределение частот также определяет форму эмпирического распределения значений переменной. Частотные данные можно использовать для построения гистограмм или вертикальных столбчатых диаграмм, на которых по оси ЛГ откладывают значения переменной, а по оси Y— абсолютные (частоты) или относительные (частости) значения. На рис. 1X1 представлена гистограмма для данных табл. 15.2. По гистограмме можно проверить, соответствует ли наблюдаемое распределение предполагаемому маркетологом распределению.

Для иллюстрации наших рассуждений рассмотрим следующий пример.

Данные в этом примере указывают на распространенность различных этических проблем. Поскольку при этом используют числовые значения, для вычисления описательных статистик можно применить распределение частот. Вычисление некоторых статистик, связанных с распределением частот, обсуждается в следующем разделе.