интересно
Предыдущая | Содержание | Следующая

Работа с пропущенными ответами

Пропущенными ответами (missing responses) называют значения переменных, которые остались неизвестными исследователю либо потому, что ответы респондентов были неоднозначны, либо неправильно или неразборчиво записаны.

Работа с пропущенными ответами связана с рядом проблем, особенно если доля таких ответов превышает 10%. Существует несколько методов работы с пропущенными ответами.

Замена пропущенного значения нейтральным. По этому методу вместо пропущенных ответов подставляются нейтральные значения, обычно среднее значение по данной переменной. При этом среднее значение переменной остается неизменным, а другие статистические данные, например корреляция, искажаются незначительно. Хотя этот подход и имеет ряд преимуществ, подстановка среднего значения (например, 4) вместо всех пропущенных ответов респондентов весьма неоднозначна и сомнительна, если учесть, что если бы они все же ответили, то могли бы выбрать значительно более высокий (например, 6 или 7) или более низкий (1 или 2) рейтинговый показатель.

Замена пропущенного значения условным (вменение значений). Для определения условного значения или вычисления подходящих ответов на пропущенные вопросы можно использовать структуру ответов респондентов по другим вопросам. На основе имеющихся данных исследователь пытается определить, какие ответы дал бы конкретный респондент, если бы он ответил на все вопросы. Это можно сделать статистически, на основе собранных данных, определив взаимосвязи между пропущенной переменной и другими переменными. Так, показатель частоты использования товара можно связать с размером семей респондентов, предоставивших информацию по этим показателям. Затем пропущенные данные по использованию товара можно вычислить, воспользовавшись показателем размера семьи респондента. Однако следует помнить, что этот метод очень трудоемок и нередко серьезно искажает данные. Чтобы избежать этого, для вычисления условных значений по пропущенным ответам разработаны сложные статистические процедуры, о чем рассказывается в следующем примере.

Поскольку нередки случаи, когда многие респонденты не отвечают на те или иные вопросы, данный метод может вызвать значительное сокращение выборки. Следует помнить, что исключение большого количества данных нежелательно, поскольку процесс сбора данных дорог и требует больших временных затрат. Кроме того, респонденты с пропущенными значениями систематически отличаются от респондентов, ответивших на все вопросы. В таких случаях исключение по данному методу может значительно исказить результаты опроса.

Попарное исключение переменных. При попарном исключении (pairwise delition) вместо отбраковывания всех случаев с любыми отсутствующими значениями исследователь во всех своих вычислениях рассматривает только наблюдения или респондентов, по которым есть полные ответы.

В результате разные вычисления в ходе анализа могут основываться на разных размерах выборок. Такая процедура обычно применяется при следующих условиях: если размеры выборки велики, если количество пропущенных ответов незначительно, если переменные не сильно взаимосвязаны. Следует помнить, что и в этом случае данная процедура может привести к недостоверным и даже нелогичным результатам исследования.

Применение разных методов работы с пропущенными значениями нередко приводит к разным итогам, особенно если пропуск ответов носит систематический характер, а переменные тесно взаимосвязаны. Таким образом, исследователю необходимо свести к минимуму количество пропущенных ответов. Кроме того, прежде чем выбрать конкретный метод для работы с пропущенными значениями, он должен тщательно проанализировать все последствия применения той или иной процедуры.

СТАТИСТИЧЕСКАЯ КОРРЕКТИРОВКА ДАННЫХ

Процедуры статистической корректировки данных включают взвешивание, переопределение переменной и преобразования шкалы. Все эти корректировки необязательны, но, применяя их, можно значительно повысить качество анализа.

Взвешивание

При взвешивании (weighting) каждому наблюдению или респонденту в базе данных присваивается весовой коэффициент, отображающий степень его значимости по сравнению с другими наблюдениями или респондентами.

Значение 1,0 применяется для обозначения наблюдения с отсутствием весового коэффициента. Цель взвешивания заключается в том, чтобы увеличить либо уменьшить в выборке количество наблюдений с определенными характеристиками (в главе I 2 обсуждалось использование метода взвешивания для корректировки ситуаций с отказом отвечать на вопросы).

Вмешивание чаще всего применяется для того, чтобы выборочные данные максимально! точно представляли конкретные характеристики генеральной совокупности. Например, оно может использоваться, чтобы повысить значимость наблюдений или респондентов, по которым были собраны данные более высокого качества, чем по другим. Существует еще одно применение взвешивания, которое заключается в корректировке выборки с тем, чтобы повысить значимость ответов респондентов с определенными признаками. Если проводится опрос для определения, какие изменения стоит вносить в существующую продукцию, исследователь может принять решение присвоить больший весовой коэффициент ответам респондентов, которые пользуются данным товаром чаще других. Этого можно достичь присвоением весового коэффициента 3,0 тем покупателям, которые покупают исследуемую продукцию чаще всех, коэффициента 2,0 — тем, кто пользуется ею в средних пределах, и 1,0 тем, кто приобретает этот товар редко либо не пользуется им никогда. Метод взвешивания следует применять с огромной осторожностью, поскольку это разрушает саму природу самовзвешиваемости любого выборочного обследования. Если исследователь все же решил воспользоваться данным методом, он должен тщательно задокументировать всю процедуру взвешивания и составить соответствующую часть отчета по проекту. Важность соблюдения данного принципа подтверждает пример, описанный во врезке 14.1 "Практика маркетинговых исследований".

Врезка 14.1. Практика маркетинговых исследований

Internet-исследование компании Nielsen Media Research: нужен ли весовой коэффициент

Совсем недавно компания Nielsen Media Research, долгое время занимающаяся маркетинговыми исследованиями, связанными с телевидением, стала объектом острой критики со стороны ряда телевизионных сетей, не согласных с методами, используемыми компанией в процессе опросов. Кроме того, в другой, новой и потенциально важной сфере этого бизнеса, а именно, в проведении опросов с использованием Internet, Nielsen также столкнулась с тем, что результаты се исследований нередко ставятся под сомнение. Вследствие огромного влияния электронной торговли на мир бизнеса рекламодателям необходимо знать, какое количество людей занимаются бизнесом с использованием Internet, чтобы определить, выгодно ли им размещать рекламу в этой сети.

Компания Nielsen провела исследование для CommerceNet, группе компаний, в которую! входят Sun Microsystems и American Express, цель которого — определить общее количество пользователей Internet. Исследования показали, что доступ к Internet имеют 37 миллионов людей старше 16 лет, и 24 миллиона пользовались им в последние три месяца. Известно, что> когда статистики подозревают, что собранные данные недостоверны, они пользуются методом взвешивания, который позволяет привести в соответствие выборку и генеральную совокупность. Взвешивание необходимо использовать с тем, чтобы избежать смещения в сторону одного демографического сегмента.

Данные, полученные компанией Nielsen, умножались на весовой коэффициент, выведенный на основе пола респондентов, а не на основе их образования, что могло бы привести ктому, что генеральная совокупность сдвинулась бы в сторону взрослого населения, имеющего образование. Далее компания применила взвешивание с использованием весового коэффициента по возрасту и доходу. По мнению многих специалистов, такой подход неправилен, поскольку весовые коэффициенты должны использоваться одновременно, а не в процессе отдельных расчетов. Исследователи компании Nielsen не согласны с тем, что их выборка неверна, и считают, что не ошиблись в ходе проведения обследования. Однако, поскольку большинство третьих сторон не приняли методов работы этой компании, ей все еще предстоит подтиердить достоверность результатов своих исследований.