интересно
Предыдущая | Содержание | Следующая

Очищение данных

Процедура очищения данных (data cleaning) заключается в проверке состоятельности соб-ранныхданных и работе с пропущенными ответами.

Предварительная проверка состоятельности собранных данных проводится на этапе редактирования, но проверка, которая проводится на стадии очищения данных, намного точнее и тщательнее, поскольку выполняется с использованием компьютерной техники.

Проверка состоятельности данных

Проверка состоятельности данных (consistency checks) позволяет выявить данные, выходящие за пределы определенного диапазона, и логически непоследовательные ответы либо определить экстремальные значения.

Значения, выпадающие из конкретного диапазона, нельзя использовать в анализе, и их необходимо исправить. Представим, например, что респондентов попросили выразить степень их согласия по ряду вопросов относительно стиля жизни по шкале от 1 до 5. Код 9 используется для обозначения пропущенных ответов, а значения 0, 6, 7 и 8 выходят за пределы Назначенного диапазона. Существует множество компьютерных пакетов, например APSS, SAS, BMDP, Minitab и Excel, с помощью которых можно написать программы выявления по каждой переменной значений, выходящих за пределы определенного диапазона, а также распечатать код респондента, код переменной, название переменной, номер записи и столбца и выпадающее из необходимого диапазона значение. Все это значительно упрощает процедуру систематической проверки каждой переменной по каждому ее значению, выходящему из определенного диапазона. Правильные ответы можно определить, возвратившись к отредактированному и закодированному варианту анкеты,

Различают несколько типов логической непоследовательности ответов. Так, респондент может указать, что обычно при междугородних переговорах пользуется специальной карточкой, но при этом отметить, что ни разу не звонил. Либо респондент указывает, что часто пользуется каким-то товаром, и в то же время отмечает, что никогда его не приобретал. Чтобы выявить такие ответы и провести соответствующую корректировку, всю необходимую информацию (код респондента, код переменной, название переменной, номер записи и столбца и выпадающее из необходимого диапазона значение) нужно распечатать,

И наконец, необходимо тщательно проанализировать экстремальные значения. Следует помнить, что экстремальные значения — не всегда результат ошибок, нередко они указывают на то, что существуют определенные проблемы с качеством собранных данных. Например, чрезмерно заниженная оценка какой-либо торговой марки может быть результатом того, что респондент просто без разбора пометил 1 по всем ее характеристикам (по рейтинговой шкале от 1 до 7).