интересно
Предыдущая | Содержание | Следующая

Статистики. Связанные с распределением частот

Как следует из предыдущего раздела, распределение частот — удобный способ представления различных значений переменной. Таблица вариационного ряда легко читается и содержит основную информацию, но иногда такая информация слишком детализированна, и исследователь вынужден обобщать ее с помощью описательных статистик. Чаще всего используют следующие статистики, связанные с распределением частот: показатели центра распределения (среднее, мода и медиана), показатели вариации (размах, межквартильный размах, стандартное отклонение и коэффициент вариации) и показатели формы распределения (асимметрия и эксцесс).

Показатели центра распределения

Показатели центра распределения (measures of location) характеризуют положение центра распределения, вокруг которого концентрируются данные. Если всю выборку изменить, добавив фиксированную величину к каждому наблюдению, то среднее, мода и медиана изменятся на аналогичную величину.

Среднее арифметическое или выборочное среднее (mean) — это наиболее часто используемый показатель, характеризующий положение центра распределения. Он используется для оценки среднего значения в случае, если данные собраны с помощью интервальной или относительной шкалы. Его величина должна отражать некоторое среднее значение, вокруг которого распределена большая часть ответов.

Среднее арифметическое X задается формулой

где Л, — полученные значения переменной X, п — число наблюдений (размер выборки).

Обычно среднее значение — устойчивый показатель и заметно не изменяется при добавлении или вычитании значений данных. Для частот, представленных в табл. 15.2, среднее арифметическое вычисляют следующим образом:

Мода (mode) — значение переменной, встречающееся чаще других. Представляет наивысшую точку (пик) распределения. Мода хороший показатель центра распределения, если переменная имеет категорийный характер, или, иначе говоря, ее можно разбить на категории.

Медиана (median) выборки — это значение переменной в середине ряда данных, расположенных в порядке возрастания или убывания, Положение медианы определяется ее номером.

Если число данных четное, то медиана равна полусумме двух серединных значений. Медиана— это 50-й процентиль. Она характеризует положение центра распределения порядковых данных. В табл. 15.2 медиана равна 5,000.

Как видно из табл. 15.2, три показателя, характеризующих положение центра распределения для рассматриваемого нами примера, различны (среднее значение — 4,724; мода — 6,000; медиана — 5,000). И это неудивительно, поскольку каждый показатель определяет центр распределения по-разному. Какой же показатель использовать? Если переменную измеряют по номинальной шкале, то лучше использовать моду. Если переменную измеряют по порядковой шкале, то больше подходит медиана. Если же переменную измеряют по интервальной или относительной шкале, то мода плохо отражает положение центра распределения. Это можно увидеть из табл. 15.2. Хотя значение моды, равное 6,000, отражает наивысшую частоту, оно представляет только 27,6% выборки. Медиана лучше подходит в качестве показателя, характеризующего положение центра распределения, для интервальной или относительной шкалы, хотя и она не учитывает имеющуюся информацию о переменной. Текущие значения переменной до и после медианы игнорируются. Самый лучший показатель для интервальной или относительной шкалы — среднее арифметическое. Он учитывает всю доступную информацию, поскольку для его вычисления используются все значения. Однако среднее арифметическое чувствительно к выбросам значений (экстремально малым или экстремально большим значениям). Если данные содержат выбросы, то среднее не будет хорошим показателем центра распределения и лучше использовать два показателя — среднее и медиану.

Показатели вариации

Показатели вариации (изменчивости) (measures of variability), вычисляемые на основании данных, измеряемых с помощью интервальных или относительных шкал, включают размах вариации, межквартильный размах, дисперсию, стандартное отклонение и коэффициент вариации.

Размах вариации (range) отражает разброс данных. Он равен разности между наибольшим и наименьшим значениями в выборке. Поэтому на него непосредственно влияют выбросы.

Если все значения данных умножить на константу, то значение размаха вариации умножается на туже константу. Размах вариации в табл. 15.2 равен: 7 — 2 = 5,000.

Межквартильный размах (interquartile range) — это разность между 75- и 25-м процентиля-ми. Для набора точек данных, расположенных в ранжированном ряду, р-м процентилем будет такое значение переменной в ранжированном ряду распределения, что р% единиц совокупности будут меньше и (100 — ;>).; — больше него. Если все значения данных умножить на константу, то межквартильный размах умножается на эту же константу. Межквартильный размах в табл. 15.2 равен 6-3 = 3,000.

Разность между средним значением переменной и ее наблюдаемым значением называют отклонением от среднего. Дисперсия (variance) — среднее из квадратов отклонений переменной от ее средней величины. Она никогда не может быть отрицательной. Если значения данных сгруппированы вокруг среднего, то дисперсия невелика. И наоборот, если данные разбросаны, то мы имеем дело с большей дисперсией. Если все значения данных умножить на константу, то дисперсия умножится на квадрат константы. Среднеквадратическое (стандартное) отклонение (standard deviation) равно квадратному корню из дисперсии. Таким образом стандартное отклонение выражается в тех же единицах, что и сами данные.

Стандартное отклонение выборки . вычисляют следующим образом;

Мы делим на п —1 вместо л, поскольку генеральное среднее неизвестно, и вместо него используют выборочное среднее, что делает выборку менее изменчивой, чем фактически. Деля на п —1 вместо п, мы корректируем более слабую изменчивость значений переменой, наблюдаемую в выборке. Для данных, приведенных в табл. 15.2, дисперсию вычисляют так;

Следовательно, стандартное отклонение находим по формуле;

Коэффициент вариации (coefficient ofvariation) — это отношение стандартного отклонения к среднему арифметическому, выраженное в процентах. Коэффициент вариации — показатель относительной изменчивости переменной. Коэффициент вариации СУвычисляюттак:

Коэффициент вариации имеет смысл, только если переменную измеряют по относительной шкале. Поскольку степень знакомства с Internet измерена не по этой шкале, то бессмысленно вычислять коэффициент вариации для данных табл. 15,2.

Показатели формы распределения

Показатели формы распределения, как и показатели вариации, также полезны для понимания природы распределения переменной. Форму распределения оценивают с помощью асимметрии и эксцесса.

Асимметрия. Распределение переменной может быть симметричным или асимметричным (скошенным). При симметричном распределении частоты любых двух значений переменной, которые расположены на одном и том же расстоянии от центра распределения, одинаковы. Равны между собой также и значения среднего арифметического, моды и медианы. Распределение асимметрично (skewness), если значения переменной, равноудаленные от среднего, имеют разную частоту, т.е. одна ветвь распределения вытянута больше другой (рис. 15.2). Значение асимметрии для распределения данных табл. 15.2 равно —0,094; что указывает на незначительную отрицательную асимметрию.

Эксцесс (kurtosis) — это показатель относительной крутости (островершинности или плос-ковершинности) кривой вариационного ряда по сравнению с нормальным распределением. Эксцесс нормально распределенной случайной величины равен нулю. Если эксцесс положителен, то распределение более островершинно по сравнению с нормальным распределением. При отрицательном значении распределение более плосковершинно по сравнению с нормальным,, Значение этой статистики для табл. 15.2 равно —1,261; это указывает на то, что распределение более плосковершинное по сравнению с нормальным.