интересно
Предыдущая | Содержание | Следующая

Фи-коэффициент

Фи-коэффициент (phi coefficient, ф) используют для измерения тесноты связи в особом случае — при анализе таблицы с двумя рядками и двумя колонками (таблица 2x2).

Фи-коэффициент пропорционален корню квадратному из Для выборки размером п эту статистику находят по формуле:

Фи-квадрат принимает значение, равное 0, если связь отсутствует, на что также указывает и значение хи-квадрат, равное 0. При сильной связи между переменными фи-коэффициент имеет значение 1 и все наблюдения находятся на главной или второстепенной диагонали. (В некоторых компьютерных программах фи-коэффициент принимает значение - I. а не +1, когда наблюдается отрицательная связь.) В нашем случае фи-коэффициент равен:

Таким образом, связь не очень сильна. В более общем случае при наличии таблицы любого размера тесноту связи можно оценить коэффициентом сопряженности признаков.

Коэффициент сопряженности признаков

Фи-коэффициент применяют только к таблице 2 х 2, а коэффициент сопряженности признаков С (contingency coefficient) используют для оценки тесноты связи в таблицах любого размера.

Коэффициент сопряженности признаков связан с %2 следующим образом:

Значения коэффициента сопряженности находятся в диапазоне от 0 до 1. При отсутствии связи он равен нулю (т.е. переменные статистически независимы), но своего максимального значения (1) он никогда не достигает. Максимальное значение коэффициента сопряженности зависит от размера таблицы (числа рядков и колонок). Поэтому он используется только для сравнения таблиц одинакового размера. Значение коэффициента сопряженности для табл. 15.3 следующее:

Это значение коэффициента сопряженности указывает на слабую связь. Другой статистикой, которую можно вычислить для любой таблицы, является V- коэффициент Крамера (Cramer).

Коэффициент Крамера

К-коэффнцнент Крамера (Cramers V) — это модифицированная версия коэффициента корреляции фи (^ ), которую используют в таблицах, больших по размеру, чем 2x2.

Если для таблиц, больших, чем 2x2, вычисляют фи-коэффициент, то он не имеет верхней границы. К-коэффициент Крамера получают корректировкой фи-коэффициента или по числу рядов, или по числу колонок в таблице. Причем из двух значений выбирают меньшее. Корректировку осуществляют так, что значения К-коэффициенталежат в диапазоне от 0 до 1. Большее значение V-коэффициента указывает на более сильную связь, но не указывает, как связаны переменные. Для таблицы с /рядами и с колонками связь между ^-коэффициентом Крамера и фи-коэффициентом выражается следующим образом:

Таким образом, связь не очень сильна. В этом случае V = 6. Так всегда происходит для таблицы 2x2. Другой обычно рассчитываемой статистикой является коэффициент "лямбда".

Коэффициент "лямбда

Коэффициент "лямбда" используется в том случае, когда переменные измерены с помощью номинальной шкалы. Асимметрический коэффициент "лямбда" (asymmetric lambda) показывает выраженное в процентах улучшение при прогнозировании значения зависимой переменной при данном значении независимой переменной,

Значения коэффициента "лямбда" лежат в пределах от 0 до 1. Значение "лямбда", равное О, означает, что никакого улучшения в прогнозировании не наблюдается. Значение 1 указывает на то, что прогноз может быть сделан без ошибки. Это происходит тогда, когда каждая категория независимой переменной связана с одной категорией зависимой переменной.

Асимметрический коэффициент "лямбда" подсчитывают для каждой из зависимых переменных. Также рассчитывают симметричный коэффициент "лямбда" (symmetric lambda) — средним значением двух асимметричных значений.

Симметричный коэффициент "лямбда" не делает предположения о том, какая из переменных зависимая. Он измеряет общее улучшение, прогнозирования, когда прогноз уже выполнен в обоих направлениях. Значение асимметричного коэффициента "лямбда" в табл. 15.3, если в качестве зависимой переменной взять использование Internet, равно 0,333. Это указывает на то, что знание пола увеличивает нашу возможность прогнозирования на 0,333, т.е. имеет место улучшение прогнозирования на 0,33%. Симметричный коэффициент "лямбда" также равен 0,33%.

Другие статистики

Обратите внимание, что при вычислении значения yj переменные должны быть измерены по номинальной шкале. Для измерения связи между двумя порядковыми переменными применяют другие статистики, такие как may h. may с и гамма. Все эти статистики используют информацию об упорядочении категорий переменных, рассматривая каждую возможную пару случаев в таблице, чтобы определить, имеет ли первая переменная тот же относительный порядок расположения (ранг), что и вторая (конкордатное, согласованное расположение), или их расположения (ранги) имеют обратный порядок (несогласованное расположение), или их ранги совпадают (связанные ранги). Эти статистики отличаются только способом обработки рангов. Как тау Ь, так и т;и Ь, корректируют по числу связанных рангов. Тау Ь (tau b) больше всего подходит для квадратных таблиц, в которых количество рядов и колонок равно.

Значения этой статистики лежат в пределах от +1 до - 1. Таким образом, можно определить направление (положительное или отрицательное) и силу (насколько близко данное значение находится к 1) связи. Для прямоугольной таблицы, в которой количество рядов отличается от количества колонок, следует использовать тау с (tau с).

Статистика "гамма" (gamma) не учитывает ни связанные ранги, ни размер таблицы. Значения гаммы также лежат в пределах от +1 до — I и обычно имеет большее числовое значение, чем тау Ъ и тау с.

Данные табл. 15.3, где пол — номинальная переменная, не обрабатывают с помощью порядковых статистик. Все изложенные выше статистики можно оценить соответствующими компьютерными программами для кросс-табуляции. Другие статистики для измерения тесноты связи, а именно: смешанный момент корреляции и неметрическая корреляция, обсуждаются в главе 17.