интересно
Предыдущая | Содержание | Следующая

Статистический анализ уравнения регрессии

После того как вычислены коэффициенты регрессии, нужно произвести статистический анализ уравнения регрессии, т.е. дать статистические оценки точности этого уравнения.

Прежде всего определим остаточную сумму квадратов

- вектор-столбец значений, предсказанных уравнением регрессии. Запишем матричное уравнение: Y = ХВ.

Остаточная сумма квадратов в матричной форме

Переходя от матричной формы к обычной алгебре, получаем остаточную сумму квадратов в виде выражения

Опыт показывает, что в целях проверки всей системы вычислений полезно остаточную тумму квадратов вычислять дважды, пользуясь формулами (7.9) и (7.12).

Сама величина Sr недостаточно удобна для определения степени разброса экспериментальных точек относительно уравнения регрессии, так как она зависит от N. Поэтому обычно пользуются остаточной дисперсией, которая характеризует разброс, отнесенный к одной точке измерения,

где/- число степеней свободы;f=N-k-l.

и т.д. Для вычисления каждого коэффициента bi требуется минимум одна точка уи. Оставшиеся точки могут рассматриваться как свободные, и к их числу относят остаточную сумму квадратов Sr. Если число опытов равно числу коэффициентов, т.е. N = к + 1, то уравнение регрессии пройдет через все Лоточек и разброса вообще не будет (й = 0).

Если sj, мало, то, следовательно, уравнение регрессии достаточно точно характеризует процесс; если s* велико, то или в уравнении

регрессии не учтены какие-то существенные факторы х,, или неправильно выбрана степень полинома. При этом если на основе проведения аналогичных экспериментов известна ошибка опыта aj,, т.е.

ошибки измерения и влияние неконтролируемых факторов zj , то можно найти F-отношение:

и проверить гипотезу об адекватности представления результатов полиномом заданной степени d.

В математической статиешне F-распределение используется для проверки равенства дисперсий в двух сериях опытов. Остановимся несколько подробнее на этом понятии. В выражении для дисперсии

в числителе находится сумма квадратов случайных, нормально распределенных чисел (по предпосылке регрессионного анализа) с математическим ожиданием, равным нулю (у является математическим ожиданием для уи). Эта сумма сама есть случайное число, так как для каждой новой серии опытов N можно получать другое значение Sy • Такое случайное число имеет свой закон распределения,

:

поэтому F также является случайной величиной, она подчинена так называемому закону ^-распределения. Плотность распределения этой величины определяется выражением

Г(а) - гамма-функция от аргумента а;

На практике непосредственно выражение (7.14) не применяют, а используют таблицы, которые приводятся в пособиях по математической статистике.

Чтобы проверить гипотезу о равенстве дисперсий, т.е.

F, которую считаем неприемлемой. Только тогда можно судить о том, будет ли полученное числовое значение F слишком большим или малым.

(см.

подбираются так, чтобы выполнялись равенства для соответствующих вероятностей:

где q - уровень значимости (он часто задается в процентах).

, то

отбрасывается. Причем правильность этого решения будет гарантирована с достоверностью (1 - q). В 100^ процентах случаев гипотеза будет отвергаться напрасно. С увеличением q как бы налагаются более жесткие условия на совпадение результатов, и естественно, что гипотеза будет отвергаться чаще. Уменьшение q означает меньшую требовательность. Поскольку для сравнения дисперсий можно брать и обратное отношение

с которой сравнивается полученное расчетное значение Fp.

= 5,7 млн руб. Откуда

может быть как результатом разной

> 2,65, то гипотезу об одинаковой неопределенности нужно было бы отбросить, при этом в 10% случаев гипотеза была бы отброшена напрасно.

Аналогичным образом, используя отношение (7.13), можно убедиться в правильности выбора степени полинома d. Бели априори есть достаточно оснований для выбора d, то остаточную дисперсию

можно рассматривать как оценку дисперсии, характеризующей ошибку эксперимента.

Кроме точности уравнения регрессии в целом большое значение имеет точность в определении самих коэффициентов регрессии. Коэффициентами, значение которых соизмеримо с погрешностью их определения, очевидно, следует пренебречь.

, характеризующие ошибки в определении коэффициентов регрессии (в каждой новой серии опытов для одного и того же уравнения регрессии будут получаться различные значения одних и тех же коэффициентов Ь, из-за влияния помех zj), также можно определить с помощью преобразования матриц. Определим вектор ошибок:

Черта над элементами матрицы означает усреднение по всем сериям опытов. Введем следующие обозначения:

Случайными являются величины у и Ъ, а х измеряется точно, поэтому (Х*Х)~1 и X* - константы.

Сделаем следующие преобразования:

При получении результата (7.15) использованы следующие свойства матрицы:

где Е- единичная матрица.

).

Переходя к обычной форме записи, из выражения (7.15) получаем

где с„ - коэффициенты (будут определены позднее).

, можно установить доверительные границы для коэффициентов Ь,. Введем случайную величину

- теоретическое значение коэффициента.

также распределена по нормальному закону. Величи-

на t, являющаяся отношением нормально распределенной случайной

, имеет

плотность так называемого /-распределения:

(рис. 7.4). Ве-

,

{см. приложение 4), то сможем утверждать, что в 90% случаев истинное значение коэффициента р, будет лежать впределах

Коэффициент Ь, незначим, если

В математической статистике нельзя дать абсолютно утвердительного ответа ни по одному из параметров. Можно только с определенной степенью достоверности указывать пределы, в которых находится значение параметра. Так, в данном случае степень достоверности равна 0,9.

Величина tq(f) возрастает с уменьшением q и уменьшается с

увеличением/ Это естественно: увеличение степени достоверности (уменьшение q) вызывает увеличение диапазона возможного значения параметра (ел*. рис. 7.5). Увеличение /означает увеличение числа испытаний, т.е. более точное определение параметров процесса, поэтому с ростом/диапазон разброса параметра tq(f) уменьшается.

Доверительные границы по соотношению (7.17) можно установить только для случая ортогонального планирования, когда диагональные элементы обратной матрицы с„ определяются независимо:

Если матрица не диагональная (для неортогонального планирования), то в вычислении cti участвуют все элементы матрицы {XX). При изменении числа переменных к, естественно, си получают другое значение. Поэтому определение дисперсии для каждого коэффициента Ь, становится возможным только при фиксировании значений остальных коэффициентов.

Рассмотрим пример на получение и анализ уравнения регрессии.

Пример 7.2. Неортогональное планирование эксперимента. Для того чтобы лучше представлять, как идет процесс решения, зададим сами функцию двух переменных х, хг, и полученные значения функции в заданных точках засорим шумами. По этим засоренным точкам, которые будут имитировать экспериментальные точки, будем искать нами же заданный полином (в действительности же вид полинома и даже его степень бывают неизвестны):

представ-

лены в табл. 7.1.

В ряде случаев бывает известна ошибка опыта. В данном примере можно принять за ошибку опыта разность между уи и r(xhx2). Тогда

Забудем теперь об уравнении для лОч.хг) и начнем искать уравнение регрессии в линейной форме [см. формулу (7.2)], так как полином нулевой степени явно не обеспечит адекватности:

Определяем элементы обратной матрицы:

где Х*)& - присоединенная матрица для заданной квадратной матрицы Х*Х. Рассчитаем определитель

Далее получим коэффициенты:

Определяем матричное выражение:

С помощью равенства (7.6) вычисляем коэффициенты Ъ,

Таким образом,

Промежуточные результаты вычисления дисперсии, которую дает уравнение регрессии, представлены в табл. 7.2.

Таблица 7.2

а дисперсия и среднеквадратич-

ное отклонение имеют следующие значения:

Поскольку мы считаем, что нам известна ошибка опыта о£ = 1,22, можно определить на основе F-отношения адекватность полученного уравнения регрессии:

= 9 степеней свободы.

= 3,37. Поскольку 12,1 > 3,37, гипотезу о случайном отклонении нужно отбросить.

Найдем уравнение регрессии в виде неполного уравнения 2-й степени:

Матрица результатов наблюдений имеет вид:

Выполнив промежуточные расчеты (объем выкладок значительно возрастет, особенно при определении обратной матрицы), получим

= 3,48

(см. приложение 3).

гипотеза об адекватности уравнения регрессии

может быть принята.

Пример 7.3. Ортогональное планирование. Изменим систему точек, чтобы выполнялось условие ортогональности (табл. 7.3).

Хотя число точек N = 9 сохранено, естественно, что условия задачи изменились: в четырех новых точках нужно задать какое-то новое значение шума.

Вычисляем:

Зададим линейное уравнение регрессии:

В данном .случае не нужно искать обратную матрицу:

Значение SR (для разнообразия) подсчитаем по формуле (7.12):

В данном случае адекватность линейной гипотезы будет отброшена по критерию F.

Поскольку матрица jfx в ортогональной системе диагональна, здесь можно применить /-распределение при определении доверительных интервалов для bt. По формуле (7.16) получим:

(см. приложение 4) найдем ^-процентный предел:

Таким образом, с достоверностью 0,9 можно утверждать, что истинные коэффициенты регрессии лежат в пределах (см. формулу (7.17)):

Все коэффициенты Ь, значимы, т.е. ими нельзя пренебречь (приравнять нулю), так как fy>ioJЈ.- Найдем уравнение регрессии в

где л3" хх2.

Матрица результатов наблюдений примет вид:

Остальные матрицы записываются следующим образом:

останутся теми же; требуется определить только Ьз:

Тогда уравнение регрессии имеет вид

Значение SR определяется с использованием выполненных выше расчетов:

Дисперсия, среднеквадратичное отклонение и F-отношение определяются выражениями:

=2,015*2.

Для коэффициентов уравнения регрессии справедливы следующие соотношения:

Итак, рассмотрены примеры применения регрессионного анализа для неортогонального и ортогонального планирования. Хочется подчеркнуть одну важную особенность ортогонального планирования, кроме очевидного значительного упрощения расчетов.

В неортогональном планировании при изменении степени полинома все вычисления проводятся заново, а значения всех коэффициентов регрессии изменяются. В ортогональном же планировании ранее вычисленные коэффициенты остаются без изменения.

Неопределенность в оценке коэффициентов регрессии при неортогональном планировании затрудняет их физическую интерпретацию; уравнение регрессии можно рассматривать только как интерполяционную формулу. В ортогональном же планировании можно придавать определенный физический смысл индивидуальным коэффициентам регрессии. В данном случае уравнение регрессии - не просто интерполяционная формула, а некоторая математическая модель процесса.