Криволинейный полиномиальный регрессиионный анализ. Коэффициенты корреляции и детерминации фетометрии
При большом объеме выборки (например, когда в сроке 20 нед или позже получено более чем 150 измерений) появляется возможность аппроксимации данных к графической кривой, а не просто прямой линии. С помощью этого можно более точно описать эволюцию данных. Такой метод имеет название полиномиальный регрессионный анализ.
Полиномиальная регрессия описывается математическими многочленными (квадратичными, кубическими) уравнениями.
Уравнения могут быть разных порядков, в зависимости от степени, в которую будет возводиться независимая переменная. Например:
Первый порядок: у - а+bх
Второй порядок: у = а+bх+сх2
Третий порядок: у = a+bx+cx2+dx3
Чем выше порядок многочленного уравнения, тем лучше оно описывает данные. Окончательная цель этого вида анализа заключается в построении кривой, которая проходила бы через каждую точку двумерного графика данных. Математически подтверждено, что уравнение подобной кривой имеет порядок, равный количеству точек выборки минус 1.
Очевидно, что уравнение такой высокой степени делало бы вычисление настолько громоздким, что не позволяло бы провести анализ данных.
На практике выбирается многочленное уравнение наиболее низкого порядка, которое в то же время позволяет достаточно точно описать кривую для полученных значений. Выбор уравнения осуществляется с помощью сравнения их коэффициентов корреляции.
Коэффициенты корреляции и детерминации
Качество соответствия уравнения оценивается коэффициентом множественной корреляции (R) или квадратом этой величины (коэффициентом детерминации - R2). Чем более выражена корреляционная взаимосвязь, тем ближе будут значения этих коэффициентов к 1. Если имеется абсолютная корреляционная взаимосвязь между двумя переменными, все точки графика рассеяния окажутся на регрессионной кривой.
Такое происходит достаточно редко, более вероятна ситуация, когда некоторые точки не будут на ней располагаться. Величина R, равная 0, будет указывать на то, что между двумя переменными нет связи. В случае наличия между ними сильной корреляционной связи коэффициент детерминации (R2) будет находиться в пределах от 0,9 до 0,99. Уравнения, которые имеют порядок степени больше, чем квадрат и куб, обычно характеризуются близкими величинами коэффициента детерминации R2.
Среди кривых с высокими значениями коэффициента корреляции (R) наиболее подходящей для описания данных будет та, которая имеет наименьший порядок степени. Для того чтобы различить (дискриминировать) эти кривые, необходимо использовать F-критерий.
F-критерий. С увеличением порядка уравнения коэффициенты (о, с, и d в вышеуказанных уравнениях), на которые умножают независимую переменную (х - в вышеуказанных уравнениях) становятся меньше. В уравнениях высокого порядка возведение в степень независимой переменной будет приводить к тому, что будут получаться очень большие числовые значения (например, 40 нед в уравнении третьего порядка превращется в 64 000).
В связи с этим коэффициент должен быть очень небольшим- в противном случае параметр окажется огромным. Коэффициенты бывают настолько малы, что немногим отличаются от 0. В данном случае срок беременности не добавляет точности уравнению и должен быть устранен. F-критерий является вариантом t-критерия, разработанного, чтобы протестировать гипотезу, согласно которой коэффициенты (b, с, d, ..., п) уравнений отличаются от 0.
Данный критерий позволяет установить, переходить ли к уравнению более высокого порядка, добавляя коэффициенты, или можно обойтись без его усложнения.
Источник: http://meduniver.com