РЕГРЕССИОННЫЙ АНАЛИЗ
Определение коэффициента регрессии и ошибки регрессии
При изучении корреляционных связей, наряду с установлением характера и степени тесноты связи между отдельными явлениями, может иметь место вопрос также и о количественном изменении связанных друг с другом показателей или признаков.
Так, например, после установления связи и к тому же очень тесной, между объемом кроны и урожайностью листа у шелковицы, совершенно естественно возникает вопрос о том, насколько же увеличится в среднем количество листа с одного дерева при увеличении объема кроны на 1 м3.
Коэффициент корреляции представляет собой отвлеченную величину, устанавливающую только характер и степень тесноты связи, поэтому он не может дать непосредственного ответа на поставленный вопрос.
Для этой цели служит так называемый коэффициент регрессии, показывающий, как изменяется один из связанных показателей при изменении другого на какую-либо определенную единицу измерения. Регрессия - это изменение функции при определенных изменениях одного или нескольких аргументов.
Функция - это признак, зависящий от другого признака, т.е. аргумента. Зависимость функции от аргумента может быть физиологической или условно принятой в исследовании. Примером физиологической зависимости может служить зависимость веса животного (функции) от возраста (аргумента).
Если по длине определяется вес животного, считается, что вес зависит от длины, если же необходимо предусмотреть размеры животных разного веса, то принимается, что длина зависит от веса. Это пример условной зависимости.
Термин «функция» употребляется не только для обозначения признака, который зависит от аргумента, но и для обозначения формы этой зависимости. Вскрыть функцию - это значит найти закономерность, по которой изменяется изучаемый признак в зависимости от изменения одного или нескольких других признаков. Если изменения функции исследуются в зависимости от одного аргумента, регрессия называется простой, если от двух и более аргументов -множественной, если при любом значении (малом, среднем, большом) аргумента одинаковые приращения его вызывают (или имеют тенденцию вызывать) одинаковые приращения функции, регрессия называется прямолинейной.
Если при одинаковых приращениях аргумента, но при разных его значениях (малом, среднем, большом) функция имеет неодинаковые приращения, причем среднее течение изменений не идет по прямой, регрессия называется криволинейной.
Термин регрессия был введен Ф.Гальтоном в связи с изучением им наследовании признаков родителей потомством. С общестатистической точки зрения термин регрессия не совсем удачен, но достаточно прочно укоренился, так как получил широкое распространение, особенно в статистических работах биологического направления. Существует ряд синонимов «уравнение регрессии», «кривая регрессии», «корреляционное уравнение», «корреляционная кривая».
Для изображения регрессии используется ряд регрессии (эмпирический и теоретический), линия регрессии (эмпирическая и теоретическая), коэффициент регрессии, уравнение регрессии. Эмпирический ряд регрессии - это двойной ряд цифр, включающий значения аргумента и соответствующие средние значения функции, полученные в опыте.
Итак, регрессия показывает как изменяется относительный признак, показатель или относительная величина при изменении главного признака, показателя или главной величины на какую-либо единицу меры.
Так как при изучении регрессии одновременно рассматриваются изменения двух статистических величин X и У, то любая из них может рассматриваться или как главная или как относительная. В связи с этим для регрессии применяются два обозначения:
D D
1 - регрессия X по У; - регрессия У по X.
У х
Соответственно при наличии двух регрессий для определения коэффициента регрессии используются и две формулы:
&
RL=rJ- (49)
- 8X
- (50)
D
где i - регрессия X по У;
n
у - регрессия У по X;
г - коэффициент корреляции;
8Х, 5У - среднее квадратическое отклонение.
Следует отметить, что регрессия (7?) имеет одинаковый знак с корреляцией (г): при прямой связи - положительный (+), при обратной - отрицательный (-).
Подставив известные значения (г=0.85, 8Х=1.53, 8у=1.17, тг=0.05) вычислим коэффициенты регрессии:
R = 0.85 — = 0.85 1.31 = 1.11 •
7 1.17
R = 0.85 • — = 0.85 • 0.76 = 0.65
5 1.53
Коэффициент регрессии, как и коэффициент корреляции, имеет свою ошибку, которая определяется по следующим формулам:
- 8Х т = т- —
- (51)
- (52)
R-y 5У m = т. • -—
R~x Sx
где т х и т у - ошибка коэффициента регрессии;
У *
шг - ошибка коэффициента корреляции;
- 8Х, 8у - среднее квадратическое отклонение.
- 1 53
т = 0.05-^—= 0.05-1.31 = 0.06
R 1.17
у
т = 0.05 • — = 0.05 • 0.76 = 0.04 1-53
Итак, получили следующий коэффициент регрессии и его ошибку:
D
А = 1.11 ±0.06 значит, при увеличении длины плода на 1 мм его диа-у
метр увеличивается на 1.11±0.06мм.
з = 0.65± 0.04 значит, при увеличении диаметра на 1 мм, его длина увеличивается на 0.65±0.04 мм.
R- R?
Ух
1r =--- и Ц =---- критерий достоверности (53)
R— R—
R — ! t !
tR = = 18.5 > 3 . определение критерия достоверности регрессии X
R—
по У.
Вскрывая усредненное течение функции, исследователь выявляет ту закономерность изучаемого явления, которая в эмпирическом ряду была вскрыта случайностями своего проявления. Эта закономерность, выраженная формулой или теоретическим рядом регрессии, помогает более точно, с меньшими ошибками дать описание внешних проявлений закономерности, что в свою очередь, может помочь нахождению и внутренних факторов, управляющих данным явлением. В этом и заключается познавательное значение исследований регрессии различных признаков у биологических объектов.
Результаты этих исследований имеют также широкое применение и в практике. Каждый выровненный ряд дает возможность определить значение функции при любом значении аргумента (или нескольких аргументов). Это обстоятельство дает возможность использовать ряды и уравнения регрессии при определении значений таких признаков, непосредственное измерение которых в обычных условиях или невозможно, или затруднительно.
В практических работах использование уравнений и линий регрессии получило широкое распространение при определении без взвешивания, путем измерения, нормального живого веса животных и их убойного веса при жизни, веса сена в стогах, веса овощей в овощехранилищах, веса силосной массы в силосах, веса древесины в стволах и штабелях и пр.
Контрольные вопросы:
- 1. Кем был введен термин «регрессия»?
- 2. Для какой цели служит коэффициент регрессии?
- 3. Какие обозначения применяются для регрессии?
- 4. Как определяется коэффициент регрессии и его ошибка?
Контрольное задание: рассчитать изученные показатели регрессионного анализа (коэффициент регрессии, ошибку, критерий достоверности).