Множественная линейная регрессия

Множественный регрессионный анализ является развитием парного анализа в случае, когда зависимая переменная связана с более чем одной независимой переменной. Модель парной регрессии даёт хороший результат в том случае, когда влиянием всех факторов, кроме одного, на объект исследования можно пренебречь. Например, если коэффициент детерминации для построенного уравнения регрессии близок к единице: Я2 ^ 0,8. Однако в практических задачах такие ситуации являются скорее исключением, чем правилом. Поэтому модели множественной линейной регрессии имеют довольно широкое распространение.

Метод наименьших квадратов для множественной регрессии

Рассмотрим регрессионное уравнение, в котором определяется линейная связь зависимой переменой у от к независимых переменных

^2,? • • , Хк

Пусть проведено п наблюдений, в результате которых получены следующие эмпирические наборы данных:

Все использованные обозначения соответствуют по смыслу введённым ранее. Основная задача будет заключаться в том, чтобы получить такие оценки Ь, параметров /?г, где г = 0,1,... ,к, при которых сумма квадратов отклонений е; фактических значений признака уг от расчётных щ была бы минимальна:

Рассмотрим следующие векторы и матрицы:

Столбцами матрицы X являются векторы = (хи,Х2г, ?? ? ,Хщ), где з = 0,1,...,к, соответствующие независимым переменным хг, Х2,- ? ?, X/.. Каждый элемент матрицы хг^ представляет собой результат г-го наблюдения для го признака, а первый единичный столбец соответствует значениям некоторой фиктивной переменной, используемой для большего удобства.

Тогда система уравнений для определения оценок параметров линейной модели множественной регрессии Ьо, &!,..., 6*, в матричной форме примет вид

а подлежащая минимизации сумма квадратов отклонений

Решение такой задачи базируется на простых геометрических соображениях. Рассмотрим в качестве примера модель линейной регрессии для двух наблюдений: У = Х/3 + е, где

векторы наблюдений, — вектор случайной составляющей.

Этой модели соответствуют построения, показанные на рис. 5.3.

Очевидно, что векторы X, Х(3 и ХЬ взаимно коллинеарны, при этом е = У — Х/3. Тогда оценку Ь параметра (3 следует выбирать таким образом, чтобы модуль оценки е вектора е был минимальным, откуда вытекает требование ортогональности векторов: е А. ХЬ.

Геометрическая интерпретация модели линейной регрессии на плоскости ахаг

Рис. 5.3. Геометрическая интерпретация модели линейной регрессии на плоскости ахаг

Так как необходимым и достаточным условием ортогональности двух векторов является равенство нулю их скалярного произведения, то в результате получим систему уравнений в матричной форме:

Выполнив соответствующие преобразования, приходим к общей системе нормальных уравнений метода наименьших квадратов

Если матрица системы X X невырожденная, то система нормальных уравнений будет иметь искомое решение

Оценки Ь вектора /3, полученные при решении указанной системы нормальных уравнений, как и в случае парной регрессии, называются МНК-оценками или оценками, полученными по методу наименьших квадратов.

Знание значений МНК-оценок Ь позволяет вычислять расчётные значения зависимой переменной У

Заметим, что геометрически вектор У является наилучшей аппроксимацией вектора У с помощью линейной комбинации векторов X,, где г = 1,2,...,к.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >