Множественная линейная регрессия
Множественный регрессионный анализ является развитием парного анализа в случае, когда зависимая переменная связана с более чем одной независимой переменной. Модель парной регрессии даёт хороший результат в том случае, когда влиянием всех факторов, кроме одного, на объект исследования можно пренебречь. Например, если коэффициент детерминации для построенного уравнения регрессии близок к единице: Я2 ^ 0,8. Однако в практических задачах такие ситуации являются скорее исключением, чем правилом. Поэтому модели множественной линейной регрессии имеют довольно широкое распространение.
Метод наименьших квадратов для множественной регрессии
Рассмотрим регрессионное уравнение, в котором определяется линейная связь зависимой переменой у от к независимых переменных
^2,? • • , Хк •
Пусть проведено п наблюдений, в результате которых получены следующие эмпирические наборы данных:
Все использованные обозначения соответствуют по смыслу введённым ранее. Основная задача будет заключаться в том, чтобы получить такие оценки Ь, параметров /?г, где г = 0,1,... ,к, при которых сумма квадратов отклонений е; фактических значений признака уг от расчётных щ была бы минимальна:
Рассмотрим следующие векторы и матрицы:
Столбцами матрицы X являются векторы = (хи,Х2г, ?? ? ,Хщ), где з = 0,1,...,к, соответствующие независимым переменным хг, Х2,- ? ?, X/.. Каждый элемент матрицы хг^ представляет собой результат г-го наблюдения для го признака, а первый единичный столбец соответствует значениям некоторой фиктивной переменной, используемой для большего удобства.
Тогда система уравнений для определения оценок параметров линейной модели множественной регрессии Ьо, &!,..., 6*, в матричной форме примет вид
а подлежащая минимизации сумма квадратов отклонений
Решение такой задачи базируется на простых геометрических соображениях. Рассмотрим в качестве примера модель линейной регрессии для двух наблюдений: У = Х/3 + е, где
—
векторы наблюдений,
— вектор случайной составляющей.
Этой модели соответствуют построения, показанные на рис. 5.3.
Очевидно, что векторы X, Х(3 и ХЬ взаимно коллинеарны, при этом е = У — Х/3. Тогда оценку Ь параметра (3 следует выбирать таким образом, чтобы модуль оценки е вектора е был минимальным, откуда вытекает требование ортогональности векторов: е А. ХЬ.

Рис. 5.3. Геометрическая интерпретация модели линейной регрессии на плоскости ахаг
Так как необходимым и достаточным условием ортогональности двух векторов является равенство нулю их скалярного произведения, то в результате получим систему уравнений в матричной форме:

Выполнив соответствующие преобразования, приходим к общей системе нормальных уравнений метода наименьших квадратов
Если матрица системы X X невырожденная, то система нормальных уравнений будет иметь искомое решение
Оценки Ь вектора /3, полученные при решении указанной системы нормальных уравнений, как и в случае парной регрессии, называются МНК-оценками или оценками, полученными по методу наименьших квадратов.
Знание значений МНК-оценок Ь позволяет вычислять расчётные значения зависимой переменной У
Заметим, что геометрически вектор У является наилучшей аппроксимацией вектора У с помощью линейной комбинации векторов X,, где г = 1,2,...,к.