Регрессионный анализ
Определение и назначение множественного регрессионного анализа (МРА)
Современная политическая наука исходит из положения о взаимосвязи всех явлений и процессов в обществе. Невозможно понимание событий и процессов, прогнозирование и управление явлениями политической жизни без изучения связей и зависимостей, существующих в политической сфере жизнедеятельности общества. Одна из наиболее распространенных задач политического исследования состоит в изучении связи между некоторыми наблюдаемыми переменными. Помогает решить эту задачу целый класс статистических приемов анализа, объединенных общим названием «регрессионный анализ» (или, как его еще называют, «корреляционно-регрессионный анализ»). Однако если корреляционный анализ позволяет оценить силу связи между двумя переменными, то с помощью регрессионного анализа можно определить вид этой связи, прогнозировать зависимость значения какой-либо переменной от значения другой переменной.
Для начала вспомним, что такое корреляция. Корреляционным называют важнейший частный случай статистической связи, состоящий в том, что равным значениям одной переменной соответствуют различные средние значения другой. С изменением значения признака х закономерным образом изменяется среднее значение признака у, в то время как в каждом отдельном случае значение признака у (с различными вероятностями) может принимать множество различных значений.
Появление в статистике термина «корреляция» (а политология привлекает для решения своих задач достижения статистики, которая, таким образом, является смежной политологии дисциплиной) связано с именем английского биолога и статистика Френсиса Галь- тона, предложившего в XIX в. теоретические основы корреляционно- регрессионного анализа. Термин «корреляция» в науке был известен и ранее. В частности, в палеонтологии еще в XVIII в. его применил французский ученый Жорж Кювье. Он ввел так называемый закон корреляции, при помощи которого по найденным в ходе раскопок останкам животных можно было восстановить их облик.
Известна история, связанная с именем этого ученого и его законом корреляции. Так, в дни университетского праздника студенты, решившие подшутить над известным профессором, натянули на одного студента козлиную шкуру с рогами и копытами. Тот залез в окно спальни Кювье и закричал: «Я тебя съем». Профессор проснулся, посмотрел на силуэт и ответил: «Если у тебя есть рога и копыта, то ты — травоядное животное и съесть меня не можешь. А за незнание закона корреляции получишь двойку». Повернулся на другой бок и уснул. Шутка шуткой, но на этом примере мы наблюдаем частный случай применения множественного корреляционно-регрессионного анализа. Здесь профессор, исходя из знания значений двух наблюдаемых признаков (наличие рогов и копыт), на основании закона корреляции вывел среднее значение третьего признака (класс, к которому относится данное животное — травоядное). В данном случае речь не идет о конкретном значении этой переменной (т.е. данное животное могло принимать различные значения по номинальной шкале — это мог быть и козел, и баран, и бык...).
Теперь перейдем к термину «регрессия». Собственно говоря, он не связан со смыслом тех статистических задач, которые решаются при помощи этого метода. Объяснение термину можно дать только исходя из знания истории развития методов изучения связей между признаками. Одним из первых примеров исследований такого рода была работа статистиков Ф. Гальтона и К. Пирсона, пытавшихся обнаружить закономерность между ростом отцов и их детей по двум наблюдаемым признакам (где X— рост отцов и У— рост детей). В ходе своего исследования они подтвердили начальную гипотезу о том, что в среднем у высоких отцов вырастают в среднем высокие дети. Этот же принцип действует в отношении низких отцов и детей. Однако если бы ученые на этом остановились, то их труды никогда не упоминались бы в учебниках по статистике. Исследователи обнаружили еще одну закономерность в рамках уже упоминавшейся подтвержденной гипотезы. Они доказали, что у очень высоких отцов рождаются в среднем высокие дети, но не сильно отличающиеся ростом от детей, чьи отцы хоть и выше среднего, но не сильно отличаются от средневысокого роста. То же и у отцов с очень маленьким ростом (отклоняющимся от средних показателей низкорослой группы) — их дети в среднем не отличались по росту от сверстников, чьи отцы были просто невысокими. Функцию, описывающую эту закономерность, они и назвали функцией регрессии. После этого исследования все уравнения, описывающие подобные функции и построенные сходным образом, стали именовать уравнениями регрессии.
Регрессионный анализ — один из методов многомерного статистического анализа данных, объединяющий совокупность статистических приемов, предназначенных для изучения или моделирования связей между одной зависимой и несколькими (или одной) независимыми переменными. Зависимая переменная по принятой в статистике традиции называется откликом и обозначается как V Независимые переменные называются предикторами и обозначаются как X. В ходе анализа некоторые переменные окажутся слабо связанными с откликом и будут в конечном счете исключены из анализа. Оставшиеся переменные, связанные с зависимой, могут именоваться еще факторами.
Регрессионный анализ дает возможность предсказать значения одной или нескольких переменных в зависимости от другой переменной (например, склонность к неконвенциональному политическому поведению в зависимости от уровня образования) или нескольких переменных. Рассчитывается он на PC. Для составления регрессионного уравнения, позволяющего измерить степень зависимости контролируемого признака от факторных, необходимо привлечь профессиональных математиков-программистов. Регрессионный анализ может оказать неоценимую услугу при построении прогностических моделей развития политической ситуации, оценке причин социальной напряженности, при проведении теоретических экспериментов. Регрессионный анализ активно используется для изучения влияния на электоральное поведение граждан ряда социально-демографических параметров: пола, возраста, профессии, места проживания, национальности, уровня и характера доходов.
Применительно к регрессионному анализу используют понятия независимой и зависимой переменных. Независимой называют переменную, которая объясняет или служит причиной изменения другой переменной. Зависимой называют переменную, значение которой объясняют воздействием первой переменной. Например, на президентских выборах в 2004 г. определяющими факторами, т.е. независимыми переменными, выступили такие показатели, как стабилизация материального положения населения страны, уровень известности кандидатов и фактор incumbency. В качестве зависимой переменной в данном случае можно считать процент голосов, поданных за кандидатов. Аналогично в паре переменных «возраст избирателя» и «уровень электоральной активности» независимой является первая, зависимой — вторая.
Регрессионный анализ позволяет решать следующие задачи:
- 1) установить сам факт наличия или отсутствия статистически значимой связи между Ки X;
- 2) построить наилучшие (в статистическом смысле) оценки функции регрессии;
- 3) по заданным значениям Xпостроить прогноз для неизвестного У
- 4) оценить удельный вес влияния каждого фактора X на У и соответственно исключить из модели несущественные признаки;
- 5) посредством выявления причинных связей между переменными частично управлять значениями Рпутем регулирования величин объясняющих переменных X.
Регрессионный анализ связан с необходимостью выбора взаимно независимых переменных, влияющих на значение исследуемого показателя, определения формы уравнения регрессии, оценки параметров при помощи статистических методов обработки первичных социологических данных. В основе этого вида анализа лежит представление о форме, направлении и тесноте (плотности) взаимосвязи. Различают парную и множественную регрессию в зависимости от количества исследуемых признаков. На практике регрессионный анализ обычно выполняется совместно с корреляционным. Уравнение регрессии описывает числовое соотношение между величинами, выраженное в виде тенденции к возрастанию или убыванию одной переменной величины при возрастании или убывании другой. При этом ра зл и ч а ют л инейную и нелинейную регрессии. При описании политических процессов в равной степени обнаруживаются оба варианта регрессии.
Диаграмма рассеяния для распределения взаимозависимости интереса к статьям на политические темы ( У) и образования респондентов (X) представляет собой линейную регрессию (рис. 30).

Рис. 30. Схема линейной регрессии
Диаграмма рассеяния для распределения уровня электоральной активности (У) и возраста респондента (А) (условный пример) представляет собой нелинейную регрессию (рис. 31).

Рис. 31. Схема нелинейной регрессии
Для описания взаимосвязи двух признаков (А'и У) в модели парной регрессии используют линейное уравнение
где а, — случайная величина погрешности уравнения при вариации признаков, т.е. отклонение уравнения от «линейности».
Для оценки коэффициентов а и b используют метод наименьших квадратов, предполагающий, что сумма квадратов отклонений каждой точки на диаграмме разброса от линии регрессии должна быть минимальной. Коэффициенты а ч Ь могут быть вычислены при помощи системы уравнений:
Метод оценки наименьших квадратов дает такие оценки коэффициентов а и Ь, при которых прямая проходит через точку с координатами х и у, т.е. имеет место соотношение у = ах + Ь. Графическое изображение уравнения регрессии называется теоретической линией регрессии. При линейной зависимости коэффициент регрессии представляет на графике тангенс угла наклона теоретической линии регрессии к оси абсцисс. Знак при коэффициенте показывает направление связи. Если он больше нуля, то связь прямая, если меньше — обратная.
В приведенном ниже примере из исследования «Политический Петербург-2006» (табл. 56) показана линейная взаимосвязь представлений граждан о степени удовлетворенности своей жизнью в настоящем и ожиданиями изменений качества жизни в будущем. Связь прямая, линейная (стандартизованный коэффициент регрессии равен 0,233, уровень значимости — 0,000). В данном случае коэффициент регрессии невысокий, однако он превышает нижнюю границу статистически значимого показателя (нижнюю границу квадрата статистически значимого показателя коэффициента Пирсона).
Таблица 56
Влияние качества жизни горожан в настоящем на ожидания
(Санкт-Петербург, 2006 г.)
Модель |
Нестандартизованные коэффициенты* |
Стандартизованные коэффициенты* |
Критерий Стъюдента 1 |
Уровень значимости |
|
В |
Стандартная погрешность |
Бета |
|||
(Константа) |
2,548 |
0,162 |
15,743 |
0,000 |
|
«Насколько Вы удовлетворены своей сегодняшней жизнью?» |
0,397 |
0,052 |
0,233 |
7,575 |
0,000 |
* Зависимая переменная: «Как Вы думаете, как изменится Ваша жизнь в ближайшие 2—3 года?»
В политической жизни значение изучаемой переменной чаше всего одновременно зависит от нескольких признаков. Например, на уровень и характер политической активности одновременно оказывают влияние политический режим государства, политические традиции, особенности политического поведения людей данного района и социальная микрогруппа респондента, его возраст, образование, уровень дохода, политическая ориентация и т.д. В этом случае необходимо воспользоваться уравнением множественной регрессии, которое имеет следующий вид:
где коэффициент Ь. — частный коэффициент регрессии. Он показывает вклад каждой независимой переменной в определение значений независимой (результирующей) переменной. Если частный коэффициент регрессии близок к 0, то можно сделать вывод, что непосредственной связи между независимыми и зависимой переменными нет.
Расчет подобной модели можно выполнить на PC, прибегнув к помоши матричной алгебры. Множественная регрессия позволяет отразить многофакторность социальных связей и уточнить меру воздействия каждого фактора в отдельности и всех вместе на результирующий признак.
Коэффициент, обозначаемый Ь, называется коэффициентом линейной регрессии и показывает силу связи между вариацией факторного признака X и вариацией результативного признака Y Данный коэффициент измеряет силу связи в абсолютных единицах измерения признаков. Однако теснота корреляционной связи признаков может быть выражена и в долях среднего квадратического отклонения результативного признака (такой коэффициент называется коэффициентом корреляции). В отличие от коэффициента регрессии b коэффициент корреляции не зависит от принятых единиц измерения признаков, а стало быть, он сравним для любых признаков. Обычно считают связь сильной, если /•> 0,7, средней тесноты — при 0,5 < /•< 0,7, слабой — при г< 0,5.
Как известно, максимально тесная связь — это связь функциональная, когда каждое индивидуальное значение Y может быть однозначно поставлено в соответствие значению X. Таким образом, чем ближе коэффициент корреляции к 1, тем ближе связь к функциональной. Уровень значимости для регрессионного анализа не должен превышать 0,001.
Коэффициент корреляции долгое время рассматривался как основной показатель тесноты связи признаков. Однако позднее таким показателем стал коэффициент детерминации. Смысл этого коэффициента в следующем — он отражает долю общей дисперсии результирующего признака У, объясняемую дисперсией признака X. Находится он простым возведением в квадрат коэффициента корреляции (изменяющегося от 0 до 1) и в свою очередь для линейной связи отражает долю от 0 (0%) до 1 (100%) значений признака Y, определяемую значениями признака X. Записывается он как I2, а в результирующих таблицах регрессионного анализа в пакете SPSS — без квадрата.
Обозначим основные проблемы построения уравнения множественной регрессии.
- 1. Выбор факторов, включаемых в уравнение регрессии. На этой стадии исследователь сначала составляет общий список основных причин, которые согласно теории обусловливают изучаемое явление. Затем он должен отобрать признаки в уравнение регрессии. Основное правило отбора: факторы, включаемые в анализ, должны как можно меньше коррелировать друг с другом; только в этом случае можно приписать количественную меру воздействия определенному фактору-признаку.
- 2. Выбор формы уравнения множественной регрессии (на практике чаще пользуются линейной или линейно-логарифмической). Итак, для использования множественной регрессии исследователь сначала должен построить гипотетическую модель влияния нескольких независимых переменных на результирующую. Чтобы полученные результаты были достоверны, необходимо, чтобы модель точно соответствовала реальному процессу, т.е. связь между переменными должна быть линейной, нельзя проигнорировать ни одну значимую независимую переменную, точно так же нельзя включать в анализ ни одну переменную, не имеющую прямого отношения к изучаемому процессу. Кроме того, все измерения переменных должны быть предельно точными.
Из приведенного описания вытекает ряд условий применения этого метода, без соблюдения которых нельзя приступить к самой процедуре множественого регрессионного анализа (МРА). Только соблюдение всех из нижеперечисленных пунктов позволяет корректно осуществлять регрессионный анализ.