Корреляционный анализ
Основные понятия корреляционного анализа
Выделяют несколько видов связи между переменными.
1. Корреляционная зависимость предполагает взаимную согласованность изменений переменных величин, а также то, что эти изменения можно измерить однократно или многократно (в данном случае говорят о плотности связи переменных, но не о причинно-следственных связях); например, в современном российском обществе чем выше возраст, тем ниже социальный статус человека; отдельные проявления геронтократии эту закономерность не нарушают (рис. 27).

Рис. 27. Положительная (а) и отрицательная (б) линейная связь
2. Функциональное воздействие предполагает, что изменения независимой переменной сопровождаются все более ускоряющимися изменениями зависимой переменной (причинно-следственные связи фиксируют влияние независимой переменной на зависимую); например, чем более радикальными политическими взглядами обладает человек, тем в большей степени он не приемлет существующий политический режим; в то же время нельзя утверждать, что чем в большей степени человек негативно оценивает власть, тем более радикальными взглядами он обладает (рис. 28).
Рис. 28. Положительная (а) и отрицательная (б) нелинейная монотонная связь
3. Функциональная зависимость — связь переменных, означающая, что изменение одной переменной оказывает воздействие на изменение другой, которая в свою очередь воздействует на первую переменную, т.е. это связи взаимодействия; например, информированность человека о политике напрямую связана с интересом к ней; чем больше человек политикой интересуется, тем больше в ней разбирается.
Связь может быть нелинейной и немонотонной (рис. 29).

Рис. 29. Положительная и отрицательная нелинейная немонотонная связь
Каким бы в итоге ни оказался тип связи между переменными, необходимо убедиться в ее наличии в принципе. Корреляционный анализ применяется для выяснения взаимодействия и тенденций изменения характеристик изучаемого явления.
Первоначальной стадией его развития считается период 1870— 1880-х годов, а автором понятия «коэффициент корреляции» — Фрэнсис Гальтон. Наиболее серьезные разработки в области корреляционного анализа на рубеже XIX-XX вв. выполнил Карл Пирсон. Традиционно корреляционный анализ используется для проверки гипотезы о статистической зависимости двух или нескольких переменных. В качестве вспомогательного средства анализ корреляций можно использовать при проверке пригодности экспериментальных гипотез и для включения переменных в факторный и регрессионный анализ. Корреляционный анализ осуществляется с помощью сравнения и сопоставления рядов распределения, построенных на основании группировок по различным признакам.
Корреляция — наличие статистической взаимосвязи признаков, когда каждому определенному значению одного признака X соответствует определенное значение Y (или комплекс значений Х-ряда распределения). Корреляционный анализ выясняет функциональную зависимость между переменными величинами, которая характеризуется тем, что каждому значению одной из них соответствует вполне определенное значение другой. Однако корреляционный анализ не предполагает выявления каузальных связей, поэтому при интерпретации результатов формулировки типа «переменная х влияет на переменную у» или «переменная х зависит от переменной у» недопустимы.
Различают парную и множественную корреляции. Парная корреляция характеризует тип, форму и плотность связи между двумя признаками, множественная — между несколькими.
Корреляционная зависимость возникает чаще всего там, где одно явление находится под воздействием большого числа факторов, действующих с разной силой, поэтому существуют специальные меры корреляционной связи, называемые коэффициентами корреляции. Коэффициенты (в статистике их общее количество исчисляется десятками) показывают степень взаимосвязи явлений (плотность корреляционной связи, иногда исследователи говорят об интенсивности связи) и характер этой связи (направленность). Связь может быть прямой и обратной. Например, чем старше избиратель, тем более активно он участвует в выборах. Чем выше уровень доходов людей, тем в меньшей степени они склонны участвовать в выборах в качестве избирателей (обратная связь). Чем выше коэффициент корреляции между двумя переменными, тем точнее можно предсказать значения одной из них по значениям другой. Характер связи также определяется в категориях «монотонная» (направление изменения одной переменной не меняется при изменении второй переменной) и «немонотонная» связь. Помимо оценки плотности и направленности связи необходимо учитывать надежность (достоверность) связи.
Корреляционный анализ последовательно решает три практические задачи:
- 1) определение корреляционного поля и составление корреляционной (в данном случае это комбинированная) таблицы;
- 2) вычисление выборочных корреляционных отношений или коэффициентов корреляции;
- 3) проверка статистической гипотезы значимости связи.
Коэффициент корреляции не содержит информации о том, является ли данная связь между ними причинно-следственной или сопутствующей (порожденной общей причиной). Этот вопрос исследователь должен решать самостоятельно на основе содержательных представлений о структуре, динамике изучаемых социальных объектов, корреляций между изучаемыми признаками, использовать иные способы статистического анализа (регрессионный, факторный, дискриминантный, путевой и т.д.). Но величина коэффициента позволяет оценить плотность связи как меньшую (незначимую) или большую. По знаку коэффициента корреляции для порядковых рядов мы можем сказать, является ли эта связь прямой или обратной (для номинальных рядов знак коэффициента не несет смысловой нагрузки).
Для установления корреляционной связи между двумя признаками необходимо доказать, что все другие переменные не оказывают воздействия на отношения двух переменных, являющихся предметом изучения. В противном случае возникает ситуация .южной корреляции. Секрет возникновения ложной корреляции заключается в том, что у двух явлений, связь которых формально подкрепляется наличием статистической связи, есть обшая причина, в равной степени влияющая на каждое из них. Например, американские социологи по результатам статистических данных за 1870-1910-е годы установили связь между зарплатой учителей и потреблением вина в США. Аналогичные случаи — выводы о связи цвета кожи афро-американцев и уровнем преступности среди представителей этой этнической группы, а также склонности подростков из неблагополучных семей к участию в действиях радикальных организаций. В первом случае экономический подъем позволил государственным структурам поднять заработную плату учителям, одновременно улучшив структуру потребления населения в целом, что подвигло их на «маленькие слабости». Во втором случае более высокая преступность в негритянской среде связана не с цветом кожи, а с различиями в качестве жизни англосаксов и афро-американцев. В третьем случае речь должна идти о социальном статусе, экономическом благополучии и социальных перспективах детей из полных и неполных семей.
Во многих случаях статистически фиксируемая связь между признаками может быть объяснена третьей переменной. Например, среди активных избирателей во второй половине 1990-х годов наиболее активными были женщины. Пропорция мужчин и женщин, участвовавших в выборах, например, в Санкт-Петербурге, составляла 65% против 35%. Однако это еще однозначно не определяется тем, что женщины более активны в социальном и политическом отношении. Подобная пропорция складывалась главным образом из-за того, что более активными на выборах являются представители старших возрастных групп, а в них пропорция мужчин и женщин очень искажена (напомним, что в 1990-х годах в России средняя продолжительность жизни мужчин едва достигает 59 лет, а женщин — превышает 72 года, кроме того, возрастная структура Санкт-Петербурга весьма специфична за счет пенсионной группы — город «стареет», доля пенсионеров среди жителей Санкт-Петербурга приближается к 25%).
Для выяснения типа связи является перспективным представление данных в виде графика, который позволяет визуально оценить степень рассеяния значений переменных. Особое внимание следует обратить на наличие «выбросов» (экстремально большие или малые значения признака), показывающих существенные отклонения от линии регрессии — условной прямой, которая показывает характер связи между признаками на графике.
Для выяснения факторов, определяющих причинно-следственную связь между переменными, прибегают к пат-анализу. Чтобы избежать ошибки в ситуации ложной корреляции, используют анализ взаимосвязи двух переменных с помощью контрольного (опосредующего) фактора. Итак, корреляционный анализ позволяет отбросить несуществующие или несущественные связи.
Специально следует оговорить, что для получения достоверных данных необходимо обеспечить достаточно большое число наблюдений, поскольку необоснованно сокращая объем выборки, мы снижаем уровень надежности полученных выводов о статистических зависимостях. Следовательно, необходимы специальные знания статистических расчетов. Операции по расчету коэффициентов корреляции осуществляют программы PC, но необходимо хотя бы иметь представление об элементарных процедурах анализа.
Корреляционному анализу предшествует стадия расчета статистики х2. Но на основании полученного значения статистики х2 мы ничего не можем сказать о плотности связи анализируемых переменных. Для решения такой задачи необходимо обратиться к коэффициентам корреляционной связи.
Различные коэффициенты корреляции могут принимать значения от -1 до +1 или от 0 до + 1. Специально следует оговорить, что значения коэффициентов, которые принимаются как статистически значимые, значительно разнятся между собой для различных видов коэффициентов корреляции (этот вопрос будет рассмотрен ниже).
В качестве предварительного замечания отметим, что принято признавать «сверхсильной» связью показатели корреляции свыше |±0,8|, «сильной» — от |±0,6| до |±0,8|, «умеренной» — от |±0,4| до |±0,6|, «слабой» — от |±0,2| до |±0,4|, связь отсутствует при показателях коэффициентов корреляции до |±0,2|. Применительно к значению коэффициента корреляции, приближающемуся к +1, обычно используют обозначение «строгая положительная корреляция» (perfect positive correlation), а к коэффициенту корреляции, равному —1, — «строгая отрицательная корреляция» (perfect negative correlation). А. Бююль и П. Цёфель, а также А. С. Ахременко предлагают несколько иной вариант интерпретации: до |±0,2| — очень слабая корреляция, от |±0,2| до |±0,5| — слабая корреляция, от |±0,5| до |±0,7| — средняя корреляция, от |±0,7| до |±0,9| — высокая корреляция, свыше |±0,9| — очень высокая корреляция. Отметим, что высокие значения корреляции в реальных политических исследованиях встречаются крайне редко. И действительной исследовательской удачей является обнаружение просто статистически значимого коэффициента корреляции.
Важным показателем оценки коэффициента корреляции является показатель уровня значимости. Для корреляционного анализа он, как и для статистики хи-квадрат, не должен превышать 0,05 (р < 0,05), т.е. вероятность ошибки — подмена устойчивой статистически обоснованной случайной связи — не превышает 5%. Показатель уровня значимости является расчетным, однако как для статистики у}, так и для корреляционного анализа этот показатель формально принимают за константу.
Достаточно часто при обсуждении политических явлений исследователи сталкиваются с нелинейным характером связи признаков. Например, связь между уровнем доходов и характером политических предпочтений (по шкале «правые—левые») не является линейной. Люди со средними доходами не обязательно поддерживают центристские взгляды, а с низкими — левые.