Регрессионный анализ

Регрессионный анализ позволяет установить аналитическую зависимость, которая показывает, как изменяется среднее значение результативного признака под влиянием одной или нескольких независимых величин. При этом множество прочих факторов, также оказывающих влияние на результативный признак, принимаются за постоянные или средние уровни. Таким образом, регрессионный анализ позволяет судить, насколько в среднем одна величина, например у, изменяется при соответствующих изменениях другой величины х, и наоборот, в какой мере переменная величина х изменяется на единицу изменения величины у.

Динамика взаимной зависимости между переменными величинами получила название регрессии, а методика исследования регрессии носит название регрессионного анализа.

Уравнение регрессии представляет собой математическую модель, в которой усредненное значение результативного признака ух рассматривается как функция одного или нескольких факторных признаков. В первом случае речь идет об уравнении регрессии, характеризующем однофакторную (парную) зависимость между переменными, во втором — о многофакторном регрессионном анализе.

Регрессионный анализ позволяет осуществлять:

  • • построение эмпирических графиков (линий) регрессии (регрессия х по у и регрессия у по х);
  • • поиск уравнений, позволяющих по эмпирическим данным построить теоретическую, т.е. выровненную линию регрессии;
  • • вычисление коэффициентов, позволяющих судить о двусторонней связи, т.е. насколько в среднем результирующая величина изменяется при соответствующих изменениях факторного признака.

Рассмотрим однофакторную линейную регрессию.

Эмпирические графики, отражающие взаимосвязь двух признаков, изображаются в виде диаграммы рассеяния. В декартовой системе координат по оси абсцисс откладывают значения факторного признака х (регрессора), а по оси ординат — результативного у.

Каждой паре значений (х, у) будет соответствовать конкретная точка на плоскости графика. Графическое изображение эмпирических данных, полученных в результате выборочного наблюдения, может представлять собой множество точек, которое принято называть диаграммой рассеяния.

При построении диаграммы возможны различные случаи (рис. 7.8).

Диаграммы рассеяния а — связь отсутствует; б — связь положительная линейная; в — связь отрицательная линейная; г — связь параболическая

Рис. 7.8. Диаграммы рассеяния а — связь отсутствует; б — связь положительная линейная; в — связь отрицательная линейная; г — связь параболическая

На рис. 7.8,а представлена диаграмма рассеяния, состоящая из множества точек, расположенных без какой-либо закономерности, что свидетельствует об отсутствии связи между переменными величинами х и у.

Чем сильнее связь между признаками, тем сильнее будут группироваться эмпирические данные, образуя линию, отражающую конкретную форму связи. Диаграмма рассеяния, изображенная на рис. 7.8,6, говорит о наличии положительной линейной зависимости между переменными величинами. С увеличением переменной величины л: значения у возрастают.

Точки, показанные на рис. 7.8,в, свидетельствуют о наличии отрицательной линейной связи. По мере увеличения значений х величины у уменьшаются.

Расположение точек на рис. 7.8,г показывает наличие нелинейной (параболической) зависимости между переменными величинами хну.

Найти уравнение регрессии и графически построить теоретическую линию регрессии по эмпирическим данным — значит определить связь средней величины результативного признака ух с конкретными значениями факторного признака хг

Аналитически зависимости между социально-экономическими показателями могут быть представлены простыми уравнениями в форме линейной или нелинейной связи:

— линейная зависимость;

— степенная зависимость (показательная функция);

— гиперболическая зависимость;

— парабола;

— логарифмическая функция,

где ух — теоретические (усредненные) значения результативного признака, рассчитанные по уравнению регрессии;

а, Ь, с — коэффициенты уравнения регрессии.

Для простоты расчетов чаще всего нелинейные формы связи (путем логарифмирования или замены переменных) преобразуют в линейную форму.

При статистических исследованиях наиболее часто обращаются к анализу парной линейной формы зависимости между двумя коррелирующими признаками.

Для примера рассмотрим зависимость между ростом и весом двадцати призывников (данные условные) (табл. 7.6). Зависимость между этими переменными не может быть функциональной. Эта зависимость носит случайный характер, но при анализе достаточно большого выборочного массива можно наблюдать устойчивую статистическую взаимосвязь.

Результаты измерений веса и роста призывников

Рост

Вес

Рост

Вес

п/п

X

У

п/п

X

У

1

192

86

11

182

85

2

176

80

12

184

83

3

164

60

13

170

81

4

190

77

14

178

75

5

187

79

15

185

71

6

165

54

16

168

73

7

174

66

17

194

74

8

180

69

18

189

72

9

173

67

19

167

76

10

196

87

20

171

62

Построим эмпирическую линию регрессии по приведенным в табл. 7.6 данным (рис. 7.9).

Зависимость между ростом и весом новобранцев

Рис. 7.9. Зависимость между ростом и весом новобранцев

На рисунке нанесены двадцать точек, соответствующих росту и весу двадцати испытуемых. Соединив эти точки между собой, получим ломаную эмпирическую линию регрессии, которая отражает общую тенденцию возрастания веса с увеличением роста призывников.

Предположим, что зависимость между ростом и весом линейная. При этом очевидно, что рост будет являться независимой переменной, а вес — статистически зависимой переменной. Требуется найти теоретическую линию регрессии/* = а + Ьх, которую можно использовать для предсказания возможного веса ух в зависимости от роста испытуемого.

Маловероятно, что прямые А и В (см. рис. 7.9) совпадут с теоретической линией регрессии. Наилучшие статистические свойства оценок параметров регрессии обеспечивает метод наименьших квадратов. Его предложил немецкий математик К. Гаусс в 1806 г. Сущность этого метода заключается в определении параметров уравнения {а, Ь), при которых сумма квадратов отклонений фактических значений результативного признака от теоретических является величиной наименьшей:

Минимизируем сумму квадратов отклонений:

Далее определим, при каком значении а и Ь функция двух переменных 5 может достигнуть минимума. С этой целью найдем частные производные по да и дЬ и приравняем их к нулю (условия первого порядка).

Сократив каждое уравнение на —2 и раскрыв скобки, получим систему нормальных уравнений:

где п — число единиц наблюдений (объем статистической совокупности).

Решив систему уравнений, определим значения коэффициентов а и Ь уравнения регрессии

Коэффициент Ь — коэффициент регрессии, указывающий, насколько изменяется в среднем значение результативного признака при изменении факторного на единицу собственного измерения. Для его вычисления воспользуемся формулой

Параметры уравнения парной линейной регрессии могут быть также вычислены по формулам, дающим тот же результат:

Для решения системы нормальных уравнений (7.11) по эмпирическим данным необходимо и достаточно определить величины 1у, 1л, 1лу, 1л2.

Необходимый расчет для нашего примера произведен в табл. 7.7.

Таблица 7.7

Расчет сумм для определения параметров парного линейного уравнения регрессии между ростом и весом призывников

п/п

Рост

X

Вес

У

2

X

ху

у = а + Ьх

1

164

60

26896

9840

65,7

2

165

54

27225

8910

66,2

3

167

76

27889

12692

67,28

4

168

73

28224

12264

67,82

5

170

81

28900

13770

68,9

6

171

62

29241

10602

69,44

7

173

67

29929

11591

70,52

В

174

66

30276

11484

71,06

п/п

Рост

X

Вес

У

X2

ху

ух = а + Ьх

9

176

80

30976

14080

72,14

10

178

75

31684

13350

73,22

II

180

69

32400

12420

74,3

12

182

85

33124

15470

75,38

13

184

83

33856

15272

76,46

14

185

71

34225

13135

77,0

15

187

79

34969

14773

78,08

16

189

72

35721

13608

79,16

17

190

77

36100

14630

79,7

18

192

86

36864

16512

80,78

19

194

74

37636

14356

81,86

20

196

87

38416

17052

82,94

Итого

3585

1477

644551

265811

1477

Система нормальных уравнений для нашего примера имеет вид:

Отсюда коэффициенты: а — — 23,98; Ь = 0,55.

Определив коэффициенты а п Ь п подставив их в уравнение

регрессии ух = а + Ьх, найдем значение ух, зависящее только от заданного значения х.

Следовательно, искомое уравнение регрессии у по х примет вид:

Подставляя последовательно в данное уравнение значения х из табл. 7.7 (164, 165, 167 и т.д.), определим теоретические значения результативного признака ух. Вычисленный ряд чисел поместим в последнюю графу табл. 7.7. Нанесем соответствующие точки на график, а затем, соединив их между собой, получим прямую С, которая представляет искомую теоретическую линию регрессии (см. рис. 7.9). Любая другая произвольно начерченная линия (например, А или В) не будет соответствовать условиям метода наименьших квадратов.

Положительный или отрицательный знак при коэффициенте регрессии b говорит о положительном или отрицательном направлении линии регрессии. Таким образом, регрессия х по у и у по х представляет собой ряд средних значений одной величины, соответствующей определенным значениям другой.

В Excel уравнение регрессии и величина достоверности аппроксимации R2 (коэффициент детерминации) могут быть получены при построении диаграммы (см. приложение 8). Для этого на диаграмме необходимо правой кнопкой мыши щелкнуть по одному из маркеров и в появившемся контекстном меню выбрать опцию Добавить линию тренда. В открывшемся диалоговом окне на вкладке Тип необходимо указать тип функции, а на вкладке Параметры установить флажки возле опций Показывать уравнение на диаграмме и Поместить на диаграмму величину достоверности аппроксимации (ЛЛ2).

Построение линии регрессии по данным табл. 7.6, исходные данные и результаты вычислений представлены на рис. 7.10.

Построение линии регрессии в Excel

Рис. 7.10 Построение линии регрессии в Excel

На практике, как правило, результаты статистического исследования содержат большой числовой массив. Чтобы упорядочить результаты выборочных наблюдений, на основе которых мы хотим определить наличие и форму связи между исследуемыми переменными, целесообразно исходный массив эмпирических данных представить в виде корреляционной таблицы. Схема построения такой таблицы приведена на рис. 7.11.

Схема построения корреляционной таблицы при положительной зависимости между переменными х и у

Рис. 7.11. Схема построения корреляционной таблицы при положительной зависимости между переменными х и у

В таблице расположены два сгруппированных вариационных ряда по факторному х и по результативному у признакам, имеющих общие частоты / . Число строк и столбцов, из которых состоит корреляционная таблица, соответствует числу групп (интервалов) одного и другого вариационных рядов. Каждая варианта двух сопряженных рядов занимает свою клетку в корреляционной таблице. По распределению частот можно предварительно судить о форме и частично о тесноте связи между признаками х и у. Например, распределение вариант по диагонали из левого верхнего угла таблицы к ее нижнему правому углу (см. рис. 7.11) свидетельствует о наличии положительной связи между переменными х и у. Расположение вариант в корреляционной таблице из нижнего левого угла по направлению к правому верхнему говорит о наличии отрицательной связи между исследуемыми переменными величинами х и у. Если в корреляционной таблице варианты двух сопряженных рядов распределены более или менее равномерно по всему полю таблицы, то можно говорить об отсутствии какой-либо зависимости между переменными хну.

Методику построения корреляционной таблицы покажем на условном примере. Имеются сведения о стаже работы и производительности труда у 24 рабочих (табл. 7.8).

Таблица 7.8

Зависимость производительности труда от стажа работы рабочих токарного цеха

Табельный

номер

Стаж

работы,

лет

Количество изготовленных деталей

Табельный

номер

Стаж

работы,

лет

Количество изготовленных деталей

1

3

9

13

12

27

2

5

7

14

7

8

3

8

9

15

9

17

4

4

9

16

11

17

5

8

10

17

13

21

6

6

8

18

6

16

7

12

26

19

8

21

8

9

19

20

10

20

9

10

21

21

11

13

10

3

5

22

14

26

11

6

12

23

15

28

12

4

8

24

9

16

Для вычисления уравнения парной регрессии сгруппируем исходные данные по факторному х и по результативному у признакам. Поместим их в корреляционную таблицу, которая содержит распределение статистически зависимых величин хну, а также их частоты/^. и/. Так как исследуемые величины статистически зависимы, то общее число наблюдений п = ^/х = /у . Если объем исходной статистической совокупности достаточно представителен, то значения признаков хну целесообразно представить в интервальном виде, а затем определить середину для каждого интервала. В дальнейших расчетах полученные значения будем рассматривать как дискретные величины.

Построим корреляционную табл. 7.9, отражающую зависимость производительности труда у от стажа работы х. Значение стажа работы и производительности труда представим в интервальном виде. Затем определим середины интервалов и заполним соответствующие клетки таблицы, где имеются общие частоты для вариационных рядов х и у. Просуммировав их по строкам и столбцам, определим частные средние арифметические этих рядов по известной формуле:

Так, например, средняя х = 6, которая стоит в графе «средний стаж», получена в результате следующего расчета:

Аналогичным способом вычислена величина производительности труда:

Порядок заполнения табл. 7.9 покажем на примере расчета первой группы:

Произведя необходимые расчеты, заполним табл. 7.9.

Предположим наличие линейной зависимости между стажем работы и производительностью труда, тогда для определения коэффициентов уравнения регрессии воспользуемся системой нормальных уравнений (7.11).

В нашем примере система нормальных уравнений должна включать в себя все суммы значений х, у и их произведений вместе с их весом:

Зависимость производительности труда от стажа работы

Производитель- ность труда у

Стаж работы х

3-5

5-7

7-9

9-11

11-13

13-15

/,

У/у

У%

Средний

стаж х

Середина

интервала

4

6

8

10

12

14

по X

по у

4-8

6

3

2

-

-

-

-

5

30

180

4,8

8-12

10

2

1

2

-

-

-

5

50

500

6

12-16

14

-

1

1

1

-

-

3

42

588

8

16-20

18

-

-

2

2

-

-

4

72

1296

9

20-24

22

-

-

1

1

1

-

3

66

1452

10

24-28

26

-

-

-

-

2

2

4

104

2704

13

/,

5

4

6

4

3

2

24

364

6720

-

У,

20

24

48

40

36

28

196

80

144

384

400

432

392

1832

152

216

736

720

888

728

3440

Средняя производительность труда у

7,6

9

15,3

18

24,6

26

где п = 24 = 1,/х = Т/у — общее число наблюдений (рабочих);

у/у и х/х — частоты соответствия между факторным и результативным признаками;

ху/ху — значения результативного и факторного признаков по отдельно взятой группе.

Подставив в систему уравнений (7.11) расчетные данные из табл. 7.9, получим:

Решив данную систему уравнений, определим искомые параметры: а = — 1,1; Ь = 2,0.

Таким образом, теоретическое уравнение регрессии, отражающее принятое нами предположение о линейной зависимости производительности труда от стажа работы, примет вид:

Используя расчетные данные, приведенные в табл. 7.9, можно рассчитать линейный коэффициент корреляции. С этой целью воспользуемся известной нам формулой:

где ах и оу — соответствующие среднеквадратические отклонения по х и по у.

Для проведения необходимых промежуточных расчетов еще раз обратимся к табл. 7.9 и проведем следующие вычисления:

Определим средние квадратические отклонения:

Отсюда

Величина г — 0,88 в соответствии с интерпретациями, сформулированными в табл. 7.5, свидетельствует о наличии сильной корреляционной связи между стажем работы и производительностью труда.

Определив меру тесноты связи между изучаемыми переменными величинами, перейдем к графическому построению и анализу зависимости производительности труда от стажа работы.

Воспользуемся уравнением (7.14) и вычислим теоретические

усредненные данные ух (производительности труда), соответствующие конкретным значениям х (стажа работы).

Изобразим на графике (рис. 7.12) эмпирические данные, полученные в результате статистического наблюдения, и теоретическую линию регрессии.

Эмпирическая и теоретическая линии регрессии

Рис. 7.12. Эмпирическая и теоретическая линии регрессии

Графически эмпирическая линия регрессии, как правило, представляет собой ломаную линию, которая не всегда позволяет сделать правильное предположение о форме зависимости между переменными величинами. Это объясняется тем, что на результат исследования влияет не только факторный признак, но и разнообразные побочные, случайные явления.

Для установления оптимальной формы зависимости между переменными величинами необходимо анализировать смысловые, содержательные понятия и на их основе находить наиболее подходящую функцию в виде соответствующего уравнения регрессии. Очевидно, что принятая нами линейная форма зависимости носит условный характер и справедлива лишь на определенном временном отрезке. В противном случае самая высокая производительность труда будет у лиц пожилого возраста. Для данного примера целесообразно предположить наличие криволинейной зависимости (например, параболической). Тогда на основании фактических данных мы сможем определить усредненные показатели (для разных профессий), при каком стаже может быть достигнут наибольший уровень производительности труда.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >