Множественная регрессия с фиктивными переменными.

Рассмотрим еще один пример множественной регрессии и корреляции — с введением фиктивных переменных.

Фиктивные переменные вводятся в случае, если показатель, влияющий на функцию отклика, нельзя измерить количественно. Рассмотрим их применение на следующем примере.

ПРИМЕР 3.5.3. Строительная организация продает облицовочную плитку в трех городах: Воронеже, Липецке и Курске. Маркетинговая служба хочет определить влияние отчислений на рекламу Y (тыс. р.) на количество проданной продукции X (млн шт.). При этом предполагается, что зависимость фактора

X на функцию Y линейная и степень влияния факторов друг на друга (коэффициент а уравнения регрессии) во всех городах примерно одинаков, но различный спрос на продукцию (свободный член уравнения). Организация желает включить в регрессионную модель такой фактор, как «город». Имеются следующие статистические данные (табл. 3.5.4-3.5.6).

г. Воронеж

Таблица 3.5.4

X

25

14

19

27

33

31

12

16

28

Y

37

24

25

39

42

43

22

27

27

г. Липецк

Таблица 3.5.5

X

13

18

19

24

21

17

31

29

16

27

22

21

Y

30

33

33

41

35

31

45

45

30

40

33

32

г. Курск

Таблица 3.5.6

X

16

15

11

19

27

31

29

22

19

26

Y

22

20

18

25

28

35

32

27

26

31

РЕШЕНИЕ. Введем фиктивные переменные

(1, г. Воронеж ', (1, г. Липецк ;

Z1 (0, не г.Воронеж, Z1 (0, не г.Липецк .

В результате получаем регрессионную функцию трех переменных у =ах+bxzx+b2z2+b, а результаты наблюдений можно записать в виде табл. 3.5.7.

Таблица 3.5.7

Y

37

24

25

39

42

43

22

27

27

30

33

33

41

35

31

45

X

25

14

19

27

33

31

12

16

28

13

18

19

24

21

17

31

Zi

1

1

1

1

1

1

1

1

1

0

0

0

0

0

0

0

z2

0

0

0

0

0

0

0

0

0

1

1

1

1

1

1

1

Y

45

30

40

33

32

22

20

18

25

28

35

32

27

26

31

Y

X

29

16

27

22

21

16

15

11

19

27

31

29

22

19

26

X

Zi

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

Zi

z2

1

1

1

1

1

0

0

0

0

0

0

0

0

0

0

z2

Вводим эти данные в электронную таблицу. В А1-А4 вводим подписи “Y”, “X”, “Zl”, “Z2”. В ячейки B1-AF4 вводим данные из табл. 3.5.7. Данные вводятся в 4 строки и 31 столбец, не считая заголовки. Посмотрим, имеются ли мультиколлинеарные факторы. Для этого находим матрицу коэффициентов интеркорреляции. Вызываем меню «Сервис (Данные)/Анализ данных» и выбираем пункт «Корреляция». В появившемся окне в поле «Входной интервал» задаем ссылку на данные — факторы: A2-AF4. Указываем группирование «По строкам». Ставим флажок в «Метки в первом столбце» (так как в ссылках на таблицу указаны подписи строк). В области «Параметры вывода» ставим флажок напротив «Выходной интервал» и напротив в поле даем ссылку на какую-либо ячейку, откуда будет осуществляться вывод данных, например А7 и нажимаем «ОК». Ставим курсор в С8 и делаем ссылку «=В9», в D8 — ссылку «=В10», в D9 — ссылку «=С10». Ставим курсор в ячейку G7, вводим заголовок «Яп =« и в Н7 ставим курсор и задаем функцию «МОПРЕД» с аргументом «Массив» — ссылкой на B8:D10. Результат — 0,7352005, близок к единице, что говорит о достаточно слабой зависимости факторов между собой. Все факторы оставляем в регрессионной модели, вычисляем параметры регрессии. Ставим курсор в А12 и даем заголовок «Параметры регрессии», а затем переводим курсор в А13 и вызываем функцию «ЛИНЕЙН», аргументы которой: «Изв знач у»

— B1:AF1, «Изв знач х» — B2:AF4, «Константа» = 1, «Стат» = 1. Далее обводим 5 строк и 4 столбца A13-D17 и нажимаем F2 и Ctrl+Shift+Enter. В первой строке — коэффициенты регрессионного уравнения, следовательно, уравнение регрессии есть у=0,897х +4,231z , +9,267z 2+7,108 . Вторая строка — стандартные ошибки коэффициентов. Все они меньше самих коэффициентов, это значит, что коэффициенты значимы.

Проверим модель на адекватность. Видно, что F-критерий регрессионной модели равен 63,703. Вычислим критическое значение статистики. Вводим в ячейку G13 подпись «F-критическое», а в Н13 вводим функцию ЕРАСПОБР, имеющую аргументы: «Вероятность» — 0,05 (произвольно примем по умолчанию), «Степени свободы !» — 3 (число независимых переменных равно трем

— X, Z j и Z 3). Аргументом «Степени_свободы_2» служит число, показанное в ячейке В16 (в данном примере — 27). Видно, что F-статистика больше ее критического значения, поэтому модель адекватна. Построим уравнение регрессии для каждого города в отдельности. Вводим в G15 подпись «Воронеж», в Н15 — подпись «а=«, в 115 — формулу «=С13» , в Н16 — «Ь=«, в 116 — «=D13+B13». Уравнение для Воронежа есть у = 0,897х +11,339. Аналогично рассчитываем для Липецка. Вводим в G17 подпись «Липецк», в Н17 подпись «а=«, в 117 — формулу «=С13» , в Н18 — «Ь=«, в 118 — «=D13+A13». Результат у =0,897х +16,374 . Для Курска вводим в G19 подпись «Курск», в Н19 — подпись «а=«, в 119 — формулу «=С13» , в Н20 — «Ь=«, в 120 — «=D13». Ре зультат у = 0,897х +7,108. Теперь при прогнозировании и анализе можно учитывать, в каком городе мы продаем плитку.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >