Множественная регрессия с фиктивными переменными.
Рассмотрим еще один пример множественной регрессии и корреляции — с введением фиктивных переменных.
Фиктивные переменные вводятся в случае, если показатель, влияющий на функцию отклика, нельзя измерить количественно. Рассмотрим их применение на следующем примере.
ПРИМЕР 3.5.3. Строительная организация продает облицовочную плитку в трех городах: Воронеже, Липецке и Курске. Маркетинговая служба хочет определить влияние отчислений на рекламу Y (тыс. р.) на количество проданной продукции X (млн шт.). При этом предполагается, что зависимость фактора
X на функцию Y линейная и степень влияния факторов друг на друга (коэффициент а уравнения регрессии) во всех городах примерно одинаков, но различный спрос на продукцию (свободный член уравнения). Организация желает включить в регрессионную модель такой фактор, как «город». Имеются следующие статистические данные (табл. 3.5.4-3.5.6).
г. Воронеж
Таблица 3.5.4
X |
25 |
14 |
19 |
27 |
33 |
31 |
12 |
16 |
28 |
Y |
37 |
24 |
25 |
39 |
42 |
43 |
22 |
27 |
27 |
г. Липецк
Таблица 3.5.5
X |
13 |
18 |
19 |
24 |
21 |
17 |
31 |
29 |
16 |
27 |
22 |
21 |
Y |
30 |
33 |
33 |
41 |
35 |
31 |
45 |
45 |
30 |
40 |
33 |
32 |
г. Курск
Таблица 3.5.6
X |
16 |
15 |
11 |
19 |
27 |
31 |
29 |
22 |
19 |
26 |
Y |
22 |
20 |
18 |
25 |
28 |
35 |
32 |
27 |
26 |
31 |
РЕШЕНИЕ. Введем фиктивные переменные
(1, г. Воронеж ', (1, г. Липецк ;
Z1 (0, не г.Воронеж, Z1 (0, не г.Липецк .
В результате получаем регрессионную функцию трех переменных у =ах+bxzx+b2z2+b, а результаты наблюдений можно записать в виде табл. 3.5.7.
Таблица 3.5.7
Y |
37 |
24 |
25 |
39 |
42 |
43 |
22 |
27 |
27 |
30 |
33 |
33 |
41 |
35 |
31 |
45 |
X |
25 |
14 |
19 |
27 |
33 |
31 |
12 |
16 |
28 |
13 |
18 |
19 |
24 |
21 |
17 |
31 |
Zi |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
z2 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
Y |
45 |
30 |
40 |
33 |
32 |
22 |
20 |
18 |
25 |
28 |
35 |
32 |
27 |
26 |
31 |
Y |
X |
29 |
16 |
27 |
22 |
21 |
16 |
15 |
11 |
19 |
27 |
31 |
29 |
22 |
19 |
26 |
X |
Zi |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
Zi |
z2 |
1 |
1 |
1 |
1 |
1 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
z2 |
Вводим эти данные в электронную таблицу. В А1-А4 вводим подписи “Y”, “X”, “Zl”, “Z2”. В ячейки B1-AF4 вводим данные из табл. 3.5.7. Данные вводятся в 4 строки и 31 столбец, не считая заголовки. Посмотрим, имеются ли мультиколлинеарные факторы. Для этого находим матрицу коэффициентов интеркорреляции. Вызываем меню «Сервис (Данные)/Анализ данных» и выбираем пункт «Корреляция». В появившемся окне в поле «Входной интервал» задаем ссылку на данные — факторы: A2-AF4. Указываем группирование «По строкам». Ставим флажок в «Метки в первом столбце» (так как в ссылках на таблицу указаны подписи строк). В области «Параметры вывода» ставим флажок напротив «Выходной интервал» и напротив в поле даем ссылку на какую-либо ячейку, откуда будет осуществляться вывод данных, например А7 и нажимаем «ОК». Ставим курсор в С8 и делаем ссылку «=В9», в D8 — ссылку «=В10», в D9 — ссылку «=С10». Ставим курсор в ячейку G7, вводим заголовок «Яп =« и в Н7 ставим курсор и задаем функцию «МОПРЕД» с аргументом «Массив» — ссылкой на B8:D10. Результат — 0,7352005, близок к единице, что говорит о достаточно слабой зависимости факторов между собой. Все факторы оставляем в регрессионной модели, вычисляем параметры регрессии. Ставим курсор в А12 и даем заголовок «Параметры регрессии», а затем переводим курсор в А13 и вызываем функцию «ЛИНЕЙН», аргументы которой: «Изв знач у»
— B1:AF1, «Изв знач х» — B2:AF4, «Константа» = 1, «Стат» = 1. Далее обводим 5 строк и 4 столбца A13-D17 и нажимаем F2 и Ctrl+Shift+Enter. В первой строке — коэффициенты регрессионного уравнения, следовательно, уравнение регрессии есть у=0,897х +4,231z , +9,267z 2+7,108 . Вторая строка — стандартные ошибки коэффициентов. Все они меньше самих коэффициентов, это значит, что коэффициенты значимы.
Проверим модель на адекватность. Видно, что F-критерий регрессионной модели равен 63,703. Вычислим критическое значение статистики. Вводим в ячейку G13 подпись «F-критическое», а в Н13 вводим функцию ЕРАСПОБР, имеющую аргументы: «Вероятность» — 0,05 (произвольно примем по умолчанию), «Степени свободы !» — 3 (число независимых переменных равно трем
— X, Z j и Z 3). Аргументом «Степени_свободы_2» служит число, показанное в ячейке В16 (в данном примере — 27). Видно, что F-статистика больше ее критического значения, поэтому модель адекватна. Построим уравнение регрессии для каждого города в отдельности. Вводим в G15 подпись «Воронеж», в Н15 — подпись «а=«, в 115 — формулу «=С13» , в Н16 — «Ь=«, в 116 — «=D13+B13». Уравнение для Воронежа есть у = 0,897х +11,339. Аналогично рассчитываем для Липецка. Вводим в G17 подпись «Липецк», в Н17 подпись «а=«, в 117 — формулу «=С13» , в Н18 — «Ь=«, в 118 — «=D13+A13». Результат у =0,897х +16,374 . Для Курска вводим в G19 подпись «Курск», в Н19 — подпись «а=«, в 119 — формулу «=С13» , в Н20 — «Ь=«, в 120 — «=D13». Ре зультат у = 0,897х +7,108. Теперь при прогнозировании и анализе можно учитывать, в каком городе мы продаем плитку.