Применение множественной регрессии с одной зависимой и двумя или более независимыми переменными

В настоящем разделе описано влияние эффекта увеличения числа независимых переменных на объяснение или учет для результатов тестов по математике. Рассматриваются три независимые переменные:

  • Books - количество книг в доме учащегося, дискретная переменная;
  • Distance - расстояние (км) от дома учащегося до школы, непрерывная переменная;
  • Patented [6] - наиболее высокий уровень образования родителей, дискретная переменная с шестью значениями: 1 - отсутствие официального образования; 2 - 1-3 класса образования; 3 - 4-6 классов образования; 4 - 7-9 классов образования; 5 - полное среднее образование; и 6 - высшее образование.

Взаимная корреляция между независимыми переменными должна быть тщательно исследована перед проведением регрессионного анализа. Особый интерес представляет jHyAbmuKOMiuHeapHocmb, возникающая, когда две или более независимые переменные высоко коррелированы. Когда это происходит, стандартные ошибки регрессии увеличиваются, что затрудняет оценивание однозначной роли каждой независимой переменной в объяснении результатов4. В упражнении 6.5 показано, как можно рассчитать коэффициенты корреляции в WesVar.

УПРАЖНЕНИЕ 6.5

Оценка коэффициентов корреляции

  • 1. Запустите WesVar и откройте рабочую тетрадь, используемую в упражнении 6.4, АНАЛИЗ ДАННЫХ NAEAMOH ФАЙЛЫ WESVARPAEO4AR ТЕТРАДЬ ГЛАВЫ 6.
  • 2. Выберите Упражнения главы 6 (левая панель) и нажмите Descriptive Stats (правая панель). Выберите Descriptive Request Two в левой панели и введите Упражнение 6.5 в пустой строке в правой панели.
  • (см. продолжение)
  • 3. Выберите Options - Output Control и установите три знака после запятой для Estimates и Std. Error.
  • 4. Выберите Correlations (левая панель). Выберите List 1 (правая панель). Переместите три переменные, Books, Distance и Parented в List 1.
  • 5. Проведите корреляции (нажмите иконку Green Arrow на панели инструментов). Откройте выходной файл (нажмите иконку Open Book на панели инструментов). Выберите и разверните Упражнение 6.5 в левой панели. Выберите Correlations - Overall.

Полученные в результате данные в колонке Взвешенные (Weighted -далее в латинской графике) (рис. к упражнению 6.5.А) показывают на отсутствие признаков мультиколлинеарности, поскольку ни одна из корреляций не достигает 0,80 (см. Hutcheson and Sofroniou 1999).

Отрицательная корреляция между переменными Books и Distance (-0,077) указывает на то, что с увеличением расстояния между домом и школой число книг в доме учащегося уменьшается. Корреляция между переменными Books и Parented (которые рассматриваются здесь как непрерывные переменные) составляет 0,331. Это указывает на то, что более высокий уровень образования родителей связан с большим числом книг в доме.

РИС. К УПРАЖНЕНИЮ 6.5.А. Результаты корреляции между независимыми переменными

6. Сохраните полученный результат в форме текстового файла в папке МОИ РЕШЕНИЯ через File - Export - Single File - One Selection. Используйте имя файла УПРАЖНЕНИЕ 6.5 КОРРЕЛЯЦИИ. Закройте вашу рабочую тетрадь WesVar с использованием функций File - Save и File - Close.

Поскольку данные переменные не слишком высоко коррелирова-ны между собой, вы теперь можете провести регрессионный анализ с одной зависимой переменной (Mathss) и тремя независимыми переменными (Books, Distance, Parented [6]) (упражнение 6.6).

Если говорить кратко, данные показывают, что модель с тремя независимыми переменными (Books, Distance, Parented [6]) объясняет 24 % дисперсии в достижениях по математике. Такая модель предполагает положительную связь между числом книг в доме учащегося и результатами по математике даже после учета двух других переменных. Она также предполагает, что уровень образования родителей связан с результатами учащегося по математике. Учащиеся, чьи родители имеют более высокий уровень образования, обычно получают более высокие баллы по сравнению с учащимися, родители которых имеют более низкий уровень образования, с учетом двух других факторов (числа книг и расстояния). Наконец, модель указывает на отрицательную связь между расстоянием от школы и достижениями по математике с учетом числа книг и образования родителей: учащиеся, проживающие вдали от школы, обычно получают более низкие результаты, чем те, что живут рядом со школой.

УПРАЖНЕНИЕ 6.6

Проведение регрессионного анализа в WesVar более чем с одной независимой переменной

  • 1. Откройте рабочую тетрадь WesVar РАБОЧАЯ ТЕТРАДЬ ГЛАВЫ 6, которую вы сохранили в папке МОИ ФАЙЛЫ WESVAR (в последний раз она использовалась в упражнении 6.5).
  • 2. Выберите Упражнения главы 6 (левая панель) и нажмите Regression (правая панель). Выберите Regression Request Three (левая панель). Введите Упражнение 6.6 (правая панель).
  • 3. В разделе Options - Output Control установите три знака после запятой для Estimates и Std. Error. Нажмите Models (левая панель).
  • 4. Перетащите Mathss из списка Source Variables в ячейку Dependent.
  • 5. Перейдите в Source Variables и перетащите переменные Books и Distance в список независимых переменных, так, чтобы в каждой строке была одна переменная. Затем перейдите в ячейку Class Variables и перетащите Parented [6] в строку для третьей независимой переменной[1] .

УПРАЖНЕНИЕ 6.6 (продолжение)

РИС. К УПРАЖНЕНИЮ 6.6.А. Экран WesVar перед проведением регрессионного анализа более чем с одной независимой переменной

О - (WesVar WorkBook - CHAPTER б WORKBOOK.wvb) • —- w»-

О File View Requests Windows Help &|Н|й| 4|4l ?|

7. Просмотрите результат (нажав на иконку Open Book на панели инструментов). Разворачивайте Упражнение 6.6 (левая панель), пока не увидите Sum of Squares. Видно, что новая модель с тремя переменными объясняет 24 % дисперсии в достижениях по математике (R2 = 0,242). Данный результат лучше, чем в предыдущей модели, в которой Books, будучи единственной независимой переменной, объясняли менее 10 % дисперсии в достижениях по математике (см. рис. к упражнению 6.3.В).

РИС. К УПРАЖНЕНИЮ 6.6.В. Выходной файл WesVar для регрессионного

анализа более чем с одной независимой переменной: сумма квадратов

(см. продолжение)

  • 8. Сохраните полученный результат, как представлено на рис. к упражнению 6.6.В, выбрав File - Export - Single File One Selection - Export как МОИ РЕШЕНИЯУПРАЖНЕНИЕ 6.6 СУММА КВАДРАТОВ
  • 9. Выберите Estimated Coefficients в выходном файле (левая панель, разверните при необходимости). Результат дает оценки параметров для переменных Intercept, Books, Distance и пяти из шести уровней Patented. Обратите внимание, что все параметры в модели являются статистически значимыми; значение Prob> |Т|) равно или близко к нулю. Это указывает на очень низкую вероятность того, что любые из приведенных параметров равны нулю.
  • 10. Оценка параметра Intercept равна 278,909. Это соответствует ожидаемому баллу учащегося, у которого дома нет Books, который живет на нулевом Distance от школы (ноль километров) и у которого хотя бы один родитель имеет образование самого высокого уровня (Patented.6, референтная категория Patented [6]). Оценка параметра Books составляет 0,309. Это увеличение уровня достижений, связанное с одной дополнительной книгой в доме. Таким образом, учащийся со средним числом книг в доме (48,191), который живет на расстоянии менее одного километра от школы и у которого хотя бы один родитель имеет высшее образование, получил бы расчетный балл 278,909 + (0,309 * 48,191) + (-5,620 * 0), или 293,800. (Обратите внимание, что Patented [6] имеет нулевой весовой коэффициент в данном расчете, поскольку является референтной категорией.)
  • 11. Оценка параметра Distance составляет -5,620. Знак «минус» означает, что ожидаемые баллы учащихся по математике снижаются с увеличением расстояния от школы до дома. Среднее расстояние от школы составляет 4,257 кмь. Таким образом, ожидаемый балл по математике у учащегося, который живет в 4,257 км от школы, у которого дома нет книг и хотя бы один из родителей попадает в референтную категорию Patented [6], составляет 278,909 + (-5,620 * 4,257) + (0,309 * 0), или 254,985.
  • 12. Оценки параметров приведены для пяти уровней Patented [6]. Как уже отмечалось ранее, Patented.6 (хотя бы у одного из родителей есть высшее образование), референтная категория, представляет собой самый высокий из рассматриваемых уровней образования родителей. Отрицательные оценки параметров связаны с более низкими уровнями образования родителей. Например, оценка параметра Patented.2 (1-3 класса образования) составляет -30,156 (см. рис. к упражнению 6.6.С). Таким образом, ожидаемый балл учащегося, у которого дома нет книг, который живет рядом или неподалеку от школы и у которого хотя бы один родитель имеет три класса образования (Patented.2), составляет 278,909 - 30,156, или 248,753.

УПРАЖНЕНИЕ 6.6 (продолжение)

РИС. К УПРАЖНЕНИЮ 6.6.С. Выходной файл WesVar для регрессионного анализа более чем с одной независимой переменной: расчетные коэффициенты

  • 13. Аналогичным образом вы можете получить ожидаемые баллы для учащихся с разным количеством книг дома, живущих на разном расстоянии от школы и имеющих родителей с различными уровнями образования. Ожидаемый балл для учащегося, у которого дома есть 50 книг, который живет на расстоянии 5 км от школы и у родителей которого самый высокий уровень образования 7-9 классов (Parented.4), будет равен 278,909 + (0,309 * 50) + (-5,620 * 5) + (-15,615), или 250,644.
  • 14. Сохраните полученный результат в папке МОИ РЕШЕНИЯ через File -Export - Single File - One Selection. Используйте имя файла УПРАЖНЕНИЕ 6.6 ESTIMATES.TXT.
  • 15. Выберите Tests в выходном файле. Здесь вы можете увидеть (первая строка на рис. к упражнению 6.6.D), что общее соответствие модели регрессии является статистически значимой с практически нулевой вероятностью (0,000) получения F-значения = 134,636. Это означает, что хотя бы одна из переменных - Books, Distance или Parented [6] - является статистически значимой. P-значения для переменных Books, Distance и Parented [6] показывают, что для каждой из них коэффициент регрессии существенно отличается от нуля после контроля других переменных. Например, переменная Distance статистически значима даже после учета последствий переменных Books и Parented [6].
  • 16. Сохранить полученный результат в форме текстового файла в МОИ РЕШЕНИЯ через File - Export - Single File - One Selection. Используйте имя файла ТЕСТЫ УПРАЖНЕНИЯ 6.6. TXT.
  • 17. Вернитесь в вашу рабочую тетрадь (нажав на иконку Open Door на панели инструментов). Выберите File - Save и затем File - Close. Ваша рабочая тетрадь должна сохраниться в папке АНАЛИЗ ДАННЫХ NAEAMOH ФАЙЛЫ А/Е5УАР1РАБОЧАЯ ТЕТРАДЬ ГЛАВЫ 6.

РИС. К УПРАЖНЕНИЮ 6.6.D. Выходной файл WesVar для регрессионного анализа более чем с одной независимой переменной: проверка соответствия модели данным

a. Обратите внимание, что Parented также включена в список Source Variables. Но

в данном случае вы должны выбрать Parented [6] из списка Class Variables, поскольку она рассматривается как дискретная переменная в регрессии.

b. Для расчета выберите Descriptives в WesVar и переместите Distance из списка Source Variables в список Selected в порядке, описанном в упражнении 3.1.

  • [1] 2 Add as New Entry (правая панель) (рис. к упражнению 6.6.А). Проведите рег 3 рессионный анализ (нажмите иконку Green Arrow на панели инструментов).
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >