Регрессия с одной зависимой переменной и одной независимой переменной

В нижеследующих разделах приведены примеры проведения анализа с использованием регрессии в WesVar и интерпретации результатов. Пакет WesVar используется, поскольку он учитывает сложную природу выборки в национальной оценке (см. гл. 3) при оценивании уровней значимости (например, различий, возникающих в результате кластеризации учащихся в школах и классах).

Первый пример включает простейший тип регрессии. Он рассматривает связь между одной зависимой переменной, достижениями по математике (Mathss), которая варьируется от 88 до 400, и одной независимой переменной, числом книг, прочитанных дома (Books), которая варьируется от полного отсутствия книг (0) до 120.

Программа линейной регрессии в WesVar попросит вас выбрать независимые переменные из двух списков: Переменные класса (Class Variables - далее в латинской графике) и Source Variables. Class Variables включают дискретные переменные, которые имеют не более 255 категорий ответов (включительно), за исключением пропущенных значений (характеристика WesVar). Source Variables являются непрерывными переменными. Некоторые переменные включены в оба списка, например Books. Однако в настоящем примере мы рассматриваем Books в качестве Source Variable (см. пример в упражнении 6.3).

Регрессию можно использовать и с дискретными, и с непрерывными переменными. В примере в упражнении 6.4 независимой переменной является Region. Вспомним, что в гл. 4 было установлено, что учащиеся в Городской агломерации показали гораздо более высокие результаты, чем учащиеся в трех других регионах в Сенце (упражнение 4.2). Обратите внимание, что когда дискретная переменная, например Region, выбрана в качестве независимой переменной в регрессионном анализе, серия переменных должна быть создана для указания региона, в котором находится школа учащегося.

Проведение регрессионного анализа в WesVar с одной независимой переменной(непрерывной)

  • 1. Запустите WesVar и откройте рабочую тетрадь, используемую в упражнении
  • 6.2, АНАЛИЗ ДАННЫХ ЫАЕАМОИ ФАЙЛЫ WESVARPABO4AH ТЕТРАДЬ ГЛАВЫ 6
  • 2. Выберите Упражнения главы 6 в левой панели и нажмите Регрессия (Regression - далее в латинской графике) в правой панели. Выберите Regression Request One (левая панель). Введите Упражнение 6.3 (правая панель).
  • 3. Выберите Options в левой панели и убедитесь, что опция Линейная (Linear - далее в латинской графике) отмечена галочкой. В Options выберите Сгенерированные статистические показатели (Generated Statistics -далее в латинской графике) - Доверительный интервал (Confidence Interval - далее в латинской графике). В опции Output Control установите три знака после запятой для Estimates и Std. Error.
  • 4. Выберите Модели (Models - далее в латинской графике) в левой панели. Перетащите Mathss из Source Variables в Зависимые (Dependent - далее в латинской графике). Это и будет зависимая переменная для вашего регрессионного анализа. (Если вы видите только одну или две переменные в ячейках правой панели, переместите ваш курсор на нижнюю границу

и потяните вниз, чтобы увидеть больше переменных.)

  • 5. Перейдите в Source Variables и переместите Books в первую пустую строку, обозначенную Независимые (Independent - далее в латинской графике). Убедитесь, что ячейка Пересечение (Intercept - далее в латинской графике) отмечена галочкой. Нажмите Add as New Entry (рис. к упражнению 6.3.А).
  • 6. Проведите регрессионный анализ (нажмите иконку Green Arrow на панели инструментов) и откройте выходной файл (нажав на иконку Open Book на панели инструментов). Разверните Упражнение 6.3, Models и Mathss = Books. Нажмите Сумма квадратов (Sum of Squares - далее в латинской графике) (рис. к упражнению 6.3.В). Значение R-квадрат (R_Square Value) составляет 0,099. Это указывает на то, что Books объяснили почти 10 % дисперсии в результатах тестов достижений по математике. Значение R-квадрат получено путем деления объясненной суммы квадратов модели на общую сумму квадратов.
  • 7. Сохраните полученный результат в форме текстового файла в МОИ РЕШЕНИЯ через File - Export - Single File - One Selection. Используйте имя файла СУММА КВАДРАТОВ УПРАЖНЕНИЯ 6.3.

УПРАЖНЕНИЕ 6.3 (продолжение)

РИС. К УПРАЖНЕНИЮ 6.3.А. Рабочая тетрадь WesVar до проведения регрессионного анализа с одной независимой переменной

К УПРАЖНЕНИЮ 6.3.В. Выходной файл WesVar для регрессионного анализа с одной независимой переменной

РИС. К УПРАЖНЕНИЮ 6.3.В. Выходной файл WesVar для регрессионного анализа с одной независимой переменной: сумма квадратов и значение Н-квадрат

  • 8. Выберите Расчетные коэффициенты (Estimated Coefficients - далее в латинской графике) в выходном файле (рис. к упражнению 6.3.С). Так показана оценка параметров или ожидаемое изменение результата, связанное с количеством книг в доме учащегося. Примените ранее описанную
  • (см. продолжение)

формулу, у= а + ЬХ, для расчета отношения или связи между количеством книг и достижениями по математике. Не используйте е в данных расчетах3. Обратите внимание, что X представляет число книг, а b - наклон линии регрессии. Величина приближенной оценки для книг (0,515) указывает на то, что увеличение числа книг на одну приводит к увеличению на 0,515 балла в результатах по математике. Ожидаемый балл по математике у учащегося, у которого дома нет книг, является величиной точки пересеченияь 225, 196 или 225 (по формуле 196 + 0 * 0,515). Ожидаемый балл по математике у учащегося, у которого дома есть 10 книг, составляет 230,346 (225,196 + 10 * 0,515). Соответственно, наличие 10 книг дома связано с увеличением в достижениях по математике на пять баллов. Среднее арифметическое для количества Books составляет 48,2е. Соответственно, ожидаемый балл по математике у учащегося со средним количеством книг дома составляет 225,196 + 0,515 * 48,2, или 250,019, что очень близко к общему среднему баллу по математике 250,0.

На рисунке к упражнению 6.3.С приведены t-величины, рассчитанные путем деления каждой оценки на ее стандартную ошибку. Эта t-величина является мерой статистической значимости и проверки вероятности того, что фактическое значение параметра отлично от нуля. Для переменной Books t-величина равна 11,449, а значение вероятности (р) (Prob> | Т |) равно или близко к нулю (0,000). Это указывает на незначительную вероятность того, что фактическое значение параметра Books будет нулевым. 95-процентный доверительный интервал вокруг параметра оценивается приблизительно прибавлением к параметру его стандартной ошибки, умноженной на два, и вычитанием его стандартной ошибки, умноженной на два. Таким образом, после округления 95-процентный доверительный интервал для параметра Books составляет 0,425-0,605 (0,515 ± 2 * 0,045). Можно с 95-процентной вероятностью сказать, что оценка значения параметра Books в генеральной совокупности будет между 0,425 и 0,59. (Эти значения практически идентичны значениям, представленным на рис. к упражнению 6.3.С.)

РИС. К УПРАЖНЕНИЮ 6.3.С. Выходной файл регрессионного анализа в WesVar с одной независимой переменной: оцененные коэффициенты

  • 9. Сохраните полученный результат в папке МОИ РЕШЕНИЯ через File - Export -Single File - One Selection. Используйте имя файла ОЦЕНКИ УПРАЖНЕНИЯ
  • 6.3. TXT.
  • 10. Далее нас интересует соответствие статистической модели данным, которая оценивает величину параметра Mathss на основе данных одной независимой переменной - Books. Выберите Tests (рис. к упражнению 6.3.D). Обратите внимание, что общая согласованность модели регрессии является статистически значимой (первая строка); вероятность получения значения

F1 в 131,080 приближается к нулю (0,000). Это означает, что полученная модель регрессии, содержащая параметр Books, статистически отличается от модели, не включающей данную переменную. В следующей строке на рис. к упражнению 6.3.D представлены идентичные данные. Это подтверждает, что отличие модели, содержащей параметр Books, от модели без независимых переменных (нулевой модели) статистически значимо. С точки зрения политики данный результат означает, что число книг в доме связано с достижениями учащихся по математике.

РИС. К УПРАЖНЕНИЮ 6.3.D. Выходной файл регрессионного анализа в WesVar с одной независимой переменной: тестирование соответствия модели данным

  • 11. Сохраните полученный результат в папке МОИ РЕШЕНИЯ через File -Export - Single File - One Selection. Используйте имя файла ТЕСТЫ УПРАЖНЕНИЯ 6.3. TXT.
  • 12. Вернитесь в вашу рабочую тетрадь (нажав на иконку Open Door на панели инструментов). Выберите File - Save и затем File - Close. Ваша рабочая тетрадь должна сохраниться в АНАЛИЗ ДАННЫХ NAEAMOH ФАЙЛЫ WESVARPABO4AP ТЕТРАДЬ ГЛАВЫ 6.

a. Это происходит потому, что положительная и отрицательная ошибки каждый раз нивелируются.

b. Точка пересечения а оценивает среднее значение у (в данном случае математика) при X (число книг в доме) = 0. Значение a - это точка, где линия регрессии пересекается с осью у.

c. Для расчета выберите Descriptives в WesVar и переместите Books из Source Variables в Selected, как описано в упражнении 3.1.

d. Статистический показатель F, который должен применяться при сравнении более двух переменных, проверяется на значимость различий между средними значениями.

WesVar создает серию констант, записанных в виде переменных, каждая из которых соответствует одному региону с кодом 1 или О в зависимости от того, принадлежит ли данный учащийся к такому региону или нет. Например, когда WesVar создает переменную Northwest, всем учащимся, посещающим школу в таком регионе, присваивается код 1, а учащимся из всех остальных регионов - код 0. Аналогично учащимся школ Городской агломерации он присваивает код 1 по переменной Metro, а учащимся из всех остальных трех регионов - код 0. То же самое применяется к учащимся региона Восточные холмы. Окончательный регион или категория, известная как референтная категория сравнения, которой не присваивается отдельный код, включена в анализ. В примере в упражнении 6.4, где Region является дискретной (классовой) переменной, результаты учащихся в каждом из первых трех регионов (Северо-Запад, Городская агломерация, Восточные холмы) сравниваются с результатами учащихся в четвертом регионе (Юго-Западное побережье).

УПРАЖНЕНИЕ 6.4 I

Проведение регрессионного анализа в WesVar с одной независимой переменной (дискретной)

  • 1. Запустите WesVar и откройте рабочую тетрадь, используемую в упражнении
  • 6.3, АНАЛИЗ ДАННЫХ NAEAMOH ФАЙЛЫ WESVARPAEO4AP ТЕТРАДЬ ГЛАВЫ 6.
  • 2. Выберите Упражнения главы 6 (левая панель) и нажмите Regression (правая панель). Выберите Regression Request Twoa (левая панель). Введите Упражнение 6.4 (правая панель). В разделе Options - Generated Statistics отметьте галочкой Confidence Interval. В разделе Options - Output Control установите три знака после запятой для Estimate и Std. Error.
  • 3. Выберите Models в левой панели.
  • 4. Перетащите Mathss из Source Variables в Dependent в правой панели. Это и есть зависимая переменная для вашего регрессионного анализа.
  • 5. Перейдите к ячейке Class Variables и перетащите Region [4] вниз в строку для первой независимой переменной. Убедитесь, что ячейка Intercept отмечена галочкой. Нажмите Add as New Entry. Переменная Region [4] исчезает из списка Class Variables, поскольку она является дискретной (так как каждый учащийся был отнесен к одному из четырех регионов).
  • 6. Проведите регрессионный анализ (нажмите иконку Green Arrow на панели инструментов) и откройте выходной файл (нажмите иконку Open Book на панели инструментов). Разверните Упражнение 6.4, Models и Mathss = Region [4]. Выберите Sum of Squares в левой панели. Значение R-квадрат равно 0,054. Это указывает на то, что переменная Region [4] учитывала 5 % дисперсии в результатах тестов достижений по математике.
  • 7. Нажмите Estimated Coefficients на левой панели.

Приведены оценки для трех из четырех регионов (см. рис. к упражнению

6.4.А). Оценка параметра для референтного региона равна точке пересечения (251,248). Это соответствует среднему значению для Юго-Западного побережья в упражнении 4.2. Оценка параметра для переменной Region. 1 (Северо-Запад) составляет -17,898 (то есть на 17,898 баллов меньше, чем в референтной категории). Соответственно, ожидаемый балл учащегося со средними результатами на Северо-Западе составляет 233,350 (251,248 -17,898). Это соответствует приближенному среднему баллу для Северо-Запада в упражнении 4.2. Приближенный балл учащегося со средними результатами в Городской агломерации (Region.2) составляет 265,735 (то есть на 14,487 баллов больше, чем у учащегося в референтном регионе). Наконец, расчетный балл учащегося со средними результатами в регионе Восточные холмы (Region.3) составляет 249,108, что на 2,140 балла ниже, чем в референтном регионе. Незначимая t-величина, связанная с оценкой параметра для региона Восточные холмы (Prob |Т | = 0,667), указывает на то, что -2,14 не отличается существенно от нуля и, следовательно, результат среднего учащегося в данном регионе не отличается статистически значимо от результата среднего учащегося в референтном регионе (Юго-Западное побережье).

РИС. К УПРАЖНЕНИЮ 6.4.А. Выходной файл WesVar для регрессионного

анализа: дискретная независимая переменная

о WesVar Output File for Chapter 6 Exercises

File View Help

JLfi] Ч|Ч| frM A| J0 <1 fr|

g----Chat*# SEmnckm

ЕВ— Exercise 62

Й— E*erase 63

Э— ExeiciceE 4

&— Moddt

EST MATED FULL SAMPLE REGRESSION COEFFICIE

PARAMETER

STANDARD ERROF

TEST FOR Hft

PARAMETER

ESTIMATE

OF ESTIMATE

PARAMETERS

PROB>|T|

LOWER 95?.

UPPER 96*

ЛПЕЛСЕРТ

251.248

3.344

75.080

0.000

244.SS4

257.941

Й MATHS5 • HEGI0N[4J ? - SumolSoueres

Corrcidiion Mairec

REGION.1

-17.B9B

4.323

-3.937

0.000

-Z5.945

-B.B51

REGION.2

14.4B7

5.697

2.457

0.017

2.690

26.2S3

REGION.3

-2.140

4.953

-0.432

0.667

-12.047

7.766

I---ITesis

8. Сохраните полученный результат в форме текстового файла в МОИ РЕШЕНИЯ через File - Export - Single File - One Selection. Используйте имя файла УПРАЖНЕНИЕ 6.4 ESTIMATES. TXT.

а. Данное число может меняться. Например, если вы уже проводили регрессионный анализ ранее и удалили его, данное число будет больше.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >