Криволинейная корреляция и регрессия

Если связь между изучаемыми явлениями существенно отклоняется от линейной, что легко установить по виду корреляционной решётки или по точечному графику, то коэффициент корреляции непригоден в качестве меры связи. Он может указать на отсутствие сопряжённости там, где налицо сильная криволинейная зависимость. Поэтому необходим такой показатель, который измерял бы степень криволинейной зависимости. Таким показателем является корреляционное отношение ц(эта). Оно измеряет степень корреляции при любой её форме [4,7,14].

Корреляционное отношение изменяется в интервале [0; +1] и интерпретируется как доля дисперсии зависимой переменной у, объясненная различиями в значениях независимой переменной х.

Корреляционное отношение при малом числе наблюдений вычисляют по формуле

= /S(y-y)2-E(y-yg (251) Лху л| Е(У-У)2 ’ 1 j

где ?(У у)2сумма квадратов отклонений индивидуальных значений у от общей средней арифметической у;

?(у — у^)2- сумма квадратов отклонений вариант от частных средниху*, соответствующих определённым, фиксированным значениям независимой переменной х.

Для вычисления корреляционного отношения значения независимого признака х располагают по ранжиру в возрастающем порядке и разбивают весь ряд наблюдений на 4-7 групп с таким расчетом, чтобы в каждой группе по ряду х было не менее двух наблюдений. Затем определяют общую среднюю у, групповые средниеу^, соответствующие каждой фиксированной группе х, и суммы квадратов отклонений для общего?(у — у)2и группово-го?(у ~ у^)2варьирования признака у.

При функциональной зависимости у от х корреляционное отношение равно единице; если оно равно нулю, то показывает некоррелированность у от х; при промежуточном характере корреляционной зависимости корреляционное отношение заключено в пределах

  • 0<т]ух<1.
  • (2.5.2)

Чем ближе т]ух к единице, тем сильнее, ближе функциональная зависимость у от х, и, наоборот, чем ближе Т]ух к нулю, тем слабее выражена эта зависимость.

Отношение сумм квадратов группового варьирования к общему, т.е. т]ух2 имеет самостоятельное значение. Оно показывает ту долю варьирования признака у, которая обусловлена степенью колебания признака х. Эта величина, называемая индексом детерминации, определяет процент вариации у под влиянием х.

Ошибку и критерий существенности корреляционного отношения рассчитывают по формулам:

<2-5-3)

t„ = (2.5.4)

Теоретическое значение критерия t для 5%-ного или 1%-ного уровня значимости находят по таблице (приложение Е)для определенного числа степеней свободы. Число степеней свободы равно числу обрабатываемых результатов измерений, уменьшенному на число связывающих их линейных соотношений, т.е. оно зависит только от числа измерений, но и от вида эмпирического стандарта применяемого для оценки

= п — 2 (2.5.5)

При обработке экспериментального материала методом дис-2

персионного анализа значение Т]ух определяется как отношение суммы квадратов отклонений для вариантов Cv к общей сумме квадратов CY

Чух2 = (2.5.6)

откуда

= Д (2.5.7)

Криволинейные зависимости между двумя переменными могут быть выражены в виде кривых линий регрессии и соответствующих им математических уравнений.

Криволинейная регрессия — это такая зависимость, когда при одинаковых приращениях независимой переменной х зависимая переменная у имеет неодинаковые приращения. Эмпирические точки корреляционного поля при криволинейной корреляции располагаются около кривых различного типа - парабол, гипербол, логарифмических кривых и т.п.

Статистические характеристики выборочной совокупности являются приближёнными оценками неизвестных параметров генеральной совокупности. Оценка может быть представлена одним числом, точкой (точечная оценка) или некоторым интервалом (интервальная оценка), в котором с определённой вероятностью может находиться параметр.

Интервальной называют оценку, которая характеризуется двумя числами - концами интервала, покрывающего оцениваемый параметр. Доверительным называют такой интервал, который с заданной вероятностью покрывает оцениваемый параметр. Центр такого интервала - выборочная оценка точки, а пределы или доверительные границы, интервала определяются средней ошибкой оценки и уровнем вероятности [6].

В общем виде доверительный интервал для корреляционного отношения записывается

т] - t0>5S <т]<т] + t0,5S (2.5.8)

или в более компактной форме

г] ± tO sS (2.5.9)

Пример. В таблице показана урожайность зелёных бобов гороха у в зависимости от нор высева х. Определить корреляционное отношение rjyx и построить линию регрессии при малой выборке п=10. Показать уравнение по значениям которой построена теоретическая линия регрессии.

Таблица 2.5.1

Влияние норм посева X на урожай зеленых бобов

х, ц/га

у, ц/га

1

0,8

44

2

1,0

56

3

1,2

62

4

1,4

74

5

1,6

88

6

1,8

94

7

2,0

91

8

2,2

79

9

2,4

69

10

2,6

53

Ход работы

Данные занесите в таблицу Microsoft Excel. Значения независимой переменной х располагают последовательно от меньшей величины к большей. А весь ряд значений разбивается на 4-7 групп, чтобы в каждой группе независимого признака х было не менее двух наблюдений. При этом интервалы групп могут быть различными по величине.

1. Разбейте таблицу на 5 групп в каждой по 2 наблюдения и подсчитайте среднее значение для каждой группы (рис. 2.5.1).

А

В

С

D

Е

1

X

У

групп ср

групп ср 7

2

1

0,8

44

0.9

50

3

2

1

58

4

3

1.2

62

1.3

68

5

4

1,4

74

6

5

1.6

88

1.7

91

7

6

1.8

94

8

7

2

91

2.1

85

9

8

2.2

79

10

У

2.4

69

2.5

61

11

10

2.6

53

12

сумма

17

710

13

1 7

71

х= 17

F = 71

Рис. 2.5.1. Формирование групп измерений и нахождение средних значений

2. Выполните расчёт вспомогательных величин для вычисле

ния корреляционного отношения.

А

В

С

D

Е

F

G

н | I

1

X

у

групп ср

групп ср Ух

У ~Ух

(у-Ух)2

У~У

(у-у)2

2

1

0.8

44

-6

36

-27

729

3

2

1

56

0.9

50

6

36

-15

225

4

3

1.2

62

-6

36

-9

81

5

4

1.4

74

1.3

68

6

36

3

9

6

5

1.6

88

-3

9

17

289

7

6

1.8

94

17

91

3

9

23

529

8

7

2

91

6

36

20

400

9

8

2.2

79

2,1

85

-6

36

8

64

10

9

2.4

69

8

64

-2

4

11

10

2.6

53

2.5

61

-8

64

-18

324

12

сумма

17

710

0

362

0,00

2654

13

17

71

Х = 1.7

F = 71

Рис. 2.5.2. Таблица для вычисления корреляционного отношения

3. Вычислите квадрат корреляционного отношения и корреляционное отношение с использованием формулы 2.5.1

А

В

С

D

Е

F

н

I

J

1

X

у

групп ср

групп ср Ух

У-Ух

(у-Ух)2

У~У

(у-у)2

2

2

1

0.8

44

0,9

50

-6

36

-27

729

0,863602

3

2

1

56

6

36

-15

225

4

3

1,2

62

1.3

68

-6

36

-9

81

Тк

5

4

1.4

74

6

36

3

9

0,929302|

6

5

1.6

88

1.7

91

-3

9

17

289

7

6

1.8

94

3

9

23

529

8

7

2

91

2,1

85

6

36

20

400

9

8

2.2

79

-6

36

8

64

10

9

2,4

69

2,5

61

8

64

-2

4

11

10

2.6

53

-8

64

-18

324

12

сумма

17

710

0

362

0,00

2654

13

1.7

71

Х= 1.7

7 = 71

Рис. 2.5.3. Нахождение корреляционного отношения

Значение i]xy=0,93 свидетельствует о сильной связи между нормами высева семян гороха и урожаем зелёных бобов

4. Ошибку корреляционного отношения и критерий существенности корреляционного отношения вычисляют по формулам 5.3, 5.4. При числе степеней свободы v=n-2=10-2=8 табличное значение критерия Стьюдента (приложение Е) составит В=2,31.

J7 A =KOPEHb((1-J2)/(A11-2))

А

В

С

D

Е

F

н

I

J I

1

X

у

групп ср

групп ср А

У-Ух

(у-Ух)2

У-У

(У-у)2

2

1

0.8

44

0.9

50

-6

36

-27

729

0,863602

3

2

1

56

6

36

-15

225

4

3

1.2

62

1.3

68

-6

36

81

5

4

1.4

74

6

36

3

9

0,929302

6

5

1.6

88

1.7

91

-3

9

17

289

S

7

6

1.8

94

3

9

23

529

0,130575.

8

7

2

91

2.1

85

6

36

20

400

tn

9

8

2.2

79

-6

36

8

64

7,117017

10

9

2.4

69

2.5

61

8

64

-2

4

11

10

2.6

53

-8

64

-18

324

2,31

12

сумма

17

710

и

362

0,00

2654

13

17

71

х = 1.7

У = 71

Рис. 2.5.4. Определение ошибки корреляционного отношения и критерия существенности.

Так как t = 7.12 > L = 2.31, то нулевая гипотеза отклоняется и Т] э

считаем доказанным наличие криволинейной зависимости.

5. Вычислите доверительный интервал для корреляционного отношения

J13 - A =J5+J11*J7

А

В

С

D

Е

F

G

н

I

J

1

X

у

групп ср

групп ср Ух

У-Ух

(У-уУ

У~У

(у-у)2

2

1

0,8

44

0.9

50

-6

36

-27

729

0.863602

3

2

1

56

6

36

-15

225

4

3

1.2

62

1.3

68

-6

36

-9

81

5

4

1,4

74

6

36

3

9

0,929302

6

5

1.6

88

1.7

91

-3

9

17

289

S

7

6

1,8

94

3

9

23

529

0,130575

8

7

2

91

2,1

85

6

36

20

400

tn

9

8

2,2

79

-6

36

8

64

7,117017

10

У

2.4

69

2.5

61

8

64

-2

4

^05__

11

10

2,6

53

-8

64

-18

324

2,31

12

сумма

17

710

0

362

0,00

2654

13

1.7

71

Х = 1.7

7 = 71

1.230929

14

0,627675

Рис. 5.5 Вычисление доверительного интервала

Для корреляционного отношения г|=0,93 доверительный интервал составил 0,63... 1,23

6. Постройте график используя исходные табличные значения Хи Y.

Криволинейная регрессия урожайности зелёных бобов гороха в зависимости от норм высева

Рис. 2.5.6 График криволинейной регрессии

Графическое изображение имеет форму параболы и выражается квадратическим уравнением у = 180,8х -50,379х2 - 74,145.

6. Используя полученное уравнение рассчитайте какова будет урожайность зеленых бобов при норма высева 2 ц/га (1 ц/га, 1.5 ц/га).

Контрольные вопросы и задания

  • 1. Определите корреляционное отношение используя данные из приложения Ж (по заданию преподавателя).
  • 2. Докажите наличие криволинейной зависимости.
  • 3. Вычислите доверительный интервал. Постройте график криволинейной зависимости.
  • 4. Покажите уравнение, которым выражается криволинейная зависимость.
  • 5. Оформите работу с использованием текстового процессора и дайте обоснование полученных данных в выводе.
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >