ЛАБОРАТОРНЫЕ РАБОТЫ

Регрессионный анализ

Под регрессионным анализом понимают исследование закономерностей связи между явлениями (процессами), которые зависят от многих, иногда неизвестных, факторов. Часто между переменными х и у существует связь, но не вполне определенная, при которой одному значению х соответствует несколько значений (совокупность) у. В таких случаях связь называется регрессионной (корреляционной). Таким образом, функция у = /(х)является регрессионной, если каждому значению аргумента соответствует статистический ряд распределения у. Следовательно, регрессионные зависимости характеризуются вероятностными или схоластическими связями. Поэтому установление регрессионных (корреляционных) зависимостей между величинами у и х. возможно лишь тогда, когда выполнимы статистические измерения[9].

Статистические зависимости описываются математическими моделями процесса, то есть регрессионными выражениями, связывающими независимые значения х (факторы) с зависимой переменной у (результативный признак, функция цели, отклик). Модель по возможности должна быть простой и адекватной. Например, модуль упругости материала Е зависит от его плотности р так, что с возрастанием плотности модуль упругости материала увеличивается. Но выявить эту закономерность можно только при наличии большого количества измерений, так как при исследованиях каждой отдельной парной связи в зависимости Е = /(р)наблюдаются большие отклонения [3].

Суть регрессионного (корреляционного) анализа сводится к установлению уравнения регрессии, то есть вида кривой (прямой) между случайными величинами (аргумента х и функцией у), оценке тесноты связей между ними, достоверностей и адекватности результатов измерений [12].

Чтобы предварительно определить наличие такой связи между х и у, наносят точки на график и строят так называемое корреляционное поле (рис.2.1.1). По тесноте группирования точек вокруг прямой или кривой линии, по наклону линии можно визуально судить о наличии корреляционной связи.

Корреляционное поле

Рис. 2.1.1.Корреляционное поле

Корреляционное поле характеризует вид связи между х и у. По форме поля можно ориентировочно судить о форме графика, характеризующего прямолинейную или криволинейную зависимости. Если на корреляционном поле усреднить точки, то есть, для каждого значения xfопределить соединить точки у15 то можно будет

получить ломаную линию, называемую экспериментальной регрессионной зависимостью (линией). Наличие ломаной линии объясняется погрешностью измерений, недостаточным количеством измерений, физической сущностью исследуемого явления и др.

Если на корреляционном поле провести плавную линию между^, которая равно удалена от них, то получается новая теоретическая регрессионная зависимость - линия АВ (рис. 2.1.1).

Различают однофакторные (парные) и многофакторные регрессионные зависимости. Парная регрессия при парной зависимости может быть аппроксимирована прямой линией, параболой, гиперболой, логарифмической, степенной или показательной функцией, полиномом и др. Двухфакторное поле можно аппроксимировать плоскостью, параболоидом второго порядка, гиперболоидом [12].

При построении теоретической регрессионной зависимости оптимальной является такая функция, в которой соблюдаются условия наименьших квадратов ?(у; — yt)2 = min,

где yt - фактические ординаты поля;

yt - среднее значение ординаты с абсциссой х.

Коэффициент корреляции - мера линейной статистической зависимости между факторами х и у, вычисляется по формуле Пирсона

Г = (2J1)

N S у

где х,у-выборочные средние;

Sx, Sy - выборочные средние квадратические отклонения

(средняя изменчивость величин);

N - количество измерений.

Х = ^1ХЬ (2.1.2)

У = ^=1У1 (2.1.3)

Sx = ^Z?=1(X(-X)2 (2.1.4)

sy = - у)2 (1-5)

Коэффициент корреляции (Пирсона)принимает значения в диапазоне [-1;+1]. При г=1 х и у связаны функциональной связью (в данном случае линейной), то есть каждому значению х соответствует только одно значение у, иначе можно отметить, что это соответствует полной прямой зависимости. Если г=0, то линейной связи не существует. Если г=-1, то полная обратная корреляция. При г=0 линейная корреляционная связь между х и у отсутствует, но может существовать нелинейная регрессия.

Положительные значения коэффициента (г>0) свидетельствуют о прямой линейной связи; чем ближе его значение к +1, тем сильнее связь. Обычно считают тесноту связи удовлетворительной при г>0,5; хорошей при г=0,8-0,85.

Для определения процента разброса (изменчивости) искомой функции у относительно её среднего значения, определяемого изменчивостью фактора х, вычисляют коэффициент детерминации

Кд = г2 (2.1.6)

Для оценки надёжности полученных значений г вычисляют среднюю ошибку ^коэффициента корреляции (mmax<15).

1-г2

т = ±^=- (2л-7)

Считается, что значение г вполне надёжное, если

г > Зт (2.1.8)

Если выборочный коэффициент корреляции отличен от нуля, то можно построить линейную регрессию между хи у:

(2.1.9)

Ур = ах + Ь,

Коэффициенты аиЬ вычисляют по выражениям:

a = rt’

b = у - ах

  • (2.1.10)
  • (2.1.11)

Пример. Имеется статистический ряд парных измерений. Необходимо определить уравнение прямолинейной регрессии, оценить тесноту связей и степень достоверности, построить корреляционное поле.

Таблица 2.1

Исходные данные

Значения признака

X

Y

1

8

2

11

3

14

4

16

5

21

6

26

7

27

8

32

9

34

10

41

Ход работы

Расчет целесообразно вести с использованием табличного процессора Microsoft Excel.

  • 1.Заполните столбцы А и В значениями таблицы 2.1 (рис.
  • 2.1.2)

А

В

1

X

УЭ

2

1

8

з

2

11

4

з

14

5

4

16

б

5

21

7

б

26

8

7

27

9

8

32

10

9

34

11

10

41

Рис. 2.1.2.Ввод значений парных измерений в табличный процессор MS Excel

2. Найдите оценки компонент х и у (рис. 2.1.3). Для нахождения х в ячейке А12 введите формулу -СРЗНАЧ(А2.А11) использованием маркера автозаполнения найдите значение в ячейке В12.

А

В

1

X

УЭ

2

1

8

з

2

11

4

3

14

5

4

16

б

5

21

7

6

26

8

7

27

9

8

32

10

9

34

11

10

41

12

5,5

23

Рис. 2.1.3.Вычисление выборочных средних

3. Для нахождения среднего квадратического отклонения (формула 2.1.4, 2.1.5) от каждого значения вычтите выборочное среднее, затем суммируйте полученные значения и разделите на 9 (Ю-1).

и

А

В

С

D

1

X

Y3

2

1

8

20,25

225

3

2

11

12,25

144

4

3

14

6,25

81

5

4

16

2,25

49

6

5

21

0,25

4

7

6

26

0,25

9

8

7

27

2,25

16

9

8

32

6,.25

81

10

9

34

12,25

121

11

10

41

20,25

324

12

5,5

23

82,5

1054

13

9,166667

117,1111

Рис. 2.1.^Промежуточные вычисления среднего квадратического отклонения

4. Вычислите среднюю изменчивость величин Sx nSy

Е2_________? (Ч______А =КОРЕНЬ(С13)

А

В

С

D

Е

F

1

X

Y9

Sx

Sy

2

1

8

20,25

225

3,02765

10,82179

3

2

11

12,25

144

4

3

14

6,25

81

5

4

16

2,25

49

6

5

21

0,25

4

7

6

26

0,25

9

8

7

27

2,25

16

9

8

32

6,25

81

10

9

34

12,25

121

11

10

41

20,25

324

12

5,5

23

32,5

1054

13

9,166667

117,1111

Рис. 2.1.5. Вычисление выборочного среднего квадратического отклонения

Среднее квадратическое отклонение, показывает, на сколько в среднем отклоняются конкретные варианты признака от среднего значения.

5. Определите коэффициент корреляции согласно выражения 2.1.1.

И

А

В

С

D

Е

F

G

Н

1

X

УЭ

SX

sy

ху

г

2

1

8

20,25

225

3,02765

10,82179

8

0,894258

3

2

11

12,25

144

22

4

3

14

6,25

81

42

5

4

16

2,25

49

64

б

5

21

0,25

4

105

7

6

26

0,25

9

156

8

7

27

2,25

16

189

9

8

32

6,25

81

256

10

9

34

12,25

121

306

11

10

41

20,25

324

410

12

5,5

23

32,5

1054

1558

13

9,166667

117,1111

Рис. 2.1.6.Нахождение коэффициента корреляции

6. Найдите коэффициент детерминации, ошибку коэффициента корреляции (уравнения 2.1.6, 2.1.7). На основании полученных данных определите надёжность коэффициента корреляции (уравнение 2.1.8).

И

А

В

С

D

Е

F

G

Н

1

X

УЭ

SX

sy

ху

г

2

1

8

20,25

225

3,02765

10,82179

8

0,894258

3

2

11

12,25

144

22

4

3

14

6,25

81

42

кд

5

4

16

2,25

49

64

0,799697

6

5

21

0,25

4

105

m

7

6

26

0,25

9

156

0,063341

8

7

27

2,25

16

189

3m

9

8

32

6,25

31

256

0,190024

10

9

34

12,25

121

306

11

10

41

20,25

324

410

12

5,5

23

82,5

1054

1558

13

9,166667

117,1111

Рис. 2.1.7.Вычисление коэффициента детерминации, ошибки и надёжности коэффициента корреляции

Коэффициент детерминации, найденный по формуле 2.1.6 составляет 0,80 то есть различия в значениях зависимой переменной у на 80% объясняются различиями в значениях независимой переменной х (и на 20% - факторами, не учтенными в уравнении регрессии).

7. Для построения уравнения регрессии необходимо вычислить а и b с использованием выражений 2.1.10, 2.1.11.

ч

А

В

С

D

Е

F

G

Н

1

J

1

X

УЭ

Sx

sy

«У

г

а

b

2

1

8

20,25

225

3,02765

10,82179

8

0,894258

3,196364

5,42

3

2

11

12,25

144

22

4

3

14

6,25

81

42

кд

5

4

16

2,25

49

64

0,799697

6

5

21

0,25

4

105

m

7

б

26

0,25

9

156

0,063341

8

7

27

2,25

16

189

3m

9

8

32

6,25

81

256

0,190024

10

9

34

12,25

121

306

11

10

41

20,25

324

410

12

5,5

23

82,5

1054

1558

13

9,166667

117,1111

Рис. 2.1.8.Исходные данные и вычисление коэффициентов аи b

Таким образом, уравнение регрессии имеет вид ур = 3,20% + 5,42

8. Для построения графика сходимости экспериментальной прямой и расчётной (рис. 2.1.10) сформируйте таблицу (рис. 2.1.9)

15

X

Уэ

Ур

16

1

8

8,62

17

2

11

11,81

18

3

14

15,01

19

4

16

18,20

20

5

21

21,40

21

6

26

24,60

22

7

27

27,79

23

8

32

30,99

24

9

34

34,19

25

10

41

37,38

Рис. 2.1.9. Таблица значений для построения графика экспериментальных и расчетных зависимостей

Сходимость экспериментальных и теоретических данных

Рис. 2.1.10. Сходимость экспериментальных и теоретических данных

Контрольные вопросы и задания

  • 1. Определите коэффициент корреляции используя данные из приложения А (по заданию преподавателя).
  • 2. Определите коэффициент детерминации, оцените тесноту связей и степень достоверности.
  • 3. Определите уравнение прямолинейной регрессии, постройте корреляционное поле.
  • 4. Оформите работу с использованием текстового процессора и сделайте общий вывод.
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >