Методика проведения парного корреляционно-регрессионного анализа
ВВЕДЕНИЕ
линейная функция
коэффициент эластичность кореляция
Методические указания к выполнению
расчетно-графической работы содержат цели, задачи, теоретические положения,
примеры определения параметров парной линейной регрессии и корреляции по
формулам, а также с использованием табличного процессора Microsoft
Excel, задания для
самостоятельной работы студентов, позволяющие освоить и закрепить методику
проведения парного корреляционно-регрессионного анализа, а также
интерпретировать полученные результаты.
1. Теоретические положения
Цель выполнения расчетно-графической
работы - овладеть навыками построения модели
парной регрессии с использованием формул и табличного процессора MS
Excel.
Уравнение парной линейной регрессии имеет вид:
, (1)
где теоретическое значение
результативного признака, найденное из уравнения регрессии;
независимая переменная (факторный
признак);
параметры уравнения регрессии (а
- экономического содержания не имеет; b -
коэффициент регрессии);
случайная величина, характеризующая
отклонения реального значения результативного признака от теоретического.
Параметры линейной регрессии
оценивают с помощью метода наименьших квадратов (МНК).
Система нормальных уравнений МНК
имеет вид:
(2)
где n -
количество наблюдений.
Для решения системы можно
воспользоваться готовыми формулами:
, (3)
(4)
где ковариация признаков;
дисперсия признака х.
Параметр b называется коэффициентом
регрессии. Его величина показывает среднее изменение результата при
изменении фактора на одну единицу.
Тесноту связи изучаемых явлений
характеризует коэффициент корреляции (r), который
определяется по формуле:
. (5)
Коэффициент корреляции может
принимать значения . Если , то связь
между признаками прямая, если - связь обратная.
Для оценки тесноты связи используют
шкалу Чэддока:
до 0,3 - связь отсутствует или очень
слабая;
от 0,3 до 0,5 - связь
слабая;
от 0,5 до 0,7 - связь
умеренная;
от 0,7 до 1,0 - связь
сильная.
Для оценки качества подбора линейной
функции рассчитывается квадрат линейного коэффициента корреляции - коэффициент
детерминации (), который показывает, на сколько
процентов вариация результативного признака определяется вариацией факторов,
включенных в модель.
Качество построенной модели
оценивает также средняя ошибка аппроксимации - это среднее
отклонение расчетных значений от фактических:
. (6)
Допустимый предел значений не более
8-10%.
Средний коэффициент
эластичности
показывает, на сколько процентов в среднем изменится результат при изменении
фактора на 1% и рассчитывается по формуле (для линейной функции):
. (7)
Значимость уравнения регрессии в
целом оценивается с помощью F-критерия Фишера, который
определяется из соотношения значений факторной и остаточной дисперсии,
рассчитанных на одну степень свободы:
, (8)
где n - число
единиц совокупности;
m - число
параметров при переменных x.
Для оценки значимости уравнения
регрессии Fфакт.
сравнивается с Fтабл. при , , . Если Fфакт. > Fтабл., то
уравнение регрессии значимо, статистически надежно и может быть использовано
для прогнозирования.
1.1 Решение задачи
По регионам Центрального
федерального округа за 2008 год изучается зависимость доли сельского
населения от величины среднедушевых денежных доходов населения. Исходные данные
представлены в таблице 1.
Таблица 1.
Исходные данные для
корреляционно-регрессионного анализа
Регионы
|
Доля
сельского населения, %
|
Среднедушевой
денежный доход, тыс. руб.
|
1
Белгородская область
|
33,6
|
12,8
|
2
Брянская область
|
31,4
|
10
|
3
Владимирская область
|
22,2
|
9,6
|
4
Воронежская область
|
36,7
|
10,3
|
5
Ивановская область
|
19,2
|
8,4
|
6
Калужская область
|
23,8
|
11,8
|
7
Костромская область
|
31,5
|
9,4
|
8
Курская область
|
35,8
|
9
Липецкая область
|
35,9
|
12,3
|
10
Московская область
|
19,2
|
19,8
|
11
Орловская область
|
35,6
|
9,8
|
12
Рязанская область
|
30
|
11,3
|
13
Смоленская область
|
28,3
|
11,5
|
14
Тамбовская область
|
42
|
11,3
|
15
Тверская область
|
25,7
|
10,9
|
16
Тульская область
|
20
|
11,4
|
17
Ярославская область
|
18,2
|
12,6
|
Задание:
1) Для характеристики зависимости среднего
размера вклада физических лиц от величины среднедушевых денежных доходов
населения рассчитать параметры линейной функции.
) Определить средний коэффициент эластичности.
) Рассчитать коэффициент корреляции.
) Оценить значимость модели через показатель
детерминации, среднюю ошибку аппроксимации и F-критерий
Фишера.
) С вероятностью 0,95 указать доверительный
интервал ожидаемого значения величины вклада в предположении роста среднего
дохода на душу населения на 10,0% от своего среднего уровня и найти
доверительный интервал прогноза.
) Проанализировать все рассчитанные показатели.
Решение:
1) Параметры a и b линейной
регрессии рассчитываются
с помощью метода наименьших квадратов. Для этого составим систему нормальных
уравнений (2).
По исходным данным определим , , , , в расчетной
таблице 2.
Таблица 2
Расчет показателей парной линейной
регрессии и корреляции
№
|
22
|
|
|
|
|
|
|
|
|
1
|
33,6
|
12,8
|
430,1
|
1129
|
163,8
|
11,1
|
0,13
|
2,89
|
23,04
|
2
|
31,4
|
10
|
314
|
986
|
100
|
11,2
|
0,12
|
1,44
|
6,76
|
3
|
22,2
|
9,6
|
213,1
|
492,8
|
92,2
|
12
|
0,25
|
5,76
|
4
|
36,7
|
10,3
|
378
|
1346,9
|
106,1
|
10,8
|
0,05
|
0,25
|
62,41
|
5
|
19,2
|
8,4
|
161,3
|
368,6
|
70,6
|
12,2
|
0,45
|
14,44
|
92,16
|
6
|
23,8
|
11,8
|
280,8
|
566,4
|
139,2
|
11,9
|
0,01
|
0,01
|
25
|
7
|
31,5
|
9,4
|
296,1
|
992,3
|
88,4
|
11,2
|
0,19
|
3,24
|
7,29
|
8
|
35,8
|
11,4
|
408,1
|
1281,6
|
130
|
10,9
|
0,04
|
0,25
|
49
|
9
|
35,9
|
12,3
|
441,6
|
1288,8
|
151,3
|
10,9
|
0,11
|
1,96
|
50,41
|
10
|
19,2
|
19,8
|
380,2
|
368,6
|
392
|
12,2
|
0,38
|
57,76
|
92,16
|
35,6
|
9,8
|
348,9
|
1267,4
|
96
|
10,9
|
0,11
|
1,21
|
46,24
|
12
|
30
|
11,3
|
339
|
900
|
127,7
|
11,4
|
0,01
|
0,01
|
1,44
|
13
|
28,3
|
11,5
|
325,5
|
800,9
|
132,3
|
11,5
|
0
|
0
|
0,25
|
14
|
42
|
11,3
|
474,6
|
1764
|
127,7
|
10,4
|
0,08
|
0,81
|
174,24
|
15
|
25,7
|
10,9
|
280,1
|
660,5
|
118,8
|
11,7
|
0,07
|
0,64
|
9,61
|
16
|
20
|
11,4
|
228
|
400
|
130
|
12,2
|
0,07
|
0,64
|
77,44
|
17
|
18,2
|
12,6
|
229,3
|
331,2
|
158,8
|
12,3
|
0,02
|
0,09
|
112,36
|
Итого
|
194,6
|
5528,7
|
14945
|
2324,9
|
194,8
|
2,09
|
91,4
|
873,37
|
Среднее
|
28,8
|
11,4
|
325,2
|
879,1
|
136,8
|
11,5
|
0,12
|
5,4
|
51,4
|
1
- для упрощения расчетов исходные данные округлены до 0,0.
Система нормальных уравнений составит:
Решив систему, получим: a = 13,76; b = -0,08.
Уравнение линейной регрессии имеет
вид:
.
Параметры уравнения можно определить
и по следующим формулам:
= 11,4+0,063∙28,8 = 13,21
Как видно, параметры a и b,
рассчитанные двумя способами не совпадают. В дальнейшем при решении мы будем
использовать значения параметров, полученные при решении системы нормальных
уравнений.
Величина коэффициента регрессии b = -0,08
означает, что с ростом денежных доходов на 1 тыс. руб. величина вкладов
уменьшиться в среднем на 0,08 тыс. руб. или на 80 руб.
) Средний коэффициент эластичности
для линейной регрессии находится по формуле:
-0,2
При увеличении величины денежного
дохода на 1%, величина вклада в среднем уменьшиться на 0,2%.
) Линейный коэффициент парной
корреляции (r)
определяется по формуле:
,
где средние квадратические
отклонения:
,
,
тогда =-0,22, значит связь между вкладами
населения и уровнем денежных доходов обратная слабая или отсутствует.
) Определим коэффициент
детерминации:
.
Таким образом, вариация доля
сельского населения на 4,8% зависит от вариации уровня денежных доходов
населения, а на остальные (100%-4,8%) 95,2% − от вариации факторов, не
включенных в модель.
Подставляя в уравнение регрессии
фактические значения x, определим теоретические
(расчетные) значения (таблица 2)
и найдем величину средней ошибки аппроксимации ():
=.
Так как допустимый предел значений не более
8-10%, качество модели по данному показателю неудовлетворительное. Однако
средняя ошибка аппроксимации не является главным критерием оценки значимости
модели.
С помощью F−критерия
Фишера оценим статистическую надежность результатов регрессионного
моделирования:
факт==.
Fтабл = 4,54 при .
Так как Fфакт < Fтабл, уравнение
регрессии не значимо, статистически не надежно. Его нельзя использовать для
прогнозирования.