Уравнения регрессии
Министерство образования и науки
Российской Федерации
Федеральное государственное бюджетное
образовательное учреждение
высшего профессионального образования
"САНКТ-ПЕТЕРБУРГСКИЙ
ГОСУДАРСТВЕННЫЙ
УНИВЕРСИТЕТ ТЕХНОЛОГИИ И
ДИЗАЙНА"
Кафедра менеджмента
ЭКОНОМЕТРИКА
Выполнила: Петрова Ю.С.
Санкт-Петербург 2013
Содержание
Варианты индивидуальных заданий
1. Параметры уравнения регрессии
1.1 Коэффициент корреляции
1.2 Уравнение регрессии (оценка уравнения регрессии)
1.3 Бета-коэффициент
1.4 Ошибка аппроксимации
1.5. Коэффициент детерминации
2. Оценка параметров уравнения регрессии
2.1 Значимость коэффициента корреляции
2.2 Интервальная оценка для коэффициента корреляции (доверительный
интервал)
2.3 Анализ точности определения оценок коэффициентов регрессии
2.4 Доверительные интервалы для зависимой переменной
2.5 Проверка гипотез относительно коэффициентов линейного уравнения
регрессии
2.6 Доверительный интервал для коэффициентов уравнения регрессии
2.7 Показатели качества уравнения регрессии
Индивидуальное задание по теме 2
2.8 Прогнозирование данных с использованием экспоненциального
сглаживания
Библиографический список
Варианты
индивидуальных заданий
По территориям региона приводятся данные за 2009 г. (см.
таблицу своего варианта).
Требуется:
1. Построить
линейное уравнение парной регрессии от .
2. Рассчитать
линейный коэффициент парной корреляции и среднюю ошибку аппроксимации.
3. Оценить
статистическую значимость параметров регрессии и корреляции с помощью -критерия Фишера и -критерия Стьюдента.
4. Выполнить
прогноз заработной платы при прогнозном значении среднедушевого
прожиточного минимума , составляющем 107% от среднего уровня.
5. Оценить
точность прогноза, рассчитав ошибку прогноза и его доверительный интервал.
6. На
одном графике построить исходные данные и теоретическую прямую.
Номер региона
|
Среднедушевой
прожиточный минимум в день одного трудоспособного, р., Среднедневная заработная плата, р.,
|
|
1
|
83
|
137
|
2
|
88
|
142
|
3
|
75
|
128
|
4
|
89
|
140
|
5
|
85
|
133
|
6
|
79
|
153
|
7
|
81
|
142
|
8
|
97
|
154
|
9
|
79
|
132
|
10
|
90
|
150
|
11
|
84
|
132
|
12
|
112
|
166
|
Решение.
Уравнение парной регрессии.
На основании поля корреляции можно выдвинуть гипотезу (для
генеральной совокупности) о том, что связь между всеми возможными значениями X
и Y носит линейный характер.
Линейное уравнение регрессии имеет
вид y = bx + a + ε
Система нормальных уравнений.
+ b∑x = ∑y∑x + b∑x2 = ∑yx
Для наших данных система уравнений имеет вид
a + 1042 b = 1709
a + 91556 b = 149367
Из первого уравнения выражаем а и подставим во второе
уравнение:
Получаем эмпирические коэффициенты регрессии: b = 0.9007, a =
64.2075
Уравнение регрессии (эмпирическое уравнение регрессии):
= 0.9007 x + 64.2075
Для расчета параметров регрессии построим расчетную таблицу
(табл. 1)
x
|
y
|
x2
|
y2
|
x y
|
83
|
137
|
6889
|
18769
|
11371
|
88
|
142
|
7744
|
20164
|
12496
|
75
|
128
|
5625
|
16384
|
9600
|
89
|
140
|
7921
|
19600
|
12460
|
85
|
133
|
7225
|
17689
|
11305
|
79
|
153
|
6241
|
23409
|
12087
|
81
|
142
|
6561
|
20164
|
11502
|
97
|
154
|
9409
|
23716
|
14938
|
79
|
132
|
6241
|
17424
|
10428
|
90
|
150
|
8100
|
22500
|
13500
|
84
|
132
|
7056
|
17424
|
11088
|
112
|
166
|
12544
|
27556
|
18592
|
1042
|
1709
|
91556
|
244799
|
149367
|
1. Параметры
уравнения регрессии
Выборочные средние.
,
Выборочные дисперсии:
Среднеквадратическое отклонение
1.1
Коэффициент корреляции
Ковариация.
Рассчитываем показатель тесноты связи. Таким показателем является
выборочный линейный коэффициент корреляции, который рассчитывается по формуле:
Линейный коэффициент корреляции принимает значения от - 1 до +1.
Связи между признаками могут быть слабыми и сильными (тесными). Их
критерии оцениваются по шкале Чеддока:
.1 < rxy < 0.3: слабая;
.3 < rxy < 0.5: умеренная;
.5 < rxy < 0.7: заметная;
.7 < rxy < 0.9: высокая;
.9 < rxy < 1: весьма высокая;
В нашем примере связь между признаком Y фактором X высокая и
прямая.
Кроме того, коэффициент линейной парной корреляции может быть
определен через коэффициент регрессии b:
1.2 Уравнение
регрессии (оценка уравнения регрессии)
Линейное уравнение регрессии имеет вид y = 0.9 x + 64.21
Коэффициентам уравнения линейной регрессии можно придать
экономический смысл.
уравнение регрессия показатель качество
Коэффициент регрессии b = 0.9 показывает среднее изменение
результативного показателя (в единицах измерения у) с повышением или понижением
величины фактора х на единицу его измерения. В данном примере с увеличением на
1 единицу y повышается в среднем на 0.9.
Коэффициент a = 64.21 формально показывает прогнозируемый
уровень у, но только в том случае, если х=0 находится близко с выборочными
значениями. Но если х=0 находится далеко от выборочных значений х, то
буквальная интерпретация может привести к неверным результатам, и даже если
линия регрессии довольно точно описывает значения наблюдаемой выборки, нет
гарантий, что также будет при экстраполяции влево или вправо. Подставив в уравнение
регрессии соответствующие значения х, можно определить выровненные
(предсказанные) значения результативного показателя y (x) для каждого
наблюдения.
Связь между у и х определяет знак коэффициента регрессии b
(если > 0 - прямая связь, иначе - обратная). В нашем примере связь прямая.
1.3
Бета-коэффициент
Т.е. увеличение x на величину среднеквадратического отклонения Sx
приведет к увеличению среднего значения Y на 0.79 среднеквадратичного
отклонения Sy.
1.4 Ошибка
аппроксимации
,
Поскольку ошибка меньше 7%, то данное уравнение можно использовать
в качестве регрессии.
1.5.
Коэффициент детерминации
R2= 0.792 = 0.6193
т.е. в 61.93 % случаев изменения х приводят к изменению y.
Другими словами - точность подбора уравнения регрессии - средняя. Остальные
38.07 % изменения Y объясняются факторами, не учтенными в модели.
Для оценки качества параметров регрессии построим расчетную
таблицу (табл. 2)
x
|
y
|
y
(x)
|
(yi-ycp)
2
|
(y-y
(x)) 2
|
(xi-xcp)
2
|
|y -
yx|: y
|
83
|
137
|
138.96
|
29.34
|
3.86
|
14.69
|
0.0143
|
88
|
142
|
143.47
|
0.17
|
2.15
|
1.36
|
0.0103
|
75
|
128
|
131.76
|
207.84
|
14.13
|
140.03
|
0.0294
|
89
|
140
|
144.37
|
5.84
|
19.08
|
4.69
|
0.0312
|
85
|
133
|
140.77
|
88.67
|
60.3
|
3.36
|
0.0584
|
79
|
153
|
135.36
|
112.01
|
311.12
|
61.36
|
0.12
|
81
|
142
|
137.16
|
0.17
|
23.4
|
34.03
|
0.0341
|
97
|
154
|
151.57
|
134.17
|
5.89
|
103.36
|
0.0158
|
79
|
132
|
135.36
|
108.51
|
11.3
|
61.36
|
0.0255
|
90
|
150
|
145.27
|
57.51
|
22.38
|
10.03
|
0.0315
|
84
|
132
|
139.86
|
108.51
|
61.85
|
8.03
|
0.0596
|
112
|
166
|
165.08
|
556.17
|
0.84
|
633.36
|
0.00552
|
1042
|
1709
|
1709
|
1408.92
|
536.31
|
1075.67
|
0.43
|
2. Оценка
параметров уравнения регрессии
2.1
Значимость коэффициента корреляции
Для того чтобы при уровне значимости α проверить нулевую гипотезу о равенстве нулю генерального
коэффициента корреляции нормальной двумерной случайной величины при
конкурирующей гипотезе H1 ≠ 0, надо вычислить наблюдаемое
значение критерия
и по таблице критических точек распределения Стьюдента, по
заданному уровню значимости α и числу степеней свободы k = n - 2 найти критическую точку
tкрит двусторонней критической области. Если tнабл < tкрит
оснований отвергнуть нулевую гипотезу. Если |tнабл| > tкрит
- нулевую гипотезу отвергают.
По таблице Стьюдента с уровнем значимости α=0.05 и степенями свободы k=10 находим tкрит:
крит
(n-m-1; α/2) = (10;
0.025) = 2.228
где m = 1 - количество объясняющих переменных.
Если tнабл > tкритич, то полученное
значение коэффициента корреляции признается значимым (нулевая гипотеза,
утверждающая равенство нулю коэффициента корреляции, отвергается).
Поскольку tнабл > tкрит, то отклоняем
гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент
корреляции статистически - значим
В парной линейной регрессии t2r = t2b
и тогда проверка гипотез о значимости коэффициентов регрессии и корреляции
равносильна проверке гипотезы о существенности линейного уравнения регрессии.
2.2
Интервальная оценка для коэффициента корреляции (доверительный интервал)
Доверительный интервал для коэффициента корреляции
, r (0.54; 1.03)
2.3 Анализ
точности определения оценок коэффициентов регрессии
Несмещенной оценкой дисперсии возмущений является величина:
,
2y = 53.63
- необъясненная дисперсия (мера разброса зависимой переменной вокруг линии
регрессии).
y =
7.32 - стандартная ошибка оценки (стандартная ошибка регрессии).a -
стандартное отклонение случайной величины a.
,
b -
стандартное отклонение случайной величины b.
,
2.4
Доверительные интервалы для зависимой переменной
Экономическое прогнозирование на основе построенной модели
предполагает, что сохраняются ранее существовавшие взаимосвязи переменных и на
период упреждения. Для прогнозирования зависимой переменной результативного
признака необходимо знать прогнозные значения всех входящих в модель факторов.
Прогнозные значения факторов подставляют в модель и получают
точечные прогнозные оценки изучаемого показателя.
(a + bxp ± ε), где
Рассчитаем границы интервала, в котором будет сосредоточено 95%
возможных значений Y при неограниченно большом числе наблюдений и Xp
= 107
(64.21 + 0.9*107 ± 11.08)
(149.5; 171.66)
С вероятностью 95% можно гарантировать, что значения Y при
неограниченно большом числе наблюдений не выйдет за пределы найденных
интервалов.
Индивидуальные доверительные интервалы для Y при данном значении
X.
(a + bxi
± ε), где
крит
(n-m-1; α/2) = (10;
0.025) = 2.228
xi
|
y =
64.21 + 0.9xi
|
εi
|
ymin
= y - εi
|
ymax
= y + εi
|
83
|
138.96
|
17.09
|
121.87
|
156.05
|
88
|
143.47
|
16.99
|
126.48
|
160.46
|
75
|
131.76
|
17.97
|
113.78
|
149.73
|
89
|
144.37
|
17.02
|
127.35
|
85
|
140.77
|
17.01
|
123.76
|
157.77
|
79
|
135.36
|
17.42
|
117.94
|
152.79
|
81
|
137.16
|
17.23
|
119.93
|
154.39
|
97
|
151.57
|
17.72
|
133.85
|
169.29
|
79
|
135.36
|
17.42
|
117.94
|
152.79
|
90
|
145.27
|
17.06
|
128.21
|
162.32
|
84
|
139.86
|
17.04
|
122.82
|
156.91
|
С вероятностью 95% можно гарантировать, что значения Y при
неограниченно большом числе наблюдений не выйдет за пределы найденных
интервалов.
2.5 Проверка
гипотез относительно коэффициентов линейного уравнения регрессии
1) t-статистика. Критерий Стьюдента.
крит (n-m-1; α/2) = (10; 0.025) = 2.228
,
Поскольку 4.03 > 2.228, то статистическая значимость
коэффициента регрессии b подтверждается (отвергаем гипотезу о равенстве нулю
этого коэффициента).
,
Поскольку 3.29 > 2.228, то статистическая значимость
коэффициента регрессии a подтверждается (отвергаем гипотезу о равенстве нулю
этого коэффициента).
2.6
Доверительный интервал для коэффициентов уравнения регрессии
Определим доверительные интервалы коэффициентов регрессии,
которые с надежность 95% будут следующими:
(b - tкрит Sb; b + tкрит Sb),
(0.9 - 2.228 0.22; 0.9 + 2.228 0.22), (0.4; 1.4)
С вероятностью 95% можно утверждать, что значение данного
параметра будут лежать в найденном интервале.
(a - tкрит Sa; a + tкрит Sa), (64.21 - 2.228 19.5; 64.21
+ 2.228 19.5), (20.75; 107.66)
С вероятностью 95% можно утверждать, что значение данного
параметра будут лежать в найденном интервале.
) F-статистика. Критерий Фишера.
Табличное значение критерия со степенями свободы k1=1 и
k2=10, Fтабл = 4.96
Поскольку фактическое значение F > Fтабл, то
коэффициент детерминации статистически значим (найденная оценка уравнения
регрессии статистически надежна).
Связь между F-критерием Фишера и t-статистикой Стьюдента
выражается равенством:
2.7
Показатели качества уравнения регрессии
Показатель
|
Значение
|
Коэффициент
детерминации
|
0.62
|
Средний
коэффициент эластичности
|
0
|
Средняя
ошибка аппроксимации
|
3.59
|
Индивидуальное
задание по теме 2
1. Сгладить временной ряд методом скользящей средней и
методом экспоненциального сглаживания, построить соответствующие графики.
2. Выделить линейный тренд методом наименьших квадратов,
построить график.
. Построить в MS Excel нелинейные тренды с
указанием степени аппроксимации.
Таблица 10. Варианты заданий
Месяц
|
Варианты
|
|
1
|
2
|
3
|
4
|
5
|
6
|
7
|
8
|
9
|
Январь
|
637
|
6448
|
1672
|
1709
|
4638
|
1940
|
1243
|
12544
|
3036
|
Февраль
|
654
|
6350
|
2316
|
1629
|
4701
|
1851
|
1087
|
12716
|
3695
|
Март
|
680
|
5939
|
2523
|
1564
|
4836
|
1672
|
1240
|
12866
|
4150
|
Апрель
|
630
|
5214
|
1214
|
1544
|
4722
|
1653
|
1668
|
12903
|
4186
|
Май
|
682
|
5505
|
1373
|
1557
|
4871
|
1620
|
1745
|
12846
|
4205
|
Июнь
|
686
|
5312
|
1434
|
1552
|
4778
|
1597
|
1797
|
12808
|
4200
|
Июль
|
688
|
5327
|
1510
|
1346
|
5107
|
1601
|
1896
|
12659
|
4205
|
Август
|
690
|
5332
|
1669
|
1230
|
4976
|
1575
|
1003
|
13072
|
4211
|
Сентябрь
|
732
|
6448
|
1802
|
1245
|
4638
|
1654
|
1116
|
12544
|
3874
|
Октябрь
|
707
|
6350
|
1858
|
1442
|
4701
|
1722
|
1156
|
12716
|
3644
|
Ноябрь
|
637
|
5939
|
1951
|
1709
|
4836
|
1940
|
1154
|
12866
|
3436
|
Декабрь
|
654
|
6149
|
1794
|
1629
|
5083
|
1851
|
1392
|
12768
|
3256
|
Решение:
Экспоненциальная средняя вычисляется по рекуррентной формуле:
t = α*Yt + (1 - α) St-1
где St - значение экспоненциальной средней в
момент t;t-1 - значение экспоненциальной средней в момент (t = 1);
Что касается начального параметра S0, то в задачах
его берут или равным значению первого уровня ряда у1, или равным
средней арифметической нескольких первых членов ряда.t - значение
экспоненциального процесса в момент t;
α - вес t-ого значения
ряда динамики (или параметр сглаживания).
Последовательное применение формулы дает возможность
вычислить экспоненциальную среднюю через значения всех уровней данного ряда
динамики.
Наиболее важной характеристикой в этой модели является α, по величине которой практически и осуществляется прогноз. Чем
значение этого параметра ближе к 1, тем больше при прогнозе учитывается влияние
последних уровней ряда динамики.
Если α близко к 0, то веса, по
которым взвешиваются уровни ряда динамики убывают медленно, т.е. при прогнозе
учитываются все прошлые уровни ряда.
В специальной литературе отмечается, что обычно на практике
значение α находится в пределах от 0,1 до 0,3.
Значение 0,5 почти никогда не превышается.
Экспоненциальное сглаживание применимо, прежде всего, при
постоянном объеме потребления (α = 0,1 - 0,3). При более
высоких значениях (0,3 - 0,5) метод подходит при изменении структуры
потребления, например, с учетом сезонных колебаний.
Найдем параметр α по следующей формуле:
α = 2/ (13+1) = 0.14
В качестве S0 берем первое значение ряда, S0
= y1 = 1709
t
|
y
|
St
|
Формула
|
y -
St
|
1
|
1709
|
1709
|
(1
- 0.14) *1709 + 0.14*1709
|
0
|
2
|
1629
|
1640.2
|
(1
- 0.14) *1629 + 0.14*1709
|
125.44
|
3
|
1564
|
1574.67
|
(1
- 0.14) *1564 + 0.14*1640.2
|
113.81
|
4
|
1544
|
1548.29
|
(1
- 0.14) *1544 + 0.14*1574.67
|
18.43
|
5
|
1557
|
1555.78
|
(1
- 0.14) *1557 + 0.14*1548.29
|
1.49
|
6
|
1552
|
1552.53
|
(1
- 0.14) *1552 + 0.14*1555.78
|
0.28
|
7
|
1346
|
1374.91
|
(1
- 0.14) *1346 + 0.14*1552.53
|
836.03
|
8
|
1230
|
1250.29
|
(1
- 0.14) *1230 + 0.14*1374.91
|
411.6
|
9
|
1245
|
1245.74
|
(1
- 0.14) *1245 + 0.14*1250.29
|
0.55
|
10
|
1442
|
1414.52
|
(1
- 0.14) *1442 + 0.14*1245.74
|
754.95
|
11
|
1709
|
1667.77
|
(1
- 0.14) *1709 + 0.14*1414.52
|
1699.64
|
12
|
1629
|
1634.43
|
(1
- 0.14) *1629 + 0.14*1667.77
|
29.47
|
13
|
|
228.82
|
(1
- 0.14) * + 0.14*1634.43
|
52358.57
|
|
|
|
|
56350.25
|
2.8
Прогнозирование данных с использованием экспоненциального сглаживания
Методы прогнозирования под названием "сглаживание"
учитывают эффекты выброса функции намного лучше, чем способы, использующие
регрессивный анализ.
Базовое уравнение имеет следующий вид:
(t+1) = F (t) (1 - α) + αY (t)
(t) - это прогноз, сделанный в момент времени t; F (t+1)
отражает прогноз во временной период, следующий непосредственно за моментом
времени t. Стандартная ошибка (погрешность) рассчитывается по формуле:
,
где i = (t - 2, t)
Одним из эмпирических методов является метод скользящей средней.
Этот метод состоит в замене абсолютных уровней ряда динамики их средними
арифметическими значениями за определенные интервалы. Выбираются эти интервалы
способом скольжения: постепенно исключаются из интервала первые уровни и
включаются последующие.
t
|
y
|
ys
|
Формула
|
y -
ys
|
1
|
1709
|
-
|
-
|
-
|
2
|
1629
|
1634
|
(1709
+ 1629 + 1564) /3
|
25
|
3
|
1564
|
1579
|
(1629
+ 1564 + 1544) /3
|
225
|
4
|
1544
|
1555
|
(1564
+ 1544 + 1557) /3
|
121
|
5
|
1557
|
1551
|
(1544
+ 1557 + 1552) /3
|
36
|
6
|
1552
|
1485
|
(1557
+ 1552 + 1346) /3
|
4489
|
7
|
1346
|
1376
|
(1552
+ 1346 + 1230) /3
|
900
|
8
|
1230
|
1273.67
|
(1346
+ 1230 + 1245) /3
|
1906.78
|
9
|
1245
|
1305.67
|
(1230
+ 1245 + 1442) /3
|
3680.44
|
10
|
1442
|
1465.33
|
(1245
+ 1442 + 1709) /3
|
544.44
|
11
|
1709
|
1593.33
|
(1442
+ 1709 + 1629) /3
|
13378.78
|
1629
|
1112.67
|
(1709
+ 1629 +) /3
|
266600.11
|
|
|
|
|
291906.56
|
Стандартная ошибка (погрешность) рассчитывается по формуле:
где i = (t-m-1, t)
Линейное уравнение тренда имеет вид y = bt + a
1. Находим параметры уравнения методом наименьших квадратов.
Система уравнений МНК:
a0n + a1∑t = ∑y
a0∑t + a1∑t2
= ∑ yt
t
|
y
|
t2
|
y2
|
ty
|
1
|
1709
|
1
|
2920681
|
1709
|
2
|
1629
|
4
|
2653641
|
3258
|
3
|
1564
|
9
|
2446096
|
4692
|
4
|
1544
|
16
|
2383936
|
6176
|
5
|
1557
|
25
|
2424249
|
7785
|
6
|
1552
|
36
|
2408704
|
9312
|
7
|
1346
|
49
|
1811716
|
9422
|
8
|
1230
|
64
|
1512900
|
9840
|
9
|
1245
|
81
|
1550025
|
11205
|
10
|
1442
|
100
|
2079364
|
14420
|
11
|
1709
|
121
|
2920681
|
18799
|
12
|
1629
|
144
|
2653641
|
19548
|
13
|
|
169
|
0
|
0
|
91
|
18156
|
819
|
27765634
|
116166
|
Для наших данных система уравнений имеет вид:
a0 + 91a1 = 18156
a0 + 819a1 = 116166
Из первого уравнения выражаем а0 и подставим во
второе уравнение
Получаем a0 = - 60.03, a1 = 1816.85
Уравнение тренда:
= - 60.03 t + 1816.85
Эмпирические коэффициенты тренда a и b являются
лишь оценками теоретических коэффициентов βi, а само уравнение
отражает лишь общую тенденцию в поведении рассматриваемых переменных.
Коэффициент тренда b = - 60.03 показывает среднее изменение
результативного показателя (в единицах измерения у) с изменением периода
времени t на единицу его измерения. В данном примере с увеличением t
на 1 единицу, y изменится в среднем на - 60.03.
Библиографический
список
1. Елисеева
И.И. Эконометрика: учебник/ И.И. Елисеева - М.: Финансы и статистика, 2007.
2. Елисеева
И.И. Практикум по эконометрике: учеб. пособие/ И.И. Елисеева - М.: Финансы и
статистика, 2008.
. Елисеева
И.И. Эконометрика: учебник для студентов высших учебных заведений по
специальности 080601 "Статистика" и другим междисциплинарным
специальностям / [И.И. Елисеева и др.]; ред.И. И. Елисеева. - М.: Проспект,
2011.
. Кремер
Н.Ш. Математика для экономистов: от Арифметики до Эконометрики:
учебно-справочное пособие / Н.Ш. Кремер, Б.А. Путко, И.М. Тришин; ред.Н.Ш.
Кремер. - 2-е изд., перераб. и доп. - М.: Юрайт, 2010.
. Коломаев
В.А. Эконометрика: учебник для студентов вузов, обучающихся по специальности
061800 "Математические методы в экономике" / В.А. Колемаев; Гос. ун-т
управления. - М.: ИНФРА-М, 2010.