Прикладная статистика и основы эконометрики
Задача 16
Зависимость меду величинами x и y описывается
функцией y = f(x, a, b), где a и b - неизвестные параметры. Найти эти
параметры, сведя исходную задачу к линейной задаче метода наименьших квадратов
(Линейной регрессии).
Х
|
Y
|
0,5
|
1,9813
|
0,6
|
2,2809
|
0,7
|
2,3182
|
0,8
|
2,8358
|
0,9
|
2,8962
|
1
|
3,2425
|
1,1
|
3,9918
|
1,2
|
4,6459
|
1,3
|
6,0938
|
1,4
|
7,6587
|
1,5
|
10,8872
|
Оценить полученную точность аппроксимации.
Решение.
Сведем исходную задачу к линейной задаче МНК,
для этого сделаем подходящую замену переменных.
Так как исходная зависимость имеет
вид , то
прологарифмировав исходное неравенство и введя новые переменные:
= х3; A = lna; lny = s
Получаем задачу об определении
коэффициентов линейной зависимости s = A + bt.
Рассчитаем параметры A и b
уравнения линейной регрессии s = A + b·t. Для расчетов заполним таблицу.
№п/п
|
Х
|
Y
|
t
|
s
|
st
|
t2
|
|
|
1
|
0,5
|
1,9813
|
0,125
|
0,684
|
0,085
|
0,016
|
2,139099
|
0,079644
|
2
|
0,6
|
2,2809
|
0,216
|
0,825
|
0,178
|
0,047
|
2,238269
|
0,018691
|
3
|
0,7
|
2,3182
|
0,343
|
0,841
|
0,288
|
0,118
|
2,384403
|
0,028558
|
4
|
0,8
|
2,8358
|
0,512
|
1,042
|
0,534
|
0,262
|
2,593766
|
0,08535
|
5
|
0,9
|
2,8962
|
0,729
|
1,063
|
0,775
|
0,531
|
2,889769
|
0,00222
|
6
|
1
|
3,2425
|
1
|
1,176
|
1,176
|
1,000
|
3,307309
|
0,019987
|
7
|
1,1
|
3,9918
|
1,331
|
1,384
|
1,842
|
1,772
|
3,899985
|
0,023001
|
8
|
1,2
|
4,6459
|
1,728
|
1,536
|
2,654
|
2,986
|
4,752538
|
0,022953
|
9
|
1,3
|
6,0938
|
2,197
|
1,807
|
3,971
|
4,827
|
6,002888
|
0,014919
|
10
|
1,4
|
7,6587
|
2,744
|
2,036
|
5,586
|
7,530
|
7,882513
|
0,029223
|
11
|
1,5
|
10,887
|
3,375
|
2,388
|
8,058
|
11,391
|
10,79286
|
0,008665
|
Итого
|
11
|
48,832
|
14,3
|
14,782
|
25,149
|
30,478
|
|
0,333
|
Среднее
|
1
|
4,439
|
1,3
|
1,344
|
2,286
|
2,771
|
|
|
- линейное уравнение регрессии
Можно было воспользоваться MS Excel,
Анализ данных - Регрессия
.
ВЫВОД
ИТОГОВ
|
|
|
|
|
|
|
|
|
|
|
|
|
Регрессионная
статистика
|
|
|
|
|
|
Множественный
R
|
0,997054
|
|
|
|
|
|
R-квадрат
|
0,994116
|
|
|
|
|
|
Нормированный
R-квадрат
|
0,993462
|
|
|
|
|
|
Стандартная
ошибка
|
0,044122
|
|
|
|
|
|
Наблюдения
|
11
|
|
|
|
|
|
|
|
|
|
|
|
|
Дисперсионный
анализ
|
|
|
|
|
|
df
|
SS
|
MS
|
F
|
Значимость
F
|
|
Регрессия
|
1
|
2,960104
|
2,960104
|
1520,53
|
2,38E-11
|
|
Остаток
|
9
|
0,017521
|
0,001947
|
|
|
|
Итого
|
10
|
2,977625
|
|
|
|
|
|
|
|
|
|
|
|
|
Коэффициен-ты
|
Стандартная
ошибка
|
t-статистика
|
P-Значение
|
Нижние
95%
|
Верхние
95%
|
Y-пересечение
|
0,695131
|
0,021301
|
32,63388
|
1,17E-10
|
0,646945
|
0,743317
|
Переменная
X 1
|
0,498998
|
0,012797
|
38,99398
|
2,38E-11
|
0,470049
|
0,527946
|
Перейдем обратно к начальным данным:
A = lna; следовательно,
Получим:
Оценим полученную точность
аппроксимации.
Так как полученная точность менее
5%, то модель достаточно точная.
Задача 2.16. Построение
однофакторной регрессии
Имеются данные по цене некоторого
блага (Х) и количеству (Y) данного блага, приобретаемого домохозяйством
ежемесячно в течении года.
Предполагается, что генеральное
уравнение регрессии - линейное.
Цена,
Х
|
10
|
20
|
15
|
25
|
30
|
35
|
40
|
Приобретаемое
количество, Y
|
110
|
75
|
100
|
80
|
60
|
55
|
40
|
. Найти оценки коэффициентов регрессии b0 и b1.
. С надежностью 0,9 определить интервальные
оценки теоретических коэффициентов регрессии.
. Определить коэффициент детерминации и сделать
соответствующие выводы о качестве уравнения регрессии.
. С доверительной вероятностью 0,05 определить
интервальную оценку условного математического ожидания Y при Х = 23.
Решение.
Найти оценки коэффициентов регрессии b0 и b1.
Генеральное уравнение регрессии -
линейное: .
№
п/п
|
X
|
Y
|
Х2
|
XY
|
1
|
10
|
110
|
100
|
1100
|
2
|
20
|
75
|
400
|
1500
|
3
|
15
|
100
|
225
|
1500
|
4
|
25
|
80
|
625
|
2000
|
5
|
30
|
60
|
900
|
1800
|
6
|
35
|
55
|
1225
|
1925
|
7
|
40
|
40
|
1600
|
1600
|
Итого
|
175
|
520
|
5075
|
11425
|
Среднее
|
25
|
74,28571
|
725
|
1632,143
|
2. С надежностью 0,9 определим
интервальные оценки теоретических коэффициентов регрессии.
Для уровня значимости a=0,1 и числа степеней свободы
k = n - 2 = 7 - 2 = = 5 критерий Стьюдента равен .
Дисперсии средние квадратичные
отклонения коэффициентов и уравнения
регрессии определим из равенств:
Для определения математической
значимости коэффициентов b0 и b1 найдем t - статистику Стьюдента:
;
Сравнение расчетных и табличных
величин критерия Стьюдента показывает, что или и или 9,987 > 2,5706, т.е. с
надежностью 0,9 оценка b0 теоретического коэффициента регрессии b0 значима, оценка b1
теоретического коэффициента регрессии b1
значима.
Доверительные интервалы для этих
коэффициентов равны:
Подставив числовые значения,
значения коэффициентов b0 и b1, их средние квадратичные отклонения и значение
для t имеем:
Одинаковые по знаку значения верхней
и нижней границ измерений коэффициента b0
и b1
свидетельствует о его статистической значимости.
. Определим коэффициент детерминации
и сделаем соответствующие выводы о качестве уравнения регрессии.
Для определения коэффициента
детерминации воспользуемся результатами расчетов.
По таблице 1 найдем:
общую ошибку:
ошибку объясняемую регрессией
остаточную ошибку
Причем имеем TSS = RSS + ESS
Тогда коэффициент детерминации равен
Полученная величина коэффициента
детерминации свидетельствует о том, что необъясненная ошибка составляет около
95,23% от общей ошибки. Уравнение качественное.
. С доверительной вероятностью 0,05
определим интервальную оценку условного математического ожидания Y при Х = 23.
Дисперсия математического ожидания
прогнозируемой величины yp равна
Среднее квадратичное отклонение
математического ожидания прогнозируемой величины равно
С уровнем значимости a=0,05 доверительный интервал
для условного математического ожидания yp при данном xp равен:
или .
Задача 3.16. Построение и анализ
множественной регрессии
По данным, представленным в таблице,
изучается зависимость средней ожидаемой продолжительности жизни (лет) Y от
переменных: Х1 - ВВП в паритетах покупательской способности; Х2 - темпы
прироста населения по сравнению с предыдущим годом, %; Х3 - темпы прироста
рабочей силы по сравнению с предыдущим годом, %; Х4 - коэффициент младенческой
смертности, %.
Страна
|
Y
|
X1
|
X2
|
X3
|
X4
|
Мозамбик
|
47
|
3
|
2,4
|
113
|
Бурунди
|
49
|
2,3
|
2,6
|
2,7
|
98
|
Чад
|
48
|
2,6
|
2,5
|
2,5
|
117
|
Непал
|
55
|
4,3
|
2,5
|
2,4
|
91
|
Буркина-Фасо
|
49
|
2,9
|
2,8
|
2,1
|
99
|
Мадагаскар
|
52
|
2,4
|
3,1
|
3,1
|
89
|
Бангладеш
|
58
|
5,1
|
1,6
|
2,1
|
79
|
Гаити
|
57
|
3,4
|
2
|
1,7
|
72
|
Мали
|
50
|
2
|
2,9
|
2,7
|
123
|
Нигерия
|
53
|
4,5
|
2,9
|
2,8
|
80
|
Кения
|
58
|
5,1
|
2,7
|
2,7
|
58
|
Того
|
56
|
4,2
|
3
|
2,8
|
88
|
Индия
|
62
|
5,2
|
1,8
|
2
|
68
|
Бенин
|
50
|
6,5
|
2,9
|
2,5
|
95
|
Никарагуа
|
68
|
7,4
|
3,1
|
4
|
46
|
Гана
|
59
|
7,4
|
2,8
|
2,7
|
73
|
Ангола
|
47
|
4,9
|
3,1
|
2,8
|
124
|
Пакистан
|
60
|
8,3
|
2,9
|
3,3
|
90
|
Мавритания
|
51
|
5,7
|
2,5
|
2,7
|
96
|
Зимбабве
|
57
|
7,5
|
2,4
|
2,2
|
55
|
Гондурас
|
67
|
7
|
3
|
3,8
|
45
|
Китай
|
69
|
10,8
|
1,1
|
1,1
|
34
|
Камерун
|
57
|
7,8
|
2,9
|
3,1
|
56
|
Конго
|
51
|
7,6
|
2,9
|
2,6
|
90
|
Шри-Ланка
|
72
|
12,1
|
1,3
|
2
|
16
|
Египед
|
63
|
14,2
|
2
|
2,7
|
56
|
Индонезия
|
64
|
14,1
|
1,6
|
2,5
|
51
|
Филлипины
|
66
|
10,6
|
2,2
|
2,7
|
39
|
Марокко
|
65
|
12,4
|
2
|
2,6
|
55
|
Папуа-Новая
Гвинея
|
57
|
9
|
2,3
|
2,3
|
64
|
Гватемала
|
66
|
12,4
|
2,9
|
3,5
|
44
|
Эквадор
|
69
|
15,6
|
2,2
|
3,2
|
36
|
Доминиканская
Республика
|
71
|
14,3
|
1,9
|
2,6
|
37
|
Ямайка
|
74
|
13,1
|
1
|
1,8
|
13
|
Алдир
|
70
|
19,6
|
2,2
|
4,1
|
34
|
Республика
Эль-Сальвадор
|
67
|
9,7
|
2,2
|
3,4
|
36
|
Парагвай
|
68
|
13,5
|
2,7
|
2,9
|
41
|
Тунис
|
69
|
18,5
|
1,9
|
3
|
39
|
Белоруссия
|
70
|
15,6
|
0,2
|
0,2
|
13
|
Перу
|
66
|
14
|
2
|
3,1
|
47
|
Тайланд
|
69
|
28
|
0,9
|
1,3
|
35
|
Панама
|
73
|
22,2
|
1,7
|
2,4
|
23
|
Турция
|
67
|
20,7
|
1,7
|
2,1
|
48
|
Польша
|
70
|
20
|
0,3
|
0,6
|
14
|
Словакия
|
72
|
13,4
|
0,3
|
0,7
|
11
|
Венесуэла
|
71
|
29,3
|
2,3
|
3
|
23
|
ЮАР
|
64
|
18,6
|
2,2
|
2,4
|
50
|
Мексика
|
72
|
23,7
|
1,9
|
2,8
|
33
|
Мавритания
|
71
|
49
|
1,3
|
1,8
|
16
|
Бразилия
|
67
|
20
|
1,5
|
1,6
|
44
|
Тринидад
|
72
|
31,9
|
0,8
|
1,8
|
13
|
Малайзия
|
71
|
33,4
|
2,4
|
2,7
|
12
|
Чили
|
72
|
35,3
|
1,5
|
2,1
|
12
|
Уругвай
|
73
|
24,6
|
0,6
|
1
|
18
|
Аргентина
|
73
|
30,8
|
1,3
|
2
|
22
|
Греция
|
78
|
43,4
|
0,6
|
0,9
|
8
|
Республика
Корея
|
72
|
42,4
|
0,9
|
1,9
|
10
|
Испания
|
77
|
53,8
|
0,2
|
1
|
7
|
Новая
Зеландия
|
76
|
60,6
|
1,4
|
1,5
|
7
|
77
|
58,1
|
0,5
|
1,7
|
6
|
Израиль
|
77
|
61,1
|
3,5
|
3,5
|
8
|
Австралия
|
77
|
70,2
|
1,1
|
1,4
|
6
|
Италия
|
78
|
73,7
|
0,2
|
0,4
|
7
|
Канада
|
78
|
78,3
|
1,3
|
1
|
6
|
Финляндия
|
76
|
65,8
|
0,5
|
0,1
|
5
|
Гонконг
|
79
|
85,1
|
1,6
|
1,3
|
5
|
Швеция
|
79
|
68,7
|
0,6
|
0,3
|
4
|
Нидерланды
|
78
|
73,9
|
0,7
|
0,6
|
6
|
Бельгия
|
77
|
80,3
|
0,4
|
0,5
|
8
|
Франция
|
78
|
78
|
0,5
|
0,8
|
6
|
Сингапур
|
76
|
84,4
|
2
|
1,7
|
4
|
Автрия
|
77
|
78,8
|
0,8
|
0,5
|
6
|
США
|
77
|
100
|
1
|
1,1
|
8
|
Дания
|
75
|
78,7
|
0,3
|
0
|
6
|
Япония
|
80
|
82
|
0,3
|
0,6
|
4
|
Швейцария
|
78
|
95,6
|
1
|
0,8
|
6
|
. Постройте матрицу парных коэффициентов
корреляции. Установите, какие факторы коллинеарны.
. Постройте уравнение множественной регрессии,
обосновав отбор факторов.
. Проведите тестирование ошибок уравнения
множественной регрессии на гетероскедатичность, применив тест
Гельфельда-Квандта.
. Оцените статистическую значимость уравнения
множественной регрессии. Какие факторы значимо воздействуют на формирование
средней продолжительности жизни в этом уравнении?
. Постройте уравнение множественной регрессии со
статистически значимыми факторами.
Решение.
Воспользуемся MS Excel.
. Построим матрицу парных коэффициентов
корреляции. Установим, какие факторы коллинеарны.
Сервис - Анализ данных - Корреляция
|
Y
|
X1
|
X2
|
X3
|
X4
|
Y
|
1
|
|
|
|
|
X1
|
0,780323
|
1
|
|
|
|
X2
|
-0,72516
|
-0,62259
|
1
|
|
|
X3
|
-0,53368
|
-0,65827
|
0,873778
|
1
|
|
X4
|
-0,96876
|
-0,74343
|
0,736073
|
0,553603
|
1
|
Анализ матрицы коэффициентов парной корреляции
показывает, что зависимая переменная, т.е. средняя ожидаемая продолжительность
жизни, имеет тесную связь с коэффициентом младенческой смертности
(ryx4=-0,969), с ВВП в паритетах покупательской способности (ryx1=0,780), с
темпами прироста населения (ryx2=0,725). Однако факторы Х2 и Х3 тесно связаны
между собой (rx2x3=0,874) и факторы Х2 и Х4 также тесно связаны (rx2x4=0,736),
что свидетельствует о наличии коллинеарности.
Коллинеарность - зависимость между факторами. В
качестве критерия мультиколлинеарности может быть принято соблюдение следующих
неравенств:
r(xjy) > r(xkxj) ; r(xky) > r(xkxj).
Коллинеарны факторы х2 и х3, х2 и х4, а также х3
и х4.
. Построим уравнение множественной регрессии,
обосновав отбор факторов.
Из модели исключим фактор х3, так как зависимая
переменная слабо зависит от этого фактора и чтобы исключить мультиколлинеарность.
Сервис - Анализ данных - Регрессия
ВЫВОД
ИТОГОВ
|
|
|
|
|
|
|
|
|
|
|
|
|
Регрессионная
статистика
|
|
|
|
|
|
Множественный
R
|
0,972926
|
|
|
|
|
|
R-квадрат
|
0,946586
|
|
|
|
|
|
Нормированный
R-квадрат
|
0,94436
|
|
|
|
|
|
Стандартная
ошибка
|
2,267593
|
|
|
|
|
|
Наблюдения
|
76
|
|
|
|
|
|
|
|
|
|
|
|
|
Дисперсионный
анализ
|
|
|
|
|
|
df
|
SS
|
MS
|
F
|
Значимость
F
|
|
Регрессия
|
3
|
6560,936
|
2186,979
|
425,3186
|
1,05E-45
|
|
Остаток
|
72
|
370,2223
|
5,141977
|
|
|
|
Итого
|
75
|
6931,158
|
|
|
|
|
|
|
|
|
|
|
|
|
Коэффициенты
|
Стандартная
ошибка
|
t-статистика
|
P-Значение
|
Нижние
95%
|
Верхние
95%
|
Y-пересечение
|
75,43822
|
0,998632
|
75,54159
|
2,59E-70
|
73,44749
|
77,42896
|
X1
|
0,044695
|
0,01381
|
3,236416
|
0,00183
|
0,017165
|
0,072225
|
X2
|
-0,0452
|
0,421364
|
-0,10727
|
0,91487
|
-0,88518
|
0,794772
|
X4
|
-0,23956
|
0,013205
|
-18,1409
|
1,45E-28
|
-0,26588
|
-0,21323
|
Уравнение множественной регрессии:
y = 75,438 + 0,045x1 - 0,045x2 - 0,239x4
. Проведем тестирование ошибок уравнения
множественной регрессии на гетероскедатичность, применив тест
Гельфельда-Квандта.
Упорядочим по возрастанию значения переменной,
затем исключим С центральных наблюдений, при этом (n - C)/2 > p, где р -
число оцениваемых параметров, затем разделим совокупность на две группы и
определим в каждой группе остаточные суммы S1 и S2 и находим их отношение R.
Гетероскедатичность по Y:
Критерий Табличное значение F-критерия
,75 > 3,9685
Гетероскедатичность по X1:
Критерий Табличное значение F-критерия
,08 > 3,9685
Гетероскедатичность по X2:
Критерий Табличное значение F-критерия
,59 > 3,9685
Гетероскедатичность по X4:
Критерий Табличное значение F-критерия
,540 > 3,9685
Все значения больше табличного значения
F-критерия, следовательно, дисперсии остаточных величин не равны.
. Оценим статистическую значимость уравнения
множественной регрессии. Какие факторы значимо воздействуют на формирование
средней продолжительности жизни в этом уравнении?табл = 3,9685
Так как F = 425,3 (см таблицу Вывод итогов) >
Fтабл., то уравнение множественной регрессии статистически значимо.
Коэффициент Стьюдента при n = 77 и уровне
значимости 0,05 равен t(77; 0,05) = 1,9921.
Так как расчетные значения коэффициентов t,
меньше чем табличное только для фактора х2, следовательно фактор х2 - не
значим, факторы х1 и х4 - значимы.
. Построим уравнение множественной регрессии со
статистически значимыми факторами.
Построим уравнение с факторами х1 и х4.
ВЫВОД
ИТОГОВ
|
|
|
|
|
|
|
|
|
|
|
|
|
Регрессионная
статистика
|
|
|
|
|
|
Множественный
R
|
0,972922
|
|
|
|
|
|
R-квадрат
|
0,946577
|
|
|
|
|
|
Нормированный
R-квадрат
|
0,945114
|
|
|
|
|
|
Стандартная
ошибка
|
2,252188
|
|
|
|
|
|
Наблюдения
|
76
|
|
|
|
|
|
Дисперсионный
анализ
|
|
|
|
|
|
df
|
SS
|
MS
|
F
|
Значимость
F
|
|
Регрессия
|
2
|
6560,876
|
3280,438203
|
646,7295717
|
3,6476E-47
|
|
Остаток
|
73
|
370,2815
|
5,072349165
|
|
|
|
Итого
|
75
|
6931,158
|
|
|
|
|
|
|
|
|
|
|
|
|
Коэффициенты
|
Стандартная
ошибка
|
t-статистика
|
P-Значение
|
Нижние
95%
|
Верхние
95%
|
Y-пересечение
|
75,38184
|
0,843346
|
89,38425291
|
2,48751E-76
|
73,70105265
|
77,06262
|
X1
|
0,044942
|
0,013525
|
3,322917729
|
0,001394518
|
0,017986926
|
0,071897
|
X4
|
-0,2403
|
0,011187
|
-21,48060931
|
2,77613E-33
|
-0,262593269
|
-0,218
|
= 75,382 + 0,045Х1 - 0,240Х4.
Список используемой литературы
регрессия аппроксимация дисперсия
уравнение
Айвазян
С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. Учебник для
вузов. - М.ЮНИТИ, 1998. - 1022 с.
Бородич
С.А. Эконометрика: Учеб. пособие. - Мн.: Новое знание, 2001. - 408 с.
Кремер
Н.Ш., Путко Б.А. Эконометрика: Учебник для вузов / Под ред. Проф. Н.Ш. Кремера.
- М.: ЮНИТИ-ДАНА, 2002. - 311 с.
Кулинич
Е.И. Эконометрия. - М.: Финансы и статистика, 2001. - 304 с.
Орлов
А.И. Эконометрика: Учебное пособие для вузов / А.И. Орлов - М.: Экзамен, 2002.
- 576 с.