Построение и анализ модели множественной регрессии
Построение
и анализ модели множественной регрессии
По исходным данным требуется:
. Построить классическую линейную модель
множественной регрессии, выполнить экономический анализ основных показателей
модели: коэффициентов "чистой" регрессии, индекса корреляции, индекса
детерминации, оценить значимость модели в целом (F-критерий Фишера) и отдельных
ее параметров (t-статистика Стьюдента).
. Проанализировать матрицу парных коэффициентов
корреляции на наличие мультиколлинеарности. Если мультиколлинеарность
присутствует - устранить (или ослабить) ее методом пошагового отбора
переменных.
. Построить линейную модель регрессии только со
значимыми факторами (на основании выводов, сделанных в п.п. 1 и 2). Дать
экономическую интерпретацию коэффициентов модели. Оценить качество построенной
модели (индексы корреляции и детерминации, F-критерий Фишера, средняя
относительная ошибка аппроксимации). Дайте оценку влияния значимых факторов на
результат с помощью коэффициентов эластичности, β- и
Δ-
коэффициентов.
. Построить и проанализировать линейную модель
парной регрессии с наиболее значимым фактором. Сравнить качество моделей,
построенных в п.п. 3 и 4.
. Осуществить прогнозирование (точечный прогноз
и доверительный интервал прогноза) среднего значения показателя Y при уровне
значимости a = 0,1 при условии, что прогнозное значения
фактора X составит 80% от его максимального значения (для однофакторной
модели).
. Представить графически: фактические и
модельные значения, точечный прогноз и доверительный интервал прогноза (для
однофакторной модели).
Изучите зависимость стоимости квартиры от ряда
основных факторов.
Таблица 1 - Исходные данные
№
п/п
|
Х1
- общая площадь квартиры (м2)
|
X2
- жилая площадь квартиры (м2)
|
X3
- тип дома (1 - кирпичный, 0 - другой)
|
X4
- наличие балкона (1 - есть, 0 - нет)
|
Y
- цена квартиры, тыс. долл.
|
1
|
39,0
|
20,0
|
0
|
1
|
15,9
|
2
|
68,4
|
40,5
|
0
|
1
|
27,0
|
3
|
34,8
|
16,0
|
0
|
1
|
13,5
|
4
|
39,0
|
20,0
|
0
|
1
|
15,1
|
5
|
54,7
|
28,0
|
0
|
1
|
21,1
|
6
|
74,7
|
46,3
|
0
|
1
|
28,7
|
7
|
71,1
|
45,9
|
0
|
0
|
27,2
|
8
|
74,5
|
47,5
|
0
|
0
|
28,3
|
9
|
137,7
|
87,2
|
0
|
1
|
52,3
|
10
|
40,0
|
17,7
|
1
|
1
|
22,0
|
11
|
53,0
|
31,1
|
1
|
1
|
28,0
|
12
|
86,0
|
48,7
|
1
|
1
|
45,0
|
13
|
98,0
|
65,8
|
1
|
1
|
51,0
|
14
|
62,6
|
21,4
|
1
|
1
|
34,4
|
15
|
45,3
|
20,6
|
1
|
1
|
24,7
|
16
|
56,4
|
29,7
|
1
|
1
|
30,8
|
17
|
37,0
|
17,8
|
0
|
1
|
15,9
|
18
|
67,5
|
43,5
|
0
|
1
|
29,0
|
19
|
37,0
|
17,8
|
0
|
1
|
15,4
|
20
|
69,0
|
42,4
|
0
|
1
|
28,6
|
21
|
40,0
|
20,0
|
0
|
0
|
15,6
|
22
|
69,1
|
41,3
|
0
|
1
|
27,7
|
23
|
68,1
|
35,4
|
1
|
1
|
34,1
|
24
|
75,3
|
41,4
|
1
|
1
|
37,7
|
25
|
83,7
|
48,5
|
1
|
1
|
41,9
|
26
|
48,7
|
22,3
|
1
|
1
|
24,4
|
27
|
39,9
|
18,0
|
1
|
0
|
21,3
|
28
|
68,6
|
35,5
|
1
|
1
|
36,7
|
29
|
39,0
|
20,0
|
1
|
0
|
21,5
|
30
|
48,6
|
31,0
|
1
|
0
|
26,4
|
регрессия корреляция интервал
прогноз
Решение
Линейная модель множественной регрессии имеет
вид:
,
где -
расчётные значения исследуемой переменной,
- факторные переменные.
- коэффициенты
уравнения, каждый из которых показывает, насколько изменится значение
исследуемого признака при изменении соответствующего фактора на 1 при
неизменных прочих факторных переменных.
Рассмотрим факторные признаки для построения
регрессионной модели.
Цена квартиры - это зависимая переменная Y;
Независимые объясняющие переменные:
- общая площадь квартиры Х1;
- жилая площадь квартиры Х2;
- тип дома Х3;
- наличие балкона Х4
. Построим классическую модель множественной
регрессии
Классическая линейная модель множественной
регрессии можно представить в виде:
Проведем регрессивный анализ, используя
инструмент Excel "Регрессия" (Сервис - Анализ данных - Регрессия).
Таблица 2 - Протокол выполнения регрессивного
анализа многофакторной модели
ВЫВОД
ИТОГОВ
|
|
|
|
|
|
|
|
|
Регрессионная
статистика
|
|
|
|
|
|
|
|
Множественный
R
|
0,9899
|
|
|
|
|
|
|
|
R-квадрат
|
0,9800
|
|
|
|
|
|
|
|
Нормированный
R-квадрат
|
0,9768
|
|
|
|
|
|
|
|
Стандартная
ошибка
|
1,5612
|
|
|
|
|
|
|
|
Наблюдения
|
30
|
|
|
|
|
|
|
|
Дисперсионный
анализ
|
|
|
|
|
|
|
|
|
df
|
SS
|
MS
|
F
|
Значимость
F
|
|
|
|
Регрессия
|
4
|
2979,3358
|
744,8339
|
305,5792
|
7,88E-21
|
|
|
|
Остаток
|
25
|
60,9362
|
2,4374
|
|
|
|
|
|
Итого
|
29
|
3040,2720
|
|
|
|
|
|
|
|
Коэффициенты
|
Стандартная
ошибка
|
t-статистика
|
P-Значение
|
Нижние
95%
|
Верхние
95%
|
Нижние
95,0%
|
Верхние
95,0%
|
Y-пересечение
|
-1,4274
|
1,0985
|
-1,2994
|
0,2057
|
-3,6897
|
0,8350
|
-3,6897
|
0,8350
|
Переменная
X 1
|
0,3541
|
0,0663
|
5,3387
|
0,0000
|
0,2175
|
0,4907
|
0,2175
|
0,4907
|
Переменная
X 2
|
0,0743
|
0,0905
|
0,8207
|
0,4196
|
-0,1121
|
0,2607
|
-0,1121
|
0,2607
|
Переменная
X 3
|
8,1470
|
0,6364
|
12,8010
|
0,0000
|
6,8363
|
9,4578
|
6,8363
|
9,4578
|
Переменная
X 4
|
1,6286
|
0,7845
|
2,0759
|
0,0483
|
0,0129
|
3,2443
|
0,0129
|
3,2443
|
Из анализа получаем коэффициенты уравнения.
Уравнение регрессии зависимости цены квартиры от
независимых объясняющих переменных принимает вид:
y = -1,4274 + 0,3541 x1 + 0,0743 x2 + 8,1470 x3
+ 1,6286 x4
Оценим качество модели.
Определим коэффициент детерминации.
R2 =
Коэффициент детерминации показывает, что около
98% вариации зависимой переменной учтено в модели и обусловлено влиянием
включенных факторов.
Коэффициент множественной корреляции R = 0,9899
Он показывает высокую тесноту связи зависимой
переменной Y с двумя включенными в модель объясняющими факторами.
Оценим значимость модели в целом на основе
вычисления F-критерия Фишера.
По данным дисперсионного анализа F = 305,5792
Табличное значение F-критерия со степенями
свободы
υ 1= k и
υ2
= (n - k - 1),
где n = 30 (количество наблюдений), k = 4
(количество факторов, включенных в модель) найдем при помощи функции
FРАСПОБР()табл = 2,7587
Поскольку F > Fтабл, уравнение регрессии
следует признать адекватным.
С помощью t-статистики Стьюдента оценим
статистическую значимость отдельных параметров.
По данным дисперсионного анализа:= -1,2994, tb1
= 5,3387, tb2 = 0,8207, tb3 = 12,8010, tb4 = 2,0759
Табличное значение t-статистики Стьюдента найдем
с помощью функции СТЬЮДРАСПОБР()табл = 2,0595
Среди всех коэффициентов значимыми (tb >
tтабл) являются коэффициенты b1, b3 и b4.
По такой модели прогноз сделать не
представляется возможным, поскольку большинство коэффициентов регрессии при
переменных не значимы.
. Проведем корреляционный анализ для исключения
незначимых факторов и устранения мультиколлинеарности.
Используем инструмент Excel
"Корреляция" (Сервис - Анализ данных - Корреляция).
Таблица 3 - Матрица коэффициентов парной
корреляции
|
y
- цена квартиры, тыс. долл.
|
x1
- общая площадь квартиры (м2)
|
x2
- жилая площадь квартиры (м2)
|
x3
- тип дома (1- кирпичный, 0 - другой)
|
x4
- наличие балкона (1- есть, 0 - нет)
|
y
- цена квартиры, тыс. долл.
|
1
|
|
|
|
|
x1
- общая площадь квартиры (м2)
|
0,9066
|
1
|
|
|
|
x2
- жилая площадь квартиры (м2)
|
0,8438
|
0,9725
|
1
|
|
|
x3
- тип дома (1- кирпичный, 0 - другой)
|
0,3927
|
-0,0005
|
-0,0976
|
1
|
|
x4
- наличие балкона (1- есть, 0 - нет)
|
0,1967
|
0,1133
|
0
|
1
|
Анализ матрицы показывает, что цена квартиры
имеет тесную связь с индексами:- общая площадь квартиры (0,9066)- жилая площадь
квартиры (0,8438)
Факторы х1 и х2 тесно связаны между собой
(0,9725 > 0,8438), т. е. наблюдается мультиколлинеарность, поэтому оставляем
в модели фактор х1.
После исключения незначимых факторов n = 30, k =
1
. Построим линейную модель регрессии только со
значимыми факторами.
Таблица 3 - Протокол выполнения регрессионного
анализа только со значимыми факторами
ВЫВОД
ИТОГОВ
|
|
|
|
|
|
|
|
|
Регрессионная
статистика
|
|
|
|
|
|
|
|
Множественный
R
|
0,9066
|
|
|
|
|
|
|
|
R-квадрат
|
0,8220
|
|
|
|
|
|
|
|
Нормированный
R-квадрат
|
0,8156
|
|
|
|
|
|
|
|
Стандартная
ошибка
|
4,3968
|
|
|
|
|
|
|
|
Наблюдения
|
30
|
|
|
|
|
|
|
|
Дисперсионный
анализ
|
|
|
|
|
|
|
|
|
|
df
|
SS
|
MS
|
F
|
Значимость
F
|
|
|
|
Регрессия
|
1
|
2498,9831
|
2498,9831
|
129,2684
|
5,26E-12
|
|
|
|
Остаток
|
28
|
541,2889
|
19,3317
|
|
|
|
|
|
Итого
|
29
|
3040,2720
|
|
|
|
|
|
|
|
Коэффициенты
|
Стандартная
ошибка
|
t-статистика
|
P-Значение
|
Нижние
95%
|
Верхние
95%
|
Нижние
95,0%
|
Верхние
95,0%
|
Y-пересечение
|
2,9342
|
2,3495
|
1,2488
|
0,2221
|
-1,8786
|
7,7470
|
-1,8786
|
7,7470
|
Переменная
X 1
|
0,4123
|
0,0363
|
11,3696
|
0,0000
|
0,3380
|
0,4866
|
0,3380
|
0,4866
|
Из анализа получаем коэффициенты уравнения
регрессии а0, а1.
Уравнение регрессии зависимости цены квартиры
только от общей площади квартиры принимает вид:
= 2,9342 + 0,4123x1
Это означает, что величина стоимости квартиры в
среднем по совокупности возрастала на 412,3 долларов при увеличении общей
площади квартиры на 1 м2.
Оценим качество построенной модели, определив
коэффициент детерминации.
= 1 -
Коэффициент детерминации показывает, что около
82,2% вариации зависимой переменной учтено в модели и обусловлено влиянием
наиболее значимого фактора.
Коэффициент множественной корреляции R = 0,9066
Он показывает высокую тесноту связи зависимой
переменной у с объясняющим фактором.
Оценим значимость модели в целом на основе
вычисления F-критерия Фишера.
По данным дисперсионного анализа F = 129,2684
Табличное значение F-критерия со степенями
свободы
υ1= k и
υ2
= (n - k - 1),
где n = 30 (количество наблюдений), k = 1
(количество факторов, включенных в модель) найдем при помощи функции
FРАСПОБР()табл = 4,19597
Поскольку F > Fтабл, уравнение регрессии
следует признать адекватным.
Определим среднюю относительную ошибку аппроксимации:
Еотн.ср. 14,85
Поскольку Eотн.ср. меньше 15%, следовательно
точность считается удовлетворительной.
. Осуществим прогнозирование среднего значения
показателя Y при условии, что прогнозное значения фактора X составит 80% от его
максимального значения.
Точечный прогноз вычисляем путём подстановки в
уравнение прогнозного значения факторной переменной:
Для однофакторной модели максимальное значение
Х = 137,7 × 80%
= 110,16
= 48,3547
Доверительный интервал прогноза зависит от
стандартной ошибки, удаления xпрогн от своего среднего значения в ряде
наблюдений xср, количества наблюдений n и уровня значимости прогноза α:
Стандартная ошибка Sст = 4,3968 (по данным
таблицы 3).,1 = СТЬЮДРАСПОБР(0,1; 28) = 1,7011
Доверительный интервал L = 1,3204
Фактические значения исследуемого признака с
вероятностью (1 - α) попадут в
интервал
.
. Представим графически: фактические и модельные
значения, точечный прогноз и доверительный интервал прогноза (для однофакторной
модели).
Таблица 4 - Прогнозирование цены
№
п/п
|
Фактическое
y - цена квартиры, тыс. долл.
|
x1
- общая площадь квартиры, (м2)
|
Предсказанное
y - цена квартиры, тыс. долл.
|
1
|
15,9
|
39
|
19,0144
|
2
|
27
|
68,4
|
31,1365
|
3
|
13,5
|
34,8
|
17,2827
|
4
|
15,1
|
39
|
19,0144
|
5
|
21,1
|
54,7
|
25,4878
|
6
|
28,7
|
74,7
|
33,7341
|
7
|
27,2
|
71,1
|
32,2497
|
8
|
28,3
|
74,5
|
33,6516
|
9
|
52,3
|
137,7
|
59,7098
|
10
|
22
|
40
|
19,4268
|
11
|
28
|
53
|
24,7868
|
12
|
45
|
86
|
38,3932
|
13
|
51
|
98
|
43,3410
|
14
|
34,4
|
62,6
|
28,7451
|
15
|
24,7
|
45,3
|
21,6120
|
16
|
30,8
|
56,4
|
26,1887
|
17
|
15,9
|
37
|
18,1898
|
18
|
29
|
67,5
|
30,7654
|
19
|
15,4
|
37
|
18,1898
|
20
|
28,6
|
69
|
31,3839
|
21
|
15,6
|
40
|
19,4268
|
22
|
27,7
|
69,1
|
31,4251
|
23
|
34,1
|
68,1
|
31,0128
|
24
|
37,7
|
75,3
|
33,9814
|
25
|
41,9
|
83,7
|
37,4449
|
26
|
24,4
|
48,7
|
23,0139
|
27
|
21,3
|
39,9
|
19,3855
|
28
|
36,7
|
68,6
|
31,2189
|
29
|
21,5
|
39
|
19,0144
|
30
|
26,4
|
48,6
|
22,9727
|
31
|
|
110,16
|
48,3547
|
Таблица 5 - Результаты прогнозных оценок
Прогнозируемое
значение
|
48,3547
|
Уровень
значимости
|
0,1
|
Стандартная
ошибка
|
4,3968
|
Размер
выборки
|
30
|
Число
степеней свободы
|
28
|
Табличное
t-статистики Стьюдента
|
1,7011
|
Доверительный
интервал
|
1,3204
|
Нижняя
граница Y
|
47,0343
|
Верхняя
граница Y
|
49,6751
|