Построение и анализ качества регрессионной модели

Вид работы:

Курсовая работа (т)
Предмет:

Менеджмент
Язык:

Русский
,
Формат файла:
MS Word

255,37 Кб
Опубликовано:

2013-12-04

Все курсовые работы по менеджменту

Скачать курсовую работу Читать текст online Заказать курсовую
*Помощь в написании! Посмотреть все курсовые работы

Вы можете узнать стоимость помощи в написании студенческой работы.

Построение и анализ качества регрессионной модели

БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

Экономический факультет

Кафедра экономической информатики и математической экономики

Курсовой проект

По дисциплине «ЭКОНОМЕТРИКА»

На тему: Построение и анализ качества регрессионной модели

Минск, 2013 г.

Введение

В курсовой работе на предложенной совокупности данных была построена эконометрическая модель и проведен ее анализ. Модель была проверена на адекватность (соответствие предпосылкам МНК) с помощью ряда тестов.

Для исследования предлагалась совокупность временных данных по экономике Литвы (квартальные данные 2003-2011 гг), а именно значения валового внутреннего продукта, млн.евро, количества трудоустроенных, тыс. чел, индекса потребительских цен, %.

Выбор вышеперечисленных переменных экономически обоснован: между изменением ВВП и изменением количества трудоустроенных существует прямая зависимость: при росте количества занятых людей наблюдается рост ВВП. Также есть зависимость между ВВП и ИПЦ.

Таким образом, можно сказать, что между выбранными переменными существует взаимосвязь.

Цель курсовой работы - построение качественной и адекватной эконометрической модели и проведение ее анализа на наличие автокорреляции остатков, мультиколлинеарности, гетероскедастичности.

В рамках поставленной цели определены следующие задачи:

ü Построение эконометрической модели по методу наименьших квадратов;

ü анализ качества модели;

ü проверка модели на соответствие предпосылкам МНК.

В ходе исследования использовалось приложение Пакет анализа в Excel.

автокорреляция мультиколлинеарность гетероскедастичность статистика

1. Анализ и методы

Построим эконометрическую модель и проведем ее анализ согласно предложенному плану:

. Оценим каждую переменную в отдельности. Для этого приведем графики и описательную статистику каждой переменной:

А) ВВП

Таблица 1. ВВП

Столбец1
Среднее	23229,6
Стандартная ошибка	426,4114971
Медиана	22855,35
Мода	#Н/Д
Стандартное отклонение	2558,468982
Дисперсия выборки	6545763,534
Эксцесс	-0,651988342
Асимметричность	-0,206193402
Интервал	9649,8
Минимум	18428,6
Максимум	28078,4
Сумма	836265,6
Счет	36
R-коварияции	0,110138314

По графику видно, что с увеличением количества наблюдений (времени), значение переменной увеличивается незначительно. На графике также не наблюдается заметных отклонений, выбросов и т.д., лишь плавное изменение. Это подтверждает и коэффициент вариации, значение которого <30%.

Б) Количество трудоустроенных

Таблица 2. Количество трудоустроенных

Столбец1
Среднее	4121,166667
Стандартная ошибка	16,55998476
Медиана	4115,3
Мода	#Н/Д
Стандартное отклонение	99,35990856
Дисперсия выборки	9872,391429
Эксцесс	0,022046393
Асимметричность	-0,454022256
Интервал	426
Минимум	3889,4
Максимум	4315,4
Сумма	148362
Счет	36
R-коварияции	0,024109655

Ситуация для второй переменной аналогична, и график подтверждает это. Только прогиб кривой более заметен и более выпуклый, чем в случае с ВВП.

Зависимость ВВП и количества трудоустроенных объясняет график корреляционного поля:

В) ИПЦ

Таблица 3. ИПЦ

Столбец1
Среднее	0,486111111
Стандартная ошибка	0,630773684
Медиана	-0,1
Мода	-1,4
Стандартное отклонение	3,784642106
Дисперсия выборки	14,32351587
Эксцесс	0,285378312
Асимметричность	-0,287046349
Интервал	16,4
Минимум	-9,2
Максимум	7,2
Сумма	17,5
Счет	36
R-коварияции	7,785549476

Коэффициент вариации, в отличие от предыдущих случаев, указывает на значительную изменчивость ряда. График переменной подтверждает данное утверждение.

Отрицательная зависимость ИПЦ и ВВП прослеживается по графику корреляционного поля:

По результатам описательной статистики переменных, для двух рядов (ВВП, количество трудоустроенных) характерна невысокая изменчивость, т.е. они стабильны. В то же время, ряд ИПЦ является изменчивым.

Исследуем наличие зависимости между переменными путем построения корреляционной матрицы:

Таблица 4

	Столбец 1	Столбец 2	Столбец 3
Столбец 1	1
Столбец 2	0,217591742	1
Столбец 3	0,202802894	0,186712072	1

По результатам корреляционной матрицы видно, что существует зависимость между ВВП и количеством трудоустроенных (высокие коэффициенты корреляции), а также между ВВП и ИПЦ. А зависимости между ИПЦ и количеством трудоустроенных нет.

. По методу наименьших квадратов построим эконометрическую модель

ВВП= 2109,374648+ 2,88Колтруд- 17,41ИПЦквадрат = 0,021

Коэффициент b₁ =2,88 показывает, что при увеличении количества трудоустроенных на 1 тыс. чел ВВП увеличивается в среднем на 2,88 млн. евро, а b₂=17,41 означает, что увеличение ИПЦ в равнении с предыдущим периодом на 1% приводит к уменьшению ВВП в среднем на 17,41млн. евро.

. Проанализируем качество модели:

· t-статистика коэффициента b1и b2 указывает на взаимосвязь ВВП с количеством трудоустроенных, ВВП и ИПЦ.

· P-значения подтверждают деланные выводы: оба коэффициентаb1 и b2значимы на любом уровне значимости (a>P≈0);

· R- квадрат модели имеет низкое значение.

. Протестируем регрессию на наличие автокорреляции. Так как в данной работе исследуются временные ряды, то вероятность наличия этой проблемы очень высокая. Для получения точного результата используем 3 метода, результаты которых затем сравним:

а) статистика Дарвина-Уотсона

DW=∑(e-e(-1))^2/∑e^2= 7648017,272 / 63285523,1= 0,120849396

Остатки модели по “грубому” правилу авто коррелированны (т.к. 0,120849396<1,5).

б) Метод рядов. Определим количество положительных и отрицательных отклонений модели.

Предположим, что n-объем выборки; n1-количество положительных отклонений; n2-количество отрицательных отклонений;k-количество интервалов. По таблице критических значений для нахождения АК по методу рядов, определим нижние и верхние границы k.

Для построенной модели:

Таблица 5

n1	n2	n	k
16	20	36	16

Т.к. k1<k<k2, то в данной модели отсутствует автокорреляция остатков.

в) Графический метод.

Построим график зависимости e от e(-1)):

Найдем, в каких четвертях сосредоточены точки на графике:

Таблица 6

I	19
III	14
II	1
IV	0

Преобладание точек в I и III четвертях указывает на наличие положительной зависимости между отклонениями в текущий и предыдущий моменты времени. Метод рядов плохо реагирует на слабую автокорреляцию, возможно поэтому произошла ошибка в его результатах

. Проверим построенную модель на гетероскедастичность остатков. Для этого проведем тест Парка и тест Голдфелда-Квандта.

а) тест Парка. Сущность теста Парка в том, что если в модели присутствует гетероскедастичность, то вероятно существует линейная зависимость между объясняющими переменными и оценкой дисперсии отклонений.

Таблица 7. Количество трудоустроенных

Регрессионная статистика
Множественный R	0,127301
R-квадрат	0,016205
Нормированный R-квадрат	-0,01273
Стандартная ошибка	1367,344
Наблюдения	36

Дисперсионный анализ
	df	SS	MS	F	Значимость F
Регрессия	1	1047107	1047107	0,560061	0,459381
Остаток	34	63567366	1869628
Итого	35	64614473

	Коэффициенты	Стандартная ошибка	t-статистика	P-Значение	Нижние 95%	Верхние 95%	Нижние 95,0%	Верхние 95,0%
Y-пересечение	-22083,7	37901,7	-0,58266	0,563969	-99109,2	54941,84	-99109,2	54941,8403
lnX 1	3900,156	5211,517	0,748372	0,459381	-6690,92	14491,23	-6690,92	14491,2323

Коэффициент b1 имеет t-статистику=0,75<tкр=2,042, следовательно, принимается нулевая гипотеза об отсутствии гетероскедастичности. Значит, между остатками и переменной количества трудоустроенных нет связи, т.е. оcтатки гомоскедастичны.

Таблица 8. ИПЦ

Регрессионная статистика
Множественный R	0,42867727
R-квадрат	0,1837642
Нормированный R-квадрат	0,15975727
Стандартная ошибка	1245,46998
Наблюдения	36
Дисперсионный анализ
	df	SS	MS	F	Значимость F
Регрессия	1	11873827,1	11873827	7,65463	0,009092
Остаток	34	52740645,7	1551195
Итого	35	64614472,8

	Коэффициенты	Стандартная ошибка	t-статистика	P-Значение	Нижние 95%	Верхние 95%	Нижние 95,0%	Верхние 95,0%
Y-пересечение	5807,63055	268,863391	21,60067	1,96E-21	5261,234	6354,027	5261,234	6354,027
ln X 2	805,302684	291,069734	2,7667	0,009092	213,7778	1396,828	213,7778	1396,828

Коэффициент b1 в данном случае взаимосвязан с ВВП. Коэффициент статистически значим: t-статистика=2,7667>tкр=2,042, а следовательно гетероскедастичность выявлена. Таким образом, между остатками и переменными есть взаимосвязи.

б) тест Голдфелда-Квандта

k=16, n-2k=4

Таблица 9.

s1
Регрессионная статистика
Множественный R	0,825082
R-квадрат	0,68076
Нормированный R-квадрат	0,631646
Стандартная ошибка	467,1644
Наблюдения	16

Дисперсионный анализ
		df	SS	MS	F	Значимость F
Регрессия		2	6050056	3025028	13,86085	0,000598
Остаток		13	2837153	218242,6
Итого		15	8887210

		Коэффициенты	Стандартная ошибка	P-Значение	Нижние 95%	Верхние 95%
Y-пересечение		-19821,8	5072,736	-3,90752	0,0018	-30780,8	-8862,84
Переменная X1		17,05148	3,503645	4,866783	0,000308	9,482314	24,62064
Переменная X2		93,79999	68,29566	1,37344	0,192839	-53,7438	241,3438
s3
Регрессионная статистика
Множественный R		0,606699
R-квадрат		0,368084
Нормированный R-квадрат		0,270866
Стандартная ошибка		603,8351
Наблюдения		16

Дисперсионный анализ
		df	SS	MS	F	Значимость F
Регрессия		2	2761004	1380502	3,786171	0,050616
Остаток		13	4740019	364616,9
Итого		15	7501023

		Коэффициенты	Стандартная ошибка	t-статистика	P-Значение	Нижние 95%	Верхние 95%
Y-пересечение		-967,941	3087,629	-0,31349	0,758882	-7638,36	5702,476
Переменная X1		5,876372	2,184717	2,689763	0,018552	1,156578	10,59617
Переменная X2		27,12752	46,83154	0,579257	0,572317	-74,0459	128,3009

Таким образом, S1=∑е²= 2837153; S3= 4740019 , тогда Fn=S3/S1= 1,670695;

Fкр=5,53, значит, нет гетероскедастичности.

В модели присутствует гомоскедастичность, так как F_набл<F_кр

. Проверим модель на отсутствие мультиколлинеарности.

низкий, но при этом t-стат. высокие, и также парный коэффициент по модулю низкий, то можно сказать, что в модели не присутствует мультиколлинеарность. Коэффициенты парной корреляции низкие.

Выводы

Цель работы (построение качественной эконометрической модели и проведение ее детального анализа) была достигнута во время написания данной работы. Построенная модель имеет высокий коэффициент вариации, t-статистики высокие. Графический метод, метод рядов и статистика Дарвина-Уотсона подтвердили наличие положительной автокорреляции. Тест Парка и тест Голдфелда-Кванта показали наличие гомоскедастичности. В модели не присутствует мультиколлениарность. При исследовании модели на предпосылки МНК, использовались различные тесты и методы.

Список использованных источников

1. С.А Бородич. Эконометрика: Учеб. Пособие

. Статистические данные по Литве

Приложение 1

Исходные данные

Lithuania
	ВВП	Количество трудоустроенных, тыс. чел.	ИПЦ, %
2003Q1	4 099,2	1 376,9	1,1
2003Q2	4 070,0	1 466,2	-2,2
2003Q3	4 149,1	1 446,7	-0,7
2003Q4	4 263,6	1 413,1	1,0
2004Q1	4 351,1	1 401,5	0,5
2004Q2	4 469,6	1 433,7	0,9
2004Q3	4 601,3	1 438,5	2,1
2004Q4	4 789,8	1 427,8	1,5
2005Q1	4 913,9	1 430,3	0,6
2005Q2	5 149,7	1 462,5	3,0
2005Q3	5 373,4	1 480,1	1,6
2005Q4	5 542,7	1 470,1	1,0
2006Q1	5 632,4	1 472,0	0,5
2006Q2	5 882,9	1 489,5	2,3
2006Q3	6 285,6	1 500,0	5,0
2006Q4	6 320,5	1 488,1	-2,2
2007Q1	6 725,7	1 499,3	4,0
2007Q2	7 035,8	1 536,0	2,1
2007Q3	7 386,2	1 553,4	2,2
2007Q4	7 606,6	1 526,6	1,3
2008Q1	7 974,1	1 509,5	5,7
2008Q2	8 294,1	1 524,6	2,5
2008Q3	8 218,3	1 535,9	0,5
2008Q4	7 898,9	1 505,1	-3,1
2009Q1	7 020,6	1 432,3	1,8
2009Q2	6 827,2	1 421,8	-1,4
2009Q3	6 460,4	1 423,0	-5,7
2009Q4	6 337,1	1 383,2	-0,6
2010Q1	6 185,4	1 327,3	2,2
2010Q2	7 030,6	1 326,8	3,0
2010Q3	7 229,2	1 350,3	-3,8
2010Q4	7 162,3	1 366,3	2,3
2011Q1	6 869,6	1 339,3	3,8
2011Q2	7 890,2	1 383,6	4,0
2011Q3	8 144,4	1 377,8	-4,3
2011Q4	7 902,7	1 378,2	1,0

Приложение 2

Исходная регрессионная модель

Регрессионная статистика
Множественный R	0,143413
R-квадрат	0,020567
Нормированный R-квадрат	-0,03879
Стандартная ошибка	1384,826
Наблюдения	36
Дисперсионный анализ
	df	SS	MS	F	Значимость F
Регрессия	2	1328950	664474,8	0,346488	0,709709
Остаток	33	63285523	1917743
Итого	35	64614473
	Коэффициенты	Стандартная ошибка	t-статистика	P-Значение	Нижние 95%	Верхние 95%	Нижние 95,0%	Верхние 95,0%
Y-пересечение	2109,375	5345,304	0,394622	0,695661	-8765,73	12984,48	-8765,73	12984,48
Пер X 1	2,882103	3,712345	0,776356	0,443068	-4,67072	10,43493	-4,67072	10,43493
Пер X 2	17,41377	92,32863	0,188606	0,851556	-170,43	205,2578	-170,43	205,2578

Приложение 3

Статистика Дарбина-Уотсона

Остатки	e^2	e(-1)	(e-e(-1))^2
1997,697079	3990793,6		3990793,62
2226,803429	4958653,5	1997,697079	52489,7192
2117,623073	4484327,5	2226,803429	11920,3499
1935,887823	3747661,7	2117,623073	33027,7014
1806,248548	3262533,8	1935,887823	16806,3416
1787,517763	3195219,8	1806,248548	350,842301
1690,548375	1787,517763	9403,06217
1460,761616	2133824,5	1690,548375	52801,9546
1328,194484	1764100,6	1460,761616	17574,0446
1226,991231	1505507,5	1328,194484	10242,0985
1029,636967	1060152,3	1226,991231	38948,7054
821,0676799	674152,13	1029,636967	43501,1475
728,1367922	530183,19	821,0676799	8636,14988
-559,418369	312948,91	728,1367922	28465,9063
233,9976156	54754,884	-559,418369	105898,667
39,42147896	1554,053	233,9976156	37859,873
225,5336221	50865,415	39,42147896	70201,2056
462,9466059	214319,56	225,5336221	56364,9249
761,4566413	579816,22	462,9466059	89108,2412
1074,769384	1155129,2	761,4566413	98164,875
1414,932772	2002034,7	1074,769384	115711,13
1747,137071	3052487,9	1414,932772	110359,696
1673,596841	2800926,4	1747,137071	5408,16536
1505,655163	2266997,5	1673,596841	28204,4072
751,8447917	565270,59	1505,655163	568230,076
644,4309213	415291,21	751,8447917	11537,7396
349,051591	121837,01	644,4309213	87248,9488
251,6490752	63327,257	349,051591	9487,25009
212,3000751	45071,322	251,6490752	1548,3438
1045,010114	1092046,1	212,3000751	693406,009
1294,294307	1675197,8	1045,010114	62142,6087
1075,056691	1155746,9	1294,294307	48065,1321
834,0528167	695644,1	1075,056691	58082,8674
1723,492911	2970427,8	834,0528167	791103,682
2138,943364	4575078,7	1723,492911	172599,078
1803,797564	3253685,7	2138,943364	112322,707

Приложение 4

Метод рядов

Остатки	знак
1997,697079	-
2226,803429	-
2117,623073	-
1935,887823	-
1806,248548	-
1787,517763	-
1690,548375	-
1460,761616	-
1328,194484	-
226,991231	-
1029,636967	-
821,0676799	-
728,1367922	-
-559,418369	-
233,9976156	-
39,42147896	-
225,5336221	-
462,9466059	-
761,4566413	-
1074,769384	-
1414,932772	+
1747,137071	+
1673,596841	+
1505,655163	+
751,8447917	+
644,4309213	+
349,051591	+
251,6490752	+
212,3000751	+
1045,010114	+
1294,294307	+
1075,056691	+
834,0528167	+
1723,492911	+
2138,943364	+
1803,797564	+

Приложение 5

Тест Парка

lne^2	lnx1	lnx2
15,1995	7,22759	0,09531018
15,41664	7,290429	0,78845736
15,3161	7,27704	-0,3566749
15,13664	7,253541	0
14,99801	7,245298	-0,6931472
14,97717	7,268014	-0,1053605
14,86562	7,271356	0,74193734
14,57343	7,26389	0,40546511
14,38315	7,265639	-0,5108256
14,22464	7,287903	1,09861229
13,87392	7,299865	0,47000363
13,42121	7,293086	0
13,18098	7,294377	-0,6931472
12,6538	7,306196	0,83290912
10,91062	7,31322	1,60943791
7,348622	7,305255	0,78845736
10,83694	7,312754	1,38629436
12,27522	7,336937	0,74193734
13,27047	7,348201	0,78845736
13,95972	7,330798	0,26236426
14,50967	7,319534	1,74046617
14,93147	7,329487	0,91629073
14,84546	7,336872	-0,6931472
14,63397	7,316615	1,13140211
13,24506	7,267037	0,58778666
12,93674	7,259679	0,33647224
11,71044	7,260523	1,74046617
11,05607	7,232155	-0,5108256
10,716	7,190902	0,78845736
13,90356	7,190525	1,09861229
14,33144	7,208082	1,33500107
13,96026	7,219862	0,83290912
13,45259	7,199902	1,33500107
14,90422	7,232444	1,38629436
15,33613	7,228243	1,45861502
14,9953	7,228534	0

Приложение 6

Тест Голдфелда-Квандта

Наблюдение		Предсказанное Y	Остатки	e2
1		3759,539	339,661	115369,6
2		4972,696	-902,696	814860,3
3		4780,892	-631,792	399161,5
4		4367,423	-103,823	10779,13
5		4122,725	228,3746	52154,95
6		4709,303	-239,703	57457,55
7		4903,71	-302,41	91451,89
8		4664,979	124,8207	15580,2
9		4623,188	290,712	84513,46
10		-247,666	61338,26
	11	5566,152	-192,752	37153,21
	12	5339,357	203,3431	41348,42
	13	5324,855	307,5453	94584,11
	14	5792,096	90,80444	8245,446
	15	6224,396	61,20393	3745,921
	16	5346,124	974,3765	949409,5
			S1	2837153

Наблюдение	Предсказанное Y	Остатки	e2
1	8057,069	-82,9685	6883,778
2	8058,994	235,1063	55274,98
3	8071,142	147,1584	21655,58
4	7792,49	106,4097	11323,02
5	7497,615	-477,015	227543,6
6	7349,105	-521,905	272385,2
7	7239,509	-779,109	607010,3
8	7143,979	-806,879	651054,4
9	6891,447	-706,047	498502,8
10	6910,211	120,3888	14493,47
11	6863,839	365,3613	133488,8
12	7123,339	38,96143	1517,993
13	7005,368	-135,768	18432,9
14	7271,117	619,0834	383264,3
15	7011,875	1132,525	1282612
16	7158,002	744,6984	554575,7
		S3	4740019

Построение и анализ качества регрессионной модели

Построение и анализ качества регрессионной модели

Похожие работы на - Построение и анализ качества регрессионной модели