Построение и анализ качества регрессионной модели

  • Вид работы:
    Курсовая работа (т)
  • Предмет:
    Менеджмент
  • Язык:
    Русский
    ,
    Формат файла:
    MS Word
    255,37 Кб
  • Опубликовано:
    2013-12-04
Вы можете узнать стоимость помощи в написании студенческой работы.
Помощь в написании работы, которую точно примут!

Построение и анализ качества регрессионной модели

БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

Экономический факультет

Кафедра экономической информатики и математической экономики










Курсовой проект

По дисциплине «ЭКОНОМЕТРИКА»

На тему: Построение и анализ качества регрессионной модели










Минск, 2013 г.

Введение

В курсовой работе на предложенной совокупности данных была построена эконометрическая модель и проведен ее анализ. Модель была проверена на адекватность (соответствие предпосылкам МНК) с помощью ряда тестов.

Для исследования предлагалась совокупность временных данных по экономике Литвы (квартальные данные 2003-2011 гг), а именно значения валового внутреннего продукта, млн.евро, количества трудоустроенных, тыс. чел, индекса потребительских цен, %.

Выбор вышеперечисленных переменных экономически обоснован: между изменением ВВП и изменением количества трудоустроенных существует прямая зависимость: при росте количества занятых людей наблюдается рост ВВП. Также есть зависимость между ВВП и ИПЦ.

Таким образом, можно сказать, что между выбранными переменными существует взаимосвязь.

Цель курсовой работы - построение качественной и адекватной эконометрической модели и проведение ее анализа на наличие автокорреляции остатков, мультиколлинеарности, гетероскедастичности.

В рамках поставленной цели определены следующие задачи:

ü Построение эконометрической модели по методу наименьших квадратов;

ü  анализ качества модели;

ü  проверка модели на соответствие предпосылкам МНК.

В ходе исследования использовалось приложение Пакет анализа в Excel.

автокорреляция мультиколлинеарность гетероскедастичность статистика

1. Анализ и методы

Построим эконометрическую модель и проведем ее анализ согласно предложенному плану:

. Оценим каждую переменную в отдельности. Для этого приведем графики и описательную статистику каждой переменной:

А) ВВП

Таблица 1. ВВП

Столбец1

Среднее

23229,6

Стандартная ошибка

426,4114971

Медиана

22855,35

Мода

#Н/Д

Стандартное отклонение

2558,468982

Дисперсия выборки

6545763,534

Эксцесс

-0,651988342

Асимметричность

-0,206193402

Интервал

9649,8

Минимум

18428,6

Максимум

28078,4

Сумма

836265,6

Счет

36

R-коварияции

0,110138314


 

По графику видно, что с увеличением количества наблюдений (времени), значение переменной увеличивается незначительно. На графике также не наблюдается заметных отклонений, выбросов и т.д., лишь плавное изменение. Это подтверждает и коэффициент вариации, значение которого <30%.

Б) Количество трудоустроенных

Таблица 2. Количество трудоустроенных

Столбец1

Среднее

4121,166667

Стандартная ошибка

16,55998476

Медиана

4115,3

Мода

#Н/Д

Стандартное отклонение

99,35990856

Дисперсия выборки

9872,391429

Эксцесс

0,022046393

Асимметричность

-0,454022256

Интервал

426

Минимум

3889,4

Максимум

4315,4

Сумма

148362

Счет

36

R-коварияции

0,024109655


Ситуация для второй переменной аналогична, и график подтверждает это. Только прогиб кривой более заметен и более выпуклый, чем в случае с ВВП.


Зависимость ВВП и количества трудоустроенных объясняет график корреляционного поля:

 

В) ИПЦ

Таблица 3. ИПЦ

Столбец1

Среднее

0,486111111

Стандартная ошибка

0,630773684

Медиана

-0,1

Мода

-1,4

Стандартное отклонение

3,784642106

Дисперсия выборки

14,32351587

Эксцесс

0,285378312

Асимметричность

-0,287046349

Интервал

16,4

Минимум

-9,2

Максимум

7,2

Сумма

17,5

Счет

36

R-коварияции

7,785549476

 

Коэффициент вариации, в отличие от предыдущих случаев, указывает на значительную изменчивость ряда. График переменной подтверждает данное утверждение.

 

Отрицательная зависимость ИПЦ и ВВП прослеживается по графику корреляционного поля:

 

По результатам описательной статистики переменных, для двух рядов (ВВП, количество трудоустроенных) характерна невысокая изменчивость, т.е. они стабильны. В то же время, ряд ИПЦ является изменчивым.

Исследуем наличие зависимости между переменными путем построения корреляционной матрицы:

Таблица 4

 

Столбец 1

Столбец 2

Столбец 3

Столбец 1

1



Столбец 2

0,217591742

1


Столбец 3

0,202802894

0,186712072

1

По результатам корреляционной матрицы видно, что существует зависимость между ВВП и количеством трудоустроенных (высокие коэффициенты корреляции), а также между ВВП и ИПЦ. А зависимости между ИПЦ и количеством трудоустроенных нет.

. По методу наименьших квадратов построим эконометрическую модель

ВВП= 2109,374648+ 2,88Колтруд- 17,41ИПЦквадрат = 0,021

Коэффициент b1 =2,88 показывает, что при увеличении количества трудоустроенных на 1 тыс. чел ВВП увеличивается в среднем на 2,88 млн. евро, а b2=17,41 означает, что увеличение ИПЦ в равнении с предыдущим периодом на 1% приводит к уменьшению ВВП в среднем на 17,41млн. евро.

. Проанализируем качество модели:

·        t-статистика коэффициента b1и b2 указывает на взаимосвязь ВВП с количеством трудоустроенных, ВВП и ИПЦ.

·        P-значения подтверждают деланные выводы: оба коэффициентаb1 и b2значимы на любом уровне значимости (a>P≈0);

·        R- квадрат модели имеет низкое значение.

. Протестируем регрессию на наличие автокорреляции. Так как в данной работе исследуются временные ряды, то вероятность наличия этой проблемы очень высокая. Для получения точного результата используем 3 метода, результаты которых затем сравним:

а) статистика Дарвина-Уотсона

DW=∑(e-e(-1))^2/∑e^2= 7648017,272 / 63285523,1= 0,120849396

Остатки модели по “грубому” правилу авто коррелированны (т.к. 0,120849396<1,5).

б) Метод рядов. Определим количество положительных и отрицательных отклонений модели.

Предположим, что n-объем выборки; n1-количество положительных отклонений; n2-количество отрицательных отклонений;k-количество интервалов. По таблице критических значений для нахождения АК по методу рядов, определим нижние и верхние границы k.

Для построенной модели:

Таблица 5

n1

n2

n

k

16

20

36

16


Т.к. k1<k<k2, то в данной модели отсутствует автокорреляция остатков.

в) Графический метод.

Построим график зависимости e от e(-1)):


Найдем, в каких четвертях сосредоточены точки на графике:

Таблица 6

I

19

III

14

II

1

IV

0


Преобладание точек в I и III четвертях указывает на наличие положительной зависимости между отклонениями в текущий и предыдущий моменты времени. Метод рядов плохо реагирует на слабую автокорреляцию, возможно поэтому произошла ошибка в его результатах

. Проверим построенную модель на гетероскедастичность остатков. Для этого проведем тест Парка и тест Голдфелда-Квандта.

а) тест Парка. Сущность теста Парка в том, что если в модели присутствует гетероскедастичность, то вероятно существует линейная зависимость между объясняющими переменными и оценкой дисперсии отклонений.

Таблица 7. Количество трудоустроенных

Регрессионная статистика








Множественный R

0,127301








R-квадрат

0,016205








Нормированный R-квадрат

-0,01273








Стандартная ошибка

1367,344








Наблюдения

36

















Дисперсионный анализ







 

df

SS

MS

F

Значимость F




Регрессия

1

1047107

1047107

0,560061

0,459381




Остаток

34

63567366

1869628






Итого

35

64614473

 

 

 













 

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Нижние 95,0%

Верхние 95,0%

Y-пересечение

-22083,7

37901,7

-0,58266

0,563969

-99109,2

54941,84

-99109,2

54941,8403

lnX 1

3900,156

5211,517

0,748372

0,459381

-6690,92

14491,23

-6690,92

14491,2323


Коэффициент b1 имеет t-статистику=0,75<tкр=2,042, следовательно, принимается нулевая гипотеза об отсутствии гетероскедастичности. Значит, между остатками и переменной количества трудоустроенных нет связи, т.е. оcтатки гомоскедастичны.

Таблица 8. ИПЦ

Регрессионная статистика








Множественный R

0,42867727








R-квадрат

0,1837642








Нормированный R-квадрат

0,15975727








Стандартная ошибка

1245,46998








Наблюдения

36








Дисперсионный анализ







 

df

SS

MS

F

Значимость F




Регрессия

1

11873827,1

11873827

7,65463

0,009092




Остаток

34

52740645,7

1551195






Итого

35

64614472,8

 

 

 













 

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Нижние 95,0%

Верхние 95,0%

Y-пересечение

5807,63055

268,863391

21,60067

1,96E-21

5261,234

6354,027

5261,234

6354,027

ln X 2

805,302684

291,069734

2,7667

0,009092

213,7778

1396,828

213,7778

1396,828



Коэффициент b1 в данном случае взаимосвязан с ВВП. Коэффициент статистически значим: t-статистика=2,7667>tкр=2,042, а следовательно гетероскедастичность выявлена. Таким образом, между остатками и переменными есть взаимосвязи.

б) тест Голдфелда-Квандта

k=16, n-2k=4

Таблица 9.

s1







Регрессионная статистика






Множественный R

0,825082






R-квадрат

0,68076






Нормированный R-квадрат

0,631646






Стандартная ошибка

467,1644






Наблюдения

16













Дисперсионный анализ





 

df

SS

MS

F

Значимость F


Регрессия

2

6050056

3025028

13,86085

0,000598


Остаток

13

2837153

218242,6




Итого

15

8887210

 

 

 









 

Коэффициенты

Стандартная ошибка

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

-19821,8

5072,736

-3,90752

0,0018

-30780,8

-8862,84

Переменная X1

17,05148

3,503645

4,866783

0,000308

9,482314

24,62064

Переменная X2

93,79999

68,29566

1,37344

0,192839

-53,7438

241,3438

s3







Регрессионная статистика






Множественный R

0,606699






R-квадрат

0,368084






Нормированный R-квадрат

0,270866






Стандартная ошибка

603,8351






Наблюдения

16













Дисперсионный анализ





 

df

SS

MS

F

Значимость F


Регрессия

2

2761004

1380502

3,786171

0,050616


Остаток

13

4740019

364616,9




Итого

15

7501023

 

 

 









 

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

-967,941

3087,629

-0,31349

0,758882

-7638,36

5702,476

Переменная X1

5,876372

2,184717

2,689763

0,018552

1,156578

10,59617

Переменная X2

27,12752

46,83154

0,579257

0,572317

-74,0459

128,3009


Таким образом, S1=∑е2= 2837153; S3= 4740019 , тогда Fn=S3/S1= 1,670695;

Fкр=5,53, значит, нет гетероскедастичности.

В модели присутствует гомоскедастичность, так как Fнабл<Fкр

. Проверим модель на отсутствие мультиколлинеарности.

 низкий, но при этом t-стат. высокие, и также парный коэффициент по модулю низкий, то можно сказать, что в модели не присутствует мультиколлинеарность. Коэффициенты парной корреляции низкие.

Выводы

Цель работы (построение качественной эконометрической модели и проведение ее детального анализа) была достигнута во время написания данной работы. Построенная модель имеет высокий коэффициент вариации, t-статистики высокие. Графический метод, метод рядов и статистика Дарвина-Уотсона подтвердили наличие положительной автокорреляции. Тест Парка и тест Голдфелда-Кванта показали наличие гомоскедастичности. В модели не присутствует мультиколлениарность. При исследовании модели на предпосылки МНК, использовались различные тесты и методы.

Список использованных источников

1. С.А Бородич. Эконометрика: Учеб. Пособие

. Статистические данные по Литве

Приложение 1

Исходные данные

Lithuania


ВВП

Количество трудоустроенных, тыс. чел.

ИПЦ, %

2003Q1

4 099,2

1 376,9

1,1

2003Q2

4 070,0

1 466,2

-2,2

2003Q3

4 149,1

1 446,7

-0,7

2003Q4

4 263,6

1 413,1

1,0

2004Q1

4 351,1

1 401,5

0,5

2004Q2

4 469,6

1 433,7

0,9

2004Q3

4 601,3

1 438,5

2,1

2004Q4

4 789,8

1 427,8

1,5

2005Q1

4 913,9

1 430,3

0,6

2005Q2

5 149,7

1 462,5

3,0

2005Q3

5 373,4

1 480,1

1,6

2005Q4

5 542,7

1 470,1

1,0

2006Q1

5 632,4

1 472,0

0,5

2006Q2

5 882,9

1 489,5

2,3

2006Q3

6 285,6

1 500,0

5,0

2006Q4

6 320,5

1 488,1

-2,2

2007Q1

6 725,7

1 499,3

4,0

2007Q2

7 035,8

1 536,0

2,1

2007Q3

7 386,2

1 553,4

2,2

2007Q4

7 606,6

1 526,6

1,3

2008Q1

7 974,1

1 509,5

5,7

2008Q2

8 294,1

1 524,6

2,5

2008Q3

8 218,3

1 535,9

0,5

2008Q4

7 898,9

1 505,1

-3,1

2009Q1

7 020,6

1 432,3

1,8

2009Q2

6 827,2

1 421,8

-1,4

2009Q3

6 460,4

1 423,0

-5,7

2009Q4

6 337,1

1 383,2

-0,6

2010Q1

6 185,4

1 327,3

2,2

2010Q2

7 030,6

1 326,8

3,0

2010Q3

7 229,2

1 350,3

-3,8

2010Q4

7 162,3

1 366,3

2,3

2011Q1

6 869,6

1 339,3

3,8

2011Q2

7 890,2

1 383,6

4,0

2011Q3

8 144,4

1 377,8

-4,3

2011Q4

7 902,7

1 378,2

1,0



Приложение 2

Исходная регрессионная модель

Регрессионная статистика








Множественный R

0,143413








R-квадрат

0,020567








Нормированный R-квадрат

-0,03879








Стандартная ошибка

1384,826








Наблюдения

36








Дисперсионный анализ







 

df

SS

MS

F

Значимость F




Регрессия

2

1328950

664474,8

0,346488

0,709709




Остаток

33

63285523

1917743






Итого

35

64614473

 

 

 




 

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Нижние 95,0%

Верхние 95,0%

Y-пересечение

2109,375

5345,304

0,394622

0,695661

-8765,73

12984,48

-8765,73

12984,48

Пер X 1

2,882103

3,712345

0,776356

0,443068

-4,67072

10,43493

-4,67072

10,43493

Пер X 2

17,41377

92,32863

0,188606

0,851556

-170,43

205,2578

-170,43

205,2578



Приложение 3

Статистика Дарбина-Уотсона

Остатки

e^2

e(-1)

(e-e(-1))^2

1997,697079

3990793,6

 

3990793,62

2226,803429

4958653,5

1997,697079

52489,7192

2117,623073

4484327,5

2226,803429

11920,3499

1935,887823

3747661,7

2117,623073

33027,7014

1806,248548

3262533,8

1935,887823

16806,3416

1787,517763

3195219,8

1806,248548

350,842301

1690,548375

1787,517763

9403,06217

1460,761616

2133824,5

1690,548375

52801,9546

1328,194484

1764100,6

1460,761616

17574,0446

1226,991231

1505507,5

1328,194484

10242,0985

1029,636967

1060152,3

1226,991231

38948,7054

821,0676799

674152,13

1029,636967

43501,1475

728,1367922

530183,19

821,0676799

8636,14988

-559,418369

312948,91

728,1367922

28465,9063

233,9976156

54754,884

-559,418369

105898,667

39,42147896

1554,053

233,9976156

37859,873

225,5336221

50865,415

39,42147896

70201,2056

462,9466059

214319,56

225,5336221

56364,9249

761,4566413

579816,22

462,9466059

89108,2412

1074,769384

1155129,2

761,4566413

98164,875

1414,932772

2002034,7

1074,769384

115711,13

1747,137071

3052487,9

1414,932772

110359,696

1673,596841

2800926,4

1747,137071

5408,16536

1505,655163

2266997,5

1673,596841

28204,4072

751,8447917

565270,59

1505,655163

568230,076

644,4309213

415291,21

751,8447917

11537,7396

349,051591

121837,01

644,4309213

87248,9488

251,6490752

63327,257

349,051591

9487,25009

212,3000751

45071,322

251,6490752

1548,3438

1045,010114

1092046,1

212,3000751

693406,009

1294,294307

1675197,8

1045,010114

62142,6087

1075,056691

1155746,9

1294,294307

48065,1321

834,0528167

695644,1

1075,056691

58082,8674

1723,492911

2970427,8

834,0528167

791103,682

2138,943364

4575078,7

1723,492911

172599,078

1803,797564

3253685,7

2138,943364

112322,707


Приложение 4

Метод рядов

Остатки

знак

1997,697079

-

2226,803429

-

2117,623073

-

1935,887823

-

1806,248548

-

1787,517763

-

1690,548375

-

1460,761616

-

1328,194484

-

226,991231

-

1029,636967

-

821,0676799

-

728,1367922

-

-559,418369

-

233,9976156

-

39,42147896

-

225,5336221

-

462,9466059

-

761,4566413

-

1074,769384

-

1414,932772

+

1747,137071

+

1673,596841

+

1505,655163

+

751,8447917

+

644,4309213

+

349,051591

+

251,6490752

+

212,3000751

+

1045,010114

+

1294,294307

+

1075,056691

+

834,0528167

+

1723,492911

+

2138,943364

+

1803,797564

+


Приложение 5

Тест Парка

lne^2

lnx1

lnx2

15,1995

7,22759

0,09531018

15,41664

7,290429

0,78845736

15,3161

7,27704

-0,3566749

15,13664

7,253541

0

14,99801

7,245298

-0,6931472

14,97717

7,268014

-0,1053605

14,86562

7,271356

0,74193734

14,57343

7,26389

0,40546511

14,38315

7,265639

-0,5108256

14,22464

7,287903

1,09861229

13,87392

7,299865

0,47000363

13,42121

7,293086

0

13,18098

7,294377

-0,6931472

12,6538

7,306196

0,83290912

10,91062

7,31322

1,60943791

7,348622

7,305255

0,78845736

10,83694

7,312754

1,38629436

12,27522

7,336937

0,74193734

13,27047

7,348201

0,78845736

13,95972

7,330798

0,26236426

14,50967

7,319534

1,74046617

14,93147

7,329487

0,91629073

14,84546

7,336872

-0,6931472

14,63397

7,316615

1,13140211

13,24506

7,267037

0,58778666

12,93674

7,259679

0,33647224

11,71044

7,260523

1,74046617

11,05607

7,232155

-0,5108256

10,716

7,190902

0,78845736

13,90356

7,190525

1,09861229

14,33144

7,208082

1,33500107

13,96026

7,219862

0,83290912

13,45259

7,199902

1,33500107

14,90422

7,232444

1,38629436

15,33613

7,228243

1,45861502

14,9953

7,228534

0


Приложение 6

Тест Голдфелда-Квандта

Наблюдение

Предсказанное Y

Остатки

e2

1

3759,539

339,661

115369,6

2

4972,696

-902,696

814860,3

3

4780,892

-631,792

399161,5

4

4367,423

-103,823

10779,13

5

4122,725

228,3746

52154,95

6

4709,303

-239,703

57457,55

7

4903,71

-302,41

91451,89

8

4664,979

124,8207

15580,2

9

4623,188

290,712

84513,46

10

-247,666

61338,26

 

11

5566,152

-192,752

37153,21

 

12

5339,357

203,3431

41348,42

 

13

5324,855

307,5453

94584,11

 

14

5792,096

90,80444

8245,446

 

15

6224,396

61,20393

3745,921

 

16

5346,124

974,3765

949409,5

 



S1

2837153


Наблюдение

Предсказанное Y

Остатки

e2

1

8057,069

-82,9685

6883,778

2

8058,994

235,1063

55274,98

3

8071,142

147,1584

21655,58

4

7792,49

106,4097

11323,02

5

7497,615

-477,015

227543,6

6

7349,105

-521,905

272385,2

7

7239,509

-779,109

607010,3

8

7143,979

-806,879

651054,4

9

6891,447

-706,047

498502,8

10

6910,211

120,3888

14493,47

11

6863,839

365,3613

133488,8

12

7123,339

38,96143

1517,993

13

7005,368

-135,768

18432,9

14

7271,117

619,0834

383264,3

15

7011,875

1132,525

1282612

16

7158,002

744,6984

554575,7



S3

4740019


Похожие работы на - Построение и анализ качества регрессионной модели

 

Не нашли материал для своей работы?
Поможем написать уникальную работу
Без плагиата!