Исследование эконометрической модели с использованием пакета Eviews

Вид работы:

Курсовая работа (т)
Предмет:

Менеджмент
Язык:

Русский
,
Формат файла:
MS Word

424,21 Кб
Опубликовано:

2014-01-26

Скачать курсовую работу Читать текст online Заказать курсовую
*Помощь в написании! Посмотреть все курсовые работы

Вы можете узнать стоимость помощи в написании студенческой работы.

Исследование эконометрической модели с использованием пакета Eviews

Исследование эконометрической модели с использованием пакета Eviews

1. Постановка задачи

Имеются данные о численности населения РФ. Данные приведены за период от 1997 года по 2006 год (зависимая переменная). Были собраны статистические данные по шести факторам за этот же период, которые, теоретически, влияют на численность населения РФ.

Цель исследования: изучить процесс построения и анализа эконометрической модели в пакете Econometric Views, составить, рассчитать и проанализировать модель данной проблемы; проверить адекватность модели реальной ситуации на числовых данных в среде Eviews.

Подтвердить правильность предположения о влиянии данных факторов с использованием математической модели и статистических данных.

В итоге будет выявлена статистическая значимость (незначимость) выбранных факторов.

2. Статистический материал

	1997	1998	1999	2000	2001	2002	2003	2004	2005
Y	147137	146740	146328	145678	146304	145548	145649	144168	143474
X1	1,231	1,242	1,171	1,195	1,223	1,286	1,319	1,340	1,287
X2	-456	-605	-830	-859	-243	-935	-889	-793	-847
X3	131130	101345	79126	601196	90958	30504	60726	9891	2114
X4	255,2	301,7	332,5	427,7	663,5	653,6	798,8	635,8	604,9
X5	828,4	848,7	911,2	897,3	901,6	1091,8	979,7	1066,4
X6	597,7	513,6	379,7	359,3	184,6	193,5	119,1	117,2	50,2

Y - Численность населения РФ (тыс.).

Х1-Возрастной коэффициент рождаемости (среднее число детей, рожденных женщиной за свою жизнь);

Х2 - Естественный прирост населения (тыс.);

Х3 - Численность вынужденных переселенцев и беженцев;

Х4 - Разводы (тыс.);

Х5 - Браки (тыс.);

Х6 - Международная миграция (тыс.);

Переменная Y - зависимая (эндогенная), переменные X1, X2, X3, X4, X5, X6 - независимые (экзогенные).

Модель будет выглядеть следующим образом:

y= b₀+b₁x₁+b₂x₂+b₃x₃+b₄x₄+b₅x₅+b₆x₆+u,

где b₀ - свободный член уравнения;

b₁., b₆ - оценки параметров модели;

u - ошибка модели(остатки).

3. Построение и анализ модели в среде EViews

Ввод исходных данных

Данная работа осуществляется в пакете Econometric Views. Начальным этапом является ввод данных.

Создаем новый рабочий файл. В строке главного меню выбираем File/New/Workfile, после чего откроется диалоговое окно (рис. 1):

Рис. 1

В пакете допускается восемь типов данных:

Годовые (Annual) - годы 20 века идентифицируются по последним двум цифрам (97 эквивалентно 1997), для данных, относящихся к 21 веку необходима полная идентификация (например, 2020);

Полугодовые (Semi-annual) - 1999:1, 2001:2 (формат - год и номер полугодия);

Квартальные (Quarterly) - 1992:1, 2005:3 (формат - год и номер квартала);

Ежемесячные (Monthly) - 1956:1, 1990:11 (формат - год и номер месяца);

Недельные (Weekly);

Дневные (5 day weeks);

Дневные (7 day weeks);

Недатированные или нерегулярные (Undated or irregular) - допускают работу с данными, строго не привязанными к определенным временным периодам;

Воспользуемся типом (Annual). В окнах Start date и End date вводим соответственно начальную (1997) и конечную (2006) даты наблюдения. Нажав кнопку ОК, создастся рабочий файл, содержащий вектор коэффициентов C и серию Resid (рис. 2):

Рис. 2

Ввод данных может осуществляться двумя способами:

Первый заключается в импорте данных из файла. Осуществляется это следующим образом. В строке главного меню выберем File/ Import/Read Text-Lotus-Excel. Появится окно (рис. 3):

Рис. 3

В окне Names for series or Number of series if names in file можно сразу же задать имена переменных либо поставить цифру 7, т.е. общее количество факторов. Нажимаем кнопку OK:

Рис. 4

В этом окне С - вектор, который будет содержать коэффициенты уравнения, построенного в процессе работы с Eviews, Resid - вектор остатков.

Для того чтобы просмотреть итоговую таблицу, необходимо, выделив переменные, выбрать опцию Open->as Group.

Рис. 5

Второй способ заключается в создании пустой таблицы и простом переносе данных из Excel. Для этого необходимо выбрать в меню Quick/Empty Group (Edit Series). Появится таблица (рис. 6):

Рис. 6

Для того чтобы ввести имена переменных необходимо указать ячейку и нажать Edit+/- Затем набрать название переменной.

Далее вставляем данные из Excel:

Рис. 7

Построение регрессионной модели.

Просмотр числовых характеристик переменных.

Для просмотра числовых характеристик отмеченных переменных необходимо выбрать в рабочем файле View/Descriptive Stats/Common Sample. В результате появится окно (рис. 8):

Рис. 8

Данное окно содержит:

· Mean - среднее значение.

· Median - медиана. В случае симметричного модального распределения медиана совпадает со средним значением.

· Maximum, Minimum - минимальное и максимальное значения ряда.

· Skewness - асимметрия. Для симметричного распределения, в частности для нормального распределения, асимметрия равна нулю.

· Kurtosis - эксцесс

· Статистика Jarque-Bera - используется для проверки гипотезы о нормальности распределения исследуемого ряда. Статистика основана на проверке того, насколько отличается эксцесс и асимметрия ряда от соответствующих характеристик нормального распределения.

Нулевая гипотеза: распределение не отличается от нормального.

Альтернативная гипотеза: распределение существенно отличается от нормального. Probability - это вероятность того, что статистика Jarque-Bera превышает (по абсолютному значению) наблюдаемое значение для нулевой гипотезы.

· Observations - количество проведенных наблюдений (в нашем случае их 10, т. к. наблюдения проводились за 10 лет).

Регрессионный анализ модели

Построим и рассчитаем модель множественной регрессии для всей совокупности независимых факторов (для этого воспользуемся схемой пошагового исследования назад). Выбрать Procs/Make Equation.

В строке Method есть методы:

· LS - метод наименьших квадратов, минимизируется сумма квадратов отклонения для каждого уравнения.

· TSLS - двустадийный метод наименьших квадратов, применяется, когда присутствует корреляция между переменными, стоящими в правой части уравнения регрессии.

· ARCH - метод авторегрессии с условием гетероскедастичности, используется для моделирования и прогнозирования условных колебаний и изменений.

· GMM - общий метод моментов, принадлежит к классу оценочных методов, известных как М-оценка, определяемых минимизацией некоторой функции критерия.

· Binary - двоичный отбор (логит-преобразование, метод пробитов, экстремальное значение) используется для тех моделей, в которых зависимая переменная Y может принимать два значения.

· Ordered - упорядоченный отбор, применяется когда присутствует многообразие скрытых ошибок распределения. Наблюдаемая переменная Y представляется на выходе в виде упорядоченной или ранжированной категории.

· Count - целые, натуральные числовые данные. Применяется, когда Y принимает целые значения, представляющие число событий.

Рис. 9

Для оценки параметров уравнения множественной регрессии применим метод наименьших квадратов (Least Squares), так как он позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака от расчетных (теоретических) минимальна.

Рис. 10

· Coefficient - в колонке указаны оценки параметров модели.

· Standart error - указаны стандартные ошибки коэффициентов уравнения. Стандартные ошибки показывают статистическую надежность коэффициента. Значение стандартных ошибок используется для построения доверительных интервалов.

· t - statistics - дает наблюдаемое значение t - статистики. Ее значение используется для проверки значимости соответствующей оценки параметра регрессии. Имеются две гипотезы: Гипотеза Н₀ о равенстве нулю соответствующего коэффициента (фактор X не влияет на Y). И гипотеза Н₁ о неравенстве нулю соответствующего коэффициента.

· Probability - показывает вероятность принять или отвергнуть гипотезу о равенстве нулю соответствующего коэффициента. При этом предполагается, что ошибки имеют нормальное или асимптотически нормальное распределение. Значения вероятности, указанные в таблице, известны в статистике как уровни значимости α. Если значение вероятности ниже уровня значимости α, то гипотеза Н₀ отвергается и соответствующий коэффициент не равен нулю.

· R - Squared - коэффициент детерминации - одна из наиболее эффективных оценок адекватности регрессионной модели, мера качества уравнения регрессии, характеристика прогностической силы анализируемой регрессионной модели. В общем случае показывает, какая часть зависимой переменной - может быть объяснена с помощью независимых переменных включенных в модель. Если значение R² равно 1, то между переменными существует точная линейная связь. Если R² равно нулю, то статистическая линейная связь отсутствует

· Adjusted R - Squared - скорректированный коэффициент детерминации. Важным свойством коэффициента детерминации является то, что R² - неубывающая функция от количества факторов, входящих в модель. Поэтому для сравнения коэффициентов детерминации разных моделей надо уравнивать количество факторов. Для сравнения моделей по коэффициенту детерминации корректируют коэффициент детерминации так, чтобы он как можно меньше зависел от количества факторов. Скорректированный коэффициент детерминации может быть использован для выбора лучшей модели при небольшом объеме выборки. Он учитывает число степеней свободы. Т.к. в моем случае объем наблюдений равен 10 годам, то я не могу говорить о небольшом объеме выборки, поэтому буду рассматривать не скорректированный коэффициент детерминации, а простой коэффициент детерминации

· S.E. of regression - стандартная ошибка регрессии в результате решения уравнения. Прогнозы производятся с ошибками, где ошибки - это разность между фактическим и прогнозируемым значением y_t - ŷ_t.

· Sum Squared Resid - сумма квадратов остатков.

· Log likelihood - показывает значение функции максимального правдоподобия

· Durbin-Watson Stat - Статистика Дарбина-Уотсона. Используется для выявления автокорреляции. Нулевая гипотеза состоит в отсутствии автокорреляции. В качестве альтернативной гипотезы - гипотеза о наличии автокорреляции. Далее, по приведенной ниже таблице можно сделать более точные выводы о наличии или отсутствии автокорреляции:

Значение статистики DW	Вывод
4-d_L<DW<4	Гипотеза Н₀ отвергается, есть отрицательная корреляция
4-d_u<DW<4-d_L	Неопределенность
d_u<DW<4-d_u	Гипотеза Н₀ не отвергается
d_L<DW<d_u	Неопределенность
0<DW<d_L	Гипотеза Н₀ отвергается, есть положительная корреляция

DW - значение статистики Дарбина-Уотсона

d_l- нижняя граница критерия Дарбина-Уотсона

d_u - верхняя граница критерия Дарбина-Уотсона

Значения dl и du берем из таблицы при уровне значимости равном 0,05, учитывая число наблюдений n и число объясняющих переменных p. В моем случае n = 10 и p = 6.

· Mean dependent var - среднее арифметическое значение зависимой переменной.

· S.D. Dependent var - стандартное среднее квадратическое отклонение зависимой переменной.

· Akaike info criterion - информационный критерий Акаике, AIC.

Критерий является попыткой свести в один показатель два требования: уменьшение числа параметров модели и качество подгонки модели. Согласно этому критерию из двух моделей следует выбрать модель с меньшим значением AIC.

· Schwarz criterion - критерий Шварца. Его отличие от AIC состоит в большем штрафе за количество параметров.

· F-Statistic - F-статистика. Значение F-статистики служит для проверки модели на адекватность. Для проверки модели на адекватность с помощью F - статистики Фишера используют значение вероятности Prob (F-Statistic). Выдвигается нулевая гипотеза о равенстве нулю всех коэффициентов регрессии. Если значение вероятности меньше принятого значения α, то нулевая гипотеза отвергается. Обратите внимание на то, что F-тест - это суммарный тест. Поэтому может возникнуть ситуация когда все t-статистики являются незначимыми, а F-статистика показывает адекватность модели.

Чтобы показать уравнение с коэффициентами и уравнение с уже подставленными значениями коэффициентов воспользуемся View/Representations:

Рис. 11

Уравнение регрессии имеет вид:

Y =-4217.196572*X1 - 3.777026419*X2 + 0.03634073978*X3 + 4.883264939*X4 - 7.337717306*X5 + 0.361023724*X6 + 150509.8134

Уравнение регрессии позволяет понять, как формируется рассматриваемая переменная «Численность населения РФ»:

1. При увеличении возрастного коэффициента рождаемости на 1 численность населения уменьшается на 4217,17 тыс. человек

2. При увеличении естественного прироста населения на 1 тыс. численность населения уменьшается на 3,77 тыс. человек

. При возрастании численности вынужденных переселенцев и беженцев на 1 тыс. численность населения увеличивается на 36 человек

4. При увеличении количества разводов на 1 тыс. численность населения увеличивается на 4,88 тыс. человек

. При увеличении количества браков на 1 тыс. численность населения уменьшается на 7,33 тыс. человек

6. При возрастании международной миграции на 1 тыс. численность населения увеличивается на 361 человек

При равенстве нулю всех факторов модели, Y = 150509,8134 тыс. человек.

Оценим статистическую значимость прогнозного уравнения:

· Коэффициент детерминации R²=0,998548>0,7 говорит о том, что доля влияния независимых переменных на зависимую значительна (99%).

· Адекватность регрессии опытным данным можно проверить с помощью критерия Фишера F-statistic и вероятности Prob (F-statistic). Выдвигается нулевая гипотеза H₀ о статистической незначимости линейного уравнения регрессии в целом и отсутствии связи между зависимой и независимыми переменными (b_i = 0 и r_yxi = 0). Если Prob (F-statistic) > a=0,05, то H₀ принимаем.

Будем проводить проверку с помощью Prob (F-statistic).

Т.к. Prob (F-statistic)= 0,000242 > 0,05, то отвергаем гипотезу H₀ о незначимости регрессии.

Получение стандартизованного уравнения регрессии.

В исследуемой задаче число экзогенных переменных больше двух (равно 6). В этом случае рекомендуется преобразовать эндогенную и экзогенные переменные одним из способов нормирования (выберем один из таких способов - стандартизацию). В этом случае исходные данные преобразуются по формулам:

Стандартизованное уравнение регрессии удобно тем, что коэффициенты в этом уравнении безразмерны. и в уравнении отсутствует свободный член.

Стандартизованное уравнение регрессии в среде EViews можно получить в 3 этапа: сначала находим для Y и X_k, значения среднего и среднеквадратического отклонения, т.е. для каждой серии группы данных находим значения Mean и Std. Dev (воспользуемся для этого таблицей на рис. 8).

Следующим этапом является стандартизация исходных данных по указанным выше формулам. В окне группы выделяем каждый столбец, а затем набираем формулу, используя значения Mean и Std. Dev., указанные на рис. 8. Таким образом, получаются значения Y^/ и X^/ (рис. 12):

Рис. 12

Заключительным этапом является получение стандартизованного уравнения регрессии. В меню окна стандартизованных данных выбираем Procs/Make Equation. Перед нами появится диалоговое окно (рис. 13):

Рис. 13

В окне (рис. 13) перечисляем стандартизованные переменные, входящие в уравнение регрессии (на первом месте - зависимая переменная (Y), затем - независимые переменные, которые включены в уравнение (X1, X2, X3, X4, X5, X6); C - это свободный член уравнения регрессии. В строке Method выбираем LS - Least Squares (NLS and ARMA) - метод наименьших квадратов. Нажав ОК, получаем результат (рис. 14):

Рис. 14

Для просмотра полной записи уравнения необходимо выбрать View/Representations (рис. 15): Коэффициенты стандартизованного уравнения регрессии показывают скорость изменения среднего значения Y для соответствующего значения X_k, .

Стандартизованное уравнение регрессии позволяет отметить, что наибольшее влияние на Y (численность населения РФ) оказывает Х3 (численность вынужденных переселенцев и беженцев), т. к. коэффициент при Х3 самый большой (1,126360129).

Рис. 15

Параметры стандартизованного уравнения регрессии определяют, что с возрастанием численности вынужденных переселенцев и беженцев на величину стандартного отклонения при постоянных значениях Х1, Х2, Х4, Х5 и Х6 численность населения возрастет на величину, равную стандартному отклонению Y, умноженному на 1,126360129.

Коэффициент при Х6 мал (0,045612), что говорит о том, что при большом изменении фактора Х6, Y изменится незначительно.

Расчёт коэффициентов эластичности.

Эффективность воздействия факторов на зависимую переменную можно оценивать не только с помощью коэффициента корреляции, но и с помощью коэффициента эластичности.

Коэффициент эластичности определяет изменение Y при изменении X_k на 1%.

где - коэффициент эластичности; - среднее значение X_k; - среднее значение Y; - коэффициент при X_k в стандартизованном уравнении регрессии.

Рассчитаем коэффициенты эластичности для всех X_k, входящих в уравнение регрессии:

-1,39*10^-6; 0,00236; 0,44; 0,0023; -0,0035; 0,000085.

Опираясь на эти данные, можно сделать вывод, что наибольшее влияние на Y оказывает фактор Х3, а наименьшее - фактор Х1.

Исследование уравнения регрессии

Рис. 16

Коэффициент детерминации.

Мерой качества уравнения регрессии, характеристикой прогностической силы анализируемой регрессионной модели является коэффициент детерминации (R-squared). Он показывает, какая часть вариации зависимой переменной обусловлена вариацией объясняющей переменной. Чем ближе коэффициент детерминации к единице, тем лучше регрессия аппроксимирует эмпирические данные.

В нашем случае коэффициент детерминации равен 0,998548. Это значит, что изменение численности населения на 99,85% объясняется изменением факторов Х1 - Х6.

Проверка значимости коэффициентов регрессии.

Для проверки значимости уравнения регрессии используем критерий Фишера.

F-критерий обозначается F-statistic=343,93.

Выдвинем нулевую гипотезу Н₀: не существует статистической зависимости между эндогенной и экзогенными переменными и параметры регрессии не значимы. Также выберем устраивающую нас вероятность ошибки I рода α=0,05.

Вероятность Prob (F-statistic) = 0.000242<0,05, значит, с вероятностью ошибки I рода α=0,05 нам следует отвергнуть нулевую гипотезу и решить, что существует статистическая зависимость между эндогенной и экзогенными переменными и параметры регрессии значимы.

Средняя ошибка аппроксимации

Стандартная ошибка аппроксимации S.E. of regression = 0,0659, или, другими словами, построенная регрессия на 6,59% отклоняется от опытных данных.

Проверка значимости оценок параметров регрессии.

Для проверки значимости оценок параметров регрессии используется критерий Стъюдента.

Выдвинем нулевую гипотезу Н₀: оценки параметров регрессии и истинные значения параметров β_k в генеральной совокупности существенно различаются, т.е. фактор X не влияет на Y. Также выберем устраивающую нас вероятность ошибки I рода α=0,05.

Вероятности для t-статистики параметров регрессии указаны в столбце Prob: р_Х1=0.0216, р_Х2=0.0007, р_Х3=0.0004, р_Х4=0.0054, р_Х5=0.002, р_Х6 = 0.6451, р_с = 0.0001. Сравнив их с α = 0.05, можно сделать вывод: коэффициенты при X1, X2, X3, X4, X5 значимы, а при X6 - незначим. Продолжим исследование и попытаемся улучшить модель.

Построение корреляционной матрицы

Мы выдвигаем гипотезу о наличии линейной связи между Y и X_k, . При этом предположении мы можем исследовать интенсивность связи между переменными с помощью корреляционного анализа.

Корреляционный анализ исследует силу стохастической связи между переменными. Теснота этой связи количественно выражается величиной коэффициента корреляции r є [-1: +1].

Принято считать, что существует сильная связь между двумя переменными, если модуль коэффициента корреляции больше либо равен 0,7. Причём, если коэффициент корреляции отрицательный, то связь между переменными обратная, если положительный - прямая; равный же 0 коэффициент корреляции позволяет говорить об отсутствии линейной зависимости между переменными.

Рис. 17

Проанализируем полученные данные: коэффициент корреляции между Y и X3, X5, X6 больше 0,7, т.е. можно говорить о наличии сильной зависимости между этими переменными.

Проверка на мультиколлинеарность.

При выборе объясняющих переменных может возникнуть явление высокой взаимной коррелированности экзогенных переменных (мультиколлинеарность).

Мультиколлинерность приводит к уменьшению точности оценки параметров или невозможности получения объективных оценок из-за связи независимых переменных между собой.

Для выявления связи между независимыми переменнми проводится анализ корреляционной матрицы между экзогенными переменными и выявляются пары переменных, имеющих высокие коэффициенты корреляции (больше 0,4). Если такие переменные существуют, то говорят о явлении мультиколлинеарности между ними.

Как видим, коэффициент корреляции больше 0,4 для следующих пар переменных: (X1, X2), (X1, X3), (X1, X4), (X1, X5), (X1, X6), (X2, X3), (X2, X5), (X3, X4), (X3, X5), (X3, X6), (X4, X5), (X4, X6), (X5, X6).

Мы столкнулись с явлением мультиколлинеарности.

Воспользуемся методом исключения переменных: по парной корреляции наибольшая связь между зависимыми переменными у X4 и X6. Теперь чтобы исключить какой-либо фактор воспользуемся коэффициентами частной корреляции.

Частная корреляция.

Частная корреляция оценивает силу связи между зависимой переменной и одной из независимых переменных при исключении влияния остальных, то есть связь оценивается в чистом виде.

С помощью частного коэффициента корреляции определяют, какая из экзогенных переменных наиболее сильно связана с эндогенной переменной.

Рис. 18

Коэффициенты частной корреляции X4 и X6 соответственно равны 0,566619 и -0,037893, следовательно наибольшее влияние на Y оказывает X4, поэтому фактор X6 можно исключить из модели.

Так как мы исключили фактор X6, нужно опять строить модель множественной регрессии, но только для факторов X_k, k=1,2,3,4,5.

Рис. 19

Оценим статистическую значимость прогнозного уравнения:

Коэффициент детерминации R²=0.998422>0,7, что говорит о том, что доля влияния независимых переменных на зависимую значительна.

Адекватность регрессии опытным данным

Т.к. Prob (F-statistic)= 0,000011 < 0,05, то отвергаем гипотезу H₀ о незначимости регрессии.

Значимость оценок регрессии:

Продолжим исследование.

Оценим наличие мультиколлинеарности:

Рис. 20

Мы столкнулись с явлением мультиколлинеарности. Снова применяем метод исключения переменных: воспользуемся коэффициентом частной корреляции.

Рис. 21

Для X3 и X5 они соответственно равны: 0,95690 и -0,804111, следовательно наибольшее влияние на Y оказывает X3, поэтому фактор X5 можно исключить из модели.

Так как мы исключили фактор X5, нужно опять строить модель множественной регрессии, но только для факторов Xk, k=1,2,3,4.

econometric модель регрессионный eviews

Рис. 22

Оценим статистическую значимость прогнозного уравнения:

Коэффициент детерминации R²=0.954215>0,7, что говорит о том, что доля влияния независимых переменных на зависимую значительна (95%).

Адекватность регрессии опытным данным

Т.к. Prob (F-statistic)= 0,0015 < 0,05, то отвергаем гипотезу H₀ о незначимости регрессии.

Значимость оценок регрессии

В исследовании оказывается, что Prob для X1, X4> 0,05 это говорит о статистической незначимости коэффициентов при X1, X4.

Продолжим исследование и попытаемся улучшить модель.

Оценим наличие мультиколлинеарности:

Рис. 23

Мы столкнулись с явлением мультиколлинеарности. Снова применяем метод исключения переменных: воспользуемся коэффициентом частной корреляции:

Рис. 24

Для X1 и X4 они соответственно равны: -0,192656 и 0,399056, значит X4 больше влияет на Y, чем X1. Поэтому фактор X1 можно исключить из модели.

При увеличении числа беженцев и вынужденных переселенцев на 1 тыс. человек, численность населения РФ увеличивается в среднем на 30,201486 человек.

Список литературы

1. Молчанов И.Н., Герасимова И.А, «Компьютерный практикум по начальному курсу эконометрики (реализация на Eviews)», Ростов-н/Д., - 2001.

. И.И. Елисеева, «Эконометрика», Москва - 2007 г.

. Сайт Федеральной служба государственной статистики: www. gks.ru

Исследование эконометрической модели с использованием пакета Eviews