Исследование регрессии и корреляции

Вид работы:

Контрольная работа
Предмет:

Эктеория
Язык:

Русский
,
Формат файла:
MS Word

740,4 Кб
Опубликовано:

2013-11-30

Все контрольные работы по экономической теории

Скачать контрольную работу Читать текст online Посмотреть все контрольные работы

Вы можете узнать стоимость помощи в написании студенческой работы.

Исследование регрессии и корреляции

1. Парная регрессия и корреляция

По территориям региона приводятся данные за 199X г.

Таблица 1

Номер региона	Среднедушевой прожиточный минимум в день одного трудоспособного, руб., Среднедневная заработная плата, руб.,
1	74	122
2	81	134
3	90	136
4	79	125
5	89	120
6	87	127
7	77	125
8	93	148
9	70	122
10	93	157
11	87	144
12	121	165

Требуется:

1. Построить линейное уравнение парной регрессии от .

2. Рассчитать линейный коэффициент парной корреляции и среднюю ошибку аппроксимации.

. Оценить статистическую значимость параметров регрессии и корреляции с помощью -критерия Фишера и -критерия Стьюдента.

. Выполнить прогноз заработной платы при прогнозном значении среднедушевого прожиточного минимума , составляющем 107 % от среднего уровня.

5. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал.

6. На одном графике построить исходные данные и теоретическую прямую.

Решение

1. Для расчета параметров уравнения линейной регрессии строим расчетную таблицу 2.

Таблица 2

;

Получено уравнение регрессии: .

С увеличением среднедушевого прожиточного минимума на 1 руб. среднедневная заработная плата возрастает в среднем на 0,95 руб.

2. Тесноту линейной связи оценит коэффициент корреляции:

; .

Это означает, что 70 % вариации заработной платы () объясняется вариацией фактора - среднедушевого прожиточного минимума.

Качество модели определяет средняя ошибка аппроксимации:

Качество построенной модели оценивается как хорошее, так как не превышает 8-10 %.

3. Оценку значимости уравнения регрессии в целом проведем с помощью -критерия Фишера. Фактическое значение -критерия:

Табличное значение критерия при пятипроцентном уровне значимости и степенях свободы и составляет . Так как , то уравнение регрессии признается статистически значимым.

Оценку статистической значимости параметров регрессии проведем с помощью -статистики Стьюдента и путем расчета доверительного интервала каждого из показателей.

Табличное значение -критерия для числа степеней свободы и составит .

Определим случайные ошибки , , :

;

Тогда

;

Фактические значения -статистики превосходят табличное значение:

поэтому параметры , и не случайно отличаются от нуля, а статистически значимы.

Рассчитаем доверительные интервалы для параметров регрессии и . Для этого определим предельную ошибку для каждого показателя:

;

Доверительные интервалы

Анализ верхней и нижней границ доверительных интервалов приводит к выводу о том, что с вероятностью параметры и , находясь в указанных границах, не принимают нулевых значений, т. е. не являются статистически незначимыми и существенно отличны от нуля.

4. Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Если прогнозное значение прожиточного минимума составит: руб., тогда прогнозное значение заработной платы составит: руб.

5. Ошибка прогноза составит:

Предельная ошибка прогноза, которая в случаев не будет превышена, составит:

Доверительный интервал прогноза:

руб.;

руб.

Выполненный прогноз среднемесячной заработной платы является надежным () и находится в пределах от 120,37 руб. до 161,99 руб.

6. В заключение решения задачи построим на одном графике исходные данные и теоретическую прямую (рис. 1):

Рис. 1.

. Множественная регрессия и корреляция

По предприятиям региона изучается зависимость выработки продукции на одного работника (тыс. руб.) от ввода в действие новых основных фондов ( от стоимости фондов на конец года) и от удельного веса рабочих высокой квалификации в общей численности рабочих ().

Номер предприятия	Номер предприятия
1	6	3,5	10	11	10	6,3	21
2	6	3,6	12	12	11	6,4	22
3	7	3,9	15	13	11	7	23
4	7	4,1	17	14	12	7,5	25
5	7	4,2	18	15	12	7,9	28
6	8	4,5	19	16	13	8,2	30
7	8	5,3	19	17	13	8,4	31
8	9	5,3	20	18	14	8,6	31
9	9	5,6	20	19	14	9,5	35
10	10	6	21	20	15	10	36

Требуется:

1. Построить линейную модель множественной регрессии. Записать стандартизованное уравнение множественной регрессии. На основе стандартизованных коэффициентов регрессии и средних коэффициентов эластичности ранжировать факторы по степени их влияния на результат.

2. Найти коэффициенты парной, частной и множественной корреляции. Проанализировать их.

3. Найти скорректированный коэффициент множественной детерминации. Сравнить его с нескорректированным (общим) коэффициентом детерминации.

4. С помощью -критерия Фишера оценить статистическую надежность уравнения регрессии и коэффициента детерминации .

5. С помощью частных -критериев Фишера оценить целесообразность включения в уравнение множественной регрессии фактора после и фактора после .

6. Составить уравнение линейной парной регрессии, оставив лишь один значащий фактор.

Решение

Для удобства проведения расчетов поместим результаты промежуточных расчетов в таблицу:

Найдем средние квадратические отклонения признаков:

;

1. Вычисление параметров линейного уравнения множественной регрессии.

Для нахождения параметров линейного уравнения множественной регрессии

необходимо решить следующую систему линейных уравнений относительно неизвестных параметров , , :

либо воспользоваться готовыми формулами:

; ;

Рассчитаем сначала парные коэффициенты корреляции:

;

Находим

;

Таким образом, получили следующее уравнение множественной регрессии:

Коэффициенты и стандартизованного уравнения регрессии находятся по формулам:

;

Т.е. уравнение будет выглядеть следующим образом:

Так как стандартизованные коэффициенты регрессии можно сравнивать между собой, то можно сказать, что ввод в действие новых основных фондов оказывает большее влияние на выработку продукции, чем удельный вес рабочих высокой квалификации.

Сравнивать влияние факторов на результат можно также при помощи средних коэффициентов эластичности:

Вычисляем:

; .

Т.е. увеличение только основных фондов (от своего среднего значения) или только удельного веса рабочих высокой квалификации на 1 % увеличивает в среднем выработку продукции на 0,83 % или 0,035 % соответственно. Таким образом, подтверждается большее влияние на результат фактора , чем фактора .

2. Коэффициенты парной корреляции мы уже нашли:

; ; .

Они указывают на весьма сильную связь каждого фактора с результатом, а также высокую межфакторную зависимость (факторы и явно коллинеарны, т. к. ). При такой сильной межфакторной зависимости рекомендуется один из факторов исключить из рассмотрения.

Частные коэффициенты корреляции характеризуют тесноту связи между результатом и соответствующим фактором при элиминировании (устранении влияния) других факторов, включенных в уравнение регрессии.

При двух факторах частные коэффициенты корреляции рассчитываются следующим образом:

;

Если сравнить коэффициенты парной и частной корреляции, то можно увидеть, что из-за высокой межфакторной зависимости коэффициенты парной корреляции дают завышенные оценки тесноты связи. Именно по этой причине рекомендуется при наличии сильной коллинеарности (взаимосвязи) факторов исключать из исследования тот фактор, у которого теснота парной зависимости меньше, чем теснота межфакторной связи.

Коэффициент множественной корреляции определить через матрицу парных коэффициентов корреляции:

где

- определитель матрицы парных коэффициентов корреляции;

определитель матрицы межфакторной корреляции.

;

Коэффициент множественной корреляции

Аналогичный результат получим при использовании других формул:

;

Коэффициент множественной корреляции показывает на весьма сильную связь всего набора факторов с результатом.

3. Нескорректированный коэффициент множественной детерминации оценивает долю вариации результата за счет представленных в уравнении факторов в общей вариации результата. Здесь эта доля составляет и указывает на весьма высокую степень обусловленности вариации результата вариацией факторов, иными словами - на весьма тесную связь факторов с результатом.

Скорректированный коэффициент множественной детерминации определяет тесноту связи с учетом степеней свободы общей и остаточной дисперсий. Он дает такую оценку тесноты связи, которая не зависит от числа факторов и поэтому может сравниваться по разным моделям с разным числом факторов. Оба коэффициента указывают на весьма высокую (более ) детерминированность результата в модели факторами и .

4. Оценку надежности уравнения регрессии в целом и показателя тесноты связи дает -критерий Фишера:

В нашем случае фактическое значение -критерия Фишера:

Получили, что (при ), т. е. вероятность случайно получить такое значение -критерия не превышает допустимый уровень значимости . Следовательно, полученное значение не случайно, оно сформировалось под влиянием существенных факторов, т. е. подтверждается статистическая значимость всего уравнения и показателя тесноты связи .

5. С помощью частных -критериев Фишера оценим целесообразность включения в уравнение множественной регрессии фактора после и фактора после при помощи формул:

;

Найдем и .

;

Имеем

;

Получили, что . Следовательно, включение в модель фактора после того, как в модель включен фактор статистически нецелесообразно: прирост факторной дисперсии за счет дополнительного признака оказывается незначительным, несущественным; фактор включать в уравнение после фактора не следует.

Если поменять первоначальный порядок включения факторов в модель и рассмотреть вариант включения после , то результат расчета частного -критерия для будет иным. , т. е. вероятность его случайного формирования меньше принятого стандарта . Следовательно, значение частного -критерия для дополнительно включенного фактора не случайно, является статистически значимым, надежным, достоверным: прирост факторной дисперсии за счет дополнительного фактора является существенным. Фактор должен присутствовать в уравнении, в том числе в варианте, когда он дополнительно включается после фактора .

6. Общий вывод состоит в том, что множественная модель с факторами и с содержит неинформативный фактор . Если исключить фактор , то можно ограничиться уравнением парной регрессии:

, .

. Системы эконометрических уравнений

Дана система эконометрических уравнений.

Макроэкономическая модель (упрощенная версия модели Клейна):

где - потребление; - инвестиции; - доход; - налоги; - запас капитала; - текущий период; - предыдущий период.

Требуется

1. Применив необходимое и достаточное условие идентификации, определите, идентифицируемо ли каждое из уравнений модели.

2. Определите метод оценки параметров модели.

3. Запишите в общем виде приведенную форму модели.

Решение

Первое уравнение - функция потребления, второе уравнение - функция инвестиций, третье уравнение - тождество дохода.

Модель представляет собой систему одновременных уравнений. Проверим каждое ее уравнение на идентификацию.

Модель включает три эндогенные переменные и две предопределенные переменные (экзогенную переменную - и лаговую переменную - ).

Проверим необходимое условие идентификации для каждого из уравнений модели.

Первое уравнение: . Это уравнение содержит две эндогенные переменные и и одну предопределенную переменную . Таким образом, , а , т. е. выполняется условие . Уравнение сверхидентифицируемо.

Второе уравнение: . Оно включает две эндогенные переменные и и одну экзогенную переменную . Выполняется условие . Уравнение сверхидентифицируемо.

Третье уравнение: . Оно представляет собой тождество, параметры которого известны. Необходимости в идентификации нет.

Проверим для каждого уравнения достаточное условие идентификации. Для этого составим матрицу коэффициентов при переменных модели.


I уравнение	-1	0	0
II уравнение	0	-1	0
Тождество	1	1	-1	0	0

В соответствии с достаточным условием идентификации ранг матрицы коэффициентов при переменных, не входящих в исследуемое уравнение, должен быть равен числу эндогенных переменных модели без одного.

Первое уравнение. Матрица коэффициентов при переменных, не входящих в уравнение, имеет вид


II уравнение	-1
Тождество	1	0

Ранг данной матрицы равен двум, так как определитель квадратной матрицы не равен нулю:

Достаточное условие идентификации для данного уравнения выполняется.

Второе уравнение. Матрица коэффициентов при переменных, не входящих в уравнение, имеет вид


I уравнение	-1
Тождество	1	0

Ранг данной матрицы равен двум, так как определитель квадратной матрицы не равен нулю:

Достаточное условие идентификации для данного уравнения выполняется.

Таким образом, все уравнения модели сверхидентифицируемы. Приведенная форма модели в общем виде будет выглядеть следующим образом:

Для оценки параметров необходимо применить двухшаговый метод наименьших квадратов.

. Временные ряды

корреляция регрессия линейный уравнение

Имеются условные данные об объемах потребления электроэнергии () жителями региона за 16 кварталов.


1	5,8	9	7,9
2	4,5	10	5,5
3	5,1	11	6,3
4	9,1	10,8
5	7,0	13	9,0
6	5,0	14	6,5
7	6,0	15	7,0
8	10,1	16	11,1

Требуется:

1. Построить автокорреляционную функцию и сделать вывод о наличии сезонных колебаний.

2. Построить мультипликативную модель временного ряда.

3. Сделать прогноз на 2 квартала вперед.

Решение

Построим поле корреляции:

Рис. 1

Уже исходя из графика видно, что значения образуют пилообразную фигуру. Рассчитаем несколько последовательных коэффициентов автокорреляции. Для этого составляем первую вспомогательную таблицу.

Таблица 2

t	y_t	y_t-1	y_t- y₁	y_t-1- y₂	(y_t- y₁) *(y_t-1- y₂)	(y_t-y₁)²	(y_t-1-y₂)²
1	5,8	-	-	-	-	-	-
2	4,5	5,8	-2,89	-1,24	3,59	8,37	1,54
3	5,1	4,5	-2,29	-2,54	5,83	5,26	6,45
4	9,1	5,1	1,71	-1,94	-3,31	2,91	3,76
5	7	9,1	-0,39	2,06	-0,81	0,15	4,24
6	5	7	-2,39	-0,04	0,10	5,73	0,00
7	6	5	-1,39	-2,04	2,84	1,94	4,16
8	10,1	6	2,71	-1,04	-2,81	7,33	1,08
9	7,9	10,1	0,51	3,06	1,55	0,26	9,36
10	5,5	7,9	-1,89	0,86	-1,63	3,58	0,74
11	6,3	5,5	-1,09	-1,54	1,68	1,20	2,37
12	10,8	6,3	3,41	-0,74	-2,52	11,61	0,55
13	9	10,8	1,61	3,76	6,04	2,58	14,14
14	6,5	9	-0,89	1,96	-1,75	0,80	3,84
15	7	6,5	-0,39	-0,54	0,21	0,15	0,29
16	11,1	7	3,71	-0,04	-0,15	13,74	0,00
Сумма	110,9	105,6	0,00	0,00	8,85	65,61	52,54
Среднее значение	7,39	7,04	-	-	-	-	-

Следует заметить, что среднее значение получается путем деления не на 16, а на 15, т. к. у нас теперь на одно наблюдение меньше.

Теперь вычисляем коэффициент автокорреляции первого порядка по формуле (4.1):

Составляем вспомогательную таблицу для расчета коэффициента автокорреляции второго порядка.

Таблица 3


1	2	3	4	5	6	7	8
1	5,8	-	-	-	-	-	-
2	4,5	-	-	-	-	-	-
3	5,1	5,80	-2,50	-1,24	3,11	6,25	1,54
4	9,1	4,50	1,50	-2,54	-3,81	2,25	6,47
5	7	5,10	-0,60	-1,94	1,17	0,36	3,77
6	5	9,10	-2,60	2,06	-5,35	6,76	4,23
7	6	7,00	-1,60	-0,04	0,07	2,56	0,00
8	10,1	5,00	2,50	-2,04	-5,11	6,25	4,17
9	7,9	6,00	0,30	-1,04	-0,31	0,09	1,09
10	5,5	10,10	-2,10	3,06	-6,42	4,41	9,35
11	6,3	7,90	-1,30	0,86	-1,11	1,69	0,73
12	10,8	5,50	3,20	-1,54	-4,94	10,24	2,38
13	9	6,30	1,40	-0,74	-1,04	1,96	0,55
14	6,5	10,80	-1,10	3,76	-4,13	1,21	14,12
15	7	9,00	-0,60	1,96	-1,17	0,36	3,83
16	11,1	6,50	3,50	-0,54	-1,90	12,25	0,29
Сумма	106,4	98,60	0,00	0,00	-30,96	56,64	52,53
Среднее значение	7,60	7,04

Следовательно

Аналогично находим коэффициенты автокорреляции более высоких порядков, а все полученные значения заносим в сводную таблицу.

Таблица 4.

Лаг
1	0,150741
2	-0,567553
3	0,094221
4	0,989408
5	0,125385
6	-0,697339
7	-0,039680
8	0,975879
9	0,146685
10	-0,741901
11	-0,131990
12	0,955916

Коррелограмма:

Рис. 2.

Анализ коррелограммы и графика исходных уровней временного ряда позволяет сделать вывод о наличии в изучаемом временном ряде сезонных колебаний периодичностью в четыре квартала.

Построим мультипликативную модель временного ряда.

Шаг 1. Проведем выравнивание исходных уровней ряда методом скользящей средней. Для этого:

.1. Просуммируем уровни ряда последовательно за каждые четыре квартала со сдвигом на один момент времени и определим условные годовые объемы потребления электроэнергии (гр. 3 табл. 5).

.2. Разделив полученные суммы на 4, найдем скользящие средние (гр. 4 табл. 5). Полученные таким образом выровненные значения уже не содержат сезонной компоненты.

.3. Приведем эти значения в соответствие с фактическими моментами времени, для чего найдем средние значения из двух последовательных скользящих средних - центрированные скользящие средние (гр. 5 табл. 5).

Таблица 5.

№ квартала, t	Объем потребления энергии, y_t	Итого за четыре квартала	Скользящая средняя за четыре квартала	Центрированная скользящая средняя	Оценка сезонной компоненты
1	5,8	-	-	-	-
2	4,5	24,5	6,125	-	-
3	5,1	25,7	6,425	6,275	0,8127
4	9,1	26,2	6,55	6,4875	1,4027
5	7	27,1	6,775	6,6625	1,0507
6	5	28,1	7,025	6,9	0,7246
7	6	29	7,25	7,1375	0,8406
8	10,1	29,5	7,375	7,3125	1,3812
9	7,9	29,8	7,45	7,4125	1,0658
10	5,5	30,5	7,625	7,5375	0,7297
11	6,3	31,6	7,9	7,7625	0,8116
12	10,8	32,6	8,15	8,025	1,3458
13	9	33,3	8,325	8,2375	1,0926
14	6,5	33,6	8,4	8,3625	0,7773
15	7	-	-	-	-
16	11,1	-	-	-	-

Шаг 2. Найдем оценки сезонной компоненты как частное от деления фактических уровней ряда на центрированные скользящие средние (гр. 6 табл. 5). Эти оценки используются для расчета сезонной компоненты (табл. 6.). Для этого найдем средние за каждый квартал оценки сезонной компоненты . Считается, что сезонные воздействия за период взаимопогашаются. В мультипликативной модели это выражается в том, что сумма значений сезонной компоненты по всем кварталам должна быть равна числу периодов в цикле. В нашем случае число периодов одного цикла равно 4.

Таблица 6.

Показатели	№ квартала, i
	I	II	III	IV
	-	-	0,8127	1,4027
	1,0507	0,7246	0,8406	1,3812
	1,0658	0,7297	0,8116	1,3458
	1,0926	0,7773	-	-
Всего за i-й квартал	3,2091	2,2316	2,4649	4,1297
Средняя оценка сезонной компоненты для i-го квартала,	1,0697	0,7439	0,8216	1,3766
Скорректированная сезонная компонента, S_i	1,0666	0,7417	0,8192	1,3725

Имеем

Определяем корректирующий коэффициент:

Скорректированные значения сезонной компоненты получаются при умножении ее средней оценки на корректирующий коэффициент .

Проверяем условие равенство 4 суммы значений сезонной компоненты:

Шаг 3. Разделим каждый уровень исходного ряда на соответствующие значения сезонной компоненты. В результате получим величины (гр. 4 табл. 7), которые содержат только тенденцию и случайную компоненту.

Таблица 7.

t	y_t	S_i	y_t/S_i	T	T*S	E=y_t/(T*S)
1	2	3	4	5	6	7
1	5,8	1,0666	5,4378	5,8475	6,2369	0,9299
2	4,5	0,7417	6,0671	6,0392	4,4793	1,0046
3	5,1	0,8192	6,2256	6,2309	5,1044	0,9991
4	9,1	1,3725	6,6302	6,4226	8,8150	1,0323
5	7	1,0666	6,5629	6,6143	7,0548	0,9922
6	5	0,7417	6,7413	6,8060	5,0480	0,9905
7	6	0,8192	7,3242	6,9977	5,7325	1,0467
8	10,1	1,3725	7,3588	7,1894	9,8675	1,0236
9	7,9	1,0666	7,4067	7,3811	7,8727	1,0035
10	5,5	0,7417	7,4154	7,5728	5,6167	0,9792
11	6,3	0,8192	7,6904	7,7645	6,3607	0,9905
12	10,8	1,3725	7,8689	7,9562	10,9199	0,9890
13	9	1,0666	8,4380	8,1479	8,6906	1,0356
14	6,5	0,7417	8,7637	8,3396	6,1855	1,0508
15	7	0,8192	8,5449	8,5313	6,9888	1,0016
16	11,1	1,3725	8,0874	8,7230	11,9723	0,9271

Шаг 4. Определим компоненту в мультипликативной модели. Для этого рассчитаем параметры линейного тренда, используя уровни . В результате получим уравнение тренда:

Подставляя в это уравнение значения , найдем уровни для каждого момента времени (гр. 5 табл. 7.).

Шаг 5. Найдем уровни ряда, умножив значения на соответствующие значения сезонной компоненты (гр. 6 табл. 7.). На одном графике откладываем фактические значения уровней временного ряда и теоретические, полученные по мультипликативной модели.

Расчет ошибки в мультипликативной модели производится по формуле:

Для сравнения мультипликативной модели и других моделей временного ряда можно использовать сумму квадратов абсолютных ошибок :

Шаг 6. Прогнозирование по мультипликативной модели. Прогнозное значение уровня временного ряда в мультипликативной модели есть произведение трендовой и сезонной компонент. Для определения трендовой компоненты воспользуемся уравнением тренда

Получим

;

Значения сезонных компонент за соответствующие кварталы равны: и . Таким образом

;

Т.е. в следующие два квартала следует ожидать следующие объемы потребления электроэнергии 9,5 и 6,8 соответственно.

Исследование регрессии и корреляции

Исследование регрессии и корреляции

Таблица 5.

Таблица 6.

Таблица 7.

Похожие работы на - Исследование регрессии и корреляции