Парная корреляция и регрессия
МИНИСТЕРСТВО
СЕЛЬСКОГО ХОЗЯЙСТВА РФ
ФЕДЕРАЛЬНОЕ
ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ
ОБРАЗОВАТЕЛЬНОЕ
УЧРЕЖДЕНИЕ
ВЫСШЕГО
ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ
«ОРЛОВСКИЙ
ГОСУДАРСТВЕННЫЙ АГРАРНЫЙ УНИВЕРСИТЕТ»
Кафедра
«Статистика и экономический анализ деятельности предприятий»
Выполнение
индивидуального задания №1 по дисциплине «Эконометрика» на тему:
«Парная
корреляция и регрессия»
Вариант-16
Подготовила:
студентка
группы Бэб-231
Кошелева
А.С.
Проверила:
к.э.н., доцент Бураева Е.В.
Орел - 2015
г.
Вариант 16
По данным хозяйств 5-29 (включительно) изучить
зависимость между Валовым доходом растениеводства, приходящимся на 100 га пашни
(тыс. руб.) и Долей трактористов - машинистов в общей численности работников,
занятых в сельскохозяйственном производстве, %.
Решение
Для нашего примера:
Х - Валовой доход растениеводства (тыс. руб.)
(факторный признак);
Y-Доля трактористов
- машинистов в общей численности работников (результативный признак).
Таблица 1
№
|
Площадь
пашни, га.
|
Валовой
доход растениеводства, тыс. руб.
|
Среднегодовая
численность работников сельскохозяйственного предприятия, чел
|
Среднесписочная
численность трактористов - машинистов, чел
|
1.
|
3191
|
3543
|
134
|
35
|
2.
|
3104
|
4001
|
156
|
36
|
3.
|
3122
|
3756
|
101
|
27
|
4.
|
1306
|
665
|
56
|
7
|
5.
|
2838
|
3194
|
112
|
31
|
6.
|
4852
|
3407
|
151
|
38
|
7.
|
1790
|
1667
|
51
|
14
|
8.
|
3053
|
1979
|
96
|
34
|
9.
|
1987
|
2141
|
67
|
10.
|
1803
|
3807
|
74
|
37
|
11.
|
2790
|
2137
|
163
|
24
|
12.
|
17489
|
18183
|
619
|
99
|
13.
|
13813
|
5291
|
686
|
101
|
14.
|
2883
|
5746
|
129
|
18
|
15.
|
2601
|
3614
|
141
|
9
|
16.
|
3412
|
8494
|
123
|
20
|
17.
|
4277
|
11403
|
272
|
47
|
18.
|
2497
|
2642
|
121
|
97
|
19.
|
4759
|
4195
|
184
|
38
|
20.
|
4820
|
4959
|
257
|
40
|
21.
|
4214
|
9640
|
351
|
42
|
22.
|
3050
|
10037
|
195
|
32
|
23.
|
2752
|
7889
|
122
|
26
|
3106
|
3766
|
113
|
16
|
25.
|
4002
|
4227
|
136
|
15
|
Таблица 2 - Исходные данные
№
|
Валовой
доход растениеводства, приходящимся на 100 га пашни тыс. руб.
|
Доля
трактористов - машинистов в общей численности работников
|
1.
|
111
|
26
|
2.
|
129
|
23
|
3.
|
120
|
27
|
4.
|
51
|
13
|
5.
|
113
|
28
|
6.
|
70
|
25
|
7.
|
93
|
27
|
8.
|
65
|
35
|
9.
|
108
|
16
|
10.
|
211
|
50
|
11.
|
77
|
14
|
12.
|
104
|
15
|
13.
|
38
|
14
|
14.
|
199
|
13
|
15.
|
139
|
6
|
16.
|
249
|
16
|
17.
|
267
|
17
|
18.
|
106
|
80
|
19.
|
88
|
20
|
103
|
15
|
21.
|
229
|
12
|
22.
|
329
|
16
|
23.
|
287
|
21
|
24.
|
121
|
14
|
25.
|
106
|
11
|
Закон больших чисел выполняется, так как
количество наблюдений более, чем в 10 раз превышает количество факторных
признаков.
Проверим характер распределения признаков x
и y. Для этого
рассчитаем описательные статистики для каждого из признаков с помощью ППП MS
Excel.
Валовой
доход растениеводства, приходящимся на 100 га пашни тыс. руб.
|
|
Доля
трактористов - машинистов в общей численности работников
|
|
|
|
|
|
Среднее
|
140,52
|
Среднее
|
22,16
|
Стандартная
ошибка
|
15,70362
|
Стандартная
ошибка
|
3,026373
|
Медиана
|
111
|
Медиана
|
16
|
Мода
|
106
|
Мода
|
16
|
Стандартное
отклонение
|
78,51811
|
Стандартное
отклонение
|
15,13186
|
Дисперсия
выборки
|
6165,093
|
Дисперсия
выборки
|
228,9733
|
Эксцесс
|
0,084087
|
Эксцесс
|
8,789437
|
Асимметричность
|
1,030488
|
Асимметричность
|
2,696536
|
Интервал
|
291
|
Интервал
|
74
|
Минимум
|
38
|
Минимум
|
6
|
Максимум
|
329
|
Максимум
|
80
|
Сумма
|
3513
|
Сумма
|
554
|
Счет
|
Счет
|
25
|
Для оценки силы вариации признака рассчитаем
коэффициенты вариации для каждого из признаков:
Поскольку коэффициенты вариации по каждому из
признаков превышают пороговое значения 35 %, то можно сделать вывод о том, что
распределение по каждому из признаков неоднородно.
Рассчитанные выше показатели асимметрии
позволяют сделать вывод, что по каждому из признаков наблюдается правосторонняя
асимметрия и плосковершинный эксцесс. Таким образом описательная статистика
позволяет заключить, что МНК к данной совокупности не применяется, поскольку
она неоднородна и не подчиняется нормальному закону, следовательно выборочные
данные модельных признаков невозможно использовать для построения регрессионной
модели. Из совокупности необходимо удалить аномальные явления.
Таблица 3 - Исходные данные №2
№
|
Валовой
доход растениеводства, приходящимся на 100 га пашни тыс. руб.
|
Доля
трактористов - машинистов в общей численности работников,%
|
1.
|
111
|
26
|
2.
|
129
|
23
|
3.
|
120
|
27
|
5.
|
113
|
28
|
7.
|
93
|
27
|
9.
|
108
|
16
|
11.
|
77
|
14
|
12.
|
104
|
15
|
19.
|
88
|
20
|
20.
|
103
|
15
|
24.
|
121
|
14
|
25.
|
106
|
11
|
Закон больших чисел выполняется, так как
количество наблюдений в 10 раз превышает количество факторных признаков.
Далее проверим характер распределения признаков x
и y. Для этого
рассчитаем описательные статистики для каждого из признаков с помощью ППП MS
Excel.
Таблица 4 - Описательная статистика №2
Валовой
доход растениеводства, приходящимся на 100 га пашни тыс. руб.
|
|
Доля
трактористов - машинистов в общей численности работников
|
|
|
|
|
|
Среднее
|
106,0833
|
Среднее
|
19,66667
|
Стандартная
ошибка
|
4,241673
|
Стандартная
ошибка
|
1,793648
|
Медиана
|
107
|
Медиана
|
18
|
Мода
|
#Н/Д
|
Мода
|
27
|
Стандартное
отклонение
|
14,69359
|
6,213378
|
Дисперсия
выборки
|
215,9015
|
Дисперсия
выборки
|
38,60606
|
Эксцесс
|
0,082403
|
Эксцесс
|
-1,7949
|
Асимметричность
|
-0,49122
|
Асимметричность
|
0,177871
|
Интервал
|
52
|
Интервал
|
17
|
Минимум
|
77
|
Минимум
|
11
|
Максимум
|
129
|
Максимум
|
28
|
Сумма
|
1273
|
Сумма
|
236
|
Счет
|
12
|
Счет
|
12
|
Для оценки силы вариации признака рассчитаем
коэффициенты вариации для каждого из признаков:
Поскольку коэффициенты вариации по каждому из
признаков не превышают порогового значения 35 %, то можно сделать вывод о том,
что распределение по каждому из признаков однородно.
Рассчитанные выше показатели асимметрии
позволяют сделать вывод, что асимметричность не превышает свои допустимые
значения, имеет знак +, следует, график правосторонний. Эксцесс составляет,
0,082403 значит график является плосковершинным.
Таким образом, описательная статистика позволяет
сделать вывод о том, что распределение по каждому из признаков подчиняется
нормальному закону, следовательно, выборочные данные модельных признаков можно
использовать для построения регрессионной модели.
Линейное уравнение
Построим линейное уравнение парной регрессии y
по x имеем:
7,904
Тогда уравнение парной регрессии имеет вид:
= 0,1109x
+ 7,904
Полученное уравнение показывает, что с
увеличением доли валового дохода растениеводства, приходящегося на 100 га с/х
угодий, на 1 % доля трактористов - машинистов в общей численности работников
увеличится в среднем на 0,11%
Рисунок 1 - Влияние валового дохода отрасли
растениеводства, приходящегося на 100 га с/х угодий, на долю трактористов -
машинистов в общей численности работников (линейная модель)
Подставляя в полученное уравнение регрессии
значения из
исходных данных определяем теоретические (выровненные) значения результативного
признака
Таблица - 6 теоретические (выровненные) значения
результативного признака
№
|
Х
|
|
1.
|
111
|
20
|
2.
|
129
|
22
|
3.
|
120
|
21
|
4.
|
113
|
20
|
5.
|
93
|
18
|
6.
|
108
|
7.
|
77
|
16
|
8.
|
104
|
19
|
9.
|
88
|
18
|
10.
|
103
|
19
|
11.
|
121
|
21
|
12.
|
106
|
20
|
При линейной корреляции между x
и y исчисляют парный
линейный коэффициент корреляции r.
Учитывая:
оценим тесноту линейной связи с помощью
линейного коэффициента парной корреляции
В соответствии со шкалой Чеддока теснота связи
характеризуется как слабая.
Следовательно, вариация валового дохода отрасли
растениеводства, приходящегося на 100га пашни, на 0,00194% объясняется
вариацией доли численности трактористов-машинистов в общей численности
работников с/х производства, а остальные 99,9981% вариации валового дохода,
приходящегося на 100 га пашни обусловлены изменением других, не учтенных в
модели факторов.
В среднем расчетные значения отклоняются от
факторного признака на 29,1%. Это значение незначительно превышает допустимый
предел, следовательно, качество построенной модели близко к нормальному. Это, а
также очень маленькое значение коэффициента детерминации говорит о том, что
линейный тип модели не достаточно хорошо отражает представленные эмпирические
данные.
Для оценки силы связи признаков у и х найдем
средний коэффициент эластичности:
0,59
вариация регрессивный статистический
детерминация
Таким образом, в среднем на 0,59% по
совокупности увеличится от своей средней величины доля численности
трактористов-машинистов в общей численности работников с/х производства при
увеличении валового дохода отрасли растениеводства, приходящегося на 100 га с/х
угодий, на 1% от своего среднего значения.
Для оценки статистической надежности результатов
используем F-критерий Фишера.
Выдвигаем нулевую гипотезу Но о статистической
незначимости полученного уравнения регрессии.
0,0194
Сравним фактическое значение критерия Фишера с
табличным. Для этого выпишем значения критерия из таблицы, α=0,05
0
Таким образом: Fтабл.
= 4,96
при α=0,05.
Так как <
Fтабл.,
то нулевая гипотеза принимается и уравнение признается статистически
незначимым.
Оценку статистической значимости параметров
регрессии проведем с помощью - статистики Стьюдента и путем расчета
доверительного интервала каждого из показателей.
Табличное значение -критерия
для числа степеней свободы
12 - 2 = 10 и α=0,05 составит
Определим случайные ошибки , , :
=
=0,1 * = 0,02
= = 0,006
= = 0,09
Отсюда следует:
= = 395
= = 184,8
=
Определим предельную ошибку для
каждого показателя:
= 0,02 =0,04
2,2281*0,0006 = 0,0013
Анализ верхней и нижней границ
доверительных интервалов приводит к выводу о том, что с вероятностью параметры и , находясь в
указанных пределах, причем оба параметра являются статистически незначимыми, т.
к. в границы доверительно интервала попадает ноль.
Степенная модель
Имеет вид:
Данная функция нелинейная относительно
параметров, но линейна по переменным. Прежде, чем проводить анализ необходимо
перейти от нелинейной формы к линейной. В регрессиях нелинейных относительно
параметров процедура линеаризации (аноморфоза) производится путем
логарифмирования обеих частей уравнения:
Введем замену:
Р= lg y ; L= lg x; A
= lg a
Вновь полученное уравнение будет иметь вид: P
= A + b*L
Найдем среднее квадратическое отклонение по L:
= -(
=
Для расчета параметров уравнения регрессии
воспользуемся готовыми формулами: