Парная корреляция и регрессия

  • Вид работы:
    Контрольная работа
  • Предмет:
    Эктеория
  • Язык:
    Русский
    ,
    Формат файла:
    MS Word
    51,65 Кб
  • Опубликовано:
    2015-05-27
Вы можете узнать стоимость помощи в написании студенческой работы.
Помощь в написании работы, которую точно примут!

Парная корреляция и регрессия

МИНИСТЕРСТВО СЕЛЬСКОГО ХОЗЯЙСТВА РФ

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ

ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ

ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ

«ОРЛОВСКИЙ ГОСУДАРСТВЕННЫЙ АГРАРНЫЙ УНИВЕРСИТЕТ»

Кафедра «Статистика и экономический анализ деятельности предприятий»







Выполнение индивидуального задания №1 по дисциплине «Эконометрика» на тему:

«Парная корреляция и регрессия»

Вариант-16

Подготовила:

студентка группы Бэб-231

Кошелева А.С.

Проверила: к.э.н., доцент Бураева Е.В.





Орел - 2015 г.

Вариант 16

По данным хозяйств 5-29 (включительно) изучить зависимость между Валовым доходом растениеводства, приходящимся на 100 га пашни (тыс. руб.) и Долей трактористов - машинистов в общей численности работников, занятых в сельскохозяйственном производстве, %.

Решение

Для нашего примера:

Х - Валовой доход растениеводства (тыс. руб.) (факторный признак);

Y-Доля трактористов - машинистов в общей численности работников (результативный признак).

Таблица 1

Площадь пашни, га.

Валовой доход растениеводства, тыс. руб.

Среднегодовая численность работников сельскохозяйственного предприятия, чел

Среднесписочная численность трактористов - машинистов, чел

1.

3191

3543

134

35

2.

3104

4001

156

36

3.

3122

3756

101

27

4.

1306

665

56

7

5.

2838

3194

112

31

6.

4852

3407

151

38

7.

1790

1667

51

14

8.

3053

1979

96

34

9.

1987

2141

67

10.

1803

3807

74

37

11.

2790

2137

163

24

12.

17489

18183

619

99

13.

13813

5291

686

101

14.

2883

5746

129

18

15.

2601

3614

141

9

16.

3412

8494

123

20

17.

4277

11403

272

47

18.

2497

2642

121

97

19.

4759

4195

184

38

20.

4820

4959

257

40

21.

4214

9640

351

42

22.

3050

10037

195

32

23.

2752

7889

122

26

3106

3766

113

16

25.

4002

4227

136

15


Таблица 2 - Исходные данные

Валовой доход растениеводства, приходящимся на 100 га пашни тыс. руб.

Доля трактористов - машинистов в общей численности работников

1.

111

26

2.

129

23

3.

120

27

4.

51

13

5.

113

28

6.

70

25

7.

93

27

8.

65

35

9.

108

16

10.

211

50

11.

77

14

12.

104

15

13.

38

14

14.

199

13

15.

139

6

16.

249

16

17.

267

17

18.

106

80

19.

88

20

103

15

21.

229

12

22.

329

16

23.

287

21

24.

121

14

25.

106

11


Закон больших чисел выполняется, так как количество наблюдений более, чем в 10 раз превышает количество факторных признаков.

Проверим характер распределения признаков x и y. Для этого рассчитаем описательные статистики для каждого из признаков с помощью ППП MS Excel.

Валовой доход растениеводства, приходящимся на 100 га пашни тыс. руб.


Доля трактористов - машинистов в общей численности работников






Среднее

140,52

Среднее

22,16

Стандартная ошибка

15,70362

Стандартная ошибка

3,026373

Медиана

111

Медиана

16

Мода

106

Мода

16

Стандартное отклонение

78,51811

Стандартное отклонение

15,13186

Дисперсия выборки

6165,093

Дисперсия выборки

228,9733

Эксцесс

0,084087

Эксцесс

8,789437

Асимметричность

1,030488

Асимметричность

2,696536

Интервал

291

Интервал

74

Минимум

38

Минимум

6

Максимум

329

Максимум

80

Сумма

3513

Сумма

554

Счет

Счет

25


Для оценки силы вариации признака рассчитаем коэффициенты вариации для каждого из признаков:

 

 

Поскольку коэффициенты вариации по каждому из признаков превышают пороговое значения 35 %, то можно сделать вывод о том, что распределение по каждому из признаков неоднородно.

Рассчитанные выше показатели асимметрии позволяют сделать вывод, что по каждому из признаков наблюдается правосторонняя асимметрия и плосковершинный эксцесс. Таким образом описательная статистика позволяет заключить, что МНК к данной совокупности не применяется, поскольку она неоднородна и не подчиняется нормальному закону, следовательно выборочные данные модельных признаков невозможно использовать для построения регрессионной модели. Из совокупности необходимо удалить аномальные явления.

Таблица 3 - Исходные данные №2

Валовой доход растениеводства, приходящимся на 100 га пашни тыс. руб.

Доля трактористов - машинистов в общей численности работников,%

1.

111

26

2.

129

23

3.

120

27

5.

113

28

7.

93

27

9.

108

16

11.

77

14

12.

104

15

19.

88

20

20.

103

15

24.

121

14

25.

106

11


Закон больших чисел выполняется, так как количество наблюдений в 10 раз превышает количество факторных признаков.

Далее проверим характер распределения признаков x и y. Для этого рассчитаем описательные статистики для каждого из признаков с помощью ППП MS Excel.

Таблица 4 - Описательная статистика №2

Валовой доход растениеводства, приходящимся на 100 га пашни тыс. руб.


Доля трактористов - машинистов в общей численности работников






Среднее

106,0833

Среднее

19,66667

Стандартная ошибка

4,241673

Стандартная ошибка

1,793648

Медиана

107

Медиана

18

Мода

#Н/Д

Мода

27

Стандартное отклонение

14,69359

6,213378

Дисперсия выборки

215,9015

Дисперсия выборки

38,60606

Эксцесс

0,082403

Эксцесс

-1,7949

Асимметричность

-0,49122

Асимметричность

0,177871

Интервал

52

Интервал

17

Минимум

77

Минимум

11

Максимум

129

Максимум

28

Сумма

1273

Сумма

236

Счет

12

Счет

12


Для оценки силы вариации признака рассчитаем коэффициенты вариации для каждого из признаков:

 

 

Поскольку коэффициенты вариации по каждому из признаков не превышают порогового значения 35 %, то можно сделать вывод о том, что распределение по каждому из признаков однородно.

Рассчитанные выше показатели асимметрии позволяют сделать вывод, что асимметричность не превышает свои допустимые значения, имеет знак +, следует, график правосторонний. Эксцесс составляет, 0,082403 значит график является плосковершинным.

Таким образом, описательная статистика позволяет сделать вывод о том, что распределение по каждому из признаков подчиняется нормальному закону, следовательно, выборочные данные модельных признаков можно использовать для построения регрессионной модели.

Линейное уравнение

Построим линейное уравнение парной регрессии y по x имеем:

 

7,904

Тогда уравнение парной регрессии имеет вид:

 = 0,1109x + 7,904

Полученное уравнение показывает, что с увеличением доли валового дохода растениеводства, приходящегося на 100 га с/х угодий, на 1 % доля трактористов - машинистов в общей численности работников увеличится в среднем на 0,11%

Рисунок 1 - Влияние валового дохода отрасли растениеводства, приходящегося на 100 га с/х угодий, на долю трактористов - машинистов в общей численности работников (линейная модель)

Подставляя в полученное уравнение регрессии значения  из исходных данных определяем теоретические (выровненные) значения результативного признака

Таблица - 6 теоретические (выровненные) значения результативного признака

Х

1.

111

20

2.

129

22

3.

120

21

4.

113

20

5.

93

18

6.

108

7.

77

16

8.

104

19

9.

88

18

10.

103

19

11.

121

21

12.

106

20


При линейной корреляции между x и y исчисляют парный линейный коэффициент корреляции r.

Учитывая:

 

 

оценим тесноту линейной связи с помощью линейного коэффициента парной корреляции

 

В соответствии со шкалой Чеддока теснота связи характеризуется как слабая.

 

Следовательно, вариация валового дохода отрасли растениеводства, приходящегося на 100га пашни, на 0,00194% объясняется вариацией доли численности трактористов-машинистов в общей численности работников с/х производства, а остальные 99,9981% вариации валового дохода, приходящегося на 100 га пашни обусловлены изменением других, не учтенных в модели факторов.

 

В среднем расчетные значения отклоняются от факторного признака на 29,1%. Это значение незначительно превышает допустимый предел, следовательно, качество построенной модели близко к нормальному. Это, а также очень маленькое значение коэффициента детерминации говорит о том, что линейный тип модели не достаточно хорошо отражает представленные эмпирические данные.

Для оценки силы связи признаков у и х найдем средний коэффициент эластичности:

0,59

вариация регрессивный статистический детерминация

Таким образом, в среднем на 0,59% по совокупности увеличится от своей средней величины доля численности трактористов-машинистов в общей численности работников с/х производства при увеличении валового дохода отрасли растениеводства, приходящегося на 100 га с/х угодий, на 1% от своего среднего значения.

Для оценки статистической надежности результатов используем F-критерий Фишера.

Выдвигаем нулевую гипотезу Но о статистической незначимости полученного уравнения регрессии.

0,0194

Сравним фактическое значение критерия Фишера с табличным. Для этого выпишем значения критерия из таблицы, α=0,05

0

Таким образом: Fтабл. = 4,96 при α=0,05.

Так как < Fтабл., то нулевая гипотеза принимается и уравнение признается статистически незначимым.

Оценку статистической значимости параметров регрессии проведем с помощью - статистики Стьюдента и путем расчета доверительного интервала каждого из показателей.

Табличное значение -критерия для числа степеней свободы

 12 - 2 = 10 и α=0,05 составит

Определим случайные ошибки , , :

 =

 =0,1 *  = 0,02

=  = 0,006

 =  = 0,09

Отсюда следует:

 =  = 395

 =  = 184,8

 =

Определим предельную ошибку для каждого показателя:

 = 0,02 =0,04

2,2281*0,0006 = 0,0013

Анализ верхней и нижней границ доверительных интервалов приводит к выводу о том, что с вероятностью  параметры  и , находясь в указанных пределах, причем оба параметра являются статистически незначимыми, т. к. в границы доверительно интервала попадает ноль.

Степенная модель

Имеет вид:

Данная функция нелинейная относительно параметров, но линейна по переменным. Прежде, чем проводить анализ необходимо перейти от нелинейной формы к линейной. В регрессиях нелинейных относительно параметров процедура линеаризации (аноморфоза) производится путем логарифмирования обеих частей уравнения:

 

Введем замену:

Р= lg y ; L= lg x; A = lg a

Вновь полученное уравнение будет иметь вид: P = A + b*L

Найдем среднее квадратическое отклонение по L:

=  -(  =

Для расчета параметров уравнения регрессии воспользуемся готовыми формулами:

Похожие работы на - Парная корреляция и регрессия

 

Не нашли материал для своей работы?
Поможем написать уникальную работу
Без плагиата!