Статистический анализ данных

  • Вид работы:
    Контрольная работа
  • Предмет:
    Менеджмент
  • Язык:
    Русский
    ,
    Формат файла:
    MS Word
    1,32 Мб
  • Опубликовано:
    2014-03-02
Вы можете узнать стоимость помощи в написании студенческой работы.
Помощь в написании работы, которую точно примут!

Статистический анализ данных

Задача 1. Обработка результатов наблюдений

Задана выборка  значений случайной величины (признака) Х, полученных в результате проведения в одних и тех же условиях п взаимно независимых опытов. Требуется выполнить обработку результатов наблюдений случайной величины Х :

.        Построить вариационный (статистический) ряд.

.        Построить для полученного вариационного ряда гистограмму и эмпирическую функцию распределения.

.        Определить выборочные оценки числовых характеристик случайной величины: выборочную среднюю, медиану, моду, дисперсию, выборочное среднее квадратическое отклонение, коэффициент вариации, коэффициент асимметрии и коэффициент эксцесса.

.        Оценить точность выборки.

.        Провести выравнивание статистического ряда с помощью нормального закона распределения, в качестве параметров использовать выборочные оценки математического ожидания и среднего квадратического отклонения. Показать на одной диаграмме гистограмму эмпирических частот и теоретическую нормальную кривую.

.        Проверить согласованность теоретического и статистического распределений, используя критерий  Пирсона.

Имеются данные о возрасте ста работников одного предприятия по состоянию на 1 января текущего года (Х, лет):

20

49

25

19

24

51

30

49

50

56

28

36

54

30

24

42

36

45

52

36

20

35

35

25

17

44

19

30

51

33

23

51

17

64

30

36

35

59

25

42

51

46

66

65

60

27

62

58

35

51

54

23

25

22

30

44

22

56

17

36

36

21

27

51

17

36

32

20

41

32

32

26

61

27

52

40

38

28

42

24

50

42

30

43

35

25

33

26

26

52

35

56

31

44

37

23

53

71

51


Решение:

Построить вариационный (статистический) ряд:

1.      Для построения вариационного (статистического) ряда предварительно по формуле Стерджесса  определим рекомендуемое число интервалов (целочисленное значение) n=1+3, 3221*lg100=7, 6 (будем использовать приблизительное значение 8).

.        Найдем наименьшее и наибольшее значения величины Х в выборке (функции МИН и МАКС), размах выборки  = 71-17=54

.        Величина каждого интервала группировки составит =54/8=6,75 (с целью выбора удобного, по возможности целочисленного значения длины  интервалов допускается расширение границ выборки с увеличением ее размаха до 5%).

.        Прибавляя к минимальному значению признака (в данном случае 7) найденное значение длины интервала, получим верхнюю границу первой группы: 7 + 8 = 15. Прибавляя далее величину  к верхней границе первой группы, получаем верхнюю границу второй группы и т.д. В результате определим границы интервалов группировки.


5.      Используем диапазон верхних границ (bi) интервалов группировки (интервал карманов) и с помощью сервиса Данные / Анализ данных / Гистограмма получим частоты вариационного ряда.


№ интервала

ai

bi

Частота ni

1

17

24

18

2

24

31

21

3

31

38

20

4

38

45

11

5

45

15

6

52

59

8

7

59

66

6



Еще

1


Построенный вариационный ряд показывает, что возраст работников одного предприятия по состоянию на 1 января текущего года от 24 до 66 лет.

Построить для полученного вариационного ряда гистограмму и эмпирическую функцию распределения:

Установим в диалоговом окне программы Гистограмма дополнительно флажки "Интегральный процент" для построения эмпирической функции распределения и "Вывод графика" для построения гистограммы частот. Получим:



Гистограмма частот наглядно отражает особенности интервального вариационного ряда, в частности позволяет предположить, что величина Х (возраст сотрудников) распределена по нормальному закону.

Эмпирическая функция распределения (интегральный процент) показывает, какова доля сотрудников, возраст которых оказался меньше указанной величины ("карман"). Так, например, возраст 30% сотрудников менее 60 лет; возраст 85% сотрудников - менее 24 лет.

Определить выборочные оценки числовых характеристик случайной величины: выборочную среднюю, медиану, моду, дисперсию, выборочное среднее квадратическое отклонение, коэффициент вариации, коэффициент асимметрии и коэффициент эксцесса.

Для определения числовых характеристик случайной величины Х воспользуемся сервисом Данные / Анализ данных / Описательная статистика (использование программы требует размещения исходных данных в одном столбце). Для получения результатов следует установить флажок "Итоговая статистика".

В результате получим:


Коэффициент вариации определим по формуле  = 0,36. Средние величины (среднее, медиана, мода) характеризуют значение признака, вокруг которого концентрируются наблюдения - центральную тенденцию распределения:

-       Средний возраст работников по организации составил  = 37,68 лет.;

-       медиана, равная 35,5 лет показывает возраст сотрудников: возраст 50% сотрудников не больше, чем 35,5 лет, а для 50% - не меньше, чем 35,5 лет;

-       мода равна 51

Наиболее важными показателями вариации (рассеяния) наблюдений вокруг средней величины являются дисперсия выборки S2 = 184,1996; выборочное среднее квадратическое (стандартное) отклонение S = 13,5; коэффициент вариации n = 3,6%. Невысокая величина коэффициента вариации  свидетельствует об однородности значений признака Х (возраст сотрудников).

Коэффициент асимметрии составил 0,4. с

Коэффициент эксцесса равен -0,8. Близкое к нулю значение говорит о том, что рассматриваемое распределение по крутости приближается к нормальной кривой.

Оценить точность выборки.

Примем уровень значимости . С помощью функции ДОВЕРИТ определим ошибку выборки - размах доверительного интервала для математического ожидания генеральной совокупности: e = 2,6.


Нижняя и верхняя границы доверительного интервала для математического ожидания генеральной совокупности равны соответственно =37,68-2,6=35,01 и =37,68+2,6=40,34. Таким образом, с надежностью 7,06% средний возраст сотрудников по организации заключен в границах от 35,01 до 40,34 лет.

Для оценки точности выборки рассчитаем относительную ошибку  = 2,6/37,68=7,06% и сделаем вывод в соответствии со схемой:


На уровне значимости  точность выборки следует признать удовлетворительной.

Провести выравнивание статистического ряда с помощью нормального закона распределения, в качестве параметров использовать выборочные оценки математического ожидания и среднего квадратического отклонения. Показать на одной диаграмме гистограмму эмпирических частот и теоретическую нормальную кривую.

Для проведения вычислений подготовим таблицу. Занесем в нее границы ai и bi интервалов группировки, середины xi этих интервалов, соответствующие частоты ni.

Построим интегральную функцию нормального распределения с параметрами  и . Используем функцию НОРМРАСП; для каждого интервала в качестве значения, для которого строится распределение, укажем верхнюю границу bi. Для последнего интервала занесем в таблицу значение .


Определим теоретические вероятности  попадания нормально распределенной величины в i-ый интервал группировки (для первого интервала укажем ).

Рассчитаем теоретические частоты , соответствующие интервалам группировки. Проверим выполнение условия .

ai

bi

xi

ni

функция норм. распр. Ф(х)

pi теор

ni теор

17

24

20,5

18

0,156737689

0,156737689

15,67376891

24

31

27,5

21

0,311292781

0,154555092

15,45550918

31

38

34,5

20

0,509405361

0,19811258

38

45

41,5

11

0,705175626

0,195770265

19,57702645

45

52

48,5

15

0,854313014

0,149137388

14,91373883

52

59

55,5

8

0,941894676

0,087581662

8,7581662

59

66

62,5

7

1

0,058105324

5,810532414




100



100


Покажем на одной диаграмме гистограмму частот и нормальную кривую:


Диаграмма показывает соответствие гистограммы частот и нормальной кривой с параметрами  и .

Проверить согласованность теоретического и статистического распределений, используя критерий  Пирсона.

Критерий Пирсона основан на сравнении эмпирических и теоретических частот. Для его использования необходимо, чтобы в каждом интервале группировки было достаточное количество данных. В случае малочисленных эмпирических частот (niэмп< 5) следует объединить соседние интервалы, в этом случае и соответствующие им теоретические частоты также складываются. При этом необходимо следить за правильностью расчета значений функции нормального распределения, теоретических частот и выполнением условия . Объединим первый и второй интервалы, частота для объединенного интервала будет 6+14=20. Объединим восьмой и девятый интервалы, частота для объединенного последнего интервала 2+2=4. Общее количество интервалов группировки после объединения m=7. Дополним скорректированную таблицу столбцом "мера расхождения", выполнив расчеты по формуле Пирсона .

 

Таблица

ai

bi

xi

ni

функция норм. распр. Ф(х)

pi теор

ni теор

хи2 i

17

24

20,5

18

0,156737689

0,156737689

15,67376891

0,345249

24

31

27,5

21

0,311292781

0,154555092

15,45550918

1,989024

31

38

34,5

20

0,509405361

0,19811258

19,81125802

0,001798

38

41,5

11

0,705175626

0,195770265

19,57702645

3,75774

45

52

48,5

15

0,854313014

0,149137388

14,91373883

0,000499

52

59

55,5

8

0,941894676

0,087581662

8,7581662

0,065632

59

66

62,5

7

1

0,058105324

5,810532414

0,243495








6,403437




100



100


Фактически наблюдаемое значение статистики Пирсона составляет

 =6,403.

Критическое значение статистики  = 9,49 найдено для уровня значимости 5% и числа степеней свободы k=m-3=4 с помощью функции ХИ2ОБР. Сравним фактическое значение статистики  с критической величиной  и сделаем вывод в соответствии со схемой:


 Þ теоретическое и статистическое распределения согласованы, на уровне значимости  следует принять гипотезу о нормальном законе распределения случайной величины Х возраста сотрудников.

Задача 2. Статистический анализ связей


Исходными данными для моделирования являются социально-экономические показатели субъектов Сибирского федерального округа (Приложение 1). Требуется исследовать зависимость результирующего признака Y, соответствующего варианту задания, от факторных переменных Х1, Х2 и Х3:

1. Рассчитать матрицу парных коэффициентов корреляции; проанализировать тесноту и направление связи результирующего признака Y с каждым из факторов Х; оценить статистическую значимость коэффициентов корреляции r(Y, Xi); выбрать наиболее информативный фактор. вариационный статистический корреляция регрессия

2. Построить модель парной регрессии с наиболее информативным фактором; дать экономическую интерпретацию коэффициента регрессии.

3. Проверить значимость коэффициентов модели с помощью t-критерия Стьюдента (принять уровень значимости α=0,05).

4. Оценить качество модели с помощью средней относительной ошибки аппроксимации, коэффициента детерминации и F - критерия Фишера (принять уровень значимости α=0,05).

5. С доверительной вероятностью γ=80% осуществить прогнозирование среднего значения показателя Y (прогнозные значения факторов приведены в Приложении 1). Представить графически фактические и модельные значения Y, результаты прогнозирования.


Решение:

Рассчитать матрицу парных коэффициентов корреляции; проанализировать тесноту и направление связи результирующего признака Y с каждым из факторов Х; оценить статистическую значимость коэффициентов корреляции r(Y, Xi); выбрать наиболее информативный фактор.

Используем Excel (Данные / Анализ данных / КОРРЕЛЯЦИЯ):


Получим матрицу коэффициентов парной корреляции между всеми имеющимися переменными:


Проанализируем коэффициенты корреляции между результирующим признаком Y и каждым из факторов Xj:

r (Y,X1)= 0,084>0, следовательно, между переменными Y и Х1 наблюдается прямая корреляционная зависимость: чем выше среднедушевые денежные доходы (в месяц), тем больше потребление сахара на душу населения (в год).

r (Y,X2)=-0,466<0, значит, между переменными Y и Х2 наблюдается обратная корреляционная зависимость: чем среднемесячная номинальная начисленная заработная плата работников организаций, тем ниже потребление сахара на душу населения (в год).

r (Y,X3)=-0,68<0, значит, между переменными Y и Х3 наблюдается обратная корреляционная зависимость: чем индекс потребительских цен (декабрь к декабрю предыдущего года) больше, тем меньше потребление сахара на душу населения (в год).

Для проверки значимости найденных коэффициентов корреляции используем критерий Стьюдента.

Для каждого коэффициента корреляции  вычислим t-статистику по формуле  и занесем результаты расчетов в дополнительный столбец корреляционной таблицы:


По таблице критических точек распределения Стъюдента при уровне значимости  и числе степеней свободы k=n-2=12-2=10, определим критическое значение tкр.=2,23 (функция СТЬЮДРАСПОБР).

Сопоставим фактические значения t с критическим tkp, и сделаем выводы в соответствии со схемой:


t (r(Y,X1))=0,28<tкр.=2,22 , следовательно, коэффициент  не является значимым.

t (r(Y,X2))=1,68<tкр.=2,22, следовательно, коэффициент  не является значимым.

t (r(Y,X3))=2,94<tкр.=2,22, следовательно, коэффициент  является значимым.

Построить модель парной регрессии с наиболее информативным фактором; дать экономическую интерпретацию коэффициента регрессии.

Для построения парной линейной модели  используем программу РЕГРЕССИЯ (Данные / Анализ данных). В качестве "входного интервала Х" покажем значения фактора Х1.

Результаты вычислений представлены в таблицах:


Коэффициенты модели содержатся в третьей таблице итогов РЕГРЕССИИ (столбец Коэффициенты).

Таким образом, модель парной регрессии построена, ее уравнение имеет вид


Проверить значимость коэффициентов модели с помощью t-критерия Стьюдента (принять уровень значимости α=0,05).

Значимость коэффициентов модели проверим с помощью t - критерия Стьюдента.

t - статистики для коэффициентов уравнения регрессии приведены в столбце "t-статистика" третьей таблицы итогов РЕГРЕССИИ:

-       для свободного коэффициента a= 457,85 определена статистика

t(a)= 3,18.

-       для коэффициента регрессии b= -3,98 определена статистика

t(b)= -2,94.

Критическое значение tкр=2,23 найдено для уровня значимости a=5% и числа степеней свободы 10 (функция СТЬЮДРАСПОБР).

Схема проверки:


t (a)=3,18>tкр. Þ свободный коэффициент а является значимым.

t(b)=2,94>tкр. Þ коэффициент регрессии b является значимым.

Выводы о значимости коэффициентов модели сделаны на уровне значимости a=5%. Рассматривая столбец "Р-значение", отметим, что свободный коэффициент а можно считать значимым на уровне 0,00988; коэффициент регрессии b - на уровне 0,015.

Оценить качество модели с помощью средней относительной ошибки аппроксимации, коэффициента детерминации и F - критерия Фишера (принять уровень значимости α=0,05).

Для вычисления средней относительной ошибки аппроксимации рассмотрим остатки модели , содержащиеся в столбце Остатки итогов программы РЕГРЕССИЯ (таблица "Вывод остатка"). Дополним таблицу столбцом относительных погрешностей, которые вычислим по формуле  с помощью функции ABS.


По столбцу относительных погрешностей найдем среднее значение Eотн=8,86 (функция СРЗНАЧ).

Оценим точность построенной модели в соответствии со схемой:


Eотн=8,86 - модель имеет удовлетворительную точность.

Коэффициент детерминации R-квадрат определен программой РЕГРЕССИЯ (таблица "Регрессионная статистика") и составляет R2=0,463. Таким образом, вариация (изменение) потребления сахара Y на 46,3% объясняется по уравнению модели вариацией индекса потребительских цен.

Проверим значимость полученного уравнения с помощью F - критерия Фишера.

F - статистика определена программой РЕГРЕССИЯ (таблица "Дисперсионный анализ") и составляет F = 8,65.

Критическое значение Fкр= 4,964 найдено для уровня значимости a=5% и чисел степеней свободы k1=1, k2=10 (функция FРАСПОБР).

Схема проверки:


Сравнение показывает: F = 8,65 > Fкр = 4,964; следовательно, уравнение модели является значимым, его использование целесообразно, зависимая переменная Y (потребление сахара) достаточно хорошо описывается включенной в модель факторной переменной Х1 (индекс потребительских цен).

С доверительной вероятностью γ=80% осуществить прогнозирование среднего значения показателя Y (прогнозные значения факторов приведены в Приложении 1). Представить графически фактические и модельные значения Y, результаты прогнозирования.

Согласно условию задачи прогнозное значение факторной переменной Х3 составляет 106,0. Рассчитаем по уравнению модели прогнозное значение показателя Y:

Y = 457,85 - 3,9783 * 106 = 36,15

Таким образом, если индекс потребительских цен составит 106, то потребление сахара будет около 36,15 кг.

Зададим доверительную вероятность  и построим доверительный прогнозный интервал для среднего значения Y.

Для этого нужно рассчитать стандартную ошибку прогнозирования для среднего значения результирующего признака

.

Предварительно подготовим:

-       стандартную ошибку модели SE= 4,46 (таблица "Регрессионная статистика" итогов РЕГРЕССИИ);

по столбцу исходных данных Х1 найдем среднее значение равное 106,56 (функция СРЗНАЧ) и определим ∑(xi-x)2= 10,86916667 (функция КВАДРОТКЛ);

-        (функция СТЬЮДРАСПОБР).


Для построения чертежа используем Мастер диаграмм (точечная) - покажем исходные данные (поле корреляции).


Список использованной литературы

1.      Кремер Н.Ш. Теория вероятностей и математическая статистика: Учебник / Н.Ш. Кремер. - 3-е изд., перераб. и доп. - М: ЮНИТИ-ДАНА. - 2012. - 551 с., ЭБС Book.ru

2.      Козлов А. Ю. Статистический анализ данных в MS Excel: Учебное пособие / А.Ю. Козлов, В.С. Мхитарян, В.Ф. Шишов. - М.: ИНФРА-М, 2012. - 320 с., ЭБС Znanium

3.      М.Л. Поддубная. Анализ данных. Методические указания по решению задач и выполнению контрольной работы (для студентов, обучающихся по направлению 080500.62 "Бизнес-информатика", квалификация (степень) бакалавр). - Барнаул: Изд-во АлтГТУ, 2014. - 34 с.

Похожие работы на - Статистический анализ данных

 

Не нашел материал для своей работы?
Поможем написать качественную работу
Без плагиата!