Статистическое исследование часового газопотребления

  • Вид работы:
    Отчет по практике
  • Предмет:
    Эктеория
  • Язык:
    Русский
    ,
    Формат файла:
    MS Word
    866,68 Кб
  • Опубликовано:
    2015-09-25
Вы можете узнать стоимость помощи в написании студенческой работы.
Помощь в написании работы, которую точно примут!

Статистическое исследование часового газопотребления

Министерство образования и науки Российской Федерации

федеральное государственное бюджетное образовательное учреждение

высшего профессионального образования

"Российский государственный университет

нефти и газа имени И. М. Губкина"

Кафедра экономики нефтяной и газовой промышленности

Направление "Экономика и менеджмент"

 



О Т Ч Е Т

по учебной (экономико-вычислительной) практике

Место практики - РГУ нефти и газа имени И. М. Губкина











Москва 2015 г.

Календарный график работы на практике

Перечень занятий и разделов практики

Срок  выполнения

Отметки о выполнении

-

Цель, задачи практики, организация и расписание практики. Правила поведения на практике.

Собрание по практике

выполнено

-

Инструктаж по технике безопасности. Схема размещения за компьютерами в специализированной аудитории.

В начале занятия №1

выполнено

1

Графическое представление данных. Определение их структуры. Определение основных статистических характеристик исходных данных. 29-30.06.2015 - Домашняя работа Подготовка первой - описательной части отчета (введения). Расчет основных статистических характеристик данных по каждой подвыборке.

29.06.2015

выполнено

2

Анализ данных. Применение центральной предельной теоремы. Построение доверительных интервалов. 01-02.07.2015 - Домашняя работа Подготовка второй - содержательной части отчета. Определение закономерностей в данных по каждой подвыборке. Исследовать точность получаемых выводов. Сделать выводы.

30.06.2015

выполнено

3

Понятие репрезентативности и ее проверка. Различия в понятии "репрезентативность" для выборки и временного ряда. 03-04.07.2015 - Домашняя работа Подготовка третьей - содержательной части отчета. Принятие решения о возможности использования данных в каждой подвыборке, на основе проверки ее репрезентативности.

02.07.2015

выполнено

4

Цепные и базисные индексы. Абсолютные и относительные приросты. 05-06.07.2015 - Домашняя работа Подготовка четвертой - содержательной части отчета. Провести расчеты индексов и приростов по нескольким подвыборкам. Сравнить их и сделать выводы.

04.07.2015

выполнено

5

Сглаживание скользящей средней и его смысл. Исследование коинтеграции рядов (на примере корреляции данных подвыборок). 07-08.07.2015 - Домашняя работа Подготовка пятой - содержательной части отчета. Провести расчеты коэффициентов корреляции по нескольким подвыборкам. Сравнить их и сделать выводы. 09-10.07.2015 - Домашняя работа Подготовка шестой части отчета - заключения. Сделать выводы о целях использования статистического анализа для описания данных.

06.07.2015

выполнено


Подготовка и защита отчёта*.

08-11 июля 2015 г.


* пересдача отчёта - с 1 до 15 сентября 2015 г.

Оглавление

Введение

. Графическое представление данных. Определение основных статистических характеристик исходных данных

. Анализ данных. Применение центральной предельной теоремы. Построение доверительных интервалов

. Репрезентативность выборки и ее проверка

. Цепные и базисные индексы. Абсолютные и относительные приросты

. Сглаживание скользящей средней. Исследование коинтеграции рядов

Заключение

Приложения

Введение


В условиях рыночной экономики проблема управления предприятием в отдельности и экономикой в целом достаточно актуальна, т.к. принятие верных управленческих решений позволит сохранить конкурентоспособность в долгосрочной перспективе, наиболее полно удовлетворять потребности потребителей и эффективно использовать производственные ресурсы. Любое управленческое решение принимается на основе статистического анализа информации, поэтому роль статистического исследования в экономике очень велика.

Целью учебной практики является статистическое исследование часового газопотребления.

В рамках исследования должны быть решены следующие задачи:

-       нахождение и анализ основных статистических характеристик,

-       анализ данных и построение доверительных интервалов для математического ожидания,

-       формирование выборки по определенным критериям и проверка ее репрезентативности,

-       определение показателей динамики,

-       применение методов сглаживания скользящей средней,

-       анализ корреляции уровней ряда.

Объект исследования: газопотребление на ГРС № 60, Ивановское ЛПУ; предмет исследования: динамика уровней часового газопотребления с 01.10.2011 по 29.04.2012 года.

Средство расчета основных статистических показателей, построения графиков и диаграмм, необходимых для анализа: MS Excel.

1. Графическое представление данных. Определение основных статистических характеристик исходных данных

статистический выборка доверительный интервал

Для начала создадим в MS Excel таблицу исходных данных по ежечасному газопотреблению с 01.10.2011 по 29.04.2012. Объект наблюдения ГРС №60, Ивановское ЛПУ - рисунок 1.

Рисунок 1 - Ежечасные данные по газопотреблению

Данные о ежечасном потреблении представляют собой временной ряд.

Построим график временного ряда по всем значениям временного ряда. Подписи по оси времени ставить не будем, т.к. в виду большого количества значений график станет трудно читаемым. Даты будем определять по графику в Excel.

Рисунок 2 - График временного ряда по всем данным

На графике временного ряда можно увидеть, что есть два нулевых значения газопотребления. По графику можно определить это время: 15:00 11.10.2011 года и 7:00 15.10.2011 года. Нулевые значения необходимо сгладить методов скользящей средней. Сглаживание представляет собой замену фактических уровней временного ряда на расчетные, которые в меньшей степени подвержены колебаниям. Сглаживание необходимо для выявления четкой тенденции развития [1]. Например, для первого нулевого значения сглаженный уровень ряда найдем по формуле:

 тыс. м3.

Аналогично, сглаженная величина газопотребления для второго нулевого значения составит 39,3445 тыс. м3. Построим новый график временного ряда со сглаженными нулевыми значениями - рис. 3.

Рисунок 3 - График газопотребления со сглаженными нулевыми значениями

Разделим график на несколько областей и выделим в них общие тенденции газопотребления.

Рисунок 4 - Разделение графика на области с определенными тенденциями газопотребления

Первая область характеризуется возрастанием газопотребления. Она охватывает период с 01.10.2011 по 06.11.2011. Постепенное возрастание газопотребления в данный период обусловлено началом отопительного сезона, постепенным понижением температуры воздуха, а также постепенным увеличением мощности, на которой работает система отопления. Следующая область охватывает период до 16.01.2012. Она характеризуется относительно стабильным объемом газопотребления. Это связано с тем, что обычно в данные период не наблюдается резких перепадов температуры воздуха и система отопления работает примерно на постоянной мощности. Затем, в третьей области, соответствующей периоду до 15 февраля, происходит резкое увеличение объемов газопотребления, что связано с погодными условиями: это самый холодный месяц в году. Далее до конца рассматриваемого периода, т.е. до 29.04.2012, происходит постепенное понижение газопотребления, что связано с потеплением.

Построим график газопотребления за 4 суток на одной плоскости

Рисунок 5 - Динамика газопотребления за 4 суток

Графики по данным 1 и 2 октября с 0:00 до 10:00 практически совпадают. Во время с 10:00 газопотребление второго октября выше, что обусловлено постепенным увеличением мощности отопительной системы. Главное увеличение газопотребления наблюдается с 4:00, когда начинается самое холодное время суток. Причем, можно проследить то, что на наибольшую мощность отопительные системы с каждым днем выходят все раньше, т.к. с каждым днем осенью температура воздуха заметно понижается.

Построим график газопотребления за 2 недели.

Рисунок 6 - График газопотребления за 2 недели

На данном графике можно проследить закономерности по суточным колебаниям газопотребления. В начале дня происходит резкое увеличение газопотребления, затем оно относительно стабильно, после этого, во второй половине дня, примерно с 16:00 до 21:00 происходит еще одно увеличение газопотребления. И наконец, снижение до начала следующего дня. Данный график наглядно показывает тот факт, что объем газопотребления в течение суток подвержен закономерным периодическим колебаниям.

Данные о газопотреблении можно группировать различными способами. Во-первых, можно осуществлять группировку, определив суммарные объемы газопотребления за различные анализируемые периоды: сутки, неделя, месяц.

Во-вторых, можно определить среднесуточное потребление газа по месяцам. В случае если есть данные за несколько лет, то определяем среднее потребление газа в сутки, месяц, год. Например, среднее газопотребление за январь.

В-третьих, можно осуществить группировку по времени суток, для того чтобы оценить суточные колебания газопотребления.

Для разделения данных по времени с помощью фильтра на несколько выборок необходимо знать общее число элементов в таблице. Всего в таблице исходных данных представлено 5 088 значений газопотребления, которые охватывают 212 дней. Для разбиения данных значений на 8 групп необходимо сформировать с помощью фильтра группы, охватывающие по 636 значений, т.е. 636 часов. Получим следующие 8 групп - таблица 1.

Таблица 1 - Разбиение исходных данных на 8 групп по времени

№ группы

Первая запись

Последняя запись

1

01.10.11 0:00

27.10.11 11:00

2

27.10.11 12:00

22.11.11 23:00

3

23.11.11 0:00

19.12.11 11:00

4

19.12.11 12:00

14.01.12 23:00

5

15.01.12 0:00

10.02.12 11:00

6

10.02.12 12:00

07.03.12 23:00

7

08.03.12 0:00

03.04.12 11:00

8

03.04.12 12:00

29.04.12  23:00


В таблице сформировано 8 равных по длине интервалов. Длина каждого из интервалов охватывает 636 часов. Данная группировка необходима для анализа данных по группам. Для построения графиков данные будем выбирать с помощью фильтров.

Далее задаем значение фильтра - рисунок 7 [2].

Рисунок 7 - Окно работы фильтра

Построим графики газопотребления по первым четырем группам. Для этого по каждой группе необходимо совершить последовательность действий. Во-первых, выбрать неободимый диапазон значений, используя пользовательский фильтр "ДО" и "МЕЖДУ".

Рисунок 8 - График газопотребления по первым четырем группам

На данном графике можно наблюдать суточные колебания. График под номером 1, соответствующий первой группе, находится ниже всех остальных, что соответствует минимальному газопотреблению. График под номером 2 - характеризуется возрастающим газопотреблением, график под номером 3 - относительно стабильным, график под номером 4 - убывающим. Причины изменений тенденции обусловлены погодными условиями и описаны выше.

Для перевода данных в м3, умножим каждое значение газопотребления на 1000 и округлим до 0,1 м3, задав через контекстное меню числовой формат ячеек, разделитель групп разрядов и число десятичных знаков, равное 1 - рисунок 9 [2].

Рисунок 9 - Перевод газопотребления в м3

Перевод газопотребления в м3 необходим, т.к. избыточная точность данных является недостатком при анализе. Например, невозможно вычислить моду ряда, т.к. верояность что совпадут хотя бы два значения за период очень мала.

Для дальнейшего исследования выберем относительно стабильную область наблюдения по рисунку 4. Из стабильной области на данном рисунке выберем период с 26.11.11 по 16.01.12. Для выборки воспользуемся фильтром. В дальнейшем необходимо анализировать часовые подвыборки, которые также будем формировать с помощью фильтра. Для формирования подвыборок необходимо поменять формат столбца время. Он должен иметь вид 0:00. Используем фильтр "РАВНО".

По каждой часовой выборке вычислим ряд показателей, используя функции Excel. Объем выборки (СЧЕТ), выборочное математическое ожидание (СРЗНАЧ), выборочное стандартное отклонение (СТАНДОТКЛОН), выборочные значения моды (МОДА) и медианы (МЕДИАНА), выборочный коэффициент вариации (частное от стандартного отклонения, деленного на среднее значение), а также минимум (МИН), максимум (МАКС) и размах (разница между максимумом и минимумом) [2].

Найденные значения приведены в Приложении 1. В виду того, что значение моды из-за слишком высокой точности при измерении в м3, не находится, найдем значение моды, округлив до целых тыс. м3.

 

2. Анализ данных. Применение центральной предельной теоремы. Построение доверительных интервалов


Размах является одной из важнейших статистических характеристик. Размах стабильной части газопотребления находится как разность между максимальным и минимальным значением - рис. 10.

Рисунок 10 - Определение размаха стабильной части газопотребления

Размах каждой из подвыборок был определен на предыдущем занятии, например, по первой подвыборке он составил 13,907 тыс. м3.

Число групп определяется по формуле Стерджесса [1]:

 

Для стабильного участка число единиц совокупности равно 1248. Тогда число групп:. Аналогично, число групп для первой подвыборки составляет: .

Величина интервала определяется как размах, деленный на число групп. Тогда, для стабильного газопотребления величина интервалов равна: 25,648/11=2,332 тыс. м3. Для первой подгруппы: 13,907/7=1,987 тыс. м3.

Построим интервальные ряды распределения с помощью функции СЧЕТЕСЛИМН[2].

Таблица 2- Расчет частот по каждому интервалу для стабильного газопотребления

Интервал

Частота

Интервал

Частота


от

до



От

до


1

51,896

54,231

13

7

65,905

68,240

239

2

54,231

56,566

73

8

68,240

70,575

165

3

56,566

58,901

94

9

70,575

72,910

143

4

58,901

61,236

129

10

72,910

75,245

49

5

61,236

63,571

141

11

75,245

77,580

17

6

63,571

65,905

185

Итого

-

-

1248


Рисунок 11- Гистограмма для стабильного газопотребления по сгруппированным данным

Аналогично строим гистограмму для первой подвыборки.

Таблица 3 - Расчет частот по интервалам первой подвыборки

Интервал

Частота


от

до


1

55,921

57,908

6

2

57,908

59,894

8

3

59,894

61,881

13

4

61,881

63,868

10

5

63,868

65,855

5

6

65,855

67,841

7

7

67,841

69,828

3

Итого

-

-

52


Рисунок 12- Гистограмма по сгруппированным данным первой подвыборки

По сгруппированным данным были построены две диаграммы. Общее в них то, что частоты увеличиваются ближе к серединному интервалу. Различие, в количестве и ширине интервалов. А также в том, что в гистограмме по первой подвыборке в 6 интервале происходит увеличение частоты по сравнению с 5-м, а в гистограмме по области стабильного газопотребления тенденция к постепенному увеличению, а затем убыванию частоты прослеживается лучше.

Автоматически построенная гистограмма по несгруппированным данным отражает динамику во времени. Для данной цели, на мой взгляд, удобнее пользоваться графиком зависимости уровня ряда от времени. Гистограмма по сгруппированным данным позволяет определять количество элементов, попадающих в каждый интервал. м3. Построение гистограммы позволяет подобрать теоретическую кривую распределения. а также проанализировать вероятности, с которыми то или иное значение появиться в исследуемом объекте.

Рисунок 13 - Гистограмма относительных частот по области стабильного газопотребления

Рисунок 14 - Гистограмма относительных частот для первой подвыборки

Внешне гистограмма частот и гистограмма относительных частот очень похожи. По гистограмме частот характеризуется частота, по гистограмме относительных частот - относительная частота. Относительная частота показывает долю значений, попавших в данный интервал, поэтому с точки зрения статистики данная гистограмма играет более важную роль, т.к. по абсолютным показателям сложнее судить о событии, чем по относительным.

К нормальному закону распределения больше приближено газопотребление в стабильной области, т.к. газопотребление в 0:00 часов не является абсолютно случайной величиной (ранее были рассмотрены периодические изменения).

Рисунок 15 - Закон нормального распределения на гистограмме относительных частот

Общая тенденция изменения газопотребления в стабильный период близка к нормальному закону.

Округленное до целых среднее значение газопотребления в стабильный период составляет 65 тыс. м3. Стандартное отклонение, которое будем использовать при генерации:5%*65=3,25 тыс. м3. Генерация производится с помощью анализа данных

Рисунок 16 - Генерация нормального закона распределения

Найдем показатели, характеризующие сгенерированную выборку с помощью встроенных функций MS Excel.

Таблица 4 - Характеристики сгенерированной выборки

Показатель

Значение

Математическое ожидание

65,05091

Стандартное отклонение

3,13847

Мода

65,51543

Медиана

65,04736

Коэффициент вариации

4,82%


Среднее значение, коэффициент вариации и стандартное отклонение немного отличаются по данным сгенерированной выборки от заданных значений. Это может быть связано, во-первых, с маленьким объемом выборки, во-вторых, со случайным характером генерации.

Доверительный интервал для математического ожидания определяется с помощью функции ДОВЕРИТ при уровне значимости 0,05.

Рисунок 17- Определение доверительного интервала

В результате выполнения функции получили значение 0,174124. Тогда с вероятностью 95%, математическое ожидание сгенерированной выборки попадет в интервал от 64,87679 до 65,22503 тыс. м3.

Аналогично рассчитаем доверительные интервалы для всех подвыборок.

Таблица 5 - Доверительные интервалы для подвыборок

Время

0:00

1:00

2:00

3:00

4:00

5:00

6:00

7:00

8:00

9:00

10:00

Доверительные интервалы

0,930

0,906

0,872

0,895

0,881

0,861

0,918

1,472

1,299

1,001

0,842

Границы от

61,328

59,595

58,098

57,513

57,459

57,767

59,482

63,528

64,008

64,311

66,169

 до

63,188

61,406

59,841

59,303

59,222

59,490

61,318

66,473

66,606

66,314

67,852


Время

11:00

12:00

13:00

14:00

15:00

16:00

17:00

18:00

19:00

20:00

21:00

22:00

23:00

Доверительные интервалы

0,886

0,802

0,870

0,864

0,854

0,847

0,887

1,004

1,010

1,121

1,019

0,974

Границы от

67,249

67,084

66,751

65,965

65,700

65,884

66,498

67,428

69,198

68,983

69,002

67,863

65,009

 до

69,020

68,755

68,355

67,705

67,428

67,592

68,192

69,203

71,207

71,003

71,244

69,901

66,957


Округлять желательно до 3 знаков после запятой, т.к. это характеризует целое количество м3 газа, потребляемым в различные периоды времени. При большем количестве знаков после запятой могут возникнуть проблемы с определением моды.

3. Репрезентативность выборки и ее проверка


Между временным рядом и случайной выборкой существуют принципиальные различия. Во-первых, элементы случайной выборки являются статистически независимыми, а элементы временного ряда - нет, т.к. во временном ряде можно проследить тенденцию развития и прогнозировать значения на будущее. Во-вторых, члены временного ряда не являются одинаково распределенными. В-третьих, у случайной выборки математическое ожидание, дисперсия, среднеквадратическое отклонение являются постоянными, в отличии от временного ряда, который отражает динамику развития какого-либо признака во времени, в связи с чем могут меняться во времени и числовые характеристики.

Репрезентативность выборки - это соответствие характеристик выборки характеристикам генеральной совокупности. Репрезентативность выборки определяет на сколько можно переносить выводы, сделанные по исследуемой выборке, на генеральную совокупность. Для обеспечения высокой репрезентативности выборки необходимо обеспечить большой объем выборки и наличие в ней, элементов из всех групп генеральной совокупности. Для достижения высокой репрезентативности временного ряда необходимо анализировать достаточно продолжительный объем данных, изменяющихся во времени, т.к. например, наличие данные о часовом газопотреблении за 1 января в течение нескольких лет не позволит прогнозировать объем газопотребления за другие даты. Т.е. для обеспечения репрезентативности временного ряда необходимо обеспечить наличие ряда наблюдений, в различные периоды времени.

Репрезентативность выборки определяется в первую очередь ее объемом. К тому же отбор показателей должен осуществляться из однородных групп, причем вероятность попадания любого элемента генеральной совокупности в выборку должна быть одинаковой для всех элементов. В свою очередь на объем выборки влияет способ осуществления отбора. Объем выборки определяется рядом факторов: объем генеральной совокупности, t-критерий Стьюдента, дисперсия выборки, предельная ошибка выборки и т.д. В случае временного ряда репрезентативность достигается наличием информации по разным временным периодам.

На мой взгляд, при исследовании всего временного ряда в целом удобно осуществлять типический отбор, разбив генеральную совокупность на группы, соответствующие одним суткам. И затем для каждых суток по дате выберем случайным образом одно из часовых потреблений. По полученному ряду нельзя будет судить о суточных колебаниях газопотребления, но общую тенденцию проследить будет возможно.

В нашем же случае, при исследовании относительно стабильной области газопотребления, наоборот, больший интерес составляют суточные колебания, поэтому, выборку будем осуществлять из подгрупп соответствующих одному времени потребления.

Таким образом, выберем в качестве базовой 25%-ю выборку генеральной совокупности, т.е. выберем из каждой группы часовых значений 0,25*52=13 значений случайным образом. Пронумеруем все даты (52 шт.), и с помощью функции СЛУЧМЕЖДУ(1;52) определим по 13 значений каждой часовой группы.

Рисунок 18 - Определение номеров элементов, включаемых в выборку

Т.к. функция СЛУЧМЕЖДУ() пересчитывает значения после каждого операции, сохраним найденные значения в формате чисел без формулы.

Рисунок 19 - Формирование 25%-й выборки

Переместим сформированную выборку на отдельный лист.

Рисунок 20 - Сформированная базовая выборка

Основными характеристиками типической выборки являются объем выборки, выборочная средняя, выборочная дисперсия, средняя из внутригрупповых дисперсий, а также средняя и предельная ошибки выборки. В виду того, что все группы равны по числу наблюдений, среднюю из внутригрупповых дисперсий рассчитываем как среднюю арифметическую простую. Внутригрупповые и выборочную дисперсии найдем с помощью функции ДИСП().

Для типического повторного отбора средняя ошибка равна:

 

Для типического повторного отбора предельная ошибка равна:

 

Значение t-критерия Стьюдента находится по специальным таблицам. При вероятности 99,7% t=3.

Таблица 6 - Характеристики базовой выборки

Показатель

Значение

Выборочная средняя

65,52059

Выборочная дисперсия

26,78104

Средняя из внутригрупповых дисперсий

11,3332

Объем выборки

312

Объем генеральной совокупности

1248

Ошибки выборки

 

 средняя

0,190589

 предельная

0,571768


Разделим базовую выборку на две подвыборки: первая будет охватывать значения от 0:00 до 11:00 включительно, вторая от 12:00 до 23:00 включительно. Гистограммы будем строить по алгоритму, рассмотренному на прошлом занятии. Для построения гистограмм определим количество и ширину интервалов для базовой выборки, а для подвыборок частоты будем определять по границам интервалов базовой выборки для наглядности изображения гистограмм.

Таблица 7 - Данные для построения гистограмм

Интервал

Частота

нижняя граница

верхняя граница

базовая выборка

подвыборка 1

подвыборка 2

1

54,322

56,880

23

23

0

2

56,880

59,437

23

23

0

3

59,437

61,995

29

25

4

4

61,995

64,553

43

25

18

5

64,553

67,110

66

26

40

6

67,110

69,668

56

19

37

7

69,668

72,226

45

11

34

8

72,226

74,783

22

3

19

9

74,783

77,341

5

1

4

Итого

 

 

312

156

156


Уже глядя на таблицу можно сказать о том, что законы распределения базовой выборки и подвыборок будут отличаться. Что подтверждает предположения, выдвинутые в п.1 и 2 о различиях между выборкой и временным рядом и репрезентативности данных временного ряда.

Рисунок 21 - Гистограмма по базовой выборке и по подвыборкам

Внешний вид диаграмм по базовой выборке и по подвыборкам 1 и 2 различается. В первых интервалах частоты по базовой выборке ближе к частотам подвыборки 1, в последних - подвыборки 2. Это связано с тем, что до 11:00 объем часового газопотребления меньше, чем после 11:00. Данная гистограмма прекрасно иллюстрирует различие между выборкой и временным рядом и статистическую зависимость элементов временных рядов. Законы распределения всех трех рассматриваемых элементов различны.

Найдем характеристики двух подвыборок.

Таблица 8 - Характеристики подвыборок

 Характеристики подвыборок

Подвыборка 1 до 11:00

Подвыборка 2 с 12:00


Значение

Изменение значения относительно характеристик базовой выборки

Значение

Изменение значения относительно характеристик базовой выборки

Выборочная средняя

62,74806

-4,23%

68,29313

4,23%

Выборочная дисперсия

26,3845

-1,48%

11,87727

-55,65%

Средняя из внутригрупповых дисперсий

12,51272

10,41%

10,15367

-10,41%

Объем выборки

156

-50,00%

156

-50,00%

Ошибки выборки

 

 

 

 

 средняя

0,283213

48,60%

0,255123

33,86%

 предельная

0,84964

48,60%

0,765368

33,86%


Выборочная средняя в первой и второй подвыборках отличаются от средней базовой выборки на -4,23% и +4,23% соответственно. Этот факт подтверждает возможность изменения характеристик во временных рядах по времени.

Выборочная дисперсия во второй подвыборке меньше дисперсии базовой выборки на 55,56%. Данное различие является очень существенным.

Сокращение объема выборки обусловлено разбиением базовой выборки на две равные части.

Ошибки выборки в двух подвыборках значительно выше ошибок базовой выборки.

Определим доверительные интервалы для математических ожиданий базовой выборки и двух подвыборок с помощью функции ДОВЕРИТ.

Таблица 9 - Определение границ доверительных интервалов для математического ожидания

Показатель

Базовая выборка

Подвыборка 1

Подвыборка 2

Уровень значимости

0,05

0,05

0,05

Стандартное отклонение

5,18

5,14

3,45

Математическое ожидание

65,52

62,75

68,29

Объем выборки

312

156

156

Доверительный интервал

0,57

0,81

0,54

Границы доверительного интервала

Нижняя граница

64,95

61,94

67,75

Верхняя граница

66,09

63,55

68,83


Изобразим схематически доверительные вероятности для математических ожиданий трех рассматриваемых выборок.

Рисунок 22 - Схематическое изображение доверительных интервалов математических ожиданий базовой выборки и подвыборок

Доверительные интервалы не пересекаются между собой, следовательно вероятность равенства математических ожиданий базовой выборки и какой-либо из подвыборок равна 0. Рассчитаем для математического ожидания каждой подвыборки доверительный интервал, используя стандартное отклонение базовой выборки.

Таблица 10 - Расчет новых доверительных интервалов

Доверительные интервалы подвыборок при стандартном отклонении базовой выборки

Подвыборка 1

Подвыборка 2

Доверительный интервал

0,812081

0,812081

Нижняя граница

61,94

67,48

Верхняя граница

63,56

69,11

Ширина интервала

1,62

1,62


Для первой подвыборки доверительный интервал изменился незначительно, т.к. стандартное отклонение первой подвыборки близко к стандартному отклонению базовой выборки. Для второй подвыборки доверительный интервал увеличился почти в два раза, что обусловлено аналогичным увеличением задаваемого стандартного отклонения. Расширение доверительного интервала связано с увеличением стандартного отклонения, которое характеризует разброс случайной величины относительно среднего значения. Увеличивается стандартное отклонение, следовательно, увеличивается разброс, что приводит к расширению границ доверительного интервала. Также косвенно обосновать расширение доверительного интервала возможно по правилу трех сигм, которое утверждает: вероятность того, что случайная величина отклонится от своего математического ожидание на величину, большую чем утроенное среднее квадратичное отклонение, практически равна нулю. Чем больше значение стандартного отклонения, тем шире интервал колебаний случайной величины, и следовательно, тем шире доверительный интервал для математического ожидания. Значительное увеличение ошибок выборки и отсутствие пересечений в доверительных интервалах базовой выборки и подвыборок делают данные подвыборки не репрезентативной с точки зрения исследования всего временного ряда динамики часового газопотребления. Данные подвыборки могут быть использованы для анализа и прогноза газопотребления в различное время суток с 0:00 до 11:00 и с 12:00 до 23:00. По такому же принципу можно было сформировать подвыборки и прогнозировать часовое газопотребление в стабильный период в дневное и ночное время. В главе была изучена возможность использования части временного ряда вместо целого при анализе и прогнозе. Значительное увеличение ошибок выборки и отсутствие пересечений в доверительных интервалах базовой выборки и подвыборок делают данные подвыборки не репрезентативной с точки зрения исследования всего временного ряда динамики часового газопотребления. Данные подвыборки могут быть использованы для анализа и прогноза газопотребления в различное время суток с 0:00 до 11:00 и с 12:00 до 23:00. По такому же принципу можно было сформировать подвыборки и прогнозировать часовое газопотребление в стабильный период в дневное и ночное время.

4. Цепные и базисные индексы. Абсолютные и относительные приросты


Для анализа возьмем два периода продолжительностью в 1 месяц. В качестве стабильной подвыборки выберем период 10.12.11-10.01.12, для анализа периода падения газопотребления - период с 29.03.12 до 29.04.12. Индекс роста представляет собой отношение газопотребления текущего года к газопотреблению базисного года в случае базисного индекса и к газопотреблению предшествующего отчетному периоду в случае цепного индекса.

Рисунок 23 - Расчет цепных и базисных индексов роста для относительно стабильного периода газопотребления (слева) и периода падения газопотребления (справа)

На рисунке 23, существенные различия выявить невозможно, т.к. отражены индексы роста в пределах одних суток. И относительно стабильному периоду и периоду сокращения газопотребления свойственны суточные колебания. В связи с этим цепные индексы роста в двух подвыборках различаются несущственно. Общее изменение за период лучше отражает базисный индекс роста. К концу периода в стабильной области базисный индекс составил 1,14, в области падения: 0,37 - рисунок 24.

Рисунок 24 - Цепные и базисные индексы роста в конце выбранных периодов стабильного (слева) и сокращающегося (справа) газопотребления

Существенная разница в цепном индексе роста для двух анализируемых периодов свидетельствует о изменении газопотребления в общем, без влияния суточных колебанийХарактер изменений индексов удобнее наблюдать на графике.

Рисунок 25 - Динамика индексов роста в стабильный период газопотребления

Рисунок 26 - Динамика индексов роста в период падения газопотребления

На рисунке 25 цепные и базисные индексы почти не отличаются. В течение всего периода они близки к 1,0, следовательно, уровень газопотребления, практически не меняется в данный отрезок времени. Размер суточных колебаний газопотребления также примерно одинаков на протяжении всего периода.

В период падения газопотребления цепной индекс имеет убывающую тенденцию, что подтверждает сокращение газопотребления в данный отрезок времени. К тому же к концу периода суточные колебания становятся больше, о чем можно сделать вывод из-за увеличения разброса индексов к концу периода.

Построение гистограммы с автоматическим интервалом карманов осуществляется с помощью надстройки Анализ данных/ Гистограмма [2].

Рисунок 27- Окно "Гистограмма"

В результате получим следующие гистограммы - рис.28 и 29.

Рисунок 28 - Гистограммы цепных индексов роста с автоматическим интервалом карманов

Данные гистограммы позволяют проанализировать частоты индексов роста. В период стабильного газопотребления максимальные частоты имеют интервалы от 0,99 до 1,00 и от 1,00 до 1,01. В период падения газопотребления - интервал от 0,99 до 1,01. Кроме частот по интервалам гистограммы могут позволить сделать предположение о законе распределения случайной величины.

Рисунок 29 - Гистограммы базисные индексов роста

Для периода стабильного газопотребления максимальная частота характерна для значений, близких к 1, т.е. на протяжении всего периода уровень газопотребления практически не менялся. Для периода падения газопотребления, основная часть диаграммы расположена для значений, меньших 1. Это свидетельствует о том, что в основном, в данный период цепные индексы роста меньше 1 или о том, что происходило постоянное сокращение уровня газопотребления относительно базисного.

Абсолютный прирост представляет собой разницу между двумя уровнями ряда соответствующми текущему и предыдущему периоду (цепной) или базисному (базисный прирост). Относительный прирост представляет собой разницу между соответствующим индексом роста и 1 - см. рис. 30-31.

Рисунок 30 - Расчет абсолютных и относительных приростов для области стабильного газопотребления

Рисунок 31 - Расчет абсолютных и относительных приростов уровня газопотребления для периода падения

Для анализа удобно использовать не абсолютные значения, а визуальное отображение динамики в виде графиков.Линейные графики абсолютных и относительных приростов по двум областям приведены на рисунках 32-33.

Рисунок 32 - Графики абсолютных и относительных приростов газопотребления в стабильной области

Внешний вид графиков абсолютного и относительного приростов схожи, отличается лишь размах и единицы измерения.

Рисунок 33 - Абсолютные и относительные приросты газопотребления в области падения

Общая тенденция прослеживается как на графике абсолютных, так и на графике относительных приростов. В стабильной области тренд представляет собой горизонтальную прямую, для области падающего газопотребления - наблюдается явная тенденция к сокращению уровня базисных приростов во времени.

Рисунок 34 - Гистограммы абсолютных цепных и базисных приростов для области стабильного газопотребления

В виду того, что гистограммы характеризуют область относительно стабильного газопотребления, интервал с максимальной частотой по цепным приростам близок к 0: от -0,03 тыс. м3 до 0,50 тыс.м3. Среди базисных приростов максимальной чатотой характеризуется интервал от 2,90 тыс. м3 до 3,78 тыс. м3. Аналогичные гистограммы для области падения газопотребления приведены на рисунке 35.

Рисунок 35 - Гистограммы базисного и цепного абсолютного приростов для периода падения

Для области падения газопотребления максимальной частотой характеризуется интервал от -0,73 тыс. м3 до -0,1 тыс.м3 - т.е. в период чаще проходило сокращение газопотребления. Максимальная частота по базисным приростам принадлежит интервалу от -4,7 тыс. м3 до -2,59 тыс. м3. Если по цепным приростам падающего газопотребления наблюдается тенденция постепенного возрастания, а затем убывания частоты, то по базисным приростам гистограмма имеет несколько областей возрастания и убывания.

 

. Сглаживание скользящей средней. Исследование коинтеграции рядов


Для сглаживания выберем в качестве подвыборки период с 15.04.12 по 29.04.12. При сглаживании методом скользящей средней уровни ряда заменяются средним значениями нескольких уровней. В случае, когда при сглаживании используется нечетное число уровней, значение уровня ряда, находящееся по середине заменяется средней арифметической простой. При четном числе уровней 2i сглаживание происходит по числу уровней 2i+1, при этом первое и последнее значение берутся в размере ½. Т.е. используется средняя хронологическая. При сглаживании ряда часть данных теряется.

Рисунок 36 - Сглаживание ряда

Для того чтобы понять, зачем необходимо сглаживание, построим на одной плоскости графики исходного и сглаженных уровней ряда, при этом охватим только тот период, в котором есть значения по всем графикам, т.е. период соответствующий 12-тизвенной сглаженной.

Рисунок 37 - Графическое изображение исходного и сглаженных уровней ряда

Как видно из графика сглаживание позволяет избавиться от резких колебаний, в нашем случае суточных, иногда они бывают случайными. С увеличением числа уровней, используемых при сглаживании график выравнивается, становится более плавным, исключаются случайные тенденции при сохранении общего тренда. Из исходной выборки, охватывающей все данные используемые при анализе, выберем 1/5. Данная подвыборка охватит 42 дня, начиная с 01.10.11. Сгладим значения данной подвыборки с шагом 24. Построим графики исходной и сглаженной подвыборок.

Рисунок 38 - График исходной и сглаженной 20%-й подвыборки

Сглаживание с шагом 24 позволяет полностью исключить влияние суточных колебаний, т.к. в сутках 24 часа. Сглаженный график отражает центральную тенденцию изменения газопотребления за период. График исходной подвыборки имеет большие отклонения относительно сглаженного, разброс значений обусловлен суточными колебаниями газопотребления. Для выполнения ряда следующих заданий выберем подвыборки соответствующие 0:00 и 1:00 часам из работы 1. Точечный график приведен

Рисунок 39 - Точечные диаграммы для двух подвыборок

Внешне разброс точек для двух данных подвыборок практически одинаков. На первый взгляд, кажется, что графики отличаются лишь тем, что значения, соответствующие 0:00 часам, немного больше значений газопотребления в 1:00 час, в связи с чем точки первой подвыборки выше второй. В виду такого совпадения, можно предположить, что коэффициент корреляции будет очень большим.

Коэффициент корреляции можно найти с помощью функции КОРРЕЛ, либо рассчитать самостоятельно по формулам.

 

Рисунок 40 - Подготовка данных для расчета коэффициента корреляции по формуле

Таблица 11 - Расчет коэффициента корреляции

Коэффициент корреляции

Значение

Формула

По формуле

0,974234

=(D54-B54*C54)/(КОРЕНЬ((E54-B54*B54)*(F54-C54*C54)))

Через встроенную функцию

0,974234

=КОРРЕЛ(B2:B53;C2:C53)


Двумя способами было получено одно значение коэффициента корреляции, равное 0,974. Данное значение очень близко к 1, следовательно, между значениями двух подвыборок очень тесная прямая связь. Данная связь обусловлена тем, что для анализа были выбраны два рядом стоящих периода времени, а в рядах динамики всегда наблюдается статистическая зависимость соседних уровней ряда.

Для дальнейшего анализа используем две подвыборки со стабильным и падающим газопотреблением из задания 4.

Рисунок 41 - Точечные графики сгенерированных подвыборок

На первом графике точки расположены в относительно стабильной области, на втором, область характеризуется сокращением уровней ряда во времени. Найдем коэффициент корреляции с помощью встроенной функции Excel.

Рисунок 42 - Нахождение коэффициента корреляции для сгенерированных выборок

Для сгенерированных выборок коэффициент корреляции равен 0,357, следовательно, связь между значениями двух выборок слабая.

Добавим столбец-счетчик для выборки падающего газопотребления.

Рисунок 43 - Добавление столбца счетчика

Построим точечный график и найдем коэффициент корреляции времени и подвыборки.

Рисунок 44 - Точечный график области падения

Рисунок 45 - Расчет коэффициента корреляции уровней ряда и времени

Коэффициент корреляции равен -0,911, что свидетельствует о наличии тесной обратной связи между уровнем ряда и временем. Данное значение характерно для периода сокращения газопотребления.

Анализ данных позволяет строить матрицы корреляции.

Рисунок 46 - Надстройка Анализ данных Корреляция

В результате выполнения надстройкиполучим корреляционную матрицу.

Рисунок 47 - Корреляционная матрица

Чем ближе по времени подвыборки расположены друг к другу, тем выше коэффициент корреляции, а следовательно, и степень связи между значениями подвыборок. В пределах 2-3 часов связь очень сильная. минимальный коэффициент корреляции равен 0,34. Корреляционная матрица представляет собой квадратную матрицу 24*24, наименования строк и столбцов которой совпадают. На главной диагонали размещены единичные элементы, которые соответствуют корреляции между одним и тем же уровнем ряда. Выше главной диагонали элементы не отображаются, т.к. элементы матрица будут зеркально расположены относительно главной диагонали. Найдем коэффициент корреляции между медианами и матожиданиями часовых выборок.


Коэффициент корреляции между медианами и математическими ожиданиями часовых подвыборок равен 0,992, что характеризует очень сильную связь между данными показателями. Данная степень связи обусловлена тем, что медиана характеризует центральную тенденцию, аматематическое ожидание - среднее значение. В виду того что распределение близко к нормальному математическое ожидание должно находиться примерно в середине упорядоченного ряда распределения.

Функция ЕСЛИ позволяет найти выбросы для выборки, используемой в п.1. Для нахождения выбросов необходимо найти стандартное отклонение выборки (СТАНДОТКЛОН).

Рисунок 49 - Нахождение стандартного отклонения

Стандартное отклонение для столбца Газопотребление равно 9,21 тыс.м3. Для нахождения выбросов нужно проверить условие отличия наблюдения от двух соседних более чем на одно стандартное отклонение выборки. Формула для нахождения выбросов[2]: =ЕСЛИ(ИЛИ(ABS(C6-C7)>$K$3;ABS(C6-C5)>$K$3);"Выброс";""). В случае, если в данный период наблюдается выброс данных, в столбце выбросы будет выводиться слово "Выброс", в случае отсутствия выброса, ячейка останется пустой.

Рисунок 50 - Выбросы в данных

Например, в 6:00 и в 7:00 18.04.12 г. наблюдаются выбросы данных. Выбросы в основном являются случайными факторами и их необходимо находить для исключения данных случайных воздействий на ряд динамики и определения центральной тенденции.

 


Заключение


При выполнении ряда заданий по анализу газопотребления были выявлены периодические суточные колебания газопотребления, а также динамика изменения газопотребления в течение года. Изменения объясняются изменениями погоды. Закон распределения газопотребления близок к нормальному.

Для стабильной области газопотребления показатели динамики (индексы роста и прироста) близки к 1, для области падения газопотребления - показатели динамики свидетельствуют о склонности к сокращению уровней ряда.

Были проанализированы часовые выборки, для которых найдены ряд показателей, которые позволяют характеризовать газопотребление в течение суток.

С помощью коэффициентов корреляции была выявлена сильная связь между соседними периодами наблюдений.

При выполнении работы были получены навыки нахождения статистических показателей, построения графиков и гистограмм, применения в работе встроенных функций и надстроек MS Excel. Данный программный продукт позволяет значительно упростить расчеты статистических показателей и автору остается только их правильно интерпретировать и анализировать.

Список литературы

1.      Вентцель Е.С. Теория вероятностей. - М.: КноРус, 2010.

2.      Козлов А.Ю. Статистический анализ данных в MS Excel: учеб. пособие / А. Ю. Козлов, В. С. Мхитарян, В. Ф. Шишов. - М.: Инфра-М, 2012.

 

 

Приложение 1

Выборочные характеристики подвыборок

Показатель выборки

Время


0:00

1:00

2:00

3:00

4:00

5:00

6:00

7:00

8:00

9:00

10:00

11:00

12:00

Объем выборки, шт.

52

52

52

52

52

52

52

52

52

52

52

52

52

Математическое ожидание, м3

62 258,0

60 500,5

58 969,8

58 408,2

58 340,4

58 628,8

60 399,7

65 000,5

65 307,0

65 312,2

67 010,5

68 134,5

67 919,5

Стандартное отклонение, м3

3422,85

3331,814

3206,708

3293,815

3242,78

3169,571

3378,287

5416,229

4779,599

3684,329

3097,705

3258,04

3073,217

Мода, тыс. м3.

64

57

58

57

56

58

62

68

69

64

67

67

67

Медиана, м3

61 646,5

60 135,5

58 449,5

57 543,5

57 965,5

58 191,5

59 912,0

66 469,0

65 944,5

65 452,5

66 710,5

67 702,0

68 059,0

Коэффициент вариации,%

5,50%

5,51%

5,44%

5,64%

5,56%

5,41%

5,59%

8,33%

7,32%

5,64%

4,62%

4,78%

4,52%

Минимум, м3

55 921,0

54 346,0

53 334,0

51 896,0

53 233,0

53 039,0

54 397,0

54 953,0

55 089,0

56 533,0

58 954,0

60 552,0

59 615,0

Максимум, м3

69 828,0

67 397,0

66 592,0

65 199,0

64 917,0

64 717,0

67 478,0

73 313,0

73 204,0

72 192,0

74 218,0

75 503,0

74 654,0

Размах, м3

13 907,0

13 051,0

13 258,0

13 303,0

11 684,0

11 678,0

13 081,0

18 360,0

18 115,0

15 659,0

15 264,0

14 951,0

15 039,0



Показатель выборки

Время


13:00

14:00

15:00

16:00

17:00

18:00

19:00

20:00

21:00

22:00

23:00

Объем выборки, шт.

52

52

52

52

52

52

52

52

52

52

52

Математическое ожидание, м3

67 553,0

66 835,2

66 564,2

66 738,3

67 345,2

68 315,3

70 202,5

69 992,8

70 123,2

68 882,4

65 982,8

Стандартное отклонение, м3

2951,046

3201,782

3179,954

3142,448

3116,016

3264,896

3695,067

3717,178

4123,644

3749,172

3583,512

Мода, тыс. м3.

67

68

65

66

66

68

72

70

73

72

67

Медиана, м3

67 287,5

66 949,5

66 035,0

66 631,0

67 435,5

67 725,0

70 435,5

69 717,0

70 012,0

69 496,0

66 781,5

Коэффициент вариации,%

4,37%

4,79%

4,78%

4,71%

4,63%

4,78%

5,26%

5,31%

5,88%

5,44%

5,43%

Минимум, м3

60 878,0

58 681,0

59 975,0

60 915,0

60 496,0

60 714,0

60 890,0

60 448,0

60 932,0

62 158,0

59 555,0

Максимум, м3

73 876,0

74 217,0

74 035,0

73 857,0

74 275,0

75 845,0

77 146,0

76 460,0

77 580,0

75 603,0

73 305,0

Размах, м3

12 998,0

15 536,0

14 060,0

12 942,0

13 779,0

15 131,0

16 256,0

16 012,0

16 648,0

13 445,0

13 750,0


Похожие работы на - Статистическое исследование часового газопотребления

 

Не нашли материал для своей работы?
Поможем написать уникальную работу
Без плагиата!