Эконометрический анализ стоимости автомобиля
МОСКОВСКИЙ
ГОСУДАРСТВЕННЫЙ ИНСТИТУТ МЕЖДУНАРОДНЫХ ОТНОШЕНИЙ
(Университет)
МИД
РОССИЙСКОЙ ФЕДЕРАЦИИ
Кафедра
эконометрики и математических методов анализа экономики
Аналитическая
справка
Эконометрический
анализ стоимости автомобиля
Работа
выполнена
студентами
3 курса
академической
группы
Добрышиным
Антоном
Тукмачевым
Вадимом
Научный
руководитель:
Нараленков
К.М.
Москва 2014
год
Введение
Первые упоминания о появлении автомобиля
восходят еще к эпохе возрождения, когда Леонардо да Винчи создал чертеж
устройства, отдаленно напоминавшего самодвижущийся экипаж на пружинном приводе.
Однако проект так и не был реализован, поэтому устройство, по конструкции
напоминающее современный автомобиль, появилось после изобретения двигателя
внутреннего сгорания в 1860 году. В 1885 году немецкий изобретатель Готтлиб
Даймлер, а в 1886 году его соотечественник Карл Бенц изготовили и запатентовали
первые самодвижущиеся экипажи с бензиновыми двигателями. С этого момента
развитие транспортного средства пошло ускоренными темпами, что позволило уже в
начале XX века
производить их на конвейерной основе. Генри Форд, который привнес этот наиболее
экономичный метод производства, говорил, что “автомобиль - это не роскошь, а
средство передвижения”.
Сегодня мы можем видеть, что это выражение
действительно приобрело явные очертания. Современный рынок автомобилей включает
более 500 марок от производителей из более 70 стран мира, а общее число моделей
превышает 3000. Нынешний уровень развития автомобильной промышленности позволил
дифференцировать их по различным параметрам:
· по весу - легковые, грузовые и
большегрузные;
· по предназначению - пассажирские,
грузовые и специальные;
· по объему двигателя - маломощные,
средние и сверхмощные;
· по таким параметрам, как привод,
трансмиссия, расположение руля и др.
Без сомнения можно сказать, что современный
рынок автомобилей может удовлетворить спрос самого разного уровня, вот почему
помимо массово производимых автомобилей существуют и особые дизайнерские
мастерские.
В силу колоссальных объемов предложения, спроса
и высокой зависимости конъюнктуры рынка автомобилей от ряда политических,
экономических и социальных факторов, очевидной становится необходимость
прогнозировать стоимость автомобиля. В течение последних лет наблюдается рост
численности автопарка стран мира, что оказывает существенное влияние на
структуру и объемы внутренней и внешней торговли, платежный баланс, доходы и
расходы федерального и местных бюджетов, например, при мобилизации денежных
ресурсов от прямого и косвенного налогообложения владельцев автотранспортных
средств.
У владельцев автотранспорта возникает множество
случаев, когда необходимо определить рыночную стоимость автомобиля. Без
определения стоимости не обходится ни одна операция по купле-продаже,
кредитованию под залог, страхованию, разрешению имущественных споров,
налогообложению и т.д. Цели и мотивы оценки многообразны, однако, решаемая при
этом задача всегда одна. Она состоит в ответе на вопрос: какова в данный момент
времени реальная рыночная, а не учетная бухгалтерская стоимость оцениваемого
транспортного средства, его действительная ценность для настоящего или
потенциального собственника.
Для ответа на этот вопрос следует смоделировать
цену автомобиля с использованием эконометрических методов.
Моделирование
Постановка задачи
В силу весьма неоднозначной структуры
автомобильного рынка сложность представляет выбор объектов исследования. По
этой причине разумно было бы взять за основу широкую выборку автомобилей разной
ценовой категории, отличающихся рядом параметров. Тем не менее следует ответить
на вопрос, насколько доступен этот автомобиль, и на сколько разумна его цена в
сравнении с другими моделями. В силу наличия на рынке определенных
представителей, цены на которые в десятки (а то и сотни) раз превышает среднестатистические,
а по характеристикам они лишь немного превосходят догоняющие виды (например, Mercedes-Benz
SLR McLaren
в сравнении с Ford
Mustang), имеет смысл
избежать их рассмотрения, так как это может сбить общую стройность модели.
Определимся с параметрами автомобиля, которые
могут значимо влиять на его стоимость:
· Объем двигателя (в см3)
· Количество лошадиных сил
· Пробег (в км)
· Трансмиссия (фиктивная переменная -
авто или механика)
· Привод (фиктивная переменная -
передний или задний)
· Было ли авто в употреблении
(фиктивная переменная)
· Количество дверей
Оцениваемый показатель - это цена автомобиля (price),
выраженная в рублях.
Анализ данных
Прежде всего, следует обозначить границы
выборки, которая подлежит исследованию. Логично было бы привести широкую
выборку с автомобилями разной стоимости. Кроме того, заранее учтем в этой
выборке вышеперечисленные параметры.
mark/model
|
price (RUR)
|
engine
(sm3)
|
horse
|
doors
|
transmission
1=auto
0=mech
|
used
1=yes
0=no
|
drive
1=rear
0=front
|
distance
(km)
|
audi
a3 sedan
|
1424913
|
1800
|
180
|
5
|
1
|
0
|
1
|
570
|
audi
a1
|
659000
|
1400
|
122
|
3
|
1
|
1
|
1
|
23100
|
bmw
3er
|
1279000
|
1995
|
184
|
5
|
1
|
0
|
0
|
300
|
bmw
1er
|
890000
|
1598
|
170
|
5
|
0
|
1
|
0
|
33480
|
Chevrolet
cruze
|
680000
|
1796
|
141
|
5
|
1
|
0
|
1
|
1100
|
Chevrolet
niva
|
625000
|
1690
|
80
|
5
|
0
|
1
|
1
|
10600
|
Ford
focus
III sedan
|
669000
|
1600
|
125
|
5
|
1
|
0
|
1
|
200
|
Ford
mustang
V
|
1590000
|
4951
|
412
|
3
|
0
|
1
|
0
|
65000
|
Honda
civic
|
909000
|
1800
|
142
|
3
|
1
|
0
|
1
|
150
|
Honda
accord
VI
|
239000
|
1850
|
136
|
5
|
0
|
1
|
1
|
235000
|
mercedes-benz
SLS Amg
|
6096000
|
6208
|
571
|
3
|
1
|
1
|
0
|
12000
|
porsche
911 turbo
|
7490000
|
3800
|
500
|
3
|
1
|
0
|
1
|
230
|
Porsche
cayenne
|
1315000
|
4806
|
384
|
5
|
1
|
1
|
1
|
65000
|
nissan
350z
|
90000
|
3498
|
283
|
3
|
0
|
1
|
0
|
24000
|
Nissan
qashqai
|
700000
|
1598
|
115
|
5
|
0
|
0
|
1
|
32
|
Opel
corsa
|
870000
|
1598
|
211
|
3
|
0
|
1
|
1
|
22000
|
Opel
astra
|
704900
|
1600
|
115
|
5
|
1
|
0
|
1
|
210
|
Reanult
logan
|
308400
|
1400
|
75
|
5
|
0
|
0
|
1
|
100
|
Ranult
megane
III
|
445000
|
1561
|
106
|
5
|
0
|
1
|
1
|
75000
|
volvo
s40
|
859900
|
1948
|
145
|
5
|
0
|
0
|
1
|
70
|
volvo
xc90
|
1589000
|
2500
|
210
|
5
|
1
|
1
|
1
|
12000
|
Cadillac
CTS
|
1895000
|
3600
|
322
|
5
|
1
|
0
|
1
|
156
|
Cadillac
Escalade
|
1700000
|
6162
|
409
|
5
|
1
|
1
|
1
|
113202
|
Citroen
C5
|
1050000
|
1600
|
150
|
5
|
1
|
0
|
0
|
237
|
Citroen
DS5
|
935000
|
1598
|
150
|
5
|
1
|
1
|
0
|
44122
|
Jaguar
XJ
|
2900000
|
3000
|
235
|
5
|
1
|
0
|
1
|
17
|
Jaguar
F-Type
|
6715500
|
5000
|
495
|
3
|
1
|
0
|
1
|
364
|
Kia
Cee`d
|
619900
|
1600
|
129
|
5
|
0
|
0
|
1
|
73
|
Kia
Cerato
|
305000
|
1591
|
122
|
5
|
0
|
1
|
1
|
109695
|
Range
Rover
Sport
|
4970800
|
3000
|
292
|
5
|
1
|
0
|
1
|
321
|
Range
Rover
Evoque
|
1997500
|
2000
|
240
|
5
|
1
|
0
|
1
|
64
|
Toyota
Camry
|
1087000
|
2500
|
181
|
5
|
1
|
0
|
0
|
38
|
Toyota
Land
Cruser
|
3382000
|
4500
|
235
|
5
|
1
|
0
|
1
|
189
|
Skoda
Octavia
|
852516
|
1400
|
140
|
5
|
0
|
0
|
438
|
Skoda
Fabia
|
455000
|
1598
|
105
|
5
|
1
|
1
|
1
|
45284
|
Infiniti
G37
|
1190000
|
3696
|
333
|
3
|
1
|
1
|
0
|
55466
|
Infiniti
FX30
|
2105000
|
2993
|
238
|
5
|
1
|
1
|
1
|
25030
|
Ssang
Yong
Actyon
|
909000
|
2000
|
149
|
5
|
1
|
0
|
1
|
305
|
Subaru
Legacy
|
1203000
|
2000
|
150
|
5
|
1
|
0
|
0
|
216
|
Honda
Accord
|
1627000
|
3500
|
281
|
5
|
1
|
0
|
1
|
107
|
Chevrolet
Camaro
|
2315000
|
3600
|
328
|
3
|
1
|
0
|
0
|
500
|
Так как факторные признаки называют еще
независимыми переменными, необходимо устранить явную межфакторную зависимость,
отобрав факторы менее коррелирующие между собой.
По величине парных коэффициентов корреляции
обнаруживается лишь явная коллинеарность факторов. Наибольшие трудности при
использовании множественной регрессии возникают при наличии
мультиколлинеарности факторов, когда более чем два фактора связаны между собой
линейной зависимостью, т.е. имеет место совокупное воздействие факторов друг на
друга. Наличие коллинеарности может означать, что некоторые факторы будут
всегда действовать в унисон, что отрицательно сказывается на надежности
статистических оценок.
Обычно считают, что факторы имеют явную
коллинеарность, если парная корреляции между ними превышает 0,8. Построим с
помощью эконометрического программного пакета Eviews
симметричную матрицу парных коэффициентов корреляции между факторами:
|
Engine
|
Horse
|
Drive
|
Transmission
|
Distance
|
Used
|
Engine
|
1.0000
|
0,9099
|
-0,1856
|
0,3277
|
0,0732
|
0,1194
|
Horse
|
0,9099
|
1.0000
|
-0,2582
|
0,3350
|
-0,0303
|
0,0351
|
Drive
|
-0,1856
|
-0,2582
|
1.0000
|
0,0026
|
0,0770
|
-0,0774
|
Transmission
|
0,3277
|
0,3350
|
0,0026
|
1.0000
|
-0,3180
|
-0,2872
|
Distance
|
0,0732
|
-0,0303
|
0,0770
|
-0,3180
|
1.0000
|
0,6300
|
used
|
0,1194
|
0,0351
|
-0,0774
|
-0,2872
|
0,6300
|
1.0000
|
автомобиль эконометрический матрица
корреляция
Как видно из матрицы, существует явная
коллинеарность между параметрами horse
и engine. Исключим из
исследования engine по причине
большей межфакторной связи с остальными параметрами, чем у horse.
Построение и модель регрессии
Попробуем проанализировать с помощью Eviews
модель регрессии без логарифма. В результате получим низкий коэффициент
детерминации R2=0,39 и по большей
части незначимые коэффициенты, хотя регрессия в целом остается значимой. Это
легко объяснить: наиболее вероятно, что цена на автомобиль будет изменяться в
процентном соотношении, а не в абсолютном, так как параметры в общем влияют на
любой тип автомобиля. Поэтому попробуем использовать логарифмическую функцию LOG(price).
Опыты показывают, что не имеет смысла логарифмировать такие переменные, как DISTANCE
и HORSE, так как это
ухудшает точность регрессии. Прологарифмируем лишь зависимую переменную,
получив, таким образом, следующие результаты:
EstimationCommand:
=========================LOG(PRICE)
C HORSE DISTANCE DRIVE TRANSMISSION USED DOORSEquation:
=========================(PRICE) =
C(1) + C(2)*HORSE + C(3)*DISTANCE + C(4)*DRIVE + C(5)*TRANSMISSION + C(6)*USED
+ C(7)*DOORSCoefficients:
=========================(PRICE) =
11.5343925582 + 0.00646292139472*HORSE - 4.53858539986e-06*DISTANCE +
0.0938137817052*DRIVE + 0.376092419888*TRANSMISSION - 0.311293600365*USED +
0.199407723099*DOORS
DependentVariable:
LOG(PRICE)
|
|
Method:
LeastSquares
|
|
|
Date:
11/11/14
Time: 20:29
|
|
|
Sample:
1 42
|
|
|
|
Includedobservations:
42
|
|
|
Variable
|
Coefficient
|
Std.
Error
|
t-Statistic
|
Prob.
|
C
|
11.53439
|
0.723418
|
15.94431
|
0.0000
|
HORSE
|
0.006463
|
0.000869
|
7.439733
|
0.0000
|
DISTANCE
|
-4.54E-06
|
2.68E-06
|
-1.692106
|
0.0995
|
DRIVE
|
0.093814
|
0.199915
|
0.469269
|
0.6418
|
TRANSMISSION
|
0.376092
|
0.218018
|
1.725052
|
0.0933
|
USED
|
-0.311294
|
0.240241
|
-1.295753
|
0.2035
|
DOORS
|
0.199408
|
0.131757
|
1.513450
|
0.1391
|
R-squared
|
0.772412
|
Meandependentvar
|
14.01890
|
Adjusted
R-squared
|
0.733397
|
S.D.
dependentvar
|
1.088594
|
S.E.
ofregression
|
0.562081
|
Akaikeinfocriterion
|
1.836669
|
Sumsquaredresid
|
11.05772
|
Schwarzcriterion
|
2.126281
|
Loglikelihood
|
-31.57006
|
Hannan-Quinncriter.
|
1.942823
|
F-statistic
|
19.79776
|
Durbin-Watsonstat
|
1.811581
|
Prob(F-statistic)
|
0.000000
|
|
|
|
Как видно из таблицы, коэффициенты HORSE,
DISTANCE и TRANSMISSION
значимы (стремятся к значимости), так как их prob<0,05
или незначимо от этого отличается. Регрессия в целом значима, т.к. prob(f-stat)=0,000
Проверим регрессию на постоянство дисперсии
остатков, то есть проведем тест на гетероскедастичность. В силу того, что
выборка не очень большая (41вариант), не имеет смысл проводить тест Уайта.
Вместо этого, проведем
тест Бреуш-Паган-Годфри:
Heteroskedasticity Test: Breusch-Pagan-Godfrey
|
F-statistic
|
1.346332
|
Prob.
F(6,35)
|
0.2634
|
Obs*R-squared
|
7.875849
|
Prob.
Chi-Square(6)
|
0.2473
|
Scaledexplained
SS
|
20.63905
|
Prob.
Chi-Square(6)
|
0.0021
|
TestEquation:
|
|
|
|
DependentVariable:
RESID^2
|
|
|
Method:
LeastSquares
|
|
|
Date:
11/13/14
Time: 19:54
|
|
|
Sample:
1 42
|
|
|
|
Includedobservations:
41
|
|
|
Variable
|
Coefficient
|
Std.
Error
|
t-Statistic
|
Prob.
|
C
|
0.739241
|
0.919170
|
0.804249
|
0.4267
|
HORSE
|
0.001088
|
0.001104
|
0.986037
|
0.3309
|
DISTANCE
|
-3.19E-06
|
3.41E-06
|
-0.934644
|
0.3564
|
USED
|
0.283993
|
0.305249
|
0.930363
|
0.3586
|
TRANSMISSION
|
-0.401993
|
0.277012
|
-1.451172
|
0.1556
|
DRIVE
|
-0.204722
|
0.254010
|
-0.805958
|
0.4257
|
DOORS
|
-0.078278
|
0.167410
|
-0.467582
|
0.6430
|
R-squared
|
0.187520
|
Meandependentvar
|
0.263279
|
Adjusted
R-squared
|
0.048238
|
S.D.
dependentvar
|
0.732051
|
S.E.
ofregression
|
0.714176
|
Akaikeinfocriterion
|
2.315638
|
Sumsquaredresid
|
17.85168
|
Schwarzcriterion
|
2.605250
|
Loglikelihood
|
-41.62840
|
Hannan-Quinncriter.
|
2.421792
|
F-statistic
|
1.346332
|
Durbin-Watsonstat
|
2.048036
|
Prob(F-statistic)
|
0.263377
|
|
|
|
По данным теста, всего на 18,7% изменение цены
объясняется дисперсией факторов. Получим prob.F>0,05.
Это значит, что гетероскедастичность отсутствует, следовательно, функция
гомоскедастична. Это положительный результат, который показывает, что дисперсия
остатков постоянна.
Предположим, что наша регрессия имеет линейную
спецификацию:
Estimation Command:
=====================
LS PRICE DISTANCE DOORS DRIVE HORSE
TRANSMISSION USED
Оценим уравнение::
==========================
C(1)*DISTANCE + C(2)*DOORS + C(3)*DRIVE + C(4)*HORSE + C(5)*TRANSMISSION +
C(6)*USED:
==========================
5.74363744919*DISTANCE - 379220.603565*DOORS - 2076308.8667*DRIVE +
41483.0859989*HORSE - 2012665.57706*TRANSMISSION - 4912432.32527*USED
DependentVariable:
PRICE
|
Method:
LeastSquares
|
Date:
11/25/14
Time: 09:17
|
Sample:
1 41
|
Includedobservations:
41
|
Variable
|
Coefficient
|
Std.
Error
|
t-Statistic
|
Prob.
|
DISTANCE
|
5.743637
|
39.13037
|
0.146782
|
0.8841
|
DOORS
|
-379220.6
|
747051.2
|
-0.507623
|
0.6148
|
DRIVE
|
-2076309.
|
2974545.
|
-0.698026
|
0.4896
|
HORSE
|
41483.09
|
9365.189
|
4.429498
|
0.0001
|
TRANSMISSION
|
-2012666.
|
3258321.
|
-0.617700
|
0.5407
|
R-squared
|
0.388674
|
Meandependentvar
|
3182079
|
Adjusted
R-squared
|
0.303767
|
S.D.
dependentvar
|
10074661
|
S.E.
ofregression
|
8406352.
|
Akaikeinfocriterion
|
34.85844
|
Sumsquaredresid
|
2.54E+15
|
Schwarzcriterion
|
35.10668
|
Loglikelihood
|
-726.0272
|
Hannan-Quinncriter.
|
34.94943
|
Durbin-Watsonstat
|
2.154302
|
|
|
F-statistic 17.15450 Prob(F-statistic)
0.000000
|
|
|
|
Как видим, модель в целом значима, однако
факторы DISTANCE,
DOORS, DRIVE,
TRANSMISSION НЕ ЗНАЧИМЫ.
Проверим, верно ли наше предположение о линейной
спецификации модели. Проведем RESET-test
Рамсея на справедливость гипотезы о линейной спецификации модели регрессии:
F-statistic
|
99.21919
|
Probability
|
0.0000
|
Loglikelihoodratio
|
57.35668
|
Probability
|
0.0000
|
|
|
|
|
|
TestEquation:
|
DependentVariable:
PRICE
|
Method:
LeastSquares
|
Date:
12/02/14
Time: 10:42
|
Sample:
1 41
|
Includedobservations:
41
|
Variable
|
Coefficient
|
Std.
Error
|
t-Statistic
|
Prob.
|
C
|
-4445300.
|
5611292.
|
-0.792206
|
0.4337
|
DISTANCE
|
2.380652
|
20.80496
|
0.114427
|
0.9096
|
DOORS
|
1875456.
|
1033202.
|
1.815187
|
0.0783
|
DRIVE
|
-1098264.
|
1553039.
|
-0.707171
|
0.4843
|
HORSE
|
-28353.98
|
9992.933
|
-2.837404
|
0.0076
|
TRANSMISSION
|
1022691.
|
1719220.
|
0.594858
|
0.5559
|
USED
|
-480905.4
|
1904860.
|
-0.252462
|
0.8022
|
R-squared
|
0.844697
|
Meandependentvar
|
3182079
|
Adjusted
R-squared
|
0.812723
|
S.D.
dependentvar
|
10074661
|
S.E.
ofregression
|
4359858.
|
Akaikeinfocriterion
|
33.58342
|
Sumsquaredresid
|
6.46E+14
|
Schwarzcriterion
|
33.91441
|
Loglikelihood
|
-697.2518
|
Hannan-Quinncriter.
|
33.70474
|
F-statistic Prob (F-statistic)
|
26.41819
0.000000
|
Durbin-Watsonstat
|
2.316328
|
Так как Prob (F-стат) <0,05, то принимаем
гипотезу H1 и отвергаем H0, то есть подтверждается гипотеза о нелинейной
спецификации.
Заключение
Исследуя зависимость цены автомобиля от объема
двигателя (в см3), количества лошадиных сил, пробега (в км), типа трансмиссии и
привода, было ли авто в употреблении, количества дверей мы получили модель
регрессии, имеющую следующую спецификацию:
LOG(PRICE) = 11.5343925582 +
0.00646292139472*HORSE - 4.53858539986e -06*DISTANCE + 0.0938137817052*DRIVE
+ 0.376092419888*TRANSMISSION - 0.311293600365*USED + 0.199407723099*DOORS
Интерпретируя модель, стоит отметить, что, при
неизменности остальных факторов:
§ При увеличении количества лошадиных сил на 1
цена увеличивается на 1,456581745%
§ При увеличении пробега на 1 км цена уменьшается
на 1,000004539%
§ Если у автомобиляпередний привод, то цена
увеличивается на 1,098355193%
§ Если автомобиль оснащен АКПП, то цена
увеличивается на 1,456581745%
§ Если автомобиль подержан, то цена в среднем
падает на 1,365189983%
§ При увеличении количества дверей на 1, цена
увеличивается на 1,220679564%
Оценивая качество модели, можно сказать, что
коэффициент детерминации равен 0.772412, т.е. на 77,24% модель объясняется
факторами, входящими в нее. Модель в целом значима, коэффициент HORSE
значим, а значения коэффициентовDISTANCE
и TRANSMISSION приближены к
значимым.
ПРИЛОЖЕНИЕ
Графический анализ
Список использованной
литературы
1.
Выборка по данным сайтов major.auto.ru
и auto.ru
.
Введение в эконометрику.// Н.В. Артамонов, 2011
.
Компьютерный практикум по начальному курсу эконометрики (реализация на Еviews).
//Молчанов И.Н., Герасимова И.А.
.
Записи лекций и семинаров. // Артамонов Н.В., Котова Е.С.