- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据处理建模流程-
数据处理与建模流程:
1 数据处理
1.1 替换缺失值:
数据完整没有缺失值的情况基本不存在,我们的数据中,0点-5点的航班为0的情况很多,所以数据缺失比较严重。时间序列分析要求时间周期完整,如果将缺失的数据只简单地用其他所有数据的缺失值填充,误差较大。经过反复尝试,发现用临近两点均值填充,结果最为理想。
2 时间序列的预处理
2.1 时间序列平稳化
首先绘制替换缺失值之后的原始数据的自相关图与偏自相关图。如下图所示:
可以看到自相关图并没有收敛到置信区间之内,趋近0以后又增长,且所有值均在置信区间之外。故序列不平稳。
为了进行时间序列平稳化,首先进行差分,即前值减后值,消除前后数据的依赖性。再次制作自相关图,勾选一次差分。结果如图所示:
如图所示偏ACF图仍然所有值均在置信区间之外。序列仍不平稳。勾选季节性差分再次制作自相关图,后一个周期相同位置的值减去前一个周期相同位置的值称为季节性差分。
结果如图所示:
从图中可知ACF为截尾,PACF为拖尾。序列已稳定。
故将原始序列先进行差分,后进行季节性差分。
2.2 平稳序列的检验
为了考察单个序列是否的确已经转换为平稳的随机序列,制作自相关图(ACF)与偏相关图(PACF)。此次将延迟拉大,观察相关图是否具有周期性:
图中所示,ACF在1阶之后骤减,为截尾。进一步观察,发现其具有周期性,在q+Sq后仍然骤减。PACF拖尾。根据下图,符合MA(q),Seas.MA(Q)模型。
(ACF与PACF怎么看:第一列数为lag值,第二列为相关系数的估计值,第三列为标准误差,其余为Box-Ljung检验结果。如果相关系数是突然收敛到置信区间之内,95%的值在置信区间之内,为截尾。如果相关系数像一条常常的尾巴,95%的值在置信区间之外,为拖尾。故,自相关图为截尾,偏相关图为拖尾。符合MA模型)
3 指数平滑与ARIMA的比较
指数平滑:
用序列过去值的加权均数来预测将来的值,并给序列中近期的数据以较大的权重,远期的数据以较小的权重。理由是随着时间的流逝,过去值的影响逐渐减小。基本公式:
Ft是t时刻的预测值,Y是t时刻的实际值。指数平滑沿袭了修正的思想,T+1时刻的预测值是T时刻的实际观测值对T时刻的预测值加以修正后得到的。展开式:
实际观测值对预测值的影响随着时间距离的增大而呈指数级数衰减,这就是指数平滑的由来。
根据指数平滑法的公式可以知道:
指数平滑法适合于影响随时间的消失呈下降的数据。
ARIMA模型:
AR(p)模型(Auto regression Model)——自回归模型
p阶自回归模型:
这里的d是对原时序进行逐期差分的阶数,差分的目的是为了让某些非平稳(具有一定趋势的)序列变换为平稳的,通常来说d的取值一般为0,1,2。对于具有趋势性非平稳时序,不能直接建立ARMA模型,只能对经过平稳化处理,而后对新的平稳时序建立ARMA(p,q)模型。这里的平稳化处理可以是差分处理,也可以是对数变换,也可以是两者相结合,先对数变换再进行差分处理。
自回归积分滑动平均模型
对于具有季节性的非平稳时序(如冰箱的销售量,羽绒服的销售量),也同样需要进行季节差分,从而得到平稳时序。这里的D即为进行季节差分的阶数;PQ分别是季节性自回归阶数和季节性移动平均阶数;S为季节周期的长度。
确定pqd,PQD主要根据自相关图与偏自相关图。
4. 建模
首先了解一下各个参数的意义:
R方、平稳的R方:R方是使用原始序列计算出的模型决定系数,只能在序列平稳时使用。平稳的R方则是用模型的平稳部分计算出的决定系数,当序列具有趋势或季节波动时,该指标优于普通R房。两者取值均为小于等于1的任意数,负值表示该模型预测效果比只用均数预测还差。
RMSE:均方误差的平方根,表示模型预测因变量的精度,其值越小,精度越高。
MAE:平均绝对误差;
MaxAE:最大绝对误差;
MAPE:平均绝对误差百分比;
MaxAPE:最大绝对误差百分比;
正态化的BIC:是基于均方误差的分数,包括模型中参数数量的罚分和序列长度。罚分去除了具有更多参数的模型优势,从而可以容易地比较相同序列的不同模型的统计量。
其中百分比用来比较不同的模型,最大绝对误差与最大绝对误差百分比对于考虑预测最坏情况很有用。
4.1 指数平滑法建模
根据前面叙述,知道指数平滑法适用于影响随时间的消失呈下降的数据。对于我们的数据可能不适用。但是保险起见,仍用指数平滑法进行建模。如图所示R方为负值,表示该模型效果太差。故抛弃该方法。
4.2 专家建模法选择合适模型
专家建模法默认两种建模方法均使用,因为手动计算合适参数较为复杂,专家建模器会为用户选择合适的模型与参数。如图所示,专家建模器选择的是ARIMA模型,并设置参数为ARIMA(0,0,2)(0
原创力文档


文档评论(0)