时间序列(ARIMA)案例超详细讲解.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
想象一下,你的任务是:根据已有的历史时间数据,预测未来的趋势走向。作为一个数据分析师,你会把这类问题归类为什么?当然是时间序列建模。 从预测一个产品的销售量到估计每天产品的用户数量,时间序列预测是任何数据分析师都应该知道的核心技能之一。常用的时间序列模型有很多种,在本文中主要研究ARIMA模型,也是实际案例中最常用的模型,这种模型主要针对平稳非白噪声序列数据。 时间序列概念 时间序列是按照一定的时间间隔排列的一组数据,其时间间隔可以是任意的时间单位,如小时、日、周月等。通过对这些时间序列的分析,从中发现和揭示现象发展变化的规律,并将这些知识和信息用于预测。比如销售量是上升还是下降,是否可以通过现有的数据预测未来一年的销售额是多少等。 1 ARIMA(差分自回归移动平均模型)简介 模型的一般形式如下式所示: 1.1 适用条件 数据序列是平稳的,这意味着均值和方差不应随时间而变化。通过对数变换或差分可以使序列平稳。 输入的数据必须是单变量序列,因为ARIMA利用过去的数值来预测未来的数值。 1.2 分量解释 AR(自回归项)、I(差分项)和MA(移动平均项): AR项是指用于预测下一个值的过去值。AR项由ARIMA中的参数p定义。p值是由PACF图确定的。 MA项定义了预测未来值时过去预测误差的数目。ARIMA中的参数q代表MA项。ACF图用于识别正确的q值 差分顺序规定了对序列执行差分操作的次数,对数据进行差分操作的目的是使之保持平稳。ADF可以用来确定序列是否是平稳的,并有助于识别d值。 1.3 模型基本步骤 1.31 序列平稳化检验,确定d值 对序列绘图,进行 ADF 检验,观察序列是否平稳(一般为不平稳);对于非平稳时间序列要先进行 d 阶差分,转化为平稳时间序列 1.32 确定p值和q值 (1)p 值可从偏自相关系数(PACF)图的最大滞后点来大致判断,q 值可从自相关系数(ACF)图的最大滞后点来大致判断 (2)遍历搜索AIC和BIC最小的参数组合 1.33 拟合ARIMA模型 (p,d,q) 1.34 预测未来的值 2 案例介绍及操作 基于 1985-2021年某杂志的销售量,预测某商品的未来五年的销售量。 2.1 序列平稳化检验,确定d值 平稳性概念 假定某个时间序列是由一系列随机过程生成的,即假定时间序列的每一个数值都是从一个概率分布中随机得到,如果满足下列条件: 均值u是与时间t无关的常数; 方差是与时间t无关的常数; 协方差rk是只与时间间隔K有关,与时间t无关的常数 则称改随机时间序列是平稳的,而该随机过程是平稳随机过程。 ADF思路 白噪声的过程是: 对于白噪声序列,基本是在均值附近较为平均的随机震荡。它满足正态分布,均值与方差都是与时间t无关的函数,它满足平稳性要求。 随机游走的过程是: 对于随机游走,可以看到比白噪声平滑很多,并且呈现出一些“趋势性”的感觉。它的均值为0,方差与时间t有关,他不满足平稳性要求。 而随机游走的一阶差分是平稳的: 如果一个时间序列是非平稳的,它常常可以通过取差分的方法而形成平稳序列。 ADF 大致的思想就是基于随机游走的,对Xt回归,如果发现p=1,说明序列满足随机游走,就是非平稳的。 下图是通过spsspro软件生成: 如何确定该序列是否平稳呢? (1)临界值检验 临界值1%、5%、10%不同程度拒绝原假设的统计值和假设检验值t进行比较,t同时小于1%、5%、10%即说明非常好地拒绝该假设 (2)显著性检验p0.05 本数据中,原序列的 ADF 假设检验值t为1.814, 大于三个level的统计值,所以是非平稳的。而一阶差分序列的 ADF 假设检验值t为-3.156,小于三个level的统计值,再来看显著性p的值为0.0230.05,所以是平稳的。 经过二阶差分,与一阶差分相比,只是在显著性程度上扩大了,因此对于该序列,采用一阶差分比较合适。一般情况下,采用一阶、二阶差分就可以使序列变得平稳。 所以差分阶数d=1 2.2 确定p值和q值 2.21 绘制ACF 、PACF图 先来介绍几个概念: 拖尾和截尾 拖尾,顾名思义,就是序列缓慢衰减,“尾巴”慢慢拖着滑下来,或者震荡衰减 而截尾则是突然截断了,像个悬崖,指序列从某个时点变得非常小 专业点来说呢,就是: 如果样本自相关系数和样本偏自相关系数在最初的阶明显大于2倍标准差(下图虚线),而后几乎95%的系数都落在2倍标准差的范围内,且非零系数衰减为小值波动的过程非常突然,通常视为k阶截尾。 如果有超过5%的样本相关系数大于2倍标准差,或者非零系数衰减为小值波动的过程比较缓慢或连续,通常视为拖尾。 自相关系数(ACF) 自相关系数度量的是同一事件在两个不同时期之间的相关程度,形象的讲就是度量自己过去的行为对自己现在的影响。在这

文档评论(0)

135****0879 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档