- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘原理 算及应用第6章 时间序列数据挖掘
6.1 概 述 时间序列是一种重要的高维数据类型, 它是由客观对象的某个物理量在不同时间点的采样值按照时间先后次序排列而组成的序列, 在经济管理以及工程邻域具有广泛应用。 例如证券市场中股票的交易价格与交易量、 外汇市场上的汇率、 期货和黄金的交易价格以及各种类型的指数,这些数据都形成一个持续不断的时间序列。 利用时间序列数据挖掘, 可以获得数据中蕴含的与时间有关的有用信息, 实现知识的提取。 6.2 时间序列数据建模 对于一个时间序列yt,t=1, 2, …,n,通常所建立的回归模型都假定yt在整个时间范围内具有相同的变化模式, 这在许多情况下是适宜的。 但在实际中也确实存在着很多这样的时间序列,它在整个时间序列里明显地具有两种或两种以上的变化模式,对这样的时间序列如果仍在整个时间序列里建立回归模式(即假定它们在整个时间范围里服从同一变化模式),就明显的不太适合,效果也就不会太好。 对这样的时间序列要采取非常规的建模方法,反映出它在不同时间范围里的不同变化。 在实际中,具有不同变化规律的时间序列建立模型的方法有很多, 较常用的有虚拟变量法,段拟合法、 样条函数法和门限模型法四种, 下面我们就来介绍和讨论这四种方法。 为简单起见,我们假定时间序列yt(t=1, 2, …,n)在整个时间范围里具有两种不同的变化规律(具有多种变化规律时处理方法类似),分界点或转折点是k,即当t=1, 2, …,k时,yt按某一模式变化,而当t=k+1, k+2, …,n时,yt按另一模式变化。 这里,分界点或转折点k常可通过观察分析y的散点图或曲线图来确定。 1. 虚拟变量法 虚拟变量法就是设置一个在转折点前后具有不同特征的虚拟变量Dt,在对yt建立回归建模时引进Dt, 从而通过Dt来反映yt的不同变化规律。 虚拟变量Dt最常用的形式是: (6.1) 这样以t和Dt为自变量和解释变量,yt为因变量和解释变量,即可建立起回归模型。通常是建立起如下最常用的线性回归模型、 指数回归模型或自回归模型: 2. 分段拟合法 既然yt在前后两个时间段里具有不同的变化规律, 那么一个很自然的做法就是在这两个时间段里对yt分别建立回归模型, 并且一般来说, 这两个在不同时间段里具有不同变化规律的数据所建立的回归模型是不同的, 因此可以反映出yt的转折性变化。 这种方法就是分段拟合法。 分段拟合时, 两个时间段的拟合模式或回归函数类型可以是一样的, 也可以是不一样的, 因此分段拟合结果为 3. 样条函数法 上述两种方法对yt建立的回归模型在t=k处一般是不连续的,例如对模型(6.2)式, 在t=k处的左极限(即当t从小于k处或k的左边趋于k时的极限)为 由于b≠0, 因此(6.6)式和(6.7)式不相等, 即 在t=k处不连续。 这种不连续性一般是和实际相背的, 对于社会经济现象中的数据更是如此。因此上述两种方法的拟合效果一般来说也不会很令人满意。而样条函数法正是对这一缺陷的一种补救方法,它是在多项式分段拟合(对其他函数形式也可如此处理,只是稍复杂而且也不常用)的基础上加上分段多项式在转折点t=k处的连续性和可微性的条件而形成的。下面我们给出实际中常用的几种样条函数拟合模型的形式,它们的具体推导就不在此详述了。一次、 二次、 三次样条函数拟合模型分别为 如果引入(6.1)式中的虚拟变量Dt, 则上述三个模型可以简写为 6.3 时间序列预测 6.3.1 局域线性化方法 局部线性化方法是时间序列建模以及预测的有效方法, 其基本思想是采用相空间重构的办法,将时间序列当前时刻点的领域线性化, 然后由所构造的线性模型做出预测。 局部线性化方法的原理如下所述。 设观测到时间序列xt, t=1τ, 2τ, …, Nτ,其中τ是采样间隔数。根据下式从余震发生间隔时间序列重构相空间: x (i) =(xi, xi+τ, …, xi+(m-1)τ) T, i=1, 2, …, N (6.14) 其中,m为相空间维数, τ为间隔时间。 其中,X∈Rk×m,y∈Rk×1,且应使k≥m。将按列零均值化,将也零均值化,那么在目标点的邻域内建立如下线性模型: y=Xw+e (6.18) 其中,e是零均值白噪声,X∈Rk×1 ;w是参数向量, 。 w的最小二乘估计 为 1. SVD最小二乘法 引理[1]矩阵
文档评论(0)