时间序列相似性研究.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
时间序列相似性研究.pdf

时间序列相似性研究 张璐 辽宁工程技术大学理学院,辽宁阜新(123000 ) E-mail:zhanglu85517@ 摘 要:时间序列作为一种数据形式,广泛存在于各种商业、医学、工程、自然科学和社会 科学等数据库中。本文通过对时间序列数据挖掘的概述,引出时间序列相似分析研究方法, 同时在各种相似性定义研究的基础上,说明了欧氏几何距离作为时间序列相似性度量标准的 不足之处,总结出了一种较为统一的时间序列相似性概念体系;并利用股票数据讨论了 DFT(基于正交变换), PAA(基于形态) 两种具有代表性的现代时间序列相似性分析方法,说明 其在预测和数据处理算法复杂度上的应用,同时对基于这两种思路的相似性研究的主要方法 做出综合比较,总结出好的相似性研究方法的共有特征;就算法的准确度,本文提出了基于 PLR 的算法改进。 关键词:时间序列;相似性;分段线性 1.引言 现代的时间序列分析技术主要是从距离、频域、序列变换、序列外形特征提取等几个方 面来对时间序列进行研究。目前,很多研究人员将时间序列相似性定义为高维空间中的距离, 如欧氏几何距离。由于离散傅立叶变换[1] (DFT, Discrete Fourier Transform )具有保持欧氏几 何距离不变的特点,因而只保留DFT 的头几个系数,就可以实现数据的高度压缩和快速比 较。但DFT 方法平滑了原序列中局部极大值和局部极小值,因而导致许多重要信息的丢失, 而且对非平稳序列也不适用。自从DFT 被Agrawal 最早应用于时序数据相似性搜索后,又 有其他一些论文相继提出了 DFT 的许多扩展和改进方法[6],但核心思想并没有什么变化。 Chan 等人提出Haar 小波变换方法,试图对DFT 方法进行改进,但类似的问题仍然存在。 Last 等人提出采用关键特征(如斜率和信噪比)表征原序列[9],Guralnik 等人采用一个字符 表来压缩序列,都得到了高压缩率,但对序列的描述能力有限,因而在其它许多领域都不适 [2] 用。Korn 等人提出的奇异值分解 (SVD)法是一种完全不同的方法,但其计算量相当大,而 且数据动态变化后需要重新计算。Keogh 等人先后又提出的分段累积近似法[3] (PAA, Piecewise Aggregate Approximatio ),分段线性分割(PLR, Piecewise Linear Representation ), 和适应性分段常数近似法(APCA, Adaptive Piecewise Constant Approximation )等分段方法, 以及Perng 等人提出的界标模型(Landmark Model )。与此同时,还有许多相应的其他时间 序列分析方法,这些表示方法或是以上各种方法思路的外延,或是从其他角度试图对时间序 列相似性分析进行研究,这些方法各有所长,为时间序列相似性研究提供了诸多可以借鉴与 参考的方向。本文对已有的现代时间序列相似性研究主要方法作了系统概述,并利用股票数 据分析了基于正交变换的算法与基于形态的算法的优缺点,同时对相似性方法作出了实例应 用,并且就分段线性表示算法的准确度,本文总结并提出了基于PLR 的改进算法。 2 .基于PLR 算法的改进 2.1 时间序列分段算法 [4] 所有分段算法都需要一种度量来判别如何进行分段计算 ,目前使用最广泛的是三种拟 合误差:(1)累计残差;(2)平均残差;(3)最大偏差。 设S 是长度为L 的时间序列 - 1 - S {y , y ,..., y } (2-1)

文档评论(0)

docindoc + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档