- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
时间序列相似性研究.pdf
时间序列相似性研究
张璐
辽宁工程技术大学理学院,辽宁阜新(123000 )
E-mail:zhanglu85517@
摘 要:时间序列作为一种数据形式,广泛存在于各种商业、医学、工程、自然科学和社会
科学等数据库中。本文通过对时间序列数据挖掘的概述,引出时间序列相似分析研究方法,
同时在各种相似性定义研究的基础上,说明了欧氏几何距离作为时间序列相似性度量标准的
不足之处,总结出了一种较为统一的时间序列相似性概念体系;并利用股票数据讨论了
DFT(基于正交变换), PAA(基于形态) 两种具有代表性的现代时间序列相似性分析方法,说明
其在预测和数据处理算法复杂度上的应用,同时对基于这两种思路的相似性研究的主要方法
做出综合比较,总结出好的相似性研究方法的共有特征;就算法的准确度,本文提出了基于
PLR 的算法改进。
关键词:时间序列;相似性;分段线性
1.引言
现代的时间序列分析技术主要是从距离、频域、序列变换、序列外形特征提取等几个方
面来对时间序列进行研究。目前,很多研究人员将时间序列相似性定义为高维空间中的距离,
如欧氏几何距离。由于离散傅立叶变换[1] (DFT, Discrete Fourier Transform )具有保持欧氏几
何距离不变的特点,因而只保留DFT 的头几个系数,就可以实现数据的高度压缩和快速比
较。但DFT 方法平滑了原序列中局部极大值和局部极小值,因而导致许多重要信息的丢失,
而且对非平稳序列也不适用。自从DFT 被Agrawal 最早应用于时序数据相似性搜索后,又
有其他一些论文相继提出了 DFT 的许多扩展和改进方法[6],但核心思想并没有什么变化。
Chan 等人提出Haar 小波变换方法,试图对DFT 方法进行改进,但类似的问题仍然存在。
Last 等人提出采用关键特征(如斜率和信噪比)表征原序列[9],Guralnik 等人采用一个字符
表来压缩序列,都得到了高压缩率,但对序列的描述能力有限,因而在其它许多领域都不适
[2]
用。Korn 等人提出的奇异值分解 (SVD)法是一种完全不同的方法,但其计算量相当大,而
且数据动态变化后需要重新计算。Keogh 等人先后又提出的分段累积近似法[3] (PAA,
Piecewise Aggregate Approximatio ),分段线性分割(PLR, Piecewise Linear Representation ),
和适应性分段常数近似法(APCA, Adaptive Piecewise Constant Approximation )等分段方法,
以及Perng 等人提出的界标模型(Landmark Model )。与此同时,还有许多相应的其他时间
序列分析方法,这些表示方法或是以上各种方法思路的外延,或是从其他角度试图对时间序
列相似性分析进行研究,这些方法各有所长,为时间序列相似性研究提供了诸多可以借鉴与
参考的方向。本文对已有的现代时间序列相似性研究主要方法作了系统概述,并利用股票数
据分析了基于正交变换的算法与基于形态的算法的优缺点,同时对相似性方法作出了实例应
用,并且就分段线性表示算法的准确度,本文总结并提出了基于PLR 的改进算法。
2 .基于PLR 算法的改进
2.1 时间序列分段算法
[4]
所有分段算法都需要一种度量来判别如何进行分段计算 ,目前使用最广泛的是三种拟
合误差:(1)累计残差;(2)平均残差;(3)最大偏差。
设S 是长度为L 的时间序列
- 1 -
S {y , y ,..., y } (2-1)
文档评论(0)