- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
时间序列相似性度量.doc
讨论一般时间序列相似的度量方式
1、概念:
时间序列的相似性度量是衡量两个时间序列的相似程度的方法。它是时间序列分类、聚类、异常发现等诸多数据挖掘问题的基础;也是时间序列挖掘的核心问题之一。
2、意义:
时间序列式进行序列查询、分类、预测的基本工作,寻求一种好的度量对提高挖掘任务的效率和准确性有着至关重要的意义。
3、影响因素:
两个序列是否相似,主要看它们的变化趋势是否一致。由于时间序列数据的复杂性特点,实际中不可能存在两条完全相同的时间序列,即使相似的时间序列往往也会呈现出各种各样的变化。所以,任何两个序列之间都存在着某种差异,影响这种差异的主要因素有:
噪声:现实的大多数时间序列数据都存在噪声,体现在图形上式指数据的曲线不光滑,即存在“毛刺”。
振幅平移:即两条形态相似的时间序列分别绕高低不同的均值波动。
振幅伸缩:即两条时间序列的变化趋势相同,但其中一条时间序列在纵轴上似乎被拉伸或者压缩过一样,即两个序列的振幅不同。
时间轴伸缩:是指两条时间序列的波形相似,但其中一条时间序列在时间轴上按比例伸缩。
线性漂移:是指两条时间序列的波动节奏相似,但其中一条时间序列呈现线性递增或递减趋势。
不连续性:是指两条时间序列整体的波动趋势相同,只是在别的时间点或段出现间断。
然而,在实际应用中情况要复杂得多,往往是以上多种因素交织在一起。时间序列的相似性并没有一个客观的定义,具有一定的个人偏好性,也就是说,不同的人或不同的应用场合对各种差异影响的重视程度是不一样的。给定两条时间序列
和,相似性度量的问题就是在各种各样差异因素的影响下,寻求一个合适的相似性度量函数,使得该函数能很好地反映时间序列数据的特点。
4、方法:目前时间序列相似性度量,最常用的有Minkowski距离和动态时间弯曲。
一、Minkowski距离
给定两条时间序列 它们之间的Minkowski距离如下:
Minkowski距离是一种距离度量,因为它满足距离的三个条件:
非负性:;
对称性:
三角不等式:
大多简单的相似性度量是Minkowski距离及其它的变种,Minkowski距离的优点是简单、直观且计算复杂度不高,与时间序列的长度成线性关系即序列长度的增加不会造成计算复杂程度的迅速提高。所以当训练集比较大时,Minkowski距离比其他更有效。但是Minkowski距离不支持时间序列的线性漂移和时间弯曲,且无法处理不等长的时间序列。
参考文献
王达;荣刚;时间序列的模式距离;浙江大学学报(工学版)2004;39(7);795-799
方开泰;潘恩培;聚类分析; 北京地质出版社; 1992;44-51
范明;孟晓峰.;数据挖掘概念与技术;北京机械工业出版社;2001
林珣;李志蜀周勇;时间序列模式的相似性研究;计算机科学;2011
原创力文档


文档评论(0)