基于SAX的时间序列相似性度量方法.doc

下载文档 降价啦

128
0
约1.25万字
约 4页
2017-12-31 发布于江西
举报
版权申诉
保障服务

基于SAX的时间序列相似性度量方法.doc

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于SAX的时间序列相似性度量方法

的时间序列相似性度量方法* 基于 SAX 李桂玲1a，2 ，王元珍2 ，杨林权1b ，吴湘宁1a ( 1．中国地质大学 a．计算机学院; b．信息工程学院，武汉 430074; 2．华中科技大学计算机科学与技术学院，武汉 430074) 摘要: 符号化表示是一种有效的时间序列降维技术，其相似性度量是诸多挖掘任务的基础。基于 SAX( sym- bolic aggregate approximation) 的距离 MINDIST_PAA_iSAX 不满足对称性，在时间序列挖掘中具有局限性，提出了对称的度量 Sym_PAA_SAX，且下界于欧拉距离。在真实数据集和合成数据集上的实验说明下界紧密性较好，相似搜索错报率较低。关键词: 时间序列; 降维; 相似性度量; 下界 A 中图分类号: 文献标志码: 文章编号: 1001-3695( 2012) 03-0893-04 TP311 doi: 10． 3969 / j． issn． 1001-3695． 2012． 03． 025 Research on similarity measure for time series based on SAX LI Gui-ling1a，2 ，WANG Yuan-zhen2 ，YANG Lin-quan1b ，WU Xiang-ning1a ( 1． a． School of Computer Science，b． School of Information Engineering，China University of Geosciences，Wuhan 430074，China; 2． School of Computer Science ＆ Technology，Huazhong University of Science ＆ Technology，Wuhan 430074，China) Abstract: Symbolic approximation is an effective dimensionality reduction technique for time series，its similarity measure is a basis for various mining tasks． MINDIST _ PAA _ iSAX is a distance function based on symbolic aggregate approximation ( SAX) ，but it does not satisfy symmetry，so it has limitation in mining time series． This paper put forward and proved a sym- metric distance measure Sym_PAA_SAX to be lower bounding to Euclidean distance． Experiments on real and synthetic data sets show its better tightness of lower bounding and lower false positives rate in similarity search． Key words: time series; dimensionality reduction; similarity measure; lower bounding 序列作降维处理，进行近似表示。代表性的时间序列的近似表 0 引言示有分段聚集近似( piecewise aggregate approximation，PAA) ［3］、分段线性近似( piecewise linear approximation，PLA) ［4］、符号聚时间序列是指随着时间的先后顺序而变化的一系列数据，是一类多维的复杂类型数据，目前广泛地存在于金融、科学、工程、医疗等领域。例如某股票某段时间内的开盘价和收盘价的走势、就医者的心电图数据、网络监控中的网络流量、自然现象观测中的大气、温度、风、地震等数据，均是时间序列。近年来，时间序列数据的挖掘吸引了越来越多研究者的关注，相似性度量是其中的一个重要子问题。所谓相似性度量是指如何衡量时间序列之间的相似性和相似程度，合理的相似性度量是相似搜索、聚类、分类、异常检测、主题发现等诸多挖掘任务的基础。对于原始时间序列，经典的相似性度量有欧拉距离( Eu- clidean distance，ED) ［1］和动态时间弯曲( dynamic time warping， DTW) ［2］两种。