网站大量收购闲置独家精品文档,联系QQ:2885784924

时间序列数据挖掘总结.docVIP

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
时间序列数据挖掘总结

时间序列数据挖掘总结   摘要:在综合分析近年来时间序列数据挖掘相关文献的基础上,讨论了时间序列数据挖掘的最新进展,对各种学术观点进行了比较归类,并预测了其发展趋势。内容涵盖了时间序列数据变换、相似性搜索、预测、分类、聚类、分割、可视化等方面,为研究者了解最新的时间序列数据挖掘研究动态、新技术及发展趋势提供了参考。   关键词:时间序列; 数据挖掘; 相似性搜索; 模式发现   中图分类号:TP311.13文献标志码:A   文章编号:1001-3695(2007)11-0015-04      数据挖掘是知识发现过程中的一个步骤。它主要是利用某些特定的知识发现算法,在一定的运算效率限制下,从数据中挖掘出有价值的知识[1]。原则上讲,数据挖掘可以应用于任何类型的信息源。这包括关系数据库、数据仓库、事务数据库、其他高级数据库系统、平面文件(flat files)和WWW上的数据[2]。在这些数据集之中,有一类数据集的数据之间存在着时间上的关系,这类数据被称为时间序列。在对时间序列进行数据挖掘的过程中,必须考虑数据集之中数据间存在的时间关系,这类数据挖掘称为时间序列数据挖掘(time series data mi ̄ning,TSDM)。Keogh[1]认为时间序列是普遍存在的,图像数据、文本数据、影像数据、手写体数据、脑扫描数据等都可看做是时间序列。研究如何有效地从这些复杂的海量时间序列中挖掘潜在的有用知识,具有重要的理论价值和现实意义。因此TSDM已成为数据挖掘研究的一个重要分支。      对时间序列进行聚类的算法有基于相似性(或距离)[35]、基于特征[36,37]、基于模型[38]和基于分割的聚类分析[7,39]。其中,在基于相似性的方法中,一种常用的距离度量是欧氏距离或者在此基础上的一些改进作为相似性测度。由于欧氏距离测度针对的是确定性向量空间,而时间序列的长度通常是变化的、对时间变化敏感,并且不能高效地表示为有限维空间的一个点。传统的聚类分析大多是基于向量的,它们不能很好地解决时间序列聚类问题。近年来对时间序列的聚类研究更多地使用基于模型的聚类分析,如基于HMM的时间序列聚类[40]。近年来,时间序列数据挖掘中的聚类技术发展很快,取得了很多研究成果。??   时间序列分类就是给定一个未知类别的时间序列,将其划分到某些预定义的类别之中。许多分类算法在时间序列中都有应用,如决策树、神经网络、贝叶斯分类器等。近年来用分类器融合对时间序列进行分类成为了一个热门研究方向。??   2.4时间序列数据可视化??   时间序列可视化挖掘是TSDM一个较新的研究领域,也是一个有广阔应用前景的研究领域。所谓时间序列数据可视化挖掘就是利用图形图像技术、虚拟现实技术以及数据挖掘技术,将复杂的时间序列以人们易于理解的、直观的和图形化的方式呈现出来。时间序列可视化是一个应用前景广阔的研究方向[41~44]。目前国外研究较多,也开发出了相应的可视化工具,如time series spirals、theme river、time searcher、vizTree、time series bitmaps等。国内这方面的研究成果较少。??   2.5时间序列分割与模式发现??   模式发现是TSDM的重要研究内容之一,并出现了大量的研究成果。针对不同的应用目的,人们试图从时间序列数据库中发现的模式也各不相同,如特定模式、频繁模式、周期模式、感兴趣模式、惊奇模式、异常模式、例外模式等。为了从一个时间序列中抽取模式,需要某种算法将一个长时间序列分割为若干个相对短的子序列,以便对这些子序列进行聚类/分类分析[45,46]、检测时间序列中的变化点[47]、对分割后的时间序列建立动态模型[48,49]。??   时间序列分割主要有两个应用:系统模型变化检测,即当产生时间序列的系统的模型(或参数)发生变化时,应用分割算法可以检测到这种变化是何时发生的;应用分割算法创建时间序列的高级数据表示,以便对时间序列进行索引、聚类和分类[1]。因此,研究时间序列分割算法具有重要的理论价值和现实意义,并已成为时间序列数据挖掘研究的主要研究内容之一。??   2.6时间序列预测??   时间序列预测一直是众多科学领域感兴趣的问题。由于研究对象的高度一致性,TSDM研究中关心的时间序列预测问题与时间序列分析理论中关心的时间序列预测问题在许多方面是相同的。时间序列预测根据时间序列型数据,由历史的和当前的数据推测未来的数据,也可以认为是以时间为关键属性的关联知识。时间序列预测技术大体可分为:??   a)传统的线性时间序列预测技术。1968年Box和Jenkins提出了一套比较完善的时间序列建模理论和分析方法。这些经典的数学方法通过建立随机模型,如自

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档