时间序列数据挖掘综述.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
时间序列数据挖掘综述 摘要 作为一种新的数据分析工具,数据挖掘的发展十分迅速。各种类型的数据都可以作为数据挖掘的对象。时间序列在数据集中十分普遍。对时间序列进行数据挖掘已成为当前研究的焦点之一。 当前对时间序列数据挖掘的研究大部分集中在相似性研究方面,针对模式发现和规则发现的研究内容比较少。而且,这些研究很少考虑时间序列自身的复杂性。另外,对于时间序列数据挖掘过程中不确定性的处理尚待探讨。 本文详细的介绍了时间序列的挖掘语应用。 关键词:数据分析;数据挖掘;时间序列;相似性研究;模式发现 引言   时间序列是指按时间顺序排列的一组数据,是一类重要的复杂数据对象。作为数据库中的一种数据形式,它广泛存在于各种大型的商业、医学、工程和社会科学等数据库中,如股票价格、各种汇率、销售数量、产品的生产能力、天气数据等。大量时间序列数据真实地记录了系统在各个时刻的所有重要信息,若能改进某种高效的数据处理方法,发现其中各时间序列之间的相互关系,必将大大提高人们对这类系统的认识和理解,进而进行有效的预测控制。   时间序列数据挖掘(Time Series Data Mining,TSDM) 就是要从大量的时间序列数据中提取人们事先不知道的、与时间属性相关的有用信息和知识,用于指导人们的社会、经济、军事和生活等活动。时间序列挖掘对人类社会、科技和经济的发展具有重大意义,正逐渐成为数据挖掘的研究热点之一。   本文内容组织如下:在第一部分中,简要地分析和比较了时间序列分析和数据挖掘中对时间序列数据处理方法的异同;第二部分讨论了时间序列数据挖掘的建模过程,接着在第三部分简单介绍了时间序列数据的预处理;第四部分介绍了时间序列数据挖掘的方法,包括相似性检索和时间序列分割等。第五部分叙述了时间序列挖掘系统的组成,最后进行了总结。一、从时间序列分析到时间序列挖掘   时间序列分析是统计学研究的一个重要分支,它直接以事物在不同时刻的状态所形成的数据为研究对象,通过对时间序列数据的特征进行分析和研究,揭示事物的发展变化规律。经典的时间序列分析方法有图表法、指标法和模型法,其中模型法是目前对时间序列进行深层次分析和刻画的主要方法,一些经典的时间序列分析模型如AR、MA、ARMA、ARCH 和GARCH 等已被广泛应用于自然和社会科学领域。美国经济学家罗伯特·恩格尔和克莱夫·格兰杰因在时间序列分析方面的主要理论贡献———协整理论和自回归条件异方差(ARCH) 模型,荣获2003 年度诺贝尔经济学奖。   人们为了从汪洋大海般的数据中将许多隐藏的有决策意义的信息挖掘出来,于1989 年提出了数据挖掘(Data Mining) 的概念。它是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但是又潜在有用的信息和知识的过程。时间序列数据是一类常见而重要的数据,对其挖掘分析研究引起了国内外很多学者的兴趣和注意,目前已成为数据挖掘研究的一个重要分支和研究热点,其成果已应用于金融、生物医学、天文、气象等领域。   时间序列的模型分析法和挖掘方法有很多共性和联系。主要体现在:都认为时间序列蕴含着系统的历史行为和特征信息;都要从数据中找出规律和特征,进而对客观事物进行描述或预测;采用一些共同的方法:统计理论和方法。   然而,由于经典模型分析法和挖掘方法所基于的方法和思路明显不同,因而二者所找出的规律形式以及效果也就存在很大差异。   模型法中理论模型的建立是在数学理论和假设基础上通过演绎推理的方法建立起来的。实际模型的参数求解都基于坚实的数学基础,因此只要假设合理,所得出的结论肯定是合理的。模型法中模型的形式通常是一个或一组数学方程,不但表达简洁,而且可解释性、可理解性也都很好,为进一步地处理、推导和应用提供了极大的方便。但是,如果所提出的假设不合理,那么模型法将会严重失真。模型的构建也存在困难,如果对系统认识不够和不具备良好的建模技巧,是很难构建出一个好的模型的。另外,模型法反映的是序列的总体上的特征,对序列中隐含的一些局部、细节的特征是很难表现出来的。   而在时间序列挖掘中,“规则”之所以被发现是因为有足够多的数据支持。因此时间序列的挖掘方法具有广泛的“经验”基础,但缺乏严格的理论基础。同时由于各种干扰因素的影响,数据中会存在一些“假”规则,因此发现的“规则”一般需要进行验证。由于挖掘方法基于归纳的思想,直接由数据驱动,因而它常常可以撇开一些假设条件,如不需正态假设、平稳假设、线性假设等。最后,如何表达挖掘出来的知识也是需要考虑的。目前主要的表达方法有If-Then规则、决策树、贝叶斯网络以及神经网络等。除了If-Then规则之外,其它表达方法的可理解性都较差。由于挖掘方法是基于数据的,因此它对数据样本的数量和质量要求也比较高。否则

文档评论(0)

1205372525 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档