时间序列数据挖掘关键问题分析.docVIP

下载本文档

1
0
约3.28千字
约 7页
2017-06-28 发布于福建
举报
版权申诉

时间序列数据挖掘关键问题分析.doc

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

时间序列数据挖掘关键问题分析

时间序列数据挖掘关键问题分析　　[摘要]时间序列作为当前人们生产和生活中常见的一类数据形式，被广泛应用于经济管理和工程设计等领域中。由于其本身所具备的动态性、繁杂性和高维性以及大规模的特征，所以如果直接对其进行数据挖掘，则不仅会花费高昂的价格来储存和计算相关数据，而且会影响算法的可靠性和准确性。本文以时间序列数据挖掘为研究对象，就其在实际应用中的几个关键问题进行了探究 [关键词]数据挖掘；时间序列；数据库 [DOI]10.13939/j.cnki.zgsc.2016.03.038 在数据库技术迅猛发展和数据库管理系统日臻完善的今天，数据库的规模与日俱增，数量不断增多，并且这些激增的数据中包含着非常重要的信息，所以传统的数据库存储和查询方法已经无法满足人们对数据中隐含知识的渴求。而时间序列数据挖掘技术则可以有效地解决上述问题，并且可以在确保数据挖掘可靠性和准确性的基础上大大降低运行成本。因此，对于时间序列数据挖掘在实践应用中的关键问题进行分析和探究具有非常重要的意义 1 时间序列数据挖掘概述 1.1 时间序列数据挖掘的含义通常而言，各个数据单元均可以由一个数据变量和时间变量所组成的二元组来加以表示，比如股票价格和商品的销售金额等，所以可以将这些数据按照时间的顺序加以排列，这样就构成了所谓的时间序列数据库。在这些时间序列数据中包含着许多未知的有用信息，具有很高的挖掘价值。而时间序列数据挖掘就是从这些大型的时间序列数据库中找到人们所需要的各种有用数据 1.2 时间序列数据挖掘的内容在对当前国内外就时间序列数据挖掘方面的研究进行分析，可以将其归纳为时间序列数据变换、时间序列数据可视化、时间序列数据库相似搜索、时间序列聚类分类分析、时间序列预测以及时间序列分割与模式发现等几个主要的组成部分。其中的时间序列数据变换实际上就是将原始状态下所对应的时间序列在某个特征空间下的映像时间序列来对最初的原始时间序列进行描述，其可以有效地减少计算所花费的成本，并且实际的数据压缩率更高；时间序列数据可视化则是将那些繁杂的时间序列在数据挖掘技术、虚拟现实技术以及图形图像技术等先进技术的应用下而变得直观化、形象化，以便于人们更好地理解；时间序列聚类和分类分析则是根据时间粒度和模式长度的不同而将待处理的序列数据进行适当的分割和聚类处理，以便于更好地进行分析；时间序列数据库相似搜索则是遵循相应的搜索算法来对于那些相似性时间序列数据库进行搜索，以避免出现漏报问题；时间序列分割与模式发现主要用于时间序列的分割算法应用中以及系统模型变化的检测中，其已经成为当前我国在时间序列数据挖掘研究中的重要课题，具有很高的研究价值 2 时间序列数据挖掘中若干关键问题的分析 2.1 传统时间序列数据挖掘的过程和分类分析首先，从数据挖掘的过程来讲，传统时间序列数据挖掘过程可以主要分成以下几个步骤：数据准备、数据挖掘、结果分析和知识同化。其次，从数据挖掘的分类来讲，时间序列数据挖掘的主要任务就是从庞大的数据库中找寻到用户所需的数据。根据数据挖掘作用模式的不同，可以将其分成分类模式、偏差分析和序列模式等预测性模式和关联模式、聚类模式等描述型模式，并且描述型模式一般不能直接应用于预测。而就具体的时间序列数据挖掘的分类而言，其主要包括分类模式、关联规则、聚类模式偏差分析、序列模式和回归模式等几个部分，下面就这几个部分的主要内容进行详细的阐述第一，序列模式。序列模式是数据挖掘中一个非常重要的研究课题，其已经广泛应用于各行各业中，比如疾病诊断、DNA序列分析、自然灾害预测、Web访问模式的预测等，并且该种模式与管理规则之间比较类似，其也是重点把握数据间的联系。但是为了发现序列模式，相关人员必须要确定事件有无发生以及事件发生的时间。比如，在购买彩色电视的人群中，有50%的人群会选择在半年内购买影碟机第二，关联规则。关联规则又被称为管理模式，其实际上就是形如X→Y的逻辑关系式，并且其中的X和Y分别代表数据库中属性取值的判断。在当前的管理规则算法中，常用的关联规则算法策略是将其分解成两个主要的子任务，即频繁项集的产生和规则的产生第三，分类模式。分类的概念实际上就是在已有训练集或者数据集的基础上来构造一个分类模型或者分类函数，并将其应用于实际的数据预测中来确保数据的挖掘的质量第四，回归模式。与分类模式类似，回归模式的函数定义也是借助相应的数学集合模型来表示，但是其预测值是连续的，这点与分类模式预测值的离散性是相互区别的第五，偏差分析。在时间序列数据库中不可避免地会出现一些异常的记录，找出这些异常记录在确保数据挖掘质量方面具有重要的意义。偏差包含许多潜在的知识，比如分类中不规则的特例、反常实例或者偏差预测值过大