时间序列数据预处理维度简约文献研究.docVIP

下载本文档

28
0
约2.97千字
约 6页
2018-06-23 发布于福建
举报
版权申诉

时间序列数据预处理维度简约文献研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

时间序列数据预处理维度简约文献研究

时间序列数据预处理维度简约文献研究　　【摘要】时间序列数据是现实数据库中最重要的数据类型之一，由于其具有数据量大、维度高和连续更新的特点，直接对时间序列数据进行数据挖掘非常困难，必须在数据预处理阶段对原时间序列进行维度简约，提高数据挖掘可操作性。文章对现有时间序列维度简约技术进行了汇总比较，为研究者进一步探索和挖掘时间序列数据提供参考。　　【关键词】时间序列数据挖掘维度简约　　【中图分类号】TP311.13【文献标识码】A【文章编号】1672-5158（2013）02-0067-01 　　现实中大量数据都是按时间顺序保存在数据库中，如金融市场的股票数据，数据量之大致使传统的时间序列分析效果甚微，大量包含有用信息的历史数据只能束之高阁。近几十年来，数据挖掘技术迅速发展，数据分析逐渐从单纯的统计分析向和计算机技术紧密联系的数据挖掘方向发展。数据挖掘通过各种算法让计算机在人的控制下探索海量数据，发现其中人所感兴趣的信息。时间序列数据是数据挖掘的重要方面，直接对原始进行数据处理是无法发现有用信息，一种可行的办法就是对原始数据进行特征提取，这一方面降低了数据维度，另一方面也消除了噪音。本文将着重介绍各种时间序列数据挖掘特征提取技术。　　时间序列维度简约中最简单的方法可能是采样。然而，如果采样率很低，采样方法的缺点是扭曲了被采样时间序列的形状。一个提高的方法是使用每个分割的平均值带便相应的数据点集合。这种方法也称为分段聚集近似。Keogh提出一个扩展版本自适应分段常数近似，每个分割的长度不是固定的，而是是适用于序列的现状。Lee提出使用分割的总变异（SSV）表示时间序列的每个分割。　　使用直线近似时间序列是一种重要方法，主要分为两类：线性插值和线性回归。第一类是线性插值。一个普遍的方法是使用分段线性表示PLR。PLR是一种自底向上的算法，此方法往往连接连续分割的末端，用衔接的直线来分段近似。反复合并代价最低的分割对，直到达到需要的分割数量。Ge把PLR扩展到分层结构。Keogh和Pazzani通过考虑分割的权重和来自使用者的信息反馈完善了PLR。第二种方法是线性回归，使用最优拟合直线代表子序列。　　此外，保留显著点降低维度一种有效的方法。这些点称为感知重要点PIP。Chung首先引入了PIP识别过程，并适用于金融应用的技术模式的模式匹配。时间序列P有n个数据点， P中所有数据点在整个PIP识别过程中按其重要性排序，再按顺序识别，这种PIP定位过程直到达到要求的PIP数量。　　这一思想和30年前Douglas and Peucker减少要求的数据点来代表直线的技术相似，他使用了路标模型识别时间序列中的重要点。Man和Wang提出晶格结构来表示时间序列中的识别的顶点和谷点。Pratt、Fink和Finketal定义了时间序列中如极大极小的极值，通过选择仅仅每个重要的极值点丢弃其他点压缩时间序列。这一算法也能处理新来的数据点，他根据时间序列分割的局部信息识别重要点，不需要储存原先的序列。目前，金融数据分析提出了关键点模型和基于关键点序列的高度表示方法。关键点表示时间序列适用于于奇异值识别。　　另一类普遍的时间序列表示方法是把数值时间序列转化为符号形式。首先把时间序列离散化为分割片段，然后把每个分割转换为一个符号。Lin提出一种称为符号聚集近似的方法SAX，把PAA的结果转换为符号串。Jonsson 和Badal使用“形状描述字符SDA”。Qu采用梯度字母如向上、平坦和向下作为符号。Huang 和yu提出使用相邻数据点的变化量来把时间序列转换为符号串。　　Megalooikonomou提出使用来自关键序列的码本的码字来表示每个划分。Megalooikononou考虑多路解决扩展了这一方法。Morchen和Ultsch提出了基于质量得分和持续状态的无监督离散处理。这一算法不是像很多其他方法忽略数据的时态顺序，而是包括了时态信息。　　此外，子序列聚类是一种产生符号的普遍方法。Li提出是基于时间序列的符号形式多抽象层挖掘方法MALM。　　目前为止介绍的大部分方法是在时间域内直接表示时间序列。在另一个域内表示时间序列是另一大类方法。一个流行的时间序列转换技术是傅里叶转换DFT，它首先由Agrawal在这一领域使用。Rafiei 和Mendelzon使用DFT开发了基于相似性查询。Janacek提出使用似然比统计量检验序列间不同的假设，而不是使用转换域的欧几里得距离。目前研究使用小波转换来表示时间序列。离散的小波转换DWT已认为是替代DFT的有效方法，哈尔变换最为流行。哈尔变换是一系列对时间序列的平均和差分操作。Shahabi提出多层次小波转换表示。Popivanov 和Miller表明大部分小波转换的