多变量时间序列的预处理和聚类研讨.pdf

  1. 1、本文档共63页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
多变量时间序列的预处理和聚类研讨

摘要 摘要 多变量时间序列是时间序列的一个重要部分,而大部分有关于时间序列数据挖 掘的研究都是面对单变量时间序列。多变量时间序列不仅描述了各个变量的变化规 律,而且还揭示了各变量问的相互依存关系,因此,那些处理单变量时间序列的方 法和技术无法照搬到多变量时间序列的研究中去。本文围绕多变量时间序列的预处 理与聚类这两个主题,进行了研究现状分析,并提出了具有针对性的改进方法。 预处理是多变量时间序列数据挖掘的重要课题,而插值是预处理的一种重要技 术。本文将保形三次样条插值引进时间序列的插值,提出了双重插值模型。此模型 插值的优点,不需要序列上各点的导数信息便可以形成序列轨迹,容易将模型推广 到高维空间,弥补了数据库中数据点太稀疏的缺陷。以移动对象时间序列为例,双 重插值模型取得较好的实验效果,插值精度比分段线性插值、非结点样条插值和保 形三次Hermite插值更高。 多变量时间序列的变量属性可能是混合属性,即,包括数值属性和分类属性等。 针对混合属性的多变量时间序列,首先基于奇异值分解提出了一种加权矩阵覆盖的 方法,直观地判断对象间的邻居关系:然后以对象间的共同邻居数量作为多变量时 间序列相似性的新度量标准,共同邻居越多越相似;最后提出了改进的层次聚类算 法对多变量时间序列进行聚类,每一层上同时合并满足条件的若干对节点,这样减 少了噪音对聚类过程的干扰,具有较好的鲁棒性:实验结果表明,这种方法在混合 多变量时间序列的数据集上具有良好的效果,此外,在数值多变量时间序列的数据 上,实验效果比基于动态时间弯曲距离∞T帅的标准层次聚类算法更好。 多变量时间序列数据预处理是聚类研究的前提,数据插值可以填补空缺值、增 加点密度和平衡序列刻度等,从而提高聚类分析的准确率。在移动对象和机器人仿 真领域的实验结果表明,本研究具有较高的实际应用价值和良好的应用前景。 关键词:多变量时间序列,预处理,保形三次Hermite插值,双重插值模型,混合 属性 中文文摘 中文文摘 时间序列是一类重要的复杂数据,普遍存在于社会的各个领域,如生物医学、 气象预报、网络入侵检测和移动对象模拟等。如何对这些时间序列数据进行有效的 分析,揭示隐藏在其背后的信息,帮助人们正确认识事物并据此做出科学的决策, 已经引起了数据挖掘领域的广泛关注。时间序列按照变量(属性)的数目可分为单 变量时间序列和多变量时间序列,但是目前大部分有关于时间序列数据挖掘的文献 都是面对单变量时间序列,并在这方面形成了一套较为完整的理论体系,而对多变 量时间序列的研究工作还很少。多变量时间序列不仅描述了各个变量的变化规律, 而且还揭示了各变量间相互依存关系的动态规律性,因此,那些处理单变量时间序 列的方法和技术无法照搬到多变量时间序列的研究中去。 多变量时间序列的预处理是时间序列数据挖掘的重要课题,而插值是预处理的 一种重要技术。本文围绕多变量时间序列预处理的插值技术与聚类这两个主题,进 行了研究现状分析,并提出了具有针对性的改进方法,具体内容及贡献概括如下: (1)第一章说明本文的研究背景及意义,探讨数据挖掘的一般过程和主要技术, 着重分析了分类预测、聚类分析和关联规则三种方法;介绍本文的主要工作,以及 论文的结构安排。 (2)第二章对时间序列的理论体系进行较为全面的概述,描述时间序列的概念, 从统计学和数据挖掘两个角度对时间序列分类,并阐述了时间序列数据挖掘的目的; 介绍时间时间序列数据挖掘的主要课题,简单探讨它们的技术分类和适用范围,总 结了这些方面的研究现状和发展前景。 (3)第三章说明了多变量时间序列数据预处理过程中插值的意义,介绍一些常 用的插值技术,且对它们的优缺点进行分析和比较;将保形三次Hermite插值引入 时间序列的插值,并在此基础上提出了双重插值模型。双重插值模型两次使用保形 三次Hermite插值技术对时间序列进行插值,继承了保形三次Hermite插值的优点, 不需要导数信息便可以形成序列轨迹,容易将模型推广到高维空间。以移动对象时 间序列为例,将双重插值模型和其它插值技术(分段线性插值、非结点样条插值和 保形三次Hermite插值)进行比较,实验结果表明双重插值模型的插值精度较高。 (4)第四章介绍了数值多变量时间序列的一些相

文档评论(0)

yxutcangfp + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档