一种新地时间序列数据挖掘方法研究.pdf

  1. 1、本文档共47页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
已经做了很多重要的工作,而离散时间序列(如交易序列数据和时间 立方数据)方面的工作甚为少见。 1.4时态数据挖掘中需考虑的几个重要问题 在时态知识发现的研究中,为适应时态语义的特殊性,除了应考虑普通数 据发掘要解决的问题外,还应考虑以下几个重要问题。 1)时态关系的表示逻辑。为了对时间进行推理,必然需要描述时态实体 之间关系的某种方法。Allen在文中11l提出了~种表示时间区间之间关 系的分类方法。Freksa对其作了推广,提出了基于半区间的关系分类 方法,所谓半区间是指仅已知~个终点的区间Ⅲ。这一弱化使得在根 据不完备知识进行推理方面有了较大的灵活性。另外,近邻函数的采 用有利于进行不精确的知识推理。度量时态实体的标记不必是绝对的 日历时间,时间实体可以相对于另--0寸间实体进行描述,而不用任何 外部的参照点或度量标准。 21多种时间模型。在各种情况下,时间可能是连续的、周期的和非线性 的,每一种都要求有不同的处理方法来进行知识发现。大多数系统对 于特别应用相关的特殊时间模型都有相应的有效解决方法。但目前还 没有通用的工具或方法。可以想象,通过对该问题的进一步深入研究, 很有可能产生能够处理更复杂时间语义的新方法和新工具。 31时间的接近性。某事件或时间区间也许确实出现在另~事件或时间之 前,但这种关系的重要性却似应取决于两者之间在时间上的是否接近, 太远了一般是没有意义的。例如,文革动乱确实发生在1997年利率 下调之前,但将这两者关联在一起实在毫无意义,然而,将前两年事 件如低通货膨胀率与之相关联却可能是有意义的。因此,事件或时间 区间之间的关联只有当它们的发生时间比较接近时才可能有意义。不 过,有的类型关联在相关联的事件或时间区间之间要求有较长的时间 间隔或延时。确实,某一事件的结果可能必须等相当长的时间才会发 生,这一事实使该问题更加复杂化了。幸运的是,在数据库中发现时 态知识有一定的方便之处,如模式的各成分有一定的顺序,并且常常 .勺 time warping)技术来进行模式与数据的匹配f“。该技术是沿时间轴对模式 进行伸缩变换,以使模式与数据匹配。此时,模式中各成分在时间上 的连续性就变得比其发生的实际时间还要重要。该技术可能会为模式 搜索中的时间接近性问题提供了一种通用的方法,因为模式中各成分/ 特性的顺序是已知的,即使其具体发生的时间未知。当搜索算法对其 所搜索模式相关的时间标度有严格的定义时,模式中事件间的事件接 近的程度就会是固定的。例如,Wadt在文㈩中提出了探测处方药品误 用的自动方法,该方法有多条规则用与探测存在于病员情况于处方药 品之间的时态关系。药品误用模式是领域专家特别定义的,时间实体 之间可接受的时间上的接近程度是固定的。 41时间区间的推广。数据推广是许多数据发掘技术的核心。很多现有技 术都是利用推广作为发现描述数据的高层概念的途径,典型的如Hart 教授提出的面向属性的归约方法【51。也有的系统不仅依靠推广,而且 还利用多层抽象概念级来进行知识发现161。对点值的推广一般可借助 于概念层次。连续的和离散的属性都可如此推广。对非标量数据类型, 概念层次关系通常可根据领域知识加以构造;丽标量数据则可以自动 推广,方法是将近邻的值和范围归并为较高层的概念。然而,对于基 于点的数据不~样,时间区间是由两个终点构成的,因而不是那么容 易推广。孤立地推广两个终点,而不考虑区间本身,显然不等于实际 地时间区间推广。该问题应该认真研究。 1.5时间序列数据挖掘的进展 在古代中国和巴比伦,人们就已经能从天文观测所得到的时间序列中寻找

文档评论(0)

5566www + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6122115144000002

1亿VIP精品文档

相关文档