数据流容错挖掘法研究.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据流容错挖掘法研究

数据流容错挖掘算法研究 iii皇置置i萱iiiii葺■—iiiiiiiiiii宣萱i暑皇iiiiiitii — it titiiiiiiiiiii 摘 要 容错数据挖掘最早是由C.Yang等人在2001年提出的,其基本思想是通过引入松弛 条件、允许挖掘合理范围内的错配、放松模式间的包含关系来挖掘真实世界数据集中有 效的泛化知识,因其广泛而实际的应用前景引起了众多学者的极大重视。随着数据流应 用的不断增多,研究数据流环境下的容错挖掘算法受到了越来越多的关注,传统基于严 格匹配的数据挖掘技术难以实现对数据流环境下的容错模式进行有效挖掘,在这种背景 下有必要研究高效的数据流容错挖掘技术。目前关于容错数据挖掘的相关研究主要集中 在容错频繁模式挖掘和容错概要数据结构构造技术两个方向。研究数据流环境下容错挖 掘算法的主要挑战之一是来源于规模巨大的容错搜索空间和数据流环境下对挖掘算法 复杂性的严格要求之间的矛盾,构造单次扫描、高压缩的容错概要数据结构和增量的挖 掘算法是有效的解决方法。本文将容错概要数据结构构造技术作为研究工作的重点,在 此基础上实现数据流环境下的容错挖掘算法,并且对相关的挖掘技术行了系统地探索。 文章主要研究内容如下: 构造容错前缀树形概要数据结构DSFT.仃ee来获得含有错配的频繁项集,通过定义 容错界限来限定容错程度,进而实现可控容错。利用位向量表达方法和结点指针技术提 高容错概要数据结构的构造效率。为了避免当新的数据到达时树形概要结构的结点发生 频繁的分割、合并和交换计算,利用分支重构技术以路径为最小计算单位提高DSFT-tree 的重构效率。实验结果表明DSFT-tree算法能够对具有容错特性的频繁项集进行高效压 缩,并且算法效率满足数据流环境下对概要数据结构的时间复杂度和空间复杂度的要 求。 扩展定义容错Top.K频繁项集的概念并给出了相关性质,实现了数据流环境下的 Top.-K容错频繁模式挖掘算法,并对算法的复杂性进行分析。扩展定义了容错负关联规 则并证明了容错正、负关联规则之间的相关性,利用相关关系进行冗余模式消解,快速 剔除容错频繁模式挖掘过程中产生的无效短模式、冗余模式和重复表达,提高容错挖掘 的有效性。提出容错搜索空间边界函数的形式,采用该方法有效缩小容错所搜空间规模。 相关研究已经证明,通过有限次惰性提升可以构造现有的所有小波函数,利用提升 小波的这一优势可以根据原始数据流的特性或应用背景需要有针对性的构造概要数据 结构,使之能够更好地实现对原始数据流的压缩表达。提出基于相似性度量和提升小波 技术的通用层次容错小波概要数据结构构造算法HLSFTS,当容错等级为零时可以实现 对原始数据流的无容错表达。仿真实验分析表明本文提出的HLSFTS算法具有容错程度 哈尔滨工程大学博士学位论文 可控、单次扫描和压缩率高等特点,是有效地小波概要数据结构构造方法。 构和基于网格密度的聚类算法进行数据流二层容错聚类。利用数据流二层框架的灵活扩 展性,采用HLSFTS概要数据结构实现在线过程。基于网格密度的聚类算法能够聚类任 意形状的数据,但当数据量较大的时候,因将原始数据映射到网格的过程中需要处理的 数据较多而造成算法效率下降,利用HLSFTS概要数据结构的高压缩特性与基于网格密 度的聚类算法互补使得这一思路具有独特的优越性,只输出很少的小波系数,提高网格 密度的聚类算法的效率。 关键词:数据挖掘;容错前缀树;容错小波概要数据结构;容错Top.K;容错聚类 数据流容错挖掘算法研究 Abstract Fault-tolerantdata wasfirst in2001 basicideaisthe mining proposedbyC.Yang.The introductionofrelaxedconditionstoallow withinareasonablemismatchand lniIling relaxed theinclusionrelationsof tofocuseon

文档评论(0)

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档