增量更新关联规则挖掘方法的研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
增量更新关联规则挖掘方法的研究 摘 要 当今社会是一个信息社会,信息瞬息万变。大量信息在给人们带来方便的同时也 带来了一大堆问题:第一是信息过量,难以消化;第二是信息真假难以辨认;第三是 信息安全难以保证;第四是信息形式不一致,难以统一处理。如何才能不被信息淹没, 而是从中发现有用的知识,提高信息利用率?面对这一挑战,数据挖掘技术应运而生。 关联规则是数据挖掘中一个很重要的分支,它能发现事物之间的关系,从而得到数据 内部潜在有价值的信息。随着时间的推移,数据库总是在不断的变化,于是如何高效 地从更新后的数据库中对已经推导出的关联规则进行更新成为人们探究的热点。 已有的成熟的增量更新关联规则挖掘方法大致可以分为两类:一类是基于Apriori 算法都有自身的缺点,前者的缺点是需要多次扫描数据库,很耗时间,后者的缺点是 需要多次生成条件FP树,很耗空间。本文在总结前人算法的优缺点的基础上,给出 了基于图的关联规则增量更新挖掘算法,算法充分考虑了挖掘需要,只需要扫描一次 数据库,并且减少了冗余候选集的生成,在提高空间使用率的同时又提高了挖掘效率。 本文所作的工作有: 首先,对已有的经典算法及其改进算法进行了深入的研究,包括Apriori算法、FP 树算法、FUP算法、DLG算法等,分析了这些算法的优缺点。对一些新颖的算法技术 进行了探讨和学习,如数值型数据集的处理问题、模糊约束概念等。 其次,给出了图的四叉链表存储结构,分析了该结构引入的优点,并且基于该结 构给出了完全频繁项集挖掘算法GIUl和最大频繁项集挖掘算法GIU2,给出了算法描 述和实例演示。 再次,鉴于图的优点,将图的结构拓展到模糊时态的数据集增量更新挖掘应用中, 给出了模糊时态增量更新完全频繁项集的挖掘算法FuzzyGIU,分析了图在模糊时态环 境下使用的合理性和有效性,并对算法进行了描述和实例演示。 最后,对这些算法进行了仿真实验,并与相关的已有算法进行了性能对比。结果 表明了本文给出的基于图存储结构的几个算法在数据集规模和最小支持度各自变化时 的挖掘效率表现都比已有算法好,从而验证了这些算法的有效性。 关键词:关联规则;频繁:顷集;时态约束;模糊理论;图 Abstract is rapidly.when informati。nchanging s。ciety,the is舭infc.rmati。n s。ciety Today,s is first also manyproblems:The to brings c01weniencespeopie,it information huge brings isthatitis to second difficult itis digest;the that isSOexc;essive theinf-o衄ation that

文档评论(0)

liybai + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档