基于散列技术的高效剪枝关联规则挖掘算法.pdfVIP

基于散列技术的高效剪枝关联规则挖掘算法.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于散列技术的高效剪枝关联规则挖掘算法.pdf

第33卷第5期 南昌大学学报 (理科版) Vol|33No.5 2009年 1O月 JournalofNanchangUniversity(NaturalScience) 0ct.2009 文章编号:1006一o464(2009)05—0494—05 基于散列技术的高效剪枝关联规则挖掘算法 彭永供 ,王靓明,朱 敏 ,段隆振 (南昌大学信息工程学院,江西 南昌 330031) 摘 要:该算法结合项集的有序特性有效压缩了频繁项集的数量 ,提高了算法效率,但是频繁2—项集的产生仍需要 占用大量的存储空间,本文利用散列函数对候选频繁2一项集进行剪枝 ,这样频繁集的数 目大大减少,不仅节省 了存 储空间、减少了计算开销 ,而且又保持了频繁项集的完整性。 关键词:关联规则 ;Apriori性质;散列函数;项集有序;频繁项集 中图分类号:TP311.12 文献标识码 :A 文献…提出了Apriori算法,该算法是挖掘布尔 (X2)(2) +… +order(Xk)(2)”)mod(prime 关联规则频繁项集的最有影响的数据挖掘算法之 (CnkED)) 一 , 它运用 Apriori性质 并且通过连接、剪枝等步 式中函数 order(Xi)返回项X在候选项集 C。中的编 骤,在产生较少候选项集的情况下产生频繁项集,进 号,r(r∈N)是基规模度,通常取r=1_3,n是候选 1 而产生强关联规则。由于数据挖掘本身决定其面临 一 项集的个数ICI,C 是没有支持度限制的候选 k一 的是海量数据,因此在许多情况下仍会产生大量的 项集的组合数,E(0E≤1)是事务项组合存在均 候选项集尤其是候选 2一项集,对频繁 2一项集的产 度 ,D(0D≤1)是事务项组合稠密均度 ,函数 prime 生,剪枝操作不起任何作用。若频繁 1一项集的规模 (x)返回不大于X的最大素数,因为素数求模将减 为0(n),则候选 2一项集的规模将达到O(n)。从 少散列冲突,可提高算法效率。 而严重影响挖掘的效率。因此,寻求频繁项 目的有 散列函数应该包含候选 k一项集 中每一个项的 效产生算法是问题的关键,本文结合散列技术来进 特征,而候选k一项集中的每一个项都可以在候选 1一 行高效剪枝,有效减少频繁2一项集的数 目,进而提 项集的集合C表中找到,因此可以在 c 中给每一 高算法的效率。 个项编号以标识其 自身,用函数 order(xj)返回项xi 的这个编号。通常,c用一维数组存储,用其项集 1 散列技术 的地址来表示这个编号不仅简单而且效率很高, 当扫描事务数据库,对候选 k一项集的集合 ck 即order(xi)=i(i∈N)或order(xi)=lC】I—i 中的候选 k一项集计数时,同时产生每个事务的所有 +1(i∈N)。 (k+1)一项集,通过散列函数把其散列到散列表中 对每一个项的编号求和可以反映出这个项集的 并计数。在连接产生候选 (k+1)一项集的同时考察 总体特征,但简单的求和容易产生散列冲突,这里把 散列表计数,若候选k一项集散列函数的构造为该计 项的编号 order(x;)与 (2) 相乘再求和,与 2的幂 数对应的支持度小于min—sup,则把该 (k+1)一项集 相乘可在计算机 中通过移位操作实现,其效率很高 从候选(k+1)一项集中删除,否则,继续进行剪枝操 (mx210o只需把m向左移动 100位即可

文档评论(0)

itxtu26 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档