- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于散列技术的高效剪枝关联规则挖掘算法.pdf
第33卷第5期 南昌大学学报 (理科版) Vol|33No.5
2009年 1O月 JournalofNanchangUniversity(NaturalScience) 0ct.2009
文章编号:1006一o464(2009)05—0494—05
基于散列技术的高效剪枝关联规则挖掘算法
彭永供 ,王靓明,朱 敏 ,段隆振
(南昌大学信息工程学院,江西 南昌 330031)
摘 要:该算法结合项集的有序特性有效压缩了频繁项集的数量 ,提高了算法效率,但是频繁2—项集的产生仍需要
占用大量的存储空间,本文利用散列函数对候选频繁2一项集进行剪枝 ,这样频繁集的数 目大大减少,不仅节省 了存
储空间、减少了计算开销 ,而且又保持了频繁项集的完整性。
关键词:关联规则 ;Apriori性质;散列函数;项集有序;频繁项集
中图分类号:TP311.12 文献标识码 :A
文献…提出了Apriori算法,该算法是挖掘布尔 (X2)(2) +… +order(Xk)(2)”)mod(prime
关联规则频繁项集的最有影响的数据挖掘算法之 (CnkED))
一 , 它运用 Apriori性质 并且通过连接、剪枝等步 式中函数 order(Xi)返回项X在候选项集 C。中的编
骤,在产生较少候选项集的情况下产生频繁项集,进 号,r(r∈N)是基规模度,通常取r=1_3,n是候选 1
而产生强关联规则。由于数据挖掘本身决定其面临 一 项集的个数ICI,C 是没有支持度限制的候选 k一
的是海量数据,因此在许多情况下仍会产生大量的 项集的组合数,E(0E≤1)是事务项组合存在均
候选项集尤其是候选 2一项集,对频繁 2一项集的产 度 ,D(0D≤1)是事务项组合稠密均度 ,函数 prime
生,剪枝操作不起任何作用。若频繁 1一项集的规模 (x)返回不大于X的最大素数,因为素数求模将减
为0(n),则候选 2一项集的规模将达到O(n)。从 少散列冲突,可提高算法效率。
而严重影响挖掘的效率。因此,寻求频繁项 目的有 散列函数应该包含候选 k一项集 中每一个项的
效产生算法是问题的关键,本文结合散列技术来进 特征,而候选k一项集中的每一个项都可以在候选 1一
行高效剪枝,有效减少频繁2一项集的数 目,进而提 项集的集合C表中找到,因此可以在 c 中给每一
高算法的效率。 个项编号以标识其 自身,用函数 order(xj)返回项xi
的这个编号。通常,c用一维数组存储,用其项集
1 散列技术 的地址来表示这个编号不仅简单而且效率很高,
当扫描事务数据库,对候选 k一项集的集合 ck 即order(xi)=i(i∈N)或order(xi)=lC】I—i
中的候选 k一项集计数时,同时产生每个事务的所有 +1(i∈N)。
(k+1)一项集,通过散列函数把其散列到散列表中 对每一个项的编号求和可以反映出这个项集的
并计数。在连接产生候选 (k+1)一项集的同时考察 总体特征,但简单的求和容易产生散列冲突,这里把
散列表计数,若候选k一项集散列函数的构造为该计 项的编号 order(x;)与 (2) 相乘再求和,与 2的幂
数对应的支持度小于min—sup,则把该 (k+1)一项集 相乘可在计算机 中通过移位操作实现,其效率很高
从候选(k+1)一项集中删除,否则,继续进行剪枝操 (mx210o只需把m向左移动 100位即可
您可能关注的文档
最近下载
- DB34_T4316-2022_皖北地区设施草莓栽培技术规程_安徽省.docx VIP
- 外研版八年级上册 Unit 3 单元测试卷答案及解析 新版 2025年新外研版八年级上册.docx
- 人教版高中数学精讲精练选择性必修二4.1 数列的概念(精练)(解析版).pdf VIP
- 输液港用无损伤针相关知识.pptx VIP
- 《尝试教学法》-公开课件.ppt VIP
- 石油化工行业安装工程预算定额说明(2019)版.docx
- 外研版八年级上册 Unit 3 单元测试卷 新版 2025年新外研版八年级上册.docx
- 2025—2026学年第一学期学校教学工作计划及序列表.doc VIP
- 高中物理电学实验专题练习(2020整理).pdf VIP
- 保洁服务管理人员安排、架构,管理方案.pdf VIP
文档评论(0)