- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
长江大学学报 (自然科学版)理工 2012年1月第9卷 第l期
JournalofYangtzeUniversity(NatSciEdit)SciEng Jan.2012。Vo1.9No.1
doi:10.3969/j.issn.1673—1409.2012.01.035
基于单向增长链表的关联规则挖掘算法研究
董 辉 (亳州职业技术学院信息工程系,安徽亳州236800)
[摘要]分析研究关联规则挖掘经典算法Apriori和 FP—Growth算法,发现其不足之处在于构建和遍历各
自数据结构的时间长、内存消耗 巨大,降低 了算法在时间和空间方面的效率。针对 2种算法的缺陷,提
出了LK-Growth算法,该算法不再构建 FPTree,而是构建单向线性链表组结构,能有效地缩短发现频
繁模式的时间和节省 内存空间开支 。研究结果表 明,IK~Growth算法的实用性强且挖掘效率更高。
[关键词]数据挖掘;关联规则;线性增长链表;LK—Growth算法
[中图分类号]TP391.1 [文献标识码]A [文章编号]1673—1409 【2012)01一N110~03
关联规则挖掘是数据挖掘众多知识类型中一种典型代表 ,也是数据挖掘 中最活跃的研 究领域之~ ,
其首要任务就是发现频繁项 目集 。长期以来 ,人们对关联规则频繁项 目集的挖掘主要采用 Apriori算法
和FP—Growth算法或者它们的有关改进算法。但是 ,无论是 Apriori算法还是 FP—Growth算法,都要
多次扫描事务数据库,I/O负载大 ,导致算法 的时间开销增大;在空间需求上 ,Apriori算法要产生大
量的候选频繁项 目集、FP—Growth算法构造结构复杂的 FP-Tree树,对 内存开销要求都很 高uJ。针对
上述情况,笔者提出基于单项线性链表的关联规则挖掘优化算法 ,该算法构建多个单向链表结构做成链
表组,通过该结构的遍历发现所有的频繁模式,在挖掘效率上比Apriori和FP—Growth算法都要高。
1 优化算法设计
1.1 优化算法的思路
从对关联规则挖掘 的2种经典算法的分析可知 ,要想提高挖掘效率,可从 2方面考虑=[2j:第 1方面
是优化重构算法操作对象的数据结构 ;第 2方面是在不改变操作对象的数据结构情况下,改变对其执行
方式 ,提高操作速度 ,发现频繁项集 。笔者从第 1方面着手 ,构建单 向链表组数据结构,提出优化 的
LK—Growth算法 ,挖掘出所有的频繁模式 ,从而提高挖掘效率。
1.2 算法设计
LK—Growth算法设计过程为输入 :事务数据库 D,最小支持度阀值 min—sup;输 出:频繁模式完
全集 。具体实现步骤如下 ]:①首次扫描事务数据库D生成 1一频繁项集和各项支持度计数值,把支持
度计数满足最小支持度 阀值 的各项及支持度计数按支持度计数 降序存至项头表 HT (HeaderTable)
中;②第 2次扫描数据库D,对第 1个事务 扫描 ,保留出现在 HT表的频繁项 ,各项节点按支持度计数降
序排列 ,存入到名为SingleLink单链表内;③构造以项头表中节点为头节点的单链表组,伪代码如下:
ProcedureHTI List
一
(1)For(一2;≥ ; ++) //j是 SingleIink链表中的节点数
(2)Dobegin
(3)For(m—i;m≥2; 一)
(4)Dobegin
(5)Insert link (SI, 1);
— f』M SingleIink
//链表第 个节点,SL为HT表中以M 为头节点的单向链表
(6)End
[收稿 日期]2011—10—25
[基金项目]安徽省教育厅 自然科学基金资助项目 (KJ2011Z259);亳州职业技术学院科研基金资助项目 (BYK1lO5)。
[作者简介]董
原创力文档


文档评论(0)