基于单向增长链表的关联规则挖掘算法研究.pdfVIP

基于单向增长链表的关联规则挖掘算法研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
长江大学学报 (自然科学版)理工 2012年1月第9卷 第l期 JournalofYangtzeUniversity(NatSciEdit)SciEng Jan.2012。Vo1.9No.1 doi:10.3969/j.issn.1673—1409.2012.01.035 基于单向增长链表的关联规则挖掘算法研究 董 辉 (亳州职业技术学院信息工程系,安徽亳州236800) [摘要]分析研究关联规则挖掘经典算法Apriori和 FP—Growth算法,发现其不足之处在于构建和遍历各 自数据结构的时间长、内存消耗 巨大,降低 了算法在时间和空间方面的效率。针对 2种算法的缺陷,提 出了LK-Growth算法,该算法不再构建 FPTree,而是构建单向线性链表组结构,能有效地缩短发现频 繁模式的时间和节省 内存空间开支 。研究结果表 明,IK~Growth算法的实用性强且挖掘效率更高。 [关键词]数据挖掘;关联规则;线性增长链表;LK—Growth算法 [中图分类号]TP391.1 [文献标识码]A [文章编号]1673—1409 【2012)01一N110~03 关联规则挖掘是数据挖掘众多知识类型中一种典型代表 ,也是数据挖掘 中最活跃的研 究领域之~ , 其首要任务就是发现频繁项 目集 。长期以来 ,人们对关联规则频繁项 目集的挖掘主要采用 Apriori算法 和FP—Growth算法或者它们的有关改进算法。但是 ,无论是 Apriori算法还是 FP—Growth算法,都要 多次扫描事务数据库,I/O负载大 ,导致算法 的时间开销增大;在空间需求上 ,Apriori算法要产生大 量的候选频繁项 目集、FP—Growth算法构造结构复杂的 FP-Tree树,对 内存开销要求都很 高uJ。针对 上述情况,笔者提出基于单项线性链表的关联规则挖掘优化算法 ,该算法构建多个单向链表结构做成链 表组,通过该结构的遍历发现所有的频繁模式,在挖掘效率上比Apriori和FP—Growth算法都要高。 1 优化算法设计 1.1 优化算法的思路 从对关联规则挖掘 的2种经典算法的分析可知 ,要想提高挖掘效率,可从 2方面考虑=[2j:第 1方面 是优化重构算法操作对象的数据结构 ;第 2方面是在不改变操作对象的数据结构情况下,改变对其执行 方式 ,提高操作速度 ,发现频繁项集 。笔者从第 1方面着手 ,构建单 向链表组数据结构,提出优化 的 LK—Growth算法 ,挖掘出所有的频繁模式 ,从而提高挖掘效率。 1.2 算法设计 LK—Growth算法设计过程为输入 :事务数据库 D,最小支持度阀值 min—sup;输 出:频繁模式完 全集 。具体实现步骤如下 ]:①首次扫描事务数据库D生成 1一频繁项集和各项支持度计数值,把支持 度计数满足最小支持度 阀值 的各项及支持度计数按支持度计数 降序存至项头表 HT (HeaderTable) 中;②第 2次扫描数据库D,对第 1个事务 扫描 ,保留出现在 HT表的频繁项 ,各项节点按支持度计数降 序排列 ,存入到名为SingleLink单链表内;③构造以项头表中节点为头节点的单链表组,伪代码如下: ProcedureHTI List 一 (1)For(一2;≥ ; ++) //j是 SingleIink链表中的节点数 (2)Dobegin (3)For(m—i;m≥2; 一) (4)Dobegin (5)Insert link (SI, 1); — f』M SingleIink //链表第 个节点,SL为HT表中以M 为头节点的单向链表 (6)End [收稿 日期]2011—10—25 [基金项目]安徽省教育厅 自然科学基金资助项目 (KJ2011Z259);亳州职业技术学院科研基金资助项目 (BYK1lO5)。 [作者简介]董

文档评论(0)

yingzhiguo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5243141323000000

1亿VIP精品文档

相关文档