Apriori算法与FP-tree算法的探讨.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第31卷第2期 淮北煤炭师范学院学报 (自然科学版) Vo1.31 No.2 2010年6月 JournalofHuaibeiCoalIndustryTeachersCollege(NaturalScience) Jun.2010 Apriori算法与FP-tree算法的探讨 况莉莉 (合肥工业大学计算机与信息学院,安徽 合肥 230009;淮jE职业技术学院计算机科学技术系,安徽 淮北 235000) 摘 要:在关联规则挖掘中,Apriori和FP.tree是两种最基本的算法.文章讨论这两种算法的基本思想、数据挖掘步骤、 优缺点并以具体的实例描述两种算法的实现过程.深入分析这两种算法为关联规则挖掘算法的扩展和改进奠定了基 础. 关键词:关联规则;Apriori算法;FP.tree算法;事务数据库;频繁项集 中图分类号:TP311 文献标识码:A 文章编号:1672—7177(2010)02—0044—06 l 引言 在大型数据库中,关联规则挖掘是最常见的数据挖掘任务之一.关联规则挖掘就是从大量数据中发现 项集之间的相关联系.Apriori算法和FP.tree算法是关联规则挖掘中最经典的两个算法,前者采用逐层搜索 的迭代策略,先产生候选集,再对候选集进行筛选,然后产生该层的频繁集;后者采取模式增长的递归策略, 不用产生侯选集,而是把事务数据库压缩到一棵只存储频繁项的树结构中.本文将深入地对这两种算法进 行探讨. 2 Apriori算法 Apriori算法是关联规则挖掘中最基本也是最常见的算法.它是由Agrawal等人于 1993年提出的一种最 有影响的挖掘布尔关联规则频繁项集的算法,主要用来在大型数据库上进行快速挖掘关联规则. 2.1Apriori算法基本思想 Apriori算法采用逐层迭代搜索方法,使用候选项集来找频繁项集.其基本思想是:首先找出所有频繁 1一项集的集合 厶,厶用于找频繁 2一项集的集合 ,而 用于找 厶,如此下去,直到不能找到频繁 k一项 集.并利用事先设定好的最小支持度阈值进行筛选,将小于最小支持度的候选项集删除,再进行下一次的合 并生成该层的频繁项集.经过筛选可减少候选项集数,从而加快关联规则挖掘的速度. 2.2 Apriori算法的挖掘 A 0 性质:频繁项集的所有非空子集也必须是频繁的. 2.2.1 候选项集的生成 Apriori算法使用了Apriori性质来产生候选项集.任何非频繁的(k一1)项集都不可能是频繁 k一项集的 子集.因此,如果一个候选 k一项集的(k一1)一子集不在 厶一-中,则该候选项集也不可能是频繁的,从而可 以从 中删除. 2.2.2 如何用 厶一找 厶? 主要是由[连接】(join)与[剪枝】(prune)两大步骤来实现. 连接 (join): 将筛选后的候选 k一项集跟 厶一进行f合并],产生下一个项集支持度.即为找 ,通过 一与自己合【 并】候选 k一项集的集合. 收稿 日期:2010—04—12 作者简介:况莉莉(1976一 ),女,安徽淮北人,讲师,硕士生,研究方向为数据挖掘 第2期 况莉莉:Apriori算法与FP-tree算法的探讨 45 剪枝 (prune): 扫描事务数据库,计算 中每个候选项集支持度计数,将小于最小支持度阈值的候选项集进行 [删 除】,从而确定 厶. 2.3 基于Apdod算法的数据挖掘应用实例 2.3.1让我们看一个Apriori的具体例子.该例基于表 1即某图书馆图书借阅信息中5位读者借阅记录的 事务数据库D. 表 1 读者借阅事务数据 TID 项 ID的列表 T100 I1,13 T2OO I1,I3,I4

文档评论(0)

lizhencai0920 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6100124015000001

1亿VIP精品文档

相关文档