Apriori算法与FP-tree算法的探讨.pdfVIP

下载本文档

28
0
约1.01万字
约 6页
2017-12-04 发布于福建
举报
版权申诉

Apriori算法与FP-tree算法的探讨.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第31卷第2期淮北煤炭师范学院学报 (自然科学版) Vo1．31 No．2 2010年6月 JournalofHuaibeiCoalIndustryTeachersCollege(NaturalScience) Jun．2010 Apriori算法与FP-tree算法的探讨况莉莉 (合肥工业大学计算机与信息学院，安徽合肥 230009；淮jE职业技术学院计算机科学技术系，安徽淮北 235000) 摘要：在关联规则挖掘中，Apriori和FP．tree是两种最基本的算法．文章讨论这两种算法的基本思想、数据挖掘步骤、优缺点并以具体的实例描述两种算法的实现过程．深入分析这两种算法为关联规则挖掘算法的扩展和改进奠定了基础．关键词：关联规则；Apriori算法；FP．tree算法；事务数据库；频繁项集中图分类号：TP311 文献标识码：A 文章编号：1672—7177(2010)02—0044—06 l 引言在大型数据库中，关联规则挖掘是最常见的数据挖掘任务之一．关联规则挖掘就是从大量数据中发现项集之间的相关联系．Apriori算法和FP．tree算法是关联规则挖掘中最经典的两个算法，前者采用逐层搜索的迭代策略，先产生候选集，再对候选集进行筛选，然后产生该层的频繁集；后者采取模式增长的递归策略，不用产生侯选集，而是把事务数据库压缩到一棵只存储频繁项的树结构中．本文将深入地对这两种算法进行探讨． 2 Apriori算法 Apriori算法是关联规则挖掘中最基本也是最常见的算法．它是由Agrawal等人于 1993年提出的一种最有影响的挖掘布尔关联规则频繁项集的算法，主要用来在大型数据库上进行快速挖掘关联规则． 2．1Apriori算法基本思想 Apriori算法采用逐层迭代搜索方法，使用候选项集来找频繁项集．其基本思想是：首先找出所有频繁 1一项集的集合厶，厶用于找频繁 2一项集的集合，而用于找厶，如此下去，直到不能找到频繁 k一项集．并利用事先设定好的最小支持度阈值进行筛选，将小于最小支持度的候选项集删除，再进行下一次的合并生成该层的频繁项集．经过筛选可减少候选项集数，从而加快关联规则挖掘的速度． 2．2 Apriori算法的挖掘 A 0 性质：频繁项集的所有非空子集也必须是频繁的． 2．2．1 候选项集的生成 Apriori算法使用了Apriori性质来产生候选项集．任何非频繁的(k一1)项集都不可能是频繁 k一项集的子集．因此，如果一个候选 k一项集的(k一1)一子集不在厶一-中，则该候选项集也不可能是频繁的，从而可以从中删除． 2．2．2 如何用厶一找厶? 主要是由[连接】(join)与[剪枝】(prune)两大步骤来实现．连接 (join)：将筛选后的候选 k一项集跟厶一进行f合并]，产生下一个项集支持度．即为找，通过一与自己合【并】候选 k一项集的集合．收稿日期：2010—04—12 作者简介：况莉莉(1976一 )，女，安徽淮北人，讲师，硕士生，研究方向为数据挖掘第2期况莉莉：Apriori算法与FP-tree算法的探讨 45 剪枝 (prune)：扫描事务数据库，计算中每个候选项集支持度计数，将小于最小支持度阈值的候选项集进行 [删除】，从而确定厶． 2．3 基于Apdod算法的数据挖掘应用实例 2．3．1让我们看一个Apriori的具体例子．该例基于表 1即某图书馆图书借阅信息中5位读者借阅记录的事务数据库D．表 1 读者借阅事务数据 TID 项 ID的列表 T100 I1，13 T2OO I1，I3，I4