数据挖掘FP-Growth报告.docVIP

下载本文档

24
0
约2.26千字
约 4页
2017-06-08 发布于重庆
举报
版权申诉

数据挖掘FP-Growth报告.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘FP-Growth报告

英文标题：Mining Frequent Patterns without Candidate Generation 中文标题：不产生候选项集的频繁模式挖掘文献来源：Special Interest Group On Management Of Data , 2000 一、主要内容：（1）论文研究的问题概述关联规则在数据挖掘是一个重要的研究内容。而产生频繁集则是产生关联规则的第一步。在大多数以前的实现中，人们普遍采用了类似于Apriori的算法。这种算法受两种非平凡开销的影响：一是需要产生指数级的候选项集，二是需要重复地扫描整个数据库，通过模式匹配检查一个很大的候选集合。检查数据库中每个事务来确定候选项集支持度的开销是非常可观的。针对Apriori算法的缺陷,Jiawei Han提出FP-growth算法,该算法仅须扫描数据库两遍且无须生成候选项目集,避免了产生“知识的组合爆炸”，提高了频繁模式集的挖掘效率。论文研究的理论意义及其应用前景之前的由频繁项集产生关联规则的发现算法都基于Apriori算法框架，在高密度数据库上的执行性能不佳。FP-growth算法提出利用了高效的数据结构FP-tree，直观并且容易实现，它只需要两次扫描数据库，极大地减小了I/O操作次数，并且无须生成候选项目集，因而在时间和空间上都提高了处理效率。此算法执行效率比基于 Apriori的算法高一个数量级。 FP-growth 算法将发现频繁的问题转换成递归地一些频繁然后连接后缀它使用最不频繁的后缀提供了好的选择性FP 树的构造过程可描述为首先创建树的根结点用“null”标记扫描D，每个事务中的项目按照支持度递减排序并对每个事务创建一个分枝一般地当为一个事务考虑增加分枝时沿共同前缀上的每个结点的计数值增加1 为跟随在前缀之后的项目创建结点并链接为方便树的遍历创建一个频繁项目表使得每个项目通过一个结点头指针指向它在树中的位置FP 树挖掘过程可描述为长度为1 的频繁开始条件FP树并递归地在该树上进行挖掘增长通过后缀与条件FP 树产生的频繁连接实现算法：FP-Growth。使用FP树，通过模式增长挖掘频繁模式。输入：D：事物数据库min_sup：最小支持度阈值输出：频繁模式的完全集。方法：按一下步骤构造FP树：（a）扫描数据库D一次。手机频繁项的集合F和它们的支持度计数。对F按支持度计数降序排序，结果为频繁项列表L。（b）创建FP树的根节点，以“null”标记它。对于D中每个事物Trans，执行：选择Trans中的频繁项，并按L中的次序排序。设Trans排序后的频繁项列表为[p|P]，其中p是第一个元素，而P是剩下的元素列表。调用insert_tree [p|P],T 。该过程执行情况如下。如果T有子女N使得N.item-name p.item-name，则N的计数增加1；否则，创建一个新节点N，将其计数设置为1，链接到它的父节点T，并且通过节点链结构将其链接到具有相同item-name的结点。如果P非空，则递归地调用insert_tree P,N 。FP树的挖掘通过调用FP-growth（FP_tree,null）实现。该过程实现如下。Procedure FP_growth Tree,α （1）if Tree包含单个路径P thenfor 路径P中结点的每个组合（记作β）产生模式βα，其中支持度计数support_count等于β中结点的最小支持度计数；else for Tree的表头中的每一个αi 产生一个模式β ααi,其中支持度计数support_count αi.support_count;构造β的调减模式基然后构造β的条件FP树Treeβ；if Treeβ≠? then （8）调用FP_growth Treeβ,β ；一个大数据库能够被有效地压缩成比原数据库小很多的高密度结构该算法基于FP-Tree的挖掘采取模式增长的递归策略，创造性地提出了无候选项目集的挖掘方法，在进行长频繁项集的挖掘时效率较好。采用基于划分的分而治之的方法，大大降低了后续条件模式基和条件FP树的大小。它使用最不频繁的后缀提供了好的选择性一个大数据库能够被有效地压缩成比原数据库小很多的高密度结构在FP树的分支共享程度较FP树的分支共享程度较低因此我们应该构建投影数据库一个大数据库能够被有效地压缩成比原数据库小很多的高密度结构该算法基于FP-Tree的挖掘采取模式增长的递归策略，创造性地提出了无候选项目集的挖掘方法，在进行长频繁项集的挖掘时效率较好。挖掘过程中采取了分治策略，将这种压缩后的数据库DB分成一组条件数据库Dn，每个条件数据库关联一个频繁项，并分别挖掘每一个条件数据库。而这些条件数据库Dn要远远小于数据库DB。该算法采取增长模式的递归策略，虽然避免