基于单向F_tree最大频繁项集挖掘算法研究.docVIP

下载本文档

5
0
约7.25千字
约 14页
2018-06-23 发布于福建
举报
版权申诉

基于单向F_tree最大频繁项集挖掘算法研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于单向F_tree最大频繁项集挖掘算法研究

基于单向F_tree最大频繁项集挖掘算法研究　　【摘要】频繁项集挖掘算法是数据挖掘的主要研究方向。目前主流的频繁项集挖掘算法有：产生候选频繁项集和不产生候选频繁项集两种，分别是Apriori算法、FP_growth算法。这两种算法各有优缺点。本文在分析现有算法的基础上，充分利用FP_tree信息压缩的优点，设计出一种产生候选项集的最大频繁项集挖掘算法。该算法首先构造一棵单向FP_tree，再利用最大频繁项集特性对候选项集进行剪枝，不需要扫描数据库计算候选项集的支持数。仿真实验表明，与现有算法相比，该算法的时、空效率都有巨大提高。　　【关键词】数据挖掘；单向FP_tree；最大频繁项集　　1.引言　　目前，频繁项集挖掘是数据挖掘中主要研究和应用的方向[1-2]。现有频繁项集挖掘算法主要分两类：产生候选频繁项集、不产生候选频繁项集。分别是Apriori算法和FP_growth算法。Apriori[3-5]算法要产生大量候选频繁项集，候选频繁项集计算支持度时需要扫描事务数据库，效率极差。目前，主要从减少数据库规模、减少扫描次数、减少候选项集的数量等角度，做研究。但是Apriori算法的本质——产生候选频繁项集、查询数据库计算支持度，不改变，算法性能也不可能有质的飞跃。2000年，由Han等人提出了基于频繁项集树（FP_tree）的频繁模式增长（FP_growth）[7-9]算法。它只需两次扫描事物数据库构建FP_tree，不产生候选频繁项集。但是，它在进行频繁项集挖掘时，要递归产生大量的条件子树。时、空效率也非常低下。另有研究者提出了挖掘最大频繁项集的思想[3]。由于最大频繁项目集隐含了所有频繁项目集，所以可以把发现频繁项目集的问题转化为发现最大频繁项目集的问题。　　本文提出一种基于单向FP_tree的最大频繁项集挖掘算法。它先是对现有FP_tree的结构和构造方法进行优化，采用“属性编码”规则，设计的单向FP_tree，且不会增加树的空间复杂度。在进行最大频繁项集挖掘时，采用分治的思想，按FP_tree产生的项头表（frequent item header table），逐个链表进行处理。在每个链表的处理过程中，采用剪枝策略极大减少候选频繁项集的数量，并且不扫描数据库计算候选频繁项集的支持度。　　2.FP_tree改进　　传统FP_tree是双向的，有指向父结点的指针。在FP_growth算法进行频繁项集挖掘时，需要向上搜索构造“条件模式基”。改进后的FP_tree，采用编码实现，在不增加任何资源要求的前提下，将所有信息都存放在当前结点中，不需要向上搜索来获取其前缀，实现单向FP_tree。单向FP_tree不止能节约内存资源（无需指向父结点的指针），也能提高树的处理效率。首先，它无需向上搜索获取前缀信息；其次，将属性“编码”后，所有对属性的操作都变成“位”操作，相比于“字符比对”或“整数运算”，操作速度大大提升。　　2.1 改进FP_tree数据结构　　改进后的FP_tree的数据结构定义如下：　　（1）一个标记为“NULL”的根节点，有一个项头表（header table），由频繁项（frequent item）组成。　　（2）频繁项头表（frequent item header table）：每个表项（entry）由三个域（item-name，sequence-code，node-link）组成，见表1。　　树结点有五个域：item，sup，progeny指针域，brother指针域，pc指针域。item记录项集编码；sup记录项集支持度。Pc指针域指向下一个具有同样的item-name域的结点，要是没有这样一个结点，就为null。　　2.2 Sequence-code编码　　每个项的编码中只有一位为1，其余都为0；项的sup值越大，其编码越小。即，sup值最大的项，最低位为1，以此类推。如：数据库D。　　D={“ABE”，”BD”，”BC”，”ABD”，”AC”，”BC”，”AC”，”ABCE”，”ABC”，”ABCDE”，”BADE”，”BADE”，”CDE”，”CDE”} 　　遍历D，统计所有项的种类及其支持度值，分别为{B：10，A：9，C：9，D：7，E：7}。根据sequence-code的编码规则进行编码，结果为{B：00001，A：00010，C：00100，D：01000，E：10000}。生产的项头表如表2。　　使用该编码规则的原因：　　（1）占用资源少　　在构造单向FP_tree时，树结点的item需包含路径上的所有项，假设事物数据库D有8种项，构造的FP_tree有10000个结点。与用char类型、int类型表示的情况，见表