- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
改进基于频繁模式树最大频繁项集挖掘算法
改进基于频繁模式树最大频繁项集挖掘算法
摘要 针对最大频繁项目集挖掘算法(DMFIA当候选项目集维数高而最大频繁项目集维数较低的情况下要产生大量的候选项目集的缺点,提出了一种改进的基于频繁模式树(FPtree结构的最大频繁项目集挖掘算法――FPMFIA。该算法根据FPtree的项目头表,采用自底向上的搜索策略逐层挖掘最大频繁项目集,从而加速每次对候选集计数的操作。在挖掘时根据每层的条件模式基产生维数较低的非频繁项目集,尽早对候选项目集进行剪枝和降维,可大量减少候选项目集的数量。同时在挖掘时充分利用最大频繁项集的性质,减少搜索空间。通过算法在不同支持度下挖掘时间的对比可知,算法FPMFIA在最小支持度较低的情况下时间效率是DMFIA以及基于降维的最大频繁模式挖掘算法(BDRFI的2倍以上,说明FPMFIA在候选集维数较高的时候优势明显。
关键词 最大频繁项集;频繁模式树;数据挖掘;关联规则;非频繁项集
中图分类号 TP311
0引言
Agrawal等[1]于1993年首次提出关联规则挖掘算法――Apriori算法。后来出现很多关联规则算法如基于哈希的直接哈希和剪枝(Direct Hashing and Pruning, DHP算法[2]、并行FPGrowth(Parallel FrequentPatterngrowth, PFP算法[3]和深度优先基于概念格的算法――DFTFH(DepthFirst Traversal Frequentpattern tree to Hasse[4]等,但随着现在社会信息化、数字化程度的提高,各行各业的数据规模在普遍增大,所挖掘出的频繁项集数量巨大分析困难。而最大频繁项集已经隐含了所有的频繁项集,可使挖掘出的频繁项集数量大大减少,因此更具有实用价值。所以最大频繁项集挖掘在关联规则挖掘中意义重大。
目前已有的最大频繁项集挖掘算法主要有FPMax[5]、PincerSearch[6]、最大频繁项目集挖掘算法(Discovering Maximum Frequent Itemsets Algorithm, DMFIA[7]等算法。FPMax算法是FPgrowth[8]算法的一种扩展,也是利用递归调用不断产生条件模式树的方法得到最大频繁项集,因此需要构建大量的条件模式树,消耗了巨大的时空资源。PincerSearch算法采用自底向上和自上而下的策略来挖掘最大频繁项集,但其第k次的最大频繁候选集(Maximum Frequent Candidate Set, MFCS是由k-1次的MFCS中的非频繁项目???去掉一个元素来生成的,产生了过多的无用候选项目集。DMFIA采用频繁模式树(FrequentPattern tree, FPtree作存储结构同时避免递归产生大量的条件模式树,有效提高了最大频繁项集的挖掘效率。但是对于数据项维数高且最大频繁项目集维数低的情况,DMFIA会产生过多冗余的候选集,严重影响了挖掘效率。近年来国内也有一些新的基于FPMax或DMFIA的改进算法,如:基于降维的最大频繁模式挖掘算法(algorithm for mining frequent itemsets based on dimensionality reduction of frequent itemset, BDRFI[9]、基于单向有序FPTree算法(not generating conditional FPtree to obtain MFS,NCFPMax[10]。BDRFI算法主要是改传统的FPtree为数字频繁模式树(Digital Frequent Pattern tree, DFPtree,提高了超集检验的效率,同时采用自下而上的搜索策略,但是在每层挖掘时仍然存在DMFIA算法中存在的问题。NCFPMax算法可以有效利用单向有序FPtree避免超集的检测,但是利用项目表格避免递归生成条件模式树时需要查找出所有的路径交集比较耗费时间。综合考虑上述算法的优缺点,提升最大频繁项集挖掘效率的关键点为:1避免递归生成大量条件模式树;2减少频繁候选集的数量,快速降维。为此本文提出了基于DMFIA的改进算法――基于FPtree的最大频繁项集挖掘算法(Algorithm for mining Maximum Frequent Itemsets based of FPtree, FPMFIA,FPMFIA采用自底向上的原则逐层挖掘最大频繁项集,并且在每层挖掘时通过产生的非频繁项集有针对性地对候选项集进行快速降维。实验结果表明FPMFIA可以有效提高最大频繁项集的挖掘效率。
1繁项目集和最大频繁项目集
设I={i1,i2,…,im}是m个不同项目的集合。给定事务数据库D,每
您可能关注的文档
- 改良局部切除术治疗十二指肠乳头肿瘤临床价值.doc
- 改良岛状皮瓣在手部组织缺损与手指修复中临床应用.doc
- 改良尿道板纵切卷管法在治疗小儿尿道下裂中应用价值分析.doc
- 改良封闭负压辅助闭合技术联合干细胞移植治疗难愈合性伤口研究.doc
- 改良布朗氏架在股骨粗隆间骨折保守治疗中应用.doc
- 改良平片无张力疝修补术在腹股沟疝中应用.doc
- 改良小切口白内障摘除及人工晶状体植入联合青光眼复合小梁切除术临床疗效观察.doc
- 改良式B―Lynch缝合术在剖宫产产后出血治疗中应用价值.doc
- 改良式B―Lynch缝合术对剖宫产术中子宫收缩乏力性出血作用.doc
- 改良小夹板外固定治疗桡骨远端伸直型骨折效果探析.doc
最近下载
- 地球生命力报告2020:扭转生物多样性丧失的曲线~摘要.pdf VIP
- 村和社区两委换届培训.pptx VIP
- 【校本教材】初中音乐校本教材.docx VIP
- DB11T 555-2015 民用建筑节能现场检验标准.pdf VIP
- NADCA北美压-铸协会技术标准.pdf
- ISO 3506-2-2020 紧固件 耐腐蚀不锈钢紧固件的机械性能 第2部分:具有规定组别和性能等级的螺母(中文).pdf
- 糖尿病足溃疡中医外治法专家共识.pdf VIP
- 四象限法则培训.pptx
- 增删诸脉指法主病29脉.doc VIP
- 自考《马克思主义基本原理概论》复习资料及自考《中国现代文学史》复习资料大全.doc VIP
文档评论(0)