- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
并行频项集挖掘综述
并行频繁项集挖掘算法综述
陈晓云 赵娟
(兰州大学信息科学与工程学院 兰州 730000)
摘要:本文介绍了并行频繁项集挖掘算法的研究概况,对一些经典的并行频繁项集挖掘算法进行了分析和评价,在文章的最后对并行频繁项集挖掘进行了展望。
关键字:并行化;频繁项集;数据挖掘;
Abstract: This paper introduces the parallel frequent itemset mining algorithm, some typical parallel frequent itemset mining algorithm were analysed and evaluated. At the end of the article some future directions in parallel frequent itemset mining were discussed.
Key words: parallel; frequent itemset; data mining;
1 引言
国内外许多的研究工作者都对频繁项集的挖掘表现出极大的兴趣,至今已经研究出许多频繁项集挖掘算法,其中最为经典的两个算法就是由R.Agrawal和R.Srikant于1994年提出的Apriori算法和J.Han等人2000年提出的FP-Growth算法。频繁项集挖掘的算法大多都是基于这两种算法的原理,被分为类Apriori算法和类FP-Growth算法。
由于数据挖掘在开始被提出时就是面向海量数据的,庞大的搜索空间使得许多传统的数据挖掘算法的效率并不理想。高性能并行环境为数据挖掘的发展开辟了一条新的路径,研究并行环境下的数据挖掘并行算法成为了数据挖掘界的热点。频繁项集挖掘也不例外,经过这些年的研究,并行化的频繁项集挖掘算法已经取得了一些成果。
目前已有许多工作者致力于研究并行频繁项集挖掘算法,并已有一些成绩。其中影响力比较大的包括R.Agrawal等人提出的类Apriori算法的并行算法Count Distribution,Data Distribution和Candidate Distribution Methods,2004年Osmar R. Zaiane等人提出的MLFPT算法和Javed和Khokhar等人提出的PFP-tree算法,分别是基于共享内存和分布式内存的类FP-Growth并行化频繁项集挖掘算法。
2 频繁项集挖掘的基本概念
定义2-1 (支持度与置信度)设I = {I1, I2,… ,Im }是项的集合。设任务相关的数据库D是数据库事务的集合,其中每个事务T是项的集合,。每一个事务有一个标识符,称作TID。设A是一个项集(itemset),也称模式(pattern),事物T包含A当且仅当。关联规则是形如的蕴含式,其中,,并且。规则在事务集D中成立,是由支持度(support)sup和置信度(confidence)conf来约束的。其中sup是D中事务包含的百分比,即P(),conf是D中包含A的事务同时也包含B的百分比。即P()。即
support()= P()
confidence()= P()
定义2-2 (频繁k-项集)设I={I1,I2,…,Im}为项的集合,其中Ij(j=1,2,…,m)表示一个项。集合被称为项集,如果。如果|X|=k,则X被称为k-项集。项集X的支持度是中包含X的事务数占所有事务数的百分比,它是概率P(X),记为:sup(X)。给定事务数据库和最小支持度阈值,如果,则项集X被称为频繁项集,如果|X|=k,则X被称为频繁k-项集。
定义2-3 (闭频繁项集和极大频繁项集)如果不存在真超项集Y使得Y与X在S中有相同的支持度计数,则称项集X在数据集S中是闭合的。如果X在S中是闭合的和频繁的,则项集X是数据集S中的闭频繁项集。如果X是频繁的,并且不存在超项集Y使得并且Y在S中是频繁的,则项集X是S中的极大频繁项集。
3 并行频繁项集挖掘算法
频繁模式挖掘的搜索空间可以被模拟成类似格的结构,其中由模式的大小来决定它处于格中的哪一层,每一层又以某种顺序进行排列。模式格的维数决定了问题的指数级别[24]。比如,对于一个有着n个不同项的事务数据库,可能的模式就会有2n。也就是说,如果一个事务数据库有100个不同的项,搜索空间就达巨大的搜索空间使得在大型数据库上的频繁模式的挖掘成为一个计算密集型问题。然而传统的频繁模式挖掘算法被单一处理器和有限的内存空间所限制,不适用于大型数据库。因此,利用高性能并行计算来改善现有频繁模式挖掘算法的瓶颈,使其适用于大规模数据库是非常必要的。
R.Agrawal等人在Apriori算法的基础上提出了并行算法Count Distribution,
您可能关注的文档
- 工程预手算的顺序.doc
- 工艺收器滤袋定标推荐意见.doc
- 工程量算常见问题.doc
- 工艺用(全套).doc
- 工程量单计价练习题.doc
- 工艺管考核制度.doc
- 工艺管预算.doc
- 左黎在高速顶管穿越施工方案G最终版.doc
- 差速器成装配步骤.doc
- 工行机休息室.doc
- 2025年金肯职业技术学院单招职业适应性测试题库带答案.docx
- 2025年钦州幼儿师范高等专科学校单招综合素质考试题库完美版.docx
- 2025年钟山职业技术学院单招职业适应性考试题库参考答案.docx
- 2025年金华职业技术学院单招职业技能测试题库附答案.docx
- 2025年闽南理工学院单招职业技能测试题库审定版.docx
- 2025年闽南理工学院单招综合素质考试题库审定版.docx
- 2025年闽南理工学院单招职业倾向性考试题库汇编.docx
- 2025年闽南理工学院单招职业倾向性考试题库推荐.docx
- 2025年闽北职业技术学院单招综合素质考试题库1套.docx
- 2025年长沙轨道交通职业学院单招职业技能考试题库一套.docx
最近下载
- 2024山东职业学院招聘笔试真题及答案详解一套.docx VIP
- 人教版2025四年级上册英语unit1 Unit 1 Helping at home A Let’s talk 课件.pptx
- 软件六性分析报告.docx
- 党委书记巡察整改专题生活会个人对照检查材料.docx VIP
- 市政调蓄池施工组织设计要点.doc
- csc-306gz数字式发电机转子接地保护装置说明书0sf.450.v1.pdf VIP
- 2016款一汽丰田荣放RAV4_汽车使用手册用户操作图解驾驶车主车辆说明书电子版.pdf
- 小儿遗传性疾病.ppt
- 第三课 卖辣椒的女孩儿.pptx VIP
- F420002【复试】2024年青海师范大学077501计算机系统结构《复试数据结构和操作系统之计算.pdf VIP
文档评论(0)