基于Hadoop多最小支持度关联规则挖掘研究.docVIP

下载本文档

3
0
约2.39千字
约 5页
2018-10-30 发布于福建
举报
版权申诉

基于Hadoop多最小支持度关联规则挖掘研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Hadoop多最小支持度关联规则挖掘研究

基于Hadoop多最小支持度关联规则挖掘研究　　摘要：本文对关联规则挖掘中的基于多最小支持度模型的MS-Apriori算法进行了介绍，并且对MS-Apriori算法展开分析，针对该算法在单机串行模式下运行效率较低的问题提出改进方案，该方案主要依托云计算技术，基于hadoop平台。算法经过改进，可实现数据的分布式和并行化处理，提高了传统关联规则算法的执行效率。　　关键词：关联规则 MS-Apriori算法 MapReduce 　　中图分类号：TP312 文献标识码：A 文章编号：1007-9416（2015）10-0000-00 　　1 关联规则挖掘概述　　关联规则挖掘是为了发掘事物之间的联系，它是数据挖掘中应用较为广泛的方法之一。目前，社会上多个领域均已应用此方法进行数据分析。它的算法执行过程为：　　（1）找出所有频繁集。根据用户设定的最小支持度，在事务数据库中找出全部满足阈值要求的频繁项集；　　（2）产生强关联规则。　　由第（1）步产生的频繁项集生成关联规则，只有达到最小可信度要求的关联规则才能成为强关联规则。　　因为在第（2）步中，生成强关联规则实现起来相对较简单，而快速有效地找出频繁项集却是一个相对复杂的过程，所以关联规则挖掘研究的重点就集中在如何高效地生成有价值的频繁项集[ ]。　　2 MS-Apriori算法分析　　MS-Apriori算法[ ]是一个基于多支持度模型的算法，它是Liu提出的Apriori算法的改进算法，它为每个项目均指定一个最小支持度，这样就可以解决由单一支持度所引发的“稀有项”[2]问题。此算法频繁项集的生成方法与Apriori算法类似。　　MS-Apriori算法在执行时要将数据集中的项目按照给定的各个项的最小支持度排序，在生成1-频繁项集时，符合条件的项集要满足各自的最小支持度要求。在生成2-频繁项集时，集合中的两项都要满足最低的最小支持度要求，并且满足支持度差别才能成为候选集。生成k-频繁项集时，在剪枝过程中不能轻易删除项集，因为即使某候选集的子集不是频繁项集，但若它里面含有支持度限定较低的项，它很可能满足较低的最小支持度的要求，这一点与Apriori有很大不同。　　MS-Apriori算法简单，比较容易理解，利于编程实现，迭代次数易于控制。并且该算法使关联规则挖掘在实用性方面有了很大改进，但是由于其核心仍然是Apriori算法，它需要反复读取数据集，并且会产生庞大的候选集，在单机模式下，算法的挖掘效率仍存在很大缺陷。　　3基于云技术的MS-Apriori算法研究　　经过前面的分析，传统的关联规则挖掘模式多是基于本地的单机的挖掘模式，由于处理海量数据效率的低下，该模式越来越不能胜任当前海量的数据存储与处理的要求。随着云计算技术的发展，大数据的处理抛弃了传统的方式。云计算是并行计算（Parallel Computing）、分布式计算（DistributedComputing）和网格计算（Grid Computing）的发展。利用云计算平台对大数据进行研究成为学者们热衷的研究方式。　　Hadoop作为一种开源的分布式处理的云计算框架，适合大数据的分布式处理和计算，可以有效解决传统数据挖掘模式中处理数据效率低的问题。它的核心包括了分布式文件存储和分布式任务管理两部分，即HDFS和MapReduce。HDFS，是一个分布式文件系统。HDFS基于网络进行构建，运行于集群上，以流式数据访问模式来存储超大文件[ ]。MapReduce是一种编程模型，适用于并行处理大规模数据。　　3.1 MapReduce编程模型　　MapReduce编程模型是建立在HDFS基础上的，它分为Map阶段和Reduce阶段。HDFS会将数据源分割为若干个子集，这些子集会存放在各个节点中，Map函数可以把复杂任务分解为若干个简单任务执行，这些任务可以并行计算，这样计算规模相较于原任务将大大缩小。Reduce阶段的主要工作是对Map阶段产生的结果进行汇总。MapReduce处理流程如图1所示。　　3.2 基于MapReduce的MS-Apriori算法　　在MapReduce模型的基础上，可以将MS-Apriori算法转换为分布和并行执行的算法。其挖掘过程如下：　　（1）转换数据集，重新排列数据项，按多最小支持度值升序排列数据项；　　（2）分割数据集，并将其分发到各个节点中。　　（3）将数据转换为的形式，其中key表示事务，value表示数据项。　　（4）由map函数处理数据块中的数据，按照MS-Apriori的算法产生局部候选项集，将结果转换为键/值对的形式保存项目与其计数，若出现重复性键值，调用combiner函数。　　（5）将