- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于MapReue的购物篮分析算法中文翻译.doc
基于MapReduce的购物篮分析算法
自从谷歌公司在其分布式文件系统(GFS)上搭建了 MapReduce平台,MapReduce 方法便成为计算大规模数据的流行方法,紧跟其后的是亚马逊网络服务(AWS) 提供的棊于低成本计算结点的Apache Hadoop平台。映射/归约鼓励在MapReduce 上重新设计和改造已有的串行算法,变为受限的并行化编程,所以本文提出了基 于先验概率的MapReduce购物篮分析算法。两个算法用来适应已经存在的 Apriori-algorithm (Apriori-algorithm是关联规则里一项基本算法)和建、一个簡 革的算法来对数据集进行排序并转化成(键,值)对形式以适应MapReduce。算 法在亚马逊EC2 Map/Reduce平台上运行。实验结果表明Apriori-algorithm的性 能并不如这个简单算法。使用该简单算法,基于Map/Reduce后程序通过增加更 多的节点可提高计算性能,但在某种程度上存在一个瓶颈,不允许进一步的性能 改善。文章认为分布式;操作、聚合、在Map / Reduce上归约数据是导致性能瓶 颈的原因。(2013 John Wiley Sons, Ltd.)
介绍
随着像社交媒体、智能手机和传感器网络每时每刻产牛.TB或PB规模的数据, 使用传统系统来存储这些数据变得更加困难。而且,这些数据都是非结构化的大 数据。例如,谷歌受到持续存储大数据并发现现有的文件系统不足以有效地处理 这些数据的问题的困扰。此外,传统系统的计算能力和平台对人数据无效,这也 迫使谷歌搭建谷歌文件系统(GFS)和Map / Reduce并行计算平台,这促进了 Apache Hadoop项目的产牛.o
Hadoop是一个并行编程平台,建立在Hadoop分布式文件系统和映射/归约计算 模型之上,用来处理像(键,值)对这样的数据。Hadoop受到了商业计算的褒 奖,因为全球商业事务拥有如网络交易□志文件这样的人规模数据。在过去的几 年中,Hadoop已经在利用数据挖掘处理商业智能方面的大数据。在Hadoop吋代 意味着那些执行串行计算的传统算法需要重新设计或转换为MapReduce算法。 因此,在本文中,提出了两个基于MapReduce的购物篮分析(MBA)算法,并 分别在而弹性计算云(EC2)和亚马逊网络服务(AWS)的简单存储服务(S3)平台上 运行。
云计算已经被认为是已使用多年的服务,包括主机服务、web邮件服务、文档共 享服务、地图API服务。它分为软件即服务(SaaS),平台即服务(PaaS)和 基础设施即服务(IaaS)。SaaS通过网络来提供服务而不是事先安装或维护软件。 例如,web邮件服务归类到SaaS里。采用PaaS提供计算和存储服务不需要采购 硬件或软件,例如托管服务。IaaS是效用计算服务,类似于SaaS,但需要购买 服务的时间,比如AWSo AWS为采用Map / Reduce计算模型的商用计算机提供 S3、EC2和弹性的MapReduce服务,就像IaaS和SaaS在云计算屮所做的那样, 这让普通组织能够以很低的成本获得超算能力。
以下章节关注相关性的工作,主要描述了 Map / Reduce和Hadoop以及其他相关 项目,提出了 Apriori (先验的)MapReduce算法,并提出简革的基于MapReduce 的购物篮分析算法。最后一部分给出了实验结果。
相关工作
关联规则或关联分析是最基本的数据挖掘分析技术,其R在发现像顾客购买行为 等活动的共生关系。这种分析是标准的顺序计算,并在许多关于数据挖掘的书籍 都讨论过了。
Aster数据公司有一个采用SQL MapReduce框架的一个产品。Aster提供nPath SQL处理存储在数据库中大数据。购物篮分析算法也执行在该框架下,但它是 棊于SQL API的MapReduce数据库。
Jongwook等人使用/规则项目对/集合的/先验属性/实现MBA算法。本文的0的 是提出和比较两个算法,然后将数据转换成(键,值)对在Map/Reduce平台上执 行算法程序。
Hadoop 平台上的 Map/Reduce
Map / Reduce是人工智能领域的函数式编程算法。谷歌公司为了解决分布式计算 环境下大规模数据集的分析问题而重新引入Map/Reduce,它再一次被突出强调 了。具体来说,它由两个函数组成,“映射”和“归约”。这两个函数都处理(键, 值)对这样的结构化数据。
并行计算下Map/Reduce
Map / Reduce编程平台实现于Apache Hadoop项目中,是Hadoop项目的产晶之 一,该项目的目标是开发可靠的、可仲缩的和分布式计算的开源软件。Hadoop 可以组合成千上万个节点一起来处理
您可能关注的文档
- 基于Breakwn概率模型的快速路匝道与公交专用道协调控制研究.doc
- 基于BreezeAL的软件体系结构可靠性分析策略.doc
- 基于BRL(可扩展商业报告语言)的应用案例研究工作任务大纲(TR).doc
- 基于BSTING框架的视觉语音多模态情感识别检测方法.doc
- 基于BS架构人格测量量表软件系统设计和开发.doc
- 基于BS模式的中小企业信息管理系统的实现.doc
- 基于bs结构的在线图书销售系统工学学士毕业论文.doc
- 基于Btstrap、Mybatis、Spring和Struts2的公司资产管理程序开发开题报告.doc
- 基于B模式的车联网的研究.doc
- 基于B模式的车联网的研究开题报告.doc
原创力文档


文档评论(0)