Hadoop与SparkMR对比测试运行模式计算资源运行时间（min）成本.pptVIP

下载本文档

49
0
约5.2千字
约 24页
2017-12-15 发布于天津
举报
版权申诉

Hadoop与SparkMR对比测试运行模式计算资源运行时间（min）成本.ppt

1、本文档共24页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

从图中可以看出，已经有超过1000家企业开始使用该平台，其中包括传统工业厂商 TOYOTA 和著名 O2O 公司 Uber 与 airbnb，说明 Spark 用户领域延伸到传统工业界和互联网与传统行业交叉领域。此外，越来越多的大数据商业版发行商（如曾今的Hadoop发行商hortonworks，cloudera）也开始将 Spark 纳入其部署范围，这无疑对 Spark 的商业应用和推广起到巨大作用。 * * * * * * * * * * 软件工程基础 Spark 应用介绍刘驰企业应用概况图片来源Spark技术峰会（下同）：/ * * Spark社区发展情况由图看出 Spark 社区从 2010 年到 2014 年开源贡献者的数量不断增加，在这些代码贡献者中出现很多中国公司和开发者的身影。例如目前世界上最大的 Spark集群在腾讯，拥有高达 8000 个节点；最大的单任务处理数据量达到 1PB，这项记录是由阿里巴巴公司和 databricks 公司共同持有。 * Spark体系结构 * 视频娱乐领域：腾讯公司在Spark平台的应用公司背景：中国最大社交应用服务提供商，BAT中唯一一家股价持续增长企业数据背景：截止至2015年，腾讯QQ用户月活超过8亿，微信月活达到6亿，每日接入数据量达到200T以上业务需求：因为腾讯收入的很大一部分在广告，基本上90%以上的数据是在线处理，实时训练模型，实时推荐。 * Tencent Distributed Data Warehouse 腾讯内部规模最大的分布式系统是 TDW（分布式数据仓库），TDW 集中了腾讯内部各个产品的数据，为每个产品提供海量数据存储和分析服务，包括数据挖掘、产品报表、经营分析等服务。 TDW支持百 PB 级的数据存储和计算，其计算引擎包括两部分：一个是偏离线的 MapReduce，一个是偏实时的 Spark和Storm。 * Hadoop与Spark M/R对比测试运行模式计算资源运行时间（min）成本（Slot*秒） MapReduce 200 Map+100 Reduce 120 693872 Spark 200 Executor 33 396000 Spark 400 Executor 21 504000 这张图是Hadoop执行mapreduce算法与Spark执行统一MapReduce算法的运行性能比较图。可以看出，基于内存计算的Spark的运行时间明显小于MapReduce，时间仅仅是hadoop的四分之一左右，当增加Spark的Executor(执行器)，运算能更快。总之，数据挖掘业务大多具有复杂的处理逻辑，传统的MapReduce类计算框架在应对此类数据处理任务时存在着严重的性能问题。针对这些任务需求，利用Spark的迭代计算和内存计算优势，将会大幅降低运行时间和计算成本。 * 电商领域：淘宝网在Spark的应用实践公司背景中国最大C2C电商企业，是国内较早使用Spark的公司（2012年开始）数据背景截止2014年，淘宝网注册会员超5亿人，每天有超过1.2亿的活跃用户，在线商品数达到10亿件，淘宝网和天猫平台的交易额总额超过了1.5万亿。2015年双十一的成交额更是达到900多亿，其带来的日均数据量也是TB级别。业务需求过去淘宝使用基于Hadoop的云梯，不过使用Hadoop在做迭代式计算的时候遇到很多问题，尤其是数据挖掘算法，每次迭代消耗时间巨大。于是开始使用Spark来解决业务问题。 * Spark的应用历程如图所示是淘宝网使用Spark的历程，可以看出淘宝在很早的时候就发现Spark，并开始研究使用它。 * 淘宝公司的Spark的应用开发流程由图可以看出，公司内部在上线应用之前会在测试服务器上进行压力测试，然后发布到生成服务器，同时在应用过程中有新的研究成果可以更新到本地仓库和提交到开源社区。 * 淘宝网推荐系统架构有图可以看出淘宝推荐系统综合运用了Spark、Spark MLlib和Spark streaming，将它们组成包含离线、近线和在线的立体三维分析系统，覆盖了淘宝的绝大部分业务。 * KMeans算法性能测试从内存角度看，增加worker的运行内存，算法的运行会加快；当增加worker的个数，计算速度更快。说明增加并行度和内存容量对Spark应用执行时间有很大影响。 * 电信领域：Telefonica的Spark应用公司背景 Telefonica是西班牙电话公司，向海内外顾客提供综合性服务，包括固定通讯线路、移动电话、互联网、数据和有线电视等数据背景该公司是西班牙最大的跨国公司