[梦想与现实的作文]Hadoop的梦想与现实.docVIP

[梦想与现实的作文]Hadoop的梦想与现实.doc

  1. 1、本文档共51页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[梦想与现实的作文]Hadoop的梦想与现实

[梦想与现实的作文]Hadoop的梦想与现实 导读:就爱阅读网友为大家分享了多篇关于“梦想与现实的作文”资料,内容精辟独到,非常感谢网友的分享,希望从中能找到对您有所帮助的内容。 相关资料一 : Hadoop的梦想与现实 IDC发布的Hadoop软件生态系统预测报告显示,Hadoop市场正在以60%的年复合增长率高速扩张。Gartner也估计,2014年,Hadoop生态系统市场规模在7700万美元左右,2016年,该市场规模将快速增长至8.13亿美元。 另外,Allied Market Research调查报告显示,2013年至2020年,全球Hadoop市场份额将以58.2%的年复合增长率,从20亿美元增长至50.2亿美元,增长幅度超24倍。其中,大数据分析需求是整个Hadoop市场的主要驱动力,也吸引了众多IT淘金者参与。 Hadoop市场的火爆也体现在人才市场上。2013年,美国某求职网站列出的2013年高薪技术职位排行中,大数据相关技术职位囊括前三甲,分别为Hadoop、Big Data和NoSQL。 Gartner的一项研究表明,到2015年,65%的分析应用程序和先进分析工具都将基于Hadoop平台。在未来一段时间内,Hadoop将变得更加流行。Hadoop的知名度是足够高了,但是Hadoop在项目中到底表现怎么样?有Hadoop项目经验的工程师最有发言权。 上篇:优势与不足 事实上,很多初次接触Hadoop的程序员都会把Hadoop当做化解大数据疑难杂症的灵丹妙药,希望能够迅速地做到药到病除。但是,当下载了Hadoop社区发行版之后,很多工程师才发现成功“驯服”Hadoop的过程是“路漫漫其修远兮”,随之就会产生巨大的心理落差。 Hadoop难“驯服” 曾经担任雅虎首席云计算架构师的Todd Papaioannou曾这样评价Hadoop:它属于底层基础软件,而今天大多数IT人员都不熟悉底层基础软件,因此实施难度大,极为难用。如果不解决技术复杂性问题,Hadoop将被自己终结。 当年,Todd Papaioannou带着团队要完成一项艰巨的任务——在拥有40万个节点的雅虎私有云中配置4.5万台Hadoop服务器,为5000位雅虎开发人员创建一个稳定的开发平台。 雅虎负责建设Hadoop平台的团队个个手忙脚乱,就像一群中学生在车库中做手工,从Hadoop代码库中翻找可供粘贴整合的代码。当基础架构总算搭好的时候,开发者又花了4~5个月才开始发布应用,这也严重影响了雅虎的产品创新进度。 但是,并非所有人都那么惧怕Hadoop,一些技术实力强的互联网公司在驯服了Hadoop之后,开始大胆地尝试一些源于Hadoop尚未成熟但是更高效的开源新技术,如Spark和Yarn。 8月12日,淘宝技术部数据挖掘与计算团队负责人明风在其个人新浪微博上透露,Spark on Yarn已经在淘宝上线一周年了。明风表示,经过团队成员一个多月的努力,终于成功地将Spark on Yarn接入阿里云梯的Yarn生产集群,并每日调度生产作业。目前,这个基于阿里云梯的Yarn集群规模是:100台机器,8核CPU、单个作业最大可用内存400GB。 “死磕”Hadoop 曾经担任原北京暴风科技有限公司暴风影音平台研发经理的童小军,在2010年到2012年两年多的时间里,一直在与Hadoop“死磕”。 回顾那段历史,童小军不无骄傲地说:“当年,暴风影音的业务部门离不开我们的数据部门,数据部门一瘫痪,业务部门就无法决策,第二天的工作也就停止了。” 当时,那头被驯服的“小象”Hadoop成为暴风影音搜索和数据平台的核心角色。该平台的顺利运行给当时的暴风影音带来两个最直接的变化: 第一是将暴风影音每天20TB日志数据的分析时间从7小时缩减为不足1小时。 第二是将整个系统的统计数据作为业务部门第二天开展工作的依据。 例如,哪个服务崩溃了、什么地方的服务出现异常、什么服务的用户量下降了等。该平台还给暴风影音带来了意外收获:随着数据处理速度的提升,原来需要外包给其他公司分析的广告数据,可以由暴风影音的数据部门来承担。 童小军直言:“虽然现在的Hadoop看起来没有那么难掌控,但是当初我们从零起步的时候着实为Hadoop伤透了脑筋,走了很多弯路。” 童小军表示,Hadoop很多默认配置都不能用,需要根据项目自己配置,而且每台机器的配置都不一样,对于初学者来说难度很大。另外,Hadoop平台上的很多应用是用C++或VC开发的,运行前还需要转码。另外,一开始的Hadoop项目,并没有得到公司领导的大力支持,公司只给数据部门配备了3台低端服务器。 无论童小军怎么努力,该平台总是运营一段时间就崩溃。为了能够把Hadoop系统运行起来,童小军曾经给公司高层

您可能关注的文档

文档评论(0)

347991227 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档