- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Netflix基于AWS的大数据平台Hadoop架构解析
Netflix基于AWS的大数据平台Hadoop架构解析摘要:Netflix近日在官方的博客上的公开了部署在AWS之上的Hadoop平台架构,而且该架构还是属于“独家制造”。Netflix的数据科学家在官方的博客中介绍了该平台在运行、管理以及访问多集群时的灵活性,还包括基于AWS的Hadoop架构以及Hadoop平台即服务(PaaS)。【CSDN报道】Netflix近日公开了部署在AWS之上的Hadoop平台架构,而且运行Hadoop工作负载的架构还是属于“独家制造”。来自Netflix的数据科学家Sriram Krishnan和Eva Tse在官方的博客中介绍了该平台在运行、管理以及访问多集群时的灵活性,还包括基于AWS的Hadoop架构以及Hadoop平台即服务(PaaS),该服务被称之为“Genie”。毋庸置疑,Netflix在云计算领域有着很独特的发展——几乎把所有的一切都部署在AWS平台之上;除此之外,Netflix已经把触角深入到大数据工作负载的领域。Netflix是一个“重量级”的Hadoop用户,在2012年6月份Gigaom的记者Derrick Harris就撰文阐述了Netflix如何收集用户的数据,进而使用一些方法来对这些数据进行分析,而正是Hadoop在存储以及处理这些数据时为Netflix立下了“汗马功劳”。对该技术博客的编译如下:云端:Hadoop平台即服务Hadoop在管理和处理数百TB到PB级数据上的能力,已经成为事实上的标准。在Netflix中,基于Hadoop的数据仓库已经是PB级的规模,而且增长迅速。不过随着大数据时代的爆发,这也不是什么新鲜事。然而该架构是独一无二的,它可以帮助Netflix在云端构建一个几乎是无限规模的数据仓库。(无论是数据的处理还是计算能力都很强大)在本文中Sriram和Eva讨论这个基于云的数据仓库,阐述了它和传统基于数据中心Hadoop架构的不同之处;还有他们是如何利用弹性云来构建这个具有动态扩展性的系统。与此同时,他们还介绍了Genie,这是自家的Hadoop平台服务(PaaS),而且为作业执行和资源管理提供了一个REST-ful API。架构视图传统的基于数据中心的Hadoop数据仓库,数据被托管在HDFS上,HDFS能够运行在标准硬件之上,提供高容错性和高吞吐量的大型数据集的访问。在云端搭建Hadoop数据仓库最经典的方式应该遵循这个模式,只不过是把数据存储在(基于云的Hadoop集群)HDFS之上。然而,就像在下一节描述的那样,他们选择把所有的数据存储在亚马逊的存储服务(S3),这也是架构得以实现的核心原则。架构的总体视图如下图所示,细节将逐一展开。图:基于AWS的Hadoop架构图使用S3作为云的数据仓库S3是Netflix基于云的数据仓库服务真正的“源”。所有值得保留的数据集都存储在S3之中,包括很多数据流的信息,它们来自于(拥有Netflix功能)电视机、个人电脑以及各种移动设备的使用过程,这些信息被称为Ursula的日志数据管道所抓取;同时还有来自Cassandra的维度数据。那么为什么Netflix使用S3而不是HDFS作为“源”呢?首先,S3提供了一个高达99.999999999%持久性和99.99%可用性(在特定的一年),能够承担两个设施中并发的数据丢失现象;其次,S3提供了版本信息存储块,可以用它来防止意外的数据丢失,例如,一个开发人员错误地删除了一些数据,可以很容易的进行恢复;第三,S3具有弹性,提供了几乎“无限”的规模扩展,这样数据仓库就实现了从几百TB到PB级的有序增长,而无需提前准备存储资源。最后一点,使用S3作为数据仓库可以帮助Netflix运行多个高动态的集群,这些适用于故障和负载,他们将在下面的章节中进行说明。另一个方面,虽然S3的读/写速度比HDFS要慢。然而,大多数的查询和处理往往是多级的MapReduce作业。在第一阶段中,mapper从S3平行的读取输入数据,reducer在最后阶段把输出数据返回至S3,而HDFS和本地存储用于存储所有的中间级和临时数据,这就降低了性能的开销。针对不同工作负载的多个Hadoop集群Netflix目前使用亚马逊的Elastic MapReduce,而把S3作为数据仓库可以针对不同的工作负载弹性配置多个Hadoop集群,所有的集群都连接相同的数据。一个大的(超过500个节点)查询集群被工程师、数据科学家以及分析师用于执行ad hoc查询,Netflix的“产品”(或者说“SLA”)集群,几乎和查询集群有着相同的规模,运行SLA-driven ETL(抽取,转换,加载)作业。Netflix也拥有着几个其他的“dev”集群。如果Netflix使用HDFS做为“源”的话,接下来可能就需要一个进程
您可能关注的文档
- net中的消息队列--博客园.docx
- 《电子商务技术概论》课程论文-宋雪琪-2014140084-Z计算机121.doc
- NewMicrosoftWordDocument标准.doc
- 《社会调查的理论与方法》期末复习串讲ppt与作业答案12月4日总结.doc
- 《第3课从汉至元政治制度的演变(人教版)》备课资料.doc
- Nero10刻录软件最新版图文教程.doc
- new委托业务设计编写提纲7.12.docx
- new工作总结与思路.doc
- 《经济法》08年1月考试题.doc
- 《职业生涯规划》教案3.doc
- 小学科学:ESP8266智能插座电路原理与动手实践研究教学研究课题报告.docx
- 《金融开放浪潮下我国多层次监管体系构建与创新研究》教学研究课题报告.docx
- 区域教育质量监测中人工智能应用的数据质量分析与优化策略教学研究课题报告.docx
- 《金融科技监管中的数据治理与合规性要求》教学研究课题报告.docx
- 《3D打印技术在航空航天领域中的多材料制造与复合材料应用》教学研究课题报告.docx
- 《绿色金融发展中的政府职能与市场机制研究》教学研究课题报告.docx
- 《植物工厂多层立体栽培光环境调控技术对植物生长发育节律的调控机制探讨》教学研究课题报告.docx
- 销售团队年度业绩总结.docx
- 银行风险管理与金融危机防范.docx
- 银行网络攻击预警与快速响应机制.docx
最近下载
- 最新完整版-途观2012版使用维护说明书.pdf
- 运动生理学 课后答案 (王瑞元 苏全生).pdf VIP
- 2025中国南水北调集团新能源投资有限公司第一批中层及职员岗位社会招聘模拟试卷含答案解析.docx VIP
- 2024年辽宁省高考英语试卷(含答案解析)+听力音频.docx
- 钢轨闪光焊工艺及缺陷 的分析.pdf VIP
- 农行支行信贷营销经验总结.pptx
- 电子制图Portel DXP 2004 项目三.pptx VIP
- 化工导论第三章资料.ppt VIP
- 电子制图Portel DXP 2004 项目二.pptx VIP
- (高清版)B 4053.2-2009 固定式钢梯及平台安全要求 第2部分:钢斜梯.pdf VIP
文档评论(0)