Netflix基于AWS的大数据平台Hadoop架构解析.docxVIP

下载本文档

4
0
约6千字
约 7页
2017-02-13 发布于北京
举报
版权申诉

Netflix基于AWS的大数据平台Hadoop架构解析.docx

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Netflix基于AWS的大数据平台Hadoop架构解析

Netflix基于AWS的大数据平台Hadoop架构解析摘要：Netflix近日在官方的博客上的公开了部署在AWS之上的Hadoop平台架构，而且该架构还是属于“独家制造”。Netflix的数据科学家在官方的博客中介绍了该平台在运行、管理以及访问多集群时的灵活性，还包括基于AWS的Hadoop架构以及Hadoop平台即服务（PaaS）。【CSDN报道】Netflix近日公开了部署在AWS之上的Hadoop平台架构，而且运行Hadoop工作负载的架构还是属于“独家制造”。来自Netflix的数据科学家Sriram Krishnan和Eva Tse在官方的博客中介绍了该平台在运行、管理以及访问多集群时的灵活性，还包括基于AWS的Hadoop架构以及Hadoop平台即服务（PaaS），该服务被称之为“Genie”。毋庸置疑，Netflix在云计算领域有着很独特的发展——几乎把所有的一切都部署在AWS平台之上；除此之外，Netflix已经把触角深入到大数据工作负载的领域。Netflix是一个“重量级”的Hadoop用户，在2012年6月份Gigaom的记者Derrick Harris就撰文阐述了Netflix如何收集用户的数据，进而使用一些方法来对这些数据进行分析，而正是Hadoop在存储以及处理这些数据时为Netflix立下了“汗马功劳”。对该技术博客的编译如下：云端：Hadoop平台即服务Hadoop在管理和处理数百TB到PB级数据上的能力，已经成为事实上的标准。在Netflix中，基于Hadoop的数据仓库已经是PB级的规模，而且增长迅速。不过随着大数据时代的爆发，这也不是什么新鲜事。然而该架构是独一无二的，它可以帮助Netflix在云端构建一个几乎是无限规模的数据仓库。（无论是数据的处理还是计算能力都很强大）在本文中Sriram和Eva讨论这个基于云的数据仓库，阐述了它和传统基于数据中心Hadoop架构的不同之处；还有他们是如何利用弹性云来构建这个具有动态扩展性的系统。与此同时，他们还介绍了Genie，这是自家的Hadoop平台服务（PaaS），而且为作业执行和资源管理提供了一个REST-ful API。架构视图传统的基于数据中心的Hadoop数据仓库，数据被托管在HDFS上，HDFS能够运行在标准硬件之上，提供高容错性和高吞吐量的大型数据集的访问。在云端搭建Hadoop数据仓库最经典的方式应该遵循这个模式，只不过是把数据存储在（基于云的Hadoop集群）HDFS之上。然而，就像在下一节描述的那样，他们选择把所有的数据存储在亚马逊的存储服务（S3），这也是架构得以实现的核心原则。架构的总体视图如下图所示，细节将逐一展开。图：基于AWS的Hadoop架构图使用S3作为云的数据仓库S3是Netflix基于云的数据仓库服务真正的“源”。所有值得保留的数据集都存储在S3之中，包括很多数据流的信息，它们来自于（拥有Netflix功能）电视机、个人电脑以及各种移动设备的使用过程，这些信息被称为Ursula的日志数据管道所抓取；同时还有来自Cassandra的维度数据。那么为什么Netflix使用S3而不是HDFS作为“源”呢？首先，S3提供了一个高达99.999999999%持久性和99.99%可用性（在特定的一年），能够承担两个设施中并发的数据丢失现象；其次，S3提供了版本信息存储块，可以用它来防止意外的数据丢失，例如，一个开发人员错误地删除了一些数据，可以很容易的进行恢复；第三，S3具有弹性，提供了几乎“无限”的规模扩展，这样数据仓库就实现了从几百TB到PB级的有序增长，而无需提前准备存储资源。最后一点，使用S3作为数据仓库可以帮助Netflix运行多个高动态的集群，这些适用于故障和负载，他们将在下面的章节中进行说明。另一个方面，虽然S3的读/写速度比HDFS要慢。然而，大多数的查询和处理往往是多级的MapReduce作业。在第一阶段中，mapper从S3平行的读取输入数据，reducer在最后阶段把输出数据返回至S3，而HDFS和本地存储用于存储所有的中间级和临时数据，这就降低了性能的开销。针对不同工作负载的多个Hadoop集群Netflix目前使用亚马逊的Elastic MapReduce，而把S3作为数据仓库可以针对不同的工作负载弹性配置多个Hadoop集群，所有的集群都连接相同的数据。一个大的（超过500个节点）查询集群被工程师、数据科学家以及分析师用于执行ad hoc查询，Netflix的“产品”（或者说“SLA”）集群，几乎和查询集群有着相同的规模，运行SLA-driven ETL（抽取，转换，加载）作业。Netflix也拥有着几个其他的“dev”集群。如果Netflix使用HDFS做为“源”的话，接下来可能就需要一个进程