ApacheBeam成为Apache顶级项目.pdfVIP

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
ApacheBeam成为Apache顶级项目

Apache Beam成为Apache顶级项目 Spark大数据博客 - Apache Beam成为Apache顶级项目 Apache软件基金会在2017年01月10正式宣布Apache Beam从孵化项目毕业,成为Apache的顶级项目。 如果想及时了 解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop Apache Beam(原名Google DataFlow)是Google在2016年2月份贡献给Apache基金会的Apach e孵化项目,被认为是继MapReduce,GFS和BigQuery等之后,Google在大数据处理领域对开源 社区的又一个非常大的贡献。Apache Beam的主要目标是统一批处理和流处理的编程范式,为无 限,乱序,web-scale的数据集处理提供简单灵活,功能丰富以及表达能力十分强大的SDK。 Beam仅仅是一个SDK,是一个应用顶层的API,那么它下层支持的数据处理框架(官方叫做 Apache Beam Pipeline Runners)主要包括Apache Apex,Apache Flink,Apache Spark以及它自己的Google Cloud Dataflow。 Apache Beam 的两大特点 1、将数据的批处理(batch)和流处理(stream)编程范式进行了统一; 2、能够在任何的执行引擎上运行。 它不仅为模型设计、更为执行一系列数据导向的工作流提供了统一的模型。这些工作流包括数据 处理、吸收和整合。 为什么会诞生Apache Beam 大数据处理领域的一大问题是:开发者经常要用到很多不同的技术、框架、API、开发语言 1 / 3 Apache Beam成为Apache顶级项目 Spark大数据博客 - 和 SDK。根据任务场景的不一样,开发者很可能会用 MapReduce 进行批处理,用 Apache Spark SQL 进行交互请求,用 Apache Flink 实时流处理。新的分布式处理框架可能带来的更高的性能, 更强大的功能,更低的延迟等,但用户切换到新的分布式处理框架的代价也非常大:需要学习一 个新的数据处理框架,并重写所有的业务逻辑。 解决这个问题的思路包括两个部分,首先,需要一个编程范式,能够统一,规范分布式数据 处理的需求,例如,统一批处理和流处理的需求。其次,生成的分布式数据处理任务应该能够在 各个分布式执行引擎上执行,用户可以自由切换分布式数据处理任务的执行引擎与执行环境。Ap ache Beam正是为了解决以上问题而提出的。 Apache Beam主要由Beam SDK和Beam Runner组成,Beam SDK定义了开发分布式数据处 理任务业务逻辑的API接口,生成的的分布式数据处理任务Pipeline交给具体的Beam Runner执行引擎。Apache Beam目前支持的API接口是由Java语言实现的,Python版本的API正在开发之中。如下图所示: 如果想及时了 解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop Apache Beam编程模型的核心是Watermarks, Windows 和 Triggers,它统一了批处理和流处 理的编程范式,为无限,乱序,web- scale的数据集处理提供简单灵活,功能丰富以及表达能力十分强大的SDK。它实现了Tyler Akida 2 / 3 Apache Beam成为Apache顶级项目 Spark大数据博客 - u两篇经典的流式处理文章中描述的几乎所有特性,如果你没看过这两篇文章,建议仔细阅读下 : The world be

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8010045112000002

1亿VIP精品文档

相关文档