27-PipelineIO-Beam数据中转的设计模式.pdfVIP

  • 1
  • 0
  • 约5.94千字
  • 约 6页
  • 2026-03-12 发布于浙江
  • 举报

2277--PPiippeelliinneeIIOO--BBeeaamm数数据据中中转转的的设设计计模模式式

你好,我是蔡元楠

今天我要与你分享的主题是“Pipeline I/O: Beam数据中转的设计模式”

在前面的章节中,我们一起学习了如何使用PCollection来抽象封装数据,如何使用Transform来封装我们的

数据处理逻辑,以及Beam是如何将数据处理高度抽象成为Pipeline来表达的,就如下图所示

讲到现在,你有没有发现我们还缺少了两样东西没有讲?没错,那就是最初的输入数据集和结果数据集那

么我们最初的输入数据集是如何得到的?在经过了多步骤的Transforms之后得到的结果数据集又是如何输

出到目的地址的呢?

事实上在Beam里,我们可以用Beam的Pipeline I/O来实现这两个操作今天我就来具体讲讲Beam的

Pipeline I/O

读读取取数数据据集集

一个输入数据集的读取通常是通过Read Transform来完成的Read Transform从外部源(External Source)中

读取数据,这个外部源可以是本地机器上的文件,可以是数据库中的数据,也可以是云存储上面的文件对

象,甚至可以是数据流上的消息数据

Read Transform的返回值是一个PCollection,这个PCollection就可

文档评论(0)

1亿VIP精品文档

相关文档