gobblin培训文档教程.pptx

  1. 1、本文档共26页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
gobblin培训文档教程

Gobblin培训文档;Gobblin Introduce Gobblin Architecture Gobblin Deployment Gobblin Schedule Gobblin on Yarn; Gobblin 是一个通用数据集成框架,从一些数据源(如:数据库,rest APIs,FTP/SFTP服务器,文件目录等)抽取、转换和加载海量数据到Hadoop上。Gobblin 处理日常规划任务需要所有数据摄取 ETLs,包括作业/任务规划,任务分配,错误处理,状态管理,数据质量检测,数据发布等等。 Gobblin 通过同样的执行框架从不同数据源摄取数据,在同一个地方管理所有不同数据源的元数据。同时结合了其他特性,比如自动伸缩,容错,数据质量保证,可扩展和处理数据模型改革等等。Gobblin 变得更容易使用,是个高效的数据摄取框架。;Gobblin Architecture;架构概述 浅绿色部分是Gobblin的结构体,都提供了相应的接口和简单通用实现,所有的结构体通过配置添加或扩展现有实现,实现可扩展可插拔。 绿色部分是Gobblin的工作单元或工作任务。 橙色部分是作业和任务的执行器和任务状态管理器,属于部署环境,用于作业和任务的实际执行。 红色部分是gobblin的部署模式,有单例模式和hadoop集群模式,单例模式是在一台机器上运行,通过线程池并行运行作业和任务;hadoop集群模式是多台机器并行运行作业和任务;还有一种是gobblin做为本地应用运行在yarn上(与mapreduce和spark同级别),这种方式实现了实时数据摄取(一般是接收kafka的消息数据)。;工作流程 首先,作业调度执行作业之前先获取一把锁,防止下个相同的调度作业,类似于集成的_LOCK,调度系统可选择Azkaban(可百度),Oozie。 下一步,实例化Source,作用是分割摄取数据成多个工作单元(WorkUnit),每个工作单元负责摄取数据的一部分;Source还负责为每个工作单元创建一个提取器(Extractor),用于实际数据的摄取。 ;工作流程 摄取组件比较: 下一步,为每个工作单元(WorkUnit)创建任务(hadoop map任务),也可以通过一个特殊的MultiWorkUnit(包装了多个WorkUnit)创建多个任务。 下一步,启动和运行任务,在单个节点上的独立模式中,任务是在专用于该作业线程池运行,它的大小是在每个作业基础上进行配置。在Hadoop集群上的Hadoop MapReduce的模式,任务在运行映射器(纯粹用作容器运行的任务)。 下一步,作业完成,对于数据发布,由任务状态和JobCommit政策确定 JobCommitPolicy.COMMIT_ON_PARTIAL_SUCCESS 部分成功就可以 JobCommitPolicy.COMMIT_ON_FULL_SUCCESS 所有任务都成功才可以 下一步,数据发布后,作业持久话作业/任务的状态到状态存储,类似于集成的_STARTTIME,将这一次的最大时间或者id写入到存储中,gobblin中称为水印(watermarks ) 下一步,清理临时目录;最后,删除锁。 ;组件详解 构成图 Source and Extractor Source在一个数据源和gobblin之间起到适配器的作用,并且在工作流的开始阶段被使用。 Extractor顾名思义,实际与数据源连接和抽取数据 Gobblin外围提供了许多内置的Source和Extractor的实现,为不同类型的数据源工作,为web service服务提供了许多Rest API,数据库支持JDBC,FTP/SFTP服务和配置。现在, Extractor是面向记录的, Extractor每次读取一个数据记录,虽然在内部它可以选择pull和cache一批数据记录。后续会增加选项提取器,支持面向字节和面向文件的处理。 Converter 转换器(Converter)负责架构和数据记录之前的转换和它是核心构造对于数据传输。 ;组件详解 Converter Converters之间都是兼容的并能和其他转换器链接在一起,在数据输入结构、输出结构和数据记录类型上只要是一对转换器(输入和输出)都是兼容的。注意 一个Converter转换一个输入架构到一个输出架构。转换一个输入数据记录可以到0(1:0 mapping),1(1:1 mapping),or许多(1:N mapping)输出数据记录。 ;组件

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档