Gobblin培训文档孟云雷2016/05目录Gobblin IntroduceGobblin ArchitectureGobblin DeploymentGobblin ScheduleGobblin on YarnJDW京东数据仓库业务Gobblin 介绍 Gobblin 是一个通用数据集成框架,从一些数据源(如:数据库,rest APIs,FTP/SFTP服务器,文件目录等)抽取、转换和加载海量数据到Hadoop上。Gobblin 处理日常规划任务需要所有数据摄取 ETLs,包括作业/任务规划,任务分配,错误处理,状态管理,数据质量检测,数据发布等等。 Gobblin 通过同样的执行框架从不同数据源摄取数据,在同一个地方管理所有不同数据源的元数据。同时结合了其他特性,比如自动伸缩,容错,数据质量保证,可扩展和处理数据模型改革等等。Gobblin 变得更容易使用,是个高效的数据摄取框架。Gobblin Architecture架构图:Gobblin Architecture架构概述 浅绿色部分是Gobblin的结构体,都提供了相应的接口和简单通用实现,所有的结构体通过配置添加或扩展现有实现,实现可扩展可插拔。 绿色部分是Gobblin的工作单元或工作任务。 橙色部分是作业和任务的执行器和任务状态管理器,属于部署环境,用于作业和任务的实际执行。 红色部分是gobblin
原创力文档

文档评论(0)