网站大量收购闲置独家精品文档,联系QQ:2885784924

ETL培训1概述.ppt

  1. 1、本文档共35页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Kettle场景实例—全量抽取 事实表抽取 A.资产负债实例 Kettle场景实例—全量抽取 事实表抽取 A.成本指标实例 Kettle场景实例—增量抽取 增量抽取原理 Kettle场景实例—增量抽取 增量更新按照数据种类的不同大概可以分成: 1.?只增加,不更新, 2.?只更新,不增加 3.?即增加也更新 4.?有删除,有增加,有更新 将源库的时间戳抽取到目标表中,每次抽取数据的时候,先读取这个目标数据库表的时间戳的最大值,把这个值当作参数传给原数据库的相应表,根据这个时间戳来做限定条件来抽取数据,抽取之后同样要保留这个时间戳,同时使用Kettle的Update 步骤实现新增和更新功能。 Kettle场景实例—增量抽取 业务数据抽取 Kettle场景实例—增量抽取 业务数据抽取—凭证抽取 Kettle场景实例—增量抽取 业务数据抽取—凭证抽取 节点说明: 它冻结所有的输出,直到从上一步骤来的最后一行数据到达,最后一行数据将发送到下一步。 执行SQL脚本,可在转换初始化的时候执行,或者在步骤的每一个输入行执行。SQL 脚本中使用参数 Kettle场景实例—增量抽取 设置变量,允许你在一个任务中或者虚拟机中设置变量。它仅仅可以用一行数据来设置变量值。 可用的范围设定如下: Valid in the virtual machine:整个虚拟机将知道那个变量,换仅仅可以在单机模式下运行。 Valid in the parent job:变量仅仅在父任务中合法的。 Valid in the grand-parent job: 变量仅仅在祖父任务中合法的。 Valid in the root job: 变量仅仅在根任务中合法的。 允许你获取一个变量,它可以返回行或者附加值到输入行,需要指定完整的变量格式${variable}或者%%variable%%。 数据中心的总体架构分为数据获取、数据存储和数据展现三部分,数据获取和数据存储属于数据中心后台,数据展现属于数据中心的前台。 可以看出,数据中心基础架构主要包括: 1、管控中心。管控中心是数据中心的管理中心,是系统管理员和建模人员的工作平台。 2、ETL工具。实现数据的抽取、转换、加载、清洗。 3、主数据管理。主数据管理系统为数据中心提供数据基准服务。 4、元数据管理。元数据服务于数据仓库建模、ETL过程和BI分析过程。 5、数据服务平台。提供多维数据服务、操作数据服务等。 6、BI工具。依托数据集市实现BI功能,包括OLAP分析、报表、仪表板、即席查询等。 7、展现平台。包括应用的随需组装、最终用户的管理及权限分配、和其他系统的单点登录等。 暂存区的目的? 参考ETL的生命周期,我们将它分为两个时期:设计期(Design)与运行期(Runtime)。 设计期: 对数据流程进行配置,配置完成后,可设置其调度周期,进行本地调试,调试通过后,可利用运行期作业执行引擎(Runtime Engine)执行当前作业。 A.任务/转换 任务(Job)转换(Transform)是设计期设计的主要内容,是可以提交引擎执行的数据流程。 任务:它的流程节点主要包括类似于单个或多个文件操作,例如压缩,FTP,Email,转换(Transform)等,粒度相对转换(Transform)来说比较粗。任务可以进行参与引擎的调度。 转换: 它的流程节点主要包括数据级别的操作,如表输入、表输出、排序、笛卡尔乘积、if/else分支、switch分支、维表查询/更新等等,它的处理单元是数据集合或单条记录。它不能参与引擎的调度,如果需要的话,可以将它加入到一个任务(Job)的步骤中来进行引擎调度。 B.导入/导出 可以将定义的任务/转换导入/导出为XML文件。即使在离线的状态下也可以进行定义工作。 C.流程校验 流程定义完成后,可以对流程进行校验,主要校验的内容有:是否闭环、是否定义的内容与实际数据源的PDM不符、以及字段的映射关系是否合理等。 D.调试/运行 流程定义完成后,可以对流程进行调试,其中可以设置断点等。 E.监控配置 对监控的信息进行配置,如日志的级别,日志的输出路径,错误信息的输出路径,以及性能数据的采样周期与它的数据存储位置。 运行期: 指定设计期设计好的作业进行运行。运行过程中将性能、错误、日志数据输出为本地结构化文件或数据库表。 A.作业执行引擎 它的功能主要用来执行定义好的任务。 B.定时调度 对任务的执行周期进行定义。 C.任务执行监控 引擎在执行过程中输出的执行日志、错误信息以及性能相关数据。 样例截图: E:\pdi-open-3.1.0-RC1kitchen /rep

文档评论(0)

w5544434 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档