DataStage企业版初级培训.ppt

  1. 1、本文档共65页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
DataStage 企业版 -----初级培训 DataStage 什么是DataStage DataStage的体系结构及其组件 如何使用DataStage完成工作 DataStage并行处理机制 常用Stage介绍 传统的ETL过程 从数据源中抽取数据(Extraction) ,然后对这些数据进行转化(Transformation) ,最终加载(Loading)到目标数据库或者数据仓库中去,这也就是我们通常所说的 “ETL 过程”,它是数据整合的核心内容。 传统ETL方法的弊端 需要手工编写大量的代码,费时费力 难以扩展、维护费用高 需要不断调整代码来符合需求的变化 对于不同的源和目标需要分别编写抽取和加载的代码 难以对元数据进行管理 什么是DataStage? DataStage是一套完整高效的专业数据整合工具。它可用于: 数据仓库(Data Warehouses) 数据集市(Data Marts) 系统迁移(System Migrations) 通过DataStage: 可以对ETL过程进行方便的管理。 通过图形化的界面设计作业,对数据进行抽取、转换和加载。 可以对作业的执行进行调度和监控。 使用内建的本地Repository,可方便的导入、导出和管理元数据(Metadata)。 出色的数据源连接能力 数据整合工具的数据源连接能力是非常重要的,这将直接决定它能够应用的范围。DataStage 能够直接连接非常多的数据源,包括: 文本文件 XML 文件 企业应用程序,比如 SAP、Siebel、Oracle 以及PeopleSoft 几乎所有的数据库系统,比如 DB2、Oracle、SQL Server、Informix等 Web services WebSphere MQ 正是因为出色的连接能力,DataStage 使用户能够专注于数据转换的逻辑而不用太担心数据的抽取和加载。 DataStage 什么是DataStage DataStage的体系结构及其组件 如何使用DataStage完成工作 DataStage并行处理机制 常用Stage介绍 DataStage 体系结构 DataStage 体系结构 DataStage 的开发环境基于 C/S 模式。 Client 只能安装在 Windows 平台上面。 Server 支持多种平台,如 Windows、Redhat Linux、AIX、HP-UNIX等。 DataStage Client 有四种客户端工具,分别是: DataStage Administrator DataStage Manager DataStage Designer DataStage Director DataStage 客户端工具连接到DataStage Server 上进行 ETL Job 开发,DataStage Server 再与后台的数据库连接起来进行数据处理。 DataStage 的客户端工具之间是相互合作的关系。 客户端各组件功能概述 Administrator – 设置服务器,管理工程,设置工程属性 Manager – 导入元数据,备份工程 Designer – 设计、编译、执行Job Director – 调度job,检查、监控Job的运行状态 ETL Job开发流程 用 DataStage Administrator 新建项目,并对项目的属性进行设置; 用 DataStage Designer 连接到新建的项目上进行图形化的ETL Job的设计; 用 DataStage Director 来监控Job的运行日志,对设计好的ETL Job设置运行计划,比如多长时间运行一次ETL Job; 用 DataStage Manager 进行ETL Job的备份,管理元数据等。 DataStage Administrator 工程管理界面 工程属性设置 工程环境变量设置 权限设置 DataStage Manager的作用 管理DataStage的Repository 管理MetaData 备份Job 导入元数据 从备份文件导入 导入表定义 导出 导出/备份 DataStage Designer 用于创建,删除,编辑Job 对Job进行编译和运行 图形化、拖拽式的Job设计界面,无需编写复杂的脚本语言 DataStage Designer DataStage Designer 设置Stage属性 DataStage Director的主要作用 对Job进行调度 监控、记录Job运行的log 清除锁死的Job进程 安排Job的执行计划 查看日志及性能监控 定制

文档评论(0)

a13355589 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档