datastage入门教程.docVIP

下载本文档

1262
0
约1.17万字
约 17页
2019-08-18 发布于河北
举报
版权申诉

datastage入门教程.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

datastage入门教程

简介 DataStage 使用了 Client-Server 架构，服务器端存储所有的项目和元数据，客户端 DataStage Designer 为整个 ETL 过程提供了一个图形化的开发环境，用所见即所得的方式设计数据的抽取清洗转换整合和加载的过程。Datastage 的可运行单元是 Datastage Job ，用户在 Designer 中对 Datastage Job 的进行设计和开发。Datastage 中的 Job 分为 Server Job, Parallel Job 和 Mainframe Job ，其中 Mainframe Job 专供大型机上用，常用到的 Job 为 Server Job 和 Parallel Job 。本文将介绍如何使用 Server Job 和 Parallel Job 进行 ETL 开发。 Server Job 一个 Job 就是一个 Datastage 的可运行单元。Server Job 是最简单常用的 Job 类型，它使用拖拽的方式将基本的设计单元 -Stage 拖拽到工作区中，并通过连线的方式代表数据的流向。通过 Server Job，可以实现以下功能。定义数据如何抽取定义数据流程定义数据的集合定义数据的转换定义数据的约束条件定义数据的聚载定义数据的写入 Parallel Job Server Job 简单而强大，适合快速开发 ETL 流程。Parallel Job 与 Server Job 的不同点在于其提供了并行机制，在支持多节点的情况下可以迅速提高数据处理效率。Parallel Job 中包含更多的 Stage 并用于不同的需求，每种 Stage 使用上的限制也往往大于 Server Job。 Sequence Job Sequence Job 用于 Job 之间的协同控制，使用图形化的方式来将多个 Job 汇集在一起，并指定了 Job 之间的执行顺序，逻辑关系和出错处理等。数据源的连接 DataStage 能够直接连接非常多的数据源，应用范围非常大，可连接的数据源包括：文本文件 XML 文件企业应用程序，比如 SAP 、PeopleSoft 、Siebel 、Oracle Application 几乎所有的数据库系统，比如 DB2 、Oracle 、SQL Server 、Sybase ASE/IQ 、Teradata 、Informix 以及可通过 ODBC 连接的数据库等 Web Services SAS 、WebSphere MQ Server Job Server Job 中的 Stage 综述 Stage 是构成 Datastage Job 的基本元素，在 Server Job 中，Stage 可分为以下五种： General Database File Processing Real Time 本节中将介绍如何使用 Datastage 开发一个 Server Job。如图 1 所示：图 1. Server Job 点击查看大图 Sequential File Stage Sequential File Stage 可用来从一个 Sequential 文件中获取源数据或将数据加载到一个 Sequential 文件中。在使用 Sequential File Stage 时需要指定文件的路径和名称，文件的格式，列的定义和文件写入的类型（覆盖或追加）。图 2. Sequential File 属性框点击查看大图图 3. Sequential File 列定义点击查看大图上图是本节例子中使用到的 Sequence File。在 Input 页中，File Name 参数代表文件的实际路径，如果文件不存在将会被自动建立。Update Action 中选择 Overwrite existing file 表示此文件在加载数据之前将被清空；在 Format 页中，定义文件的格式，例如分隔符，NULL 值，首行是否为列定义等；在 Column 页中，需要输入文件的列定义。 ?Hash File Stage Hash File 以主键将记录分成一个或多个部分的文件，在 Datastage 中通常被用做参考查找。在进行参考查找的时候，Hash File 文件会被加载到内存中，因此具有较高的查找效率。和 Sequence File 类似，使用 Hash File 时需要输入文件的实际地址，通过参数设置写入时的选项，并提供数据的列定义。需要注意的是，Hash File 需要指定主键，如果未指定，第一列被默认为主键。进行参数查找时，使用主键值在 Hash File 中搜索，如果找到则返回该数据，如果未找到则返回 NULL 值。图 4.