Datastage 培训资料概要1.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Datastage 培训资料概要1

Datastage培训 什么是Datastage? 设计jobs 抽取(Extraction)、转换(Transformation)、装载(Loading)即ETL 数据整合项目工具,如数据仓库、数据集市和系统移植。 DataStage的框架,如图-1: 图-1 在开发过程中是通过DataStage的四个客户端(DataStage Administrator如图-2, DataStage Manager如图-3, DataStage Designer如图-4, DataStage Director如图-5)来进行工作的。 图-2 图-3 图-4 图-5 DataStage的基本开发流程: 在Administrator中新建工程、定义全局和工程属性 在Manager中导入元数据 在Designer中定义job 在Designer中编译job 5. 在Director中验证,运行,监控job DataStage Administrator介绍 主要功能:对server进行一些常规的设置、用来执行管理任务,如建立DataStage用户、新建和删除工程,设置工程的属性。 登陆 登陆后的界面: 在General标签中、可以看到当前server的版本是7.5.1.A,你也可以点击”NLS…”选择Client端的默认字符集。 新建工程 选择Projects标签, 在这里你可以选择Add按钮来新建一个工程“sjzh”如图: 该工程存放的目录为“/home/dsadm/Ascential/DataStage/Projects/sjzh”在这里我们选择系统的默认路径。选择“OK”就新建了一个工程,如图: 更改“Licensing” 选择“Licensing”标签,如图: 在这里可以对Server和Client端的License进行更改。比如当软件License过期时,要在不重新安装的情况下改变License就要使用这个功能。 设置Project的属性 其他页面的属性,请勿修改。 设置TimeOut时间 DataStage Manager介绍 主要功能:存储和管理在Designer中定义jobs过程可再利用的元数据(在数据转换抽取过程中用到的表定义,文件输出格式,routines)、批量编译jobs、导入和导出工程等。 导入导出Job及其它组件 导入 导出 通过Export--(DataStage Components把设计好的job导出保存为DSX文件或者XML文件。 管理配置文件 该文件是定义DataStage的网络节点、安装目录和运行时使用的临时文件。可以配置多个节点。目的是让作业并行、并发执行。提高数据效率。 通过Tools-(Configurations管理DataStage配置文件 DataStage Director使用 主要功能:验证(validate),运行(run),监控(monitor)你所定义的DataStage jobs,为每个job的运行定义时间表(schedule)。 运行已经编译好的Job 注意以下几点: 多个Job可以同时执行,但是需要仔细考虑Job的数据量,处理逻辑的复杂程度。否则可能造成,其中一个或者多个Job异常。 Job并行运行时,可能会提高效率,但是也可能造成并行运行的时间比串行运行时间还长。具体要看每个Job的CPU和I/O负荷。 每个Job可以生成多个Instance,多个Instance可以并发执行。须特别注意:重新编译后同一个Job的Instance将会消失。 在Design中设置同一个Job生成多个Instance 在Direct设置多个实例运行规则 输入Invocation ID,即Instance No 将编译好的Job加入计划任务 未编译好的Job不能使用schedule。 监控Job的运行情况 杀死僵死进程 进入清除资源页面 杀死进程 DataStage Designer 主要功能:抽取(extracting),清洗(cleansing),转换(transforming),整合(integrating)和装载(loading)数据到仓库中的表中。 常用的控件:ODBC Enterprise,Column Generator,Peek,Row Generator,Sequential File,Aggregator,Copy,Filter,FTP Enterprise,Funnel,Join,Merge,Modify,Switch,Transformer DataStage JOB属性设置 进入JOB属性设置页面,并选择“允许同一个JOB多实例运行”。 设置JOB参数: A

文档评论(0)

yaocen + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档