- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Datastage 培训资料概要1
Datastage培训
什么是Datastage?
设计jobs 抽取(Extraction)、转换(Transformation)、装载(Loading)即ETL
数据整合项目工具,如数据仓库、数据集市和系统移植。
DataStage的框架,如图-1:
图-1
在开发过程中是通过DataStage的四个客户端(DataStage Administrator如图-2, DataStage Manager如图-3, DataStage Designer如图-4, DataStage Director如图-5)来进行工作的。
图-2 图-3 图-4 图-5
DataStage的基本开发流程:
在Administrator中新建工程、定义全局和工程属性
在Manager中导入元数据
在Designer中定义job
在Designer中编译job
5. 在Director中验证,运行,监控job
DataStage Administrator介绍
主要功能:对server进行一些常规的设置、用来执行管理任务,如建立DataStage用户、新建和删除工程,设置工程的属性。
登陆
登陆后的界面:
在General标签中、可以看到当前server的版本是7.5.1.A,你也可以点击”NLS…”选择Client端的默认字符集。
新建工程
选择Projects标签,
在这里你可以选择Add按钮来新建一个工程“sjzh”如图:
该工程存放的目录为“/home/dsadm/Ascential/DataStage/Projects/sjzh”在这里我们选择系统的默认路径。选择“OK”就新建了一个工程,如图:
更改“Licensing”
选择“Licensing”标签,如图:
在这里可以对Server和Client端的License进行更改。比如当软件License过期时,要在不重新安装的情况下改变License就要使用这个功能。
设置Project的属性
其他页面的属性,请勿修改。
设置TimeOut时间
DataStage Manager介绍
主要功能:存储和管理在Designer中定义jobs过程可再利用的元数据(在数据转换抽取过程中用到的表定义,文件输出格式,routines)、批量编译jobs、导入和导出工程等。
导入导出Job及其它组件
导入
导出
通过Export--(DataStage Components把设计好的job导出保存为DSX文件或者XML文件。
管理配置文件
该文件是定义DataStage的网络节点、安装目录和运行时使用的临时文件。可以配置多个节点。目的是让作业并行、并发执行。提高数据效率。
通过Tools-(Configurations管理DataStage配置文件
DataStage Director使用
主要功能:验证(validate),运行(run),监控(monitor)你所定义的DataStage jobs,为每个job的运行定义时间表(schedule)。
运行已经编译好的Job
注意以下几点:
多个Job可以同时执行,但是需要仔细考虑Job的数据量,处理逻辑的复杂程度。否则可能造成,其中一个或者多个Job异常。
Job并行运行时,可能会提高效率,但是也可能造成并行运行的时间比串行运行时间还长。具体要看每个Job的CPU和I/O负荷。
每个Job可以生成多个Instance,多个Instance可以并发执行。须特别注意:重新编译后同一个Job的Instance将会消失。
在Design中设置同一个Job生成多个Instance
在Direct设置多个实例运行规则
输入Invocation ID,即Instance No
将编译好的Job加入计划任务
未编译好的Job不能使用schedule。
监控Job的运行情况
杀死僵死进程
进入清除资源页面
杀死进程
DataStage Designer
主要功能:抽取(extracting),清洗(cleansing),转换(transforming),整合(integrating)和装载(loading)数据到仓库中的表中。
常用的控件:ODBC Enterprise,Column Generator,Peek,Row Generator,Sequential File,Aggregator,Copy,Filter,FTP Enterprise,Funnel,Join,Merge,Modify,Switch,Transformer
DataStage JOB属性设置
进入JOB属性设置页面,并选择“允许同一个JOB多实例运行”。
设置JOB参数:
A
文档评论(0)