DataStage_工作笔记.doc

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
安装与配置 参考文档:《Planning, Installation, and Configuration Guide.pdf》 服务端与客户端的安装 安装拓扑 采用简单的两层部署进行安装,安装拓扑如下图所示: Host1环境如下: 硬件环境 CPU:Inetel Core Duo P8600 内存:4GB 软件环境 操作系统:Windows Server 2003 EE SP2 C++编译器:Microsoft Visual Studio .NET 2008 Express Edition C++ 安装 参考文档:《Planning, Installation, and Configuration Guide.pdf》[pages 198-200] C++编译器配置 参考链接: 支持的C++编译器,见如下链接的系统要求说明: 配置,在环境变量里配置如下两个User Defined变量: 变量名 变量值 备注 LIB C:\Program Files\Microsoft SDKs\Windows\v6.0A\Lib C++ SDK 库的路径 INCLUDE C:\Program Files\Microsoft SDKs\Windows\v6.0A\Include C++ SDK 库的Include路径 注:Windows环境下在系统变量里新增即可。 登陆与安装语言选择 登陆(会话)语言选择中文,DataStage安装语言选择英文,结果Designer里同时有中文和英文,而DB2和WAS都是中文版,如何安装纯英文版的? 解决方法1: 登陆语言选择和安装语言全部选择英文即可安装上纯英文版。 解决方法2: 通过控制面板-区域和语言选项,将语言设置为英语,安装完成后将语言再修改为中文即可。 新建用户与凭证(Credentials) 参考文档:《Day 1 Exercise-DS.doc》[Exercise 1: Administration Console] 通过Web浏览器登陆Web Console for IBM Information Server,地址如下(localhost为server端主机名): 新建两个用户dsadmin和dsuser,如下图: 权限设置如下: dsadmin:Suite User、DataStage and QualityStage Administrator/User dsadmin:Suite User、DataStage and QualityStage User dsadmin 可以正常使用,但dsuser 只能登陆 Administrator,登陆Designer和Director会报错: The current user does not have the required DataStage roles set up. 为什么? 解决方法1: 直接给dsuser同时授予Suite User、DataStage and QualityStage Administrator/User权限。 解决方法2: 以dsadmin登陆Administrator中,在Properties-Permissions中将dsuser新增进来,并将其 User Role 设置为 Developer 即可。 使用客户端连接服务端 在host文件(C:\WINDOWS\system32\drivers\etc下)里新增服务端主机的IP地址和主机名: hostip hostname 如:10.66.0.41 jactop 环境变量(Environment Variable)与作业参数(Job Parameter) 如何设置环境变量 参考文档:《DS SE - DS Overview.》 [pages 77-89] 数据分区(分发)/收集类型 Round Robin 以逐条循环分配的形式将所有数据平均分发给每个node,每个node只得到部分数据。 保证每个节点处理数量相当的数据,从而使得每个节点负载均衡。 Hash 通过Hash算法,将指定Key(s)的Hash值相同的数据分发到同一个node上,这样就可以保证可以多个node同时执行如 Join这样的操作时可以保证数据正确。 注意:Aggregator/Join Stage 的分区类型最好手动选择 Hash。 Entire 以复制的形式使得每个node得到完整的数据。 Tips and Problems 需要Key的分区方法:HaRCP(Runtime Column Propagation) 什么是 RCP 允许开发者忽略源数据和目标数据映射的有力特性。 在运行时 (并非设计时),RCP会自动将源数据所有字段自动映射到目标数据。 比如:需要

文档评论(0)

___________ + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档