DataStageStage使用.docVIP

  • 15
  • 0
  • 约 10页
  • 2017-06-11 发布于北京
  • 举报
Funnel阶段 Funnel阶段是一个处理阶段。它将多个输入数据集复制到单个数据集,该操作对于将单独数据集合并到单个大型数据集而言非常有用。该阶段可以有众多输入链接和一个输出链接 Funnel阶段能够以下列三种方式之一运行: 连续传送以不可保证顺序合并输入数据的记录。它依次从每个输入链接获取一条记录。如果输入链接上的数据不可用,那么该阶段会跳至下一个链接,而不是等待。 排序传送按照一个或多个键列的值定义的顺序合并输入记录,输出记录的顺序由这绡排序键确定。 顺序将第一个输入数据集中的所有记录复制到输出数据集,然后将第二个输入数据集中的所有记录复制到输出数据集,依此类推。 对于所有方法,所有数据数据集的元数据都必须椒相同的。 排序传送方法对于其输入数据有一些特定要求。所有输入数据集都 必须根据Funnel操作的键列进行排序。 通常,排序传送操作的所有输入数据集在排序之前都是散列分区的(选择自动分区方法将确保完成这一操作).散列分区可确保具有相同键列值的所有记录都位于同一分区中,以便在同一个节点上处理。如果在Funnel阶段之前在单独的阶段上执行排序和分区,那么必须保留该分区 排序传送操作允许您设置一个主键和多个辅键以确定将输出的记录的顺序。 Funnel阶段:快速路径 InfoSphere DataStage有许多缺省设置,这表示您能够载作业中轻松包含Funnel阶段。本部分指定了要使Funnel阶段运行所需的最少步骤。InfoSphere DataStage提供了多样化的用户界面,且提供了许多快捷方式供您达到特定目标,本部分描述了基本方法。 要使用Funnel阶段: 在“阶段”页面的属性选项卡中,指定“传送类型”。“连续传送”为缺省值,但也可以选择“顺序”或“排序传送”。 如果选择使用“排序传送”方法,则还需要指定对数据进行排序所依据的键。可以重复使用键属性来指定组合键。 如果使用“顺序”方法,请在“阶段”页面的“链接排序”选项卡中,指定合并数据集的顺序。 在“输出”页面的“映射”选项卡中,指定如何派生输出列的方法,即将那些输入列映射到输出列,或如何生成这些输出列。 Funnel阶段:“属性”选项卡 在“属性”选项卡中,可指定确定阶段实际执行那些操作的属性。某些属性是必须的,尽管许多属性都有缺省设置。无缺省设置的属性显示为警告色(缺省为红色),当你为其提供值后变为黑色。 Funnel阶段:“高级”选项卡 执行方式。阶段可以并行方式或顺序方式执行。默认椒并行方式 组合方式。缺省情况下为“自动”方式。该方式允许InfoSphere DataStage合并那些处于并行阶段底层的操作程序,以使他们能够在同一阶段尝试保留分区。 保留分区。缺省值为传播。也可以设置为设置或清除 Funnel阶段:“链接排序”选项卡 该选项卡允许您指定处理输入到Funnel阶段的链接顺序。仅当选择了“顺序”funnel类型时才需要使用该选项卡。 Funnel阶段:输入页面 输入页面主要包括常规选项卡(添加描述内容),分区选项卡(设置分区类型),键列,高级选项卡(设置缓冲方式) Funnel阶段:输出页面 输入页面主要包括常规选项卡(添加描述内容),映射选项卡(设置分区类型),键列,高级选项卡(设置缓冲方式) Remove Duplicates阶段 Remove Duplicates节点是一个处理阶段,该阶段可具有一个输入链接和一个输出链接。Remove Duplicates阶段可将单个已排序数据集作为输入、除去所有的重复行并将结果定入输出数据集。 除去重复记录是一种在执行进一步处理前清理数据集的常用方法。如果输入数据集内的相邻两行中存在相同的键列值,那么会将这两行视为重复行。键列是被指定于确定是否相同的任意列。 输入Remove Duplicates阶段的数据集必须已进行过排序,以使所有具有相同键列值的处于相邻位置。实现这一点,可以使用“输入页面” 的分区选项卡上的阶段内排序工具或使用Sort阶段作为Remove Duplicates阶段的输入 Remove Duplicates阶段:快速路径 InfoSphere DataStage有许多缺省设置,这表示您能够在作业中轻松保护Remove Duplicates阶段。本部分指定了要Remove Duplicates阶段运行所需的最少步骤。InfoSphere DataStage提供了多样化的用户界面,且提供了许多快捷方式供您达到特定目标,本部分描述了基本方法。 要使Remove Duplicates阶段: 在“阶段”页面的“属性”选项卡中,选择键列,将采用该列中相同的值来百事重复行,该阶段将除去这些行。重复使用此属性可指定组合键。 在“输出”页面的“映射”选项卡中,指定如何派生输入列 Remove Dupli

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档