ETL数据整合与处理 第3章 记录处理 (1) 优秀教学课件.pptxVIP

  • 22
  • 0
  • 约7.1千字
  • 约 58页
  • 2021-02-26 发布于四川
  • 举报

ETL数据整合与处理 第3章 记录处理 (1) 优秀教学课件.pptx

记录处理目录排序记录1去除重复记录2替换NULL值3过滤记录4任务描述排序是对数据中的无序记录,按照自然或客观规律,根据关键字段大小递增或递减的次序,对记录重新排列的过程。为了得出学生的成绩排名,需要对“2019年11月月考数学成绩.xls”文件,使用【排序记录】组件,对学生的成绩从低到高排序。任务分析(1) 建立【排序记录】转换工程。(2) 设置【排序记录】组件参数。(3) 预览结果数据。建立排序记录转换工程使用Ctrl+N快捷键,创建【排序记录】转换工程。接着创建【Excel输入】组件,设置参数,导入“2019年11月月考数学成绩.xls”文件,预览数据,如图所示,其中“数学”字段数据处于无序状态。建立排序记录转换工程在【排序记录】转换工程中,单击【核心对象】选项卡,展开【转换】对象,选中【排序记录】组件,并拖曳至右边工作区中。由【Excel输入】组件指向【排序记录】组件,建立节点连接,如图所示。设置参数双击【排序记录】组件,弹出【排序记录】对话框,如图所示。设置参数【排序记录】组件的参数包含了组件的基础参数和【字段】表参数,有关参数的说明如表所示。其中,【字段】表参数是设置参与排序的字段参数,可以对多个字段设置参数。参数名称说明基础参数步骤名称表示排序组件名称,在单个转换工程中,名称必须唯一。默认值是【排序记录】组件名称排序目录表示排序时存放临时文件的目录,可以直接键盘设置,也可以单击【浏览(B)…】按钮,设置为计算机上已存在的目录。默认值是当前系统标准临时文件目录%%java.io.tmpdir%% 临时文件前缀表示临时文件前缀名称,排序时使用临时文件,可以加快和方便排序。当行数超过指定的排序大小时候,系统将使用临时文件排序行。默认值为out排序缓存大小表示存放在内存的记录数,存储在内存中的记录越多,排序过程就越快。默认值为1000000未使用内存限值(%)表示未使用内存的百分比限值。排序时,如果发现可用的空闲内存少于指定的数字,系统将会将数据分页到磁盘。默认值为空压缩临时文件表示需要临时文件来完成排序时,是否压缩该临时文件。默认值为空仅仅传递非重复的记录表示是否启用仅向输出流传递唯一的记录。默认值为空字段表示参加排序的字段,使用一个【字段】表来设置字段的参数。有关排序字段参数的说明如下表所示 设置参数字段参数说明字段名称指定排序的字段名称,可用多个字段进行组合排序。可以直接键盘输入,也可以单击输入框,从下拉框中选中输入流的字段,还可以点击图 3?3所示的【获取字段】按钮,获取所有字段进行编辑,保留需要排序的关键字段,删除不参加排序的字段升序对指定的字段制订排序方向(升序/降序),选项有:是、否大小写敏感指定的排序时是否区分大小写,选项有:是、否Sort base on current locale?是否根据当前位置排序,选项有:是、否Collator Strength指定排序器强度,选项有:0、1、2、3Presorted?是否进行预排序,选项有:是、否设置参数在【排序目录】对话框中,设置参数,将“数学”字段的数据按照从低到高进行排序,步骤如下。(1) 确定组件名称。【步骤名称】参数保留默认值“排序记录”。(2) 确定排序目录。【排序目录】参数保留默认值“%%java.io.tmpdir%%”。设置参数(3) 设置排序字段参数。在【字段】表中,对各字段的参数进行设置,此时完成【排序目录】组件参数的设置,如图所示。预览结果数据在【排序记录】排序工程中,单击【排序记录】组件,再单击工作区上方的 图标。预览数据,展示排序后的数据,如图所示。目录排序记录1去除重复记录2替换NULL值3过滤记录4任务描述由于输入或其他错误的原因,数据文件中可能出现两条或多条数据完全相同的记录,这些相同的记录称为重复记录。重复的记录属于“脏数据”,会造成数据统计和分析不正确,必须清洗掉重复记录。由于在“期考成绩.xls”文件中,发现存在序号不同,但是学号、各科考试成绩完全相同的记录,所以需要使用【去除重复记录】组件,去除这些重复的数据。任务分析(1) 建立【去除重复记录】转换工程。(2) 设置【去除重复记录】组件参数。(3) 预览结果数据。建立去除重复记录转换工程在去除重复记录(简称去重)之前,必须使用关键字段对数据记录进行排序,确定哪些记录属于重复记录。使用Ctrl+N快捷键,创建【去除重复记录】转换工程。接着创建【Excel输入】组件,设置参数,导入“期考成绩.xls”文件。接着创建【排序记录】组件,并由【Excel输入】组件指向【排序记录】组件,建立节点连接,如图所示。建立去除重复记录转换工程双击【排序记录】组件,对“学号”字段按照升序进行排序后预览数据,如图所示,除了“序号”字段数据外,“学号”分别为“201709023”“2

文档评论(0)

1亿VIP精品文档

相关文档