ETL数据整合与处理 第4章 字段处理 (2) 优秀教学课件.pptxVIP

ETL数据整合与处理 第4章 字段处理 (2) 优秀教学课件.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
字段处理;;在工作中经常将数据导出并备份到文件中,这时文件的数据,由于没有数据库系统的规范字段格式管理,数据显得很乱,也很不方便管理。 为了方便浏览日志内容,需要在某软件系统的操作日志“系统操作日志.xls”文件中,采用拆分字段组件,从日志内容中拆分出用户ID、操作时间、操作内容和IP地址字段,并对应到相关的数据。;(1) 建立【拆分字段】转换工程。 (2) 设置【拆分字段】组件参数。 (3) 预览结果数据。;使用Ctrl+N快捷键,创建【拆分字段】转换工程。接着创建【Excel输入】组件,设置参数,导入“系统操作日志.xls”文件中,预览数据,如图所示,只有一个“系统日志”字段,内容显得很乱。;在【拆分字段】转换工程中,单击【核心对象】选项卡,展开【转换】对象,选中【拆分字段】组件,并拖曳到右边工作区中。由【Excel输入】组件指向【拆分字段】组件,建立节点连接,如图所示。;双击【拆分字段】组件,弹出创建【拆分字段】对话框,如图所示。 ;【拆分字段】组件的参数包含组件的基础参数和【字段】表参数,有关参数,如表所示。;设置参数;在【拆分字段】对话框中,设置参数,从操作日志数据中分拆出用户ID、操作时间、操作内容和IP地址等字段数据,步骤如下。 (1) 设置【拆分字段】组件名称。【步骤名称】参数保留默认值“拆分字段”。 (2) 确定需要拆分的字段名称以及内容分隔符。【需要拆分的字段】参数设置为“系统日志”;保留【分隔符】默认值“,”英文逗号。 ;(3) 设置拆分后新字段参数。对要拆分的字段参数进行设置,【新的字段】【移除ID?】【移除ID?】参数的设置如图所示,【去除空格类型】参数统一设为“不去掉空格”,此时完成【拆分字段】组件参数的设置。;在【拆分字段】转换工程中,单击【拆分字段】组件,再单击工作区上方的 图标。预览拆分字段后的数据,如图所示。;;数值范围是给定下限和上界数值的区间范围,划分出多个数值范围。 为了了解学生分数的分布情况,需要在“2019年10月年级月考英语成绩.xls”文件中,使用数值范围组件,对英语分数划分范围,以便统计各范围区??的人数:小于80分、80~90分、90~100分、100~110分、100~120分、120~130分、130~140、140~150分、150分满分。;(1) 建立【数值范围】转换工程。 (2) 设置【数值范围】组件参数。 (3) 预览结果数据。;使用Ctrl+N快捷键,创建【数值范围】转换工程。接着创建【Excel输入】组件,设置参数,导入“2019年10月年级月考英语成绩.xls”文件,预览数据,如图所示。 ;在【数值范围】转换工程中,单击【核心对象】选项卡,展开【转换】对象,选中【数值范围】组件,并拖曳到右边工作区中。由【Excel输入】组件指向【数值范围】组件,建立节点连接,如图所示。 ;双击【数值范围】组件,弹出【数值范围】对话框,如图所示。 ;【数值范围】组件的参数包含组件的基础参数和【范围 (最小=X最大)】参数,有关参数如表所示。 ;在【数值范围】对话框中,设置参数,对英语分数划分以下范围:小于80分、80~90分、90~100分、100~110分、100~120分、120~130分、130~140、140~150分、150分满分,步骤如下。 (1) 设置【数值范围】组件名称。【步骤名称】保留默认值“数值范围”。 (2) 确定划分数值范围的字段。【输入字段】设置为“英语”字段。 (3) 确定输出的字段。【输出字段】设置为“分数范围”字段。 (4) 确定【缺省值(如果没有匹配到的范围)】的内容。【缺省值(如果没有匹配到的范围)】设置为“不在范围内”。 ;(5) 划分数值范围。对【范围 (最小=X最大)】表的参数进行设置,如图所示,此时完成【数值范围】组件参数的设置。 ;在【数值范围】转换工程中,单击【数值范围】组件,再单击工作区上方的 图标。预览设置数值范围后的数据,如图所示。;;计算器除了进行加、减、乘和除等简单运算外,还可以进行乘方、开方、指数、对数、三角函数和统计等方面的运算。 Kettle软件提供计算器组件,对数值型的字段数据进行运算。 为了详细地了解学生的基础和全部课程的考试情况,需要在“2018年上学期期末考试成绩.xls”文件中,使用计算器组件,分别计算学生语文、数学和英语3门基础课程的总分数,以及全部6门课程的总分数。;(1) 建立【计算器】转换工程。 (2) 设置【计算器】组件参数。 (3) 预览结果数据。;使用Ctrl+N快捷键,创建【计算器】转换工程。接着创建【Excel输入】组件,设置参数,导入“2018年上学期期末考试成绩.xls”文件,预览数据,如图所示,只有各科课程分数,没有统计分数。;在【计算器】转换工程,单击

文档评论(0)

弹弹 + 关注
实名认证
文档贡献者

人力资源管理师、教师资格证持证人

该用户很懒,什么也没介绍

版权声明书
用户编号:6152114224000010
领域认证该用户于2024年03月13日上传了人力资源管理师、教师资格证

1亿VIP精品文档

相关文档