《数据导入与预处理应用》第4章 - 02 - 数据排重.pptVIP

下载本文档

1
0
约9.99千字
约 19页
2025-05-06 发布于四川
举报
版权申诉

《数据导入与预处理应用》第4章 - 02 - 数据排重.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

*4.2.3去除不完全重复数据思路：首先，根据Name字段进行模糊查找，找出疑似重复数据的记录然后，根据参考字段E-Mail进一步检测数据的重复性最后，去除或者合并这些疑似重复的记录*4.2.3去除不完全重复数据第一步，输入。新建转换unique_op,将示例数据输入Excel文件进行保存新建一个Excel输入步骤，命名为“Input”，作为主数据流设置“Input”步骤的输入文件、字段等信息，可预览一下数据复制“Input”步骤，命名为“InputRef”,作为查询数据流*4.2.3去除不完全重复数据第二步，模糊匹配。使用“模糊匹配”步骤查询相似重复记录，以下是常规设置：设置查询数据流的步骤及字段设置主数据流需要查询的字段Algorithm:模糊匹配时使用的算法GetCloservalue:非常重要，选中时，返回指定范围内最相似的值，否则，返回多个匹配的值Minimal/Maximal：指定相似度的范围值最大值不设为“1”的原因：查询的结果极有可能是查询记录自身“模糊匹配”步骤字段选项页设置：记录匹配字段的字段名记录相似度值的字段名，若未设置“GetCloservalue”，无此项设置相似记录的其它返回字段，若未设置“GetCloservalue”，无此项设置4.2.3去除不完全重复数据前面我们学习了一些常规的数据清洗步骤，在数据清洗里还有另外一个非常重要的工作要做：这就是我们即将要学习的数据排重。*数据排重一共分3个小节进行讲解，在第一小节，如何识别重复的数据，对重复数据的概念有个初步认识。接下来的两个小节分别讲解去除完全重复数据和去除不完全重复数据。在现实世界中的一个实体，理论上在数据库或者数据仓库中应该只有一条与之对应的记录。但由于各种原因，比如数据录入出错、数据不完整、数据缩写以及多个数据集成过程中，由于不同系统对数据的表示不尽相同，从而导致集成后同一实体对应多条记录。在数据清理中，重复记录的检测与清除是一项非常重要的工作。重复数据分为两类，一类是完全重复数据，另一类是不完全重复数据。完全重复数据很好理解，就是两个数据行的数据完全一致。不完全重复数据，客观上表示现实世界中的同一实体，但由于表达方式不同或拼写错误等原因，导致数据存在了多条重复记录。比如这里的一张学生登记表，注意第一条和第三条记录，虽然张姗与张珊这两条记录有两个字段都不一样，但很容易看出两条记录指向的应该是同一人。对于完全重复数据，容易识别，去除也相对简单很多。一个最简单的方式就是对数据集排序，然后通过比较相邻记录进行合并。对于不完全重复数据，识别不完全重复数据非常困难，检查可能的重复记录需要保证有充足的计算能力，因为检查一条记录就需要遍历整个数据集，也就是说对整个数据集的检查需要所有记录之间进行两两匹配，其计算复杂度为O(n^2)。在进行两两记录比较时，可能需要考虑多个字段的权重，对其相似度进行加权评估。对完全重复数据的去除非常简单，Kettle提供了两个去除重复记录的步骤：“去除重复记录（Uniquerows）”“去除重复记录(哈希值)（Uniquerows(HashSet)）”这个两个步骤的工作方式类似，使用起来非常方便。它们都可以选定字段参与比较，默认情况是整条记录参与比较。当选定部分字段参与比较时，我们的完全重复数据是基于选定字段内容完全重复的。下面来比较一下这两个步骤的区别：去除重复记录(哈希值)”步骤可以附加比较存储在内存中的记录值，防止哈希碰撞冲突“去除重复记录”步骤可以对重复记录计数“去除重复记录”步骤可以忽略指定字段的大小写进行比较“去除重复记录”步骤要求输入的数据是事先排好序的，因为它是通过比较相邻记录的值来判断是否重复的；“去除重复记录(哈希值)”步骤对记录的顺序没有要求，它可以在内存中操作。新建一个转换unique_smp，添加一个“DataGrid”步骤，添加如图所示的示例数据。不难看出第二条与第四条记录完全一样，虽然第一条与第三条记录的Gender字段不尽相同，但应该也是对应于同一个人的。注意，这里的数据是无序的，故选择“去除重复记录(哈希值)”来清除重复数据，当然，也可以用“记录排序”步骤对这个无序数据排序后通过“去除重复记录”步骤排重。另一个要注意的地方就是第三条的Gender字段与第一条不一样，在排重的时候可以忽略该字段。为该转换添加一个“去除重复记录（哈希值）”步骤，我们只需要在设置下方的表格里添加参与比较的字段就可以了。如果有多个字段需要添加比较，可以点击“Get”按钮来获取所有的字段，然后删除不需要参与比较的字段。比如本示例，我们可以获取到所有字段后，

您可能关注的文档

文档评论（0）

***** + 关注: 实名认证

文档贡献者

教师资格证持证人

该用户很懒，什么也没介绍

咨询Ta 进入空间

领域认证该用户于2025年02月18日上传了教师资格证

1亿VIP精品文档

更多 >

《数据导入与预处理应用》第4章 - 02 - 数据排重.pptVIP