CH3--第4讲重复数据及消除.pptVIP

下载本文档

2
0
约1.71千字
约 17页
2017-09-06 发布于浙江
举报
版权申诉

CH3--第4讲重复数据及消除.ppt

1、本文档共17页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

CH3--第4讲重复数据及消除

11111111111111111111111111111 重复数据的消除脏数据形成的原因滥用缩写词数据输入错误数据中的内嵌控制信息不同的惯用语（如：ASAP对“at first chance”) 重复记录丢失值拼写变化不同的计量单位过时的编码数据清理的重要性脏数据的普遍存在，使得在大型数据库中维护数据的正确性和一致性成为一个及其困难的任务。垃圾进、垃圾出。数据清理研究现状数据清理常常与数据仓库、数据挖掘和数据集成的研究联系在一起。近年来在数据库研究团体中得到了广泛的关注。主要集中在模式集成问题的研究，如集成框架、中间件系统(mediator systems)、模式冲突解决方案。很少涉及实例层次的研究。数据清理处理内容重复数据清除概念模型数据清理有效性的度量标准数据清理过程存在的问题和困难现存的数据清理方法脏数据的预处理排序邻居方法(Sorted neighborhood method,SNM) 优先排队算法多次遍历数据清理方法基于知识的方法进行重复数据的消除三个阶段规则的分类基于知识方法的好处应用商业规则进行数据清理，这些规则相对比较稳定不需经常变化和修改。解决了recall-precision的矛盾采用不确定因子减少false-positive 错误。 Duplicate Elimination 格式标准化异常数据清除错误纠正重复数据的清除返回率（Recall）定义：重复数据被正确识别的百分率例子：假定有7个记录A1,A2,A3,B1,B2,B3,C1,其中{A1,A2,A3}和{B1,B2,B3}分别是记录A和B的不同表示。如果清理过程识别出{A1，A2，C1}和{B1，B2}，那么Recall值为4/6*100%=66.7% False-Positive Error 定义：错误地作为重复数据的记录的百分比。 False-Positive Error= 精确度(Precision) Precision=100%-False-Positive Error 不确定性和风险性很难确定两个不完全相同的记录是否表示同一个实体，即使它们非常相近。结果的确认很难找出真正的重复记录数，这样有效性的度量很难得到。数据库相关清理算法的性能跟数据库密切相关。脏数据的预处理排序邻居方法优先排队算法多次遍历数据清理方法增量数据清理采用领域知识进行清理领域无关的数据清理采用数据库管理系统的集成数据清理扩展SQL进行数据清理过程方便用户的使用存在优化问题先于数据清理过程使数据更加规范化和一致，获得更好的结果包含外部参考文件，如缩写标准表。 SNM方法包括三个步骤创建关键字：依赖于领域知识中的错误模型。排序数据合并 SNM方法的缺点结果与所采取的关键字密切相关。 “Window size”问题将各个记录根据相似性程度归入不同的队列中减少了比较的次数照样存在“Window size”问题每次排序选用不同的关键字减少错过重复数据的机会选择关键字比较简单可以采用传递闭包（transitive closure) 将相似记录合并成一个组增加false-positive error 预处理阶段数据类型检查数据格式规范化不一致的缩写处理阶段将预处理后的数据通过专家系统引擎和一系列的规则进行处理。人工检验和确认阶段处理规则无法处理的重复记录重复识别规则(Duplicate identification)：指定两个两个记录为相似记录的条件。合并/清除规则（Merge/purge）：指定对两个重复记录如何进行处理。更新规则(Update rules)：在特殊情况下更新数据的方法。警报规则（Alert rules）:当一个特定的事件发生时发出警报。原因分析会的建议措施建议措施中每项活动预防缺陷信息必须管理和控制* * * Page * Barry Goffe Visit Virtual VBITS at: