论数据清洗对信息检索质量的影响及清洗方法.pdfVIP

下载本文档

5
0
约 5页
2017-08-14 发布于安徽
举报
版权申诉

论数据清洗对信息检索质量的影响及清洗方法.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

论数据清洗对信息检索质量的影响及清洗方法蒋勇青1 杨奕虹k2杨贺L2 (1中国科学技术信息研究所北京100038) (2北京万方软件有限公司北京100038) 摘要本文讨论了数据清洗工作在提高数据检索质量方面的必要性及重要作用，并结合传统文献加工思想提出数据清洗工作中处理错误数据和重复数据的方法。关键词数据仓库数据清洗数据规范检索系统查全率查准率 1 前言在传统图书情报检索领域中，查全率和查准率是评价情报检索系统检索效果的重要指标，即便是在信息技术蓬勃发展的今天，这两个指标依旧不过时，尤其是对目前超大规模数据仓库的检索系统，更加凸显两者的重要性，因为检索用户总是希望在越短的时间内获得越高质量的检索结果。笔者认为解决这一矛盾的办法涉及三个方面，数据仓库质量、检索系统性能和用户的检索策略，三者首尾相连、相辅相成。当然每个方面又有若十个方向值得研究与改进，本文主要研究数据仓库数据质量、特别是数据加工方面对于提高检索结果质量的重要作用及所做的相应工作。 2 概述数据仓库建设过程中数据质量和数据加工面临的问题老情报工作者一定对多年前的书目检索记忆犹新，那会还是手工检索纸质索引目录，科技工作者检索文献时通常需要委托图书馆员协助进行，查全率与查准率的计算也容易得多。而今随着汁算机技术的发展和网络的普及，网络数据库诞生了。这些年来，从文摘数据库到全文数据库，从单一数据库到集成数据库的数据仓库，文献数量从几千条到上亿条，存储量也从几十l【B迅速增长到了几十1B。面对这样的海量数据并且还在不断增加规模的信息资源，计算查全率和查准率都变得困难起来，因为在数据未经深加工和处理之前，系统中的“真实相关”数据总量难以统计。所谓真实相关，是指那些确定是同一个单元体，但是描述方式不同的情况，举例来讲，自行车、脚踏车、单车均指同一事物而叫法不一。同行会说，这个问题早已通过词表解决，但若这个问题发生在数据仓库的各个元数据内容中又将如何呢?事实上，这一现象在业界已经有了专有名词——“脏数据”(dirtydata)，或称之为噪音数据。 2．1 脏数据的类型及其来源面对海量的数据资源，用户已经不能容忍同一检索命令重复运行于多个数据库中，由此数据仓库应运而生。它集合了海量不同来源的异构数据，经过ETLfll(Extract抽取—— Transform转换——I，∞d装载)的处理形成统一的数据仓库。尽管数据在各自单一数据库中有详细严谨的元数据规范和著录规则，但在ETL过程中，脏数据的出现也在所难免。通常脏数据可分为两类：错误数据和重复数据。错误数据主要来自数字化过程中的识别录入错误、著录规则执行宽泛、批量转换失真等人为操作失误，如信息残缺、乱码、溢出等 35 等。重复数据是指同一实体拥有多个近似却不相等的记录形式，有学者认为重复数据还可细分为重复数据和不完整数据【2】，例如同一篇文献有多条记录描述，因各自元数据项目记录的差异或矛盾致使计算机系统无法判定删重；再比如同一实体描述内容不完整，像“中国科学技术信息研究所”和“中国科技信息研究所”。笔者认为这两种数据实质都是重复，只是目标对象颗粒度存在差别。 2．2 脏数据对查全、查准的影响脏数据对于检索系统中的查全率和查准率的影响是巨大的，下面通过实例说明。例一：检索结果少了需要检索出“中国科学技术信息研究所”发表的全部论文，在未经数据清洗前仅仅用上述名称检索，结果肯定会少。因为在数据仓库中，该单位的名称还可能表述为“中国科技信息研究所”、“中国科技情报研究所”、“中情所”等名称。例二：检索结果多了需要检索出“朝阳医院发表的全部论文，本意是想检索出北京朝阳医院发表的全部论文，结果因为同名问题，还检索出了辽宁省朝阳市医院、江苏省南通市朝阳医院发表的论文。例三：检索结果错了需要检索出某位专家发表的全部论文，结果因为姓名相同的问题，检索出来的结果还含有其他同名作者的论文。上述问题都会导致检索的查全率与查准率大幅降低，若想实现两者的双高平衡点，必须总结传统数据加工的经验，挖掘制约检索质量的问题根源，设法改进加工质量和效率，因此数据清洗工作势在必行。 3 数据清洗数据清洗工作是繁重且具有难度的。有报道称，在一个数