实体识别问题相关研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
实体识别问题相关研究

实体识别问题相关研究   摘要:随着信息技术的发展,信息时代已经全面到来了。在信息“量”爆炸性增长的同时,近年来,“质”的问题也已经引起了产业界和研究人员的关注。“劣质”数据极大地降低了信息的可用性,提供给用户不精确的、缺失的、冗余的、陈旧的甚至是错误的信息,无法给用户带来正确的知识,并可能误导用户做出错误的决策,从而给用户造成损失。数据质量有六个主要维度:精确性、完整性、时效性、一致性、相关性和实体同一性。综述了数据质量中实体同一性方面的相关工作,并针对特定的技术展开讨论。   关键词:数据质量; 实体识别; 脏数据   中图分类号:TP311 文献标识码:A文章编号:2095-2163(2013)02-0001-06   0引言   随着信息技术的飞速发展,其应用已经遍及国民经济和社会实践的各个领域,由此宣示了信息时代的全面到来。在信息“量”爆炸性增长的同时,近年来,有关其“质”的系列问题也已经引起了产业界和学术圈的关注和重视。“劣质”的数据在很大程度降低了信息的可用性,可能给用户提供模糊、缺失、冗余、陈旧甚至是错误的信息,不但无法给用户带来正确的知识,并有可能误导用户做出错误的决策,从而给用户造成损失。数据统计表明,“劣质”数据每年给美国企业能带来超过6 000亿美元的经济损失;而美国零售行业的数据库中每年的错误价格数据信息都会给消费者带来约25亿美元的财产损耗。国内虽然还未见公开的统计数据,但是“劣质”数据带来亏失的个案确也频有发生。根据资讯公司TechTarget 中国的报告,某家大型电信公司因为“劣质”数据的问题曾将包括信号发射塔和50亿美元的预算错误地发放到了独立审计师手中;根据新华网的报道,央行征信系统的错误记录也屡屡造成金融消费者的权益受损。然而,更有甚者,事实正在表明,“劣质”数据并非特例,而是普遍存在的。又有统计表明,美国一个典型企业中,数据的错误比率一般在1~5%之间,而在某些企业中该比率甚至超过了30%;据估计,美国的医疗系统中,大多数时候(约13.6%-81%),在临床诊断时,需要的数据都是缺失的。国内暂时没有较为可信的统计数据,但根据哈尔滨工业大学海量数据计算研究中心团队对其合作伙伴共享数据的抽样分析,国家海洋信息中心的数据总共约有10~20%存在缺失问题,而医药行业的数据总量则约有10%的部分存在各种类型的质量问题,基于此,则有理由相信,“劣质”数据在国内也已经成为一个不可忽视的普遍存在。因此,针对各种不同的数据类型,建立相应的数据质量管理的理论与方法,为对应的数据管理软件及其应用系统提供对数据质量进行保障、改善、控制的能力则成为当下一个亟待解决的问题。   数据质量并没有公认、统一的定义,已有的研究工作一般用定义在数据上的测度来进行直观描述。文献[1]从六个维度定义数据质量,给出了迄今为止较为公认的定义标准。这六个主要维度包括:精确性(accuracy)、完整性(completeness)、时效性(timeliness)、一致性(consistency)、实体同一性(entity identity)及相关性(relevancy)。其中,精确性是指数据描述同现实世界事物属性之间的接近程度;完整性是指数据集合中数据的完整程度;时效性则指描述现实世界事物的数据的新旧程度;一致性则指数据内部的矛盾程度;实体同一性指的是描述同一个现实世界事物的数据的冗余程度;相关性指的是数据同应用需求的契合程度。文献[2]是对数据质量和数据清洗方面早期开展工作的系统综述。本文全面总结了数据质量中实体同一性方面的相关工作,而且又针对其中的相关技术展开了完整的讨论。   1实体识别问题   在实体同一性的研究中,实体识别可看作是提高数据质量的一个重要步骤,主要的研究工作均集中于此。实体识别问题的定义比较早,而且也提出了较多的方法和框架。研究工作发端于文献[3],文献[4]则从统计学角度,形式化地定义了实体识别问题的任务,并从统计角度分析其性质。文献[5]是在数据处理领域较早地提出了实体识别问题。文献[6]是新近的关于实体识别问题研究的一篇综述。具体地说,实体识别问题的任务就是要寻获数据中描述同一实体的若干元组。解决实体识别问题的常用方法有两类。第一类是实体匹配+实体消解,该方法通过逐对比较实体来判定实体之间的两两关系,再利用匹配结果的消解方法得到实体识别问题的结果;第二类方法是利用统计模型直接求解实体识别结果。   从形式化定义的角度,实体同一性研究的最终目的是要解决如下问题:给定一个数据实体的集合D和一个真实世界的物理实体集合O,求解一个集合D的划分P(其中,P是由一系列D的不相交子集合构成的集合,且P中所有集合并的结果与D相同)以及P与O之间的一一对应关系。直观地说,P中的每一个集合与O中的物理实体

文档评论(0)

erterye + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档