2.实体解析算法基础.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2.实体解析算法基础.doc

本研究得到国家自然科学基金,上海市科委项目(12511502704,14511107702)资助。 朱灿:男,硕士研究生在读,主要研究领域是网络数据分析与挖掘以及网络计算,Email:0627wshhg@ 曹健:男,教授,博士生导师,主要研究方向是网络计算、服务计算、数据智能分析。 实体解析技术综述与展望 朱灿(1) 曹健(1) (1)(上海交通大学电子信息与电气工程学院计算机系 上海东川路800号 200240) 摘要:实体解析是数据清理,数据集成,数据挖掘等技术中关键的一步,是数据质量的保障。本文介绍了实体解析含义,背景起源,以及算法基础。列举并解释了实体解析发展过程中的经典算法包括成对实体解析,集合实体解析,大数据的实体解析,复杂数据上的实体解析等,以及它们的特点和局限性,分享了在新的应用环境下衍生出来的针对不同需求的新的实体解析算法。最后展望了实体解析领域当前的研究热???以及发展方向 关键词:实体解析,记录链接,集合数据,复杂数据,大数据 A Summary and Prospect on Entity Resolution Zhu Can(1) Cao Jian(1) (1)(Department of Computer Science, School of Electric Information and Electrical Engineering, SJTU, No. 800 Dongchuan Road, Shanghai 200240) Abstract: Entity Resolution, ER, is a key step in Data Cleaning, Data Integration, Data Mining and the insurance of data quality. In this paper, we list and explain some classic algorithms in the development of Entity Resolution, including Pair-wise Entity Resolution, Collective Entity Resolution, Entity Resolution on Big Data, and Entity Resolution on Complex Data et al. We will also introduce the characteristics and limitation of these algorithms and share some state-of-the-art algorithms derived from new application environment according to different requirements. Finally, the research hotspots and the development direction of this field will be discussed. Keywords:Entity Resolution,Record Linkage,Collective Data,Complex Data,Big Data 1.引言 在信息时代,数据的重要性毋庸置疑。以数据为中心的系统也得到了广泛应用,然而这些信息并非总是正确无误,可能存在各种错误,比如重复,不一致,不正确,不完整等等。据调查,全球财富1000强公司中有超过25%的关键数据存在不正确或不准确的问题[1]。 不同的数据提供方,对同一个事物,即实体(Entity),可能会有不同的描述(这里的描述包括数据格式,表示方法等),每一个对实体的描述称为该实体的一个引用。实体解析,是指从一个“引用集合”中解析并映射到现实世界中的“实体”过程。这在数据清理,数据集成,数据挖掘等以数据为中心的记录中都起着至关重要的作用,是数据质量的重要保障。实体解析(Entity Resolution)又被称为:记录链接(Record Linkage),对象识别 (Object Identification),个体识别(Individual Identification),重复检测(Duplicate Detection)等。 1946年,Helbert L. Dunn 就在《美国公共卫生杂志》(American Journal of Public Health)发表了名为《记录链接》(Record Linkage)的文章,其后,由Howard Borden,Ivan Fellegi以及Alan Sunter等人为其奠定了理论基础。经过几十年的发展,实体解析技术

文档评论(0)

170****0532 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8015033021000003

1亿VIP精品文档

相关文档