利用二次归并Deep Web实体匹配方法.docVIP

下载本文档

5
0
约8.66千字
约 16页
2018-08-24 发布于福建
举报
版权申诉

利用二次归并Deep Web实体匹配方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

利用二次归并Deep Web实体匹配方法

利用二次归并Deep Web实体匹配方法　　摘要：针对权重边剪枝（WEP）方法在准确率和匹配效率等方面的不足，通过引入自匹配和归并概念，提出一种基于二次归并的Deep Web实体匹配方法。首先，提取各对象的属性值，并按属性值重组对象，使具有相同属性值的对象聚集在一起，实现块的有效划分；其次，计算块内各对象间的匹配度，并据此进行剪枝、自匹配检测、归并，输出初步类簇；最后，以初步类簇为基础，利用簇内对象间传递的消息以及对象属性相似值，进一步挖掘匹配关系，触发新一轮的类簇归并与更新。实验结果表明，与WEP方法相比，所提方法通过自匹配检测，自动区分匹配关系并采取合适的匹配策略，使归并过程逐渐精化，提高了匹配准确率；通过分块、剪枝，有效缩减了匹配空间，提高了系统运行效率。　　关键词：二次归并；Deep Web；实体匹配；类簇；相似值　　中图分类号：TP391； TP311 　　文献标志码：A 　　0引言　　与Surface Web相比，Deep Web资源具有数量更大、质量更优、内容更精确、使用价值更高、增长迅速等特点。接口集成是访问Deep Web资源的主要途径，但由于Web的自治性和动态性，使得Web数据库的数据冗余度高，异构现象严重，给接口集成造成较大困扰。实体匹配（也称实体识别、记录匹配等）是一种在数据集合中发现同一实体不同描述的技术，可用于数据库记录的错误检测、重复检测、不一致数据发现等，以消除数据重复、数据不一致等异构现象。　　与模式匹配类似，实体匹配的关键要做好两项工作：评判依据的选择和匹配方法的运用[1]；同时，鉴于Deep Web的海量数据，有效的匹配空间缩减策略也非常重要。早期的实体匹配主要专注于实体对间的匹配（见文献[2]），近年来已逐渐发展为实体集间的匹配（collective entity matching）[3-6]，相关技术研究应用也延伸到了知识库、全球信息库自动构建等众多领域。评判依据方面，目前主要还是选用实体对象的属性，并以自动或半自动方式迭代计算各属性的权重[7-8]。匹配方法主要涉及机器学习、图理论和启发式思想等，如徐红艳等[9]利用反向传播（Back Propagation， BP）神经网络的自主学习特性，将语义块相似度值作为输入，训练习得实体匹配模型；Liu等[10]基于马尔可夫逻辑网络推理来发现属性间内在的相似依赖关系，以此提升记录相似性判断。匹配空间缩减主要有分块和剪枝两种方法，如李亚坤等[11]通过构建属性节点表实现块的划分，再用Max-Merge算法进行聚类；Efthymiou等[12]设计了权重边剪枝方法（Weighted Edge Pruning， WEP）　　，其基于MapReduce思想，多次映射重构块图以删减冗余边，再计算边权重并以平均边权重为阈值，对块图进行剪枝。另外，寇月等[13]则利用文本属性特征、语义信息、约束规则等多种信息，以逐步求精的方式进行Deep Web实体匹配。　　综观现有实体匹配方法，仍存在人工干预较多、匹配效率不高等问题。本文借鉴前人研究思路并结合聚类思想与WEP方法，　　提出一种利用二次归并进行Deep Web实体匹配的方法（Deep Web Entity Matching Method based on Twice-Merging， DWEMM-TM）。　　提出一种利用二次归并技术进行Deep Web实体匹配的方法TMM（【deep Web entity matching based on Twice-Merging Method）。　　1.2基本思想　　DWEMM-TM模型借鉴聚类思想，将实体匹配过程看作类簇归并的过程，同时，综合考虑以下研究发现而提出：　　1）匹配关系可以分为三种：匹配（Y）、不匹配（N）和可能匹配（P）（以下分别简称为Y匹配、N匹配和P匹配），而前两者往往可以通过一些有效且高效的方法快速判定。　　2）描述现实世界中同一个实体的不同数据对象很难在所有属性上的取值都不同[11]。　　3）如果将对象间相似值参照tf-idf（term frequency-inverse document frequency）思想进行计算并排序，那么匹配对象和不匹配对象往往分布于该排序的两端[8]。　　4）通过对象间的消息传递机制能有效提高实体匹配的查全率[4]。　　因此，从实现目标上可以将DWEMM-TM模型分成两个阶段：第一阶段，利用简单有效的方法，快速找出对象间的Y匹配和N匹配，归并Y匹配关系，删除N匹配关系，形成簇内相似值极高的小型类簇集，其目标是准确、高效；第二阶段，利用簇内对象间的消息传递以及对象间属性相似值的计算，进一步确定P匹配关系的最终结果并更新类簇集，其目标是提高系