XML数据实体同一性相关技术研究.pdf

  1. 1、本文档被系统程序自动判定探测到侵权嫌疑,本站暂时做下架处理。
  2. 2、如果您确认为侵权,可联系本站左侧在线QQ客服请求删除。我们会保证在24小时内做出处理,应急电话:400-050-0827。
  3. 3、此文档由网友上传,因疑似侵权的原因,本站不提供该文档下载,只提供部分内容试读。如果您是出版社/作者,看到后可认领文档,您也可以联系本站进行批量认领。
查看更多
国内图书分类号:TP311.13 学校代码:10213 国际图书分类号:68 密级:公开 工工工学学学博博博士士士学学学位位位论论论文文文 XML数据实体同一性相关技术的研究 博士 研 究生:刘显敏 导 师:李建中教授 申 请 学 位:工学博士 学 科 :计算机软件与理论 所 在 单 位:计算机科学与技术学 院 答 辩 日 期:2013 年7 月 授予学位单位:哈尔滨工业大学 Classified Index: TP311.13 U.D.C: 68 Dissertation for the Doctoral Degree in Engineering RESEARCH ON THE TECHNIQUES OF ENTITY IDENTITY ON XML DATA Candidate: Liu Xianmin Supervisor: Prof. Li Jianzhong Academic Degree Applied for: Doctor of Engineering Specialty: Computer Software and Theory Aliation: School of Computer Science and Techonolgy Date of Defence: July, 2013 Degree-Conferring-Institution: Harbin Institute of Technology 摘 要 摘 要 近年来,劣质数据广泛出现于信息社会的各个领域,引发了很多问题并带 来了巨大损失。关注该 问题 的数据可用性研究在国内外已经展开。实体同一性 是数据可用性的重要维度之一。实体同一性基于数据库中存储的数据实体和现 实世界中的物理实体定义。一个数据实体描述 的是某个物理实体,是其在数据 库中的表示形式;一个数据库被称作是满足实体同一性要求的,当且仅当数据 库中没有任何两个数据实体描述 的是同一个物理实体。对数据实体同一性的研 究是当前数据处理领域的热点研究问题之一。针对关系数据的实体同一性研究 已经有很多工作,然而,其 中大部分的理论和方法并不适用于非关系数据,并 且很难扩展到非关系数据上。针对 非关系数据的实体同一性研究工作还很少, 尚处于起步阶段。 本文针对一类广泛使用的非关系数据,即XML 数据,以完善 XML 数据可 用性的管理技术为目标,从XML 实体抽取、XML 实体匹配 以及实体匹配 结果 消解等问题切入,重 点研究了XML 数据实体同一性相关 的技术。本文 的主要 工作可以概括如下: 首先,本文提出并研究了XML 数据上的实体抽取问题,提出了一种基于 规 则的实体自动抽取方法KEE。XML 数据中没有实体的 明显标识,且现有的 实体同一性研究工作并没有考虑 实体抽取问题,因此 实体抽取是XML 实体同 一性研究的基础之一。提出的 KEE 方法利用XML 查询描述 实体,为实体提供 了简洁的表 示方法,避免 了逐一表 示 XML 实体的不便;允许用户利用键规 则 只描述感兴趣的少量实体,并自动地为用户寻找感兴趣的其它实体;利用查询 松弛技术,克服了在异构数据上自动寻找相似实体时实体难以枚举、难以寻找 的困难;基于自动机技术,利用共享中间计算结果的思想,实现了高效 的 XML 数据实体抽取算法。从理论角度分析了KEE 方法的性能,并用实验验证 了该算 法能够有效且高效地解决实体抽取问题。

文档评论(0)

liybai + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档