数据空间中图搜索技术的研究.pdfVIP

  1. 1、本文档共59页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
摘 要 当下信息管理面临的挑战在于很多组织或个人依赖大量异质且相互关联的 数据,却缺乏有效的一致的管理方式。企业需要管理大量的账目、经营活动和 员工信息等,而个人面临的则是自己计算机上成千上万的文档、图片以及程序。 在这种情况下,数据库界的研究者们提出了数据空间这一概念,以及数据空间 平台的一些基本原则。在数据空间中数据之间的相互关联是一种重要的特征。 例如在个人数据空间中,几份数据可能共同为用户的一个目的服务,于是这几 份数据之间便存在着任务关联,此外,可能一份文档是一封邮件的附件,于是 这份文档于邮件之间存在着附件关联。数据之间相互关联这一特征,决定了用 户存在着基于关联进行查询的需要。 基于数据之间广泛的关联,可以为数据空间建立图模型,其中每个点代表 一个数据,每条边代表对应的两个数据之间的关联。这时,用户基于关联进行 的查询,对应在图模型上,即是一个子图搜索问题。由于直接将查询与图进行 匹配是一个 NP 完全的问题,因此数据库界对于该问题的解决方法通常是“过 滤-确认”的方式,即首先为图建立特征索引,然后在经过过滤后的候选上进行 子图的匹配。这里特征被用于刻画图的特点。在这个问题上,选取什么样的特 征为图建立索引是非常有意义的。一个好的特征能够产生更少的候选。另外值 得关注就是在经过过滤这一阶段后的子图匹配算法的效率。 特征的选取是进行有效过滤进而提高子图匹配算法效率的关键因素,因此 本文首先研究了如何能够选取具有较好的过滤能力的特征,提出了距离集的概 念来表示图上每个点的局部结构。距离集旨在捕获给定顶点与邻近顶点间的位 置结构来刻画两点之间的位置关系。在距离集的基础上提出了具有区别力结构 的距离集,用以刻画给定顶点与临近的具有区别力结构的位置关系。基于距离 集这一特征,建立了距离集索引支持图搜索。 此外,本文也对在图搜索问题中如何进行有效的图匹配进行了研究。由于 过去提出的匹配算法都是基于点的匹配算法,因为点是查询图以及数据库图共 同的基本结构。而实际上还有其他的一些基本结构是查询图以及数据库图所共 有的。很显然基于基本结构进行图匹配会极大的减小图匹配的搜索空间。因此 本文研究了基于基本结构的图匹配算法。再提出基本算法的基础上,又提出了 集中优化方法。 最后通过在多个数据集上丰富的实验,证明了本文提出的距离集索引以及 图匹配算法的有效性。 关键词: 数据空间;图搜索;图索引 2 Abstract Currently information management is facing the challenge that many organizations and individuals rely on a large number of heterogeneous data, while lacking efficient and integrated management tools. For example, corporations need to manage large amounts of financial documents, campaign records and employee information, while individuals are facing tens of thousands of documents, photos and applications on their PCs. To fight against this challenge, researchers in database community have proposed dataspace together with principles of dataspace systems. In dataspace, one of the significant characteristics of data is that they are

文档评论(0)

文献大师 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档