基于语义聚类查询分解算法在空间数据集成系统中应用.docVIP

下载本文档

2
0
约4.13千字
约 9页
2018-08-30 发布于福建
举报
版权申诉

基于语义聚类查询分解算法在空间数据集成系统中应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于语义聚类查询分解算法在空间数据集成系统中应用

基于语义聚类查询分解算法在空间数据集成系统中应用　　摘要：通过对空间数据集成系统中数据查询基本流程的分析，指出了系统中数据源的异构性给查询带来的问题，并阐述了传统基于语法层面的查询分解方法的不足。提出了一种基于语义聚类的查询分解算法，在语义层面上将用户的查询请求分解为子查询并提交给相应的数据源，从而提高了系统对数据查询请求的响应率和结果的精确性。　　关键词：空间数据集成；查询分解；语义距离；聚类算法；K-means 　　中图分类号：TP311.11 文献标识码：A 文章编号：1009-3044（2014）21-4963-04 　　对于大型的空间信息系统而言，其建设往往不是一蹴而就的，一般都需要很长的时间、地域跨度，这就导致了不同时间、地点建设的部分产生了一定程度的异构性，形成了众多的“信息孤岛”。而空间数据集成的主要目的就是屏蔽底层数据源的异构性，使用户能够透明地访问这些数据源[1，2]，即在存储、表示、管理、通信等方式均不相同的异种数据源上，通过资源服务的方式为用户提供逻辑上统一的数据视图和信息访问接口。简而言之，空间数据集成系统就是架设在用户与众多数据源之间纽带，而评判一个空间数据集成系统是否优秀的一个重要方面，就是看这个它能否为用户提供精确、快速的数据查询服务，这往往是用户最关心的事情。　　空间数据集成系统中通常集成了多种分布的异构数据源，它们之间没有统一的模式结构，对于相同概念的表述往往不尽相同，这给数据查询带来了很大的困难。用户提交的数据查询请求，通常包含多个概念且没有统一的规范，如果不经预处理，直接下发给数据源进行检索，会极大地增加通信开销，并且还会令各数据源进行大量不相关的查询操作，严重影响系统的性能。因此，为空间数据集成系统设计一种准确高效的查询分解算法是必要的，其目的是使得分解后生成的子查询能够更加贴合不同数据源的要求，降低开销，提高系统对用户查询响应效率及精确性。　　1 关键技术概述　　1.1查询分解　　空间数据集成系统的查询分解流程如图1所示，用户通过统一的服务接口描述自己所需的数据并提交查询，系统解析查询，将查询分解为多个子查询提交给相应的数据源，之后将这些数据源返回的结果以统一视图反馈给用户。　　如何对顶层用户的查询请求进行有效的分解，并使得分解后的子查询比原来的查询请求更容易得到满意的匹配服务，这是能否为用户提供精确空间数据服务的关键。传统的信息查询技术主要是基于语法层次的，它能够在为用户提供一定程度的数据资源发现功能，但无法对用户查询进行语义层次的理解，导致了查询系统经常“误解”用户的初衷，用户提交的查询请求通常会得到大量与需要无关的搜索结果。而对于每一个独立的空间数据源实体来说，它所涉及到的空间数据概念往往较为集中，如果查询请求分解后的子查询中包含的概念范围是发散的，则分解后仍然无法得到满意的匹配结果。　　为解决以上问题，该文采用基于语义聚类的查询分解方法对用户的查询请求进行预处理，在语义层面上将其分解为概念范围相对集中的子查询，以提高子查询的匹配成功率。　　1.2语义距离　　为了将人们在Web上使用的文本信息转化为计算机系统能够理解的描述，万维网之父英国人TimBerners Lee提出了语义Web这一概念[3]，目的是通过将Web内容的语法结构和语义以知识表示形式呈现出来，以实现与其它信息源共享知识，使得人与人、人与机器以及机器与机器之间能够准确地互相理解。　　基于语义Web思想，可以通过构建空间数据集成系统统一的知识体系，对系统中不同的数据源上的信息进行语义标记，将模糊、有异义的关键词抽象、提炼为精确、无异义的概念。判断用户需求与数据源的相关程度，其实就是看查询请求表述的概念与数据源表述的概念之间语义距离的大小。　　语义距离是指在不同概念间存在的继承关系或二元关系链中最短的关系链长度的一种度量，通过对概念之间相似程度的计算，可以量化概念之间的语义距离。　　概念间的语义相似度计算公式[4]为：　　1.3聚类分析　　聚类分析是知识发现（Knowledge Discovery in Database， KDD）中的一项重要研究内容，旨在将数据集合划分为若干类的过程，使得类内差异小，类间差异大[5]。在这个过程中没有任何关于数据集分类的先验知识，没有任何指导，仅仅依靠事务之间的相似性作为类属划分的准则。聚类准则是度量分类对象之间的接近与相似程度从而判断样本是否归为一类的分类数据指标，通常的聚类准则可分为三个：基于距离的、基于密度的以及基于联接的。聚类的方法主要可以分为基于划分的方法、基于分层的方法、基于密度的方法和基于网格的方法[6]。　　第一种是划分法（partitioning methods）。给定一个有N个元组或者记录的数