不确定数据Top―K查询技术研究.docVIP

下载本文档

1
0
约1.14万字
约 14页
2017-10-13 发布于北京
举报
版权申诉

不确定数据Top―K查询技术研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

不确定数据Top―K查询技术研究　　摘要：高效的Top-K查询处理是不确定数据管理的一项重要技术。从确定性算法技术和近似算法技术两方面研究典型的不确定数据的Top-K查询算法，分析概率与分值的平衡方式，介绍统一化排序思想以及综合多种查询特征的新型查询方式，最后提出不确定性Top-K查询的研究方向及不确定性查询处理技术的研究热点。　　关键字：不确定性数据；Top-K查询；确定算法技术；近似算法技术；排序函数；概率　　中图分类号 TP311 文献标志码：A 　　0 引言　　随着传感器网络和移动对象的应用，不确定数据无处不在，如传感器数据、RFID数据、隐私数据、LBS数据、Web应用数据等等。同时人们也逐渐认识到不确定数据处理带来的巨大价值。目前，不确定数据查询技术已经成为空间和移动数据库的前沿研究领域[1]。其中面向不?_定数据库的Top-K查询处理在涉及大量数据交互方面的拓展应用则是一项高效基础重要技术[2]。面向确定数据库的Top-K查询的定义非常清晰，即返回Ranking函数值最大的K个元组。但是，由于不确定数据概率维度的存在，确定数据集上的Top-K查询算法无法直接应用到不确定数据集合上[3]。基于此，本文拟从确定性算法技术和近似算法技术两方面展开典型不确定数据的Top-K查询算法研究，同时分类综述近年来不确定数据Top-K查询的研究成果，并指出下一步的的挑战与发展方向。　　1 典型不确定数据Top-K定义和算法研究　　针对不确定性Top-K查询，学者们从多种应用需要以及设定侧面给出了不同的查询语义。其中U-TopK[4，5]、U-kRanks[4，6]、c-typical-Topk[7]、Global-TopK[8]、PT-K[9-11]、Expected Rank[12-13]等得到了广泛认同，而且可分别适用于不同的应用场景。与此同时，不确定查询算法随即进入了深度探索的研究完善阶段。对不确定查询处理的确定性算法技术的研究焦点就是如何利用查询语义的特点避免展开整个可能世界空间[4-5，7-10，12-13]，从而提高查询效率。　　1.1 确定性算法技术　　Re等人[14]较早地研究了概率数据库中的Top-K查询问题，阐述了通过SQL语句查询概率数据中概率值最大的Top-K元组，其元组的概率即为排序函数值。然而，多数不确定数据上的Top-K查询通常在可能的世界模型语义下聚集查询结果来排序概率数据以获取查询结果。　　Soliman等人[4]针对不确定数据上的Top-K查询问题，首次研究提出了解决查询的不确定数据模型以及U-TopK查询和U-KRanks查询的定义。　　概括来说，U-TopK查询返回一个长度为K的元组矢量，而且是在所有的可能世界中的发生概率为最大；U-KRanks查询返回在各个级别中出现的总概率最大的元组。Soliman证明了按分值排序读取记录可以使U-TopK查询和U-KRanks查询读取最少记录完成查询，并设计实现了可确保最优性的查询算法。因此，这2种查询方法就是将查询问题转化为状态空间搜索问题，研究转化为实例化最少的状态。各元组首先按照ranking函数从小到大进行排序，然后不断构造搜索空间，缩小空间的范围，最终获得查询结果。　　在c-typical-TopK查询中也使用了状态空间扩展方法。当所求的Top-K具有最优子结构性质时，还可以采用动态规划的方法。动态规划的目标是发现求解Top-K问题的最优子结构性质。文献[7]中求解的c-typical-TopK和文献[5]中求解的Global TopK都表现出同样性质。　　动态规划算法满足最优化原理，能够将求解的问题分解成若干个子问题（阶段），且下一个子阶段的求解依赖于上一个子阶段的运行结果，最终就是一句尾端子阶段的求解来依次求得其它阶段的输出解。　　在确定性算法中，除了前文提到的状态空间方法和动态规划方法外，泊松二项递推的方法也是常用方法之一。　　当不确定性数据库只存在记录级不确定性且并未提供生存规则时，可以将每条记录的出现与否视作实验的2种对立结果：n次实验代表数据库的n条记录。如PT-K查询和global-TopK查询都需要求解每条记录出现在Top-K中的概率。如果将记录按分值排序，记录t出现在Top-K中的概率可以理解为如下表述事件：在排队序列中，排位在t前的那些记录同时出现小于等于k-1个记录的概率，因此可以使用泊松二项分布的递推方法[2]。　　记录级不确定数据库大致满足泊松二项分布的条件，在多种Top-K处理中都体现了泊松二项递推的思想[9-11，15-17]。当探知生存规则时，只要对生存规则设计具体处理，就可以将问题转化成简单情况。　　由于不确定性Top-K查询处理建立在不确定数