网络虚拟环境下不确定数据查询算法的改进.docVIP

下载本文档

1
0
约2.78千字
约 5页
2016-09-11 发布于北京
举报
版权申诉

网络虚拟环境下不确定数据查询算法的改进.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

网络虚拟环境下不确定数据查询算法的改进.doc

网络虚拟环境下不确定数据查询算法的改进　　摘要：随着计算机技术的发展，不确定数据查询已经受到了学术和工业界广泛关注，成为新的研究热点。本文在传统的Top-k算法的基础上，提出了新的RU-Topk算法，探讨了在高负载的情况下，基于GPU同步模式RU-Topk查询算法的设计实现，以求进一步提高查询效率。　　关键词：不确定数据；查询算法；Top-k 　　中图分类号：TP311.13 　　不确定数据普遍存在于天文观测、地址测量、气象观测等领域当中，但由于复杂的外部环境以及仪器本身精度的限制，造成采集的数据并不是准确完整的[1]。随着数据管理技术的发展，人们越来越重视不确定数据管理的问题[2]，同时各种实际需求的需要也加快了对不确定数据研究的步伐。不确定数据管理的最终目标是对不确定数据进行查询处理来提高查询的性能，最终改善用户的体验效果。不确定查询算法包括top-k查询、轮廓查询等方式。top-k查询算法只查询用户感兴趣的前k个数据，从而能够避免返回大量的查询的结果，因此这种查询算法已经在传统的确定数据查询当中得到了大量的应用。本文在研究top-k查询算法的基础上，对不确定数据查询算法进行了优化改进。　　1 Top-k查询　　Top-k查询的是最能够满足条件的k个查询结果，如果以评分来统计查询结果的话，该算法查找的就是k个值最高对象。Top-k查询分为聚合的top-k查询和非聚合top-k查询两种，其主要区别就是算法当中是否用到了聚合函数。下图给出了二维不确定数据top-k查询的实例，在该图当中，每一个不确定的数据在它们的特征空间呈现一个范围，对象的观测值就是范围当中的点，如果用户发出top-2查询，那么就不能够确定t2和t3哪一个会获得第2高的得分，但t1明显是得分最高的。　　图1 二维不确定数据top-k查询实例　　在日常生活当中，人们并不关注所有的查询结果，而是只关注满足自己需要的一小部分结果。而Top-k查询算法的优点就类似于互联网上的搜索引擎，每次进行查询时，对于用户提出的查询，都会返回最满足查询的前top-k个页面，如果遇到了用户比较感兴趣的链接，那么查找的结果就认为是正确的，就会去点击返回的连接，如果没有碰到感兴趣的链接，就回去翻下一页。因此人们很满意这种查询方式。　　虽然top-k算法给查询带来了方便，但是其在查询语义上尚存在许多不足。Top-k查询算法根据各自的定义计算概率，最后返回概率最大的元组，并没有向用户提供反映其需求的指标，用户没有办法根据自己的需求过滤掉自己不感兴趣的数据，查询到自己感兴趣的数据。此外，用户虽然能够自主设定概率阀值进行剪枝，但是用户很难控制集的规模，在实际的应用当中难度很大，造成用户需要多次提交查询，才能得到其想要的满意的结果。　　2 面向需求扩展的不确定数据查询改进算法RU-Topk 　　2.1 RU-Topk算法的描述思想　　RU-Topk查询算法的主要思想表述如下：　　（1）用户可以根据自身的需求以及具体的情况来设定需求扩展度的值，这样可以利用该值来约束top-k查询结果的集中，最少应该包括了分值排名前k的元祖的个数。　　（2）RU-topk的查询的结果是由两部分构成，一部分来自top-k打分函数的元祖，另外的来自剩下的元祖。两部分的查询结构个数总共为k个。　　（3）分治的思想应用在RU-Topk算法当中，根据概率将第一部分k个元祖排序，先找出概率最大的i个元祖，然后做乘积，再按照概率进行逆序，在其中加入元祖，同时求乘积。采用OptU-Topk算法计算第二部分从top-1到topk-i的值，计算过程当中包含了从top1到topk-1的值，只不过自动舍弃了这些结果。最后合并这两个部分对应的矢量组。　　2.2 基于图形处理器（GPU）平台的RU-Topk算法的设计　　如果设D为可能世界空间的不确定的数据库，设T是一个长度为k的元祖向量，该向量满足q（T）≥qe，qe是用户根据需求自己定义的需求扩展阀值约束。设ΦK（W）是W中按照打分函数逆序排列得到的前k个元祖的集合；当?W?k时，ΦK（W）=0。RU-topk算法会返回一个序列R，该序列一共有[（1-qe）k]+1个查询的应答，这些查询应答每一个都是长度为k的元祖向量。这个元祖向量用公式表示为：　　在查询调度的时候，当负载较高时，采用同步的模式以及批量调度查询的方式，从而提高效率；当负载较低时，采用异步模式。不同的状况选择合适的工作方式，进一步提高查询效率。采用同步方式来执行RU-Topk算法的核心思想是不单独处理某一查询的命令，而是采用捆绑方式，形成查询批组，然后并行执行以提高系统的吞吐率。其工作原理如下图所示：　　图2 同步模式工作图　　RU-Topk算