面向大规模查询处理的GPU缓存框架设计-计算机软件理论专业毕业论文.docxVIP

  • 4
  • 0
  • 约4.86万字
  • 约 57页
  • 2019-05-11 发布于上海
  • 举报

面向大规模查询处理的GPU缓存框架设计-计算机软件理论专业毕业论文.docx

万方数据 万方数据 南开大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下进行研究工作所 取得的研究成果。除文中已经注明引用的内容外,本学位论文的研究成果不包 含任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所 涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本 学位论文原创性声明的法律责任由本人承担。 学位论文作者签名: 余文清 2015 年 5 月 30 日 非公开学位论文标注说明 (本页表中填写内容须打印) 根据南开大学有关规定,非公开学位论文须经指导教师同意、作者本人申 请和相关部门批准方能标注。未经批准的均为公开学位论文,公开学位论文本 说明为空白。 论文题目 申请密级 □限制(≤2 年) □秘密(≤10 年) □机密(≤20 年) 保密期限 20 年 月 日至 20 年 月 日 审批表编号 批准日期 20 年 月 日 南开大学学位评定委员会办公室盖章(有效) 注:限制★2 年(可少于 2 年);秘密★10 年(可少于 10 年);机密★20 年(可少于 20 年) 摘要 摘要 随着搜索引擎面临越 来越大的性能压力, 使用现代图形处理器(Graphic Processing Units) 进行搜索引擎查询处理加速被证明是一个有效提高搜索引擎 效率的途径。GPU 的众核架构十分有利于加速查询处理算法。但是,由于搜索 引擎需要处理的数据量日益增长,GPU 有限的显存空间限制了它在这个领域的 应用。在本文中,我们提出一种面向大规模查询处理的 GPU 缓存框架。该框架 使得在 GPU 上处理远大于显存空间的倒排索引成为可能。另一方面,我们注意 到,在查询处理中应用提前停止算法(early termination)后,大部分倒排链表只 被部分地访问到。基于此,我们提出了一种基于倒排链表剪枝的 GPU 静态缓存 算法。该算法只缓存倒排链表中被频繁访问到的部分,使得显存中能够容纳更 多的链表。 为了提高在剪枝索引上的查询效率,我们在 GPU 上实现了数据并行的查询 处理算法,包括链表求交、top-k 排序和提前停止算法等多个步骤。对比于 CPU 查询处理算法,GPU 算法达到 11 倍的加速比。此外,为了保证在剪枝索引上进 行的查询处理的结果是正确、完整的,我们提出了一种 GPU-CPU 协同查询处理 的方案。 作为一种静态缓存策略,我们提出的缓存算法需要将一部分的显存预留作为 存储缓存失效数据的临时存储空间(缓冲区空间)。实验表明,缓存空间和缓冲 区空间的大小比例对于查询处理的性能至关重要。因此,我们从理论上讨论并 分析了显存空间的划分问题并提出了两种寻找最优划分经验值的方法。 实验表明,我们提出的 GPU 查询处理缓存框架和缓存算法能够有效减少 GPU 和 CPU 之间的数据传输量,进而显著提高系统吞吐率。 关键词:GPU;信息检索;缓存 I Abstract Abstract As search engines are facing enormous performance stress, using modern graphic processing units (GPUs) to accelerate query evaluation has been previously demonstrated as a promising way to boost the performance of search engines. The many-core architecture of GPU is suitable for accelerating query processing algorithms. However, the limited memory size of the GPU restricts its application in information retrieval domain, since the size of corpus to be processed by search engines is increasing markedly everyday. In this paper, we introduce a caching framework to address this problem, which set the stage for performing query evaluation on an inverted index whose size is much larger than the available GPU memory. Motivated by the fact that most in

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档