海量数据查询处算法的研究.pdfVIP

下载本文档

5
0
约35.49万字
发布于四川
举报
版权申诉
文档已下架，其它文档更精彩

海量数据查询处算法的研究.pdf

1、本文档被系统程序自动判定探测到侵权嫌疑，本站暂时做下架处理。
2、如果您确认为侵权，可联系本站左侧在线QQ客服请求删除。我们会保证在24小时内做出处理，应急电话：400-050-0827。
3、此文档由网友上传，因疑似侵权的原因，本站不提供该文档下载，只提供部分内容试读。如果您是出版社/作者，看到后可认领文档，您也可以联系本站进行批量认领。

海量数据查询处算法的研究

国内图书分类号：TP311.13 学校代码：10213 国际图书分类号：681.5 密级：公开工工工学学学博博博士士士学学学位位位论论论文文文海量数据查询处理算法的研究博士研究生：韩希先导师：李建中教授申请学位：工学博士学科：计算机软件与理论所在单位：计算机科学与技术答辩日期：2011 年10 月授予学位单位：哈尔滨工业大学 Classiﬁed Index: TP311.13 U.D.C.: 681.5 Dissertation for the Doctoral Degree in Engineering RESEARCH ON QUERY PROCESSING ON MASSIVE DATA Candidate: Han Xixian Supervisor: Prof. Li Jianzhong Academic Degree Applied for: Doctor of Engineering Specialty: Computer Software and Theory Aﬃliation: School of Computer Science and Technology Date of Defence: October, 2011 Degree-Conferring-Institution: Harbin Institute of Technology 摘要摘要时至今日，海量数据时代的来临已经毋庸置疑。高速计算技术和先进的自动感应技术使得产生和收集大量数据成为可能，各行业获得数据量呈指数增长趋势。在最近的20年里，全球总的数据量以每年25.3% 的速度增长。各行业可以利用海量数据的数据分析结果获得巨大的收益，这也充分说明了海量数据查询计算的价值。在海量数据的查询处理中，磁盘I/O操作费用是其执行操作的主要费用。在过去的20年间，主流单硬盘的容量增长了50000倍，与之对应的，在同一时期，磁盘的数据传输速率则只提高了375倍。在用户的角度看来，因为数据库系统需要存储和处理更多的数据，查询处理操作的时间增加了。现有的数据库查询技术只适用于中小规模的数据集，当处理海量数据时，现有数据库系统无法提供高效的数据操作算法和查询处理技术。面对目前的海量数据集，如何有效地执行数据分析来支持决策及科学探索是一个非常具有挑战性的问题，并且具有较大的学术和实用价值。本文的研究工作主要集中于海量数据的查询处理算法，因此本文将对一些常用的查询操作提出新的更加高效的并且适用于海量数据的查询算法，包括：连接查询、连接聚集查询、top-k查询和top-k join 查询。本文的主要研究成果包括如下几个方面：首先，本文研究海量数据连接查询处理问题。连接查询是数据库系统中的一个重要而又昂贵的操作，其性能直接影响着数据库的整体性能。在海量数据上执行时，现有连接算法不但需要耗费大量时间和计算资源，而且在不同选择度下需要处理同样数量的数据。本文分析了现有连接算法在海量数据上执行时的性能问题，提出了一种新的基于磁盘的连接算法PI-Join ，该算法可以有效地处理海量数据上的连接查询。本文提出了连接位置索引对表(JPIPT: Join Positional Index Pair Table) 的概念，用来表示每个连接元组在各自数据表中的位置索引对。PI-Join 的执行包括两个阶段：

您可能关注的文档

知传链电子书

文档评论（0）

tongya575577 + 关注: 文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

海量数据查询处算法的研究.pdfVIP