- 1、本文档被系统程序自动判定探测到侵权嫌疑,本站暂时做下架处理。
- 2、如果您确认为侵权,可联系本站左侧在线QQ客服请求删除。我们会保证在24小时内做出处理,应急电话:400-050-0827。
- 3、此文档由网友上传,因疑似侵权的原因,本站不提供该文档下载,只提供部分内容试读。如果您是出版社/作者,看到后可认领文档,您也可以联系本站进行批量认领。
查看更多
海量数据查询处算法的研究
国内图书分类号:TP311.13 学校代码:10213
国际图书分类号:681.5 密级:公开
工工工学学学博博博士士士学学学位位位论论论文文文
海量数据查询处理算法的研究
博士研究生:韩希先
导 师:李建中教授
申 请 学 位:工学博士
学 科:计算机软件与理论
所 在 单 位:计算机科学与技术
答 辩 日 期:2011 年10 月
授予学位单位:哈尔滨工业大学
Classified Index: TP311.13
U.D.C.: 681.5
Dissertation for the Doctoral Degree in Engineering
RESEARCH ON QUERY PROCESSING
ON MASSIVE DATA
Candidate: Han Xixian
Supervisor: Prof. Li Jianzhong
Academic Degree Applied for: Doctor of Engineering
Specialty: Computer Software and Theory
Affiliation: School of Computer Science and Technology
Date of Defence: October, 2011
Degree-Conferring-Institution: Harbin Institute of Technology
摘 要
摘 要
时至今日,海量数据时代的来临已经毋庸置疑。高速计算技术和先进的自
动感应技术使得产生和收集大量数据成为可能,各行业获得数据量呈指数增长
趋势。在最近的20年里,全球总的数据量以每年25.3% 的速度增长。各行业可以
利用海量数据的数据分析结果获得巨大的收益,这也充分说明了海量数据查询
计算的价值。在海量数据的查询处理中,磁盘I/O操作费用是其执行操作的主要
费用。在过去的20年间,主流单硬盘的容量增长了50000倍,与之对应的,在同
一时期,磁盘的数据传输速率则只提高了375倍。在用户的角度看来,因为数据
库系统需要存储和处理更多的数据,查询处理操作的时间增加了。现有的数据
库查询技术只适用于中小规模的数据集,当处理海量数据时,现有数据库系统
无法提供高效的数据操作算法和查询处理技术。面对目前的海量数据集,如何
有效地执行数据分析来支持决策及科学探索是一个非常具有挑战性的问题,并
且具有较大的学术和实用价值。本文的研究工作主要集中于海量数据的查询处
理算法,因此本文将对一些常用的查询操作提出新的更加高效的并且适用于海
量数据的查询算法,包括:连接查询、连接聚集查询、top-k查询和top-k join 查
询。本文的主要研究成果包括如下几个方面:
首先,本文研究海量数据连接查询处理问题。连接查询是数据库系统中
的一个重要而又昂贵的操作,其性能直接影响着数据库的整体性能。在海量
数据上执行时,现有连接算法不但需要耗费大量时间和计算资源,而且在不
同选择度下需要处理同样数量的数据。本文分析了现有连接算法在海量数据
上执行时的性能问题,提出了一种新的基于磁盘的连接算法PI-Join ,该算法可
以有效地处理海量数据上的连接查询。本文提出了连接位置索引对表(JPIPT:
Join Positional Index Pair Table) 的概念,用来表示每个连接元组在各自数据表中
的位置索引对。PI-Join 的执行包括两个阶段:
文档评论(0)