- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大规模数据密集型系统中的去重查询优化
高性能计算技术 21
大规模数据密集型系统中的去重查询优化
宋怀明 安明远王洋 孙凝晖
中国科学院计算技术研究所计算机系统结构重点实验室 北京100190 shm@
袁春阳
国家计算机网络应急技术处理协调中心 北京100029
摘要:
在大规模数据密集型系统中,海量数据分布存储在多节点,给去重查询提出了新的挑战.
针对去重查询中可能出现的不同情况,提出了一种有效地数据分布策略和并行处理方法:即散
列(hash)和直方图相结合的数据分布策略,以及异步式并行查询引擎,对多节点的去重查询进行
优化.异步式并行查询引擎充分发掘了海量数据处理中流水级的并行,消除了多节点同步等待
的开销,能够尽早地返回用户结果,降低去重查询的响应时间.在真实系统DBroker上的实验表
明,数据分布策略能极大地改善相关属性的去重查询性能,而异步式并行查询引擎能够充分发
掘并行性,对不相关属性的去重查询具有明显的性能提升.
关键词:去重,消除重复,海量数据,异步查询,并行查询引擎
1. 引言 果也需要在节点间进行传输。查询语句执行计划中
近年来,大规模数据密集型系统越来越多的应 涉及到多个步骤,每个步骤均需要多个节点的协同
用在了网络安全监控、金融数据分析、电信数据处 工作,这也给查询计划各步骤之间的流水级的并行
理、传感器网络等领域。从上个世纪90年代开始, 和访问控制提出了新的挑战。在查询处理过程中,
[9,12]
数据量的增长速度大约每年可以翻一番,远远超过 通常采用的是目前比较成熟的2阶段处理方法 ,即
了摩尔定律指出的硬件性能的增长速度。在大规 前处理和后处理两个阶段:前处理在各数据库节点
独立的查询,后处理对前处理的结果进行合并。在
模数据密集型系统中,海量数据通常采用shared-
nothing的结构分散存储在多个数据节点,这种方式易 这一过程中,前处理不可避免的会出现执行时间不
于构架和实现,对于提高系统的并行性和扩展性具 一致的情况,如果等到所有节点都完成再启动后处
有明显的优势,但另一方面数据的分散存储也给全 理的结果的合并,则可能导致大量系统资源的空闲
局的数据去重查询提出了新的挑战,主要表现在以 等待。
下几个方面: 本文针对上面提出的3个方面的问题展开了研
节点间大量数据交换对网络通讯的压力。 究,提出了一种有效的数据分布策略,即散列和直
大量的中间结果的存储和管理。 方图相结合的数据分布策略,以此来减少去重查询
多节点并行带来的执行倾斜和同步等待的问 过程中节点之间的数据交换。同时也设计实现了针
题。 对海量数据处理的并行查询引擎,充分发掘并利用
在大规模数据密集型系统中,一方面需要将海 机群环境下的多机流水并行,提高了系统查询处理
量的数据进行划分和分散存储,以提高数据存取的 的运行效率,并通过异步方式的改进,消除多个并
带宽和计算的并行度;另一方面这种数据划分和并 行节点之间的同步等待,提高流水处理的效率,在
行计算也大大增加了查询执行控制的复杂度。在去 真实系统DBroker上进行的实验表明,这些方法均达
重查询处理中,通常采用has
文档评论(0)