- 1
- 0
- 约6.95千字
- 约 12页
- 2017-11-28 发布于福建
- 举报
一种基于Hadoop多表链接策略
一种基于Hadoop多表链接策略
摘 要: Hadoop系统在处理多表链接问题时,每轮都会将大量的中间结果写入本地磁盘,从而严重降低了系统的处理效率。为解决该问题,提出一种“替换?查询”方法,该方法通过对链接表建立索引,将预输出的元组集替换为索引信息输出到中间结果,以索引的形式参与多表链接,以此减少中间结果的I/O代价。运用缓冲池、二次排序和多线程技术对索引信息进行优化管理,加快索引查询速度。最后在TPC?H数据集上,设计了与原Hadoop的对比实验,结果表明该方法可减少35.5%的存储空间,提高12.9%的运行效率。
关键词: 多表链接; 替换?查询; 索引; 缓冲池; 二次排序
中图分类号: TN911?34; TP311 文献标识码: A 文章编号: 1004?373X(2014)06?0090?05
0 引 言
随着互联网应用的快速发展,海量数据的存储与处理成为研究人员面临的严峻挑战。近年来,谷歌提出的分布式文件系统GFS、并行编程框架Map?Reduce。基于此,开源社区Apache的Hadoop项目实现了分布式文件系统HDFS和并行编程框架Hadoop Map?Reduce。Hadoop因其良好的可扩展性、高可用性以及容错性,广泛地应用在IBM,百度,360,阿里巴巴等互联网公司的海量数据存储与分析应用中,是目前使用最为广泛的云计算
您可能关注的文档
- TD—LTE重叠覆盖和解决方案研究.doc
- The Left Hand of Darkness——与平信使.doc
- The Life—Changing Power of Art Text by Zi Jian.doc
- Th17细胞在小鼠H22原位肝癌模型中表达与意义.doc
- TIG 焊在天然气管道焊接技术中应用.doc
- TI MSP430、MCU与无线技术成就安全便携式医疗设备.doc
- Timing-卖出比买入更重要.doc
- TJ900型运梁车液压悬挂轴承 故障研究和改进.doc
- TK823CH2井小井眼侧钻水平井钻井技术探析.doc
- TOPCARES—CDIO工程教育软件测试方向人才培养模式.doc
原创力文档

文档评论(0)