- 7
- 0
- 约6.66万字
- 约 81页
- 2019-05-11 发布于上海
- 举报
哈尔滨工业大学工程硕士学位论文
哈尔滨工业大学工程硕士学位论文
万方数据
万方数据
摘 要
随着数据爆炸时代的到来,如何高效地对 TB 级甚至是 PB 级的大规模数据进行处 理是业界急需解决的问题。在应用需求和技术推动下,云计算作为一种新的计算模式被 提出来了,并逐步成为了 IT 界的主旋律,Hadoop 分布式计算平台是云计算的开源实 现,Hadoop 的主要组成部分是 HDFS(Hadoop 分布式文件系统)和 MapReduce 计算模 型,MapReduce 分布式计算框架作为云计算中处理大规模数据的利器而被各大企业广泛 应用。然而,在实际应用中,MapReduce 还有很多有待完善的地方,尤其是在调度机制 方面,包括任务分配不均等方面,同时原有的调度处理方式造成的资源和流量的浪费。 本论文主要通过对 IBM 公司的 Platform MapReduce 在做迭代运算的时候重复地从 文件系统中调用相同的数据造成资源的浪费和效率低的问题,通过追踪客户报告,进行 分析,提出了解决方案,提出功能需求包括分裂缓存需求和缓存感知调度需求,提出包 括提高 K-means 算法效率的性能需求。这个解决方案,通过对 HDFS 和 Map 任务中间 的数据的调用和存储进行优化,将作业间的相同数据存储在缓存中,管理缓存信息,并 且将这些缓存信息通知给主管理节点。减少了从 HDFS 文件系统调用数据,减少了对本 地磁盘空间的占用,减少作业运行时间,解决了海量数据在做分析时的资源浪费和效率
低的问题。
本论文主要包括分裂缓存和缓存感知调度两个子系统的设计和实现。分裂缓存子系 统的设计主要包括分裂缓存的状态判断模块设计,分裂缓存的注册模块设计,分裂缓存 过期信息管理模块设计等实现了避免从 HDFS 文件系统中调用相同数据,并且将这部分 数据存储在内存缓存中,对缓存中的分裂缓存信息进行管理。缓存感知调度子系统的设 计主要包括 SSM(Session Management ,服务会话管理)与 MRSS(MapReduce Shuttle Server , MapReduce 的洗牌服务)连接模块设计,MRSS 存储更新模块设计,SSM 存储 更新模块设计,SSM 调度模块设计和连接可靠性模块设计等实现在集群操作环境中, 主管理节点可以获知计算节点的分裂缓存信息,得到有分裂缓存信息的机器列表,进而 当 Map 作业到来时合理地调度资源,实现资源的使用优化和提高处理数据的效率。
本论文进行了系统测试,开启分裂缓存与缓存感知调度的功能时,迭代运算的大规 模数据作业的运行速度有明显的提高,作业运行所用的时间大幅减少。另外,对 Hadoop 的性能进行了测试,相对于标准的 Hadoop,集群的性能提高了 33%左右,并且提高了
K-means 算法的效率。通过了测试,并且满足了需求。
关键词:HDFS;MapReduce;迭代运算;分裂缓存;缓存感知调度
I
Abstract
With the advent of the era of data explosion, how efficiently processes TB level or even large-scale data, PBs urgent, is the problem we need to solve. With the application requirements and technology promoting, cloud computing as a new computing model was put forward, and gradually became the main theme of the IT industry, Hadoop distributed computing platform is the open source implementation of cloud computing, and its major components are HDFS(Hadoop Distributed File System) and MapReduce computing model. MapReduce distributed computing framework as a tool for cloud computing and large-scale data processing is widely used in major enterprises. However, in actual use, MapReduce still has a lot to improve , especially in the scheduling mechani
您可能关注的文档
- 面向RFID数据的云存储技术研究和实现-物流工程专业毕业论文.docx
- 煤粉锅炉中烟气重金属汞的排放规律研究-环境工程专业毕业论文.docx
- 浚县某镇污水处理厂工程初步设计-建筑与土木工程专业毕业论文.docx
- 面向服务环境的组合服务计费方法研究-计算机应用技术专业毕业论文.docx
- 面向中小企业的数控刀具选择及管理系统研究与开发-机械制造及其自动化专业毕业论文.docx
- 绵阳移动基于SSH的移动数据业务管理系统的设计与实施-软件工程专业毕业论文.docx
- 面向产品快速设计的三维CAD资源平台的研究与应用-机械工程专业毕业论文.docx
- 黄芫花质量控制方法与标准研究-药物分析学专业毕业论文.docx
- 黄瓜磷脂酶D和抗氧化系统对采后机械损伤胁迫的响应-食品科学专业毕业论文.docx
- 控释肥树脂残膜对土壤性状及作物生长效应的影响-土壤学专业毕业论文.docx
- 全过程工程管理造价咨询工程监理项目服务方案投标方案(技术部分).doc
- 招标代理服务投标技术服务方案(技术方案).doc
- AI大模型与AIGC技术在公安领域的应用解决方案(99页 PPT).pptx
- 工业4.0智能制造数字工厂规划方案.pptx
- 树立社会主义核心价值观.docx
- 三年(2023-2025)中考历史真题分类汇编(全国)专题21 科技文化与社会生活(解析版).docx
- 2025年中考道德与法治真题完全解读(吉林卷).pdf
- 2025年中考道德与法治真题完全解读(安徽卷).pdf
- 三年(2023-2025)中考历史真题分类汇编(全国)专题14 人民解放战争(解析版).pdf
- 三年(2023-2025)广东中考历史真题分类汇编:专题03 中国近代史(八年级上册)(解析版).docx
原创力文档

文档评论(0)