面向MapReduce的缓存感知调度平台的设计与实现-软件工程专业毕业论文.docxVIP

  • 7
  • 0
  • 约6.66万字
  • 约 81页
  • 2019-05-11 发布于上海
  • 举报

面向MapReduce的缓存感知调度平台的设计与实现-软件工程专业毕业论文.docx

哈尔滨工业大学工程硕士学位论文 哈尔滨工业大学工程硕士学位论文 万方数据 万方数据 摘 要 随着数据爆炸时代的到来,如何高效地对 TB 级甚至是 PB 级的大规模数据进行处 理是业界急需解决的问题。在应用需求和技术推动下,云计算作为一种新的计算模式被 提出来了,并逐步成为了 IT 界的主旋律,Hadoop 分布式计算平台是云计算的开源实 现,Hadoop 的主要组成部分是 HDFS(Hadoop 分布式文件系统)和 MapReduce 计算模 型,MapReduce 分布式计算框架作为云计算中处理大规模数据的利器而被各大企业广泛 应用。然而,在实际应用中,MapReduce 还有很多有待完善的地方,尤其是在调度机制 方面,包括任务分配不均等方面,同时原有的调度处理方式造成的资源和流量的浪费。 本论文主要通过对 IBM 公司的 Platform MapReduce 在做迭代运算的时候重复地从 文件系统中调用相同的数据造成资源的浪费和效率低的问题,通过追踪客户报告,进行 分析,提出了解决方案,提出功能需求包括分裂缓存需求和缓存感知调度需求,提出包 括提高 K-means 算法效率的性能需求。这个解决方案,通过对 HDFS 和 Map 任务中间 的数据的调用和存储进行优化,将作业间的相同数据存储在缓存中,管理缓存信息,并 且将这些缓存信息通知给主管理节点。减少了从 HDFS 文件系统调用数据,减少了对本 地磁盘空间的占用,减少作业运行时间,解决了海量数据在做分析时的资源浪费和效率 低的问题。 本论文主要包括分裂缓存和缓存感知调度两个子系统的设计和实现。分裂缓存子系 统的设计主要包括分裂缓存的状态判断模块设计,分裂缓存的注册模块设计,分裂缓存 过期信息管理模块设计等实现了避免从 HDFS 文件系统中调用相同数据,并且将这部分 数据存储在内存缓存中,对缓存中的分裂缓存信息进行管理。缓存感知调度子系统的设 计主要包括 SSM(Session Management ,服务会话管理)与 MRSS(MapReduce Shuttle Server , MapReduce 的洗牌服务)连接模块设计,MRSS 存储更新模块设计,SSM 存储 更新模块设计,SSM 调度模块设计和连接可靠性模块设计等实现在集群操作环境中, 主管理节点可以获知计算节点的分裂缓存信息,得到有分裂缓存信息的机器列表,进而 当 Map 作业到来时合理地调度资源,实现资源的使用优化和提高处理数据的效率。 本论文进行了系统测试,开启分裂缓存与缓存感知调度的功能时,迭代运算的大规 模数据作业的运行速度有明显的提高,作业运行所用的时间大幅减少。另外,对 Hadoop 的性能进行了测试,相对于标准的 Hadoop,集群的性能提高了 33%左右,并且提高了 K-means 算法的效率。通过了测试,并且满足了需求。 关键词:HDFS;MapReduce;迭代运算;分裂缓存;缓存感知调度 I Abstract With the advent of the era of data explosion, how efficiently processes TB level or even large-scale data, PBs urgent, is the problem we need to solve. With the application requirements and technology promoting, cloud computing as a new computing model was put forward, and gradually became the main theme of the IT industry, Hadoop distributed computing platform is the open source implementation of cloud computing, and its major components are HDFS(Hadoop Distributed File System) and MapReduce computing model. MapReduce distributed computing framework as a tool for cloud computing and large-scale data processing is widely used in major enterprises. However, in actual use, MapReduce still has a lot to improve , especially in the scheduling mechani

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档