- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
HADOOP系统架构分析综述
目录
TOC\o1-2\h\u2171HADOOP系统架构分析综述 1
16461.1分布式文件系统 2
25230(1)管理节点 2
7346(2)数据节点 3
20843(3)数据块 3
240031.2MapReduce分布式计算 5
320991.3HBase数据库 6
Hadoop[53]是Apache旗下的一个开源分布式软件计算系统,该系统包括很多子系统,如图2-1所示。
图2-1Hadoop系统架构
Fig.2-1HadoopSystemArchitecture
Hadoop系统框架的核心由三部分组成,分别为分布式文件系统(HadoopDistributedFileSystem,HDFS)、分布式计算模型MapReduce、列式存储库HBase构成。随着大数据时代的到来,目前Hadoop凭借着运行速度快、不需要高昂设备、能够对海量数据进行存储和计算等优势已经应用在多个领域,许多网站都依靠Hadoop框架进行后台存储和处理,如数据挖掘、网页索引等。Hadoop系统具备以下特点:
(1)Hadoop系统能够进行PB级别的海量数据存储和离线处理,当存在数据量较大、计算复杂的情况时,借助Hadoop良好的伸缩性,可以通过增加节点的方式来进行扩容;
(2)Hadoop能够部署在由大量普通的PC机组成的集群上,当集群性能不能满足快速计算的需求时,可以通过拓展服务器数量的方式加快数据的处理速度;
(3)Hadoop系统可以将数据切分为多个数据块,并将数据块分配到节点上,然后在各个节点进行数据分析和处理,这大大加快了处理数据的速度;
(4)Hadoop系统中的分布式文件存储系统能够将数据生成多个副本并分配到节点上,副本数目可以自行设置,系统默认值为3,在处理数据出现故障时也能保证数据不丢失,调试之后能够重新进行处理任务,这种容错机制极大提升了系统的可靠性。
1.1分布式文件系统
HDFS[54]是一种可以在廉价服务器件上运行的分布式文件系统,但是拥有良好的容错机制和数据访问性能。在分布式计算任务中,HDFS可以通过流式数据读写模式为使用者提供稳定的海量数据的存储和管理服务。HDFS的研究人员认为服务器硬件出现错误是一种很常见的现象,为了保障系统数据的不丢失,HDFS具有数据错误检测、备份容错和数据自动恢复等功能是非常有必要的。HDFS集群是利用主节点(Master)/从节点(Slave)的框架来存储数据的,包括管理节点NameNode和数据节点DataNode,由于Hadoop的特殊性和可靠性,管理节点只能有一个,而数据节点可以根据集群的规模存在若干个,HDFS的体系框架如图2-2所示。
图2-2HDFS的体系架构
Fig.2-2ArchitectureofHDFS
关于分布式文件系统HDFS各个组件描述如下:
(1)管理节点
在HDFS中,管理节点NameNode的数目只能存在一个,这种设计模式简化了系统架构,它的作用是存储HDFS中的元数据且并不参与系统计算,维护着文件系统内所有的NameSpace和编辑日志文件,在集群启动后负责管理集群中数据处理任务的执行信息调度并处理客户端发出的读写请求,因此数据并不会通过管理节点进行处理,降低了管理节点的负载,从而更加稳定的进行任务调度。
(2)数据节点
在HDFS中,DataNode的数目可以根据实际情况搭建若干个,作为任务真正的执行节点,为了保障系统的正常运行,文件系统的实际文件数据会被存储在这里并在需要时进行检索。DataNode会通过周期性心跳信号向管理节点将自身存储的块列表信息和自身工作状态进行发送,当数据节点获取到要复制的数据块列表信息后根据存放副本的原则完成流水线复制。
(3)数据块
在HDFS中支持大文件存储和处理,应用的数据处理模式是一次写入多次读取。存储在HDFS中所有的数据文件会被split成数据块,数据块是HDFS进行数据处理操作的最小单元,hadoop2.x默认每个数据块大小是128MB。为了提高容错性和可靠性,每个数据块都会尽可能的存放在不同的数据节点上。在HDFS在读操作时,HDFS读取文件[55]的原理如图2-3所示。
图2-3HDFS读取文件过程
Fig.2-3ReadFileProcessofHDFS
(1)HDFSClient通过调用FileSystem中的open()方法向NameNode发起调用请求并获取数据信息;
(2)NameNode响应Client的请求,经过元数据信息查询并返回文件的所有数据块信息和所在节点的地址信息;
(3)获取到的返回信息保存到FSDataInputStream中并返回给Client用来数
您可能关注的文档
- 《5G背景下智能网联汽车技术发展与应用研究》11000字.doc
- 《30倍轮廓测量投影仪物镜镜头设计》8600字.docx
- 《51单片机控制的宿舍智能防火报警系统设计》6700字.docx
- 《A市金融创新环境下小微企业融资成本控制策略》15000字.doc
- 《FPGA技术助力智能温度控制的创新实践》9800字.doc
- 《GF证券公司咸阳营业部营销现状和存在问题调研分析报告》7900字.docx
- 《GF证券公司营销环境及SWOT分析案例综述》9700字.docx
- 《G食品有限公司实施业财融合存在的问题及完善对策研究》17000字.docx
- 《G中学在线家教网的设计与实现》8900字.docx
- 《S市农村客运公交化问题研究的国内外文献综述》3600字.docx
- 2025至2031年中国冲孔机行业投资前景及策略咨询研究报告.docx
- 2025至2030年中国皮艺礼盒数据监测研究报告.docx
- 2025年中国特种梭市场调查研究报告.docx
- 2025年中国燃油防锈剂市场调查研究报告.docx
- 2025至2031年中国凸轮轴支架行业投资前景及策略咨询研究报告.docx
- 2025年中国聚四氟乙烯绳市场调查研究报告.docx
- 2025年中国皮棉清理机市场调查研究报告.docx
- 2025至2030年中国复合型强力除硫抑菌剂数据监测研究报告.docx
- 肝糖原贮积病患儿消化内镜诊疗围术期管理规范专家共识(2024).docx
- 关于手术室医疗设备维护2024年度工作总结.docx
最近下载
- 14BJ15-1 -人防工程防护设备优选图集.pdf
- PEP版英语三年级下册课件Unit 5《Old toys》Part B(3)Read and write.pptx VIP
- 2025年江苏农林职业技术学院单招职业倾向性测试题库附答案(培优a卷).docx VIP
- 轴流式多级降压抗气蚀调节阀.ppt
- XBG--911(一)建筑抗震构造图集.pdf
- 弘扬雷锋精神争做时代先锋PPT.pptx VIP
- 9.1 日益完善的法律体系 课件(共23张PPT)——初中道德与法治统编版(2024)七年级下册教学课件.pptx VIP
- 2020年重庆一中中考物理三模试卷(附答案详解).pdf VIP
- Unit 2 Expressing yourself Part C (课件)-2024-2025学年人教PEP版英语三年级下册.pptx VIP
- 五十六个民族之京族介绍.pptx VIP
文档评论(0)