- 1、本文档共59页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
hadoop大数据开发及性能调优实战培训课程hadoop组件详解
Hadoop的特点 扩容能力(Scalable):能可靠地(reliably)存储和处理千兆字节(PB)数据并且线性扩展。 成本低(Economical):可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。 高效率(Efficient):通过分发数据,hadoop可以在数据所在的节点上并行地(parallel)处理它们,这使得处理非常的快速。 可靠性(Reliable):hadoop能自动地维护数据的多份副本,并且在任务失败后能自动地重新部署(redeploy)计算任务。 Hadoop集群的物理分布 Namenode 是整个文件系统的管理节点。它维护着整个文件系统的文件目录树,文件和目录的元信息以及每个文件对应的数据块列表。接收用户的操作请求。 NN包括: fsimage:元数据镜像文件。存储某一时段NameNode内存元数据信息。 edits:操作日志文件。 fstime:保存最近一次checkpoint的时间 以上这些文件是保存在linux的文件系统中 SecondaryNameNode HA的一个解决方案。但不支持热备。 执行过程:从NameNode上下载元数据信息(fsimage,edits),然后把二者合并,生成新的fsimage,在本地保存,并将其推送到NameNode,同时重置NameNode的edits。合并策略是根据时间和根据edits log变换大小。 默认是安装在NameNode节点上,可以通过配置启动在其他节点。 HDFS读写流程 读文件流程 client端发送读文件请求给namenode,如果文件不存在,返回错误信息,否则,将该文件对应的block及其所在datanode位置发送给client client收到文件位置信息后,与不同datanode建立socket连接并行获取数据。 写文件流程 client端发送写文件请求,namenode检查文件是否存在,如果已存在,直接返回错误信息,否则,发送给client一些可用datanode节点 client将文件分块,并行存储到不同节点上datanode上,发送完成后,client同时发送信息给namenode和datanode namenode收到的client信息后,发送确信信息给datanode datanode同时收到namenode和datanode的确认信息后,提交写操作。 HDFS安全模式 Namenode启动时会先经过一个“安全模式”阶段 安全模式阶段不会产生数据写 在此阶段Namenode收集各个datanode的报告,当数据块达到最小副本数以上时,会被认为是“安全”的 在一定比例(可设置)的数据块被确定为“安全”后,再过若干时间,安全模式结束 当检测到副本数不足的数据块时,该块会被复制直到达到最小副本数 HDFS回收站 删除文件时,其实是放入回收站/trash 回收站里的文件可以快速恢复 可以设置一个时间阈值,当回收站里文件的存放时间超过这个阈值,就被彻底删除,并且释放占用的数据块 修改core-site.xml property namefs.trash.interval/name value1440/value descriptionNumber of minutes between trash checkpoints. If zero, the trash feature is disabled. /description /property JobTracker失败 1)JobTracker失败在所有的失败中是最严重的一种。 2)hadoop没有处理jobtracker失败的机制。--它是一个单点故障。 3)在未来的新版本中可以运行多个JobTracker。 4)可以使用ZooKeeper来协作JobTracker。 TaskTracker失败 1)一个TaskTracker由于崩溃或运行过于缓慢而失败,它会向JobTracker发送“心跳”。 2)如果有未完成的作业,JobTracker会重新把这些任务分配到其他的TaskTracker上面运行。 3)即使TaskTracker没有失败也可以被JobTracker列入黑名单。 Combiner InputSplits Mapper Partitioner Shuffle Sort InputFormat Reducer RecordReader MapReduce核心组件 文件输入格式InputFormat 定义了数据文件如何分割和读取 InputFile提供了以下一些功能 选择文件或者其它对象,用来作为输入 定义InputSplits, 将一个
您可能关注的文档
- (培优机构)团队管理培训课件.ppt
- (培训讲解)矿业工程管理及实.ppt
- (形势及政策讲座)从难民营走出韩国总统文在寅.ppt
- (终稿)抗糖尿病药物仿制可行性报告.doc
- (印制版)icd演讲.ppt
- (新)社会保险及公积金基本知识.ppt
- (详细讲稿附详细案例)《思想道德修养及法律基础》第六章第七章串讲.doc
- (详细讲稿附案例)《思想道德修养及法律基础》第六章第七章串讲.doc
- (整理稿)公需科目职业发展及规划.doc
- (许开禄)农民专业合作经济专题讲座.ppt
- 2023届黑龙江哈尔滨第三中学高三二模英语试题 (解析版).docx
- 三校生对口升学考试计算机专题复习试题及答案解析.pdf
- 2023届江西省鄱阳县第一中学高三一模英语试题(原卷版).docx
- 2024届甘肃省高三下学期二模物理试题(解析版).pdf
- 2023届江苏省南京市等2地南京市教育科学研究所等2校一模英语试题(原卷版).docx
- 2023届江西省萍乡市芦溪中学高三一模英语试题(解析版).docx
- 2024届甘肃省高三二模语文试题(原卷版).pdf
- 2023届河南省郑州市高中毕业年级第二次质量预测英语试题(解析版).docx
- 2023届江西省抚州市金溪县第一中学等七校高三下学期第一次联考英语试卷(原卷版).docx
- 2023届吉林省吉林市普通中学高三上学期第二次调研测试英语试题(解析版).docx
文档评论(0)