hadoop大数据开发及性能调优实战培训课程hadoop组件详解.ppt

hadoop大数据开发及性能调优实战培训课程hadoop组件详解.ppt

  1. 1、本文档共59页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
hadoop大数据开发及性能调优实战培训课程hadoop组件详解

Hadoop的特点 扩容能力(Scalable):能可靠地(reliably)存储和处理千兆字节(PB)数据并且线性扩展。 成本低(Economical):可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。 高效率(Efficient):通过分发数据,hadoop可以在数据所在的节点上并行地(parallel)处理它们,这使得处理非常的快速。 可靠性(Reliable):hadoop能自动地维护数据的多份副本,并且在任务失败后能自动地重新部署(redeploy)计算任务。 Hadoop集群的物理分布 Namenode 是整个文件系统的管理节点。它维护着整个文件系统的文件目录树,文件和目录的元信息以及每个文件对应的数据块列表。接收用户的操作请求。 NN包括: fsimage:元数据镜像文件。存储某一时段NameNode内存元数据信息。 edits:操作日志文件。 fstime:保存最近一次checkpoint的时间 以上这些文件是保存在linux的文件系统中 SecondaryNameNode HA的一个解决方案。但不支持热备。 执行过程:从NameNode上下载元数据信息(fsimage,edits),然后把二者合并,生成新的fsimage,在本地保存,并将其推送到NameNode,同时重置NameNode的edits。合并策略是根据时间和根据edits log变换大小。 默认是安装在NameNode节点上,可以通过配置启动在其他节点。 HDFS读写流程 读文件流程 client端发送读文件请求给namenode,如果文件不存在,返回错误信息,否则,将该文件对应的block及其所在datanode位置发送给client client收到文件位置信息后,与不同datanode建立socket连接并行获取数据。 写文件流程 client端发送写文件请求,namenode检查文件是否存在,如果已存在,直接返回错误信息,否则,发送给client一些可用datanode节点 client将文件分块,并行存储到不同节点上datanode上,发送完成后,client同时发送信息给namenode和datanode namenode收到的client信息后,发送确信信息给datanode datanode同时收到namenode和datanode的确认信息后,提交写操作。 HDFS安全模式 Namenode启动时会先经过一个“安全模式”阶段 安全模式阶段不会产生数据写 在此阶段Namenode收集各个datanode的报告,当数据块达到最小副本数以上时,会被认为是“安全”的 在一定比例(可设置)的数据块被确定为“安全”后,再过若干时间,安全模式结束 当检测到副本数不足的数据块时,该块会被复制直到达到最小副本数 HDFS回收站 删除文件时,其实是放入回收站/trash 回收站里的文件可以快速恢复 可以设置一个时间阈值,当回收站里文件的存放时间超过这个阈值,就被彻底删除,并且释放占用的数据块 修改core-site.xml property namefs.trash.interval/name value1440/value descriptionNumber of minutes between trash checkpoints. If zero, the trash feature is disabled. /description /property JobTracker失败 1)JobTracker失败在所有的失败中是最严重的一种。 2)hadoop没有处理jobtracker失败的机制。--它是一个单点故障。 3)在未来的新版本中可以运行多个JobTracker。 4)可以使用ZooKeeper来协作JobTracker。 TaskTracker失败 1)一个TaskTracker由于崩溃或运行过于缓慢而失败,它会向JobTracker发送“心跳”。 2)如果有未完成的作业,JobTracker会重新把这些任务分配到其他的TaskTracker上面运行。 3)即使TaskTracker没有失败也可以被JobTracker列入黑名单。 Combiner InputSplits Mapper Partitioner Shuffle Sort InputFormat Reducer RecordReader MapReduce核心组件 文件输入格式InputFormat 定义了数据文件如何分割和读取 InputFile提供了以下一些功能 选择文件或者其它对象,用来作为输入 定义InputSplits, 将一个

文档评论(0)

celkhn5460 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档