HadoopHDFS若干问题(中文).pdfVIP

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
////////// 在 Hadoop 的 HDFS 中,是如何把文件分割后的 block 分散到一个个的 datanode 中,有源代码的相关方法说明最好 回答 (1)文件分割后,会有一个 文件 -- block 的映射,这个映射是持久化 到硬盘中的,具体的映射关系表是在FSNamesystem.java 中构建的(该部分的构 建使用的是FSDirectory.java 的功能,filename - blockset); 有了文件到块的映射表就可以通过文件找到blocklist; (2)datanode 的选取,hadoop 有它本身的机制,一般来说,datanode 默 认是三个,选取的是不同机架的 datanode,同机架里选一台,另一个机架里选 取两台(安全性等考虑); (3)block 写入datanodes,选取的三个datanode,比如说是A、B、C,先 写给A,A 再写给B,B 再写给C;然后B 收到C 的写入成功,A 收到B 的写入成 功,然后告诉namenode 和 client 写入成功; (4)真正写的并不是block,而是比block 更小的好像是chunk ,还包括 有各种校验。 /////////// 这个过程我大致了解,现在我缺少namenode 为block 选择 datanode 的策 略。就是说namenode 会随机先选一个datanode,把block 送往datanode,您知 道这个策略吗? 回答 策略是这样的(拿默认的选取的三个datanode 举例): (1)如果hadoop 正在一个datanode 上写,那么这台datanode 就是那三台 datanodes 的第一台。如果hadoop 没有在任何datanode 上写,那么就随机选择 一台datanode。此datanode 假设为A; (2)第二台datanode 就是与A 不在同一个机架的datanode,设为B; (3)第三台机器是与B 在同一机架的机器,设为C; 这样就把三台datanode 选取了(包括一些random 的选择)。 具体的使用代码是在FSNamesystem 中,比如有 private DatanodeDescriptor chooseSourceDatanode( Block block,ListDatanodeDescriptor containingNodes,NumberReplicas numReplicas) 这个选择是要做很多判断的,如是否失效啊,是否随机去选取啊。 选取了第一个datanode,剩下的就好选了。如有 public DatanodeInfo chooseDatanode(String srcPath, String address, long blocksize) //Choose a datanode near to the given address. 很多东西源码里都有。 其他1 条回答 2012-11-05 00:36lwgarmstrong|二级 你搞错逻辑了。通过hdfs 的client 将文件put 到hdfs 上时,是通过管线 的方式,每次client 传输一个packet 到一个datanode 上,datanode 在同时传 给其他daanode,保证了该块的N 副本。等到该datanode 上的block size 达到 dfs.block.size 的时候。再循环传输下个block 大小的数据到hdfs,这样最终 将数据传输到hdfs //////// hadoop 中文件是怎么存储的 假如集群中有2 个数据节点,那我存储文件的时候需要给这个文件确定明确 的存储路径吗?我该怎么知道我存储的文件是存放在哪个节点上?新手 ,求帮 忙,先谢过了 回答 1、存储文件的时候需要指定存储的路径,这个路径是HDFS 的路径。而不是 哪个节点的某个目录。比如./hadoop fs -put localfile hdfspat 一般操作的当前路径是/user/hadoop 比如执行./hadoop fs -ls .实际上就 相当于./hadoop fs -ls

文档评论(0)

ygxt89 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档