HadoopHDFS若干问题(中文).pdfVIP

下载本文档

17
0
约1.84万字
约 13页
2017-09-01 发布于安徽
举报
版权申诉

HadoopHDFS若干问题(中文).pdf

1、本文档共13页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

////////// 在 Hadoop 的 HDFS 中，是如何把文件分割后的 block 分散到一个个的 datanode 中，有源代码的相关方法说明最好回答（1）文件分割后，会有一个文件 -- block 的映射，这个映射是持久化到硬盘中的，具体的映射关系表是在FSNamesystem.java 中构建的（该部分的构建使用的是FSDirectory.java 的功能，filename - blockset）；有了文件到块的映射表就可以通过文件找到blocklist；（2）datanode 的选取，hadoop 有它本身的机制，一般来说，datanode 默认是三个，选取的是不同机架的 datanode，同机架里选一台，另一个机架里选取两台（安全性等考虑）；（3）block 写入datanodes，选取的三个datanode，比如说是A、B、C，先写给A，A 再写给B，B 再写给C；然后B 收到C 的写入成功，A 收到B 的写入成功，然后告诉namenode 和 client 写入成功；（4）真正写的并不是block，而是比block 更小的好像是chunk ，还包括有各种校验。 /////////// 这个过程我大致了解，现在我缺少namenode 为block 选择 datanode 的策略。就是说namenode 会随机先选一个datanode，把block 送往datanode，您知道这个策略吗？回答策略是这样的（拿默认的选取的三个datanode 举例）：（1）如果hadoop 正在一个datanode 上写，那么这台datanode 就是那三台 datanodes 的第一台。如果hadoop 没有在任何datanode 上写，那么就随机选择一台datanode。此datanode 假设为A；（2）第二台datanode 就是与A 不在同一个机架的datanode，设为B；（3）第三台机器是与B 在同一机架的机器，设为C；这样就把三台datanode 选取了（包括一些random 的选择）。具体的使用代码是在FSNamesystem 中，比如有 private DatanodeDescriptor chooseSourceDatanode( Block block,ListDatanodeDescriptor containingNodes,NumberReplicas numReplicas) 这个选择是要做很多判断的，如是否失效啊，是否随机去选取啊。选取了第一个datanode，剩下的就好选了。如有 public DatanodeInfo chooseDatanode(String srcPath, String address, long blocksize) //Choose a datanode near to the given address. 很多东西源码里都有。其他1 条回答 2012-11-05 00:36lwgarmstrong|二级你搞错逻辑了。通过hdfs 的client 将文件put 到hdfs 上时，是通过管线的方式，每次client 传输一个packet 到一个datanode 上，datanode 在同时传给其他daanode，保证了该块的N 副本。等到该datanode 上的block size 达到 dfs.block.size 的时候。再循环传输下个block 大小的数据到hdfs，这样最终将数据传输到hdfs //////// hadoop 中文件是怎么存储的假如集群中有2 个数据节点，那我存储文件的时候需要给这个文件确定明确的存储路径吗？我该怎么知道我存储的文件是存放在哪个节点上？新手，求帮忙，先谢过了回答 1、存储文件的时候需要指定存储的路径，这个路径是HDFS 的路径。而不是哪个节点的某个目录。比如./hadoop fs -put localfile hdfspat 一般操作的当前路径是/user/hadoop 比如执行./hadoop fs -ls .实际上就相当于./hadoop fs -ls