- 1、本文档共13页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
//////////
在 Hadoop 的 HDFS 中,是如何把文件分割后的 block 分散到一个个的
datanode 中,有源代码的相关方法说明最好
回答
(1)文件分割后,会有一个 文件 -- block 的映射,这个映射是持久化
到硬盘中的,具体的映射关系表是在FSNamesystem.java 中构建的(该部分的构
建使用的是FSDirectory.java 的功能,filename - blockset);
有了文件到块的映射表就可以通过文件找到blocklist;
(2)datanode 的选取,hadoop 有它本身的机制,一般来说,datanode 默
认是三个,选取的是不同机架的 datanode,同机架里选一台,另一个机架里选
取两台(安全性等考虑);
(3)block 写入datanodes,选取的三个datanode,比如说是A、B、C,先
写给A,A 再写给B,B 再写给C;然后B 收到C 的写入成功,A 收到B 的写入成
功,然后告诉namenode 和 client 写入成功;
(4)真正写的并不是block,而是比block 更小的好像是chunk ,还包括
有各种校验。
///////////
这个过程我大致了解,现在我缺少namenode 为block 选择 datanode 的策
略。就是说namenode 会随机先选一个datanode,把block 送往datanode,您知
道这个策略吗?
回答
策略是这样的(拿默认的选取的三个datanode 举例):
(1)如果hadoop 正在一个datanode 上写,那么这台datanode 就是那三台
datanodes 的第一台。如果hadoop 没有在任何datanode 上写,那么就随机选择
一台datanode。此datanode 假设为A;
(2)第二台datanode 就是与A 不在同一个机架的datanode,设为B;
(3)第三台机器是与B 在同一机架的机器,设为C;
这样就把三台datanode 选取了(包括一些random 的选择)。
具体的使用代码是在FSNamesystem 中,比如有
private DatanodeDescriptor chooseSourceDatanode(
Block block,ListDatanodeDescriptor
containingNodes,NumberReplicas numReplicas)
这个选择是要做很多判断的,如是否失效啊,是否随机去选取啊。
选取了第一个datanode,剩下的就好选了。如有
public DatanodeInfo chooseDatanode(String srcPath, String address,
long blocksize)
//Choose a datanode near to the given address.
很多东西源码里都有。
其他1 条回答
2012-11-05 00:36lwgarmstrong|二级
你搞错逻辑了。通过hdfs 的client 将文件put 到hdfs 上时,是通过管线
的方式,每次client 传输一个packet 到一个datanode 上,datanode 在同时传
给其他daanode,保证了该块的N 副本。等到该datanode 上的block size 达到
dfs.block.size 的时候。再循环传输下个block 大小的数据到hdfs,这样最终
将数据传输到hdfs
////////
hadoop 中文件是怎么存储的
假如集群中有2 个数据节点,那我存储文件的时候需要给这个文件确定明确
的存储路径吗?我该怎么知道我存储的文件是存放在哪个节点上?新手 ,求帮
忙,先谢过了
回答
1、存储文件的时候需要指定存储的路径,这个路径是HDFS 的路径。而不是
哪个节点的某个目录。比如./hadoop fs -put localfile hdfspat
一般操作的当前路径是/user/hadoop 比如执行./hadoop fs -ls .实际上就
相当于./hadoop fs -ls
文档评论(0)