《云计算》电子工业出版社刘鹏3.pptVIP

下载本文档

3
0
约2.67千字
约 33页
2017-06-03 发布于四川
举报

《云计算》电子工业出版社刘鹏3.ppt

Worker故障 Master 周期性的ping每个worker。如果master在一个确定的时间段内没有收到worker返回的信息，那么它将把这个worker标记成失效重新执行该节点上已经执行或尚未执行的Map任务重新执行该节点上未完成的Reduce任务，已完成的不再执行 Master故障定期写入检查点数据从检查点恢复 WHY？任务备份机制慢的workers 会严重地拖延整个执行完成的时间由于其他的任务占用了资源磁盘损坏解决方案: 在临近结束的时候，启动多个进程来执行尚未完成的任务谁先完成，就算谁可以十分显著地提高执行效率本地处理 Master 调度策略: 向GFS询问获得输入文件blocks副本的位置信息 Map tasks 的输入数据通常按 64MB来划分 (GFS block 大小) 按照blocks所在的机器或机器所在机架的范围进行调度效果绝大部分机器从本地读取文件作为输入，节省大量带宽跳过有问题的记录一些特定的输入数据常导致Map/Reduce无法运行最好的解决方法是调试或者修改不一定可行~ 可能需要第三方库或源码在每个worker里运行一个信号处理程序，捕获map或reduce任务崩溃时发出的信号，一旦捕获，就会向master报告，同时报告输入记录的编号信息。如果master看到一条记录有两次崩溃信息，那么就会对该记录进

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

《云计算》电子工业出版社刘鹏3.pptVIP