虚拟机协同容错.ppt

下载文档 降价啦

1
0
约1.93万字
约 19页
2017-05-09 发布于河南
举报
版权申诉
保障服务

虚拟机协同容错.ppt

1、本文档共19页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

虚拟机协同容错

为提供虚拟集群容错机制，将采用： Fail-stop故障检测虚拟机级别检查点（vs.进程级检查点）协同检查点策略（vs.独立检查点）增量式检查点副本卷回恢复关键技术 version 2 version 1 Checkpoint scheduler checkpoint command rank0 rank1 rank2 rank3 协同检查点 storage 核心策略虚拟集群中各虚拟机在协调过程中同步以达到建立一致性全局检查点是难点。 failure detection version 1 checkpoint command rank0 rank1 rank2 rank3 错误恢复 storage Checkpoint scheduler 核心策略可能刁难的问题：在单节点多虚拟机这种情况下，如果把上层多个虚拟机看成一个整体，对这个整体做checkpoint，那你为什么不这样做呢？想明白了，在物理机级别把所有vm看成整体做checkpoint当然是可以的，但那要修改操作系统内核代码，而且利用不到vm checkpoint的优化技术，增量式checkpoint技术的优势放着不用，凭空在整个系统级花费大量开销，几乎是不可行的。首先，我们只需要checkpoint我们需要的东西，如果做kernel checkpoint，就要备份hostos、dom0、hypervisor，而这些在迁移过程中都属于不需要备份的部分，徒增空间开销。另外，如果涉及到迁移，hostos、hypervisor不需要做迁移。 2.你为什么不在虚拟机中做细粒度的checkpoint，而要做系统级的checkpoint，传统物理集群中也有在kernel级做系统checkpoint的，你的不同和优势体现在哪？but it also has a serious problem, we must manually modify the applications。or example, programmers need to mark some variables and setup global barriers. This kind of manual modi?cations is very dangerous and sometimes impossible.（以上是应用级的缺点）dangerous这个特征也可以说到系统级上去。 3.金老师觉得单节点多虚拟机这个问题很值得研究。里面就涉及到checkpoint粒度问题。我当然可以往potential上扯，但是这样就与谢晓的问题没什么差别。如果让金老师觉得谢晓提得问题比我的虚拟集群容错还有价值，那就掉的大了。The primary potential problem of frequent, automatic, and user-transparent checkpointing and rollback recovery is the quantity of generated checkpoint data. 就把这个当作创新点。把老师们真正想听的讲给他们听。单节点多虚拟机容错和多节点多虚拟机问题。你和单节点多虚拟机的实现上的区别呢？物理机上网络同步应该是能实现的吧。场景，提一个三层web应用。Benchmark检测写上去副本问题。Passive active 透明检查点，是应用对用用户的透明最后题目问题（系统的性能、功能） In the next sections, I will present some protocols and related works before introducing the MPICH-V environment and the two protocols we compare. I will then expose the experiment results and conclude. 在虚拟集群中，增加发生故障的概率对于长期运行的应用程序是十分危险的。 A current trend in clusters is the increasing number of processor. These charts shows the number of processor of the Top 500 systems repectively nn november 2003 and june 2004. Even on a short period, we can see that tne number of processor growths. The more there is processors, the h