CN119514725A 应用于分布式训练系统的训练容错方法、装置及芯片产品 (摩尔线程智能科技(成都)有限责任公司).docxVIP

  • 0
  • 0
  • 约4.19万字
  • 约 60页
  • 2026-05-09 发布于山西
  • 举报

CN119514725A 应用于分布式训练系统的训练容错方法、装置及芯片产品 (摩尔线程智能科技(成都)有限责任公司).docx

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN119514725A

(43)申请公布日2025.02.25

(21)申请号202411548597.3

(22)申请日2024.10.31

(71)申请人摩尔线程智能科技(成都)有限责任公司

地址610096四川省成都市中国(四川)自

由贸易试验区成都高新区天府大道中段1366号2栋E5座12层23-32

(72)发明人请求不公布姓名请求不公布姓名请求不公布姓名请求不公布姓名请求不公布姓名请求不公布姓名

(74)专利代理机构北京三高永信知识产权代理有限责任公司11138

专利代理师孔丹丹

(51)Int.Cl.

G06N20/00(2019.01)

G06N3/098(2023.01)

权利要求书3页说明书21页附图11页

CN119514725A

(54)发明名称

应用于分布式训练系统的训练容错方法、装

置及芯片产品

(57)摘要

本申请提供了一种应用于分布式训练系统的训练容错方法、装置及芯片产品,涉及分布式训练技术领域。该方法包括:对于包括多个计算节点以及至少一个备用节点的分布式训练系统,在备用节点被设置为新计算节点的情况下,从多个计算节点中确定与新计算节点相关的目标计算节点;将目标计算节点的内存中存储的检查点数据,迁移至新计算节点,其中,检

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档