一种基于博弈的强化学习方法、系统、终端及存储介质.pdfVIP

  • 0
  • 0
  • 约1.22万字
  • 约 12页
  • 2023-04-24 发布于北京
  • 举报

一种基于博弈的强化学习方法、系统、终端及存储介质.pdf

本发明提供种基于博弈的强化学习方法、系统、终端及存储介质,包括:根据输入的博弈规则,基于行为树将学习任务分解为一组子任务;确定每个子任务对应的状态空间、动作空间和奖励函数,并构建强化学习模型;将同一组子任务的强化学习模型的参数进行共享,对所有子任务的强化学习模型进行混合训练;在满足收敛条件的情况下,输出训练的强化学习模型。本发明顶层采用基于博弈规则的行为树在不同子任务之间切换,能够有效降低复杂任务的学习难度,提高学习效率;底层采用基于多智能体的强化学习方法训练与环境交互的模型,可以有效地描述局部

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 114021737 A (43)申请公布日 2022.02.08 (21)申请号 202111302570.2 G06N 3/08 (2006.01) (22)申请日 20

文档评论(0)

1亿VIP精品文档

相关文档