一种基于博弈的强化学习方法、系统、终端及存储介质.pdfVIP

下载本文档

0
0
约1.22万字
约 12页
2023-04-24 发布于北京
举报

一种基于博弈的强化学习方法、系统、终端及存储介质.pdf

本发明提供种基于博弈的强化学习方法、系统、终端及存储介质，包括：根据输入的博弈规则，基于行为树将学习任务分解为一组子任务；确定每个子任务对应的状态空间、动作空间和奖励函数，并构建强化学习模型；将同一组子任务的强化学习模型的参数进行共享，对所有子任务的强化学习模型进行混合训练；在满足收敛条件的情况下，输出训练的强化学习模型。本发明顶层采用基于博弈规则的行为树在不同子任务之间切换，能够有效降低复杂任务的学习难度，提高学习效率；底层采用基于多智能体的强化学习方法训练与环境交互的模型，可以有效地描述局部

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 114021737 A (43)申请公布日 2022.02.08 (21)申请号 202111302570.2 G06N 3/08 (2006.01) (22)申请日 20

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

一种基于博弈的强化学习方法、系统、终端及存储介质.pdfVIP

一种基于博弈的强化学习方法、系统、终端及存储介质.pdf

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档