智能体任务学习方法及装置.pdfVIP

  • 4
  • 0
  • 约2.96万字
  • 约 25页
  • 2023-05-05 发布于四川
  • 举报
本发明提供一种智能体任务学习方法及装置,该方法包括:基于自然策略梯度算法,以智能体在各历史任务下的状态信息作为样本,以智能体在各历史任务下的动作信息为样本标签,对动作预测模型的第一策略参数进行迭代更新,获取各历史任务对应的动作预测模型的最优第一策略参数;将所有历史任务对应的关键影响因子和所有历史任务对应的最优第一策略参数作为训练样本集,对任务学习模型进行迭代训练;将新任务对应的关键影响因子输入训练后的任务学习模型中,得到任务学习模型输出的新任务对应的动作预测模型的最优第二策略参数。本发明实现智能

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 114298302 A (43)申请公布日 2022.04.08 (21)申请号 202111539729.2 (22)申请日 2021.12.15 (71)申请人 中国科学院自动化研究所

文档评论(0)

1亿VIP精品文档

相关文档