- 5
- 0
- 约1.71万字
- 约 16页
- 2023-07-01 发布于四川
- 举报
本发明公开一种基于情节记忆的多智能体协同策略的训练方法和系统,利用情节记忆方法,在收集训练数据时,记录各个机器人不同状态下经历的情节与对应累计回报,并将该情节与对应回报作为策略训练时机器人的额外目标。通过多机器人强化学习方法,使得各机器人能够在有限数据下快速学习高效协同策略,训练得到的机器人协同策略使智能体在决策时,既能考虑目前的状态价值函数,又能考虑到长期的情节回报,从而实现综合决策。本发明在实际场景中仅通过少量训练数据实现快速策略训练,以有效应对动态开放场景下的合作任务。
(19)国家知识产权局
(12)发明专利申请
(10)申请公布号 CN 116360435 A
(43)申请公布日 2023.06.30
(21)申请号 202310294489.7 G06N 7/01 (2023.01)
(22)申请日 2023.03.2
您可能关注的文档
最近下载
- 实验室安全操作规程.docx VIP
- 2023年宁夏公务员考试《申论》试卷(真题).docx VIP
- 电动轻型两轮车换电装置通用技术条件.pdf VIP
- 基于项目式学习的课程构建与实施.pdf VIP
- 风力发电工程施工与验收规范 GBT 51121-2015培训.pptx VIP
- (二模)遵义市2026届高三年级第二次适应性考试历史试卷(含标准答案).docx
- 天津科技大学2024-2025学年《会计学》期末考试试卷(B卷)附标准答案.docx
- 全心衰竭疾病防治指南解读.docx VIP
- 人生900格(已调整为一页A4纸).xls VIP
- GB_T 32151.10-2023 碳排放核算与报告要求 第10部分:化工生产企业.pdf VIP
原创力文档

文档评论(0)