CN119514640A 基于大语言模型的辅助分层强化学习训练方法及系统 (山东大学).docxVIP

  • 0
  • 0
  • 约2.79万字
  • 约 43页
  • 2026-05-09 发布于山西
  • 举报

CN119514640A 基于大语言模型的辅助分层强化学习训练方法及系统 (山东大学).docx

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN119514640A

(43)申请公布日2025.02.25

(21)申请号202411684419.3

(22)申请日2024.11.22

(71)申请人山东大学

地址264209山东省威海市环翠区文化西

路180

(72)发明人庞豹李千溪王江宋勇

傅洪泽许庆阳袁宪锋徐小龙

(74)专利代理机构济南圣达知识产权代理有限

公司37221

专利代理师李圣梅

(51)Int.Cl.

G06N3/092(2023.01)

G06F18/214(2023.01)

权利要求书3页说明书16页附图5页

(54)发明名称

基于大语言模型的辅助分层强化学习训练

方法及系统

(57)摘要

CN119514640A本发明提出了基于大语言模型的辅助分层强化学习训练方法及系统,包括:教师智能体和学生智能体收到相同的环境观察信息;教师智能体采用大语言模型,根据接收到的环境观察信息给出指导策略,指导策略被引入训练模块;学生智能体根据环境观察信息给出高层策略,当高层策略传入对应的低层策略选项πω时,πω将根据高层策略目标与环境产生一系列动作直到达到终止条件或超过最大任务步数;同时,低层策略输出的每个动作都将与环境交互并获得环境奖励,环境奖励累加

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档