- 0
- 0
- 约2.79万字
- 约 43页
- 2026-05-09 发布于山西
- 举报
(19)国家知识产权局
(12)发明专利申请
(10)申请公布号CN119514640A
(43)申请公布日2025.02.25
(21)申请号202411684419.3
(22)申请日2024.11.22
(71)申请人山东大学
地址264209山东省威海市环翠区文化西
路180
(72)发明人庞豹李千溪王江宋勇
傅洪泽许庆阳袁宪锋徐小龙
(74)专利代理机构济南圣达知识产权代理有限
公司37221
专利代理师李圣梅
(51)Int.Cl.
G06N3/092(2023.01)
G06F18/214(2023.01)
权利要求书3页说明书16页附图5页
(54)发明名称
基于大语言模型的辅助分层强化学习训练
方法及系统
(57)摘要
CN119514640A本发明提出了基于大语言模型的辅助分层强化学习训练方法及系统,包括:教师智能体和学生智能体收到相同的环境观察信息;教师智能体采用大语言模型,根据接收到的环境观察信息给出指导策略,指导策略被引入训练模块;学生智能体根据环境观察信息给出高层策略,当高层策略传入对应的低层策略选项πω时,πω将根据高层策略目标与环境产生一系列动作直到达到终止条件或超过最大任务步数;同时,低层策略输出的每个动作都将与环境交互并获得环境奖励,环境奖励累加
您可能关注的文档
- CN119514567A 超高频rfid系统数据传输方法、装置、设备及存储介质 (深圳市昱闵科技有限公司).docx
- CN119514571A 一种基于rfid技术的装备区域定位识别方法及系统 (深圳大因医疗科技有限公司).docx
- CN119514572A 一种验电器智能管理方法 (四川省腾达电力器材制造有限公司).docx
- CN119514581A 防伪编码元件和防伪编码元件的制作方法 (中钞特种防伪科技有限公司).docx
- CN119514582A 防伪编码元件的制作方法 (中钞特种防伪科技有限公司).docx
- CN119514598A 数据处理方法及装置、电子设备、计算机可读存储介质 (北京灵汐科技有限公司).docx
- CN119514607A 用于分层权重稀疏卷积处理的方法和系统 (墨芯人工智能科技(深圳)有限公司).docx
- CN119514612A 生成式搜索数据的处理方法、装置、设备及存储介质 (北京百度网讯科技有限公司).docx
- CN119514624A 一种模拟生物大脑神经元动力学的逻辑运算系统及方法 (苏州大学).docx
- CN119514637A 一种地面无人装备协同作战决策智能体的构建方法 (中国人民解放军陆军装甲兵学院).docx
- 统编版小学五年级语文下册课件《语文园地六》.pptx
- 9.3 大气压强 课件-2025-2026学年人教版物理八年级下学期.pptx
- 10.《苏武传》第二课时 课件 2026-2027学年统编版高二语文选择性必修中册.pptx
- 统编版小学五年级语文下册课件《第二单元习作:写读后感》.pptx
- 2025-2026学年初二英语下学期期中模拟练习含答案.docx
- 2024-2025学年广东省广州市八年级下学期中段生物检测含答案.docx
- 2024-2025学年广东广州天河中学八年级下学期期中数学试题含答案.docx
- 冀教版八年级数学上《第十二章分式和分式方程》单元测试含答案.doc
- 华东师大八年级数学下《第18章平行四边形》整合提升试卷.doc
- 危重病人生命体征监测.pptx
原创力文档

文档评论(0)