- 3
- 0
- 约3.34万字
- 约 26页
- 2023-09-20 发布于四川
- 举报
本申请提供了一种模型训练方法、路径跟踪方法、装置及电子设备,包括:获取由多个轨迹点信息构成的轨迹切片信息;获取轨迹切片信息中各个轨迹点信息对应的行动者隐藏状态值和评论者隐藏状态值;基于轨迹切片信息、行动者隐藏状态值和评论者隐藏状态值进行优势估计,得到Q值序列;基于Q值序列确定行动者网络梯度和评论者网络梯度;基于行动者网络梯度更新行动者网络的参数,基于评论者网络梯度更新评论者网络的参数,得到路径跟踪模型。集合历史轨迹切片信息和网络的隐藏状态信息对模型中的行动者网络和评论者网络进行Q值序列的计算,通
(19)国家知识产权局
(12)发明专利申请
(10)申请公布号 CN 116777954 A
(43)申请公布日 2023.09.19
(21)申请号 202310708844.0
(22)申请日 2023.06.14
(71)申请人 清华大学
地址 100084
原创力文档

文档评论(0)