一种面向行为克隆的示范主动采样方法.pdfVIP

  • 0
  • 0
  • 约9.01千字
  • 约 9页
  • 2023-06-09 发布于四川
  • 举报

一种面向行为克隆的示范主动采样方法.pdf

本发明公开了一种面向行为克隆的示范主动采样方法。行为克隆是一类典型的模仿学习算法,该算法在自动驾驶领域得到了广泛的关注。现有的行为克隆算法为了训练有效的策略,需要专家提供大量的示范。然而在实际任务中,提供示范的代价是高昂的,高昂的代价限制了行为克隆方法的应用。主动学习通过挑选最有价值的样本进行标注可以有效的减少标注代价。本发明利用主动学习,从状态候选集中挑选最具价值的状态作为起始状态,然后让专家从起始状态开始做示范,并返回固定长度的轨迹,可以使得示范的价值最大,从而有效的减少示范的代价。

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 112906868 A (43)申请公布日 2021.06.04 (21)申请号 202110248762.3 (22)申请日 2021.03.08 (71)申请人 南京航空航天大学 地址

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档