增强型强化学习与人类反馈结合:TAMER+RL改进与扩展.pdfVIP

  • 0
  • 0
  • 约11.08万字
  • 约 18页
  • 2026-07-02 发布于北京
  • 举报

增强型强化学习与人类反馈结合:TAMER+RL改进与扩展.pdf

增强型强化学习与人类反馈的结合

W.BradleyKnoxBRADKNOX@CS.UTEXAS.EDU

德克萨斯大学奥斯汀分校计算机科学系

PeterStonePSTONE@CS.UTEXAS.EDU

德克萨斯大学奥斯汀分校计算机科学系

1.引言

随着计算越来越多地应用于研究计算可能很快会在社会中普及,许多最终用户将

之外,它们的成功将取决于其学习新技能和希望这些能够学习执行新任务。对于其中许多任

适应动态、复杂环境的能力。如果非编程技务,人类用户已经拥有相当的任务知识。因此,我们

能的人类用户能够将其任务知识转移给,力求使非技术用户能够将其知识转移给,降低学

学习过程可以显著加速,减少昂贵的试验。习成本,同时不损害最终的渐近性能。

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档