Q学习算法解决悬崖行走问题.pdfVIP

  • 0
  • 0
  • 约小于1千字
  • 约 1页
  • 2026-04-23 发布于四川
  • 举报

这是一个走悬崖的问题。强化学习中的主体从S出发走到G处一个回合结束,除

了在边缘以外都有上下左右四个行动,如果主体走入悬崖区域,回报为100,走

入中间圆圈处,会得到10的,走入其他所有的位置,回报都为1。

问题:用Qlearning来使agent学习最优的策略。

271281291301311321331341351361371381

1511611711811912012110221231241251261

31415161718191101111121131141

0S11002G

39个state

文档评论(0)

1亿VIP精品文档

相关文档