- 0
- 0
- 约小于1千字
- 约 1页
- 2026-04-23 发布于四川
- 举报
这是一个走悬崖的问题。强化学习中的主体从S出发走到G处一个回合结束,除
了在边缘以外都有上下左右四个行动,如果主体走入悬崖区域,回报为100,走
入中间圆圈处,会得到10的,走入其他所有的位置,回报都为1。
问题:用Qlearning来使agent学习最优的策略。
271281291301311321331341351361371381
1511611711811912012110221231241251261
31415161718191101111121131141
0S11002G
39个state
原创力文档

文档评论(0)