AC-Critic算法分析与优化策略.pdfVIP

  • 1
  • 0
  • 约2.33千字
  • 约 13页
  • 2026-06-01 发布于北京
  • 举报

先来看看AC

老朋

还记得我们的友吧:

后续获得的所有:可能并不稳定

引入过baseline:,并用网络来计b值

再来下Q:

优势函数(Adavantage)

函数表达式:

状态有多好

就是在s下,选择某一动作有,Q相当于咱们得到的;V是期望的(平均

(V

就好比你现在考试,老师)认为你能考100分其只考了5分(Q)

,其实

行的

如果A值计算是正的,那就说明当前动作执行挺好,要继续朝这方向干

文档评论(0)

1亿VIP精品文档

相关文档