球队决策策略课件.pptVIP

  • 3
  • 0
  • 约6千字
  • 约 59页
  • 2022-05-17 发布于重庆
  • 举报
counter=-1; If (球出界或防守方得到球) ·If (counter 0) UpdateRL(-1) else if (球不可踢) ·{ If (counter ≥0) counter++; If (可以跑向球达到控球) GoToBall(); else GetOpen(); else if (球可控) { If (counter 0),UpdateRL(0) { LastAction=Max(ActionValue(a,current state variables)); Execute LastAction ; counter=0; } } Else (这时球被另外一个前锋控制) { If (counter 0) UpdateRL(0); counter=-1; } 第三十页,共五十九页。 函数UpdateRL(r) UpdateRL(r): 用TDError来更新状态评价函数。 第三十一页,共五十九页。 注意事项: 为了鼓励策略空间的扩展,可以使用简单的初始条件:未经过训练的逼近函数开始输出为0,这在所有真实值为负的情况下是可行的。由于任何没有试过的动作往往看上去比已经试过多次并被确切赋值的动作更好,这就使所有动作都有机会被尝试。 第三十二页,共五十九页。 小结: 使用强化学

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档