基于AMDP-Q的自主车辆行驶策略求解.pdfVIP

  • 4
  • 0
  • 约1.02万字
  • 约 4页
  • 2015-08-22 发布于安徽
  • 举报
m刊Ⅱ x#*-等r*fAMDp-口的自主车辆行驶策镕求■ ·371 般都使用最大似然状态和信念状态的熵“3.因为 (2) 7…口(∥,d7)一0(5。a)]/d. 其组成的空间只比原状态空间增加了一维。所以 更新这K个参考状态的动作值函数f若撬出的参 称为增广状态空间该增广状态空间的环境模型 考状态小于K十t则将5加进到参考状态集中t 是未知的,AMDP-Q应用Q学习来估计读空间的 其动作值函数为 3 状态转移函数和回报函数o 式(3)可看作原动作值函教为0时的一步更新 1 AMDP-Q AMDP-口的动作策略选择富有知识探索性

文档评论(0)

1亿VIP精品文档

相关文档