- 4
- 0
- 约1.02万字
- 约 4页
- 2015-08-22 发布于安徽
- 举报
m刊Ⅱ x#*-等r*fAMDp-口的自主车辆行驶策镕求■ ·371
般都使用最大似然状态和信念状态的熵“3.因为 (2)
7…口(∥,d7)一0(5。a)]/d.
其组成的空间只比原状态空间增加了一维。所以 更新这K个参考状态的动作值函数f若撬出的参
称为增广状态空间该增广状态空间的环境模型 考状态小于K十t则将5加进到参考状态集中t
是未知的,AMDP-Q应用Q学习来估计读空间的
其动作值函数为
3
状态转移函数和回报函数o
式(3)可看作原动作值函教为0时的一步更新
1 AMDP-Q
AMDP-口的动作策略选择富有知识探索性
您可能关注的文档
最近下载
- 2025年主播培训人设课件.pptx VIP
- 医学免疫学精品教学(复旦大学)5.流式细胞仪检测小鼠脾脏T细胞表面标志.pptx VIP
- 世界青少年奥林匹克数学竞赛(中国区)选拔赛八年级数学试题(含答案).pdf VIP
- 24J331 地沟及盖板资料.pdf VIP
- 山东华鲁恒升化工股份有限公司校园招聘模拟试题附带答案详解及一套答案详解.docx VIP
- 江苏物仓体工程水平施工缝施工工法.doc VIP
- (高清版)B-T 37977.51-2023 静电学 第5-1部分:电子器件的静电防护 通用要求.pdf VIP
- 初中数学奥林匹克竞赛模拟试卷(八年级)(含解析).docx VIP
- 儿童传染性单核细胞增多症诊疗解析.pptx VIP
- 医学免疫学精品课件(复旦大学)02 免疫原.pdf VIP
原创力文档

文档评论(0)