马尔可夫决策问题的关键状态优先学习算法.pdf

下载文档 降价啦

9
0
约1.47万字
约 5页
2017-05-31 发布于天津
举报
保障服务

马尔可夫决策问题的关键状态优先学习算法.pdf

信息技术与应用 (LearningScaleExtension)ts]。分层强化学习将原有决策问题分 Step1：初始化所有状态一行为对的Q值，选取初始状态Js；解为由多个子任务构成的层次结构以提高整体效率．但是构建 Step2：依据行为选择策略选择行为 a；层次结构需要依赖大量先验知识：学习范围扩展是通过学习状 Step3：执行行为 a，状态变迁至，并得到报酬；态空间结构信息以扩大一次学习所影响的状态范围．若学习范 Step4：依据公式更新 Q(s，a)；围设定不合理。需要耗费大量运算时间和空间记忆额外信息。 Step5：5 5：两种解决方法的实用性较低 Step6：如果 ∈St，结束算法；如果s隹S，转至 Step2。本文针对传统强化学

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

马尔可夫决策问题的关键状态优先学习算法.pdf

马尔可夫决策问题的关键状态优先学习算法.pdf

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档