马尔可夫决策问题的关键状态优先学习算法.pdf

马尔可夫决策问题的关键状态优先学习算法.pdf

马尔可夫决策问题的关键状态优先学习算法.pdf

信息技术与应用 (LearningScaleExtension)ts]。分层强化学习将原有决策问题分 Step1:初始化所有状态一行为对的Q值 ,选取初始状态Js; 解为由多个子任务构成 的层次结构 以提高整体效率 .但是构建 Step2:依据行为选择策略选择行为 a; 层次结构需要依赖大量先验知识 :学习范围扩展是通过学习状 Step3:执行行为 a,状态变迁至 ,并得到报酬 ; 态空间结构信息以扩大一次学习所影响的状态范围.若学习范 Step4:依据公式更新 Q(s,a); 围设定不合理 。需要耗费大量运算时间和空间记忆额外信息。 Step5:5 5: 两种解决方法 的实用性较低 Step6:如果 ∈St,结束算法 ;如果s隹S,转至 Step2。 本文针对传统强化学

文档评论(0)

1亿VIP精品文档

相关文档