在策略激励学习算法的POMDPs实验研究.pdfVIP

  • 5
  • 0
  • 约8.18千字
  • 约 5页
  • 2017-08-09 发布于安徽
  • 举报

在策略激励学习算法的POMDPs实验研究.pdf

第36卷 南京大学学报(自然科学) v01.36 NANJⅢGUNIVERSrrY 计算机专辑 JOU砌qAL0F Compu舫Is吼埔 2000年l NoV.2000 1月n呵ATURALSCIENCES) 在策略激励学习算法的POMDPs实验研究’ 陈焕文 谢丽娟 (长沙电力学院数学与计算机系,长沙,4】0077) 谢建平 (长沙交通学院网络中心,长沙,4】0076) ■蔓SARSAlk)和Q学习算法是两类量重要的激励学习算}击.本文结合一些已有算法t提 出r一个新的激自学习算法。称为P、“sARsA(k潭法.通过一系列实验.对部分可观测M-岫v (p0MDP)环境下无记忆策略的确定目匿进行r检验.结果表明,在一定条件下,智能件可

文档评论(0)

1亿VIP精品文档

相关文档