连续空间的递归最小二乘行动者—评论家算法 - 计算机应用研究.pdf

连续空间的递归最小二乘行动者—评论家算法 - 计算机应用研究.pdf

连续空间的递归最小二乘行动者—评论家算法 - 计算机应用研究

第31卷第7期 计 算 机 应 用 研 究 Vol.31No.7     2014年7月  ApplicationResearchofComputers Jul.2014 连续空间的递归最小二乘行动者—评论家算法 朱文文,金玉净,伏玉琛,宋绪文 (苏州大学计算机科学与技术学院,江苏 苏州215006) 摘 要:传统的行动者—评论家(actorcritic,AC)算法用在连续空间时,数据利用率低、收敛慢,而现实世界中采 样往往需要昂贵的代价,因此提出了一种新的连续空间递归最小二乘AC算法,能够充分利用数据,提高学习预 测能力。该方法用高斯径向基函数对连续的状态空间进行编码,评论家部分改用带资格迹的递归最小二乘时间 差分方法,而行动者部分用

文档评论(0)

1亿VIP精品文档

相关文档