- 23
- 0
- 约5.56万字
- 约 8页
- 2015-09-26 发布于重庆
- 举报
样本有限关联值递归Q学习算法及其收敛性证明
第 卷 第 期 计 算 机 研 究 与 发 展
39 9 Vol . 39 ,No. 9
年 月
2002 9 JOURNAL OF COMPUTER RESEARC~ AND DEVELOPMENT Sep 2002
样本有限关联值递归 学习算法
O
及其收敛性证明
殷苌茗 陈焕文 谢丽娟
( 长沙电力学院数学与计算机系 长沙 410077)
( 66@ )
cmyin hotmail com
摘 要 一个激励学习 通过学习一个从状态到动作映射的最优策略来解决策问题 求解最优决策一般有两
Agent
种途径 一种是求最大奖赏方法 另一种是求最优费用方法 利用求解最优费用函数的方法给出了一种新的 学习
: ,
算法 学习算法是求解信息不完全 决策问题的一种有效激励学习方法 提出了 学习的基本算
Markov Watkins
法 尽管他证明了在满足一定条件下 值学习的迭代公式的收敛性 但是在他给出的算法中 没有考虑到在迭代过
, , ,
程中初始状态与初始动作的选取对后继学习的影响 因此提出的关联值递归 学习算法改进了原来的 学习算
法 并且这种算法有比较好的收敛性质 从求解最优费用函数的方法出发 给出了 学习的关联值递归算法 这种
, , ,
方法的建立可以使得动态规划( ) 算法中的许多结论直接应用到 学习的研究中来
DP
关键词 激励学习 学习 最优费用函数 关联值递归 决策过程
, , , ,Markov
中图法分类号 TP182
您可能关注的文档
最近下载
- ZXM10 EISU(V1.0)增强智能型采集单元用户手册.pdf VIP
- 政府机关物业管理服务保洁服务工作计划及操作规程服务方案.docx VIP
- 铜铝替代在电线电缆和家电行业的未来趋势展望.pdf
- 23J916-1 住宅排气道(一)图集.pdf VIP
- 油漆表面缺陷分类.pptx VIP
- ZXM10工程安装工艺规范-2012版.doc VIP
- 高清:2023年甘肃省高等职业教育分类考试招生中职升学考试财经商贸类专业基础试题及参考答案.docx VIP
- 2025 高新技术企业认定实操手册(含评分标准).docx VIP
- 商业综合体消防灭火疏散的应急预案范文(通用13篇).docx VIP
- 一种电动缸推拉力测试工装.pdf VIP
原创力文档

文档评论(0)