- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第 卷 第 期 计 算 机 研 究 与 发 展
39 9 Vol . 39 ,No. 9
年 月
2002 9 JOURNAL OF COMPUTER RESEARC~ AND DEVELOPMENT Sep 2002
样本有限关联值递归 学习算法
O
及其收敛性证明
殷苌茗 陈焕文 谢丽娟
( 长沙电力学院数学与计算机系 长沙 410077)
( 66@ )
cmyin hotmail com
摘 要 一个激励学习 通过学习一个从状态到动作映射的最优策略来解决策问题 求解最优决策一般有两
Agent
种途径 一种是求最大奖赏方法 另一种是求最优费用方法 利用求解最优费用函数的方法给出了一种新的 学习
: ,
算法 学习算法是求解信息不完全 决策问题的一种有效激励学习方法 提出了 学习的基本算
Markov Watkins
法 尽管他证明了在满足一定条件下 值学习的迭代公式的收敛性 但是在他给出的算法中 没有考虑到在迭代过
, , ,
程中初始状态与初始动作的选取对后继学习的影响 因此提出的关联值递归 学习算法改进了原来的 学习算
法 并且这种算法有比较好的收敛性质 从求解最优费用函数的方法出发 给出了 学习的关联值递归算法 这种
, , ,
方法的建立可以使得动态规划( ) 算法中的许多结论直接应用到 学习的研究中来
DP
关键词 激励学习 学习 最优费用函数 关联值递归 决策过程
, , , ,Markov
中图法分类号 TP182
您可能关注的文档
- 实验1: C程序的运行环境及运行一个C程序的方法.doc
- 美泰全球质量制造政策指南.doc
- 数据机构专业习题课与答案.doc
- 英文版Excel 中英文对照表摘要.doc
- 清洁绿化部日常工作程序教材.doc
- 预算顶岗实习日志70篇-附件.doc
- 第3课 实验十二 多线程.doc
- 第2篇 标识符 关键字 数据类型.doc
- 《计算机网络》课后习题答案 第四篇.doc
- 郑州大学软件技术学院Oracle试卷要领.doc
- 2025江浙沪居民睡眠健康小调研报告.pdf
- 毕业论文的开题报告范文.docx
- 团委活动方案(拓展).docx
- 汽车智能驾驶行业深度报告:端到端与AI共振,智驾平权开启新时代.pdf
- 小核酸行业深度:技术平台和适应症不断验证,迎来销售和临床密集兑现期-华福证券-2025.3.31-65页.docx
- 医药生物行业医疗AI专题报告二多组学篇AI技术驱动精准诊断实现重要突破-25031440页.docx
- CXO行业系列报告三寒冬已过行业需求逐步回暖-25031430页.docx
- 全国租赁市场报告2025年3月_可搜索.pdf
- 玩具行业“情绪经济”专题:创新玩法+IP赋能,重新定义玩具-华鑫证券-2025.docx
- 医疗保健行业PCAB抑制剂药物深度报告抑酸药物市场空间广阔PCAB抑制剂大有可为-25.pdf
文档评论(0)