强化学习主要算法的研究.pdfVIP

下载本文档

10
0
约1.46万字
约 4页
2017-12-08 发布于浙江
举报
版权申诉

强化学习主要算法的研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

强化学习主要算法的研究

　2004 年 9 月渝西学院学报 ( 自然科学版) Sep , 2004 　第 3 卷　第 3 期 Journal of Western Chongqing University (Nature Sciences Edition) Vol3 　No3 强化学习主要算法的研究李　瑞 (渝西学院　数学与计算机科学系 ,重庆　永川　402168) [摘　要]介绍了强化学习模型 ,分别提出了7 个主要的强化学习算法并讨论了它们之间的区别和联系 ,最后指出了强化学习算法中有待解决的问题 [ 关键词]强化学习;动态规划 ;蒙特卡罗算法 ;瞬时差分算法 ( ) [ 中图分类号] TP3016 　[ 文献标识码]A 　[ 文章编号] 1671 —7538 2004 03 —0022 —04 1 　引言强化学习是通过感知环境状态和从环境中获得不确定的信息来学习动态系统的最优策略,是构造多A gent 的核心技术之一强化学习把学习看作反复的试错“Trial - and - Error ”过程. 环境仅对系统在某一状态下产生的动作的好坏做一种评价 ,但不告知如何产生最优的动作由于外部环境提供的信息很少 ,学习 A gent 必须搜集有关系统状态、动作、状态转移和奖赏值的信息来优化动作策略本文对几个基本的强化学习算法进行了讨论 ,指出了它们之间的区别和联系 ,最后给出了强化学习算法今后的研究方向 2 　强化学习模型强化学习模型由以下部分组成[ 1] :一个离散的状态集 s ∈S 和动作集a ∈A ,一个强化值集 r ∈R 且 R ∈{0 ,1} agent 和环境交互的状态 —动作序列表示为 : a0 a 1 a2 a3 s0 r0 ,s 1 r1 ,s2 r2 ,s3 r3 , …… 其中{s0 ,s 1 ,s2 , …,sn } 是状态集 , { a0 , a1 , a2 , …, an } 是动作集实数 ri 表示 agent 在状态si 下执行动作 ai 获得的立即奖赏信号 agent 执行一个动作除了获得立即奖赏信号外 ,还有从 A gent 面对的后续状态 —动作映射的延迟奖赏 agent 获得的总奖赏值为 : ∞ 2 i γ γ γ γ r0 + r1 + r2 + …= ∑ ri ,其中 ∈[0 ,1] 为折扣因子 i = 0 π A gent 的任务就是学习控制策略 :S →A ,能够最大化期望奖赏值的总和在给定行动选择策略 ∞ π π t ( ) γ 后 ,状态的值函数为 : V s = E [ ∑ rt | s0 = s ] i = 0