一类基于启发式搜索的激励学习算法.ppt

下载文档 降价啦

8
0
约1.81千字
约 19页
2018-04-30 发布于重庆
举报
版权申诉
保障服务

一类基于启发式搜索的激励学习算法.ppt

1、本文档共19页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

一类基于启发式搜索的激励学习算法

一类基于启发式搜索的激励学习算法报告人：苏姗主要内容激励学习的基本介绍时间差分算法和SARSA算法基于启发式的激励学习实验结果和分析总结激励学习的基本介绍机器学习包括有监督学习，无监督学习和激励学习。激励学习与有监督学习不同，在学习中，agent不被告知哪个动作是最好的，而是让它自己与未知环境交互，不断地试错，从环境中得到奖惩信息，积累经验，然后让agent自己判断哪个动作是最好的。激励学习的基本介绍最优控制策略：S?A 激励学习的基本介绍折算累积回报：状态-动作的值函数：最优策略：时间差分算法和SARSA算法蒙特卡罗算法更新准则：常量的蒙特卡罗算法，是学习率，一次迭代之后才能得到折扣累积回报总和(即值函数的真实值)对估计的值函数进行更新。时间差分算法和SARSA算法时间差分(temporal difference) 结合了动态规划和蒙特卡罗算法，一方面TD算法在环境模型未知的情况下可以直接从agent的经验中学习，另一方面TD算法利用估计的值函数进行迭代。时间差分算法和SARSA算法 TD(0)算法一步TD算法，agent获得的瞬时奖赏值仅向后回退一步，即只迭代的修改了相邻状态的估计值更新规则：时间差分算法和SARSA算法 SARSA算法是一种典型的TD算法。在动作at+1的选择上不同。SARSA算法采用随机概率的方法，一定程度上避免了Q学习中易陷入局部最优的问题。基于启发式的激励学习启发式搜索评估函数f(x)：从初始结点s0约束的经过结点x到达目标结点sr的所有路径中最小路径代价的估计值。一般形式：f(x)=g(x)+h(x) 基于启发式的激励学习一般形式：f(x)=g(x)+h(x) g(x) h(x) s0 x sr g(x)是从初始节点s0到x点的实际代价； h(x)是从x点到目标节点的最优路径的评估代价。基于启发式的激励学习激励学习虽然适合处理环境模型未知的情况，但是只能从环境中得到才奖惩函数。对于激励学习，在求解初期，简单的启发信息会加速智能体的搜索速度。提出基于启发式的激励学习： H-SARSA 基于启发式的激励学习设置一个总控制器C，包括两个子控制器c1(启发式)和c2(SARSA),每个控制器有两个参数：优先权M和选择概率P。首先比较优先级，如果相同再比较选择概率，值较大的控制器所决定的动作将被总控制器所选择，作为智能体的下一步动作。基于启发式的激励学习 Mh初始为一个不小的非负常量，Ph初始设为不小的常量(0Ph1)，Ms=0，Ps=0。求解初期，agent经验很少， Ms Mh。随着经验的增加，agent学习能力加强，Ms增加。当Ms= Mh时，转入激励学习为主，启发式为辅的阶段。实验结果和分析 agent从S点出发，在尽可能短的时间内到达G点。到达G点，r=1000; 经过可通行区域r=-0.02; 经过不可通行区域和边界r=-5。 S 图一 20*20迷宫 G h(x)：当前位置和目标位置的最短距离实验结果和分析实验结果和分析总结存在的问题：实验中参数是人为调整的应用：在中国象棋博弈中，把数据库与激励学习结合起来。谢谢 * * 返回 St+1状态最大的值函数时间差分返回更新规则 Ms Mh Ps Ph 返回返回返回 * * *

您可能关注的文档

文档评论（0）

almm118 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

一类基于启发式搜索的激励学习算法.ppt