一类基于启发式搜索的 激励学习算法.ppt

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一类基于启发式搜索的 激励学习算法

一类基于启发式搜索的 激励学习算法 报告人:苏姗 主要内容 激励学习的基本介绍 时间差分算法和SARSA算法 基于启发式的激励学习 实验结果和分析 总结 激励学习的基本介绍 机器学习包括有监督学习,无监督学习和激励学习。激励学习与有监督学习不同,在学习中,agent不被告知哪个动作是最好的,而是让它自己与未知环境交互,不断地试错,从环境中得到奖惩信息,积累经验,然后让agent自己判断哪个动作是最好的。 激励学习的基本介绍 最优控制策略 :S?A 激励学习的基本介绍 折算累积回报: 状态-动作的值函数: 最优策略: 时间差分算法和SARSA算法 蒙特卡罗算法 更新准则: 常量 的蒙特卡罗算法, 是学习率,一次迭代之后才能得到折扣累积回报总和(即值函数的真实值)对估计的值函数进行更新。 时间差分算法和SARSA算法 时间差分(temporal difference) 结合了动态规划和蒙特卡罗算法,一方面TD算法在环境模型未知的情况下可以直接从agent的经验中学习,另一方面TD算法利用估计的值函数进行迭代。 时间差分算法和SARSA算法 TD(0)算法 一步TD算法,agent获得的瞬时奖赏值仅向后回退一步,即只迭代的修改了相邻状态的估计值 更新规则: 时间差分算法和SARSA算法 SARSA算法 是一种典型的TD算法。 在动作at+1的选择上不同。SARSA算法采用随机概率的方法,一定程度上避免了Q学习中易陷入局部最优的问题。 基于启发式的激励学习 启发式搜索 评估函数f(x):从初始结点s0约束的经过结点x到达目标结点sr的所有路径中最小路径代价的估计值。 一般形式:f(x)=g(x)+h(x) 基于启发式的激励学习 一般形式:f(x)=g(x)+h(x) g(x) h(x) s0 x sr g(x)是从初始节点s0到x点的实际代价; h(x)是从x点到目标节点的最优路径的评 估代价。 基于启发式的激励学习 激励学习虽然适合处理环境模型未知的情况,但是只能从环境中得到才奖惩函数。 对于激励学习,在求解初期,简单的启发信息会加速智能体的搜索速度。 提出基于启发式的激励学习: H-SARSA 基于启发式的激励学习 设置一个总控制器C,包括两个子控制器c1(启发式)和c2(SARSA),每个控制器有两个参数:优先权M和选择概率P。 首先比较优先级,如果相同再比较选择概率,值较大的控制器所决定的动作将被总控制器所选择,作为智能体的下一步动作。 基于启发式的激励学习 Mh初始为一个不小的非负常量,Ph初始设为不小的常量(0Ph1),Ms=0,Ps=0。 求解初期,agent经验很少, Ms Mh。随着经验的增加,agent学习能力加强,Ms增加。当Ms= Mh时,转入激励学习为主,启发式为辅的阶段。 实验结果和分析 agent从S点出发,在尽可能短的时间内到达G点。 到达G点,r=1000; 经过可通行区域r=-0.02; 经过不可通行区域和边 界r=-5。 S 图一 20*20迷宫 G h(x):当前位置和目标位置的最短距离 实验结果和分析 实验结果和分析 总结 存在的问题:实验中参数是人为调整的 应用:在中国象棋博弈中,把数据库与 激励学习结合起来。 谢 谢 * * 返回 St+1状态最大的值函数 时间差分 返回 更新规则 Ms Mh Ps Ph 返回 返回 返回 * * *

文档评论(0)

almm118 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档