[电脑基础知识]人工智能.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[电脑基础知识]人工智能

3.5 近似策略迭代(9) 3.5.2 基于线性带参近似的模型无关策略评估 投影Bellman等式的矩阵形式 策略评估映射的矩阵形式 为: 为Q的向量表示, 为 的向量表示,这里 为 的矩阵表示, 为h的矩阵表示,如果 且 , 则 ,否则为0 Control systems are making a tremendous impact on our society. 3.4 近似值迭代(1) 为了在大规模或连续状态空间中应用值迭代算法,值函数必须近似表示。 3.4 近似值迭代(2) 3.4.1 基于模型的带参近似值迭代 精确Q值迭代 近似Q值迭代 3.4 近似值迭代(3) 3.4.1 基于模型的带参近似值迭代 近似Q值迭代算法开始于任意参数向量θ0,且在每一轮l,根据P,T和F的映射组合来更新该向量: 对于给定的 ,可以求出在 中的贪心策略: 3.4 近似值迭代(4) 3.4.1 基于模型的带参近似值迭代 停止条件: 1. 2. θl+1 与θl之间的距离小于某个阈值 3.4 近似值迭代(5) 3.4.2 模型无关的带参近似值迭代 离线模型无关的近似值迭代 在离线模型无关的情况下,迁移函数f及奖赏函数?都是未知的。只得到一批迁移样本: 样本: 1、单独的,样本属于一个序列集。 2、一个单个的序列,满足 。 3.4 近似值迭代(6) 3.4.2 模型无关的带参近似值迭代 离线模型无关的近似值迭代 拟合Q值迭代:是一种使用批量样本的模型无关的近似Q值迭代算法。 与基于模型的算法相比,主要改动: 1、算法中的投影映射仅针对当前的样本数据 2、由于f和?都未知,在每个迭代步l,Q值函数的计算只能基于已知的样本数据。 原: 现: 3.4 近似值迭代(7) 3.4.2 模型无关的带参近似值迭代 拟合Q值迭代即可用于确定环境又可用于随机环境问题: 样本点的Q值: 确定环境: 替换是准确的。 随机环境: 在拟合Q-值迭代中,只使用样例,投影实际是找到θl,使得: 对于随机环境问题,算法依然是有效的。 3.4 近似值迭代(8) 3.4.2 模型无关的带参近似值迭代 在确定情况下 拟合Q值迭代=基于模型的近似Q值迭代 3.4 近似值迭代(9) 3.4.2 模型无关的带参近似值迭代 神经拟合Q值迭代(Riedmiller, 2005) 神经网(带参函数逼近器)与拟合Q值迭代结合。 无参逼近器拟合Q值迭代 使用更广泛。 在不同的迭代步使用不同的批量样本数据,使得样本中包含更多的信息 Ernst et al. (2006):通过拟合Q值迭代得到的解产生新的样本数据。 3.4 近似值迭代(10) 3.4.2 模型无关的带参近似值迭代 在线模型无关的近似值迭代 基于lookup table的Q学习更新规则: 基于梯度下降的Q学习 近似Q值函数: 真实的最优Q值函数: 目标:最小化最优值与目前Q值之间的均方误差 3.4 近似值迭代(11) 3.4.2 模型无关的带参近似值迭代 在线模型无关的近似值迭代 无法得到,使用如下式代替: 原式变为: 对于线性带参逼近器: 3.4 近似值迭代(12) 3.4.2 模型无关的带参近似值迭代 在线模型无关的近似值迭代

文档评论(0)

qiwqpu54 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档