网站大量收购独家精品文档,联系QQ:2885784924

吴迪李仁发.PPT

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
吴迪李仁发

周报告 指导老师:吴迪、李仁发 学生姓名:李 鲜 引导策略搜索算法(guided policy search) 1:for 从 k=0 到 K 值一直迭代 do 2:优化轨迹分布 最小化 和策略 的偏差 3:从每一个样本 生成样本集 4:训练非线性策略 去匹配样本轨迹集 5:更新拉格朗日乘数和激励 和 之间的协定 6:结束 for 循环 7:返回到优化政策参数θ 政策搜索的目标是最小化的预期成本 s.t. 是 的缩写, 是 的缩写,xt 是t时刻的状态,ot表示观察,ut表示行为, 是完成任务的成本函数。 ” “ 轨迹优化目标 是对平均操作的拉格朗日乘数,第三项是KL差分惩罚,这些条件有助于 接近于 ” “ 政策监管目标 是对平均操作的拉格朗日乘数,第三项是KL差分惩罚,这些条件有助于 接近于 ,M是从每个样本收集来的样本数目,这一目标采用样本来估计积分 ,在这种情况下政策由高斯 决定,它对应于对平均加权最小二乘目标 ,而 可以解决在封闭的形式。 ” “ (2) 引导政策搜索其中的一个主要优点是其训练复杂,高维和高度非线性的政策的能力,这使我们可以利用深层神经网络表示我们的政策,从而使他们处理复杂的、从机载传感器的原始输入、而不政策参数的广泛的工程。 而神经网络已被用于控制对计算十年,计算能力和算法的局限性使得大神经网络策略非常难以学习。 最近,深神经网络策略已用于任务,从机械手控制到视频游戏播放深层的神经网络也被用来学习模型MPC。 ” “ MPC-引导策略搜索算法 1:for 从 k=0 到 K 值一直迭代 do 2:通过已知等式(3)优化 的离线值 3:在已知等式(4)中运行MCP,从初始状态x1~ pi(x1),直到产生成本集 4:使用已知等式(2),训练非线性策略 去匹配样本轨迹集 中的每一个 5:适合时变的线性高斯模型使用样本 去估计 的每个 6:更新 和 7:结束 for 循环 8:返回到优化政策参数θ ” “ 二次成本近似的形式 ” “ 是 关于[xt;ut] 的剃度值, 是Hessian矩阵,最优策略可以通过递归计算二次Q函数和函数值,这些函数如下: 我们也可以用下面的式子来表达 短视距用于MPC会很难完成复杂的任务,完成高水平的任务时候,这需要长视距,比如避障,飞行方向的选择和障碍物碰撞的处罚。我们使用基于迭代LQG离线优化来产生相关的轨迹,然后使用MPC来追寻这条轨迹,再使用来计算分析不同神经网络策略 的差异。 轨迹目标重新被定义为: ” “ 适应MPC的政策指导搜索 (3) 构建替代成本 (4) 1.继续学习深度加强学习算法 2.学习大疆公司的SDK和深度学习的代码DQN代码 3.参加大疆公司举办的第三届无人机开发比赛 ” “ 下周任务安排 Thank You 模板来自于 * 模板来自于 * 模板来自于 * 模板来自于 * 模板来自于 * 模板来自于 * 模板来自于 * 模板来自于 * 模板来自于 * 模板来自于 * 模板来自于 * 模板来自于 * 模板来自于 * 模板来自于 * 模板来自于 * 模板来自于 * 模板来自于 * 模板来自于 *

文档评论(0)

136****3783 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档