吴迪李仁发.PPT

下载文档 降价啦

2
0
约1.96千字
约 10页
2018-10-14 发布于天津
举报
版权申诉
保障服务

吴迪李仁发.PPT

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

吴迪李仁发

周报告指导老师：吴迪、李仁发学生姓名：李鲜引导策略搜索算法(guided policy search) 1：for 从 k=0 到 K 值一直迭代 do 2：优化轨迹分布最小化和策略的偏差 3：从每一个样本生成样本集 4：训练非线性策略去匹配样本轨迹集 5：更新拉格朗日乘数和激励和之间的协定 6：结束 for 循环 7：返回到优化政策参数θ 政策搜索的目标是最小化的预期成本 s.t. 是的缩写，是的缩写，xt 是t时刻的状态，ot表示观察，ut表示行为，是完成任务的成本函数。 ” “ 轨迹优化目标是对平均操作的拉格朗日乘数，第三项是KL差分惩罚，这些条件有助于接近于 ” “ 政策监管目标是对平均操作的拉格朗日乘数，第三项是KL差分惩罚，这些条件有助于接近于，M是从每个样本收集来的样本数目，这一目标采用样本来估计积分，在这种情况下政策由高斯决定，它对应于对平均加权最小二乘目标，而可以解决在封闭的形式。 ” “ (2) 引导政策搜索其中的一个主要优点是其训练复杂，高维和高度非线性的政策的能力，这使我们可以利用深层神经网络表示我们的政策，从而使他们处理复杂的、从机载传感器的原始输入、而不政策参数的广泛的工程。而神经网络已被用于控制对计算十年，计算能力和算法的局限性使得大神经网络策略非常难以学习。最近，深神经网络策略已用于任务，从机械手控制到视频游戏播放深层的神经网络也被用来学习模型MPC。 ” “ MPC-引导策略搜索算法 1：for 从 k=0 到 K 值一直迭代 do 2：通过已知等式(3)优化的离线值 3：在已知等式(4)中运行MCP，从初始状态x1~ pi(x1)，直到产生成本集 4：使用已知等式(2)，训练非线性策略去匹配样本轨迹集中的每一个 5：适合时变的线性高斯模型使用样本去估计的每个 6：更新和 7：结束 for 循环 8：返回到优化政策参数θ ” “ 二次成本近似的形式 ” “ 是关于[xt;ut] 的剃度值，是Hessian矩阵，最优策略可以通过递归计算二次Q函数和函数值，这些函数如下：我们也可以用下面的式子来表达短视距用于MPC会很难完成复杂的任务，完成高水平的任务时候，这需要长视距，比如避障，飞行方向的选择和障碍物碰撞的处罚。我们使用基于迭代LQG离线优化来产生相关的轨迹，然后使用MPC来追寻这条轨迹，再使用来计算分析不同神经网络策略的差异。轨迹目标重新被定义为： ” “ 适应MPC的政策指导搜索 (3) 构建替代成本 (4) 1.继续学习深度加强学习算法 2.学习大疆公司的SDK和深度学习的代码DQN代码 3.参加大疆公司举办的第三届无人机开发比赛 ” “ 下周任务安排 Thank You 模板来自于 * 模板来自于 * 模板来自于 * 模板来自于 * 模板来自于 * 模板来自于 * 模板来自于 * 模板来自于 * 模板来自于 * 模板来自于 * 模板来自于 * 模板来自于 * 模板来自于 * 模板来自于 * 模板来自于 * 模板来自于 * 模板来自于 * 模板来自于 *