机械工程专业课作业.docVIP

机械工程专业课作业.doc

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
机械工程专业课作业

专业课作业: 13.基于强化学习方法的前馈动作泛化的基本方法? 答:由启发式方法反复进行试行错误实验,对于给定条件,可以生成良好的动作。可是,控制条件发生变化情况下,用以前的条件得到的前馈动作在新的条件下已经不适合了,所以必须再次进行试行错误,以不断适应于环境的变化。因此,通过插补几个控制条件下得到的经验值,论述在未经历条件下进行控制的方法。 1.用Spline曲面进行插补。 首先,作为插补经验数据的简单方法,通过用Spline函数插补几个条件下生成的驱动力波形,考虑得到在没有使用过的中间条件下的驱动力生成。即把前面用启发式方法生成的驱动力波形并排在一起,对于各时刻通过Spline插补求解未使用过的中间条件下的驱动力值。具体地,对于个时刻垂直于时间轴的平面内用3次Spline函数进行插补,张成Spline曲面,确定对于未经历过的目标间距的驱动力。 用这种方法的好处是:计算简单,需要存储的数据只是可用作启发式方法得到的经验数据 2.用CMAC方法插补 采用Spline曲面的插补方法因为是只能在3维空间的插补,若取时间和驱动力为参数,则只能再让一个参数变化。因此,2个以上的控制目标、控制环境等条件参数同时变化的情况下,必须再一次重复启发式方法搜索求解。比如说:移动前后的树枝间隔连续变化的情况下,或者树枝的高度也同时变化的情况下,需要4维、6维插补,用这样的插补方法生成控制力是不可能的。因此,采用可进行多元函数的插补的神经网络之一的小脑神经网络(CMAC)进行多个控制条件参数变化情况下的驱动力生成。 3.反馈控制方法 机器人进行一次动作的时间不足1秒,所以不用反馈控制是很难控制的。因为只有前馈的情况下,当有外界扰动时运动变化很大,很难把握住目标。因此,在前馈的同时还进行两个反馈控制,以尝试抑制外界扰动。5种驱动力波形,用Spline曲面插补得到驱动力波形。由仿真结果可知: (1) 在时间上,Over-hand-mode是有利的,但是需要低速大扭矩,从正到负的变化也很大。所以,实际驱动机器人的话,可以说需要更强劲的电机。 (2) Over-hand-mode 比under-hand mode对目标的不确定性大。 这是因为手爪用较高的位置去抓握目标时,为减小接近速度,必须进行与重力场作用相反的大力矩控制,这时运动成为不稳定。 (3) 在under-hand mode 模式下,因为由低位置接近目标时,一边减小动能,一边接近目标,靠重力场作用自然地使接近速度变小。因此,认为Under-hand mode下容易得到正确的运动,容易把握目标。 14.强化学习方法的构成要素(或其基本构成)有哪些?分别解释各组成部分? 答:强化学习的构成要素有:策略、报酬函数、价值函数、环境的模型。 策略:从环境感知到的状态到该状态下采取的映射,在心理学上称为刺激。作为强化学习智能体的核心,具有概率性。 报酬函数:用来定义强化学习体的目标。该函数把从环境感知到的状态映射成一个数值化的“报酬”值,该报酬表示了从该状态得到的期望程度。 价值函数:与某一状态意义上反应行动结果好坏的报酬函数相对应,价值函数则指定了最终什么是最好的。所谓的“价值”是该智能学习体以该状态为基点过渡到所期望的将来过程中,所积蓄的报酬总量。 环境的模型:是为模仿环境的举动所建立的。模型是为了在实际执行行动之前考虑将来可能的状态而决定动作的方法的意义上所进行的规划而使用的。 15.试述神经网络的基本原理;神经元模型? 答:人工神经元的主要结构单元是信号的输入、综合处理和输出。人工神经元之间通过互相连接形成网络, 称为人工神经网络。 作为NN的基本单元的神经元模型,它有三个基本要素: 1)一组连接(对应于生物神经元的突触),连接强度有个连接上的权值表示,权值为正表示激活,为负表示抑制。 2)一个求和单元,用于求取各输入信号的加权和(线性组合)。 3)一个激活函数f(.),起映射作用并将神经元输出幅度限制在一定范围内。 激活函数f(.)决定神经元的输出,它通常有以下几种形式: 1)阈值函数; 2)分段线性函数,它类似于一个放大系数为1的非线性放大器; 3)双曲函数; 4) Sigmoid函数。 16.CMAC(小脑神经网络)的特点有那些? CMAC是模拟小脑皮质内的信息处理机制的神经回路模型之一的一种神经网络。与阶层型神经网络比起来不是常用的方法。 CMAC不被常用的原因之一——需要很多的权重记忆用存储单元—内存。如果不是很大的权重空间的话,不能得到较好的精度。 CMAC的长处——映射关系相当清楚。为图中所示的多输入但输出的非线性函数映射关系。CMAC基本上表现为多个权重的和。 CMAC中各输入变量决定泛化的范围,因为超过这个范围的输入输出样本是完全独立的,所以学习时不

文档评论(0)

panguoxiang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档