强化学习导论-习题册.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
强化学习导论-习题册

强化学习导论 习题册 强化学习相关问题 请列举三个能够用强化学习框架描述的例子,并确定每个例子的状态、动作以及相应的回报值。请尽量列举三个不同的例子,并针对其中一个例子,归纳在建模过程中的一些限制因素。 答:迷宫,俄罗斯方块等。 强化学习框架是否能够用来描述所有的具有目标导向的任务?如果不可以,你是否可以举一个反例? 答:可以。 驾驶问题。你可以根据油门、方向盘、刹车,也就是你身体能接触到的机械来定义动作。或者你可以进一步定义它们,当车子在路上行驶时,将你的动作考虑为轮胎的扭矩。你也可以退一步定义它们,首先用你的头脑控制你的身体,将动作定义为通过肌肉抖动来控制你的四肢。或者你可以定义一个高层次的动作,比如动作就是目的地的选择。上述哪一个定义能够正确描述环境与Agent之间的界限?哪一个动作的定义比较恰当,并阐述其原因? 答:第一个动作的定义比较恰当,Agent与环境的界限是指有Agent所能绝对控制的的范围,并不是指有关Agent所有的信息,题中将司机抽象成一个Agent,那么,由司机所能直接操作的只有油门,刹车和方向盘。 假设将平衡杆问题抽象成一个情节式任务,同时也添加折扣因子来计算回报值(对于每个状态的立即奖赏,设定失败状态的奖赏为0,其他状态的奖赏为-1)。在该情况下,每个状态的回报函数如何设定?该回报函数与公式(3.2)有何不同? 答:回报函数: 与公式(3.2)的区别就是,在任务描述中是否存在吸收状态,在公式中的体现就是,对立即奖赏的累加是否无穷。 机器人迷宫问题。对其中的奖赏做如下设定,机器人走出迷宫,奖赏为+1,而在其它情况下奖赏为0。这个任务看上去可以抽象成一个情节式任务(以走出迷宫作为一个情节的结束),目标是将期望回报值最大化,如公式(3.1)所示。但是在agent学习一段时间后,你会发现对于Agent来说,走出迷宫的任务毫无进展。那么,这里问题出在什么地方?如何做出改进提高性能? 答:问题出在回报值的设定上,题中设定,机器人走出迷宫的奖赏为+1,其他情况为0,那么,对于每个状态来说,根据公式(3.1),每个状态的回报值都为+1,因此对于机器人的走向没有任何的导向作用。 对于该问题的改进可以使用上个问题的回报函数,即添加折扣因子。或者,对于回报可以按一下方式进行设定,走出迷宫奖赏为0,其他情况奖赏为-1。 破损视觉系统问题。假设你是一个视觉系统。当你第一次开机的时候,一整幅图像涌入你的摄像头。你能够看到很多东西,但不是所有东西,比如你无法看到被某一物体遮挡住的东西,或者是你背后的东西。在你看到第一个场景之后,你是否可以认为,你所接触的环境具有马尔科夫性,其中的状态是马尔科夫状态?再假设你是一个破损的视觉系统,你的摄像头坏了,这种情况,你接收不到任何影像,那么在这种情况下,是否可以认为你所接触的环境具有马尔科夫性,其中的状态是马尔科夫状态? 答:如果一个状态包含所有环境相关信息,我们就认为这个状态具有马尔科夫性。 在第一种情况下,状态不具有马尔科夫性,问题中也强调,视觉系统无法看见遮挡住的和背后的东西,因此,该状态不具有马尔科夫性。 在第二种情况下,可以认为具有马尔科夫性,你接收不到不到任何影像,你也可以认为,你说处的环境,就是你所感知的,认为,你所知道的环境信息就是包含了所有相关信息,因此,可以认为具有马尔科夫性。 对于一个有限的马尔科夫决策过程,奖赏值数量有限,结合公式3.5,给出状态转移函数和回报函数。 答: 请给出动作值函数的Bellman等式。等式必须包含和。参考回溯图3.4及公式(3.10)。 答: 根据Bellman等式(3.10)可以计算每一个状态的,如图3.5b所示。比如对于图中0.7这个值来说,可以根据其四周的+2.3,+0.4,-0.4和+0.7这四个值计算得出。试计算图中其他值,根据公式3.10,验证每个值的正确性。 答:略。 在例子格子世界中,到达目标状态设定奖赏为正值,到达边界状态设定奖赏为负值,其他状态奖赏为0。这样的设定是否必要,或者仅仅是为了区分不同状态的回报值?对于每个状态的立即奖赏加上常量C,每个状态的回报值加上常量K,在不影响每个状态回报值与立即奖赏关系的前提下,试根据公式(3.2),将K用C和参数来表示。 答:设状态的回报值为x,立即奖赏为y 即: 考虑在情节式任务中,对每个状态的立即奖赏加上一个常量C,比如迷宫问题。这样对最终结果是否有影响?这种情况对于连续式任务是否有影响,比如针对上一个问题中的格子世界?给出解释。 答:,对于最终的结果没有影响,通过学习,最终是要能够得出一组最优策略,而对于每个状态的具体值是多少不关注,关注的是值之间的一个差异性。 每个状态的状态值函数的值是由当前状态下的动

文档评论(0)

xy88118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档