强化学习导论习题册.docxVIP

下载本文档

39
0
约9.51千字
约 14页
2020-09-17 发布于天津
举报

强化学习导论习题册.docx

强化学习导论习题册强化学习导论习题册 PAGE PAGE # / 12 强化学习导论习题册强化学习导论习题册 PAGE PAGE # / 12 强化学习导论习题册、强化学习相关问题请列举三个能够用强化学习框架描述的例子，并确定每个例子的状态、动作以及相应的回报值。请尽量列举三个不同的例子，并针对其中一个例子，归纳在建模过程中的一些限制因素。答：迷宫，俄罗斯方块等。强化学习框架是否能够用来描述所有的具有目标导向的任务？如果不可以，你是否可以举一个反例？答：可以。驾驶问题。你可以根据油门、方向盘、刹车，也就是你身体能接触到的机械来定义动作。或者你可以进一步定义它们，当车子在路上行驶时，将你的动作考虑为轮胎的扭矩。你也可以退一步定义它们，首先用你的头脑控制你的身体，将动作定义为通过肌肉抖动来控制你的四肢。或者你可以定义一个高层次的动作，比如动作就是目的地的选择。上述哪一个定义能够正确描述环境与 Agent 之间的界限？哪一个动作的定义比较恰当，并阐述其原因？答：第一个动作的定义比较恰当， Agent 与环境的界限是指有 Agent 所能绝对控制的的范围，并不是指有关 Agent 所有的信息，题中将司机抽象成一个 Agent ，那么，由司机所能直接操作的只有油门，刹车和方向盘。 4. 假设将平衡杆问题抽象成一个情节式任务，同时也添加折扣因子来计算回报值（对于每个状态的立即奖赏，设定失败状态的奖赏为 0，其他状态的奖赏为 -1）。在该情况下，每个状态的回报函数如何设定？该回报函数与公式（ 3.2）有何不同？答：回报函数： Rt rt 1 rt 2 K rt K 1 K k rt k 1 k0 与公式（ 3.2）的区别就是，在任务描述中是否存在吸收状态，在公式中的体现就是，对立即奖赏的累加是否无穷。机器人迷宫问题。对其中的奖赏做如下设定，机器人走出迷宫，奖赏为＋ 1，而在其它情况下奖赏为 0。这个任务看上去可以抽象成一个情节式任务（以走出迷宫作为一个情节的结束），目标是将期望回报值最大化，如公式（ 3.1）所示。但是在 agent 学习一段时间后，你会发现对于 Agent 来说，走出迷宫的任务毫无进展。那么，这里问题出在什么地方？如何做出改进提高性能？答：问题出在回报值的设定上，题中设定，机器人走出迷宫的奖赏为 +1，其他情况为 0，那么，对于每个状态来说，根据公式（ 3.1），每个状态的回报值都为 +1，因此对于机器人的走向没有任何的导向作用。对于该问题的改进可以使用上个问题的回报函数，即添加折扣因子。或者，对于回报可以按一下方式进行设定，走出迷宫奖赏为 0，其他情况奖赏为 -1。破损视觉系统问题。假设你是一个视觉系统。当你第一次开机的时候，一整幅图像涌入你的摄像头。你能够看到很多东西，但不是所有东西，比如你无法看到被某一物体遮挡住的东西，或者是你背后的东西。在你看到第一个场景之后，你是否可以认为，你所接触的环境具有马尔科夫性，其中的状态是马尔科夫状态？再假设你是一个破损的视觉系统，你的摄像头坏了，这种情况，你接收不到任何影像，那么在这种情况下，是否可以认为你所接触的环境具有马尔科夫性，其中的状态是马尔科夫状态？答：如果一个状态包含所有环境相关信息，我们就认为这个状态具有马尔科夫性。在第一种情况下，状态不具有马尔科夫性，问题中也强调，视觉系统无法看见遮挡住的和背后的东西，因此，该状态不具有马尔科夫性。在第二种情况下，可以认为具有马尔科夫性，你接收不到不到任何影像，你也可以认为，你说处的环境，就是你所感知的，认为，你所知道的环境信息就是包含了所有相关信息，因此，可以认为具有马尔科夫性。对于一个有限的马尔科夫决策过程，奖赏值数量有限，结合公式 3.5，给出状态转移函数和回报函数。答： Pssa Pr{st 1 s |st s,at a} Rsas E{rt 1 |st s,at a,st 1 s} 请给出动作值函数的 Bellman等式Q。等式必须包含 Q (s,a)和Q (s ,a )。参考回溯图 3.4 及公式( 3.10)。答： Q (s,a) E {Rt |st s,at a} E { krt k 1 |st s,at a} k0 E {rt 1 krt k 2 |st s,at a} k0 Psas { Rsas { (s,a){ krt k 2 |st s,at a}}} s a k 0 Psas{Rsas (s,a)Q (s,a)} sa 根据 Bellman 等式(3.10)可以计算每一个状态的 V ，如图 3.5b 所示。比如

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

强化学习导论习题册.docxVIP