强化学习导论习题册.docxVIP

  • 39
  • 0
  • 约9.51千字
  • 约 14页
  • 2020-09-17 发布于天津
  • 举报
强化学习导论 习题册 强化学习导论 习题册 PAGE PAGE # / 12 强化学习导论 习题册 强化学习导论 习题册 PAGE PAGE # / 12 强化学习导论 习题册 、强化学习相关问题 请列举三个能够用强化学习框架描述的例子, 并确定每个例子的状态、 动作以及相应的 回报值。 请尽量列举三个不同的例子, 并针对其中一个例子, 归纳在建模过程中的一些 限制因素。 答:迷宫,俄罗斯方块等。 强化学习框架是否能够用来描述所有的具有目标导向的任务?如果不可以, 你是否可以 举一个反例? 答:可以。 驾驶问题。 你可以根据油门、 方向盘、 刹车,也就是你身体能接触到的机械来定义动作。 或者你可以进一步定义它们, 当车子在路上行驶时, 将你的动作考虑为轮胎的扭矩。 你 也可以退一步定义它们, 首先用你的头脑控制你的身体, 将动作定义为通过肌肉抖动来 控制你的四肢。 或者你可以定义一个高层次的动作, 比如动作就是目的地的选择。 上述 哪一个定义能够正确描述环境与 Agent 之间的界限?哪一个动作的定义比较恰当, 并阐 述其原因? 答:第一个动作的定义比较恰当, Agent 与环境的界限是指有 Agent 所能绝对控制的的 范围,并不是指有关 Agent 所有的信息,题中将司机抽象成一个 Agent ,那么,由司机 所能直接操作的只有油门,刹车和方向盘。 4. 假设将平衡杆问题抽象成一个情节式任务, 同时也添加折扣因子来计算回报值 (对于每 个状态的立即奖赏,设定失败状态的奖赏为 0,其他状态的奖赏为 -1)。在该情况下, 每个状态的回报函数如何设定?该回报函数与公式( 3.2)有何不同? 答:回报函数: Rt rt 1 rt 2 K rt K 1 K k rt k 1 k0 与公式( 3.2)的区别就是,在任务描述中是否存在吸收状态,在公式中的体现就是,对 立即奖赏的累加是否无穷。 机器人迷宫问题。对其中的奖赏做如下设定,机器人走出迷宫,奖赏为+ 1,而在其它 情况下奖赏为 0。这个任务看上去可以抽象成一个情节式任务(以走出迷宫作为一个情 节的结束),目标是将期望回报值最大化,如公式( 3.1)所示。但是在 agent 学习一段 时间后,你会发现对于 Agent 来说,走出迷宫的任务毫无进展。那么,这里问题出在什 么地方?如何做出改进提高性能? 答:问题出在回报值的设定上,题中设定,机器人走出迷宫的奖赏为 +1,其他情况为 0, 那么,对于每个状态来说,根据公式( 3.1),每个状态的回报值都为 +1,因此对于机器 人的走向没有任何的导向作用。 对于该问题的改进可以使用上个问题的回报函数,即添加折扣因子。或者,对于回报可 以按一下方式进行设定,走出迷宫奖赏为 0,其他情况奖赏为 -1。 破损视觉系统问题。 假设你是一个视觉系统。 当你第一次开机的时候, 一整幅图像涌入 你的摄像头。 你能够看到很多东西, 但不是所有东西, 比如你无法看到被某一物体遮挡 住的东西, 或者是你背后的东西。在你看到第一个场景之后, 你是否可以认为,你所接 触的环境具有马尔科夫性, 其中的状态是马尔科夫状态?再假设你是一个破损的视觉系 统,你的摄像头坏了,这种情况,你接收不到任何影像,那么在这种情况下,是否可以 认为你所接触的环境具有马尔科夫性,其中的状态是马尔科夫状态? 答:如果一个状态包含所有环境相关信息,我们就认为这个状态具有马尔科夫性。 在第一种情况下,状态不具有马尔科夫性,问题中也强调,视觉系统无法看见遮挡住的 和背后的东西,因此,该状态不具有马尔科夫性。 在第二种情况下, 可以认为具有马尔科夫性, 你接收不到不到任何影像, 你也可以认为, 你说处的环境, 就是你所感知的, 认为, 你所知道的环境信息就是包含了所有相关信息, 因此,可以认为具有马尔科夫性。 对于一个有限的马尔科夫决策过程,奖赏值数量有限,结合公式 3.5,给出状态转移函 数和回报函数。 答: Pssa Pr{st 1 s |st s,at a} Rsas E{rt 1 |st s,at a,st 1 s} 请给出动作值函数的 Bellman等式Q。等式必须包含 Q (s,a)和Q (s ,a )。参考回 溯图 3.4 及公式( 3.10)。 答: Q (s,a) E {Rt |st s,at a} E { krt k 1 |st s,at a} k0 E {rt 1 krt k 2 |st s,at a} k0 Psas { Rsas { (s,a){ krt k 2 |st s,at a}}} s a k 0 Psas{Rsas (s,a)Q (s,a)} sa 根据 Bellman 等式(3.10)可以计算每一个状态的 V ,如图 3.5b 所示。比如

文档评论(0)

1亿VIP精品文档

相关文档