- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
。
强化学习导论 习题册
一、强化学习相关问题
1. 请列举三个能够用强化学习框架描述的例子, 并确定每个例子的状态、 动作以及相应的
回报值。 请尽量列举三个不同的例子, 并针对其中一个例子, 归纳在建模过程中的一些
限制因素。
答:迷宫,俄罗斯方块等。
2. 强化学习框架是否能够用来描述所有的具有目标导向的任务?如果不可以, 你是否可以
举一个反例?
答:可以。
3. 驾驶问题。 你可以根据油门、 方向盘、 刹车,也就是你身体能接触到的机械来定义动作。
或者你可以进一步定义它们, 当车子在路上行驶时, 将你的动作考虑为轮胎的扭矩。 你
也可以退一步定义它们, 首先用你的头脑控制你的身体, 将动作定义为通过肌肉抖动来
控制你的四肢。 或者你可以定义一个高层次的动作, 比如动作就是目的地的选择。 上述
哪一个定义能够正确描述环境与 Agent 之间的界限?哪一个动作的定义比较恰当, 并阐
述其原因?
答:第一个动作的定义比较恰当, Agent 与环境的界限是指有 Agent 所能绝对控制的的
范围,并不是指有关 Agent 所有的信息,题中将司机抽象成一个 Agent ,那么,由司机
所能直接操作的只有油门,刹车和方向盘。
4. 假设将平衡杆问题抽象成一个情节式任务, 同时也添加折扣因子来计算回报值 (对于每
个状态的立即奖赏,设定失败状态的奖赏为 0 ,其他状态的奖赏为 -1 )。在该情况下,
每个状态的回报函数如何设定?该回报函数与公式( 3.2 )有何不同?
K
K k
答:回报函数: R r r r r
t t 1 t 2 t K 1 t k 1
k 0
与公式( 3.2 )的区别就是,在任务描述中是否存在吸收状态,在公式中的体现就是,
对立即奖赏的累加是否无穷。
5. 机器人迷宫问题。对其中的奖赏做如下设定,机器人走出迷宫,奖赏为+ 1,而在其它
情况下奖赏为 0。这个任务看上去可以抽象成一个情节式任务(以走出迷宫作为一个情
节的结束) ,目标是将期望回报值最大化,如公式( 3.1 )所示。但是在 agent 学习一段
时间后,你会发现对于 Agent 来说,走出迷宫的任务毫无进展。 那么,这里问题出在什
么地方?如何做出改进提高性能?
答:问题出在回报值的设定上,题中设定,机器人走出迷宫的奖赏为 +1,其他情况为 0,
那么,对于每个状态来说,根据公式( 3.1 ),每个状态的回报值都为 +1,因此对于机器
人的走向没有任何的导向作用。
对于该问题的改进可以使用上个问题的回报函数,即添加折扣因子。或者,对于回报可
以按一下方式进行设定,走出迷宫奖赏为 0 ,其他情况奖赏为 -1 。
6. 破损视觉系统问题。
文档评论(0)