- 0
- 0
- 约5.7千字
- 约 6页
- 2026-06-27 发布于上海
- 举报
强化学习工程师
一、单项选择题(共10题,每题1分,共10分)
强化学习中的Q-learning属于哪种类型的算法?A.基于模型的方法B.基于价值的方法C.基于策略的方法D.基于梯度的方法答案:B解析:Q-learning属于基于价值的方法,通过学习状态-动作值函数Q(s,a)来选择最优策略。选项A错误,基于模型的方法需要构建环境模型;选项C错误,基于策略的方法直接优化策略函数π(a|s);选项D错误,基于梯度的方法如REINFORCE直接优化策略。
在马尔可夫决策过程中,哪个不是基本要素?A.状态空间B.动作空间C.状态转移概率D.奖励函数答案:C解析:马尔可夫决策过程的基本要素包括状态空间、动作空间、奖励函数和策略,状态转移概率是马尔可夫属性的一部分但非基本要素。选项C错误,状态转移概率是隐含在MDP中的。
Q-table在哪些场景下适用?A.连续动作空间B.状态空间或动作空间过大C.状态空间可以离散化D.需要快速响应的环境答案:C解析:Q-table适用于状态和动作空间可以离散化的场景,如围棋、迷宫问题。选项A错误,连续动作空间需要使用函数逼近方法;选项B错误,状态空间过大时Q-table会面临稀疏性问题;选项D错误,Q-table需要多次采样才能收敛。
SARSA算法与Q-learning的主要区别是什么?A.
原创力文档

文档评论(0)