- 2
- 0
- 约5.16千字
- 约 7页
- 2026-06-09 发布于上海
- 举报
2026年强化学习工程师考试题库(附答案和详细解析)(0501)
强化学习工程师认证考试试卷
一、单项选择题(共10题,每题1分,共10分)
在ε-greedy策略中,随着ε值逐渐减小,智能体的行为会:
A.更倾向于探索未知动作
B.更倾向于利用当前最优动作
C.完全随机选择动作
D.停止学习过程
答案:B
解析:ε表示随机选择动作的概率(探索)。ε减小意味着智能体减少探索,增加对当前已知最优动作的利用(Exploitation)。A描述ε增大的效果,C仅当ε=1时成立,D与ε调整无关。
贝尔曼方程的核心作用是:
A.直接给出最优策略
B.建立当前状态价值与后继状态价值的递归关系
C.计算环境的状态转移概率
D.替代蒙特卡洛采样
答案:B
解析:贝尔曼方程通过递归形式关联当前状态价值与后继状态期望价值((V(s)=[R+V(s’)])),是动态规划和时序差分学习的基础。A需通过值迭代实现,C是环境属性而非方程功能,D中贝尔曼方程常与采样结合使用。
以下算法属于无模型(Model-Free)方法的是:
A.动态规划(DP)
B.Q-Learning
C.值迭代(ValueIteration)
D.策略迭代(PolicyIteration)
答案:B
解析:Q-Learning直接从经验中学习动作价值函数,无需环境动态模型(状态转移概率和奖励函
原创力文档

文档评论(0)