- 0
- 0
- 约7.83千字
- 约 11页
- 2026-02-04 发布于江苏
- 举报
强化学习工程师考试试卷
一、单项选择题(共10题,每题1分,共10分)
马尔可夫决策过程(MDP)的标准组成不包括以下哪项?
A.状态集合S
B.动作集合A
C.环境模型M
D.折扣因子γ
答案:C
解析:MDP的标准五元组为(状态集合S,动作集合A,状态转移概率P,奖励函数R,折扣因子γ)。环境模型M通常指转移概率P和奖励函数R的组合,并非独立组成部分,因此选C。
Q-learning算法的更新目标是?
A.Q(s,a)+α[R+γQ(s’,a’)-Q(s,a)]
B.Q(s,a)+α[R+γmax?Q(s’,a)-Q(s,a)]
C.π(a|s)+
原创力文档

文档评论(0)