- 1
- 0
- 约6.22千字
- 约 9页
- 2026-05-05 发布于江苏
- 举报
强化学习工程师考试试卷
一、单项选择题(共10题,每题1分,共10分)
1.强化学习中,代理的主要目标是什么?
A.最小化预测误差
B.优化监督信号
C.最大化累积奖励
D.学习环境动力学模型
答案:C
解析:代理通过与环境的交互最大化长期累积奖励,这是强化学习的核心目标。错误选项A是监督学习的目标,B无关,D指模型学习但不是核心目标。
在马尔可夫决策过程(MDP)中,状态转移概率依赖的关键因素是什么?
A.仅当前状态
B.仅动作
C.当前状态和动作
D.历史状态序列
答案:C
解析:MDP的状态转移概率定义为P(s’|s,a),仅依赖当前状态s和动作a,满足马尔可夫性。错误
您可能关注的文档
- 2026年EAP咨询师考试题库(附答案和详细解析)(0420).docx
- 2026年ESG分析师考试题库(附答案和详细解析)(0421).docx
- 2026年价格鉴证师考试题库(附答案和详细解析)(0416).docx
- 2026年企业数字化战略师考试题库(附答案和详细解析)(0405).docx
- 2026年供应链管理专业人士考试题库(附答案和详细解析)(0404).docx
- 2026年信息治理专家考试题库(附答案和详细解析)(0402).docx
- 2026年基金从业资格考试考试题库(附答案和详细解析)(0407).docx
- 2026年护士执业资格考试考试题库(附答案和详细解析)(0406).docx
- 2026年数字化转型师考试题库(附答案和详细解析)(0402).docx
- 2026年数据库系统工程师考试题库(附答案和详细解析)(0404).docx
原创力文档

文档评论(0)