- 1
- 0
- 约8.68千字
- 约 11页
- 2026-04-13 发布于江苏
- 举报
强化学习工程师考试试卷
一、单项选择题(共10题,每题1分,共10分)
马尔可夫决策过程(MDP)的核心假设是?
A.环境状态具有部分可观测性
B.未来状态仅依赖当前状态,与历史无关
C.奖励函数是静态的且与动作无关
D.策略必须是确定性的
答案:B
解析:MDP的核心是马尔可夫性质,即未来状态的概率分布仅依赖于当前状态,与历史状态无关(B正确)。A是部分可观测马尔可夫决策过程(POMDP)的特征;奖励函数通常与状态-动作对相关(C错误);策略可以是随机或确定性的(D错误)。
以下哪种算法属于基于值函数的强化学习?
A.策略梯度(PolicyGradient)
B.DQN(深度Q
您可能关注的文档
最近下载
- 生活小区直饮水系统设计方案.docx VIP
- 药事管理与法规.doc VIP
- (推荐!)GB 45673-2025危险化学品企业安全生产标准化规章制度之43:化学品鉴定分类和登记管理制度(编制-2025A0)(可编辑!).docx VIP
- 3-6年级小学数学试讲稿(含目录).pdf VIP
- 《高致病性病原微生物菌(毒)种转(运)输管理规范》(征求意见稿).docx VIP
- 高致病性病原微生物菌(毒)种转(运)输管理规范.pdf VIP
- 胖东来商贸集团各项管理制度.docx VIP
- 中国间质性肺病诊疗指南(2025版).docx VIP
- 外科患者的营养支持.ppt VIP
- 1959-1986年维也纳新年音乐会中德曲目单.docx VIP
原创力文档

文档评论(0)