- 0
- 0
- 约2.33千字
- 约 4页
- 2026-05-02 发布于江苏
- 举报
2026年强化学习工程师考试题库(附答案和详细解析)(0415)
强化学习工程师专业能力测试卷
一、单项选择题(共10题,每题1分,共10分)
马尔可夫决策过程(MDP)的核心特性是?
A.状态转移只取决于当前状态与动作
B.回报函数与历史状态相关
C.策略空间是连续分布
D.必须包含终止状态
答案:A
解析:MDP的核心假设是”马尔可夫性”,即下一状态和奖励仅取决于当前状态和动作(P(s’|s,a)),与历史状态无关。B违反马尔可夫性,C错在策略空间可离散,D非必要条件。
贝尔曼方程的核心作用是?
A.计算环境的状态转移概率
B.建立当前价值与未来价值的递归关系
C.优化神经网
您可能关注的文档
最近下载
- 全国现场流行病学调查职业技能竞赛备考试题库及答案.docx VIP
- 单克隆抗体开发中的电荷异质性.docx VIP
- 合肥科技职业学院《破产法》2025-2026学年期末试卷.docx VIP
- 合肥科技职业学院《人际传播与沟通》2025-2026学年期末试卷.docx VIP
- 2014级口腔疾病概要课程标准.doc VIP
- 默纳克协议代码表、常见电梯系统密码表.docx VIP
- 宁夏纪委监委公开遴选公务员笔试试题及答案解析.docx VIP
- 合肥科技职业学院《商业银行业务与经营》2025-2026学年期末试卷.docx VIP
- 2025《某小区GPON光纤接入网的设计方案》12000字.doc VIP
- 合肥科技职业学院《社区工作》2025-2026学年期末试卷.docx VIP
原创力文档

文档评论(0)