- 1
- 0
- 约9.56千字
- 约 12页
- 2026-03-22 发布于上海
- 举报
强化学习工程师考试试卷
一、单项选择题(共10题,每题1分,共10分)
马尔可夫决策过程(MDP)的核心组成不包括以下哪项?
A.状态空间S
B.动作空间A
C.环境观测空间O
D.奖励函数R(s,a,s’)
答案:C
解析:MDP的标准定义包含状态空间S、动作空间A、状态转移概率P(s’|s,a)、奖励函数R(s,a,s’)和折扣因子γ。环境观测空间O是部分可观测马尔可夫决策过程(POMDP)的扩展概念,因此C为错误选项。
以下哪项是Q-learning算法的核心更新公式?
A.Q(s,a)←Q(s,a)+α[r+γmax_a’Q(s’,a’)-Q(s,a)]
B.
您可能关注的文档
最近下载
- 10吨油水分离器规范书.doc VIP
- 2025年版大理大学内科笔试题目及答案.docx VIP
- 【行业标准】NBT 35045-2014 水电工程钢闸门制造安装及验收规范.pdf VIP
- 藏香生产技术规程DB54_T 0316-2024.pdf VIP
- 大理大学内科笔试题目及答案.doc VIP
- 教育部:义务教育地理课程标准(2011年版).pdf VIP
- 安全仪表系统(SIS)安全要求规格书(SRS).docx VIP
- 部编版小学语文四年级下册第三单元单元备课教材分析.docx VIP
- 大理大学内科笔试题目及答案.doc VIP
- 2024新高考十年数学科考试内容改革:成就、挑战与转向_任子朝.pdf VIP
原创力文档

文档评论(0)