- 0
- 0
- 约7.47千字
- 约 12页
- 2026-03-17 发布于上海
- 举报
强化学习工程师考试试卷
一、单项选择题(共10题,每题1分,共10分)
马尔可夫决策过程(MDP)的核心性质是:
A.当前状态仅依赖前一状态
B.当前状态包含所有历史信息
C.奖励函数仅与当前状态有关
D.动作空间是连续的
答案:B
解析:马尔可夫性质要求“当前状态包含预测未来所需的全部信息”(即状态转移仅依赖当前状态),因此B正确。A错误,因马尔可夫性质不限制状态仅依赖前一状态,而是依赖所有历史信息的充分统计量;C错误,奖励函数可依赖状态-动作对(s,a);D错误,动作空间可以是离散或连续。
Q-learning算法属于:
A.基于策略的算法
B.离线策略(Off-policy)算法
C.模型基(Model-based)算法
D.蒙特卡洛方法
答案:B
解析:Q-learning通过行为策略(如ε-贪心)探索环境,用目标策略(贪心)更新Q值,属于离线策略算法(B正确)。A错误,Q-learning是基于值函数的算法;C错误,Q-learning不依赖环境模型;D错误,Q-learning是时间差分(TD)方法。
策略梯度算法优化的目标函数是:
A.状态值函数的期望
B.动作值函数的方差
C.累计奖励的期望
D.策略的熵
答案:C
解析:策略梯度算法的核心是最大化智能体在环境中获得的期望累计奖励(C正确)。A错误,状态值函数是中间量;B错误,方差非优化目标;
您可能关注的文档
- 2026年健康照护师考试题库(附答案和详细解析)(0121).docx
- 2026年健康照护师考试题库(附答案和详细解析)(0203).docx
- 2026年国际物流师考试题库(附答案和详细解析)(0310).docx
- 2026年婚姻家庭咨询师考试题库(附答案和详细解析)(0212).docx
- 2026年广播电视播音员主持人资格考试题库(附答案和详细解析)(0305).docx
- 2026年心理健康指导师考试题库(附答案和详细解析)(0221).docx
- 2026年注册园林工程师考试题库(附答案和详细解析)(0303).docx
- 2026年注册用户体验设计师(UXD)考试题库(附答案和详细解析)(0111).docx
- 2026年网络安全分析师考试题库(附答案和详细解析)(0219).docx
- 2026年翻译资格证(NAATI)考试题库(附答案和详细解析)(0308).docx
最近下载
- 三年级劳动教育全册教学课件.ppt
- 加油站新员工三级安全教育培训试题.docx VIP
- 湖南省新高考教学教研联盟(长郡二十校联盟)2026届高三年级下学期3月联考数学理试卷(含答案).pdf
- 农商行柜员业务考试题及标准答案.docx VIP
- 涂料生产安全讲解.pptx
- 司法部 公务员 面试面试题及答案.doc VIP
- 2025至2030中国甲基异丁基甲醇(MIBC)行业项目调研及市场前景预测评估报告.docx VIP
- 2026年合肥经济技术职业学院单招职业技能考试题库附答案详解(完整版).docx VIP
- jtj252-87干船坞设计规范(水工结构).pdf VIP
- 学前儿童神经系统和感觉器官卫生保健.pptx VIP
原创力文档

文档评论(0)