- 0
- 0
- 约8.26千字
- 约 11页
- 2026-03-05 发布于江苏
- 举报
强化学习工程师考试试卷
一、单项选择题(共10题,每题1分,共10分)
马尔可夫决策过程(MDP)的核心要素不包括以下哪项?
A.状态空间S
B.动作空间A
C.策略π
D.折扣因子γ
答案:C
解析:MDP的标准定义包含状态空间S、动作空间A、转移概率P(s’|s,a)、奖励函数R(s,a,s’)和折扣因子γ。策略π是智能体在MDP中的决策规则,属于智能体的组成部分,而非MDP本身的核心要素。
Q-learning算法属于以下哪种学习类型?
A.在线策略(on-policy)
B.离策略(off-policy)
C.模型无关(model-free)
D.模型相关(model-
您可能关注的文档
- 太阳能光伏发电站EPC合同.docx
- 2026年审计专业技术资格考试题库(附答案和详细解析)(0102).docx
- 2026年司法鉴定人考试题库(附答案和详细解析)(0119).docx
- 2026年云安全工程师考试题库(附答案和详细解析)(0130).docx
- 2026年智慧城市设计师考试题库(附答案和详细解析)(0120).docx
- 2026年注册地籍测绘师考试题库(附答案和详细解析)(0115).docx
- 2026年注册景观设计师考试题库(附答案和详细解析)(0120).docx
- 2026年注册信息系统安全专家(CISSP)考试题库(附答案和详细解析)(0118).docx
- CPA经济法公司法律制度试卷及分析.doc
- MACD指标趋势跟踪策略的参数优化.docx
最近下载
- 020——《山经》河水下游及其支流考.pdf
- 新人教版小学六年级数学上册教学课件(全册).pptx VIP
- 安徽A10联盟2026届高三2月学情检测(开年考)数学试卷(含答案解析).pdf
- 中考语文 作文天津中考作文真题分析.pdf VIP
- 教学评一致性的研究.doc VIP
- DB23T1501-2013 水利堤(岸)坡防护工程格宾与雷诺护垫施工技术规范.pdf VIP
- 2025年学历类自考专业(国贸)国际商务英语-外贸英语写作参考题库含答案解析.docx VIP
- 智慧停车安全培训课件.pptx VIP
- 农村会计试题及答案解析.docx VIP
- 癌症患者生活质量量表EORTC QLQ-C30.docx VIP
原创力文档

文档评论(0)