- 0
- 0
- 约6.59千字
- 约 7页
- 2026-07-03 发布于贵州
- 举报
强化学习工程师
一、单项选择题(共10题,每题1分,共10分)
在马尔可夫决策过程(MDP)中,状态转移概率P(s′|s,a)表示的是?A.在状态s下执行动作a能获得奖励的概率B.在状态s下执行动作a转移到状态s′的概率C.在状态s下执行动作a的期望奖励D.在状态s下执行动作a的总累积奖励答案:B解析:状态转移概率描述的是环境在给定当前状态s
以下哪种算法主要使用价值迭代来计算最优策略?A.Q-LearningB.SARSAC.DQN(DeepQ-Network)D.PolicyGradient(REINFORCE)答案:A解析:Q-Learning是一种off-policy的时序差分控制算法,其核心通过价值迭代更新Q值以收敛到最优策略。
在策略梯度方法中,用于计算梯度的估计量是?A.期望回报的梯度B.状态价值函数的梯度C.动作价值函数的梯度D.奖励函数的梯度答案:A解析:策略梯度方法直接对策略参数θ求导,目标是最大化期望回报J(
以下哪种技术主要用于解决深度强化学习中的“奖励塑形”问题?A.TargetNetwork(目标网络)B.ExperienceReplay(经验回放)C.RewardShapingD.Exploratio
您可能关注的文档
最近下载
- 一、二年级看图写话满分指导及100篇练习(附答案),打印出来给孩子多练练.doc VIP
- 体育概论 第三版 杨文轩 陈琦 全国普通高等学校体育专业类基础课程教材-第二章 体育功能.ppt VIP
- New Bravo 洪恩国际少儿英语第6册--教学课件.ppt VIP
- 《磁性物理》第五章磁畴理论详解.ppt VIP
- DB11/T 387.1-2006 水利工程施工质量评定 第1部分 河道整治.pdf VIP
- 西南铝业质量证明书.doc VIP
- 10-2 变电工程质量旁站要点及旁站监理记录模板(高压电缆头耐压试验).docx VIP
- 消防报警系统施工方案汇.doc VIP
- 207页《华为数字化转型之道》读书笔记课件.pptx VIP
- 气膜钢筋混凝土圆顶仓工程施工与验收规范.pdf VIP
原创力文档

文档评论(0)