- 1
- 0
- 约5.89千字
- 约 10页
- 2026-06-02 发布于湖北
- 举报
2026年人工智能算法工程师基础深度强化学习测试卷
考试时间:______分钟总分:______分姓名:______
一、单项选择题(每题2分,共20分)
1.在马尔可夫决策过程(MDP)中,描述状态转移概率的是?
A.策略
B.值函数
C.奖励函数
D.转移概率
2.下列哪个术语描述了在给定状态下执行某个动作后,预期的未来累积奖励?
A.策略
B.值函数
C.状态值
D.动作值
3.假设一个RLagent正在学习,它处于状态s,执行动作a后转移到状态s,并获得奖励r。根据蒙特卡洛方法,该经验(s,a,r,s)对值函数V(s)的更新贡献是?
A.r
B.V(s)
C.r+γV(s)
D.V(s)-V(s)
4.Q-Learning算法属于哪种类型的强化学习方法?
A.基于策略的方法
B.基于值函数的方法
C.模型基方法
D.基于规划的方法
5.在深度Q网络(DQN)中,为了稳定训练并减少目标值的更新频率,通常会使用?
A.策略梯度
B.目标网络
C.经验回放
D.优势函数
6.Actor-Critic方法结合了哪些组件来同时学习策略
您可能关注的文档
最近下载
- 国开员工绩效考核与绩效管理课程第一次形考参考.docx VIP
- 铃木船外机 DF325A 350A 中文维修手册.pdf
- 北京大学分析化学教材习题思考题答案word.doc
- JUKI重机35800系列手册和零件图.pdf
- 2026年河南省乡村振兴村级协理员招用考试(公共基础知识)历年参考题库含答案详解.docx VIP
- 软件概要设计说明书模板V1.0.pdf VIP
- 建筑CAD—施工图识图.pptx VIP
- CECA/GC_1_2015_建设项目投资估算编审规程完整.docx VIP
- 2026年高考英语(全国一卷)全真模拟试卷1(含答案).docx VIP
- 建设项目投资估算编审规程完整.docx VIP
原创力文档

文档评论(0)