- 1
- 0
- 约1.87千字
- 约 5页
- 2026-05-01 发布于湖南
- 举报
2026年机器学习(强化学习)试题及答案
(考试时间:90分钟满分100分)
班级______姓名______
第I卷(选择题共30分)
(总共6题,每题5分,每题给出的选项中,只有一项是符合题目要求的,请将正确答案填涂在答题纸上)
w1.以下关于强化学习中策略梯度算法的说法,正确的是()
A.策略梯度算法只能用于离散动作空间
B.策略梯度算法通过直接优化策略函数来提高性能
C.策略梯度算法不依赖于价值函数
D.策略梯度算法在训练过程中不需要采样
w2.在强化学习中,Q-learning算法属于()
A.基于策略的方法
B.基于价值的方法
C.基于模型的方法
D.以上都不是
w3.当使用深度Q网络(DQN)时,以下哪种方法可以缓解训练过程中的不稳定问题()
A.增加网络层数
B.减少学习率
C.使用经验回放
D.提高奖励值
w4.强化学习中的环境交互过程可以描述为()
A.智能体根据策略选择动作,环境根据动作返回奖励和新状态
B.环境随机选择动作,智能体根据动作返回奖励和新状态
C.智能体根据环境状态选择动作,环境根据动作返回新状态
D.环境根据智能体状态选择动作,智能体根据动作返回奖励和新状态
w5.对于基于策略梯度的A2C算法,以下说法错误的是()
A.它是一种异步算法
B.它可以
原创力文档

文档评论(0)