2026 年机器学习（强化学习）试题及答案.docVIP

2026 年机器学习（强化学习）试题及答案.doc

2026年机器学习（强化学习）试题及答案

（考试时间：90分钟满分100分）

班级______姓名______

第I卷（选择题共30分）

（总共6题，每题5分，每题给出的选项中，只有一项是符合题目要求的，请将正确答案填涂在答题纸上）

w1.以下关于强化学习中策略梯度算法的说法，正确的是（）

A.策略梯度算法只能用于离散动作空间

B.策略梯度算法通过直接优化策略函数来提高性能

C.策略梯度算法不依赖于价值函数

D.策略梯度算法在训练过程中不需要采样

w2.在强化学习中，Q-learning算法属于（）

A.基于策略的方法

B.基于价值的方法

C.基于模型的方法

D.以上都不是

w3.当使用深度Q网络（DQN）时，以下哪种方法可以缓解训练过程中的不稳定问题（）

A.增加网络层数

B.减少学习率

C.使用经验回放

D.提高奖励值

w4.强化学习中的环境交互过程可以描述为（）

A.智能体根据策略选择动作，环境根据动作返回奖励和新状态

B.环境随机选择动作，智能体根据动作返回奖励和新状态

C.智能体根据环境状态选择动作，环境根据动作返回新状态

D.环境根据智能体状态选择动作，智能体根据动作返回奖励和新状态

w5.对于基于策略梯度的A2C算法，以下说法错误的是（）

A.它是一种异步算法

B.它可以

更多 >