2026 年机器学习(强化学习)试题及答案.docVIP

  • 1
  • 0
  • 约1.87千字
  • 约 5页
  • 2026-05-01 发布于湖南
  • 举报

2026 年机器学习(强化学习)试题及答案.doc

2026年机器学习(强化学习)试题及答案

(考试时间:90分钟满分100分)

班级______姓名______

第I卷(选择题共30分)

(总共6题,每题5分,每题给出的选项中,只有一项是符合题目要求的,请将正确答案填涂在答题纸上)

w1.以下关于强化学习中策略梯度算法的说法,正确的是()

A.策略梯度算法只能用于离散动作空间

B.策略梯度算法通过直接优化策略函数来提高性能

C.策略梯度算法不依赖于价值函数

D.策略梯度算法在训练过程中不需要采样

w2.在强化学习中,Q-learning算法属于()

A.基于策略的方法

B.基于价值的方法

C.基于模型的方法

D.以上都不是

w3.当使用深度Q网络(DQN)时,以下哪种方法可以缓解训练过程中的不稳定问题()

A.增加网络层数

B.减少学习率

C.使用经验回放

D.提高奖励值

w4.强化学习中的环境交互过程可以描述为()

A.智能体根据策略选择动作,环境根据动作返回奖励和新状态

B.环境随机选择动作,智能体根据动作返回奖励和新状态

C.智能体根据环境状态选择动作,环境根据动作返回新状态

D.环境根据智能体状态选择动作,智能体根据动作返回奖励和新状态

w5.对于基于策略梯度的A2C算法,以下说法错误的是()

A.它是一种异步算法

B.它可以

文档评论(0)

1亿VIP精品文档

相关文档