- 18
- 0
- 约6.28千字
- 约 8页
- 2026-03-04 发布于河南
- 举报
强化学习在游戏中的应用考核
考试时间:______分钟总分:______分姓名:______
一、选择题(每题2分,共20分。请将正确选项的字母填在题后的括号内)
1.在强化学习中,智能体通过与环境交互获得反馈,这种反馈通常表现为
()。
A.状态转移概率
B.策略梯度
C.奖励信号
D.环境模型
2.下列哪个算法属于基于值函数的强化学习算法?()
A.REINFORCE
B.A2C
C.Q-Learning
D.DDPG
3.在Q-Learning算法中,目标函数(Q_target)的计算通常涉及当前状态-
动作对的Q值和()。
A.下一个状态-动作对的Q值
B.当前状态的价值函数
C.下一个状态的价值函数
D.奖励函数
4.经验回放(ExperienceReplay)技术主要用于解决强化学习中的()问
题。
原创力文档

文档评论(0)