2026年人工智能核心应用高频题库
一、单项选择题(每题2分,共20分)
1.在深度强化学习中,以下哪种方法最适合解决连续动作空间下的策略优化问题?
A.Q-learning
B.DQN
C.DDPG
D.SARSA
答案:C
解析:DDPG(DeepDeterministicPolicyGradient)通过Actor-Critic架构直接输出连续动作,适用于连续控制任务。
2.若某Transformer模型在训练阶段出现“注意力崩塌”(AttentionCollapse),最可能的原因是:
A.位置编码未使用
B.学习率过大导致softmax梯度消失
C.层归一化置于
原创力文档

文档评论(0)