- 0
- 0
- 约2.51万字
- 约 7页
- 2026-02-27 发布于北京
- 举报
1
强化学习代理
用于二维射击游戏
ThomasAckermann,MoritzSpang,HamzaA.A.Gardi
{FacultyforMathematics,DepartmentofElectricalEngineeringandInformationTechnology,IIITatETIT},
KarlsruheInstituteofTechnology,76131Karlsruhe,Germany
摘要—强化学习代理在复杂游戏环境中常常遭受稀疏奖励、学习常常受到样本效率低、缺乏可解释性和训练过程中
训练不稳定和样本效率低下的问题。本文提出了一种结合离线模失败成本高昂等挑战的阻碍。因此,视频游戏已成为推
仿学习与在线强化学习的混合训练方法,适用于二维射击游戏代进强化学习研究的重要工具。游戏提供了一个丰富且交
本理。我们实现了一个多头神经网络,其中行为克隆和Q学习有
互式的环境,它们是安全的、可扩展的,并且非常适合
译独立的输出,并通过带有注意力机制的共享特征提取层统一。
中初步使用纯深度Q网络的实验显示了显著的不稳定性,代用于衡量算法进展[5],[6]。值得注意的突破展示了强化
理经常倒退回不良策略,尽管偶尔表现出色。为了解决这个问学习在复杂游戏环境中应用的巨大潜力。DeepMind的
1题,我们开发了一种混合方法论,该方法首先对基于规则的代理AlphaGo在古老的棋盘游戏中实现了超人表现,通过
v
2演示数据进行行为克隆,然后过渡到强化学习。结合深度神经网络与蒙特卡洛树搜索(MCTS)和强化
4我们的混合方法在对抗基于规则的对手时,胜率持续高于学习击败了世界冠军[7]。在此基础上,AlphaZero进一
0
5%,显著优于纯强化学习方法,后者表现出高方差和频繁性能步证明了仅使用强化学习就能掌握多种棋类游戏而无
1退化。多头架构能够在保持训练稳定性的同时有效进行知识转
.需人类数据[8]。
9移。结果表明,在复杂多智能体环境中,结合基于演示的初始
0
5化与强化学习优化为开发游戏AI代理提供了一种稳健的解决方这些成就突显了游戏作为控制实验平台的价值,在
2案,证明了单纯探索是不够的。这种平台上,强化学习代理可以学会在高维度、部分可
:
vIndexTerms—强化学习,游戏代理,视频游戏,射击游戏。观察和随机的环境中操作。从这些领域获得的见解现在
i
x
r正被转移到机器人技术、自动驾驶和其他高风险领域
a
I.介绍中,在这些领域,泛化能力、鲁棒性和实时适应性是至
关重要的。
强化学习(RL)作为人工智能中的基础范式,通过
与动态环境的交互训练智能体进行顺序决策。通过优化
在这篇论文中,我们探讨了通过强化学习为一款
行为以奖励反馈而非显式监督的方式,RL使开发能够
用Python开发的2D射击游戏实现代理的各种策略。
自主学习复杂任务的
原创力文档

文档评论(0)