人工智能在即时策略游戏中决策辅助的应用.docVIP

  • 12
  • 0
  • 约1.72万字
  • 约 28页
  • 2018-11-25 发布于广东
  • 举报

人工智能在即时策略游戏中决策辅助的应用.doc

摘 要 本文主要根据强化学习中的Q Learning算法,结合深度神经网络,实现了人工智能程序在只需接收图像信息的情况下,便能在FlappyBird、Breakout以及Catpole三个游戏中达到人类游玩的水平,同时本文也对该深度强化学习算法DQN算法的影响因素做了一定程度的探索与验证。第一、探究了贪婪策略中贪婪因子 的大小对收敛速度与最优解的影响。实验表明贪婪因子越大,越会导致Qmax值不稳定,但是贪婪因子越大,则越容易找到一个更优解,所以一个折中的做法是随迭代的增加逐渐降低贪婪因子的大小。第二、探究了Dueling网络结构对算法收敛的影响。通过实验发现Dueling网络结构虽然对算法的收敛速度没有明显的提升,但是Dueling网络结构却很好的抑制贪婪因子导致的不稳定性,使程序更容易找到更优解。第三、用于惩罚和奖励的反馈值reward,不同的设置方式将会导致agent的行为不一样,也就是每个动作的决策将会不同,反馈值设置的好将会更容易的找到最优值,若设置不好则可能导致死循环,找不到下一个最优值,但是并没有通用的设置方法,需要根据具体的情况具体设置,因为reward的设计实际是告诉了agent游戏的规则。 关键词: 强化学习 贪婪政策 DQN算法 Design and Implementation of Decision Support for AI in

文档评论(0)

1亿VIP精品文档

相关文档