- 12
- 0
- 约1.72万字
- 约 28页
- 2018-11-25 发布于广东
- 举报
摘 要
本文主要根据强化学习中的Q Learning算法,结合深度神经网络,实现了人工智能程序在只需接收图像信息的情况下,便能在FlappyBird、Breakout以及Catpole三个游戏中达到人类游玩的水平,同时本文也对该深度强化学习算法DQN算法的影响因素做了一定程度的探索与验证。第一、探究了贪婪策略中贪婪因子 的大小对收敛速度与最优解的影响。实验表明贪婪因子越大,越会导致Qmax值不稳定,但是贪婪因子越大,则越容易找到一个更优解,所以一个折中的做法是随迭代的增加逐渐降低贪婪因子的大小。第二、探究了Dueling网络结构对算法收敛的影响。通过实验发现Dueling网络结构虽然对算法的收敛速度没有明显的提升,但是Dueling网络结构却很好的抑制贪婪因子导致的不稳定性,使程序更容易找到更优解。第三、用于惩罚和奖励的反馈值reward,不同的设置方式将会导致agent的行为不一样,也就是每个动作的决策将会不同,反馈值设置的好将会更容易的找到最优值,若设置不好则可能导致死循环,找不到下一个最优值,但是并没有通用的设置方法,需要根据具体的情况具体设置,因为reward的设计实际是告诉了agent游戏的规则。
关键词: 强化学习 贪婪政策 DQN算法
Design and Implementation of Decision Support for AI in
您可能关注的文档
最近下载
- 静配中心考试题及答案.pdf VIP
- 德国MAXAIR数字式压力传感器开关表选型说明书.pdf VIP
- 工程建设项目管理信息平台的构架设计与实现.docx VIP
- 摆动活塞式发动机的结构设计.doc VIP
- 派克O型圈规格.xls VIP
- 富马酸喹硫平缓释片及其制备方法.pdf VIP
- 锂离子电池设计理论.pdf
- 肝性脑病护理疑难病例.pptx VIP
- 2024年广东专插本《管理学》回忆版真题及答案解析.pdf VIP
- (对照贯彻党的创新理论方面,对照加强党性锤炼方面,对照联系服务群众方面,对照发挥先锋模范作用方面,对照改作风树新风方面)基层党员2025年度组织生活会个人对照检查(五个对照).docx VIP
原创力文档

文档评论(0)