- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
深度学习在决策类游戏中的应用研究国内外文献综述
国外研究现状
深度强化学习主要被用来处理感知-决策问题,已经成为人工智能领域重要的分支。强化学习一般通过马尔科夫决策(Markovdecisionprocess,MDP)表示,主要元素包含(S,A,R,T,γ),其中,S表示所处的环境状态,A表示智能体采取的动作,R表示得到的奖励值,T表示状态转移概率,γ表示折扣因子REF_Re\r\h[23]。
深度学习具有十分强大的感知能力,甚至在某些应用场景中甚至超过了人类。它通过深度神经网络提取初始特征,并在图像识别,语音识别和机器翻译等许多领域都取得了成功。深度强化学习(deepreinforcementlearning,DRL)是通过利用深度学习强打的感知能力来处理复杂的高维度环境特征,并结合强化学习的思想来和环境进行互动从而完成整个决策过程。2015年DeepMind团队在Nature上发表了深度Q网络(deepQ-network,DQN)的文章REF_Re\r\h[12]REF_Re\r\h[19],认为DRL可以实现类人水平的控制。2017年,DeepMind团队推出了AlphaGo,并且击败了围棋世界冠军李世石。AlphaGo主要是采用价值评估网络来评估棋盘的位置,下棋位置的选择则是通过策略网络来实现。此后,通过DRL实现的AlphaGoZero只经过短时间的训练就击败了AlphaGo。可见,上述成果证明深度学习和强化学习在解决博弈决策问题上拥有巨大的潜力。
此外DeepMind,通过深度学习的算法再加上图像方面的处理方法,在Atari的桌面游戏中取得了惊人的成绩且大部分远超于人类游戏水平。2007年,在MichaelBowling和他的计算机扑克研究小组中,他们研究的反遗憾最小化(CounterfacutalRegretMinimization,CFR)REF_Re\r\h[4]算法,在德州扑克上取得了成功,并在2015年和2016年,于《Science》上发表了有限注德州扑克和无限注德州扑克问题的研究著作REF_Re\r\h[28]REF_Re\r\h[29],其中实现的DeepStack系统成功打败许多优秀的德州扑克决策系统。
日本东京大学研发的NaokiMizukami和YoshimasaTsuruoka开发的基于日本麻将规则的AI在“天风”对战台上取得了较好的成绩。他们使用传统的机器学习算法,通过特征提取,并使用线性分类器,最后成功地研发出了了麻将AI。此后还利用支持向量机算法实现了多人麻将决策系统。
国内研究现状
腾讯的AILab利用DRL研究了多人在线战术竞技(muti-playeronlinebattlearenaMOBA)游戏的1V1模式,该游戏具有十分复杂的环境以及很多的控制量REF_Re\r\h[23]。YeD等人提出了一种包含人工AI服务器、各种测试模块以及记忆池的DRL架构来处理该游戏环境REF_Re\r\h[24]。哈尔滨工业大学王轩教授从2003年开始研究机器博弈,将深度强化学习算法和传统的机器学习算法应用在不完全信息博弈问题上REF_Re\r\h[25]。浙江大学的李翔团队利用基于知识的方法应用在预测多人无限注德州扑克上,也取得了不俗的成绩REF_Re\r\h[26]。2013年国内学者开发了一种半监督学习算法,称为卷积深度网络(ConvolutionalDeepNetworks,CDN),用来解决深度学习中图像的分类问题REF_Re\r\h[27]。提取符合数据分布结构的特征一直是模式识别领域的热点问题,孙志军等在预训练阶段采用非监督正则化,并利用边际Fisher准则进一步约束提取特征,提出了基于深度学习的边际Fisher分析特征提取算法DMFA(DeepMarginalFisherAnalysis),并提升了识别率。REF_Re\r\h[20]REF_Re\r\h[21]
发展状况
在现阶段,DRL的研究已经取得了长足的进步,但是算法中仍然存在采样效率较低,无法设置合适的奖励值,探索更进一步的难题等问题。在应用方面,主要研究DRL在虚拟环境中的性能和实现,但很难在实际环境中进行,主要是由于DRL算法训练需要大量的采样数据。此外,DRL算法还存在泛化能力不足、鲁棒性不强
您可能关注的文档
- 2025《“互联网+”对H银行支付业务的影响回归分析》5200字.docx
- 2025《“英雄联盟”的营销策略现状分析》5400字.docx
- 2025《“英雄联盟”赛事产业链体系营销模式分析》5000字.docx
- 2025《1#宿舍楼施工组织设计的施工部署案例》6900字.docx
- 2025《60KV变电站的电气主接线设计及方案的确定案例》3300字.doc
- 2025《阿波罗卫浴财务风险分析与防范》论文任务书 .doc
- 2025《阿波罗卫浴公司并购的融资方式及绩效分析》开题报告3400字.docx
- 2025《阿波罗卫浴公司财务风险分析及对策研究》8800字.docx
- 2025《阿波罗卫浴公司财务风险管理研究》(开题报告+论文)12000字.doc
- 2025《阿波罗卫浴公司财务风险及对策研究》开题报告文献综述2800字.doc
- 2025《生产线平衡问题研究的理论基础》3000字.doc
- 2025《生产线效率优化设计研究的相关理论基础》2200字.docx
- 2025《生产线效率优化研究的国内外文献综述》2000字.docx
- 2025《生物等效性评价的试验设计方法》1300字.docx
- 2025《生物等效性研究》1400字.docx
- 2025《施工成本控制措施分析》4300字.docx
- 2025《施工临时用电初步方案设计案例》1700字.docx
- 2025《施工临时用电的负荷计算及设备选型案例》5400字.docx
- 2025《施工准备工作计划方案设计案例》1800字.docx
- 2025《施工组织管理机构各机构职责分析》2700字.docx
文档评论(0)