基于Transformer的强化学习序列决策方法.pdfVIP

基于Transformer的强化学习序列决策方法.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

摘要

强化学习作为机器学习中的一个重要分支,它通过研究智能体与环境之间交

互的过程,尝试学习出智能体的最优行动策略,从而使得智能体可以完成特定的目

标或是获得一定的奖励值。目前主流的强化学习研究都是建立在马尔科夫决策过

程这一基础上,它通过将环境中的关键信息进行建模,然后基于环境信息采用特定

方法寻找最优动作。在该理论基础上诞生了诸多强化学习算法,但大多数强化学习

算法都是基于模拟环境或简单应用场景,在现实中一些较为复杂的环境中由于交

互成本过高等因素而难以被使用。针对这一问题研究人员也尝试使用离线强化学

习的方法去训练智能体,即只使用历史交互信息训练智能体的策略,但由于存在高

偏差和数据分布差异等问题,目前设计出的离线强化学习算法都未能达到可观的

效果,其性能难以满足现实环境的高需求。

随着自然语言处理领域相关技术的快速突破,大模型被广泛应用,传统的强化

学习算法中也开始尝试引入语言模型来优化训练,但其本质还是在马尔科夫决策

过程的基础上进行强化学习的研究,仅仅是将语言模型作为一个单独的模块嵌入

强化学习的框架中,并没有充分利用到该类模型针对于长序列问题的优势。在2021

年提出的DecisionTransformer,首次尝试了将强化学习问题完全转化为自然语言

处理领域的相关问题,它将强化学习转换成了一个针对于序列建模的问题,使用文

本生成的方法来生成最优动作,寻找最优轨迹。但该模型仅仅是将强化学习训练轨

迹数据直接放入一个简单的语言模型中来进行训练,并没有针对状态、奖励以及动

作等信息做区分,从而对整个轨迹都会进行预测,其中包括额外的状态、奖励信息,

这并不适配强化学习的训练目标——寻找最优动作,并且会在输出端产生多余的

信息,从而影响模型最终的训练效果,本研究将上述问题称为序列模型的冗余性问

题。

本研究基于冗余输出和模型结构不合理的问题,提出了一种更为符合强化学

习训练目标的网络模型结构Action-TranslatorTransformer(ATT),该模型采用语言

模型中的Transformer作为基本框架,将强化学习的相关概念嵌入其中,并引入了

自然语言处理领域的训练方式,将其与强化学习任务进行结合,以此构建了一套完

整的离线强化学习训练和推理的流程。利用该方法来解决离线强化学习问题时,本

文提出的模型将仅仅输出智能体所关注的最优动作,更具有可解释性。在本研究的

实验部分,本文也将在诸多模拟游戏场景下测试提出的模型的性能,并与目前离线

强化学习领域的主流方法作比较,基于文中所展示的实验结果分析得出ATT模型

可以取得更好的表现,能更好地发挥语言模型在强化学习中的优势。本研究希望这

一模型的提出,可以为语言模型与强化学习的结合提出新的思路和解决方法,为离

线强化学习的研究带来新的启发。

关键词:机器学习,强化学习,Transformer,动作预测,动作翻译器

ABSTRACT

ReinforcementLearning,asanessentialbranchofmachinelearning,aimstolearn

theoptimalactionstrategyofanintelligentagentbystudyingtheinteractionprocess

betweentheagentanditsenvironment.Thisenablestheagenttoachievespecificgoals

orobtaincertainrewards.Currentmainstreamresearchinreinforcementlearningisbased

onthefoundationofMarkovDecisionProcesses.Itmodelscrucialinformationinthe

environmentandusesspecificmethodstofindoptimalactionsbasedonthisinformation.

Numerousreinforcementlearningalgorithmshaveemergedonthistheoreticalbasis.

How

文档评论(0)

精品资料 + 关注
实名认证
文档贡献者

温馨提示:本站文档除原创文档外,其余文档均来自于网络转载或网友提供,仅供大家参考学习,版权仍归原作者所有,若有侵权,敬请原作者及时私信给我删除侵权文

1亿VIP精品文档

相关文档