基于Transformer的强化学习序列决策方法.pdfVIP

下载本文档

0
0
约11.12万字
约 90页
2025-10-13 发布于江西
举报
版权申诉

基于Transformer的强化学习序列决策方法.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

摘要

强化学习作为机器学习中的一个重要分支，它通过研究智能体与环境之间交

互的过程，尝试学习出智能体的最优行动策略，从而使得智能体可以完成特定的目

标或是获得一定的奖励值。目前主流的强化学习研究都是建立在马尔科夫决策过

程这一基础上，它通过将环境中的关键信息进行建模，然后基于环境信息采用特定

方法寻找最优动作。在该理论基础上诞生了诸多强化学习算法，但大多数强化学习

算法都是基于模拟环境或简单应用场景，在现实中一些较为复杂的环境中由于交

互成本过高等因素而难以被使用。针对这一问题研究人员也尝试使用离线强化学

习的方法去训练智能体，即只使用历史交互信息训练智能体的策略，但由于存在高

偏差和数据分布差异等问题，目前设计出的离线强化学习算法都未能达到可观的

效果，其性能难以满足现实环境的高需求。

随着自然语言处理领域相关技术的快速突破，大模型被广泛应用，传统的强化

学习算法中也开始尝试引入语言模型来优化训练，但其本质还是在马尔科夫决策

过程的基础上进行强化学习的研究，仅仅是将语言模型作为一个单独的模块嵌入

强化学习的框架中，并没有充分利用到该类模型针对于长序列问题的优势。在2021

年提出的DecisionTransformer，首次尝试了将强化学习问题完全转化为自然语言

处理领域的相关问题，它将强化学习转换成了一个针对于序列建模的问题，使用文

本生成的方法来生成最优动作，寻找最优轨迹。但该模型仅仅是将强化学习训练轨

迹数据直接放入一个简单的语言模型中来进行训练，并没有针对状态、奖励以及动

作等信息做区分，从而对整个轨迹都会进行预测，其中包括额外的状态、奖励信息，

这并不适配强化学习的训练目标——寻找最优动作，并且会在输出端产生多余的

信息，从而影响模型最终的训练效果，本研究将上述问题称为序列模型的冗余性问

题。

本研究基于冗余输出和模型结构不合理的问题，提出了一种更为符合强化学

习训练目标的网络模型结构Action-TranslatorTransformer（ATT），该模型采用语言

模型中的Transformer作为基本框架，将强化学习的相关概念嵌入其中，并引入了

自然语言处理领域的训练方式，将其与强化学习任务进行结合，以此构建了一套完

整的离线强化学习训练和推理的流程。利用该方法来解决离线强化学习问题时，本

文提出的模型将仅仅输出智能体所关注的最优动作，更具有可解释性。在本研究的

实验部分，本文也将在诸多模拟游戏场景下测试提出的模型的性能，并与目前离线

强化学习领域的主流方法作比较，基于文中所展示的实验结果分析得出ATT模型

可以取得更好的表现，能更好地发挥语言模型在强化学习中的优势。本研究希望这

一模型的提出，可以为语言模型与强化学习的结合提出新的思路和解决方法，为离

线强化学习的研究带来新的启发。

关键词：机器学习，强化学习，Transformer，动作预测，动作翻译器

ABSTRACT

ReinforcementLearning,asanessentialbranchofmachinelearning,aimstolearn

theoptimalactionstrategyofanintelligentagentbystudyingtheinteractionprocess

betweentheagentanditsenvironment.Thisenablestheagenttoachievespecificgoals

orobtaincertainrewards.Currentmainstreamresearchinreinforcementlearningisbased

onthefoundationofMarkovDecisionProcesses.Itmodelscrucialinformationinthe

environmentandusesspecificmethodstofindoptimalactionsbasedonthisinformation.

Numerousreinforcementlearningalgorithmshaveemergedonthistheoreticalbasis.

How

您可能关注的文档

文档评论（0）

精品资料 + 关注: 实名认证

文档贡献者

温馨提示：本站文档除原创文档外，其余文档均来自于网络转载或网友提供，仅供大家参考学习，版权仍归原作者所有，若有侵权，敬请原作者及时私信给我删除侵权文

咨询Ta 进入空间

1亿VIP精品文档

更多 >

基于Transformer的强化学习序列决策方法.pdfVIP