离线强化学习研究综述.pdfVIP

  • 4
  • 0
  • 约12.06万字
  • 约 32页
  • 2025-10-23 发布于福建
  • 举报

第48卷第1期计算机学报Vol.48No.1

2025年1月CHINESEJOURNALOFCOMPUTERSJan.2025

离线强化学习研究综述

乌兰•刘•全黄志刚张立华

(苏州大学计算机科学与技术学院江苏苏州215006)

摘要离线强化学习也称为批量强化学习,是深度强化学习领域的一项重要研究内容。它利用行为策略生成静

态数据集,无需在线和环境交互,成功地将大规模数据集转变成强大的决策引擎。近年来,离线强化学习方法得到

了广泛关注和深人研究,并在实际应用中取得了瞩目的成绩。目前,该方法已经用于推荐系统、导航驾驶、自然语言

处理、机器人控制以及医疗与能源等应用领域,并被看作是现实世界应用强化学习最具潜力的技术途径之一。该文

首先介绍了离线强化学习的背景与理论基础。随后从求解思路出发,将离线强化学习方法分为无模型、基于模型和

基于Transformer模型3大类,并对各类方法的研究现状与发展趋势进行分析。同时,对比了目前3个最流行的实

验环境D4RL、RLUnplugged和NeoRL。进而介绍了离线强化学习技术在现实世界诸多领域的应用。最后,对离线

强化学习进行总结与展望,以此推动更多该领域的研究工作。

关键词人工智能;强化学习;深度强化学习;离线强化学习;批量强化学习

中图法分类号TP18DOI号10.11897/SP.J.1016.2025.00156

AReviewofResearchonOfflineReinforcementLearning

WULanLIUQuanHUANGZhi-GangZHANGLi-Hua

(SchoolofComputerScienceandTechnology,SoochowUniversity,Suzhou,Jiangsu215006)

AbstractBatchReinforcementLearningisanimportantbranchinthefieldofreinforcement

learning.Astheneedtorelyonhistoricaldataforreinforcementlearningbecamemoreandmore

pressing,offlinereinforcementlearningwasnotsystematicallyproposeduntil2020.Therefore,

offlinereinforcementlearning,alsoknownasbatchreinforcementlearning,isanimportant

researchtopicinthefieldofdeepreinforcementlearning.Byutilizingbehaviorpoliciestogenerate

staticdatasetsandwithoutonlineinteractionwiththeenvironment,thisapproachsuccessfully

convertslargedatasetsintopowerfuldecisionengines.Theriseofofflinereinforcementlearning

hasnotonlyacceleratedthedevelopmentofdecisionenginesbutalsoprovidedresearcherswitha

stableandefficienttrainingframework.Inrecentyears,offlinereinforceme

文档评论(0)

1亿VIP精品文档

相关文档