离线强化学习研究综述.pdfVIP

离线强化学习研究综述.pdf

第48卷第1期计算机学报Vol.48No.1

2025年1月CHINESEJOURNALOFCOMPUTERSJan.2025

离线强化学习研究综述

乌兰•刘•全黄志刚张立华

（苏州大学计算机科学与技术学院江苏苏州215006）

摘要离线强化学习也称为批量强化学习，是深度强化学习领域的一项重要研究内容。它利用行为策略生成静

态数据集，无需在线和环境交互，成功地将大规模数据集转变成强大的决策引擎。近年来，离线强化学习方法得到

了广泛关注和深人研究，并在实际应用中取得了瞩目的成绩。目前，该方法已经用于推荐系统、导航驾驶、自然语言

处理、机器人控制以及医疗与能源等应用领域，并被看作是现实世界应用强化学习最具潜力的技术途径之一。该文

首先介绍了离线强化学习的背景与理论基础。随后从求解思路出发，将离线强化学习方法分为无模型、基于模型和

基于Transformer模型3大类，并对各类方法的研究现状与发展趋势进行分析。同时，对比了目前3个最流行的实

验环境D4RL、RLUnplugged和NeoRL。进而介绍了离线强化学习技术在现实世界诸多领域的应用。最后,对离线

强化学习进行总结与展望，以此推动更多该领域的研究工作。

关键词人工智能；强化学习；深度强化学习；离线强化学习；批量强化学习

中图法分类号TP18DOI号10.11897/SP.J.1016.2025.00156

AReviewofResearchonOfflineReinforcementLearning

WULanLIUQuanHUANGZhi-GangZHANGLi-Hua

(SchoolofComputerScienceandTechnology,SoochowUniversity,Suzhou,Jiangsu215006)

AbstractBatchReinforcementLearningisanimportantbranchinthefieldofreinforcement

learning.Astheneedtorelyonhistoricaldataforreinforcementlearningbecamemoreandmore

pressing,offlinereinforcementlearningwasnotsystematicallyproposeduntil2020.Therefore,

offlinereinforcementlearning,alsoknownasbatchreinforcementlearning,isanimportant

researchtopicinthefieldofdeepreinforcementlearning.Byutilizingbehaviorpoliciestogenerate

staticdatasetsandwithoutonlineinteractionwiththeenvironment,thisapproachsuccessfully

convertslargedatasetsintopowerfuldecisionengines.Theriseofofflinereinforcementlearning

hasnotonlyacceleratedthedevelopmentofdecisionenginesbutalsoprovidedresearcherswitha