- 4
- 0
- 约12.06万字
- 约 32页
- 2025-10-23 发布于福建
- 举报
第48卷第1期计算机学报Vol.48No.1
2025年1月CHINESEJOURNALOFCOMPUTERSJan.2025
离线强化学习研究综述
乌兰•刘•全黄志刚张立华
(苏州大学计算机科学与技术学院江苏苏州215006)
摘要离线强化学习也称为批量强化学习,是深度强化学习领域的一项重要研究内容。它利用行为策略生成静
态数据集,无需在线和环境交互,成功地将大规模数据集转变成强大的决策引擎。近年来,离线强化学习方法得到
了广泛关注和深人研究,并在实际应用中取得了瞩目的成绩。目前,该方法已经用于推荐系统、导航驾驶、自然语言
处理、机器人控制以及医疗与能源等应用领域,并被看作是现实世界应用强化学习最具潜力的技术途径之一。该文
首先介绍了离线强化学习的背景与理论基础。随后从求解思路出发,将离线强化学习方法分为无模型、基于模型和
基于Transformer模型3大类,并对各类方法的研究现状与发展趋势进行分析。同时,对比了目前3个最流行的实
验环境D4RL、RLUnplugged和NeoRL。进而介绍了离线强化学习技术在现实世界诸多领域的应用。最后,对离线
强化学习进行总结与展望,以此推动更多该领域的研究工作。
关键词人工智能;强化学习;深度强化学习;离线强化学习;批量强化学习
中图法分类号TP18DOI号10.11897/SP.J.1016.2025.00156
AReviewofResearchonOfflineReinforcementLearning
WULanLIUQuanHUANGZhi-GangZHANGLi-Hua
(SchoolofComputerScienceandTechnology,SoochowUniversity,Suzhou,Jiangsu215006)
AbstractBatchReinforcementLearningisanimportantbranchinthefieldofreinforcement
learning.Astheneedtorelyonhistoricaldataforreinforcementlearningbecamemoreandmore
pressing,offlinereinforcementlearningwasnotsystematicallyproposeduntil2020.Therefore,
offlinereinforcementlearning,alsoknownasbatchreinforcementlearning,isanimportant
researchtopicinthefieldofdeepreinforcementlearning.Byutilizingbehaviorpoliciestogenerate
staticdatasetsandwithoutonlineinteractionwiththeenvironment,thisapproachsuccessfully
convertslargedatasetsintopowerfuldecisionengines.Theriseofofflinereinforcementlearning
hasnotonlyacceleratedthedevelopmentofdecisionenginesbutalsoprovidedresearcherswitha
stableandefficienttrainingframework.Inrecentyears,offlinereinforceme
您可能关注的文档
- 基于大语言模型的电力系统预测技术研究综述.pdf
- 基于数据驱动建模的虚实结合储油控制实验平台.pdf
- 基于时间序列的服装时尚趋势预测研究.pdf
- 基于深度学习的人脸属性编辑研究概述.pdf
- 基于深度学习的图像重建技术在鼻咽癌5.0T MRI中的应用.pdf
- 基于物联平台的公共场所监管平台设计与实现.pdf
- 多关系和时间增强的知识追踪模型.pdf
- 基于设计伦理的AI辅助包装设计策略研究.pdf
- 多模态场景下AIGC的应用综述.pdf
- 大模型对情报学发展的影响思考.pdf
- 03-2 2025年度民主生活会征求意见座谈会主持词.docx
- 03-1 2025年度民主生活会主持讲话提纲.docx
- 02-1 会前学习-《县以上党和国家机关党员领导干部民主生活会若干规定》相关要求.docx
- 在2025年度民主生活会上的总结讲话三篇.docx
- 在2025年度民主生活会上的总结讲话三篇 (3).docx
- 市委宣传部2025年度民主生活会查摆问题整改方案两篇.docx
- 在市行政审批和政务信息管理局机关2026年全体干部政绩观教育大会上的党课讲稿.docx
- X市应急管理局2026年度安全生产监督检查计划.docx
- 2025年度民主生活会领导班子对照检查材料(五个带头)三篇.docx
- 2025年度民主生活会“五个带头”个人对照检查材料三篇.docx
最近下载
- 静脉输液输错护理不良事件.pptx VIP
- 2025年内蒙古商贸职业学院高职单招职业技能考试题库及答案解析.docx VIP
- 一种分离并检测玛巴洛沙韦中有关物质的高效液相色谱法.pdf VIP
- 九版内科学-肺结核【170页】.pptx VIP
- 高三化学二轮复习习题第三部分高考模拟考场模拟考场3.doc VIP
- 智能制造系统感知分析与决策 第2版 课件全套 第1--9章 绪论、 制造系统感知技术---制造系统适人性评估与验证.pdf VIP
- 易飞moc工单委外子系统培训.ppt
- 中国居民赴越南投资税收指南(2025).pptx
- 乔木栽植施工方案.docx
- FRAND原则司法实践-洞察及研究.docx
原创力文档

文档评论(0)