非平稳环境中的样本高效经验回放.pdfVIP

非平稳环境中的样本高效经验回放.pdf

非平稳环境中的样本高效经验回放

TianyangDuan,ZongyuanZhang,SongxiaoGuo,YuanyeZhao,ZhengLin,ZihanFang,

YiLiu,DianxinLuan,DongHuang,HemingCui,YongCui

DepartmentofComputerScience,TheUniversityofHongKong,HongKong,China

CollegeofInternationalEducation,HebeiUniversityofEconomicsandBusiness,China

DepartmentofElectricalandElectronicEngineering,TheUniversityofHongKong,HongKong,China

DepartmentofComputerScience,CityUniversityofHongKong,HongKong,China

InstituteforImaging,DataandCommunications,UniversityofEdinburgh,UK

SchoolofComputing,NationalUniversityofSingapore,Singapore

DepartmentofComputerScienceandTechnology,TsinghuaUniversity,China

本摘要—强化学习（RL）在非平稳环境中的挑战在于，变化间的差异，使代理能够识别和优先处理提供最有信息量

译的动力学和奖励迅速使过去的经历过时。传统的经验回放（ER）经验的转换。因此，具有较高TD-error的转换被更频

中方法，特别是那些使用TD误差优先级的方法，在区分由于智繁地采样，从而加速收敛并提高性能。

能体策略变化引起的变化与环境引起的变化方面存在困难，导

1致在动态条件下学习效率低下。为了解决这一挑战，我们提出然而，在非平稳环境中，历史经验很快就会过时，

2了环境动力学差异（DoE），这是一个能够隔离环境变化对价值这可能会破坏有效样本选择并误导学习[8]。大多数现

3函数影响的指标。在此基础上，我们引入了环境优先级经验回有方法忽视了过时转移的负面影响，尤其是在TD误差

5放（DEER），这是一种自适应的ER框架，根据策略更新和环受到环境变化和策略更新双重影响的情况下。当价值函

1境变化来优先处理转换。DEER使用一个二元分类器来检测环

.数适应新环境后，之前收集的过渡通常表现出更高的

9境的变化，并在每次转变前和之后应用不同的优先级策略，从而

0TD误差，并优先考虑这些过渡会放大不相关经验，降

5实现更高效的样本学习。在四个非平稳基准测试上的实验表明，

2与最先进的ER方法相比，DEER使离线算法的性能提高了低训练效率和性能。类似的问题也出现在基于奖励[9]

:11.54%。或基于频率采样[6]的情况中。最终，仅专注于策略改

xIndexTerms—强化学习，非平稳环境，经验回放，离策进的优先策略无法应对动态环境并且不能准确评估存

r略算法储过渡的相关性。

I.介绍为了解决非平稳环境的挑战，我们提出了环境差

强化学习（RL）[1],[2]是一种强大的动态序列决策异（DoE），这是一个量化环境变化对状态转换影响的

更多 >