采用分类经验回放的深度确定性策略梯度方法.docx

采用分类经验回放的深度确定性策略梯度方法.docx

  1. 1、本文档共10页,其中可免费阅读5页,需付费100金币后方可阅读剩余内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  4. 4、文档侵权举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
强化学习(Reinforcement learning, RL)中, Agent采用“试错”的方式与环境进行交互, 通过从环境中获得最大化累积奖赏寻求最优策略[1]. RL算法根据Agent当前所处状态求解可执行动作, 因此RL适用于序贯决策问题的求解[2]. 利用具有感知能力的深度学习作为RL状态特征提取的工具, 二者结合形成的深度强化学习(Deep reinforcement learning, DRL)算法是目前人工智能领域研究的热点之一[3-4]. 在线DRL算法采用增量式方法更新网络参数, 通过Agent与环境交互产生经验样本e=(st,at,e=(st,at,rt,st+1)rt,

文档评论(0)

罗伯特之技术屋 + 关注
实名认证
内容提供者

畅游技术蓝海,八大领域技术领先解读!

1亿VIP精品文档

相关文档