2025《强化学习概况综述》3500字.doc

  1. 1、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。。
  2. 2、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  3. 3、文档侵权举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

-PAGE53-

强化学习概况综述

1马尔可夫决策过程(MDP)

任何强化学习问题都能抽象为马尔可夫决策过程(MDP)[94],如图1.1所示。马尔可夫决策过程可以用五元组参数来表示,其中表示状态空间,状态空间中的状态可为连续状态或离散状态;表示动作空间,与状态空间类似,它里面的动作也可为连续的或离散的;表示转移概率空间,是状态转移概率,表示从当前状态和当前动作到下一时刻的概率;表示奖励函数,与当前的状态和动作有关;是折扣因子,表示越是未来的状态和动作产生的奖励对当前的累计回报影响越小。MDP满足马尔可夫性质,即在现在状态已知的情况下,未来的状态和过去的状态条件独立。总的来说,马

文档评论(0)

02127123006 + 关注
实名认证
内容提供者

关注原创力文档

1亿VIP精品文档

相关文档