- 1、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。。
- 2、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
- 3、文档侵权举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
-PAGE53-
强化学习概况综述
1马尔可夫决策过程(MDP)
任何强化学习问题都能抽象为马尔可夫决策过程(MDP)[94],如图1.1所示。马尔可夫决策过程可以用五元组参数来表示,其中表示状态空间,状态空间中的状态可为连续状态或离散状态;表示动作空间,与状态空间类似,它里面的动作也可为连续的或离散的;表示转移概率空间,是状态转移概率,表示从当前状态和当前动作到下一时刻的概率;表示奖励函数,与当前的状态和动作有关;是折扣因子,表示越是未来的状态和动作产生的奖励对当前的累计回报影响越小。MDP满足马尔可夫性质,即在现在状态已知的情况下,未来的状态和过去的状态条件独立。总的来说,马
您可能关注的文档
- 2025《“未勤勉尽责”认定方式的改良综述》3700字.docx
- 2025《36500DWT散货船邦戎曲线计算案例》1100字.docx
- 2025《AGV调度问题发展研究的文献综述》6600字.docx
- 2025《A物流公司SLP布局评价的实例分析》3500字.docx
- 2025《HMM预测法的理论概述》3400字.docx
- 2025《Lamb波的基本理论概述》1700字.docx
- 2025《LNG储罐分类及结构选型分析概述》1400字.docx
- 2025《L波段宽频带微带伞状偶极子天线性能分析案例》680字.docx
- 2025《L房地产公司资本结构存在的问题及建议》11000字.doc
- 2025《Markov预测法在中国石油股价预测中的应用案例分析》2200字.docx
原创力文档


文档评论(0)