2025《强化学习过程概述》3300字.docx

  1. 1、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。。
  2. 2、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  3. 3、文档侵权举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

PAGE2

强化学习过程概述

强化学习[28]是在机器学习领域中广泛应用于解决序贯决策问题[29]的常见方法。其主要应用于智能控制[30]、游戏博弈[31]、仿真模拟[32]等众多带有交互行和决策性问题的领域。在这些领域中,强化学习比监督学校和非监督学习发挥更佳的作用。强化学习的核心思想是智能体在同外部环境交互中学习最优策略,使得最大化累计奖励。

强化学习的基本框架如下图2-3所示。假设当前的步数是t,步数t下智能体的状态为st,st状态下智能体选取的动作为at,执行动作at后环境反馈给智能体的即时奖励为rt。s

图2-3强化学习框架图

智能体(agent)根据自身在环境中(envi

您可能关注的文档

文档评论(0)

02127123006 + 关注
实名认证
内容提供者

关注原创力文档

1亿VIP精品文档

相关文档