大语言模型通识 第9章 强化学习方法.pptVIP

  • 14
  • 0
  • 约1.42万字
  • 约 81页
  • 2024-08-22 发布于江苏
  • 举报

大语言模型通识 第9章 强化学习方法.ppt

(3)可以通过ADP方法或TD方法学习动作效用函数。在使用TD方法时,在学习或动作选择阶段都不需要模型,简化了学习问题,但同时潜在地限制了它在复杂环境中的学习能力,因为智能体无法模拟可能的动作过程的结果。进行动作选择时,它必须在这些动作的价值估计的有用新信息之间进行权衡。探索问题的精确解是无法获得的,但一些简单的启发式可以给出一个合理的结果。同时探索性智能体也必须注意避免过早陷入终止态。9.3.5数据依赖性(4)在大的状态空间中,强化学习算法必须进行函数近似表示,以便在状态空间进行泛化。深度强化学习采用深度神经网络作为近似函数,已经在一些困难问题上取得了相当大的成功。奖励设计和分层强化学习有助于学习复杂的行为,特别是在奖励稀少且需要长动作序列才能获得奖励的情况下。(5)策略搜索方法直接对策略的表示进行操作,并试图根据观测到的表现对其进行改进,在随机领域中,性能的剧烈变化是一个严重的问题,而在模拟领域中可以通过预先固定随机程度来克服这个难点。9.3.5数据依赖性(6)难以获得正确的奖励函数时,通过观测专家行为进行学徒学习是一种有效的解决方案,模仿学习将问题转换为从专家的状态-动作对中进行学习的监督学习问题,逆强化学习从专家的行为中推断有关奖励函数的信息。9.3.5数据依赖性PART04强化学习分类在强化学习中,智能体是在没有“老师”的情况下,通过

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档