强化学习基础:智能体与环境交互机制.pdfVIP

  • 0
  • 0
  • 约2.53万字
  • 约 41页
  • 2026-04-10 发布于北京
  • 举报

强化学习基础:智能体与环境交互机制.pdf

ReinforcementLearning

首先我们需要明确,强化学习的任务?

这用大白话说:就是我们希望用强化学习的方式,使某个东东获得独立自主地完成某种

任务的能力。而这个东东,我们称为智能体。而智能体学习和工作的地方,我们就称为环境。

注意!所谓独立自主,就是智能体一旦启动,就不需要人了。

例如说扫地机器人打开开关,就不需要人类告诉机器人哪里有灰尘,哪里有,自己

就会去清理了;

又例如:自动驾驶汽车在导航设置好,就不再需要去操作,汽车能够自己安全

到达目的地。

但我们应该怎样才能让智能体学会技能呢?

JustDoit!

A(action)动作

动作其实不用解释,就是智能体做出的具体行为。例如扫地机器人会移动,吸尘,甚至

喷水。无人驾驶汽车能够移动,加速,刹车,转弯等。

动作空间就是该智能体能够做出的动作数量。

举个例子:智能体身处十字路口。那么我们的方向就有4个。也就是说,我们能做的

动作,就是4个。我们称我们能做的动作的集合,称为动作空间

R(reward)

当我们在某个状态下,完成动作。环境就会给我们反馈,告诉我们这个动作的效果如何。

这种效果的数值表达,就是

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档