倒立摆实验报告 (PPO算法).docxVIP

  • 0
  • 0
  • 约3.03万字
  • 约 24页
  • 2026-03-03 发布于浙江
  • 举报

倒立摆实验报告

1实验目的

倒立摆是典型的多变量、高阶次,非线性、强耦合、自然不稳定系统,具有非线性、开环不稳定特性,传统控制方法依赖精确数学模型,适应性与鲁棒性受限。本实验采用PPO深度强化学习算法,构建智能控制框架,训练智能体自主学习平衡策略,解决复杂动态系统的实时控制问题,验证强化学习在经典控制任务中的有效性与工程应用潜力。

2实验原理

2.1CartPole环境

CartPole-v1是强化学习领域经典的控制任务环境,由一个小车和一个连接在小车上的摆杆组成。环境的状态空间包含四个连续值:

小车的位置(-

小车的速度(-∞,+∞)

摆杆的角度(-

摆杆顶端的角速度(-∞,+∞)

动作空间包含两个离散动作:

0:向左推动小车

1:向右推动小车

环境的奖励机制为:每保持平衡一个时间步,奖励值为1。当满足以下任一条件时,episode结束:

摆杆角度超过±

小车位置超出±

总步数超过500

2.2Pendulum环境

Pendulum-v1是强化学习领域经典的连续控制任务环境,由一个连接在关节上的摆杆组成。环境的状态空间包含三个连续值:

摆杆角度的余弦值[-

摆杆角度的正弦值[-

摆杆的角速度[-

动作空间包含一个连续动作:施加在关节上的力矩[-

环境的奖励机制为:奖励函数为-(θ2+0.1θ2+0.001action2),其中θ是摆杆偏离垂直方向的角度,θ是角速度。目标是使摆杆保持直立

Episode的结束条件为:固定步数达到200步

2.3PPO算法原理

PPO(ProximalPolicyOptimization)是OpenAI提出的一种高性能策略梯度算法,通过限制策略更新的幅度来平衡训练稳定性和样本效率。其核心思想是在优化策略时,通过裁剪目标函数防止策略更新过大,确保新策略与旧策略的差异在可接受范围内。

PPO的目标函数为:

L

其中

rt

At

ε:裁剪参数(本实验中设置为0.2)

PPO算法流程如下:

收集轨迹数据

计算优势函数

多轮迭代更新策略网络和价值网络

其核心结构为

2.4算法优势

实现简洁高效:摒弃了TRPO复杂的二阶优化与共轭梯度求解,仅需标准一阶梯度下降(如Adam),代码实现简洁,大幅降低了工程门槛。

训练稳定性强:通过裁剪机制(Clip)显式约束策略更新幅度(|rt(θ)-1|≤ε)

样本利用率高:支持对同一批轨迹数据进行多轮(Epoch)优化(通常3-10轮),显著提升样本效率,缓解on-policy算法数据浪费问题。

动作空间普适性:天然支持离散动作(CartPole)与连续动作(Pendulum,通过高斯策略输出均值/方差),无需针对环境修改核心算法框架。

计算资源友好:单次更新仅需前向/反向传播,无需Hessian矩阵计算或线搜索,训练速度比TRPO快2-5倍,适合资源受限场景部署。

PPO与TRPO对比

比较维度

TRPO

PPO

PPO优势体现

优化机制

严格KL散度约束(信任域)+共轭梯度法

裁剪目标函数(Clip)或KL惩罚项

避免复杂约束求解,梯度更新更直接

计算复杂度

高(需二阶优化、线搜索)

低(标准一阶梯度下降)

训练速度提升,GPU内存占用更低

实现难度

复杂(需实现共轭梯度、HVP计算)

极简(修改损失函数即可)

代码易维护,社区复现门槛低

超参数敏感性

高(信任域半径δ需精细调优)

低(ε经验范围宽)

减少调参成本,工程部署更可靠

样本利用效率

单次更新(通常)

多轮Epoch复用同批数据

on-policy场景下样本效率显著提升

连续控制适配性

需额外处理(如自然梯度)

原生支持(高斯策略+裁剪)

无缝适配Pendulum等连续控制任务

工业应用成熟度

较低(计算开销限制落地)

极高(OpenAI、DeepMind广泛采用)

已验证于机器人控制、游戏AI等真实场景

3算法实现

3.1策略网络(PolicyNet)

为了学习从状态到动作的映射策略,编写策略网络,负责根据当前状态输出动作概率分布:

classPolicyNet(torch.nn.Module):

def__init__(self,state_dim,hidden_dim,action_dim):

super(PolicyNet,self).__init__()

self.fc1=torch.nn.Linear(state_dim,hidden_dim)

self.fc2=torch.nn.Linear(hidden_dim,action_dim)

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档