倒立摆实验报告 (PPO算法).docxVIP

下载本文档

0
0
约3.03万字
约 24页
2026-03-03 发布于浙江
举报

倒立摆实验报告 (PPO算法).docx

倒立摆实验报告

1实验目的

倒立摆是典型的多变量、高阶次，非线性、强耦合、自然不稳定系统，具有非线性、开环不稳定特性，传统控制方法依赖精确数学模型，适应性与鲁棒性受限。本实验采用PPO深度强化学习算法，构建智能控制框架，训练智能体自主学习平衡策略，解决复杂动态系统的实时控制问题，验证强化学习在经典控制任务中的有效性与工程应用潜力。

2实验原理

2.1CartPole环境

CartPole-v1是强化学习领域经典的控制任务环境，由一个小车和一个连接在小车上的摆杆组成。环境的状态空间包含四个连续值：

小车的位置(-

小车的速度(-∞,+∞)

摆杆的角度(-

摆杆顶端的角速度(-∞,+∞)

动作空间包含两个离散动作：

0：向左推动小车

1：向右推动小车

环境的奖励机制为：每保持平衡一个时间步，奖励值为1。当满足以下任一条件时，episode结束：

摆杆角度超过±

小车位置超出±

总步数超过500

2.2Pendulum环境

Pendulum-v1是强化学习领域经典的连续控制任务环境，由一个连接在关节上的摆杆组成。环境的状态空间包含三个连续值：

摆杆角度的余弦值[-

摆杆角度的正弦值[-

摆杆的角速度[-

动作空间包含一个连续动作：施加在关节上的力矩[-

环境的奖励机制为：奖励函数为-(θ2+0.1θ2+0.001action2)，其中θ是摆杆偏离垂直方向的角度，θ是角速度。目标是使摆杆保持直立

Episode的结束条件为：固定步数达到200步

2.3PPO算法原理

PPO(ProximalPolicyOptimization)是OpenAI提出的一种高性能策略梯度算法，通过限制策略更新的幅度来平衡训练稳定性和样本效率。其核心思想是在优化策略时，通过裁剪目标函数防止策略更新过大，确保新策略与旧策略的差异在可接受范围内。

PPO的目标函数为：

其中

ε：裁剪参数(本实验中设置为0.2)

PPO算法流程如下：

收集轨迹数据

计算优势函数

多轮迭代更新策略网络和价值网络

其核心结构为

2.4算法优势

实现简洁高效：摒弃了TRPO复杂的二阶优化与共轭梯度求解，仅需标准一阶梯度下降(如Adam)，代码实现简洁，大幅降低了工程门槛。

训练稳定性强：通过裁剪机制(Clip)显式约束策略更新幅度(|rt(θ)-1|≤ε)

样本利用率高：支持对同一批轨迹数据进行多轮(Epoch)优化(通常3-10轮)，显著提升样本效率，缓解on-policy算法数据浪费问题。

动作空间普适性：天然支持离散动作(CartPole)与连续动作(Pendulum，通过高斯策略输出均值/方差)，无需针对环境修改核心算法框架。

计算资源友好：单次更新仅需前向/反向传播，无需Hessian矩阵计算或线搜索，训练速度比TRPO快2-5倍，适合资源受限场景部署。

PPO与TRPO对比

比较维度

TRPO

PPO

PPO优势体现

优化机制

严格KL散度约束(信任域)+共轭梯度法

裁剪目标函数(Clip)或KL惩罚项

避免复杂约束求解，梯度更新更直接

计算复杂度

高(需二阶优化、线搜索)

低(标准一阶梯度下降)

训练速度提升，GPU内存占用更低

实现难度

复杂(需实现共轭梯度、HVP计算)

极简(修改损失函数即可)

代码易维护，社区复现门槛低

超参数敏感性

高(信任域半径δ需精细调优)

低(ε经验范围宽)

减少调参成本，工程部署更可靠

样本利用效率

单次更新(通常)

多轮Epoch复用同批数据

on-policy场景下样本效率显著提升

连续控制适配性

需额外处理(如自然梯度)

原生支持(高斯策略+裁剪)

无缝适配Pendulum等连续控制任务

工业应用成熟度

较低(计算开销限制落地)

极高(OpenAI、DeepMind广泛采用)

已验证于机器人控制、游戏AI等真实场景

3算法实现

3.1策略网络(PolicyNet)

为了学习从状态到动作的映射策略，编写策略网络，负责根据当前状态输出动作概率分布：

classPolicyNet(torch.nn.Module):

def__init__(self,state_dim,hidden_dim,action_dim):

super(PolicyNet,self).__init__()

self.fc1=torch.nn.Linear(state_dim,hidden_dim)

self.fc2=torch.nn.Linear(hidden_dim,action_dim)

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

倒立摆实验报告 (PPO算法).docxVIP