- 0
- 0
- 约3.03万字
- 约 24页
- 2026-03-03 发布于浙江
- 举报
倒立摆实验报告
1实验目的
倒立摆是典型的多变量、高阶次,非线性、强耦合、自然不稳定系统,具有非线性、开环不稳定特性,传统控制方法依赖精确数学模型,适应性与鲁棒性受限。本实验采用PPO深度强化学习算法,构建智能控制框架,训练智能体自主学习平衡策略,解决复杂动态系统的实时控制问题,验证强化学习在经典控制任务中的有效性与工程应用潜力。
2实验原理
2.1CartPole环境
CartPole-v1是强化学习领域经典的控制任务环境,由一个小车和一个连接在小车上的摆杆组成。环境的状态空间包含四个连续值:
小车的位置(-
小车的速度(-∞,+∞)
摆杆的角度(-
摆杆顶端的角速度(-∞,+∞)
动作空间包含两个离散动作:
0:向左推动小车
1:向右推动小车
环境的奖励机制为:每保持平衡一个时间步,奖励值为1。当满足以下任一条件时,episode结束:
摆杆角度超过±
小车位置超出±
总步数超过500
2.2Pendulum环境
Pendulum-v1是强化学习领域经典的连续控制任务环境,由一个连接在关节上的摆杆组成。环境的状态空间包含三个连续值:
摆杆角度的余弦值[-
摆杆角度的正弦值[-
摆杆的角速度[-
动作空间包含一个连续动作:施加在关节上的力矩[-
环境的奖励机制为:奖励函数为-(θ2+0.1θ2+0.001action2),其中θ是摆杆偏离垂直方向的角度,θ是角速度。目标是使摆杆保持直立
Episode的结束条件为:固定步数达到200步
2.3PPO算法原理
PPO(ProximalPolicyOptimization)是OpenAI提出的一种高性能策略梯度算法,通过限制策略更新的幅度来平衡训练稳定性和样本效率。其核心思想是在优化策略时,通过裁剪目标函数防止策略更新过大,确保新策略与旧策略的差异在可接受范围内。
PPO的目标函数为:
L
其中
rt
At
ε:裁剪参数(本实验中设置为0.2)
PPO算法流程如下:
收集轨迹数据
计算优势函数
多轮迭代更新策略网络和价值网络
其核心结构为
2.4算法优势
实现简洁高效:摒弃了TRPO复杂的二阶优化与共轭梯度求解,仅需标准一阶梯度下降(如Adam),代码实现简洁,大幅降低了工程门槛。
训练稳定性强:通过裁剪机制(Clip)显式约束策略更新幅度(|rt(θ)-1|≤ε)
样本利用率高:支持对同一批轨迹数据进行多轮(Epoch)优化(通常3-10轮),显著提升样本效率,缓解on-policy算法数据浪费问题。
动作空间普适性:天然支持离散动作(CartPole)与连续动作(Pendulum,通过高斯策略输出均值/方差),无需针对环境修改核心算法框架。
计算资源友好:单次更新仅需前向/反向传播,无需Hessian矩阵计算或线搜索,训练速度比TRPO快2-5倍,适合资源受限场景部署。
PPO与TRPO对比
比较维度
TRPO
PPO
PPO优势体现
优化机制
严格KL散度约束(信任域)+共轭梯度法
裁剪目标函数(Clip)或KL惩罚项
避免复杂约束求解,梯度更新更直接
计算复杂度
高(需二阶优化、线搜索)
低(标准一阶梯度下降)
训练速度提升,GPU内存占用更低
实现难度
复杂(需实现共轭梯度、HVP计算)
极简(修改损失函数即可)
代码易维护,社区复现门槛低
超参数敏感性
高(信任域半径δ需精细调优)
低(ε经验范围宽)
减少调参成本,工程部署更可靠
样本利用效率
单次更新(通常)
多轮Epoch复用同批数据
on-policy场景下样本效率显著提升
连续控制适配性
需额外处理(如自然梯度)
原生支持(高斯策略+裁剪)
无缝适配Pendulum等连续控制任务
工业应用成熟度
较低(计算开销限制落地)
极高(OpenAI、DeepMind广泛采用)
已验证于机器人控制、游戏AI等真实场景
3算法实现
3.1策略网络(PolicyNet)
为了学习从状态到动作的映射策略,编写策略网络,负责根据当前状态输出动作概率分布:
classPolicyNet(torch.nn.Module):
def__init__(self,state_dim,hidden_dim,action_dim):
super(PolicyNet,self).__init__()
self.fc1=torch.nn.Linear(state_dim,hidden_dim)
self.fc2=torch.nn.Linear(hidden_dim,action_dim)
您可能关注的文档
- 《国际商务文化与礼仪》4公开课教案教学设计课件资料.pptx
- 沪粤版九年级物理下册 第十九章 电磁波与信息时代 第2节 广播电视与通信(课件)31页ppt.pptx
- 中考道德与法治(贵州专用)复习热点研究专题八贵州发展、再创辉煌(家乡篇)课件(共41张PPT).ppt
- 【知识清单】统编版(2024)道德与法治八年级下册知识背诵清单.docx
- 公民基本权利同步课件-2025-2026学年统编版道德与法治八年级下册.pptx
- 工业区位因素及其变化课件 2024-2025学年高一下学期地理人教版(2019)必修二.pptx
- 依法行使权利 课件-2025-2026学年统编版道德与法治八年级下册.pptx
- 权利与义务相统一教学课件-2025-2026学年统编版道德与法治八年级下册.pptx
- 宪法的内容和作用教学课件-2025-2026学年统编版道德与法治八年级下册.pptx
- 尊崇宪法 课件-2025-2026学年统编版道德与法治八年级下册.pptx
- 尊崇宪法课件 - 2025-2026学年统编版道德与法治八年级下册.pptx
- 公民基本义务 课件-2025-2026学年统编版道德与法治八年级下册.pptx
- 依法履行法定义务 课件2025-2026学年统编版道德与法治八年级下册.pptx
- 社会主义市场经济体制课件-2025-2026学年统编版道德与法治八年级下册.pptx
- 依宪治国 课件-2025-2026学年统编版道德与法治八年级下册.pptx
- 公有制为主体 多种所有制经济共同发展课件-2025-2026学年统编版道德与法治八年级下册.pptx
- 基于DSP锁相技术光伏并网逆变器控制方法研究.pdf
- 交流谐振电路实验研究:RLC串联与并联电路特性分析.pdf
- 东阳中学高三年级寒假作业检测英语学科试卷公开课教案教学设计资料.docx
- 【中考快车道】初中数学中考复习专题2:图表信息问题课件.pptx
最近下载
- 以工代赈40年:演进历程、政策逻辑与未来展望.pdf VIP
- (反光)灯槽(走廊天花)安装施工方案及技术措施.docx VIP
- 地下车库环氧地坪施工安全方案.docx VIP
- 基于人工智能的区域教育质量监测:数据质量控制与评估体系构建教学研究课题报告.docx
- 美国民事没收面临的违反正当程序的抗辩.doc VIP
- 美国民事没收无辜所有者抗辩:历史、现状与启示.doc VIP
- 全国职业大赛(中职)ZZ012食品药品检验赛项赛题库共计10套.docx
- 墙体加固设计与施工方案.docx VIP
- NYT1117-2010 水溶肥料钙、镁、硫、氯含量的测定.pdf VIP
- 1MD-HPV-20150304-01 HPV检测临床关注的问题.ppt VIP
原创力文档

文档评论(0)