基于改进强化学习PID参数整定原理及应用.docVIP

下载本文档

124
0
约7.11千字
约 14页
2018-06-23 发布于福建
举报
版权申诉

基于改进强化学习PID参数整定原理及应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于改进强化学习PID参数整定原理及应用

基于改进强化学习PID参数整定原理及应用　　摘要：控制系统的响应特性取决于控制律参数，经典的 PID 方法难以实现参数的自整定。强化学习能够通过系统自身和环境的交互实现参数的自动调整，但是在控制律参数需要频繁调整的应用场合，常规的强化学习方法无法满足实时性要求，而且容易陷入局部收敛。对传统的强化学习方法加以改进后，加快了在线学习速度，提高了强化学习算法的寻优能力。仿真结果表明，该方法可以在一定范围内快速求得全局最优解，提高控制系统的自适应性，为控制系统参数的自整定提供了依据。　　关键字： PID；参数整定；强化学习；控制系统　　中图分类号： TN911?34 文献标识码： A 文章编号： 1004?373X（2014）04?0001?04 　　Principle and application of PID parameter tuning based on improved reinforcement learning 　　GAO Rui?juan， WU Mei 　　（College of Automation， Northwestern Polytechnical University， Xi’an 710129， China）　　Abstract： The response characteristics of control system depend on the control law parameter.The classic PID method is difficult to achieve the parameter self?tuning.Through the interaction of system itself and the environment， parameters can be adjusted automatically by reinforcement learning.However， in the application occasions where the control law parameters requires to be adjusted frequently， the conventional reinforcement learning methods cannot meet the real?time requirements， and is easy to fall into local convergence.Based on the traditional reinforcement learning methods， an improvement method which can accelerate the learning speed and improve the optimizing ability of reinforcement learning algorithm is proposed.The simulation results show that this method can get global optimal solution quickly and improve the adaptivity of the control system in a certain range.It provided a basis for the improvement of control system’s parameter self?tuning. 　　Keywords： PID； parameter tuning； reinforcement learning； control system 　　0 引言　　在现代技术高速发展的今天，反馈的概念已被广泛应用于自动控制理论中。测量，比较，执行为反馈概念的三个基本要素。通常来说，输入量先与测量量做比较，得到了系统误差后，相应的指标将通过这个误差来加以纠正和控制。在过去的几十年里，反馈技术被广泛运用于实践中，其中，使用比例积分微分控制技术的发展是最为突出的。如今，在许多高级控制领域里，到处活跃着 PID控制的身影[1]。　　一般的控制理论存在诸多问题（如理论难以实现，或被控对象参数不容易得到，或得不到精确数学模型），PID作为工业控制的主要技术，它可以一一解决，这与其优良的性能是分不开的。它的结构简单，鲁棒性好和工作可靠性高且调整方便。因此，如何高效地调整和优化PID的控制参数成了人们竞相研究的问题。目前，常用的PID控制算法有理论计算和工程整定两类，其中，工程整定主要有：临界比例法，反应曲线法和衰减法等。然而，在复杂控制系统设计中，由于