- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
学习控制
刘山
浙江大学控制科学与工程学院
PAGE
PAGE #
PAGE
PAGE #
控制技术发展的主流
■鲁棒控制:反馈的延伸
■智能控制:前馈的延伸
□广义上,具有学习和自我调节的控制
■受控对象或过程的先验知识全部已知,而且能确定地描述, 则釆用各种合适的常规控制与最优控制;
■受控对象或过程的先验知识全部或局部已知,但只能得到
统计的描述,则采用利用随机设计或统计设计技术的控制 方案;
31!■受控对象或过程的先验知识全部或局部未知,则釆用以下 两种方案:
31!
□忽略未知部分的先验知识,釆取保守的控制原则,安于低效和次 优的结果。例,鲁棒控制;
□在运行过程中对未知信息进行估计,基于估计信息釆用优化控制。 例,自适应控制和学习控制。
学习控制技术
■智能控制的一个重要分支;
-在系统运行过程中获得环境和被控对象的未知信 息;
■积累控制经验;
■在一定的评价标准下进行估值、分类、决策;
■不断改进系统品质;
■具有搜索、识别、记忆、修改和优化等功能;
■特别适用于解决非线性等常规控制难以解决的问 题。
内容
■ 1、学习控制概述
■ 2、基于模式识别的学习控制
■ 3、迭代学习控制
■ 4、重复学习控制
PAGE
PAGE #
一、学习控制概述
学习控制例子
?孕F绘生1侠
力⑴+
-
JZ
1
y(s)
于刁拴市I」命
1 .
丿 W
A
■
5+1
y⑴=-(£+i)y⑴+竝⑴
y⑴之如)》(O)+ J:e如)1)切(可必 该积分方程无解!
丨 丨
希望为儿⑴
■学习是一种过程,通过对系统重复输入各种信号,
并从外部校正该系统,使系统对特定的输入作用 具有特定的响应。
■学习的特点
□是一种过程,存在同类特征的重复环境并与环境交互;
□存在一种在时间上是比较局部的“成功的”度量,并能 够随时间而改善;
□表示系统中的自适应变化,该变化能使系统比上一次更 有效地完成同一群体所执行的同样任务。
PAGE
PAGE #
PAGE
PAGE #
■学习策略
」*1-0及髓體蠶蠶变化的方向,程度,可
■奖惩函数
□当前系统状态及环境状态的瞬时价值,是主要学习目标
■估价函数
□当前系统状态及环境状态的长期评价,是奖惩函数的累 积
■模型
□系统与环境的模型
■学习系统是一个能够学习有关过程的未知信息, 并用所学信息作为进一步决策或控制的经验, 从而逐步改善系统的性能的系统
■如果一个系统能够学习某一过程或环境的未知 特征固有信息,并用所得经验进行估计、分类、 决策或控制,使系统的品质得到改善,那么称 汝索统为牟习系么
「学习系统的分类
按是否在线分:
离线可训练系统
离线可训练系统
□在线自学习系统
■按是否有监督分:
□有师学习 □无师学习
11
PAGE
PAGE #
PAGE
PAGE #
■学习控制能够在系统进行过程中估计未知信息,
并据之进行最优控制,以便逐步改进系统性能
■学习控制是一种控制方法,其中的实际经验起 到控制参数和算法类似的作用
.如果一个学习系统利用所学得的信息来控制某
个具有未知特征的过程,则称该系统为学习控 制系统
学习控制的数学描述
■在有限时间域[0,门内,给出受控对象的期望的响
应儿(0,寻求某个给定输入Uk(t)y使得畋⑴的响应 yk(t),在某种意义上获得改善;其中,为搜索次 数,沧[0,门。称该搜索过程为学习控制过程。当
-?00时,yk(t) -^yd(t),该学习控制过程是收敛的。
■蠶需礬动态控制系统输入与输出间的比较
■执行每个由前一步控制过程的学习结果更新了
的控制过程
■改善每个控制过程,使其性能优于前一个过程
■希望通过重复执行这种学习过程和记录全过程
■希望通过重复执行这种学习过程和记录全过程
的结果,能够稳步改善受控系统的性能
学习控制系统运行方式
■启动学习
□控制器启动后初始运行的学习。它反复依据当前的 特征状态,前段运行效果的特征记忆以及相应的学 习规则,确定运行决策。
■运行学习
□控制运行中对象类型变化时的学习过程。通过尝试
考虑所有可能的决策,修改控制策略和控制参数。
学习控制与常规自适应控制比较
■相同点
□
□
□
□
学习系统是自适应系统的发展与延伸,它能够按照运行过程中
的“经验”和“教训”来不断改进算法,增长知识,更广泛地 模拟高级推理、决策和识别等人类的优良行为和功能。
都是解决系统不确定性问题的方法;
都基于在线的参数调整算法;
都使用与环境,对象闭环交互得到的信息。
22
22
22
22
一般学习控制系统组成
-常规反馈控制环(先验的补偿器) ■自适应环
■学习环
期望输出?o+ ,>常规控制器
期望输出
?o
+ ,
>常规控制器
输出
>自适应控制■
文档评论(0)