- 1、本文档共12页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
学习控制
智能控制
1
第六章
Learningcontrol
学习控制
智能控制
2
Ch6
学习控制的基本概念
重复(学习)控制
迭代学习控制
6.1
6.2
6.3
6.4
强化学习控制
学习控制的基本概念
智能控制
3
6.1
学习是指获取新知识、新技能等的过程。
学习是获取知识的主要方式,也是提高智能水平的基本途径。
将学习能力引入控制系统,运用控制理论的基本原理和方法分析和研究学习过程,便得到学习控制。
1 学习控制的提出
智能控制
4
在分析设计控制系统时,如果能够获得被控对象的精确模型且其先验知识是完全已知的,那么很多经典控制策略(包括频域设计方法、状态反馈控制、输出反馈控制、最优控制等)都可用于控制系统设计,并获得满意的控制性能;如果只能得到被控对象的统计性描述(如概率分布等)且其先验信息是局部或全局已知的,那么随机系统理论可用于控制系统设计。
但是,在实际控制工程中,物理系统不可避免地受到各种未知外界环境影响
,这些影响通常难以用模型精确描述,即其先验信息是未知的。因此,针对先验知识未知的情况,无法基于上述方法进行系统设计。
1
智能控制
5
学习控制的提出
针对先验知识未知的情况,主要采取如下两种解决方案。
解决方案1:通过直接忽略未知信息或基于未知信息猜测值进行系统设计。这是一种较为保守的控制方案,通常只能获得一般或次优的控制效果。
解决方案2:在物理系统运行过程中,对未知信息进行估计,基于估计信息并采用优化控制方法进行系统设计。如果这种估计能逐渐逼近未知信息的真实情况,那么就可与先验信息完全已知的情况一下,得到满意的优化控制性能。这便是学习控制。
1 学习控制的提出
智能控制
6
学习控制的任务是在系统运行中估计未知不确定信息并基于这种估计的信息确定最优控制策略,从而逐步改进系统性能。学习控制通过自动获取知识、积累经验、不断更新和扩充知识以实现改善控制性能的目的。
应当指出,学习控制所面临的系统特性在一定环境条件下是确定的,尽管事先并不清楚,但是随着过程的发展是可以弄清楚的。也就是说,不可知的信息无法学习,学习是对事先未知的规律性知识的学习。
2 学习控制的定义及特点
智能控制
7
虽然学习这一概念在日常生活中使用极其广泛,但目前对“学习”没有公认的统一定义。因学习的概念丰富而又难以界定,学习控制的研究目前也缺乏系统性的理论表述。
《韦氏词典》对学习词条的一个释义是“基于经验对行为的修正”。学习控制是指通过各种技术或方法,在系统运行过程中能够学习环境和被控对象的各种未知不确定性信息,然后将学到的信息作为“经验”用于未来决策或控制以改进控制性能。
2 学习控制的定义及特点
智能控制
8
学习到的信息被视为控制器的“经验”,当类似的控制情况再次出现时,经验可用于改善控制质量。
例如,从重复控制情况中提取的新信息用于更新与该控制情况相关的估计或经验。从不同控制情况中提取的信息中获得不同的经验。类似控制情况可以分组形成一类控制情况。一些学习控制器的主要功能还包括对不同类别控制情况进行分类,以便可以逐步为各类控制情况和可接受的控制动作建立最佳控制策略。
2
智能控制
9
学习控制的定义及特点
学习控制通过对未知信息的估计而逐步改善控制性能或降低不确定性对系统控制性能的不利影响。从上述学习控制的概念来看,学习问题可以看作是函数未知量的估计或逐次逼近问题,该函数表征被控系统本身特性
学习控制的特点
①有一定的自主性:能够自我改进性能
②动态过程:通过与外界环境反复作用来改进性能
③有记忆功能:需要积累经验,用以改进其性能。
④有性能反馈。需要明确它的当前性能与某个目标性能之间的差距施加改进操作。
3 学习控制的分类
智能控制
10
根据学习机制的不同,学习控制大致可以分为有外部监督的学习控制(离线学习控制)、无外部监督的学习控制(非监督学习控制或在线学习控制)以及强化学习控制。
有外部监督的学习控制
在有外部监督的学习控制过程中,期望答案(例如,系统的期望输出或期望的最佳控制动作)通常被认为是精确的。在已知答案的指导下,控制器修改其控制策略或控制参数以提高系统性能。
3
智能控制
11
学习控制的分类
无外部监督的学习控制
在无外部监督的学习控制过程中,期望答案并不完全为人所知。设计学习控制器通常采用两种方法。第一种方法是通过考虑所有可能的答案来执行学习过程。第二种方法是,控制器使用性能指标来指导学习过程。
强化学习控制
不同于上述监督和非监督学习,强化学习使用训练信息来评估所采取的动作,而不是通过给予正确的动作来指导学习过程。具体而言,强化学习根据重复训练信息评估所采取的动作,并基于所获得的奖励来自行改变控制规则。在强化学习过
文档评论(0)