学习控制-控制科学与工程学院-浙江大学.docxVIP

学习控制-控制科学与工程学院-浙江大学.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
学习控制 刘山 浙江大学控制科学与工程学院 PAGE PAGE # PAGE PAGE # 控制技术发展的主流 ■鲁棒控制:反馈的延伸 ■智能控制:前馈的延伸 □广义上,具有学习和自我调节的控制 ■受控对象或过程的先验知识全部已知,而且能确定地描述, 则釆用各种合适的常规控制与最优控制; ■受控对象或过程的先验知识全部或局部已知,但只能得到 统计的描述,则采用利用随机设计或统计设计技术的控制 方案; 31!■受控对象或过程的先验知识全部或局部未知,则釆用以下 两种方案: 31! □忽略未知部分的先验知识,釆取保守的控制原则,安于低效和次 优的结果。例,鲁棒控制; □在运行过程中对未知信息进行估计,基于估计信息釆用优化控制。 例,自适应控制和学习控制。 学习控制技术 ■智能控制的一个重要分支; -在系统运行过程中获得环境和被控对象的未知信 息; ■积累控制经验; ■在一定的评价标准下进行估值、分类、决策; ■不断改进系统品质; ■具有搜索、识别、记忆、修改和优化等功能; ■特别适用于解决非线性等常规控制难以解决的问 题。 内容 ■ 1、学习控制概述 ■ 2、基于模式识别的学习控制 ■ 3、迭代学习控制 ■ 4、重复学习控制 PAGE PAGE # 一、学习控制概述 学习控制例子 ?孕F绘生1侠 力⑴+ - JZ 1 y(s) 于刁拴市I」命 1 . 丿 W A ■ 5+1 y⑴=-(£+i)y⑴+竝⑴ y⑴之如)》(O)+ J:e如)1)切(可必 该积分方程无解! 丨 丨 希望为儿⑴ ■学习是一种过程,通过对系统重复输入各种信号, 并从外部校正该系统,使系统对特定的输入作用 具有特定的响应。 ■学习的特点 □是一种过程,存在同类特征的重复环境并与环境交互; □存在一种在时间上是比较局部的“成功的”度量,并能 够随时间而改善; □表示系统中的自适应变化,该变化能使系统比上一次更 有效地完成同一群体所执行的同样任务。 PAGE PAGE # PAGE PAGE # ■学习策略 」*1-0及髓體蠶蠶变化的方向,程度,可 ■奖惩函数 □当前系统状态及环境状态的瞬时价值,是主要学习目标 ■估价函数 □当前系统状态及环境状态的长期评价,是奖惩函数的累 积 ■模型 □系统与环境的模型 ■学习系统是一个能够学习有关过程的未知信息, 并用所学信息作为进一步决策或控制的经验, 从而逐步改善系统的性能的系统 ■如果一个系统能够学习某一过程或环境的未知 特征固有信息,并用所得经验进行估计、分类、 决策或控制,使系统的品质得到改善,那么称 汝索统为牟习系么 「学习系统的分类 按是否在线分: 离线可训练系统 离线可训练系统 □在线自学习系统 ■按是否有监督分: □有师学习 □无师学习 11 PAGE PAGE # PAGE PAGE # ■学习控制能够在系统进行过程中估计未知信息, 并据之进行最优控制,以便逐步改进系统性能 ■学习控制是一种控制方法,其中的实际经验起 到控制参数和算法类似的作用 .如果一个学习系统利用所学得的信息来控制某 个具有未知特征的过程,则称该系统为学习控 制系统 学习控制的数学描述 ■在有限时间域[0,门内,给出受控对象的期望的响 应儿(0,寻求某个给定输入Uk(t)y使得畋⑴的响应 yk(t),在某种意义上获得改善;其中,为搜索次 数,沧[0,门。称该搜索过程为学习控制过程。当 -?00时,yk(t) -^yd(t),该学习控制过程是收敛的。 ■蠶需礬动态控制系统输入与输出间的比较 ■执行每个由前一步控制过程的学习结果更新了 的控制过程 ■改善每个控制过程,使其性能优于前一个过程 ■希望通过重复执行这种学习过程和记录全过程 ■希望通过重复执行这种学习过程和记录全过程 的结果,能够稳步改善受控系统的性能 学习控制系统运行方式 ■启动学习 □控制器启动后初始运行的学习。它反复依据当前的 特征状态,前段运行效果的特征记忆以及相应的学 习规则,确定运行决策。 ■运行学习 □控制运行中对象类型变化时的学习过程。通过尝试 考虑所有可能的决策,修改控制策略和控制参数。 学习控制与常规自适应控制比较 ■相同点 □ □ □ □ 学习系统是自适应系统的发展与延伸,它能够按照运行过程中 的“经验”和“教训”来不断改进算法,增长知识,更广泛地 模拟高级推理、决策和识别等人类的优良行为和功能。 都是解决系统不确定性问题的方法; 都基于在线的参数调整算法; 都使用与环境,对象闭环交互得到的信息。 22 22 22 22 一般学习控制系统组成 -常规反馈控制环(先验的补偿器) ■自适应环 ■学习环 期望输出?o+ ,>常规控制器 期望输出 ?o + , >常规控制器 输出 >自适应控制■

文档评论(0)

157****5685 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档