CN111082729B 机器学习装置、控制装置以及机器学习方法（发那科株式会社）.docxVIP

下载本文档

0
0
约2.46万字
约 43页
2026-01-20 发布于重庆
举报

CN111082729B 机器学习装置、控制装置以及机器学习方法（发那科株式会社）.docx

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN111082729B(45)授权公告日2025.07.11

(21)申请号201910926693.X

(22)申请日2019.09.27

(65)同一申请的已公布的文献号申请公布号CN111082729A

(43)申请公布日2020.04.28

(30)优先权数据

(51)Int.CI.

HO2P23/00(2016.01)

GO6N20/00(2019.01)

(56)对比文件

WO2018151215A1,2018.08.23审查员江晨

2018-1875882018.10.02JP

(73)专利权人发那科株式会社地址日本山梨县

(72)发明人恒木亮太郎猪饲聪史白川佑贵

(74)专利代理机构北京银龙知识产权代理有限公司11243

专利代理师曾贤伟范胜杰

权利要求书2页说明书13页附图8页

(54)发明名称

机器学习装置、控制装置以及机器学习方法

CN111082729B控制电流部电动机机器测量部控制部滤波

CN111082729B

控制电流部电动机

机器

测量部

控制部滤波器

速度反馈

幅率

速生成指今

(57)摘要

CN111082729B权利要求书1/2页

1.一种机器学习装置，其进行对设置于伺服控制装置的至少一个滤波器的系数进行优化的机器学习，所述伺服控制装置控制电动机的旋转，其特征在于，

所述滤波器是使特定的频率成分衰减的滤波器，

所述机器学习装置具备：

状态信息取得部，其取得包含测量装置的测量信息和所述滤波器的系数在内的状态信息，其中，所述测量装置根据所述伺服控制装置中频率变化的输入信号和输出信号，测量所述伺服控制装置的输入输出增益和输入输出的相位延迟中的至少一个；

行为信息输出部，其向所述滤波器输出行为信息，该行为信息包含在所述状态信息中包含的所述系数的调整信息；

回报输出部，其输出基于所述测量信息的强化学习中的回报值；以及

价值函数更新部，其根据由所述回报输出部输出的所述回报值、所述状态信息、所述行为信息来更新价值函数，

所述测量信息包含所述输入输出增益和所述输入输出的相位延迟，

当所述测量信息中包含的所述伺服控制装置的输入输出增益是根据所述伺服控制装置的特性计算出的输入输出增益的标准模型的该输入输出增益以下时，所述回报输出部计算基于所述输入输出的相位延迟的所述回报。

2.根据权利要求1所述的机器学习装置，其特征在于，

所述频率变化的输入信号是频率变化的正弦波，

该正弦波由频率生成装置生成，该频率生成装置设置于所述伺服控制装置内或所述伺服控制装置外。

3.根据权利要求1或2所述的机器学习装置，其特征在于，

所述标准模型的输入输出增益在规定的频率以上是固定值。

4.根据权利要求1或2所述的机器学习装置，其特征在于，

所述回报输出部计算回报以使所述输入输出的相位延迟变小。

5.根据权利要求1或2所述的机器学习装置，其特征在于，

所述机器学习装置具有：优化行为信息输出部，其根据由所述价值函数更新部更新了的价值函数来输出所述系数的调整信息。

6.一种控制装置，其特征在于，具有：

权利要求1～5中任一项所述的机器学习装置；

伺服控制装置，其具有使特定的频率成分衰减的至少一个滤波器，所述伺服控制装置控制电动机的旋转；以及

测量装置，其根据所述伺服控制装置中频率变化的输入信号和输出信号，测量所述伺服控制装置的输入输出增益和输入输出的相位延迟中的至少一个。

7.一种机器学习装置的机器学习方法，该机器学习装置进行对设置于伺服控制装置的至少一个滤波器的系数进行优化的机器学习，所述伺服控制装置控制电动机的旋转，所述滤波器使特定的频率成分衰减，其特征在于，

取得包含测量装置的测量信息和所述滤波器的系数在内的状态信息，其中，所述测量装置根据所述伺服控制装置中频率变化的输入信号和输出信号，测量所述伺服控制装置的输入输出增益和输入输出的相位延迟中的至少一个，

CN111082729B权利要求书2/2页

向所述滤波器输出行为信息，该行为信息包含在所述状态信息中包含的所述系数的调整信息，

CN111082729B 机器学习装置、控制装置以及机器学习方法（发那科株式会社）.docxVIP