一种人工智能开发平台的监控管理方法及系统.pdf

一种人工智能开发平台的监控管理方法及系统.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 111324513 A (43)申请公布日 2020.06.23 (21)申请号 202010132501.0 (22)申请日 2020.02.29 (71)申请人 苏州浪潮智能科技有限公司 地址 215100 江苏省苏州市吴中区吴中经 济开发区郭巷街道官浦路1号9幢 (72)发明人 孙辽东  (74)专利代理机构 济南诚智商标专利事务所有 限公司 37105 代理人 黄晓燕 (51)Int.Cl. G06F 11/30(2006.01) G06F 9/455(2006.01) 权利要求书3页 说明书8页 附图6页 (54)发明名称 一种人工智能开发平台的监控管理方法及 系统 (57)摘要 本发明涉及服务器技术领域,提供一种人工 智能开发平台的监控管理方法及系统,方法包 括:对数据采集模块进行源码优化,并利用优化 的数据采集模块进行数据采集;将数据写入多节 点部署的时间序列数据库InfluxDB,时间序列数 据库InfluxDB处于高可用状态;根据用户选取的 聚合分析的时间节点,从所述时间序列数据库 InfluxDB中采集包括集群、存储节点和GPU卡在 内的各个资源的使用数据,同时对采集到的使用 数据进行聚合分析,并通过UI界面展示聚合分析 结果,从而不仅解决监控数据安全性和监控数据 A 价值性问题,并且实时提供给用户整个集群资源 3 的使用情况,有效提高计算资源的利用率,减少 1 5 4 业务成本,提高产品竞争力。 2 3 1 1 1 N C CN 111324513 A 权 利 要 求 书 1/3页 1.一种人工智能开发平台的监控管理方法,其特征在于,所述方法包括下述步骤: 对数据采集模块进行源码优化,并利用优化的数据采集模块进行数据采集,其中采集 到的数据为包括集群、存储节点和GPU卡在内的各个资源的使用数据; 将采集到的数据写入多节点部署的时间序列数据库,所述时间序列数据库处于高可用 状态; 根据用户选取的聚合分析的时间节点,从所述时间序列数据库中采集包括集群、存储 节点和GPU卡在内的各个资源的使用数据,同时对采集到的使用数据进行聚合分析,并通过 UI界面展示聚合分析结果。 2.根据权利要求1所述的人工智能开发管平台的监控管理方法,其特征在于,所述数据 采集模块的源码优化内容包括自定义数据采集脚本、数据采集方式的修改和数据采集模块 内存管理方式的修改; 其中,修改后的数据采集方式满足指定场景的数据采集和纳米级时间粒度的采集,所 述自定义数据采集脚本所采集的数据包括节点中CPU的温度、GPU卡的性能数据以及容器相 关的性能数据,所述指定场景包括GPU存在不可用情况的场景和由于网络问题导致GPU卡训 练速度不足的场景; 内存管理方式的修改包括在所述数据采集模块内增加一个中间文件,所述中间文件用 来存储数据采集模块中的内存数据; 所述时间序列数据库为InfluxDB。 3.根据权利要求2所述的人工智能开发管平台的监控管理方法,其特征在于,所述利用 优化的数据采集模块进行数据采集的步骤具体包括下述步骤: 采集符合源码优化的数据采集模块内存结构的数据; 通过对所述数据采集模块内存管理方式的修改,在将采集的数据写入时间序列数据库 InfluxDB之前,将所述数据采集模块的内存数据写入预先配置的中间文件。 4.根据权利要求2所述的人工智能开发管平台的监控管理方法,其特征在于,所述时间 序列数据库Inf

文档评论(0)

10301556 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档