人工智能系统管理与维护 课件 2.5运行环境异常检测及处理.pptx

人工智能系统管理与维护 课件 2.5运行环境异常检测及处理.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
;;; 基础环境是云服务商提供保障,轻易不会出现异常的问题,主要问题就是不能费用,欠费后云服务商就会不能提供相应服务。 自己搭建的物理服务环境时,首先保障服务器的操作系统是纯净系统没有病毒,并安装上杀毒软件,实时备份系统,一旦系统瘫痪能够及时恢复最近状态。如果服务器设备损坏,关闭系统所在的服务器设备,使用备份服务器替换损坏的设备,恢复系统正常使用;如果是服务器软件损坏,查找原因,尝试启动系统,或使用备份进行恢复。;; 1.VM虚拟机异常关闭出现虚拟机繁忙,无法使用 打开系统的资源管理器,找到VMare Workstation VMX进程,结束该进程,如果能关闭,则把相关的VMare字样的进程全部关闭;如果无法关闭,则重新启动系统。 2.虚拟机VMware显示“内部错误” 可能是VM服务没有启动,进入系统“服务”将VM DHCP Service、VMware Authorization Service、VMware NAT Service、VMare USB Arbitration Service、VMwareHostd这5个服务启动即可。或者以管理员的身份运行VM软件。 3.通过VMware安装Ubuntu系统提示以独占方式锁定此配置文件失败 以管理员方式打开cmd命令,输入netsh winsock reset回车之后提示成功重置winsock目录,必须重新启动计算机才能重新完成配置,重启再进行操作即可。; 4.虚拟机Ubuntu系统联网失败。;;1.GPU不识别 GPU识别状态检测时,首先要确保lspci | grep -i nvidia命令识别所有GPU,其次确保nvidia-smi命令识别所有GPU。lspci | grep -i nvidia命令输出中确保所有GPU识别正常,并且每个GPU末尾标识为(rev a1),输出信息末尾为(rev ff)),表示GPU异常。 解决方法:优先对不识别的GPU进行对调测试,判断是否GPU或链路其他部件故障。 2.GPU带宽异常 需要确保GPU当前带宽与额定带宽一致且为x16。通过lspci -vvd 10de: | grep -i Lnkcap:和lspci -vvd 10de: | grep -i Lnksta:命令查看额定带宽和当前带宽。 解决方法:优先对不识别的GPU进行对调测试,判断是否GPU或链路其他部件故障。;3.GPU ERR!报错检查 GPU运行过程中会出现Fan ERR以及功率等ERR报错,可以通过检查nvidia-smi输出中是否包含ERR!报错判断。 解决方法:升级GPU驱动至较新的正确版本后,重启系统进行观察。对??GPU测试观察报错是否跟随GPU。;LOGO

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档