海量存储解决方案OceanStor N8500部署与管理.ppt

下载文档 降价啦

32
0
约4.2万字
约 127页
2019-07-12 发布于山东
举报
版权申诉
保障服务

海量存储解决方案OceanStor N8500部署与管理.ppt

1、本文档共127页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

网络问题比较复杂，需要逐一排除：文件系统、共享服务是否正常虚拟IP是否正常（是否有offline\faulted状态）路由是否正确配置， DNS、域控是否正常或正确配置 Bond模式是否正确配置网络环境是否存在干扰（丢包、乱序、重传等）网口速率协商是否正常（ip link show）解决步骤：在网络管理人员的协助下，找到并修改地址冲突的那台主机的IP地址。验证恢复：重新登录集群，通过master用户可以正常登录集群。如果fs fsck 命令无法成功执行，需要使用support账户登入集群节点，首先使用cfsmntadm display命令查看文件系统是否依然mount，如果依然mount，使用cfsumount命令卸载文件系统在suport账户下，使用fsck –t vxfs –o full –y /dev/vx/dsk/sfsdg/fs100g命令对文件系统做全校验使用fs online fs100g命令上线文件系统设置时区时先使用clock regions命令查找到设备所在地所属的时区，软后使用clock timezone clock Easten 设置时区即可若依然无法恢复，观察故障文件系统上是否仍有业务运行，若有则先将业务中止，随后在CLI下执行fs offline fsname操作将文件系统下线；接着再执行fs online fsname操作将文件系统上线，即可解决。 N8000设备的版本包括：集群NAS引擎软件的版本存储单元的软硬件版本 ISM管理软件的版本收集N8000设备的日志信息包括：集群NAS引擎的debug信息存储单元的日志信息 ISM管理软件的日志信息 N8000引擎节点硬件故障主要包括: 节点控制器的硬件故障节点接口卡的故障，包括业务端口接口卡故障和连接后端存储单元的接口卡故障节点系统硬盘故障节点电源和风扇故障引擎节点软件故障主要包括: 引擎软件安装和登录故障：无法通过master账号登录、CLI登录异常、引擎之间的信任关系异常集群容错故障：物理路径异常导致的业务挂死、节点异常导致的集群挂死功能使用故障：iofencing功能故障、文件系统故障、cifs应用故障、NFS应用故障判断是否由于后端存储单元的原因导致业务中断，首先需要确认FC网络是否正常，然后确认引擎能否发现磁盘，然后再从存储单元侧发现原因。如果性能下降首先检查业务网络的性能情况（需要检查业务交换机），其次需要检查文件系统参数配置情况，然后查看FC网络的速率和运行情况，最后查看存储单元LUN的运行情况，包括LUN的参数是否和业务匹配，如果都没问题，需要检查RAID组是否降级或者处于重构状态，如果也没问题，需要检查RAID组中是否存在慢盘。引擎节点的硬件故障问题，可以参考通用的服务器故障诊断和处理流程 I1910 Intrusion detected. Check chassis cover E1414 CPU # temp exceeding range. Check CPU heatsink E2118 Unrecoverable Memory CRC error. Power cycle AC E1812 Hard drive ## removed. Check drive E1310 Fan ## RPM exceeding range. Check fan E1610 Power Supply # (### W) missing. Check power supply 集群NAS的内部网络包括引擎之间的心跳网络、引擎与存储单元间FC网络和存储单元控制框与硬盘框之间的连接。 supoort账户登录节点，输入vxdctl –c mode ，如果显示每个节点都是主节点，表明已经发生脑裂，需要修复心跳，并启用iofencing。如果发生脑裂，需要立即停止业务，否则将会导致数据异常。引擎在执行scanbus扫描磁盘后，磁盘在某些节点上面异常，有可能某个引擎与存储单元的FC链路异常。在有多套存储单元时，如果执行scanbus、mount操作，节点长时间没有反应，有可能某个存储单元与所有引擎的FC链路异常。如果引擎端和存储单元侧都没有发现明显的问题，可以查看FC光纤网络的误码率和光纤线的质量情况。如果引擎和存储单元之间通过光纤交换机连接，可以检查引擎、光纤交换机和存储单元之间的速率协商情况。如果是硬盘框或者硬盘框的与控制框连接故障，可以参考表格中第2条处理。检查文件系统状态的方法： CLI下执行storage fs list； Support用户下执行cfsmntadm display Support