- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
MacroSAN IDDC与CRAID技术
杭州宏杉科技有限公司
典型案例
某用户配置了16块1TB磁盘做RAID5,承载其在线关键业务。运行3年后,磁盘开始陆续损坏,发现其重建过程漫长。在其业务未中断的情况下,完成一次重建所需时间长达5天,这种情况还不是最糟的。更糟的是,在某次重建过程中,重建进程完成到60%时,重建过程被异常中止,RAID组fail,整个数据卷损坏,数据丢失。经检查发现,在重建过程中,该 RAID组中的另一块磁盘发生了读错误,导致磁盘failed,被RAID组踢出。
通过这个案例我们可以看出几个问题:
1、磁盘属于消耗品,发生老化后,会产生潜在故障盘或假象故障盘;
2、故障盘或假象故障盘都将导致RAID组重建;
3、大容量磁盘RAID重建时间过长,重建过程风险巨大;
4、潜在故障盘将导致RAID重建失败;
什么是假象故障磁盘
简单的说,假象故障磁盘就是在使用中发生错误告警,但返厂后经检查发现该磁盘没有任何物理损坏,检测为正常的磁盘。
为什么会有假象故障磁盘
通常是与设备运行环境有关的,比如磁盘受到外力导致的振动达到一定程度,就会造成磁盘工作失灵,这种失灵往往在消除振动后可以恢复。
磁头在盘面的水平方面振动,会导致磁头与磁道偏离,磁头与目标磁道位置偏离过大,超过了伺服机构能响应的允许值,此时磁头根本无法定位,造成工作失灵;
磁头在与盘面垂直方向的振动,导致磁盘盘面与磁头距离的变化,磁头和盘片的间隙过大,造成磁头感应到的信号电压不足,磁盘无法读/写;
什么是潜在故障磁盘
简单的说,潜在故障磁盘就是已经存在损坏扇区,但在设备运行状态中却显示为正常的磁盘。
为什么会有潜在故障磁盘
由于磁盘本身属于易耗品,存储设备长期在线运行后,根据业务类型及机房环境不同,磁盘会出现不同程度的老化。这些老化磁盘中可能会存在不同程度的损坏扇区,而损坏扇区在没有IO读写触发的条件下,通常不会被存储设备感知。这种未被感知,但又存在一定损坏扇区的磁盘,就是潜在故障磁盘。一般情况下,潜在故障磁盘在非RAID环境中可能会导致磁盘中的部份文件埙坏或丢失。若存在于配置了RAID组的存储环境中,其危险性将及有可能会乘以N倍的数量放大。
故障磁盘的危害
冗余RAID组重建频繁 :存储设备长期在网运行后,会有越来越多的潜在故障磁盘转化为故障磁盘,磁盘损坏导致频繁的RAIDRAID组重建失败,发生数据丢失的事故。
冗余RAID组重建失败 :根据冗余RAIDRAID组,如RAID5、RAID6,在进行RAID组重建时,需要读取该RAID组中其它成员成盘上的所有数据,来计算被替换故障磁盘的数据。对于长期在网运行,磁盘老化较严重的设备,往往会隐藏着一定的潜在故障磁盘,一旦这些磁盘在重建过程中转化为故障磁盘,该RAID组会立刻失效,重建失败,导致该RAID组所有数据丢失。
问题与挑战
随着云时代的到来,数据量越来越多,磁盘容量越来越大,发生磁盘损坏的比率也越来越大,如何解决磁盘故障对存储带来的危害成为重要课题目。
问题:
磁盘属于消耗品,一般3年左右,发生机械老化;
发生老化后,会产生潜在故障盘或假象故障盘;
3、故障盘或假象故障盘都将导致RAID组重建;
4、大容量磁盘RAID重建时间过长,重建过程风险巨大;
5、潜在故障盘易导致RAID重建失败;
挑战:
1、变被动重建为主动检测;
2、提高RAID容错度;
3、降低磁盘误判;
4、提高错误修复效率;
5、减少数据丢失风险;
磁盘维护新方式-IDDC主动式磁盘诊断中心
基于多年存储维护经验的深刻理解,MacroSAN开发了一套可以在不增加任何附加投资的条件下,最大化提高磁盘及RAID组安全性的,智能存储磁盘维护检测修复工具。
IDDC:Initiative Disk Diagnosis Center,主动式磁盘诊断中心
该诊断中心包含了4个模块(磁盘检测、快速修复、坏块复位、磁盘诊断),它可以通过预先设置的策略定期对磁盘进行错误检测,用于发现磁盘中是否存在错误码。再根据错误码叛断磁盘错误类型,并进行相应的坏块修复、磁盘迁移或磁盘修复等操作,以提早处理磁盘潜在故障隐患,降低RAID组重建损坏机率,提高设备稳定性。
磁盘检测:
对所有磁盘进行周期性全盘检测,提前发现故障;
支持磁盘检测速率动态调整,不影响应用性能;
发现问题的磁盘交由诊断中心统一处理;
快速复位:结合CRAID的局部重建机制,可快速修复磁盘逻辑错误,降低全盘重建机率。
坏块修复:经过检测的磁盘发现存在坏块(扇区)后,会触发磁盘自身的remap机制,将坏块的指针重定向到好的保留扇区中。然后调用RAID组的校验功能,重建该数据块,确保数据一致性。
磁盘诊断:所有告警磁盘、故障磁
文档评论(0)