- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大规模InfiniBand网络自学习的故障诊断方法.doc
大规模InfiniBand网络自学习的故障诊断方法
摘要:针对大规模数据中心网络中如何有效监控网络异常事件、发现网络性能瓶颈和潜在故障点等问题,在深入分析InfiniBand(IB)网络的特性,引入了特征选取策略和增量学习策略的基础上,提出了一种面向大规模IB网络增量学习的故障诊断方法IL_Bayes,该方法以贝叶斯分类方法为基础,加入增量学习机制,能够有效提高故障分类精度。在天河2真实的网络环境下,对算法的诊断精度和误诊率进行了验证,结果表明IL_Bayes算法具有较高的故障分类精度和较低的误诊率。
关键词:数据中心;InfiniBand;故障诊断;贝叶斯分类;增量学习
中图分类号: TP393.07
0引言
数据中心是Internet的重要基础设施,是为用户提供数据存储、计算和传输的核心。随着互联网的飞速发展,特别是大数据时代的到来,数据中心在Web服务、搜索引擎、电子商务、社交网络、网络游戏及大规模集群计算等领域中的关键作用日益显现[1]。目前数据中心的网络规模日益庞大,互联的计算节点数量能达到100000以上的量级,而交换节点的数量也接近10000量级。数据中心性能需求表现为高带宽、低延迟、低主机开销和低存储开销等特点[2]。InfiniBand(以下简称IB)是目前数据中心互联的主流网络。2013 年 11 月公布的TOP500高性能计算机排名中,InfiniBand 是最常用的互连技术,在 TOP100 名单中占 48%,TOP200 占 48.5%,TOP300 占 44% 而在 TOP400 系统中则占 42.5%。2010年,Oracle通过在其数据仓库和数据处理平台Exadata中使用IB交换,处理性能提升10倍[3]。2010年,Google在其研究工作中采用IB和蝶形网络拓扑构建数据中心,网络功耗节约85%[4]。2011年,Microsoft基于IB组建高性能数据中心支持其Bing Maps应用,与传统基于以太网的架构相比节约80%的功耗和50%的成本[5]。Stanford课题组通过IB互联分布式DRAM实现了高性能数据中心存储系统[6]。
在大规模数据中心网络中,网络的故障率呈指数增加,长期的实践[7]表明,故障率随着网络中节点数快速增加,例如,从服务节点故障的角度看,服务单点可靠性为99.99%,按照10000级的规模计算则网络故障率为63%,若单点可靠性为99.9%,则网络故障率几乎达到100%。大规模数据中心网络运行的应用通常对网络性能要求严格,需要管理者能更加实时、精确地掌握全网态势和端到端的通信性能,在网络性能下降之后及时发现和定位故障和网络拥塞, IB网络在大规模数据中心网络中的应用越来越广泛,研究面向大规模IB网络的故障诊断方法,保持和提高IB网络运行的健壮性,提高网络的修复能力,保障网络上关键任务的成功完成非常重要。
1相关研究
近年来针对网络故障的诊断方法已经进行了大量的研究。出现了以贝叶斯网络方法、数据挖掘方法等为主的故障诊断方法。文献[8]提出了一种基于拉格朗日和次梯度法的网络故障诊断方法(novel location approach based on Lagrangian Relaxation and Subgradient Method,LRSM),该方法对现在的二分图故障传播模型进行改进,加入虚假故障因素,在改进二分图模型的基础上提出了故障定位问题的01最优化描述,并利用拉格朗日松弛法和次梯度法对问题进行求解,有效提高了分类检测精度和减少了诊断时间。文献[9]提出了一种基于谱图理论的故障诊断算法(Alarm Correlation Algorithm based on Spectral Graph theory,ACASG),建立了时序告警关联数据模型,将告警数据看作一个高维空间,具有相关特性的告警是隐含在该空间中的局部结构,通过谱图理论发现高维数据空间中潜在的低维映射结构,通过分析低维空间中点结构之间的相似性,实现告警数据的可视化显示,该方法不仅可以发现告警的相关性,而且还可以通过分析谱图的变化预测定位网络中发生的故障。文献[10]针对网络层和数据链路层,为简化故障决策算法、降低误报率,提出了一种基于粗糙神经网络的故障诊断算法 (Rough Artificial Neural Network,RANN)和分层故障诊断思想,通过神经网络来逼近故障诊断这种映射关系,实现对故障的分类,利用正域的概念,去除冗余属性,求取条件属性集对于决策故障属性集的简化,同时结合分层分布优化的思想,将网络故障分类,每一类故障诊断系统含有多个反向传播(Back Propagation, BP)子网络,通过粗糙集理论逐层分类,构成一个多级
文档评论(0)