- 8
- 0
- 约5.6万字
- 约 16页
- 2018-12-22 发布于湖北
- 举报
计 算 机 学 报
20 16 年在线发布 CHINESE JOURNAL OF COMPUTERS 2016Online
一种基于自适应监测的云计算系统
故障检测方法*
王 焘 顾泽宇 张文博 徐继伟 魏 峻 钟 华
(计算机科学国家重点实验室, 北京100190)
( 中国科学院软件研究所, 北京100190)
摘 要 监测技术是保障云计算系统性能与可靠性的关键,管理员通过分析监测数据可以了解系统运行状态,从而采取措
施以及早发现并解决问题. 然而,云计算系统规模巨大,结构复杂,大量的监测数据需要搜集、传输、存储和分析,对系统
造成巨大性能开销. 那么,如何提高故障检测的准确性和及时性的同时,减少监测开销成为亟待解决的问题. 为了应对以上
问题,本文提出一种 计
基于自适应监测的云计算系统故障检测方法. 首先,利用相关分析建立度量间的相关性,利用度量关联
图选择关键度量进行监测;而后,利用主成分分析得到监测数据的主特征向量以刻画系统运行状态,进而基于余弦相似度评
估系统异常程度;最后,建立可靠性模型以预测系统可能出现故障的时间,基于此动态调整监测周期. 实验结果表明,本文
算
所提出的方法能够适应云环境下负载的动态变化,准确评估系统异常程度,自动调整监测频率以提高系统在异常状况下故障
检测的准确性与及时性,同时降低系统在正常运行过程中的监测开销.
机
关键词 故障检测;自适应监测;云计算;相关分析;主成分分析
学
Adaptive Monitoring based Fault Detection for Cloud Computing Systems
WANG Tao, GU Ze-yu, ZHANG Wen-bo, XU Ji-wei, WEI Jun, ZHONG Hua
报
(State Key Laboratory of Computer Science, Beijing 100190)
(Institute of Software, Chinese Academy of Sciences, Beijing 100190)
Abstract Monitoring is the key technology of guaranteeing the performance and reliability of distributed
systems. By analyzing monitoring data, administrators can understand the systems’ status to detect, diagnose
and solve problems. However, the procedure of collecting, transmitting, storing and analyzing a large amount of
monitoring data from large-scale cloud computing systems introduces enormous performance overhead. To
address the above issue, this paper proposes an adaptive monitoring approach for fault de
原创力文档

文档评论(0)