- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中国高等教育学会敦育信息化分会第九次学术年会论文集 ·I84·
基于主机环境监控系统的设计、开发与实现
杨旭,宋式斌,耿幼平,邢承杰
(北京大学计算中心,北京,100871)
摘要:随着高校信息化建设的发展,服务器维护和业务系统的维护成为一项荤耍的丁作。本文介绍厂北京大学摹于主
机环境的监控系统的设计与实现,通过此系统町以全面准确地监测、报告各种软硬件相关信息,并引导维护人员快速
高效地排除故障,最后结合系统的实际应用分析厂监控系统给维护T作改来的便利。
关键宇:服务器维护:故障监测:故障报警
1背景
信息化建设是目前各高校关注的一个热点,在此过程中,为保障各种业务系统稳定运行给系统管
理带来了大量的维护工作,一些关键业务更要求实时在线、不可断线或是断线后立即恢复,维护人员
需要在某一服务出现问题时第一时间处理,尽快让业务恢复正常。虽可借助一些软硬件厂商提供的高
可用性产品来支持业务的连续性,但考虑到成本和工作量,这并不能从根本上解决问题。服务器和业
务系统什么时候出现故障,什么时蜈服务不可用,在目前服务器数量众多的情况下很难立即发现。如
果维护人员接到用户的故障通知再解决问题,对IT服务部门而言,将是极大的被动,因此引入一套
适用于服务器系统的事件监测管理系统,全面准确地监测、报告各种软硬件相关信息,并引导维护人
员快速高效地排除故障,无疑成为每个IT部门日益迫切的问题。
2监控系统的需求和设计
针对主机监控的成型软件很多,包括基于GNU开源的和一些比较成熟的商业软件。这些软件各有
特点,侧重点也不尽相同。北大电子校务最初的监控系统也曾试用过成熟的大型商用软件,试用过程
中发现此类软件对运行系统的要求较高,更有较多的限制,对于数据库监控和系统日志分析能力不足,
经过北大近一年的试用,很难有一家厂商的产品可以满足北大日常维护工作的大部分需求。经过对一
套开源软件的试用,北大电子校务最终确定选择该软件作为平台,并在此基础上开发一套符合自己需
求的监控系统。
一套完整的监控系统应该包括策略定制、故障监测、故障报警和统计分析等功能模块。针对服务
器运行的特点,故障定义的范围一般包括网络、CPU和内存、磁盘、进程和服务、系统日志等。同时
我们比较关注数据库的运行状况,所以把数据库的详细信息也作为监控内容。
考虑到对数据收集的及时性和多样性,该系统采用了cl
控服务器生成统一的监控信息,通过WEB页面进行展示发布。为主动将故障信息推送到相关系统管理
员,特别设计了故障报警模块,当故障发生时能以邮件和短信的方式提醒管理员。
故障定义是设计之初就需要考虑的问题。根据错误信息的严重程度,按级别分为严重错误(用红
色标示)、一般警告(黄色标识)、无信息报告(紫色标识)、正常(绿色标识)等等。依据不同的错
误级别,维护人员能够及时判断错误信息的重要程度,严重错误一般是某个服务已经出问题了,需要
马上解决,而如果是一个警告错误,则可能将要发生某个问题,需要维护人员及时做处理,避免严重
问题的发生。
新程序实现新功能。
3监控系统的功能
这套盟控系统按功能可以分为:策略定制子系统,负责故障的定义、监测对象的定制以及报警策
中国-亩等教育学会教育信息化分会第九次学术年会论文集 ·185·
略的定制;故障监测子系统,负责故障的监测和定位:故障报警子系统,负责故障的报警;事件统计
子系统,负责包括故障在内的各类事件的记录和分析。
故障系统管理员———呻策略定镊子系统
故障监涌子系统
3.1策略定制
监控系统的监控对象包括各服务器的网络状态、资源使用状态(CPU、内存和磁盘)、重要服务、
进程当前状态和相关业务数据库的状态。
根据对象不同,故障主要可分为四类。第一种是基于阀值的故障,例如对CPU的监控主要包括当
前CPU和内存的使用情况,包括服务器总的CPU主频和物理内存以及当前的利用率,可以比较清晰的
看到服务器当前的负载状况,了解服务器资源的利用效率,同时可以选择报警的阀值,例如当资源的
使用比例超过80%时报一个警告,超过90%时报一个严重错误;另外某台服务器的某块
您可能关注的文档
最近下载
- 企业内部控制采购业务.doc VIP
- 2022年深圳市大鹏新区招聘社区专职工作者考试真题.docx VIP
- 数字化转型背景下职业教育信息化建设路径.pptx VIP
- 第8课 用制度体系保证人民当家作主【2023年秋最新版】.pptx VIP
- 比泽尔-半封闭整体型螺杆压缩机-中文操作手册CSH65-CSH75-CSH85-CSH95.pdf VIP
- 《无衣》(教学课件)-2024-2025学年高二语文选择性必修上册同步备课系列(统编版2019).pptx
- 基于特征性肽段检测人血浆中特瑞普利单抗药物浓度的液相色谱串联质谱方法.pdf VIP
- 矿业权评估师经济与法律笔记2023.docx VIP
- 肺部感染合并心衰护理查房.pptx VIP
- 财富管理02基础-家庭财务报表.ppt VIP
文档评论(0)