- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
运维,这里指互联网运维,通常属于技术部门,与研发、测试、系统管理同为互联网产品技术支撑的4大部门,这个划分在国内和国外以及大小公司间都会多少有一些不同。一个互联网产品的生成一般经历的过程是:项目立项、需求分析、研发部门开发、测试部门测试、运维部门部署发布以及长期的运行维护。运维,本质上是对网络、服务器、服务的生命周期各个阶段的运营与维护,在成本、稳定性、效率上达成一致可接受的状态。
-----宋停云与您分享------
-----宋停云与您分享------
运维工作简介
系统简介
一、服务器数量与用途
二、运维管理范围与职责
管理范围
本平台内所有架构,运维部负责公司业务系统运行维护工作。
职责
保障公司游戏服务器的正常运行、网络的畅通。严格岗位制度、明确工作职责,规范工作流程。工作规范化,制度化,加强文档管理力度。
三、组织结构
根据运维工作的范围和性质,下设三个小组: 系统维护组
应用维护组技术值班组
四、服务维护
系统维护
1.检查安全日志
2.检查系统日志
3.检查应用日志
4.记录并核对各系统磁盘容量
5.记录并核对各磁盘文件数量
6.记录并核对系统账户
7.记录并核对系统服务
8.记录并核对系统进程 CPU 内存 PID 线程数
9.查询系统更新
应用维护
1.检查各应用程序状态
2.记录并核对各应用程序配置
3.记录并核对应用系统文件
4.记录并核对应用系统文件 MD5
-----宋停云与您分享------
-----宋停云与您分享------
5.测试各应用系统功能
6.记录并核对各应用系统 CPU 内存 PID 线程数
7.检查应用程序更新
网络维护
1.检查服务器连接数量
2.检查上行下行带宽记录值
3.检查网络损耗峰值
4.检查并记录各服务通信端口
5.检查并记录通信延迟
6.分析带宽负荷
7.分析访问量
硬件维护
1.检测并记录各硬件温度
2.检查驱动状态
3.检查各硬件状态
数据库维护
1.检查备份文件
2.核对备份时间
3.核对备份内容
4.查询并记录锁定
5.查询并记录 SQL 效率
6.对比数据内容
7.交接班进行日志数据库备份
8.实时检查日志数据库
五、服务器实时监控
1.磁盘文件增减监控
2.通信效率监控
3.服务器使用率监控
4.服务器性能监控
5.网络上行下行带宽监控
6.数据库操作监控
7.硬件温度监控
六、工作内容
1.设备管理:对网络设备、服务器设备、操作系统运行状况进行监控和管理。
2.应用/服务管理:对各种应用支持软件如数据库、中继、CDN 以及各种通信或特定服务的监控管理,如 DNS、Web 等的监控与管理。
-----宋停云与您分享------
-----宋停云与您分享------
3.数据/存储/容灾管理:对系统和业务数据进行统一存储、备份和恢复。
4.数据管理:包含对公司自身核心数据系统的运行情况的监控与管理,对于数据的管理,主要关注该数据系统的消耗与增长。
5.内部系统管理:该部分主要对于本公司需要统一发布或因人定制的内容管理和对公共信息的管理,如客服系统、推广系统。
6.资产管理:管理本公司服务系统的资产情况,是逻辑存在的,并能够与本公司财务部门进行数据核对。
7.信息安全管理:目前信息安全管理主要依据的是企业安全组织方式、资产控制、人员安全、物理与环境安全、通信与运营安全、访问控制、数据连续性管理等。
8.日常工作管理:该部分主要用于规范和明确运维人员的岗位职责和工作安排、提供运维日志报表、提供解决经验与知识的积累与共享手段。
应急预案
预警级别警报内容
预警级别
警报内容
预警级别介绍
网络流量升高
系统资源升高
一级预警表示系统出
一级预警
数据备份出现异常
热备份出现异常
现故障,但不影响运
维系统的正常运转。
监控软件出现故障
超过系统资源
超过网络资源
二级预警表示系统出
网络中断或网络异常
现故障,影响运维系
二级预警
防御资源内的攻击
操作系统出现异常应用系统出现异常
统的正常运转,但运
维工程师可以在短时间内进行故障排除。
数据库相关异常
三级预警
超过防御资源的攻击
三级预警表示系统出
硬件物理损坏 现故障,影响运维系
-----宋停云与您分享------
-----宋停云与您分享------
操作系统出现不可恢复性故障
操作系统出现不可恢复性故障
数据库无法正常使用
统的正常运转,运维
工程师不能在短时间内进行故障排除。
四级预警
ISP IDC 机房故障
四级预警表示系统出
现故障,运维系统中
受到不可抗力或自然灾害的破坏。
断,运维工程师无法
排除。
二、预警上报处理流程
运维过程中出现重要故障或紧急情况时,按以下规定流程进行处理及汇报。在遇到故障时,及时汇报上级领导并采取措施及时解决,具体汇报流程如下:
一级预警
1.当通过监控或得知系统出现故障时,首先在最短的时间查看故障点状态,并分析故障原因。
2.运维工程师在排查出故障后,立即着手解决。
3.在故障排除后,通知组长并对所发生故障的设备进行事后跟踪。
4.在故障排除后,运维工程师应对故障原因及解决办法进行详细说明。
二级预警
1.当通过监控或得知系统出现故障时,首先在最短的时间查看故障点状态,并分析故障原因。
2.运维工程师在排查出故障后,如能够立即解决,则立刻
文档评论(0)