[运维]-网络运维管理制度.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
运维,这里指互联网运维,通常属于技术部门,与研发、测试、系统管理同为互联网产品技术支撑的4大部门,这个划分在国内和国外以及大小公司间都会多少有一些不同。一个互联网产品的生成一般经历的过程是:项目立项、需求分析、研发部门开发、测试部门测试、运维部门部署发布以及长期的运行维护。运维,本质上是对网络、服务器、服务的生命周期各个阶段的运营与维护,在成本、稳定性、效率上达成一致可接受的状态。

-----宋停云与您分享------ -----宋停云与您分享------ 运维工作职责及制度 工作范围: 一、架构设计 为研发部门提供非代码方面的运维技术协助,并在产品开发初期或部署阶段与之共同设计产品运营方面的技术架构,以及架构运行程序和运维自动化软件开发。 二、运行监控 对线上生产环境中的服务器、交换机等各类设备以及关键程序运行状态进行7x24 小时轮班人力监控,如果遇到运行故障能在5 分钟内获得通知,并立即开展应急处理工作。三、数据维护 公司业务内的各种关系和非关系数据库中持久化存储的数据备份,并将备份数据从生产服务器保存到线下公司内部的存储器中并建立数据仓库。 为运营部门建立和维护运营数据“仓库”,并开发部份运营数据挖掘工具。四、企业信息化建设 公司内部办公自动化设备的采购选型、维护、组装,以及协助行政或财务部对该类物品进行资产管理。办公网络系统组建,例如内部文件共享、邮件、IM 等办公协同服务系统的组建和维护。 架构设计工作细则 由于不少公司的研发人员对数据库以及服务器架构方面不是很擅长,需要运维部 DBA 和架构师协助进行产品研发初期或产品部署阶段的协助。主要工作要点如下: 一、 数据库结构设计。数据库的分布式运算架构设计,例如读写分离;数据表的分割存储,存储引擎的择优;数据表字段的类型及数值格式择优。 二、 服务器架构设计。常见的有服务器网络分布,服务角色合并等等。 三、 运维自动化工具开发,主要采用系统的Shell 脚本或 Python、C/C++语言,开发常用的自动备份、监控警报等工具,减少人力成本,加强维护监管的精准度。 -----宋停云与您分享------ -----宋停云与您分享------ 运行监控工作细则: 一、运行监控工作需7 x24 小时不间断的对所有生产环境中的服务器、路由器以用服务端软件进行监控。 运维监控工作按每天 24 小时计算,由五名运维工程师每人轮班,假设为ABCDE 五名员工,具体排班表见附件《运维轮排表》。 二、运维工作中监测到异常时需按以下流程来处理: 记录故障详情 记录故障详情 应急处理 预计处理时间超过10分钟 汇报至运维负责人 10分钟内处理成功 通知运营部 发布紧急维护公告 恢复运行 运维部组进行后续维护 记录详细的故障症状及相关输出信息 运维部会开发一套运维工作日志系统,用于记录每次故障的详情,以便日后对故障进行后续跟踪和职责过失判定。 进行应急处理 运维部与研发部双方会不断交涉更新汇总出一份常见故障应急处理方法的手册,以B/S 形式发放至每一位运维工程师。当出现突发故障时,运维工程师在记录下故障详情后,则按照该手册结合自己的技术经验来进行故障修复。 发布紧急维护通知 当故障在 10 分钟内无法恢复时,应属于紧急维护,需要对外发布维护公告。根据公司制度,运维工程师需先上报至运维部负责人,再由运维部负责人通知运营部负责人发布通知。 为了防止联系不上运维或运营部负责人以及公布发布专人,运营部需有权用运营部拟定的维护公告模板来发布紧急维护公告,但是由运维部发布的维护公告,需事后由运维及运营部负责人签字确认原因是有相关负责人联系不上。 运维部开始进行后续技术处理直至问题解决 较复杂的故障处理工作在发布紧急维护公告之后,运维部负责人需组织运维工程师进行 -----宋停云与您分享------ -----宋停云与您分享------ 后续的故障排队工作直至问题解决。 三、运行监控中常出现的故障分为三个类别:硬件故障、软件故障、网络故障。由于服务器等硬件在外地 IDC 机房,而网络故障大多出在 IDC、ISP 环节,运维不能自行处理,需走对外的行政流程,因此对于运维工作的过失判断主要从软件故障上进行。 如果是因产品程序负载能力引起的故障,不属于运维工作失职。因此每次出现故障之后都需要记录详情,以便跟研发人员一起找出故障原因。 数据维护工作细则 数据维护工作主要分为生产环境中的过期数据定时分割到公司内部的本地“数据仓库” 中进行备份存储,以供后续进行数据挖掘分析。同时还需定时备份生产环境中的线上数据以 便出现意外情况时进行数据恢复。数据维护工作主要分以下步骤: 每周将线上实时数据按月进行分割备份,例如广告统计、网站访问统计等数据,把 30 天以前的数据从线上数据库中分割出来保存到本地数据仓库。 每周一 00:00 对线上数据库进行一次完整备份; 每天 03:00 对线上数据库进行一次增量备份。 备份文件全部保存到公司内部的“数据仓库”服务器中,“数据仓库”服务器使用至少三块硬盘组建 RAID-5 阵盘阵列,防止有硬盘损坏时出现数据丢失的情况。为防止“数据仓库”服务器的磁盘阵列卡出现损坏的意外,“数据仓库”中的文件会每三天复制一份到运维负责人的办公电脑中,做到本地一份和异地

文档评论(0)

宋停云 + 关注
实名认证
文档贡献者

特种工作操纵证持证人

尽我所能,帮其所有;旧雨停云,以学会友。

领域认证该用户于2023年05月20日上传了特种工作操纵证

1亿VIP精品文档

相关文档