- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
IT主管年底工作总结及2026年度工作计划
2025财年,公司把“全域数字化、极致客户体验、成本领先”写进OKR,IT条线被直接点名:全年系统可用性≥99.95%,线上订单占比提升8pct,IT总拥有成本(TCO)再降5%。我把这三句话拆成27个可度量指标,挂在部门战情室墙上,每天08:55雷打不动站会过进度。一年跑下来,可用性99.97%,线上订单占比从61.3%拉到71.8%,TCO降了6.4%,折合1783万元。数字背后,是4次重大故障归零、容器化比例由35%提升到82%、数据库慢SQL下降92%、研发交付周期从14.6天缩短到6.2天。这些结果直接托举了公司GMV同比增长34%,客服投诉率下降42%,NPS提升6分,董事会把IT从“成本中心”改口叫“增长引擎”。
我把成果拆成四条主线复盘。
第一条是“稳”。年初两地三中心只跑热备,RPO30分钟;我把Ceph集群从3副本改成4+2纠删码,把光纤从10G升到100G,把K8s跨区联邦从0到1搭出来,结果6月18日核心链路故障7分13秒就完成跨区切换,零数据丢失。全年P1故障4起,比去年少9起,平均恢复时间MTTR从52分钟压到11分钟,直接避免营收损失960万元。
第二条是“快”。我把“需求上线”拆成37个价值流节点,发现等待浪费占61%,于是拉上HR把Scrum团队从6个扩到11个,把测试环境从48套物理机改成400套K8sPod,用ArgoCD做GitOps,把发布窗口从周二周四晚上改成每天12次灰度。结果2025年共上线4821次,比去年多2.7倍,回滚次数反而从187次降到19次,回滚率0.39%。研发人效提升41%,折合节省52人月,按人均成本2.8万/月算,直接释放1456万元预算。
第三条是“省”。我把云账单拆成11个维度312个标签,发现离线作业把CPU瞬时打到90%但平均只有18%,于是用Karpenter+Spot实例做弹性,把离线队列全部赶到夜间Spot,再把BigQuery分区表从3650天缩到90天,冷数据转OSSIA,一年省出983万元。办公室侧推进无纸化电子签,打印耗材下降72%,折合97万元。两项叠加,超额完成TCO降本目标128%。
第四条是“融”。业务喊了三年“数据孤岛”,我把42个系统3800张表全扫进DataHub,用FlinkCDC做实时血缘,把会员、订单、商品、营销4大主题域打通,建成5大实时数据产品:全域标签、实时风控、智能补货、动态定价、客服助手。双11当天实时计算峰值2.1亿条/秒,智能补货把缺货率从3.8%压到1.1%,动态定价带来额外毛利1.24亿元。董事会原话:“IT终于让数据变成了现金流。”
数字光鲜,问题同样扎眼。我把全年187张复盘报告拆成92个具体问题,归到四类。
第一类是“人”。队伍2025年净增47人,总人数213,但Senior以上只占18%,低于行业32%的均值。原因是招聘策略过于保守,薪酬带宽比市场P75低8%,导致高端人才流失11人,其中4人带走核心代码。深层看,是我对技术品牌投入不足,全年只做了3场技术沙龙,社区影响力排名掉到50名开外。
第二类是“债”年为了快,积累了460万行“一次性代码”,圈复杂度30的函数1.9万个,Sonar阻塞级漏洞742个。2025年业务需求暴涨,还债投入只占12%,结果9月大促期间优惠券服务因为一段2021年的硬编码逻辑触发死循环,导致28分钟无法下单,损失4300万元。表面是代码质量,本质是我对技术债的ROI模型算不清,不敢跟业务拍桌子。
第三类是“云”。为了省成本,我把41%的计算搬到Spot,但Spot实例回收告警机制没做全,11月3日凌晨04:52一批GPU训练任务被回收,模型checkpoint没写回,导致推荐模型断训6小时,当天GMV下降2.7%。根因是云原生可观测体系缺位,Prometheus采样间隔30s,粒度太粗,没抓到瞬时抖动。
第四类是“安”。2025年外部攻击17万次,同比增长3倍。虽然0入侵成功,但SRC上报的高危漏洞41个,其中7个涉及核心支付链路。问题出在“安全左移”只做了CI里的SAST,IaC模板63%存在硬编码
原创力文档


文档评论(0)