2025年工程师年终工作总结.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

2025年工程师年终工作总结

一、年度目标回顾与达成度

年初给自己定的三条硬指标:①把主站可用性从99.92%拉到99.97%;②把单次发布平均耗时从47分钟压到15分钟以内;③把线上告警总量降低50%。到12月31号24:00,三条全部兑现:可用性跑到99.975%,发布耗时稳在11分24秒,告警总量同比下降62.3%。额外收获是成本,云账单比预算少花了118万,靠的是把离线集群从ECS全量迁到Spot+ACK混部,CPU利用率从18%提到54%。

二、重点项目复盘

1.双活架构落地

去年10月做完机房级双活方案评审,今年3月真正开工。难点在数据面:MySQL跨Region延迟稳态28ms,偶尔跳到90ms,业务接受不了。把Binlog并行复制改成基于WriteSet的冲突检测,再叠加自研的Region-AwareProxy,做到写入QoS分级:P0事务走主库强同步,P1以下事务允许跨区异步。灰度期间用ChaosMesh注入7类网络异常,最长一次断网37分钟,数据零丢失,RPO=0,RTO=73秒。6月全量切流,至今没回滚过。

2.发布系统3.0

老发布系统基于Jenkins+Ansible,脚本两万多行,没人敢改。重新设计PipelineasCode,用Tekton做引擎,所有任务容器化,把“编译-单测-镜像-扫描-灰度-全量”做成一条DAG。最花心思的是灰度策略:金丝雀+分批+自动回滚。金丝雀阶段把流量镜像到影子集群,用Diffy对比返回Body,差异超过0.5%自动中止。发布耗时从47分钟降到11分钟,回滚从15分钟降到90秒。全年累计发布1842次,失败回滚仅9次,成功率99.51%。

3.离线计算降本

离线集群原来2100台ECS,跑Spark+Presto,每天闲时CPU不到10%。先做资源画像,把任务按内存/CPU比例分成四象限,CPU密集型的迁到Spot,内存型的留在包年包月。再改调度器,用YARN的label-basedscheduling把Spot实例打上“interruptible”标签,任务失败自动重试。上线第一个月就省37万,全年省118万,Spot回收率2.1%,对SLA无影响。

4.智能告警治理

告警总量从日均1847条降到696条。核心思路是“合并-分级-自愈”。合并用AI聚类,把相似度0.85的告警压成一条;分级按业务影响度打标签,P0直接电话,P1发钉钉,P2以下只记日志;自愈用FaaS写脚本,CPU飙高自动扩容、磁盘满自动清理日志。全年累计自愈4283次,把值班人从“灭火队员”变成“看板观众”。

三、技术细节与踩坑

1.MySQL双活脑裂

5月出现过一次脑裂:北京区网络抖动,VIP漂移,两个Region同时认为自己是主库,写入冲突。事后发现是pt-heartbeat的租约过期时间设得太宽。把租约从10秒改成3秒,再加上Redis分布式锁,问题没再出现。

2.Spot回收导致任务失败

8月Spot大规模回收,一次干掉420台,SparkThriftServer全挂。原因是AM也跑在Spot上。后来把AM固定在包年包月节点,Executor跑Spot,回收时AM不挂,任务重试即可。

3.发布系统DAG死锁

9月有一次Pipeline卡死,原因是两个任务互相等对方产出镜像。Tekton的DAG没有检测环,只能人工排。后来写了个静态扫描工具,在PipelineYAML提交前就禁止环出现。

4.告警合并误杀

11月把AI聚类阈值从0.85调到0.9,结果把“订单超时”和“支付超时”压成一条,值班没及时发现。后来引入业务维度,必须同一个AppId+ErrorCode才合并,误杀降到0。

四、团队与协作

今年带11人小组,其中应届生3人。每周三晚上“代码夜校”,我讲30分钟,大家review代码。全年做了42次分享,覆盖Go内存模型、BPF、Prometheus二次开发。应届生平均PR合并时长从4.8天降到1.2天。

跨团队协作上,跟数据部一起做了实时数仓,把Kafka→SparkStreaming→ClickHouse的链路改成Kafka→Flink→Iceberg→Trino,延迟从5分钟降到30秒,CPU省40%。跟安全部做了镜像漏洞扫描网关,在CI阶段就阻断高危镜像,全年阻断217次,生产环境0高危漏洞。

五、个人成长

1.技术

写了2.1万行Go,1.3万行Python,读完《DesigningData-IntensiveApplications》第二遍,做了120条笔记。拿到CKA证书,考了AWSSAP,补了网络协议细节,把TCP拥塞控制算法从CUBIC换成BBR,跨国

文档评论(0)

189****1111 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档