年度踩坑笔记:经验提炼与避坑指南.docxVIP

年度踩坑笔记:经验提炼与避坑指南.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

年度踩坑笔记:经验提炼与避坑指南

目录

项目与需求

技术与架构

代码与质量

测试与发布

运维与稳定性

人员与协作

合规与成本

一句话速查表(Checklist)

1.项目与需求

踩坑场景

症状

根因

避坑动作

事后补救

需求“一句话”上线

PRD只有一行描述,开发测完才发现流程不通

需求方“拍脑袋”,缺乏评审

建立“3W模型”:Who用、When用、Why值得做,任何需求必须经过TL二次评审

补做场景用例,灰度发布+数据看板

里程碑倒排

研发“自愿”承诺上线时间,结果延期2次

缺少风险缓冲评估

里程碑=(最乐观估×2+最悲观估×3)÷5+20%Buffer

每周burn-down重新对齐,必要时砍scope

KPI项目

临时插入“老板KPI”导致主版本延期

版本优先级未固化

建立“季度BacklogLock”,任何插入需求需CTO书面签字

重新切分支,老版本继续维护,KPI需求独立迭代

2.技术与架构

踩坑场景

症状

根因

避坑动作

事后补救

自研网关

上线3个月频繁OOM,补丁20+个

重复造轮子,未压测

网关优先选成熟云产品(NGINX+、APISIX、Kong)

存量迁移方案:灰度切流5%→50%→100%

微服务大爆炸

100+个jar,一个业务改动发版10+次

过度拆分

按“两披萨原则”拆分(一个服务5~8人内能吃完两披萨)

合并不活跃微服务,接口收口限流

无文档API

新成员两周都没调通老接口

文档只靠PostmanCollection

OpenAPI/Swagger标准化,任何接口Review必须有

两周内补文档+录制3分钟Loom视频

单点Redis

一次主节点宕机全站502

架构过度依赖单机缓存

Redis哨兵+Cluster,写操作双写

增加缓存穿透、雪崩演练脚本

3.代码与质量

踩坑场景

症状

根因

避坑动作

事后补救

“祖传”脚本

定时任务写在crontab+shell,无人敢改

缺少owner文档

用CI/CD调度(Jenkinsfile/ArgoWorkflow)

重构脚本并用容器封装,纳入代码库

CodeReview形式化

LGTM三秒过,线上NPE

Review流程缺失checklist

Review必须强制双Approve+安全检查清单(SQL注入、XSS、幂等)

紧急hotfix补丁+事故复盘会议

分支策略混战

主干发布+feature分支并行,回滚找不到基线

GitFlow过度复杂

使用trunk-based+featureflag

引入“Release分支仅打Tag”规则

4.测试与发布

踩坑场景

症状

根因

避坑动作

事后补救

集成测试全靠“人肉”

版本发布前全团队通宵点点点

缺少自动化覆盖率

单元70%+,接口60%+,端到端20%作为门禁

先补齐P0场景用例,使用Cypress/Playwright

灰度无指标

灰度30分钟直接全量

没有SLO监控

设定“错误率0.1%延迟P99500ms”才扩大

回滚脚本一键回退,5分钟生效

环境不一致

测试通过,上线就挂

配置漂移

IaC(Terraform/Helm)锁死环境

用Docker-Compose本地一键复现

5.运维与稳定性

踩坑场景

症状

根因

避坑动作

事后补救

报警风暴

夜报300+条,无法分辨关键

阈值过细,误报多

报警三级:“提醒、告警、故障”,一周SREOn-callReview

合并同类指标,动态阈值算法

缺失runbook

新人收到P1报警直接panic

文档只存在老司机脑子里

runbook必须包含“如何验证、如何回滚、如何联系依赖方”

1:1mentor+每周GameDay演练

日志未索引

排查一次事故要2小时

日志无统一格式

使用JSON+统一trace-id,接入ELK/Loki

开发统一log-spring-starter,强制CodeReview

6.人员与协作

踩坑场景

症状

根因

避坑动作

事后补救

“英雄”文化

只有一个人懂核心模块,请假=停机

Busfactor=1

强制交叉CodeReview,pairprogramming20%工作量计入绩效

内部技术分享+轮值on-call

会议爆炸

1天6个会,开发时间碎片化

需求变更、状态同步混杂

三类会议:决策会(≤6人)、信息会(录屏)、每日stand-up(15min)

统一使用异步更新文档+comment

绩效只看“

文档评论(0)

hdswk + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档