- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
技术问题排查与解决步骤标准模板
一、适用范围与典型场景
本模板适用于各类技术场景中的问题排查与解决工作,覆盖但不限于以下情况:
系统运维类:服务器宕机、应用服务异常、功能瓶颈(如高并发响应慢、内存泄漏)、网络故障(如无法访问、延迟高)、数据库故障(如连接超时、数据损坏)等;
开发测试类:功能缺陷(如接口返回错误、业务逻辑异常)、兼容性问题(如浏览器/终端适配异常)、环境问题(如开发/测试/生产环境不一致)、代码报错(如编译失败、运行时异常)等;
项目交付类:新系统上线后功能异常、第三方接口对接失败、数据迁移错误、用户操作反馈问题等;
安全运维类:漏洞触发(如SQL注入、XSS攻击)、异常登录、数据泄露风险等。
适用角色包括运维工程师、开发工程师、测试工程师、项目经理、技术支持人员等,保证问题排查流程标准化、责任明确化、解决高效化。
二、标准化排查流程与操作细则
(一)问题接收与初步记录
操作目标:完整收集问题信息,明确问题边界,避免信息遗漏导致排查方向偏差。
记录项
说明
示例填写
问题编号
按规则唯一标识(如“YYYYMMDD-X”,X为当日序号)001
提交时间
精确到分钟(格式:YYYY-MM-DDHH:MM)
2023-10-2514:30
提交人
填写真实姓名(用*号代替)或工号
涉及系统/模块
明确问题发生的系统名称、模块或功能点
订单管理系统-订单提交接口
问题描述
详细说明问题现象(如“无法提交订单”“返回500错误”)、发生频率、触发条件
用户在提交订单时,“提交”按钮后页面提示“系统繁忙,请稍后重试”,连续尝试3次均失败;仅在生产环境出现,测试环境正常
影响范围
说明影响用户量、业务场景及严重程度(如“影响所有用户”“核心功能不可用”)
影响约500名用户下单,核心业务受阻,严重等级:P1(紧急)
附件信息
附上截图、日志文件、错误复现步骤等(可注明文件存储路径)
详见附件:订单提交失败截图、应用服务器error.log
(二)问题初步分析与分类
操作目标:快速定位问题大类,判断是否为已知问题,确定优先级和排查方向。
问题分类:
按性质分类:功能类(如业务逻辑错误)、功能类(如响应慢/超时)、稳定性类(如崩溃/宕机)、安全类(如漏洞/攻击)、环境类(如配置错误/资源不足);
按范围分类:单点问题(如某台服务器异常)、系统问题(如整个模块不可用)、跨系统问题(如依赖服务异常)。
优先级判定:
P1(紧急):核心功能不可用,影响大量用户,业务中断(如支付接口失败);
P2(高):非核心功能异常,部分用户受影响,业务受影响(如订单查询偶尔失败);
P3(中):偶发问题,影响小,可临时规避(如页面样式错乱);
P4(低):优化类问题,无实际影响(如日志提示非关键警告)。
已知问题核查:
查看历史问题记录、知识库、发布公告,确认是否为已修复或已知问题(如版本缺陷、外部接口升级影响);
若为已知问题,直接关联历史解决方案并跟进修复进度;若未知,进入下一步深入排查。
(三)深入排查与问题定位
操作目标:通过工具、日志、测试等手段,逐步缩小问题范围,定位根本原因。
1.排查路径规划(按优先级)
排查方向
具体操作
常用工具/方法
环境核查
检查服务器环境(OS版本、JDK版本、依赖库)、网络连通性(端口、防火墙)、配置文件(数据库连接、缓存地址)
ping/telnet、ifconfig/ipconfig、cat/grep(查看配置文件)
日志分析
定位问题时间点,收集应用日志(error/warn/info)、系统日志(kernel/event)、数据库日志(slowquery/audit)
ELK(Elasticsearch+Logstash+Kibana)、tail/sed/awk(日志过滤)、Navicat(数据库日志)
链路追踪
梳理业务调用链路(如前端→API网关→业务服务→数据库/缓存),定位异常节点
Zipkin、SkyWalking、Jaeger、postman(接口测试)
资源监控
检查CPU、内存、磁盘I/O、网络带宽使用率是否过高
top/htop、free/vmstat、iostat、nload、Zabbix/Prometheus(监控平台)
代码/配置复查
回归近期代码变更记录(如Git提交记录)、配置变更记录(如灰度发布配置),对比异常版本与正常版本差异
Git(日志/差异对比)、Diff工具(配置文件比对)
2.定位原则
从外到内:先检查外部依赖(网络、第三方接口),再检查内部系统(应用、数据库);
从表象到根源:先解决直接影响(如恢复服务),再分析根本原因(如内存泄漏代码);
复现验证:在测试环境尝试复现问题,确认触发条件(如特定操作、数据量、并发数)。
(四
原创力文档


文档评论(0)