[ PROMPT_NODE_24908 ]

incident-management

[ SKILL_DOCUMENTATION ]

# 事故管理事故响应、根本原因分析、事后复盘及构建弹性事故管理流程的综合指南。 ## 目录 - [事故生命周期](#incident-lifecycle) - [严重性分类](#severity-classification) - [事故响应角色](#incident-response-roles) - [沟通协议](#communication-protocols) - [根本原因分析](#root-cause-analysis) - [事后复盘](#post-incident-reviews) - [值班管理](#on-call-management) - [事故管理工具](#incident-management-tools) - [运行手册开发](#runbook-development) - [指标与改进](#metrics-and-improvement) ## 事故生命周期 ### 事故状态检测 → 已确认 → 调查中 → 已识别 → 解决中 → 已解决 → 已关闭检测： - 触发自动警报 - 收到用户报告 - 主动监控识别出异常确认： - 值班工程师确认收到通知 - 目标：P1 级 < 5 分钟调查： - 收集症状和证据 - 检查近期变更 - 查看日志和指标 - 识别受影响组件识别： - 形成根本原因假设 - 确定影响范围 - 确定修复方案或临时规避措施解决： - 实施修复或规避措施 - 验证服务恢复 - 监控是否复发关闭： - 确认无进一步影响 - 记录解决方案 - 安排事后复盘 ### 事故响应工作流 yaml 阶段 1：检测与分诊 (0-5 分钟) 操作： - 警报触发或用户报告问题 - 值班人员在 5 分钟内确认 - 初步严重性评估 - 创建事故工单 - 必要时呼叫额外响应人员关键问题： - 用户侧的影响是什么？ - 多少用户/客户受到影响？ - 数据是否有风险？ - 情况是否在恶化？阶段 2：调查 (5-30 分钟) 操作： - 加入事故作战室 (Slack/Zoom) - 指派事故指挥官角色 - 查看近期变更（部署、配置） - 检查监控仪表盘 - 查询错误日志 - 追踪受影响的请求 - 形成初步假设关键问题： - 最近有什么变化？ - 日志显示什么？ - 依赖项是否健康？ - 我们能重现这个问题吗？阶段 3：缓解 (30-60 分钟) 操作： - 实施修复或规避措施 - 必要时回滚近期变更 - 如果是容量问题则扩展资源

数据来源：claude-code-templates（MIT），中文翻译由 AI 生成。详见关于我们。

BAGUA AI