[ PROMPT_NODE_24900 ]

It Operations 说明文档

[ SKILL_DOCUMENTATION ]

# IT 运维专家一个为 IT 运维专业人员提供的全面 Claude 技能，涵盖基础设施管理、监控、事故响应、自动化和灾难恢复。 ## 概述此技能提供关于 IT 运维各个方面的专家指导，从管理服务器和网络到实施稳健的监控、有效处理事故、自动化重复性任务，以及通过适当的备份和灾难恢复程序确保业务连续性。 ## 此技能涵盖的内容 ### 核心运维 - **监控与可观测性**：全面的监控策略、告警、仪表盘以及 SLI/SLO/SLA 框架 - **事故管理**：结构化的事故响应、根本原因分析、事后总结和值班管理 - **基础设施管理**：服务器生命周期、网络运维、容量规划和云基础设施 - **自动化**：脚本编写、配置管理、编排和减少琐事 (Toil) 的策略 - **备份与恢复**：备份策略、灾难恢复规划、业务连续性和恢复测试 ### 关键框架 - **ITIL 服务管理**：服务战略、设计、转换、运营和持续服务改进 - **站点可靠性工程 (SRE)**：错误预算、减少琐事、自动化优先方法 - **可观测性**：三大支柱（指标、日志、追踪）、黄金信号、RED/USE 方法 - **事故响应**：严重性分类、角色分配、沟通协议 ## 快速入门 ### 给新运维团队的建议 1. **从监控开始** - [reference/monitoring.md](reference/monitoring.md) - 设置基础基础设施监控（CPU、内存、磁盘、网络） - 实施四个黄金信号（延迟、流量、错误、饱和度） - 配置带有适当阈值的告警 - 创建运维仪表盘 2. **建立事故响应机制** - [reference/incident-management.md](reference/incident-management.md) - 定义严重性级别 (P1-P4) - 记录升级流程 - 创建值班轮换表 - 构建事故响应手册 (Runbooks) 3. **记录基础设施** - [reference/infrastructure.md](reference/infrastructure.md) - 盘点所有服务器和系统 - 记录网络拓扑 - 建立容量规划基准 - 创建服务器配置程序 4. **实施备份** - [reference/backup-recovery.md](reference/backup-recovery.md) - 遵循 3-2-1 备份规则

数据来源：claude-code-templates（MIT），中文翻译由 AI 生成。详见关于我们。

BAGUA AI