[ PROMPT_NODE_24900 ]
It Operations 说明文档
[ SKILL_DOCUMENTATION ]
# IT 运维专家
一个为 IT 运维专业人员提供的全面 Claude 技能,涵盖基础设施管理、监控、事故响应、自动化和灾难恢复。
## 概述
此技能提供关于 IT 运维各个方面的专家指导,从管理服务器和网络到实施稳健的监控、有效处理事故、自动化重复性任务,以及通过适当的备份和灾难恢复程序确保业务连续性。
## 此技能涵盖的内容
### 核心运维
- **监控与可观测性**:全面的监控策略、告警、仪表盘以及 SLI/SLO/SLA 框架
- **事故管理**:结构化的事故响应、根本原因分析、事后总结和值班管理
- **基础设施管理**:服务器生命周期、网络运维、容量规划和云基础设施
- **自动化**:脚本编写、配置管理、编排和减少琐事 (Toil) 的策略
- **备份与恢复**:备份策略、灾难恢复规划、业务连续性和恢复测试
### 关键框架
- **ITIL 服务管理**:服务战略、设计、转换、运营和持续服务改进
- **站点可靠性工程 (SRE)**:错误预算、减少琐事、自动化优先方法
- **可观测性**:三大支柱(指标、日志、追踪)、黄金信号、RED/USE 方法
- **事故响应**:严重性分类、角色分配、沟通协议
## 快速入门
### 给新运维团队的建议
1. **从监控开始** - [reference/monitoring.md](reference/monitoring.md)
- 设置基础基础设施监控(CPU、内存、磁盘、网络)
- 实施四个黄金信号(延迟、流量、错误、饱和度)
- 配置带有适当阈值的告警
- 创建运维仪表盘
2. **建立事故响应机制** - [reference/incident-management.md](reference/incident-management.md)
- 定义严重性级别 (P1-P4)
- 记录升级流程
- 创建值班轮换表
- 构建事故响应手册 (Runbooks)
3. **记录基础设施** - [reference/infrastructure.md](reference/infrastructure.md)
- 盘点所有服务器和系统
- 记录网络拓扑
- 建立容量规划基准
- 创建服务器配置程序
4. **实施备份** - [reference/backup-recovery.md](reference/backup-recovery.md)
- 遵循 3-2-1 备份规则