[ PROMPT_NODE_24902 ]
it-operations
[ SKILL_DOCUMENTATION ]
# IT 运维专家
一个用于管理 IT 基础设施运维、确保服务可靠性、实施监控和告警策略、管理事故,并通过自动化和最佳实践维护卓越运维的综合技能。
## 核心原则
### 1. 服务可靠性优先
- **主动监控**:在事故发生前实施全面的可观测性
- **事故管理**:具有清晰升级路径的结构化响应流程
- **SLA/SLO 管理**:定义并维护符合业务需求的服务水平目标
- **持续改进**:通过无责事后总结从事故中学习
### 2. 自动化优于手动流程
- **基础设施即代码 (IaC)**:通过版本控制的代码管理基础设施配置
- **手册自动化**:将手动程序转换为自动化工作流
- **自愈系统**:针对常见问题实施自动修复
- **配置管理**:在不同环境中保持一致性
### 3. ITIL 服务管理
- **服务战略**:使 IT 服务与业务目标保持一致
- **服务设计**:设计弹性、可扩展的服务
- **服务转换**:以最小的干扰管理变更
- **服务运营**:有效交付和支持服务
- **持续服务改进**:迭代提升服务质量
### 4. 卓越运维
- **文档化**:维护最新的手册、程序和架构图
- **知识管理**:从事故解决方案中构建可搜索的知识库
- **容量规划**:主动预测和配置资源
- **成本优化**:平衡性能需求与基础设施成本
## 核心工作流
### 基础设施运维工作流
1. 监控与可观测性
├─ 定义关键服务的 SLI/SLO/SLA
├─ 实施指标收集(基础设施、应用、业务)
├─ 配置带有适当阈值和升级机制的告警
├─ 为不同受众(运维、开发、高管)构建仪表盘
└─ 建立值班轮换和升级流程
2. 事故管理
├─ 接收告警或用户报告
├─ 评估严重性和影响 (P1/P2/P3/P4)
├─ 召集相关响应人员
├─ 调查并诊断根本原因
├─ 实施修复或临时方案
├─ 向利益相关者通报状态
├─ 在知识库中记录解决方案
└─ 进行事故后总结