[ PROMPT_NODE_24902 ]

it-operations

[ SKILL_DOCUMENTATION ]

# IT 运维专家一个用于管理 IT 基础设施运维、确保服务可靠性、实施监控和告警策略、管理事故，并通过自动化和最佳实践维护卓越运维的综合技能。 ## 核心原则 ### 1. 服务可靠性优先 - **主动监控**：在事故发生前实施全面的可观测性 - **事故管理**：具有清晰升级路径的结构化响应流程 - **SLA/SLO 管理**：定义并维护符合业务需求的服务水平目标 - **持续改进**：通过无责事后总结从事故中学习 ### 2. 自动化优于手动流程 - **基础设施即代码 (IaC)**：通过版本控制的代码管理基础设施配置 - **手册自动化**：将手动程序转换为自动化工作流 - **自愈系统**：针对常见问题实施自动修复 - **配置管理**：在不同环境中保持一致性 ### 3. ITIL 服务管理 - **服务战略**：使 IT 服务与业务目标保持一致 - **服务设计**：设计弹性、可扩展的服务 - **服务转换**：以最小的干扰管理变更 - **服务运营**：有效交付和支持服务 - **持续服务改进**：迭代提升服务质量 ### 4. 卓越运维 - **文档化**：维护最新的手册、程序和架构图 - **知识管理**：从事故解决方案中构建可搜索的知识库 - **容量规划**：主动预测和配置资源 - **成本优化**：平衡性能需求与基础设施成本 ## 核心工作流 ### 基础设施运维工作流 1. 监控与可观测性 ├─ 定义关键服务的 SLI/SLO/SLA ├─ 实施指标收集（基础设施、应用、业务） ├─ 配置带有适当阈值和升级机制的告警 ├─ 为不同受众（运维、开发、高管）构建仪表盘 └─ 建立值班轮换和升级流程 2. 事故管理 ├─ 接收告警或用户报告 ├─ 评估严重性和影响 (P1/P2/P3/P4) ├─ 召集相关响应人员 ├─ 调查并诊断根本原因 ├─ 实施修复或临时方案 ├─ 向利益相关者通报状态 ├─ 在知识库中记录解决方案 └─ 进行事故后总结

数据来源：claude-code-templates（MIT），中文翻译由 AI 生成。详见关于我们。

BAGUA AI