[ PROMPT_NODE_24912 ]

It Operations 监控

[ SKILL_DOCUMENTATION ]

# 监控与可观测性实施可观测性、指标收集、警报策略及 IT 运维仪表盘设计的综合指南。 ## 目录 - [可观测性原则](#observability-principles) - [三大支柱](#the-three-pillars) - [指标策略](#metrics-strategy) - [警报最佳实践](#alerting-best-practices) - [仪表盘设计](#dashboard-design) - [SLI/SLO/SLA 框架](#slislosla-framework) - [监控工具](#monitoring-tools) - [实施示例](#implementation-examples) ## 可观测性原则 ### 定义 **可观测性**：通过检查系统的外部输出（指标、日志、追踪）来理解系统内部状态的能力。 **监控 vs 可观测性**： | 监控 | 可观测性 | |------------|---------------| | 已知的未知 | 未知的未知 | | 预定义仪表盘 | 探索性分析 | | 基于阈值的警报 | 上下文感知的调查 | | “系统是否在线？” | “系统为什么表现成这样？” | ### 关键原则 yaml 1. 一切皆可观测： - 应用程序代码（业务指标、错误、延迟） - 基础设施（CPU、内存、磁盘、网络） - 依赖项（数据库、API、队列） - 用户体验（前端性能、事务） 2. 高基数数据： - 支持按 user_id, region, version 等进行过滤 - 支持任意维度查询 - 示例：“显示 us-west-2 区域版本 2.3.1 中 user_id=123 的错误” 3. 上下文与关联： - 将指标、日志和追踪关联起来 - 在遥测数据中使用一致的标签和标记 - 在日志和指标中包含追踪 ID 4. 实时与历史： - 实时用于事故响应（延迟 < 1 分钟） - 历史用于趋势分析（保留 13 个月以上） - 按数据类型采用不同的保留策略 5. 自助服务： - 赋能团队创建自己的仪表盘 - 提供查询语言培训 - 构建可复用的仪表盘模板 ## 三大支柱 ### 1. 指标 (Metrics) (What) **定义**：随时间变化的数值测量（计数器、仪表、直方图）。 **类型**： yaml 计数器 (Counter)：描述：单调递增的值示例： - http_requests_total - errors_total - bytes_sent_total 操作：速率，随时间增加仪表 (Gauge)：描述：可以上升或下降的值示例： - cpu_usage_percent - memory_available_bytes - queue_depth 操作：当前值

数据来源：claude-code-templates（MIT），中文翻译由 AI 生成。详见关于我们。

BAGUA AI