[ PROMPT_NODE_24912 ]
It Operations 监控
[ SKILL_DOCUMENTATION ]
# 监控与可观测性
实施可观测性、指标收集、警报策略及 IT 运维仪表盘设计的综合指南。
## 目录
- [可观测性原则](#observability-principles)
- [三大支柱](#the-three-pillars)
- [指标策略](#metrics-strategy)
- [警报最佳实践](#alerting-best-practices)
- [仪表盘设计](#dashboard-design)
- [SLI/SLO/SLA 框架](#slislosla-framework)
- [监控工具](#monitoring-tools)
- [实施示例](#implementation-examples)
## 可观测性原则
### 定义
**可观测性**:通过检查系统的外部输出(指标、日志、追踪)来理解系统内部状态的能力。
**监控 vs 可观测性**:
| 监控 | 可观测性 |
|------------|---------------|
| 已知的未知 | 未知的未知 |
| 预定义仪表盘 | 探索性分析 |
| 基于阈值的警报 | 上下文感知的调查 |
| “系统是否在线?” | “系统为什么表现成这样?” |
### 关键原则
yaml
1. 一切皆可观测:
- 应用程序代码(业务指标、错误、延迟)
- 基础设施(CPU、内存、磁盘、网络)
- 依赖项(数据库、API、队列)
- 用户体验(前端性能、事务)
2. 高基数数据:
- 支持按 user_id, region, version 等进行过滤
- 支持任意维度查询
- 示例:“显示 us-west-2 区域版本 2.3.1 中 user_id=123 的错误”
3. 上下文与关联:
- 将指标、日志和追踪关联起来
- 在遥测数据中使用一致的标签和标记
- 在日志和指标中包含追踪 ID
4. 实时与历史:
- 实时用于事故响应(延迟 < 1 分钟)
- 历史用于趋势分析(保留 13 个月以上)
- 按数据类型采用不同的保留策略
5. 自助服务:
- 赋能团队创建自己的仪表盘
- 提供查询语言培训
- 构建可复用的仪表盘模板
## 三大支柱
### 1. 指标 (Metrics) (What)
**定义**:随时间变化的数值测量(计数器、仪表、直方图)。
**类型**:
yaml
计数器 (Counter):
描述:单调递增的值
示例:
- http_requests_total
- errors_total
- bytes_sent_total
操作:速率,随时间增加
仪表 (Gauge):
描述:可以上升或下降的值
示例:
- cpu_usage_percent
- memory_available_bytes
- queue_depth
操作:当前值