[ PROMPT_NODE_24830 ]
grafana-dashboards
[ SKILL_DOCUMENTATION ]
# Grafana 看板
创建并管理生产级 Grafana 看板,实现全面的系统可观测性。
## 何时不要使用此技能
- 任务与 Grafana 看板无关
- 你需要此范围之外的其他领域或工具
## 指令
- 明确目标、约束和所需输入。
- 应用相关最佳实践并验证结果。
- 提供可操作的步骤和验证方法。
- 如果需要详细示例,请打开 `resources/implementation-playbook.md`。
## 目标
设计有效的 Grafana 看板,用于监控应用程序、基础设施和业务指标。
## 何时使用此技能
- 可视化 Prometheus 指标
- 创建自定义看板
- 实现 SLO 看板
- 监控基础设施
- 跟踪业务 KPI
## 看板设计原则
### 1. 信息层级
┌─────────────────────────────────────┐
│ 关键指标 (大数字) │
├─────────────────────────────────────┤
│ 核心趋势 (时间序列) │
├─────────────────────────────────────┤
│ 详细指标 (表格/热力图) │
└─────────────────────────────────────┘
### 2. RED 方法 (服务)
- **Rate (速率)** - 每秒请求数
- **Errors (错误)** - 错误率
- **Duration (持续时间)** - 延迟/响应时间
### 3. USE 方法 (资源)
- **Utilization (利用率)** - 资源繁忙的时间百分比
- **Saturation (饱和度)** - 队列长度/等待时间
- **Errors (错误)** - 错误计数
## 看板结构
### API 监控看板
{
"dashboard": {
"title": "API Monitoring",
"tags": ["api", "production"],
"timezone": "browser",
"refresh": "30s",
"panels": [
{
"title": "Request Rate",
"type": "graph",
"targets": [
{
"expr": "sum(rate(http_requests_total[5m])) by (service)",
"legendFormat": "{{service}}"
}
],
"gridPos": {"x": 0, "y": 0, "w": 12, "h": 8}
},
{
"title": "Error Rate %",
"type": "graph",
"targets": [
{
"expr": "(sum(rate(http_requests_total{status=~"5.."}[5m])) / sum(rate(http_requests_total[5m]))) * 100",
"legendFormat": "Error Rate"
}
],
"alert": {
"conditions": [
{
"evaluator": {"params": [5], "type": "gt"},
"operator": {"type": "and"},
"query": {"params": ["A", "5m", "now"]},
"type": "query"
}
]
},
"gridPos": {"x":