[ PROMPT_NODE_22498 ]
Infrastructure Lambda Labs 故障排查
[ SKILL_DOCUMENTATION ]
# Lambda Labs 故障排除指南
## 实例启动问题
### 无可用实例
**错误**:"No capacity available" 或实例类型未列出
**解决方案**:
bash
# 通过 API 检查可用性
curl -u $LAMBDA_API_KEY:
https://cloud.lambdalabs.com/api/v1/instance-types | jq '.data | to_entries[] | select(.value.regions_with_capacity_available | length > 0) | .key'
# 尝试不同区域
# 美国区域: us-west-1, us-east-1, us-south-1
# 国际: eu-west-1, asia-northeast-1 等
# 尝试替代 GPU 类型
# H100 不可用? 尝试 A100
# A100 不可用? 尝试 A10 或 A6000
### 实例启动卡住
**问题**:实例显示 "booting" 超过 20 分钟
**解决方案**:
bash
# 单 GPU: 应在 3-5 分钟内就绪
# 多 GPU (8x): 可能需要 10-15 分钟
# 如果卡住时间更长:
# 1. 终止该实例
# 2. 尝试不同区域
# 3. 尝试不同实例类型
# 4. 如果持续存在,联系 Lambda 支持
### API 认证失败
**错误**:`401 Unauthorized` 或 `403 Forbidden`
**解决方案**:
bash
# 验证 API 密钥格式 (应以特定前缀开头)
echo $LAMBDA_API_KEY
# 测试 API 密钥
curl -u $LAMBDA_API_KEY:
https://cloud.lambdalabs.com/api/v1/instance-types
# 如有需要,从 Lambda 控制台生成新 API 密钥
# Settings > API keys > Generate
### 配额限制已达
**错误**:"Instance limit reached" 或 "Quota exceeded"
**解决方案**:
- 在控制台检查当前运行的实例
- 终止未使用的实例
- 联系 Lambda 支持申请增加配额
- 大规模需求请使用一键集群
## SSH 连接问题
### 连接被拒绝
**错误**:`ssh: connect to host port 22: Connection refused`
**解决方案**:
bash
# 等待实例完全初始化
# 单 GPU: 3-5 分钟
# 多 GPU: 10-15 分钟
# 在控制台检查实例状态 (应为 "active")
# 验证 IP 地址是否正确
curl -u $LAMBDA_API_KEY:
https://cloud.lambdalabs.com/api/v1/instances | jq '.data[].ip'
### 权限被拒绝
**错误**:`Permission denied (publickey)`
**解决方案**:
bash
# 验证 SSH 密钥是否匹配
ssh -v -i ~/.ssh/lambda_key ubuntu@
# 检查密钥权限
chmod 600 ~/.ssh/lambda_key
chmod 644 ~/.ssh/lambda_key.pub
# 验证密钥在启动前已添加到 Lambda 控制台
# 密钥必须在启动实例前添加
# 检查实例上的 authorized_keys (如果有其他进入方式)
cat ~/.ssh/authorized_keys
### 主机密钥验证失败