[ PROMPT_NODE_26826 ]
gpu
[ SKILL_DOCUMENTATION ]
# Modal 上的 GPU 加速
## 快速开始
使用 `gpu` 参数在 GPU 上运行函数:
python
import modal
image = modal.Image.debian_slim().pip_install("torch")
app = modal.App(image=image)
@app.function(gpu="A100")
def run():
import torch
assert torch.cuda.is_available()
## 可用的 GPU 类型
Modal 支持以下 GPU:
- `T4` - 入门级 GPU
- `L4` - 性能与成本平衡
- `A10` - 最多 4 个 GPU,总计 96 GB
- `A100` - 40GB 或 80GB 版本
- `A100-40GB` - 指定 40GB 版本
- `A100-80GB` - 指定 80GB 版本
- `L40S` - 48 GB,非常适合推理
- `H100` / `H100!` - 顶级 Hopper 架构
- `H200` - 具有更大内存的改进版 Hopper
- `B200` - 最新的 Blackwell 架构
查看 https://modal.com/pricing 获取定价信息。
## GPU 数量
使用 `:n` 语法为每个容器请求多个 GPU:
python
@app.function(gpu="H100:8")
def run_llama_405b():
# 可用 8 个 H100 GPU
...
支持的数量:
- B200, H200, H100, A100, L4, T4, L40S: 最多 8 个 GPU(最高 1,536 GB)
- A10: 最多 4 个 GPU(最高 96 GB)
注意:请求 >2 个 GPU 可能会导致更长的等待时间。
## GPU 选择指南
**用于推理(推荐)**: 从 L40S 开始
- 极佳的性价比
- 48 GB 内存
- 适用于 LLaMA, Stable Diffusion 等
**用于训练**: 考虑 H100 或 A100
- 高计算吞吐量
- 大内存,适合批量处理
**用于内存密集型任务**: H200 或 A100-80GB
- 更大的内存容量
- 更适合大模型
## B200 GPU
NVIDIA 的旗舰 Blackwell 芯片:
python
@app.function(gpu="B200:8")
def run_deepseek():
# 最强大的选项
...
## H200 和 H100 GPU
具有出色软件支持的 Hopper 架构 GPU:
python
@app.function(gpu="H100")
def train():
...
### 自动升级至 H200
Modal 可能会将 `gpu="H100"` 免费升级为 H200。H200 提供:
- 141 GB 内存(H100 为 80 GB)
- 4.8 TB/s 带宽(H100 为 3.35 TB/s)
若要避免自动升级(例如用于基准测试):
python
@app.function(gpu="H100!")
def benchmark():
...
## A100 GPU
Ampere 架构,提供 40GB 或 80GB 版本:
python
# 可能会自动升级到 80GB
@app.function(gpu="A100")
def qwen_7b():
...
# 指定版本
@app.function(gpu="A100-40GB")
def model_40gb():
...
@app.function(gpu="A100-80GB")
def llama_70b():
...
## GPU 回退
通过回退指定多种 GPU 类型:
python
@app.function(gpu=["H100", "A100-40GB:2"]