[ PROMPT_NODE_22304 ]
mii
[ SKILL_DOCUMENTATION ]
# Deepspeed - Mii
**页面数:** 1
---
## DeepSpeed-MII: 为 24,000 多个开源深度学习模型提供即时加速,推理成本降低高达 40%
**URL:** https://www.deepspeed.ai/2022/10/10/mii.html
**内容:**
- DeepSpeed-MII: 为 24,000 多个开源深度学习模型提供即时加速,推理成本降低高达 40%
- 内容
- MII 是如何工作的?
- 支持的模型和任务
- MII 推理优化
- MII-Public 和 MII-Azure
- 量化延迟和成本降低
- 延迟敏感场景
- 成本敏感场景
- 部署选项
深度学习 (DL) 开源社区在过去几个月中经历了巨大的增长。通过 Hugging Face 等平台,任何拥有少量甚至单个 GPU 的人现在都可以使用诸如 Bloom 176B 这样极其强大的文本生成模型,或诸如 Stable Diffusion 这样的图像生成模型。虽然开源使 AI 能力的获取民主化,但其应用仍受到两个关键因素的限制:1) 推理延迟和 2) 成本。
在深度学习模型推理的系统优化方面已经取得了重大进展,可以大幅降低延迟和成本,但这些优化并不容易获得。这种有限可访问性的主要原因是深度学习模型推理领域的多样性,模型在大小、架构、系统性能特征、硬件要求等方面各不相同。识别适用于给定模型的一组适当系统优化并正确应用它们,往往超出了大多数数据科学家的能力范围,导致低延迟和低成本推理在很大程度上无法实现。
DeepSpeed 模型推理实现 (MII) 是 DeepSpeed 推出的一个新的开源 Python 库,旨在使强大模型的低延迟、低成本推理不仅可行,而且易于获取。
图 1:MII 架构,展示了 MII 如何在通过 GRPC 在本地部署或通过 AML 推理在 Microsoft Azure 上部署之前,使用 DS-Inference 自动优化开源模型。
MII 的底层由 DeepSpeed-Inference 提供支持。根据模型类型、模型大小、批处理大小和可用硬件资源,MII 会自动从 DeepSpeed-Inference 应用适当的系统优化集,以最大限度地减少延迟并最大限度地提高吞吐量。它通过使用多种预先指定的模型注入策略之一来实现这一点,该策略允许 MII 和 DeepSpeed-Inference 识别底层的 PyTorch 模型架构