[ PROMPT_NODE_22304 ]

mii

[ SKILL_DOCUMENTATION ]

# Deepspeed - Mii **页面数:** 1 --- ## DeepSpeed-MII: 为 24,000 多个开源深度学习模型提供即时加速，推理成本降低高达 40% **URL:** https://www.deepspeed.ai/2022/10/10/mii.html **内容:** - DeepSpeed-MII: 为 24,000 多个开源深度学习模型提供即时加速，推理成本降低高达 40% - 内容 - MII 是如何工作的？ - 支持的模型和任务 - MII 推理优化 - MII-Public 和 MII-Azure - 量化延迟和成本降低 - 延迟敏感场景 - 成本敏感场景 - 部署选项深度学习 (DL) 开源社区在过去几个月中经历了巨大的增长。通过 Hugging Face 等平台，任何拥有少量甚至单个 GPU 的人现在都可以使用诸如 Bloom 176B 这样极其强大的文本生成模型，或诸如 Stable Diffusion 这样的图像生成模型。虽然开源使 AI 能力的获取民主化，但其应用仍受到两个关键因素的限制：1) 推理延迟和 2) 成本。在深度学习模型推理的系统优化方面已经取得了重大进展，可以大幅降低延迟和成本，但这些优化并不容易获得。这种有限可访问性的主要原因是深度学习模型推理领域的多样性，模型在大小、架构、系统性能特征、硬件要求等方面各不相同。识别适用于给定模型的一组适当系统优化并正确应用它们，往往超出了大多数数据科学家的能力范围，导致低延迟和低成本推理在很大程度上无法实现。 DeepSpeed 模型推理实现 (MII) 是 DeepSpeed 推出的一个新的开源 Python 库，旨在使强大模型的低延迟、低成本推理不仅可行，而且易于获取。图 1：MII 架构，展示了 MII 如何在通过 GRPC 在本地部署或通过 AML 推理在 Microsoft Azure 上部署之前，使用 DS-Inference 自动优化开源模型。 MII 的底层由 DeepSpeed-Inference 提供支持。根据模型类型、模型大小、批处理大小和可用硬件资源，MII 会自动从 DeepSpeed-Inference 应用适当的系统优化集，以最大限度地减少延迟并最大限度地提高吞吐量。它通过使用多种预先指定的模型注入策略之一来实现这一点，该策略允许 MII 和 DeepSpeed-Inference 识别底层的 PyTorch 模型架构

数据来源：claude-code-templates（MIT），中文翻译由 AI 生成。详见关于我们。

BAGUA AI