[ SKILL_DOCUMENTATION ]
# Deepspeed - 09
**页数:** 2
---
## DeepSpeed-MoE for NLG: 将语言模型训练成本降低 5 倍
**URL:** https://www.deepspeed.ai/2021/12/09/deepspeed-moe-nlg.html
**内容:**
- DeepSpeed-MoE for NLG: 将语言模型训练成本降低 5 倍
- 内容
- 基于 MoE 的 NLG 模型架构
- MoE 训练基础设施与数据集
- MoE 提升了 NLG 模型的质量
- 以 1/5 的训练成本实现同等质量
- 用于推理的 MoE
- 结论与发布
- 致谢
基于自回归 Transformer 的自然语言生成(在本文后续部分简称为 NLG)模型,可以为从文档摘要、标题生成、问答到生成多种编程语言代码等广泛的语言任务提供令人信服的解决方案。由于这些模型的通用适用性,提升其质量已成为学术界和工业界共同关注的焦点。
NLG 的质量随着模型规模的增大而提高。然而,今天我们正接近当前一代硬件能力的极限。Megatron-Turing NLG 530B 模型在 NVIDIA Selene 超级计算机上使用超过 2000 个 A100 GPU 训练了 3 个月,消耗了超过 300 万个 GPU 小时。在合理的时间范围内,将模型规模再增加 3 到 5 倍是不可行的。鉴于训练最先进的 NLG 模型需要高昂的计算资源,一个自然的问题是:“是否有可能在不增加计算成本的情况下对模型质量进行实质性改进?”或者等同于:“是否有可能使用少 3 到 5 倍的资源产生质量相似的模型?”
GShard 和 Switch Transformers 等近期研究表明,混合专家(MoE)模型结构显著降低了基于 Transformer 的编码器-解码器模型的大规模训练成本。MoE 模型包含一组稀疏门控的专家。在训练和推理过程中,每个输入 Token 仅激活这些专家中的一部分。因此,模型可以在不按比例增加计算量的情况下扩展到数十亿参数。尽管显示出令人期待的结果,但 MoE 对于计算密集型程度高得多的 NLG 系列模型的有效性在很大程度上仍然未知。
鉴于训练 NLG 系列模型对计算和能源的巨大需求,我们探索了 MoE 在降低其训练成本方面的机会。我们