[ PROMPT_NODE_22296 ]

2020

[ SKILL_DOCUMENTATION ]

# Deepspeed - 2020 **页数:** 16 --- ## DeepSpeed 微软研究院网络研讨会现已提供点播 **URL:** https://www.deepspeed.ai/2020/08/06/webinar-on-demand.html **内容:** - DeepSpeed 微软研究院网络研讨会现已提供点播 - 内容更新日期: 2020年8月6日 --- ## 使用 ZeRO-2 实现数量级更大、更快的训练 **URL:** https://www.deepspeed.ai/2020/05/18/zero-stage2.html **内容:** - 使用 ZeRO-2 实现数量级更大、更快的训练 ZeRO-2 通过解决训练过程中全谱系的内存消耗问题，扩展了原始 ZeRO 中内存优化的范围。更具体地说，除了原始 ZeRO 中的优化器状态内存优化外，ZeRO-2 还引入了新技术来减少梯度、激活内存和碎片化内存的内存占用。总而言之，这些内存节省使 DeepSpeed 能够将深度学习训练的规模和速度提高一个数量级。更具体地说，与现有最先进技术相比，ZeRO-2 允许训练高达 1700 亿参数的模型，速度提升高达 10 倍。有关 ZeRO-2 的更多信息，请参阅我们的博客文章。有关如何使用 ZeRO-2 的更多信息，请参阅本教程中关于训练 GPT 系列模型的示例。有关技术概述，请参阅我们的技术报告。更新日期: 2020年5月18日 --- ## 使用 ZeRO-Offload 在单个 GPU 上进行 10 倍更大的模型训练 **URL:** https://www.deepspeed.ai/2020/09/08/ZeRO-Offload.html **内容:** - 使用 ZeRO-Offload 在单个 GPU 上进行 10 倍更大的模型训练我们引入了一项名为 ZeRO-Offload 的新技术，旨在实现单 GPU 上 10 倍更大的模型训练。ZeRO-Offload 扩展了 ZeRO-2，利用 CPU 和 GPU 内存来训练大型模型。使用单 GPU 机器，我们的用户现在可以运行高达 130 亿参数的模型而不会耗尽内存，这比现有方法大 10 倍，同时获得了具有竞争力的吞吐量。此功能使数十亿参数的模型训练民主化，并为许多深度学习从业者探索更大、更好的模型打开了大门。更新日期: 2020年9月8日 --- ## 渐进式层丢弃 (Progressive Layer Dropping) **URL:** https://www.deepspeed.ai/2020/10/28/progressive-layer-dropping-news.html **内容:** - 渐进式层丢弃我们引入了一项名为渐进式层丢弃 (PLD) 的新技术，通过高效且稳健的压缩训练来加速基于 Transformer 的网络的预训练。预训练阶段

数据来源：claude-code-templates（MIT），中文翻译由 AI 生成。详见关于我们。

BAGUA AI