[ PROMPT_NODE_22296 ]
2020
[ SKILL_DOCUMENTATION ]
# Deepspeed - 2020
**页数:** 16
---
## DeepSpeed 微软研究院网络研讨会现已提供点播
**URL:** https://www.deepspeed.ai/2020/08/06/webinar-on-demand.html
**内容:**
- DeepSpeed 微软研究院网络研讨会现已提供点播
- 内容
更新日期: 2020年8月6日
---
## 使用 ZeRO-2 实现数量级更大、更快的训练
**URL:** https://www.deepspeed.ai/2020/05/18/zero-stage2.html
**内容:**
- 使用 ZeRO-2 实现数量级更大、更快的训练
ZeRO-2 通过解决训练过程中全谱系的内存消耗问题,扩展了原始 ZeRO 中内存优化的范围。更具体地说,除了原始 ZeRO 中的优化器状态内存优化外,ZeRO-2 还引入了新技术来减少梯度、激活内存和碎片化内存的内存占用。总而言之,这些内存节省使 DeepSpeed 能够将深度学习训练的规模和速度提高一个数量级。更具体地说,与现有最先进技术相比,ZeRO-2 允许训练高达 1700 亿参数的模型,速度提升高达 10 倍。
有关 ZeRO-2 的更多信息,请参阅我们的博客文章。
有关如何使用 ZeRO-2 的更多信息,请参阅本教程中关于训练 GPT 系列模型的示例。
有关技术概述,请参阅我们的技术报告。
更新日期: 2020年5月18日
---
## 使用 ZeRO-Offload 在单个 GPU 上进行 10 倍更大的模型训练
**URL:** https://www.deepspeed.ai/2020/09/08/ZeRO-Offload.html
**内容:**
- 使用 ZeRO-Offload 在单个 GPU 上进行 10 倍更大的模型训练
我们引入了一项名为 ZeRO-Offload 的新技术,旨在实现单 GPU 上 10 倍更大的模型训练。ZeRO-Offload 扩展了 ZeRO-2,利用 CPU 和 GPU 内存来训练大型模型。使用单 GPU 机器,我们的用户现在可以运行高达 130 亿参数的模型而不会耗尽内存,这比现有方法大 10 倍,同时获得了具有竞争力的吞吐量。此功能使数十亿参数的模型训练民主化,并为许多深度学习从业者探索更大、更好的模型打开了大门。
更新日期: 2020年9月8日
---
## 渐进式层丢弃 (Progressive Layer Dropping)
**URL:** https://www.deepspeed.ai/2020/10/28/progressive-layer-dropping-news.html
**内容:**
- 渐进式层丢弃
我们引入了一项名为渐进式层丢弃 (PLD) 的新技术,通过高效且稳健的压缩训练来加速基于 Transformer 的网络的预训练。预训练阶段