微软DeepSpeed Chat，人人可快速训练百亿、千亿级ChatGPT大模型-华威派

> 自媒体 > AI人工智能 > 微软DeepSpeed Chat，人人可快速训练百亿、千亿级ChatGPT大模型

微软DeepSpeed Chat，人人可快速训练百亿、千亿级ChatGPT大模型

来源：机器之心Pro

2023-04-14

215

管理

机器之心专栏

微软DeepSpeed组

昨日，微软开源的 DeepSpeed Chat 引起了AI社区的广泛关注。

它让我们能够以更低的成本、更快的速度训练类似于ChatGPT的高质量大模型。

表 2. 多节点 64x A100-80GB：训练时长及预估的 Azure 费用。

非常重要的细节：上述两个表格（即表一和表二）中的数据均针对 RLHF 训练的第 3 步，基于实际数据集和 DeepSpeed-RLHF 训练吞吐量的测试。该训练在总共 1.35 亿（135M）个字符（token）上进行一个时期（epoch）的训练。我们总共有 6750 万个查询（query）字符（131.9k 个 query，每个序列长度为 256）和 6750 万个生成 / 回答字符（131.9k 个答案，每个序列长度为 256），每步的最大全局字符批量大小约为 500 万个字符（1024 个查询 - 答案对）。在与 DeepSpeed-RLHF 进行任何成本和端到端时间比较之前，我们建议读者注意这些设定。想要了解更多详细信息，请参阅我们的页面 benchmark setting。

实现 RLHF 训练的普及化：仅凭单个 GPU，DeepSpeed-HE 就能支持训练超过 130 亿参数的模型。这使得那些无法使用多 GPU 系统的数据科学家和研究者不仅能够轻松创建轻量级的 RLHF 模型，还能创建大型且功能强大的模型，以应对不同的使用场景。

表 5. 在 8 个 DGX 节点上（64x A100-80G），针对不同的 RLHF 步骤，使用 DeepSpeed-Chat 训练 OPT-66b 所需的时间。

如果你只有大约 1-2 小时的咖啡或午餐休息时间，你也可以尝试使用 DeepSpeed-Chat 训练一个小型模型。例如，我们为单个数据集准备了一个 13 亿参数模型的训练示例，以便在你的消费级 GPU 上测试我们的框架。当你从午餐休息回来时，你的模型已经准备好供你使用！

python train.py --actor-model facebook/opt-1.3b --reward-model facebook/opt-350m --num-gpus 1

图 6. 在最大效率的情况下，DeepSpeed-HE 针对不同模型大小的 RLHF 生成、训练和有效吞吐量。

为了最大化有效吞吐量，DeepSpeed-HE 对两个阶段进行了优化。首先，它使用尽可能大的批量大小以在两个阶段上获得更高的效率。其次，在生成阶段，它利用高性能 CUDA 内核在模型在单个 GPU 上最大化 GPU 内存带宽利用率，并在其他情况下利用张量并行（Tensor Parallelism, 简写作 TP）进行计算。DeepSpeed-HE 进一步在生成阶段使用 TP 而不是 ZeRO 以减少 GPU 之间的通信并保持高 GPU 内存带宽利用率。

图 6 显示了 DeepSpeed-HE 在 1.3B 到 175B 的模型大小范围内可以实现的最佳有效吞吐量（以 TFlops/GPU 表示）。它还分别显示了在生成和训练阶段实现的吞吐量。DeepSpeed-HE 对 6.7B-66B 范围内的模型最为高效。超出这个范围到 175B 时，由于内存有限，无法支持更大的批量大小，吞吐量下降，但仍比小型 1.3B 模型的效率高 1.2 倍。当我们将这些巨大的模型扩展到更多具有更多内存的 GPU 时，这些模型的每个 GPU 吞吐量可能会进一步提高。

此外，我们想指出，如图 2 所示，我们系统的有效性能比现有系统高 19 倍，这表明它们的运行速度低于峰值的 5%。这说明了优化 RLHF 工作负载的挑战以及我们的系统在面对挑战时的有效性。

图 7. 在不同数量的 DGX (A100-40/80G GPU) 节点上，进行 13B（左）和 66B（右）actor 模型和 350M reward 模型的可扩展性训练。

(II) 可扩展性分析。不同模型大小的最佳有效吞吐量取决于不同的 GPU 数量。部分原因是因为一些较大的模型大小需要更多的内存来运行。基于此，我们接下来讨论 DeepSpeed-HE 的可扩展性特性。

图 7 显示 DeepSeed-RLHF 在多达 64 个 GPU 的集群上实现了良好的整体扩展。然而，如果我们仔细观察，可以发现 DeepSpeed-RLHF 训练在小规模时实现了超线性扩展，随后在较大规模时实现了接近线性或次线性扩展。这是由于内存可用性和最大全局批量大小之间的相互作用。

DeepSpeed-HE 的训练阶段核心基于 ZeRO。这意味着随着 GPU 数量的增加，每个 GPU 的内存消耗会减少，使得 DeepSpeed-HE 能够在每个 GPU 上支持更大的批量，从而实现超线性扩展。然而，在大规模情况下，尽管可用内存持续增加，但最大全局批量大小仍然限制了每个 GPU 的批量大小，导致接近线性或次线性扩展。因此，在给定的最大全局批量大小（例如，我们设置为 1024 个句子，每个句子长度为 512）下，DeepSpeed-HE 在超线性和次线性可扩展性之间实现了最佳的吞吐量和成本效益。具体的平衡点主要取决于每个 GPU 上可运行的最大批量大小，而这又受到可用内存和全局批量大小的函数所决定。

发布：现在就尝试 DeepSpeed Chat 吧！

我们非常高兴地宣布，DeepSpeed-Chat 现已开源并向 AI 社区开放。

如果你发现我们的成果对你有用或者喜欢我们的开源成果，请在 DeepSpeed（https://github.com/microsoft/DeepSpeed）和 DeepSpeedExamples（https://github.com/microsoft/DeepSpeedExamples）上点⭐。请访问我们的 DeepSpeed-Chat GitHub 页面以开始使用：GitHub 登陆页面（https://github.com/microsoft/DeepSpeedExamples/tree/master/applications/DeepSpeed-Chat）我们将继续根据你的反馈和支持改进 DeepSpeed-Chat。我们的计划图（https://github.com/microsoft/DeepSpeedExamples/blob/master/applications/DeepSpeed-Chat/README.md#-deepspeed-chats-roadmap-）显示了当前支持的功能以及计划在未来支持的功能。

DeepSpeed-Chat 是更大的 DeepSpeed 生态系统的一部分，包括众多深度学习系统和建模技术。要了解更多信息，

请访问我们的网站（https://www.deepspeed.ai/），了解详细的博客文章、教程和有用的文档。你还可以关注我们的英文 Twitter（DeepSpeed）和日文 Twitter（マイクロソフト DeepSpeed），了解 DeepSpeed 的最新动态。

DeepSpeed 欢迎你的贡献！我们鼓励你在 DeepSpeed GitHub 页面（https://github.com/microsoft/DeepSpeed/）报告问题、贡献 PR 并参与讨论。请参阅我们的贡献指南（https://github.com/microsoft/DeepSpeed/blob/master/CONTRIBUTING.md）了解更多详情。我们愿意与大学、研究实验室、公司等进行合作，共同开展深度学习研究，将 DeepSpeed 应用于赋能现实世界的 AI 模型和应用等。对于此类需求（以及其他不适合在 GitHub 上提出的需求），请直接发送电子邮件至 deepspeed-info@microsoft.com。

赏钱

免责声明：本文仅代表作者个人观点，与华威派无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非华威派）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@goodmaoning.com

“慎用ChatGPT”！中国支付清算协会紧急发声

2023-04-14 13:37

ChatGPT是什么意思？ChatGPT的前世今生

2023-04-14 13:36