终极“揭秘”：GPT-4模型架构、训练成本、数据集信息被扒出来了-华威派

> 自媒体 > AI人工智能 > 终极“揭秘”：GPT-4模型架构、训练成本、数据集信息被扒出来了

终极“揭秘”：GPT-4模型架构、训练成本、数据集信息被扒出来了

来源：机器之心Pro

2023-08-01

288

管理

机器之心报道

机器之心编辑部

一直以来，大家都对 GPT-4 的模型架构、基础设施、训练数据集、成本等信息非常好奇。

奈何 OpenAI 嘴太严，很长时间以来，大家也都只是猜测这些数据。

不久之前，「天才黑客」乔治・霍兹（George Hotz）在接受一家名为 Latent Space 的 AI 技术播客采访时透露出一个小道消息，称 GPT-4 是由 8 个混合专家模型组成的集成系统，每个专家模型都有 2200 亿个参数（比 GPT-3 的 1750 亿参数量略多一些），并且这些模型经过了针对不同数据和任务分布的训练。

虽然此消息无法验证，但其流传度非常高，也被部分业内人士认为非常合理。

最近，更多的消息似乎被泄露了出来。

今日，SemiAnalysis 发布了一篇付费订阅的内容，「揭秘」了有关 GPT-4 的更多信息。

不过请注意，这并非官方确认的数据，大家自行判断其准确性。

13、连续 batching：OpenAI 实现了可变 batch size 和连续 batching。这样做是为了允许一定程度的最大延迟，并优化推理成本。

14、视觉多模态：它是一个独立于文本编码器的视觉编码器，二者之间存在交叉注意力。该架构类似于 Flamingo。这在 GPT-4 的 1.8 万亿个参数之上增加了更多参数。在纯文本的预训练之后，它又经过了另外约 2 万亿个 token 的微调。

对于视觉模型，OpenAI 本来希望从零开始训练，但由于其尚未成熟，所以他们决定先从文本开始训练来降低风险。

这种视觉能力的主要目的之一是使自主智能体能够阅读网页并转录图像和视频中的内容。

他们训练的一部分数据是联合数据（包括渲染的 LaTeX / 文本）、网页的截屏、YouTube 视频（采样帧），并使用 Whisper 对其进行运行以获取转录文本。

15、推测式解码（Speculative Decoding）：OpenAI 可能在 GPT-4 的推理过程中使用了推测式解码技术（不确定是否 100%）。这种方法是使用一个更小更快的模型提前解码多个 token，并将它们作为单个 batch 输入到一个大型的预测模型（oracle model）中。

如果小型模型对其预测是正确的，大型模型将会同意，我们可以在单个 batch 中解码多个 token。

但是，如果大型模型拒绝了草稿模型预测的 token，那么 batch 中剩余的部分将被丢弃，然后我们将继续使用大型模型进行解码。

有些阴谋论指出，新的 GPT-4 质量已经下降，这可能只是因为他们让推测式解码模型（speculative decoding model）将概率较低的序列传递给预测模型，从而导致了这种误解。

16、推理架构：推理运行在由 128 个 GPU 组成的集群上。在不同地点的多个数据中心存在多个这样的集群。推理过程采用 8 路张量并行（tensor parallelism）和 16 路流水线并行（pipeline parallelism）。每个由 8 个 GPU 组成的节点仅具有约 1300 亿个参数。

该模型有 120 层，因此适合于 15 个不同的节点。可能第一个节点的层数较少，因为它还需要计算嵌入。

根据这些数字，如果 OpenAI 试图按照 chinchilla 的最佳指标进行训练，他们应该使用的 token 数量是现在的两倍。这表明他们在获取高质量数据方面遇到了困难。

最后想说的是，这应该是迄今为止关于 GPT-4 最为详细的数据揭秘。目前还不能求证是否真实，但也值得大家研究下。正如原文作者所说，「有趣的方面是理解 OpenAI 为什么做出某些架构决策。」

关于 GPT-4 的这些架构信息，你怎么看？

更多信息请参考原文：https://www.semianalysis.com/p/gpt-4-architecture-infrastructure

赏钱

免责声明：本文仅代表作者个人观点，与华威派无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非华威派）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@goodmaoning.com

GPT-4 被曝“变蠢”！为了降本，OpenAI 偷偷搞“小动作”？

2023-08-01 16:29

Office版GPT-4每月30刀！微软市值创新高，拥抱开源，AI帝国初现

2023-08-01 16:28