> 自媒体 > AI人工智能 > 不会太大、密集的纯文本模型,GPT-4的新一波预测来了
不会太大、密集的纯文本模型,GPT-4的新一波预测来了
来源:机器之心Pro
2023-05-05
270
管理

选自towardsdatascience

作者:Alberto Romero

机器之心编译

机器之心编辑部

分析师 Alberto Romero 对 GPT-4 作出了有理有据的推测。

2020 年 5 月,在 GPT-2 发布一年后 GPT-3 正式发布,而 GPT-2 也是在原始 GPT 论文发表一年后发布的。按照这种趋势, GPT-4 早在一年前就该发布了,但至今尚未面世。

OpenAI 的首席执行官 Sam Altman 几个月前表示即将推出 GPT-4 ,预计将在 2022 年 7 月至 8 月发布。

GPT-3 的强大性能让人们对 GPT-4 的期望颇高。然而关于 GPT-4 的公开信息甚少,Altman 在去年的一次 Q&A 中就 OpenAI 对 GPT-4 的想法给出了一些提示。他明确表示 GPT-4 不会有 100T 参数。

图源:DeepMind

结果很明确,Chinchilla 在许多语言基准测试中「显著」优于 Gopher、GPT-3、MT-NLG 等语言模型,这表明当前的大模型训练不足且规模过大。

根据 DeepMind 的发现,GPT-4 将比 GPT-3 略大,它达到计算最优所需的训练 token 数量将约为 5 万亿,比当前数据集高出一个数量级。为了最小化训练损失,训练 GPT-4 所需的 FLOP 将是 GPT-3 的约 10-20 倍(参照 Gopher 的计算量)。

Altman 曾在 Q&A 中表示 GPT-4 的计算量将比 GPT-3 更大,他可能指的就是这一点。

可以肯定的是,OpenAI 将致力于优化模型大小以外的其他变量。找到最佳的超参数集以及最佳的计算模型大小和参数数量,这可能会让模型在所有基准测试中获得令人难以置信的提升。

多模态:GPT-4 将是纯文本模型

人类的大脑是多感官的,因为我们生活在一个多模态的世界中。一次只以一种模态感知世界极大地限制了人工智能理解世界的能力。因此,人们认为深度学习的未来是多模态模型。

然而,良好的多模态模型比良好的纯语言或纯视觉模型更难构建。将视觉和文本信息组合成单一的表征是一项非常艰巨的任务。我们对大脑如何做到这一点的认知还非常有限,难以在神经网络中实现它。

大概也是出于此原因,Altman 在 Q&A 中也表示,GPT-4 不会是多模态的,而是纯文本模型。我猜测在转向下一代多模态 AI 之前,他们正试图通过调整模型和数据集大小等因素达到语言模型的极限。

稀疏性:GPT-4 将是一个密集模型

稀疏模型利用条件计算,使用模型的不同部分来处理不同类型的输入,近来取得了巨大成功。这些模型可以轻松扩展到超过 1T 的参数 mark 上,而不会导致过高的计算成本,从而在模型大小和计算预算之间构建出正交关系。然而,这种 MoE 方法的优势在非常大的模型上会减弱。

鉴于 OpenAI 一直专注于密集语言模型,我们有理由预期 GPT-4 也将是一个密集模型。

不过,人类的大脑严重依赖于稀疏处理,稀疏性与多模态类似,很可能会主导未来几代神经网络。

GPT-4 将比 GPT-3 更加对齐

OpenAI 为解决 AI 价值对齐(alignment)的问题付出了诸多努力:如何让语言模型遵循我们的意图并遵守我们的价值观。这不仅需要数学上让 AI 实现更准确的理解,而且需要在哲学方面考量不同人类群体之间的价值观。OpenAI 已尝试在 InstructGPT 上接受人工反馈训练以学会遵循指令。

InstructGPT 的主要突破在于,无论其在语言基准上的结果如何,它都被人类评估者一致认为是一比 GPT-3 更好的模型。这表明使用基准测试作为评估 AI 能力的唯一指标是不合适的。人类如何看待模型同样重要,甚至更重要。

鉴于 Altman 和 OpenAI 对有益 AGI 的承诺,我相信 GPT-4 将基于他们从 InstructGPT 中获得的发现。

他们将改进对齐模型的方式,因为 GPT-3 只采用了英文语料和注释。真正的对齐应该包含来自不同性别、种族、国籍、宗教等方面的信息特征。这是一个巨大的挑战,朝着这个目标迈出一步将是意义重大的。

综上,我关于 GPT-4 的预测大致包括以下几个方面:

模型大小:GPT-4 会比 GPT-3 大,但不会很大。模型大小不会是其显著特征;

优化:GPT-4 将使用比 GPT-3 更多的计算,它将在参数化(最优超参数)和扩展定律(训练 token 的数量与模型大小一样重要)方面做出新的改进;

多模态:GPT-4 将是纯文本模型,OpenAI 正试图将语言模型发挥到极致,然后再转变成像 DALL·E 这样的多模态模型;

稀疏性:GPT-4 遵循 GPT-2 和 GPT-3 的趋势,将是一个密集模型,但稀疏性未来将占据主导地位;

对齐:GPT-4 将比 GPT-3 更符合人们的价值要求,它将应用从 InstructGPT 中学到的经验。

Alberto Romero 根据 Altman 和 OpenAI 给出的信息作出了有理有据的推测,我们期待这些预测在几个月后即将面世的 GPT-4 中得到印证。

原文链接:https://towardsdatascience.com/gpt-4-is-coming-soon-heres-what-we-know-about-it-64db058cfd45

1
点赞
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与华威派无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
凡本网注明 “来源:XXX(非华威派)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
QQ:2443165046 邮箱:info@goodmaoning.com
关于作者
清水大树(普通会员)
点击领取今天的签到奖励!
签到排行
1
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索