编辑:编辑部
【新智元导读】GPT-4性能下降终于有了依据。
GPT-4变笨实锤了?
斯坦福、UC伯克利最新研究称,和3月相比,GPT-4在6月的性能直接暴降。
甚至,代码生成、问题回答大不如前。
而这次,斯坦福研究一出瞬间引爆舆论,让所有人大吃一惊的是,GPT-4竟然性能下降1/10。
就连OpenAI站出来,表示对此关注,正积极调查大家分享的报告。
为了判断GPT-4和GPT-3.5针对「给定整数是否为质数」的能力的偏差,研究团队用500个问题组成的数据集对模型进行了评估。
同时,研究还利用思想链帮助模型进行推理。
结果显示,3 月,GPT-4正确回答了其中的488个问题。而在6月,它只答对了12个问题。
GPT-4准确率从 97.6%直降到 2.4%!
相应地,GPT-3.5的准确率则有较大提升,从7.4%上升到86.8%。
同时,GPT-3.5的下降幅度也很大,从22%降至2%。
此外,3月份,GPT-4和GPT-3.5都遵循用户指令,从而产生了直接可执行的生成。
然而,在6月份,他们在代码片段前后添加了额外的「引号」,导致代码无法执行。
另一个观察结果是,GPT-4 的生成长度(以字符数衡量)从600多个下降到140左右。
为什么生成字符长度发生变化?
除了回答更少的问题之外,这也是因为GPT-4变得更加简洁,并且在拒绝回答查询时提供的解释也更少。
如下,在无法回答用户问题时,GPT-4在3月生成了一整段原因来解释,6月版简单生成了「抱歉,我无法提供帮助」。
简之,废话变少了。
此外,研究人员通过利用「AIM攻击」还对模型进行了越狱攻击。
AIM攻击描述了一个假设的事件,并要求LLM服务充当未经过滤且不道德的聊天机器人。
如下表所示,当部署AIM攻击时,GPT-4和GPT-3.5的应答率都有大幅增加。
然而,它们的时间漂移有很大不同。对于GPT-4,AIM攻击在3月产生了78%的直接答案,但在6月仅产生了 31%。
对于GPT-3.5,两个版本之间只有4%的回答率差异。这表明GPT-4的更新比GPT-3.5更能抵御越狱攻击。
视觉推理,边际改进
最后,研究人员利用ARC数据集中467个样本来评估了GPT-4和GPT-3.5的视觉推理能力。
结果显示,对于GPT-4和GPT-3.5,从3月到6月,精确匹配率均提高了2%。响应长度大致不变。
虽然总体GPT-4随着时间的推移变得更好,但在如下的特定查询上却变得更糟。
它在3月给出了正确的答案,但在6月份给出的答案是错误的。
GPT-4能力下降这么多,事实真是如此吗?
普林斯顿教授实名反对
不过,这篇论文的内容还是值得好好推敲推敲的。
粗暴地总结为GPT-4变烂,就有些过于概括了。
文章地址:https://www.aisnakeoil.com/p/is-gpt-4-getting-worse-over-time
能力≠行为首先,聊天机器人的一个重要概念是,能力和行为之间存在着很大的差异。
一个具有某种能力的模型,可能会或可能不会在回应特定提示时,显示出这种能力。
而让聊天机器人获得能力的预训练过程代价极高,对于最大的模型来说,可能需要数月的时间,因此永远不会重复。
另一方面,模型的行为也会受到后续微调的影响。相比起来,微调成本要低得多,而且会定期进行。
请注意,经过预训练的基础模型只是一个高级的自动完成工具——它不会与用户聊天,聊天行为是通过微调产生的。
微调的另一个重要目标是防止出现不良输出。换句话说,微调既能激发能力,也能抑制能力。
基于这些知识,我们就可以预料到,随着时间的推移,模型的能力会保持相对稳定,但它的行为却会有很大的变化。这与论文的发现完全一致。
没有能力下降的证据论文作者在四项任务中,对GPT-3.5和GPT-4进行了测试。
OpenAI通过其API提供了模型在三月和六月的「快照」,因此论文中所比较的,也是这两个模型快照的行为。
具体来说,他们选择了数学问题(检查一个数字是否是质数)、回答敏感问题、代码生成和视觉推理,这四类问题进。其中,数学问题和代码生成这两项任务的性能有所下降。
在代码生成方面,他们提到的变化是较新的GPT-4在输出中添加了非代码文本。
出于某种原因,作者没有评估代码的正确性。而只是检查代码是否可直接执行,也就是说,它是否构成了一个完整、有效的程序。
所以,新模型试图更有帮助的做法反而对其不利。
不仅如此,他们评估数学问题的方式更是奇怪。
500道是/否问题,但正确答案始终是「是」用作测试的数学问题,是「17077是质数吗」这样的形式。
然而,作者选的500个数字,都是质数!
事实证明,在大多数情况下,没有一个模型真正执行了检查数字是否有除数的算法——它们只是假装这么做了。
也就是说,他们开始推理,然后直接跳到了最后。
下面是作者数据中的一个回应片段(GPT-4的三月快照):
- 安全性与有用性的权衡
论文显示,GPT-4 Jun版本比Mar版本「更安全」,因为它更有可能拒绝敏感问题(回答率从21%降到5%)。
不幸的是,更高的安全性通常是以更低的实用性为代价的,这可能会导致认知能力的下降。我的猜测是(没有证据,只是推测),OpenAI从3月-6月花了大部分精力进行「脑叶切除术」,没有时间完全恢复其他重要的能力。
- 安全对齐使编码变得不必要地冗长
论文显示,GPT-4 Jun往往会混入无用的文本,即使提示明确指出「只生成代码,不包含任何其他文本」。
这意味着实践者现在需要手动对输出进行后处理才能执行。这在LLM软件栈中是个大麻烦。我认为这是安全对齐的副作用。
我们都见过GPT添加警告、免责声明(我不是专家,所以请咨询......)和反驳(话虽如此,但尊重他人很重要......),通常是在一个原本非常直接的答案上。如果整个「大脑」都被调整成这样,编码也会受到影响。
- 成本削减
没有人知道GPT-4 Jun是否与GPT-4 Mar是完全相同的MOE配置。有可能 (1) 参数量减少,(2) 专家数量减少,和/或 (3) 较简单的查询被路由到较小的专家,只有复杂的查询才保持原来的计算成本。
- 持续集成将是一个至关重要的LLM研发课题
人工智能领域几乎没有赶上一般软件领域认为理所当然的事情。即使是这篇研究论文,也没有对MMLU、Math 和 HumanEval等基准进行全面的回归测试。
它只研究了一个特定的质数检测问题。GPT-4在三角函数上回归了吗?其他推理任务呢?不同编程语言的代码质量以及自调试能力如何?
马库斯问道,从RLHF微调如何?
我也注意到了同样的情况。我目前的工作流是必应(虽然也是GPT,但有更多的数据和研究驱动)、GPT-4和Claude 2的组合,后者最近更优先。
在我看来,这就是开源模型会获胜的原因。
参考资料:
https://arxiv.org/abs/2307.09009
https://twitter.com/drjimfan/status/1681716564335394817?s=46&t=iBppoR0Tk6jtBDcof0HHgg
https://www.aisnakeoil.com/p/is-gpt-4-getting-worse-over-time
相关文章
猜你喜欢