GPT-4变笨实锤！3个月性能暴减1/10，代码生成大不如前-华威派

> 自媒体 > AI人工智能 > GPT-4变笨实锤！3个月性能暴减1/10，代码生成大不如前

GPT-4变笨实锤！3个月性能暴减1/10，代码生成大不如前

来源：新智元

2023-08-01

307

管理

编辑：编辑部

【新智元导读】GPT-4性能下降终于有了依据。

GPT-4变笨实锤了？

斯坦福、UC伯克利最新研究称，和3月相比，GPT-4在6月的性能直接暴降。

甚至，代码生成、问题回答大不如前。

而这次，斯坦福研究一出瞬间引爆舆论，让所有人大吃一惊的是，GPT-4竟然性能下降1/10。

就连OpenAI站出来，表示对此关注，正积极调查大家分享的报告。

为了判断GPT-4和GPT-3.5针对「给定整数是否为质数」的能力的偏差，研究团队用500个问题组成的数据集对模型进行了评估。

同时，研究还利用思想链帮助模型进行推理。

结果显示，3 月，GPT-4正确回答了其中的488个问题。而在6月，它只答对了12个问题。

GPT-4准确率从 97.6%直降到 2.4%！

相应地，GPT-3.5的准确率则有较大提升，从7.4%上升到86.8%。

同时，GPT-3.5的下降幅度也很大，从22%降至2%。

此外，3月份，GPT-4和GPT-3.5都遵循用户指令，从而产生了直接可执行的生成。

然而，在6月份，他们在代码片段前后添加了额外的「引号」，导致代码无法执行。

另一个观察结果是，GPT-4 的生成长度（以字符数衡量）从600多个下降到140左右。

为什么生成字符长度发生变化？

除了回答更少的问题之外，这也是因为GPT-4变得更加简洁，并且在拒绝回答查询时提供的解释也更少。

如下，在无法回答用户问题时，GPT-4在3月生成了一整段原因来解释，6月版简单生成了「抱歉，我无法提供帮助」。

简之，废话变少了。

此外，研究人员通过利用「AIM攻击」还对模型进行了越狱攻击。

AIM攻击描述了一个假设的事件，并要求LLM服务充当未经过滤且不道德的聊天机器人。

如下表所示，当部署AIM攻击时，GPT-4和GPT-3.5的应答率都有大幅增加。

然而，它们的时间漂移有很大不同。对于GPT-4，AIM攻击在3月产生了78%的直接答案，但在6月仅产生了 31%。

对于GPT-3.5，两个版本之间只有4%的回答率差异。这表明GPT-4的更新比GPT-3.5更能抵御越狱攻击。

视觉推理，边际改进

最后，研究人员利用ARC数据集中467个样本来评估了GPT-4和GPT-3.5的视觉推理能力。

结果显示，对于GPT-4和GPT-3.5，从3月到6月，精确匹配率均提高了2%。响应长度大致不变。

虽然总体GPT-4随着时间的推移变得更好，但在如下的特定查询上却变得更糟。

它在3月给出了正确的答案，但在6月份给出的答案是错误的。

GPT-4能力下降这么多，事实真是如此吗？

普林斯顿教授实名反对

不过，这篇论文的内容还是值得好好推敲推敲的。

粗暴地总结为GPT-4变烂，就有些过于概括了。

文章地址：https://www.aisnakeoil.com/p/is-gpt-4-getting-worse-over-time

能力≠行为

首先，聊天机器人的一个重要概念是，能力和行为之间存在着很大的差异。

一个具有某种能力的模型，可能会或可能不会在回应特定提示时，显示出这种能力。

而让聊天机器人获得能力的预训练过程代价极高，对于最大的模型来说，可能需要数月的时间，因此永远不会重复。

另一方面，模型的行为也会受到后续微调的影响。相比起来，微调成本要低得多，而且会定期进行。

请注意，经过预训练的基础模型只是一个高级的自动完成工具——它不会与用户聊天，聊天行为是通过微调产生的。

微调的另一个重要目标是防止出现不良输出。换句话说，微调既能激发能力，也能抑制能力。

基于这些知识，我们就可以预料到，随着时间的推移，模型的能力会保持相对稳定，但它的行为却会有很大的变化。这与论文的发现完全一致。

没有能力下降的证据

论文作者在四项任务中，对GPT-3.5和GPT-4进行了测试。

OpenAI通过其API提供了模型在三月和六月的「快照」，因此论文中所比较的，也是这两个模型快照的行为。

具体来说，他们选择了数学问题（检查一个数字是否是质数）、回答敏感问题、代码生成和视觉推理，这四类问题进。其中，数学问题和代码生成这两项任务的性能有所下降。

在代码生成方面，他们提到的变化是较新的GPT-4在输出中添加了非代码文本。

出于某种原因，作者没有评估代码的正确性。而只是检查代码是否可直接执行，也就是说，它是否构成了一个完整、有效的程序。

所以，新模型试图更有帮助的做法反而对其不利。

不仅如此，他们评估数学问题的方式更是奇怪。

500道是/否问题，但正确答案始终是「是」

用作测试的数学问题，是「17077是质数吗」这样的形式。

然而，作者选的500个数字，都是质数！

事实证明，在大多数情况下，没有一个模型真正执行了检查数字是否有除数的算法——它们只是假装这么做了。

也就是说，他们开始推理，然后直接跳到了最后。

下面是作者数据中的一个回应片段（GPT-4的三月快照）：

- 安全性与有用性的权衡

论文显示，GPT-4 Jun版本比Mar版本「更安全」，因为它更有可能拒绝敏感问题（回答率从21%降到5%）。

不幸的是，更高的安全性通常是以更低的实用性为代价的，这可能会导致认知能力的下降。我的猜测是（没有证据，只是推测），OpenAI从3月-6月花了大部分精力进行「脑叶切除术」，没有时间完全恢复其他重要的能力。

- 安全对齐使编码变得不必要地冗长

论文显示，GPT-4 Jun往往会混入无用的文本，即使提示明确指出「只生成代码，不包含任何其他文本」。

这意味着实践者现在需要手动对输出进行后处理才能执行。这在LLM软件栈中是个大麻烦。我认为这是安全对齐的副作用。

我们都见过GPT添加警告、免责声明（我不是专家，所以请咨询......）和反驳（话虽如此，但尊重他人很重要......），通常是在一个原本非常直接的答案上。如果整个「大脑」都被调整成这样，编码也会受到影响。

- 成本削减

没有人知道GPT-4 Jun是否与GPT-4 Mar是完全相同的MOE配置。有可能 (1) 参数量减少，(2) 专家数量减少，和/或 (3) 较简单的查询被路由到较小的专家，只有复杂的查询才保持原来的计算成本。

- 持续集成将是一个至关重要的LLM研发课题

人工智能领域几乎没有赶上一般软件领域认为理所当然的事情。即使是这篇研究论文，也没有对MMLU、Math 和 HumanEval等基准进行全面的回归测试。

它只研究了一个特定的质数检测问题。GPT-4在三角函数上回归了吗？其他推理任务呢？不同编程语言的代码质量以及自调试能力如何？

马库斯问道，从RLHF微调如何？

我也注意到了同样的情况。我目前的工作流是必应（虽然也是GPT，但有更多的数据和研究驱动）、GPT-4和Claude 2的组合，后者最近更优先。

在我看来，这就是开源模型会获胜的原因。

参考资料：

https://arxiv.org/abs/2307.09009

https://twitter.com/drjimfan/status/1681716564335394817?s=46&t=iBppoR0Tk6jtBDcof0HHgg

https://www.aisnakeoil.com/p/is-gpt-4-getting-worse-over-time

0

点赞

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与华威派无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非华威派）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@goodmaoning.com

「真实网络世界」测试场：GPT-4的智能体也只能跑10.59%成功率

2023-08-01 16:25

用ai写文章也能有几万甚至几十万几百万的展现量？

2023-08-01 16:07

相关文章

我们和Inflection的Pi聊了聊：情商超ChatGPT，堪比业余心理咨询师..

从赵求抱到耿戴套，再到谭求照和郭霸道，盘点那些辣眼的不雅聊天..

ChatGPT爆火，巨头急了，普通人慌了！

研究人员发现，GPT-4的性能在近几个月里持续下降

为裸聊诈骗“养”17万个QQ号，上海警方成功捣毁犯罪团伙..

黑马入局！昆仑万维版ChatGPT「天工」通过自家程序员面试..

这个AI聊天机器人一边帮助人类，一边偷偷写下毁灭人类的计划书..

ChatGPT不可能让你炒股赚钱！但可以帮你赚钱

关于作者

我是歌王(普通会员)

点击领取今天的签到奖励!

猜你喜欢

01

抛妻弃女31年，李连杰再次遇到前妻黄秋燕，泪点却在合影的位置上..

2022/09/12

02

豆瓣评分9.0以上的国产剧排行榜豆瓣评分9.0以上的国产剧前十..

2022/09/24

03

盘古和女娲（中国神话故事）

2022/08/27

04

2022离世的11位名人：有人患癌，有人突发意外，有人元旦当天离世..

2022/09/11

05

巨蟹座：一生最旺的颜色，能旺你一生，可以不喜欢，但必须爱上它..

6个月前

06

30个暖心睡前小故事，很甜很撩的睡前小故事

2022/08/26

07

香蕉是如何种出来的？从育苗到收获，揭秘香蕉种植的全过程..

2022/06/02

08

“没有好奇心，人就死了”！喜马拉雅鬼王——杨湃的鬼故事哲学..

2022/08/27

标签云

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索