GPT-4「变笨」被斯坦福实锤：短短仨月数学问题错误率暴涨40倍！-华威派

> 自媒体 > AI人工智能 > GPT-4「变笨」被斯坦福实锤：短短仨月数学问题错误率暴涨40倍！

GPT-4「变笨」被斯坦福实锤：短短仨月数学问题错误率暴涨40倍！

来源：量子位

2023-08-01

216

管理

丰色克雷西发自凹非寺

量子位 | 公众号 QbitAI

GPT-4变笨，实锤了？？？

来自斯坦福大学和UC伯克利大学的一篇最新论文显示：

6月的GPT-4在一些任务上的表现客观上就是比3月的更差。

比如他们用同样500道「判断给定整数是否为质数」的问题来测这两个版本，发现3月份的GPT-4答对了488个，而6月只对了12个……成功率直接从97.6%下降到2.4%！

而当研究员通过经典的「Let’s think step by step」办法来引导后者往正确答案上靠时，居然不好使了——

6月的GPT-4已不再尝试给出中间步骤，而是仍然直接回答「yes」或「no」。

不止如此，代码能力也下降了。

对于50道简单级别的LeetCode题，6月的GPT-4只能做到有10%的答案可以不经更改直接运行，而在3月份的时候，这个数字还是52%。

目前，这项结论已在网上引起了极大的关注。

具体来看，论文中展示了GPT-4对其中一个问题的回答。（展示的数字为17077，经验证是质数）

有段Markdown标记直接以文本形式显示在了输出结果之中，导致程序无法直接运行。

之所以研究者认为GPT-4在这里犯了错，是因为在prompt中已经强调了「code only」。

虽然GPT-4实用性上表现有所下降，但安全性似乎得到了提升。

对于敏感问题，GPT-4回答的概率下降了超四分之三，相应做出的解释也变少了。

所以，在这一方面很难说GPT-4究竟是变好还是变坏了。

总体上看，论文作者的态度比较谨慎，没有直接断言GPT-4表现是否变差。

但在数学和代码方面，文中给出的证据的确印证了一些网友们的说法。

而作者也表示，这一发现主要是告诉大家，不断地去测试AI系统的能力并监控其发展非常重要。

为什么会这样？

不管怎么说，看完这项研究后，还是有不少人兴奋地表示：终于有研究证明我一直以来的猜测了。

这也就引出了网友们的第二点猜测：

GPT-4的能力可能并非下降了，而是转移了。

这就导致我们使用「最基础的」GPT-4提问时，它已经不会再直接调用各种「专家模型」帮我们解答了，强大的专家能力都被路由到各类插件和诸如代码解释器这样的集成功能上了。

不过说到底，这也算降本增效的一种手段。

当然，也有想法认为，OpenAI这是为了推广插件和新功能才故意削减了GPT-4的基础能力。

普林斯顿教授实名反对

值得注意的是，不管网友的猜测听起来多么有理有据，OpenAI其实一直都在否认，声称他们并未采取任何措施导致模型质量下降。

与此同时，另一波学者和网友恰好也对这篇研究提出了质疑。

来自普林斯顿大学的两位CS教授指出：

这篇论文产生了「GPT-4变笨了」的误解，因为它只是简单显示了GPT-4行为的改变，而行为变化并不等同于能力下降。

并且实验本身的评估也有问题，作者有误将模仿当作推理。

为了说明自己的观点，他们直接开了一篇博客。

以判断质数问题为例，他们发现，评估给出的500个数字全是质数。这个问题就大了，它意味着正确答案始终是「yes」，模型就可能产生了随机模仿的能力（也就是照着之前的正确答案无脑抄下去）。

因为事实证明，在大多数情况下，没有一个模型会真正一一执行「判断数字能否被整除」的算法——他们只是假装做了。

比如下面这个3月份GPT-4的快照，它只是列了一堆待检查的数字，然后没有一一去除就直接给出「19997是质数」的回答。

也就是说，3月份的GPT-4可能是无脑答对的，其表现并不能证明其数学能力；相反，也就不能证明6月份的GPT-4不行了（可能本来就是这个水平）。

为了进一步证明自己的看法，教授们用500个合数测试了模型，结果是3月版本的GPT-4几乎总是猜测这些数字是质数，而6月版本则几乎认为是合数。

——评估数据一换，结果就完全不同，这足以说明原作者的结论并不算立得住了。

除此之外，在下降最多的代码编写能力方面，教授们也认为，作者只是检查代码是否可以直接执行，而不评估其正确性的方式，这种方式也同样草率。

这意味着新GPT-4试图提供更多帮助的能力被抵消了。

以上这些观点，均得到了英伟达AI科学家Jim Fan的支持，他表示：

这也让我想到了GPT-4满分拿下MIT数学本科考试那篇论文。（被质疑造假，数据和评估方式都有问题）

但他认为，这都不重要，重要的是大家一起来battle。

所以，你认为GPT-4到底变笨了没？

论文地址：https://arxiv.org/abs/2307.09009

参考链接：[1]https://twitter.com/DwayneCodes/status/1681617375437922309[2]https://www.aisnakeoil.com/p/is-gpt-4-getting-worse-over-time[3]https://twitter.com/DrJimFan/status/1681771572351369216

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

1

点赞

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与华威派无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非华威派）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@goodmaoning.com

英伟达H100杀疯了：11分钟训完GPT-3，霸榜8项测试 | MLPerf放榜

2023-08-01 16:55

GPT-4计算能力差怎么破？把它当小学生，保证结果跟计算器一样准

2023-08-01 16:34

相关文章

急转直下！ChatGPT遭多国“围剿” 相关概念股暴跌

ChatGPT带来啥影响？中考自招面试题灵活考素养！学子忙闯关，盼望早上岸..

每日一“焦”：chatGPT与MR，将带来哪些景气上行...

“地表最强”聊天机器人！天才ChatGPT引领风口乍现

相亲聊天需要每天都聊一下吗？相亲聊天到底聊的是什么？..

手机聊天就能日赚300-500块你心动不，揭秘交友软件背后的套路..

专家和ChatGPT，谁的建议更靠谱

ChatGPT让英伟达A100显卡秒卖3万块

人类算力天花板？1750 亿参数的 AI 模型 GPT-3 引爆硅谷

关于作者

素素鴉(普通会员)

点击领取今天的签到奖励!

猜你喜欢

01

抛妻弃女31年，李连杰再次遇到前妻黄秋燕，泪点却在合影的位置上..

2022/09/12

02

豆瓣评分9.0以上的国产剧排行榜豆瓣评分9.0以上的国产剧前十..

2022/09/24

03

盘古和女娲（中国神话故事）

2022/08/27

04

2022离世的11位名人：有人患癌，有人突发意外，有人元旦当天离世..

2022/09/11

05

巨蟹座：一生最旺的颜色，能旺你一生，可以不喜欢，但必须爱上它..

6个月前

06

30个暖心睡前小故事，很甜很撩的睡前小故事

2022/08/26

07

香蕉是如何种出来的？从育苗到收获，揭秘香蕉种植的全过程..

2022/06/02

08

“没有好奇心，人就死了”！喜马拉雅鬼王——杨湃的鬼故事哲学..

2022/08/27

标签云

1

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索