人类喜讯，GPT-4变笨！错误率暴涨40倍，数学能力断崖式下跌-华威派

> 自媒体 > AI人工智能 > 人类喜讯，GPT-4变笨！错误率暴涨40倍，数学能力断崖式下跌

人类喜讯，GPT-4变笨！错误率暴涨40倍，数学能力断崖式下跌

来源：头部科技

2023-07-30

222

管理

哎呀，真是做人难，做机器人难，做著名机器人更难。‍‍‍‍

论文实锤6月GPT-4降智，3个月时间不进反退

GPT-4在哪些方面降智了呢？

首先是求解数学问题。

在判定一个数是否是质数上的问题上，2023年3月GPT-4 的准确率为97.6%，到了6月份，在这些相同的问题上GPT-4的准确率只剩2.4%。

而此前表现拉胯的GPT-3.5，从三月份7.4%的准确度暴涨到 86.8%。

研究人员推测，这可能是因为GPT-4 在2023年6月增加了更强的安全机制，而GPT-3.5则放松了。

生成代码

研究人员还发现，从2023年3月到6月，GPT-4 能够直接运行的代码比例减少了。

如图所示，GPT-4在2023年3月的版本有超过50%的代码是可运行的，但在2023年6月的版本只有10%。GPT-3.5也有相同的趋势。

研究人员猜测导致可运行代码比例下降的一个原因可能是2023年6月的版本会在代码中添加一些多余的非代码文本。

GPT-4在2023年3月和6月的版本生成的代码基本相同，但有两处区别，一是2023年6月的版本在代码前后加了“‘python”和“‘”。

二是2023年6月的版本加了一些注释。这些变化看似微小，但多出来的三引号却使得代码无法运行。并且，这个问题在把LLM生成的代码集成到更大的软件项目中时更难发现。

视觉推理

在视觉推理上，研究人员发现GPT-4和GPT-3.5的表现都没有明显提高。而且它们在两个版本之间的回答重复率很高，达到90%。

这些服务的总体准确率也很低：GPT-4是27.4%，GPT-3.5是12.2%。值得注意的是，更新的LLM并不一定能生成更好的结果。

有时候，GPT-4在2023年6月的版本会在2023年3月的版本能答对的问题上出错。

例如，测试数据来自ARC数据集，要求生成一个3×3的网格，用数字的二维数组表示网格的颜色。

GPT-4在2023年3月的版本生成了正确的网格，但在2023年6月的版本却生成了错误的网格。

GPT-4为什么变笨了？OpenAI回应

按理来说，经过三个月的发展，GPT-4的实力应该突飞猛进，但为什么降智了呢？

网上流传了很多猜测。例如，OpenAI可能采取了成本削减措施

一位网友指出，GPT-4的运行成本很高，他怀疑OpenAI开始限制使用量，比如从原来每3小时可以发送100条信息降到现在的25条。

他还怀疑OpenAI是否让GPT-4不再对多个候选答案进行评估，而是直接给出最快的答案。这样做可以缩短决策时间，降低计算成本，但也会导致回答质量下降。

不过虽然论文本身没有直接回答GPT-4为什么变笨，但研究人员用 longitudinal drifts 纵向漂移来描述模型能力随时间变化而不稳定的现象。

直白点说，OpenAIOpenAI并不是故意让模型变笨来节省成本！相反，它似乎也无法控制模型能力的稳定性和提升速度。

而OpenAI回应也暗示了GPT-4在一些任务的表现可能下降了。

不过近期GPT-4虽然处于风口浪尖上，ChatGPT的上新速度却一直没减缓。

今日，OpenAI又官宣了ChatGPT自定义指令（Custom instructions）新功能。

和指令集、代码解释器一样，自定义指令也是 Plus 用户专属功能，在设置中启用即可在 GPT-4 模型调用。

开启后，你可以给ChatGPT一个固定的指令，让它记住或扮演某个角色，然后按照你的要求生成内容。

这样，你就不用每次在Prompt前加上一堆限制条件，ChatGPT可以完全遵循你的指令。

比如，你可以让它扮演教师，按照你的需求设计课程，或者让它教你Python编程，或者让它做你的营养师，给你合理的食谱和购物清单。

可以发现，尽管GPT-4在一些任务上的表现有所下降，但这并不意味着它失去了其价值和潜力。相反，它正在以另一种方式进化。

如果您有什么想说的，欢迎屏幕前你们在评论区留言讨论！我们将为点赞、评论、关注的同学们送上红包不限量哟~

0

点赞

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与华威派无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非华威派）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@goodmaoning.com

OpenAI：安卓版ChatGPT现已面向法国、英国等16国用户推出

2023-07-31 14:03

研究人员发现，GPT-4的性能在近几个月里持续下降

2023-07-30 20:19

相关文章

突发停售，ChatGPT还能不能玩了！

ChatGPT高分通过中文执业医师执照考试未来给你看病的是AI？..

ChatGPT如何赚钱？盘点普通人的8个赚钱方法

ChatGPT爆火，人工智能到底是怎样“练成”的？

事关ChatGPT！支付清算协会紧急倡议

VRChat上的“中文梗博物馆”是如何建立的，我们和馆长聊了聊..

GPT-4是如何工作的？哈佛教授亲自讲授

太神了！几乎无所不能的世界上最聪明的聊天机器人—ChatGPT..

分享 | ChatGPT横空出世，教育工作者只能视其为“敌”吗？..

关于作者

素素鴉(普通会员)

点击领取今天的签到奖励!

猜你喜欢

01

抛妻弃女31年，李连杰再次遇到前妻黄秋燕，泪点却在合影的位置上..

2022/09/12

02

豆瓣评分9.0以上的国产剧排行榜豆瓣评分9.0以上的国产剧前十..

2022/09/24

03

盘古和女娲（中国神话故事）

2022/08/27

04

2022离世的11位名人：有人患癌，有人突发意外，有人元旦当天离世..

2022/09/11

05

巨蟹座：一生最旺的颜色，能旺你一生，可以不喜欢，但必须爱上它..

6个月前

06

30个暖心睡前小故事，很甜很撩的睡前小故事

2022/08/26

07

香蕉是如何种出来的？从育苗到收获，揭秘香蕉种植的全过程..

2022/06/02

08

“没有好奇心，人就死了”！喜马拉雅鬼王——杨湃的鬼故事哲学..

2022/08/27

标签云

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索