最近几个月一直都有关于OpenAI的两个传说,其一是ChatGPT的流量开始下滑,其二是GPT4“变笨”了。
前者已经被证明是真的,根据数据公司SimilarWeb的统计,5月到6月,ChatGPT全球流量下降了9.7%,美国境内流量下降了10.3%。
后者则是逐渐变成了一个Twitter热门传说,大家讨论它的热情堪比对GPT4模型结构的全力揣测,以至于OpenAI的产品副总裁都公开说,不!我们没有让它变笨!
然而群众讨论热情丝毫不减,就在今天,一篇论文被预印在arXiv上,题目十分直白:How Is ChatGPT's Behavior Changing over Time?
论文的主要内容,简而言之就是,你说对了!大模型确实在变笨!
论文试图通过多种维度评估GPT的表现为何让人感到如此不稳定和不一致,于是为GPT3.5和GPT4划分了四种能力维度,分别是数学问题,敏感问题,代码能力和视觉推理能力。
通过对比2023年3月和6月两个版本的大模型,这篇论文发现了如下结果。
首先,两个大模型的表现都在短期内有着显著变化,特别明显的是数学问题,GPT的准确率大幅下降。举例子来说,在判定一个数是否是质数上,GPT4的成功率在三个月内从97.6%下降到了2.4%!
最后,关于代码和视觉推理,论文发现GPT开始变得更倾向于不直接给用户生成可执行代码,而视觉推理的准确率则有略微的提升。
大模型变笨意味着什么?这篇论文的作者中除了有来自斯坦福的华人教授James Zou和他的学生 Lingjiao Chen外,也包括了伯克利的计算机科学教授 Matei Zaharia,他的另一个身份是AI 数据公司 Databricks 的CTO。
之所以对大模型变笨这个问题感兴趣,当然不是单纯想做“谣言粉碎机”,而是大模型这项关键能力实际上同它的商业化能力息息相关——如果部署在实际环境中的各种AI服务会随着大模型的迭代而出现能力上的剧烈波动,这显然不利于大模型的落地。
论文中用了 longitudinal drifts 纵向漂移这个词来形容模型能力随着迭代和时间变化而带来的不稳定性,尽管论文本身没有给出具体的原因,但这篇论文已经在Twitter上引起了广泛讨论,不少人都认为,这实际上回应了关于大模型变笨流言中的一个主要的阴谋论——OpenAI实际上并不是处于节省成本目的故意让模型变笨的!
它似乎也失去了对模型能力稳定性和提升节奏的控制。
这引出了另一个更加让人不安的消息,每一次大模型的迭代升级,fine tuning 和 RLHF(基于人类反馈的强化学习)实际上都会造成模型能力的变动与不稳定,而目前还无法确定这一切是如何发生的!
也有人猜测,这可能就是OpenAI在努力推进 alignment 对齐研究的原因,因为对齐的目标之一实际上就是确保大模型每次迭代升级中在某些基准上保持一致性。
还有人表示GPT4在数学问题上的糟糕表现让人怀疑,大模型的内部似乎有一种机制在主动控制模型输出错误的答案。
不过也有人指出,OpenAI刚刚发布的 Code Interpreter 功能实际上补充了GPT在代码方面下降的能力,这让人怀疑可能是OpenAI对整个GPT4的大模型结构进行了一些调整,比如为了加快决策速度省略了一些步骤(或许是一个小的大模型?),而又将一些专门的模型单独处理Code Interpreter 相关的任务。
总之,这篇论文引起了人们对模型能力跟踪评估的关注,毕竟,没有人希望自己的AI助手时而聪明过人,时而又异常愚笨吧!
相关文章
猜你喜欢