整理 | 屠敏
出品 | CSDN(ID:CSDNnews)
今年三月,OpenAI 重磅发布了 GPT-4 大模型,带来了比 ChatGPT 背后 GPT-3.5 更强的推理、计算、逻辑能力,也引发了全民使用的热潮。在各行各领域研究人员、开发者、设计师的使用过程中,「GPT-4 是最为领先的大模型」似乎已成为了公认的结果。
然而,8 月 7 日,毕业于美国麻省理工学院、现任 Dyania Health CTO 的 Konstantine Arkoudas 最新撰写了一篇标题为《GPT-4 Can't Reason》(GPT-4 不能推理)的预印本(指尚未在需要同行评审的科学期刊上出版的科学文献的草稿)论文,在业界引起轩然大波。
该论文指出,GPT-4 与 GPT 3.5 相比有了全面的实质性改进。然而,尽管确实取得了令人印象深刻的改进,但其有充分的理由对 GPT-4 的推理能力表示高度怀疑。这篇论文讨论了推理的本质,批评当前 NLP 界对推理问题的表述以及目前评估 LLM 推理表现的方式,同时分享了基于 GPT-4 给出的 21 个不同推理问题的集合。
最终得出结论:尽管 GPT-4 偶尔会闪现出分析的才华,但它目前是完全无法推理的。
论文地址:https://www.preprints.org/manuscript/202308.0148/v1
一语掀起千层浪,难道此前 GPT-4 在短短几分钟之内生成一款游戏代码,难道都不算是推理吗?
什么是推理?
其实在今年一月初,论文作者 Konstantine Arkoudas 就在 Medium 平台上分享了一篇有关 ChatGPT 的非正式评估,评估涉及的学科非常广泛,包括传统 NLU、民间物理、信息检索、心理理论、空间推理、简单逻辑推理和数学。
但实际上,正确答案是 1405*1421=1996505。
事实证明,GPT-4 仍然无法可靠地执行基本算术运算,如加法和乘法。
Konstantine Arkoudas 表示,也许 LLM 的支持者此时可能会承认 GPT-4 不是一个图灵完备的框架,不能执行通用计算:它不能进行加、乘法或除法运算,不能对列表进行排序、不能求逆矩阵或解微分方程组、不能将任意程序编译成机器码、不能推导定理等等。
不过,这些计算能力的缺失可以通过第三方插件来弥补,如 ReAct、MRKL 框架。正是这种工作方式催生了 LangChain 和 AutoGPT 这样的系统。这里的想法是使用 LLM 作为规划器,将复杂问题递归分解为一系列子问题,通过适当的 API 将这些子问题分派给专门的代理。
然而,Konstantine Arkoudas 认为,这种方法的问题在于它的循环性。规划本身就需要推理,所以这是一个 "两难选择",即我们无法通过将问题委托给合适的代理来解决推理问题,因为找出委托的方法(如何分解问题、调用哪些代理、如何调用以及如何分解结果)本身在计算上就不可行。这不仅需要理解自然语言的能力,还需要推理先决条件和效果的能力。即使在这些过于简单化的假设下,规划的计算成本也非常高昂(PSPACE-complele),需要进行彻底的简化才能将复杂度降低到 NP-complele 的水平。在更现实的假设条件下,规划是在不完全的知识条件下进行的,在机制上是不可判定的。正如我们今天所理解的那样,期望通用 LLMs 能够成功解决规划问题是天真的想法。
简单计数
给 GPT-4 一个命题变量,在它前面有 27 个否定符号,并要求它计算否定的数量。对于人类来说,这是个很容易的任务,尤其是因为否定符号是分五块写的,每块有五个小点,最后是一对否定符号,但是 GPT-4 的表现如何呢?
KA:
在下面的公式中,p 被否定了多少次:
~~~~~ ~~~~~ ~~~~~ ~~~~~ ~~~~~ ~~ p
GPT-4 的回答是:
GPT-4:你给出的公式在命题变量 "p "前面包含了 28 个否定符号("∼")。在逻辑学中,否定符号将语句的真值改变为它的相反值。如果一个语句为真,那么它的否定就是假的,反之亦然。双重否定,如"∼ ∼ p",等价于 "p",因为对一个命题否定两次,它就恢复到原来的真值。
如果有余数,那么就有一个否定。如果没有,那么就没有否定。
28 除以 2 是 14,没有余数,也就是说没有否定。因此,实际上在给定的公式中,变量 "p "并没有被否定。它只相当于 "p"。
GPT-4:
根据所提供的信息,我们无法确定 Mable 中午是否还活着。所提供的数据点(上午 9 点的心率和下午 7 点的血压)都表明她当时还活着。但是,如果没有更多关于她下午 7 点到 11 点之间或者具体到中午的情况信息,我们就无法确定她中午时的状况。
请记住,医疗信息可能是复杂而微妙的。要了解一个人的健康状况,通常需要进行全面的检查,并应由专业医护人员进行。如果这是一个假设性问题,请记住现实生活中需要更完整的信息。
在目前的情况下,其实可以将常识论证视为从给定信息加上未说明的前提得出的直接推导结论,这些前提构成了普遍接受的背景知识。在这种特殊情况下,这种常识性知识就是 "人在死前是活着的,死后就不会再活着 "这样的命题。在论文中,Konstantine Arkoudas 认为,GPT-4 给出"这是一个复杂的问题,请务必向专业人士咨询 "的说法似乎具有讽刺意味。
Wason 选择问题
Wason 选择任务是推理心理学的主要内容。
KA:
桌上放着七张扑克牌,每张扑克牌的一面都有一个数字,另一面有一个单色的图案。牌面分别显示 50、16、红、黄、23、绿、30。如果一张牌上显示的是 4 的倍数,那么反面的颜色就是黄色,你需要翻哪张牌来检验这个命题的真伪?
GPT-4:
命题是:"如果一张牌上的数字是 4 的倍数,那么另一面的颜色是黄色"。为了验证这个命题,你必须翻开下面的牌:
扑克牌"16":根据命题,另一面的颜色应该是黄色。通过翻开这张牌,你可以检查命题的这一部分是否成立。
扑克牌"黄色":翻开这张牌,你就可以检查对面的数字是否是 4 的倍数。
扑克牌"50"和"30":虽然这两张卡片上的数字不是 4 的倍数,但还是要检查一下,以确保另一面的颜色不是黄色。如果另一面是黄色,那么就推翻了“只有 4 的倍数的另一面是黄色”的命题。
你不需要翻开卡片"23"、"红色 "或 "绿色"。卡片"23"不是 4 的倍数,所以根据给定的命题,另一面是什么颜色并不重要。如果 "红色 "和 "绿色 "卡片的另一面的数字是 4 的倍数,它们也不会推翻命题,因为命题并没有说明黄色是唯一可以出现在数字是 4 的倍数的卡片的另一面的颜色。
争议
在 Konstantine Arkoudas 看来,当前的生成式 AI 还处于发展的早期,距离推理能力以及 AGI 时代还有很远的距离。
此篇论文一经发布,也在 HN 上吸引了很多人的关注与讨论,难道过去 5 个月间,我们都被骗了吗?
不过,他的这一独特的看法,也得到了不少 AI 学者的认同。
人工智能领域内的“叛逆者”、纽约大学心理学和神经科学荣誉教授Gary Marcus 发推文表示:“如果这是真的——正如我早就说过的——我们距离通用人工智能还差得很远。可能需要进行大量的重新校准:没有推理就不可能拥有通用人工智能。”
@SiSafLtd首席人工智能官 Nikos Tzagarakis 表示,“深度学习算法是为了根据感知进行预测而构建的。他们可能会伪造推理,但实际上这是感知。”
不过,也有网友提出质疑:
我浏览了这些资料,并尝试重现了一些报告的故障,从中得出了两个结论。
1. 作者不善于 Prompt。有很多方法可以减少幻觉,为模型提供更好的思考路径。
2. 作者使用的是 ChatGPT 的 GPT-4,导致他将 "GPT-4 "与 "ChatGPT "混为一谈。虽然你可以认为这是 OpenAI 的共同失误,但由于 OpenAI 的沟通不畅,任何认真评估这些模型的人都会知道,你需要做的第一件事就是使用 API 并锁定模型版本。就作者而言,他应该使用 gpt-4-0314 或 gpt-4-0613。我怀疑他只是使用了 ChatGPT 的 GPT-4,而且很可能是默认模型。(任何人都不应该使用默认模式。这是性能优化最差的模型,在推理任务上的表现比 Plugins 模型更差,甚至在上下文大小的任务上也是如此)。
如果作者一直在认真地评估模型,那么说明模型是他要做的第一件事。也许他应该解释一下他的理由。
至此,你怎么看?
参考:
论文地址:https://www.preprints.org/manuscript/202308.0148/v1
https://news.ycombinator.com/item?id=37050257
https://medium.com/@konstantine_45825/chatgpt-is-no-stochastic-parrot-but-it-also-claims-that-1-is-greater-than-1-e3cd1fc303e0
相关文章
猜你喜欢