GPT-4推理太离谱！大学数理化总分没过半，21类推理题全翻车-华威派

> 自媒体 > AI人工智能 > GPT-4推理太离谱！大学数理化总分没过半，21类推理题全翻车

GPT-4推理太离谱！大学数理化总分没过半，21类推理题全翻车

来源：新智元

2023-08-19

221

管理

编辑：编辑部

【新智元导读】「地表最强」GPT-4在推理问题中接连出错！MIT校友，以及UCLA华人一作的最新研究引众多网友围观。

GPT-4根本不会推理！

近来，有两篇研究称，GPT-4在推理方面表现不尽人意。

来自MIT的校友Konstantine Arkoudas，在21种不同类型推理集中，对GPT-4进行了评估。

然后，对GPT-4在这些问题上的表现进行了详细的定性分析。

研究发现，GPT-4偶尔会展现出「最强大脑」的天赋，但目前来看，GPT-4完全不具备推理能力。

下面我们就来具体看看，GPT-4如何在21个问题集，数学、物理、化学上推理惨败的。

21个问题集，GPT-4全翻车

不过，在看GPT-4回答问题之前，作者给出了一个注意事项：

GPT-4是一个非确定性系统，即使参数设置相同，在不同的运行中也可能产生不同的答案。

而以下的测试交流都是逐字记录的，根据作者的经验，文中讨论的GPT-4出错的地方往往具有鲁棒性。

1. 简单算术

能够进行基本运算，是推理的必要条件。

但是，GPT-4仍然无法可靠地执行加法、乘法等基本算术运算。

比如，让GPT-4在1381和1453之间随机选择两个数字相乘，并给出结果。

GPT-4选择了1405，以及1421，但是最后给出的结果显然是错的。因为1405×1421=1996505。

4. 初级逻辑

如果P(x)包含Q(x)，而Q(a)不成立，那么我们就可以根据模型推论出P(a)也不成立（因为如果P(a)成立，那么Q(a)也会成立）。

这是一个最基本的同义反复，但GPT-4却完全提出一个反模型：

值得注意的是，GPT-4认识到，P(x)实际上并不包含Q(x)，并提出了x有可能是负数偶数，「不排除存在其他给定条件的模型」。

其实不然，一个反模型（countermodel）必须满足所有给定的条件，同时证伪结论。

此外，仅仅几句话之后， GPT-4就声称P(x)在给定的解释下确实蕴含Q(x)，这与它自己之前的说法相矛盾。

9. 简单安排计划

在时间安排问题上，GPT-4同样出错了。

11. 积木世界

这是一个简单的推理任务，需要对倒数第三个积木B3进行案例分析。

首先，B3要么是绿色的，要么不是。

如果是绿色的，那么B3就在非绿色积木B4的上面，所以结论成立。

如果不是，那么从上数的第二个绿色积木B2，就在非绿色积木B3上面，因此结论仍然成立。

然而，结果显示，GPT-4的表现并不理想。

有五个积木从上往下堆叠：

1. 从上往下数第二个积木是绿色的

2. 从上往下数第四个积木不是绿色的

在这些条件成立的情况下，证伪或证明以下结论：在一个非绿色积木的正上方，有一个绿色积木。

首先它在证明猜想时，就已经弄错了证明的策略——PT-4假定了两种特殊情况来进行推理。

此外，GPT-4在自己的推理中已经得出了结论（虽然是错的），但在回答时仍然告诉用户问题没有被解决。而这体现的便是模型的内部不一致性问题。

13. 时间推理

作者在这里给出了一个比较简单的时间推理问题，但GPT-4的回答依旧一塌糊涂。

14. 谋杀还是自杀？

作者构思了一个逻辑谜题，列出了9个条件要求GPT-4找出真正杀害Agatha姨妈的凶手。

1. 住在Dreadbury Mansion的某人杀了Agatha姨妈。

2. Dreadbury Mansion中唯一的居住者是Agatha姨妈、管家和Charles。

3. 杀人犯总是讨厌他的受害者，并且他的财富不会比受害者多。

4. Charles不讨厌Agatha姨妈讨厌的人。

5. Agatha姨妈讨厌所有人，除了管家。

6. 管家讨厌所有不比Agatha姨妈富有的人。

7. 管家讨厌Agatha姨妈讨厌的所有人。

8. 没有人讨厌所有人。

9. Agatha姨妈不是管家。

正确的答案是Agatha姨妈杀了自己。

首先，根据条件5，Agatha姨妈必须讨厌她自己，因为她讨厌所有除了管家以外的人。

因此，根据条件4，得出Charles不讨厌她，所以他不可能杀了她。

根据条件5和7，管家不可能讨厌他自己，因为如果他讨厌自己的话，条件8就不成立了，他会讨厌所有人。

根据条件6，得出管家比Agatha姨妈更富有，否则他会讨厌自己，这与前面我们得出的他不讨厌自己相矛盾。

根据条件3，管家也不会是凶手（第3个条件）。

在推理中，GPT-4正确地排除了Charles，但无法排除管家，并得出了错误的结论：管家是凶手。

GPT-4做出的另一个关键错误是：由于Agatha姨妈讨厌所有除管家以外的人（条件5），这意味着她至少不讨厌她自己。

这是一个奇怪的错误，从第5个条件就可以得出Agatha姨妈讨厌她自己。

同时，GPT-4又一次展示了反复出现的不一致性问题——几乎在每一条回复中，GPT-4都声称推导出某个命题及其否定形式。

桌上放着7张牌，每张牌一面写着数字，另一面是单色色块。这些牌的正面显示的是50、16、红色、黄色、23、绿色、30。

要判断「如果一张牌正面显示4的倍数，则背面颜色为黄色」这个命题的真假，你需要翻转哪些牌?

这可能是因为它之前看过类似的证明，作者给出的例子是编程课程和教材中常见的练习类型。

然而，GPT-4还是会出现一些细节上错误。

考试数据集上零样本学习下总分的实验结果

为了全面了解LLM在科学问题解决中的局限性，研究人员提出了一种全新的「自我完善」的方法，以发现LLM所做解答中的不足之处。

便是如下的「评估协议」。

首先，将正确的解决方案与LLM生成的解决方案进行比较，并在人工标注员的协助下，总结出成功解决科学问题所需的10项基本技能。

具体包括：逻辑分解和分析能力；识别假设；空间感知；因果推理；问题演绎；抽象推理；科学素养；代码转换；逻辑推理；计算能力。

随后，团队采用了一种由LLM驱动的自我评价方法，对每个实验配置下基准LLM所做的解决方案中，缺乏的技能进行自动分类。

6种设置下GPT-3.5在文本数据集上的错误概况，揭示了其10种基本解决问题能力的缺陷分布

最后，通过分析发现：

(1) 虽然CoT显著提高了计算能力，但在其他方面的效果较差；

(2) 使用外部工具的提示可能会损害其他基本技能；

(3) 少样本学习并不能普遍提高科学问题解决能力。

总之，研究结果表明，当前大型语言模型在解决问题能力方面依旧很弱，并且在各种工具帮助下，依旧存在局限性。

参考资料：

https://www.preprints.org/manuscript/202308.0148/v2

https://arxiv.org/pdf/2307.10635.pdf

0

点赞

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与华威派无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非华威派）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@goodmaoning.com

EdgeGPT: GPT-4邂逅边缘计算与6G

2023-08-19 14:09

OpenChat：快速开发大模型聊天机器人

2023-08-19 12:48

相关文章

【健康快乐过新年】⑥过年如何与亲朋开启聊天模式？..

用ChatGPT写作，提示词的四个层次

AI文字创作工具大PK——ChatGPT和copy.ai

mobilegpt-vue3 基于vue3+vant构建移动端chatgpt模板

GPT-3记录被打破！谷歌推出1.6万亿参数人工智能语言模型..

公职人员被曝涉不雅聊天。爆料男子道歉：与该人员交往一年，因感情不和现已..

ChatGPT4.0：美国有没有可能，以演习为幌子突然向我们开战？..

前沿追踪｜由ChatGPT引发的十个知识点（下）

GPT-4比人类更懂融资！AI企划书让VC疯狂打call

关于作者

雪霁(普通会员)

点击领取今天的签到奖励!

猜你喜欢

01

抛妻弃女31年，李连杰再次遇到前妻黄秋燕，泪点却在合影的位置上..

2022/09/12

02

豆瓣评分9.0以上的国产剧排行榜豆瓣评分9.0以上的国产剧前十..

2022/09/24

03

盘古和女娲（中国神话故事）

2022/08/27

04

2022离世的11位名人：有人患癌，有人突发意外，有人元旦当天离世..

2022/09/11

05

巨蟹座：一生最旺的颜色，能旺你一生，可以不喜欢，但必须爱上它..

8个月前

06

30个暖心睡前小故事，很甜很撩的睡前小故事

2022/08/26

07

香蕉是如何种出来的？从育苗到收获，揭秘香蕉种植的全过程..

2022/06/02

08

“没有好奇心，人就死了”！喜马拉雅鬼王——杨湃的鬼故事哲学..

2022/08/27

标签云

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索