> 自媒体 > AI人工智能 > GPT-4推理太离谱!大学数理化总分没过半,21类推理题全翻车
GPT-4推理太离谱!大学数理化总分没过半,21类推理题全翻车
来源:新智元
2023-08-19
140
管理

编辑:编辑部

【新智元导读】「地表最强」GPT-4在推理问题中接连出错!MIT校友,以及UCLA华人一作的最新研究引众多网友围观。

GPT-4根本不会推理!

近来,有两篇研究称,GPT-4在推理方面表现不尽人意。

来自MIT的校友Konstantine Arkoudas,在21种不同类型推理集中,对GPT-4进行了评估。

然后,对GPT-4在这些问题上的表现进行了详细的定性分析。

研究发现,GPT-4偶尔会展现出「最强大脑」的天赋,但目前来看,GPT-4完全不具备推理能力。

下面我们就来具体看看,GPT-4如何在21个问题集,数学、物理、化学上推理惨败的。

21个问题集,GPT-4全翻车

不过,在看GPT-4回答问题之前,作者给出了一个注意事项:

GPT-4是一个非确定性系统,即使参数设置相同,在不同的运行中也可能产生不同的答案。

而以下的测试交流都是逐字记录的,根据作者的经验,文中讨论的GPT-4出错的地方往往具有鲁棒性。

1. 简单算术

能够进行基本运算,是推理的必要条件。

但是,GPT-4仍然无法可靠地执行加法、乘法等基本算术运算。

比如,让GPT-4在1381和1453之间随机选择两个数字相乘,并给出结果。

GPT-4选择了1405,以及1421,但是最后给出的结果显然是错的。因为1405×1421=1996505。

4. 初级逻辑

如果P(x)包含Q(x),而Q(a)不成立,那么我们就可以根据模型推论出P(a)也不成立(因为如果P(a)成立,那么Q(a)也会成立)。

这是一个最基本的同义反复,但GPT-4却完全提出一个反模型:

值得注意的是,GPT-4认识到,P(x)实际上并不包含Q(x),并提出了x有可能是负数偶数,「不排除存在其他给定条件的模型」。

其实不然,一个反模型(countermodel)必须满足所有给定的条件,同时证伪结论。

此外,仅仅几句话之后, GPT-4就声称P(x)在给定的解释下确实蕴含Q(x),这与它自己之前的说法相矛盾。

9. 简单安排计划

在时间安排问题上,GPT-4同样出错了。

11. 积木世界

这是一个简单的推理任务,需要对倒数第三个积木B3进行案例分析。

首先,B3要么是绿色的,要么不是。

如果是绿色的,那么B3就在非绿色积木B4的上面,所以结论成立。

如果不是,那么从上数的第二个绿色积木B2,就在非绿色积木B3上面,因此结论仍然成立。

然而,结果显示,GPT-4的表现并不理想。

有五个积木从上往下堆叠:

1. 从上往下数第二个积木是绿色的

2. 从上往下数第四个积木不是绿色的

在这些条件成立的情况下,证伪或证明以下结论:在一个非绿色积木的正上方,有一个绿色积木。

首先它在证明猜想时,就已经弄错了证明的策略——PT-4假定了两种特殊情况来进行推理。

此外,GPT-4在自己的推理中已经得出了结论(虽然是错的),但在回答时仍然告诉用户问题没有被解决。而这体现的便是模型的内部不一致性问题。

13. 时间推理

作者在这里给出了一个比较简单的时间推理问题,但GPT-4的回答依旧一塌糊涂。

14. 谋杀还是自杀?

作者构思了一个逻辑谜题,列出了9个条件要求GPT-4找出真正杀害Agatha姨妈的凶手。

1. 住在Dreadbury Mansion的某人杀了Agatha姨妈。

2. Dreadbury Mansion中唯一的居住者是Agatha姨妈、管家和Charles。

3. 杀人犯总是讨厌他的受害者,并且他的财富不会比受害者多。

4. Charles不讨厌Agatha姨妈讨厌的人。

5. Agatha姨妈讨厌所有人,除了管家。

6. 管家讨厌所有不比Agatha姨妈富有的人。

7. 管家讨厌Agatha姨妈讨厌的所有人。

8. 没有人讨厌所有人。

9. Agatha姨妈不是管家。

正确的答案是Agatha姨妈杀了自己。

首先,根据条件5,Agatha姨妈必须讨厌她自己,因为她讨厌所有除了管家以外的人。

因此,根据条件4,得出Charles不讨厌她,所以他不可能杀了她。

根据条件5和7,管家不可能讨厌他自己,因为如果他讨厌自己的话,条件8就不成立了,他会讨厌所有人。

根据条件6,得出管家比Agatha姨妈更富有,否则他会讨厌自己,这与前面我们得出的他不讨厌自己相矛盾。

根据条件3,管家也不会是凶手(第3个条件)。

在推理中,GPT-4正确地排除了Charles,但无法排除管家,并得出了错误的结论:管家是凶手。

GPT-4做出的另一个关键错误是:由于Agatha姨妈讨厌所有除管家以外的人(条件5),这意味着她至少不讨厌她自己。

这是一个奇怪的错误,从第5个条件就可以得出Agatha姨妈讨厌她自己。

同时,GPT-4又一次展示了反复出现的不一致性问题——几乎在每一条回复中,GPT-4都声称推导出某个命题及其否定形式。

桌上放着7张牌,每张牌一面写着数字,另一面是单色色块。这些牌的正面显示的是50、16、红色、黄色、23、绿色、30。

要判断「如果一张牌正面显示4的倍数,则背面颜色为黄色」这个命题的真假,你需要翻转哪些牌?

这可能是因为它之前看过类似的证明,作者给出的例子是编程课程和教材中常见的练习类型。

然而,GPT-4还是会出现一些细节上错误。

考试数据集上零样本学习下总分的实验结果

为了全面了解LLM在科学问题解决中的局限性,研究人员提出了一种全新的「自我完善」的方法,以发现LLM所做解答中的不足之处。

便是如下的「评估协议」。

首先,将正确的解决方案与LLM生成的解决方案进行比较,并在人工标注员的协助下,总结出成功解决科学问题所需的10项基本技能。

具体包括:逻辑分解和分析能力;识别假设;空间感知;因果推理;问题演绎;抽象推理;科学素养;代码转换;逻辑推理;计算能力。

随后,团队采用了一种由LLM驱动的自我评价方法,对每个实验配置下基准LLM所做的解决方案中,缺乏的技能进行自动分类。

6种设置下GPT-3.5在文本数据集上的错误概况,揭示了其10种基本解决问题能力的缺陷分布

最后,通过分析发现:

(1) 虽然CoT显著提高了计算能力,但在其他方面的效果较差;

(2) 使用外部工具的提示可能会损害其他基本技能;

(3) 少样本学习并不能普遍提高科学问题解决能力。

总之,研究结果表明,当前大型语言模型在解决问题能力方面依旧很弱,并且在各种工具帮助下,依旧存在局限性。

参考资料:

https://www.preprints.org/manuscript/202308.0148/v2

https://arxiv.org/pdf/2307.10635.pdf

0
点赞
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与华威派无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
凡本网注明 “来源:XXX(非华威派)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
QQ:2443165046 邮箱:info@goodmaoning.com
关于作者
雪霁(普通会员)
点击领取今天的签到奖励!
签到排行
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索