GPT-4数学再提30分，代码解析器任督二脉被打开，数学能力登SOTA-华威派

> 自媒体 > AI人工智能 > GPT-4数学再提30分，代码解析器任督二脉被打开，数学能力登SOTA

GPT-4数学再提30分，代码解析器任督二脉被打开，数学能力登SOTA

来源：量子位

2023-08-21

365

管理

西风发自凹非寺

量子位 | 公众号 QbitAI

GPT-4数学能力还能更强！

新研究发现GPT-4代码解释器做题准确率与其使用代码的频率有关。

为此，研究人员提出新方法对症下药，直接将其数学能力拔至新SOTA：

在MATH数据集上，做题准确率从53.9%增加到了84.3%。

你没听错，就是前段时间被称为ChatGPT推出后最强模式的那个代码解析器（Code Interpreter）。

研究人员窥探了其代码生成和执行机制，使用自我验证、验证引导加权多数投票的方法，直接打开其做数学题的任督二脉。

好奇网友随即而来：

还想看他们做高数。

还有网友认为：

这也就是大脑的工作方式，人类在解决数学问题时也会自我验证。

他们设计了3种不同的提示方法，限制GPT-4代码解析器使用代码的频率：

Prompt 1：完全不允许使用代码，输出完全依赖自然语言推理，禁止将代码合并到解决方案中。Prompt 2：只允许使用1次代码，也就是在生成解决方案时，只能在单个代码块内使用代码。Basic Prompt：没有限制，GPT-4代码解析器可以进行一系列推理步骤，每个步骤都可由文字 Python代码组成。

△在MATH数据集上的准确率（%）

在MATH数据集的各个子任务中，提出方法均取得显著提高，尤其是在高难度级别的题目中效果更明显。例如在中级代数（Intermediate Algebra）题目中，原来的GPT-4代码解析器准确率为50.1%，使用新方法后提高到74.4%。

除此之外，研究人员还在GSM8K、MMLU-Math、MMLU-STEM等数据集上进行了验证。

△在GSM8K数据集上的表现

上表可以看出，使用验证引导加权多数投票的方法还可以显著减少需要采样的解路径数量（Sampled paths），在GSM8K数据集上只需要5个路径就达到97%的准确率。

△在MMLU数据集上的表现

针对不同难度的题目（下图a）以及不同类型题目（下图b）的测试中，使用新方法后准确率都有了提升。

△每条曲线上的四个点分别对应于使用Prompt 1、Prompt 2、BasicPrompt、CSV Prompt得到的结果。

研究人员还发现GPT-4代码解析器的代码使用频率提高与准确率提高正相关。随着题目难度的增加，代码使用频率稳步上升。这说明在较难的数学问题上，更频繁地使用代码很重要。

此外，值得注意的是，尽管添加基于代码的自我验证可以提高每个单独题目类型的性能，但改进的程度也因题目类型而异，从7.6%到仅0.6%不等。

研究人员指出：

特别是几何问题的准确性仅提高了0.6%，原本GPT-4代码解析器的准确性也只有54.0%，在各个题目类型中属于较低的。这种差异可能是因为解决几何问题通常需要多模态，超出了本文研究范围。

论文传送门：https://arxiv.org/abs/2308.07921

参考链接：[1]https://twitter.com/_akhaliq/status/1691734872329699813?s=20[2]https://x.com/justfannet/status/1691983780498600376?s=46&t=iTysI4vQLQqCNJjSmBODPw

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

2

点赞

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与华威派无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非华威派）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@goodmaoning.com

全球首个内置ChatGPT智能音箱发布机构称出货量将在2年内释放

2023-08-21 11:55

ChatGPT付费就变快！实测提速超2倍、正确率更高，定价每月20刀

2023-08-21 11:39

相关文章

时下最火外贸工具ChatGPT你了解吗？最全使用指南看这一篇就够了~..

聊天交友软件“美女”主动搭讪，只要下载APP就能“赤身相见”？..

ChatGPT和ChatGPT们，你都了解了吗？

OpenAI软件工程师年薪92.5万美元，到手仅30万美元，网友：“这个饼我不吃！..

有关ChatGPT的一些非专业认知

无话不谈到无言以对？3招激起男人沟通欲，让他爱上和你聊天..

复旦版ChatGPT升级中！目标打造中文大型语言模型，研究成果将会开源..

被OpenAI CEO取关后，Yann LeCun：ChatGPT对现实的把握非常肤浅..

突发！ChatGPT Plus停售

关于作者

细雨入梦(普通会员)

点击领取今天的签到奖励!

猜你喜欢

01

抛妻弃女31年，李连杰再次遇到前妻黄秋燕，泪点却在合影的位置上..

2022/09/12

02

豆瓣评分9.0以上的国产剧排行榜豆瓣评分9.0以上的国产剧前十..

2022/09/24

03

盘古和女娲（中国神话故事）

2022/08/27

04

2022离世的11位名人：有人患癌，有人突发意外，有人元旦当天离世..

2022/09/11

05

巨蟹座：一生最旺的颜色，能旺你一生，可以不喜欢，但必须爱上它..

6个月前

06

30个暖心睡前小故事，很甜很撩的睡前小故事

2022/08/26

07

香蕉是如何种出来的？从育苗到收获，揭秘香蕉种植的全过程..

2022/06/02

08

“没有好奇心，人就死了”！喜马拉雅鬼王——杨湃的鬼故事哲学..

2022/08/27

标签云

2

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索