> 自媒体 > AI人工智能 > OpenAI出手解决GPT-4数学推理:做对一步立刻奖励!直接拿下SOTA
OpenAI出手解决GPT-4数学推理:做对一步立刻奖励!直接拿下SOTA
来源:量子位
2023-07-18
197
管理

明敏 西风 发自 凹非寺

量子位 | 公众号 QbitAI

OpenAI一个简单的动作,让大模型数学能力直接达到SOTA。

而且直接开源论文数据集,包含80万个人类反馈标签!

这就是OpenAI的最新研究。基于GPT-4,他们微调了几个模型,分别采用不同的监督方法。

一种是传统的结果监督,只对最终正确答案进行奖励。

另一种则是过程监督,区别在于奖励增加,对每一个正确的推理步骤进行奖励。

结果这一点改变,让采用过程监督的模型Process Reward Model(PRM),可以解决MATH测试集代表子集中78%的问题,达到SOTA。

用过程监督的模型来算,效果会是这样的:

下面是模型的作答结果:

这不,有人就说,看来以后不用再做数学家庭作业和证明题了(doge)。

也有人提出了自己的担心:这种密集的奖励信号是否会导致模型更容易陷入局部最小值。

但是如果能够足够随机化、全局搜索,或许模型的鲁棒性更高。

(问题不难,但要注意这是零样本学习,也就是说AI训练阶段从没见过同类问题。)

如果要求GPT-3直接写出“答案是几”,它会给出错误答案:8。

但加上让我们一步一步地思考这句“咒语”后,GPT-3就会先输出思考的步骤,最后给出正确答案:4!

而与之相呼应的是,这回OpenAI最新研究的论文题目就叫做《Let’s Verify Step by Step》。

论文地址:https://openai.com/research/improving-mathematical-reasoning-with-process-supervision

数据集:https://github.com/openai/prm800k

参考链接:[1]https://twitter.com/OpenAI/status/1663957407184347136[2]https://twitter.com/DrJimFan/status/1663972818160332800[3]https://twitter.com/_akhaliq/status/1663981726647894027

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

0
点赞
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与华威派无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
凡本网注明 “来源:XXX(非华威派)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
QQ:2443165046 邮箱:info@goodmaoning.com
关于作者
杨子(普通会员)
点击领取今天的签到奖励!
签到排行
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索