OpenAI出手解决GPT-4数学推理：做对一步立刻奖励！直接拿下SOTA-华威派

> 自媒体 > AI人工智能 > OpenAI出手解决GPT-4数学推理：做对一步立刻奖励！直接拿下SOTA

OpenAI出手解决GPT-4数学推理：做对一步立刻奖励！直接拿下SOTA

来源：量子位

2023-07-18

197

管理

明敏西风发自凹非寺

量子位 | 公众号 QbitAI

OpenAI一个简单的动作，让大模型数学能力直接达到SOTA。

而且直接开源论文数据集，包含80万个人类反馈标签！

这就是OpenAI的最新研究。基于GPT-4，他们微调了几个模型，分别采用不同的监督方法。

一种是传统的结果监督，只对最终正确答案进行奖励。

另一种则是过程监督，区别在于奖励增加，对每一个正确的推理步骤进行奖励。

结果这一点改变，让采用过程监督的模型Process Reward Model（PRM），可以解决MATH测试集代表子集中78%的问题，达到SOTA。

用过程监督的模型来算，效果会是这样的：

下面是模型的作答结果：

这不，有人就说，看来以后不用再做数学家庭作业和证明题了（doge）。

也有人提出了自己的担心：这种密集的奖励信号是否会导致模型更容易陷入局部最小值。

但是如果能够足够随机化、全局搜索，或许模型的鲁棒性更高。

（问题不难，但要注意这是零样本学习，也就是说AI训练阶段从没见过同类问题。）

如果要求GPT-3直接写出“答案是几”，它会给出错误答案：8。

但加上让我们一步一步地思考这句“咒语”后，GPT-3就会先输出思考的步骤，最后给出正确答案：4！

而与之相呼应的是，这回OpenAI最新研究的论文题目就叫做《Let’s Verify Step by Step》。

论文地址：https://openai.com/research/improving-mathematical-reasoning-with-process-supervision

数据集：https://github.com/openai/prm800k

参考链接：[1]https://twitter.com/OpenAI/status/1663957407184347136[2]https://twitter.com/DrJimFan/status/1663972818160332800[3]https://twitter.com/_akhaliq/status/1663981726647894027

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

0

点赞

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与华威派无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非华威派）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@goodmaoning.com

微软Bing Chat的GPT-4整合将为Windows 11带来更强的图像识别功能

2023-07-18 17:08

GPT-4参数最新爆料！1.76万亿参数，8个2200亿MoE模型，深信不疑

2023-07-18 17:01

相关文章

当ChatGPT狂飙突进，曾写过人工智能的科幻作家怎么想？丨文化观察..

2023广东高考作文题，ChatGPT连写4篇，哪篇最好？

罗永浩退出聊天宝股东，这是一件好事！

算力产业保持高速增长人工智能算力占比超四分之一

意大利禁用ChatGPT后：欧盟各国跟进效仿，本国副总理批“监管过度”..

又升级了？微软Bing已用上GPT-4：语言模型更自然了！

「人工智能」算法工程师深度解构ChatGPT技术

2023世界显示产业大会：显示技术+人工智能，一块小屏里看见大世界..

ChatGPT的性能为何如此强大？背后的根源何在？

关于作者

杨子(普通会员)

点击领取今天的签到奖励!

猜你喜欢

01

抛妻弃女31年，李连杰再次遇到前妻黄秋燕，泪点却在合影的位置上..

2022/09/12

02

豆瓣评分9.0以上的国产剧排行榜豆瓣评分9.0以上的国产剧前十..

2022/09/24

03

盘古和女娲（中国神话故事）

2022/08/27

04

2022离世的11位名人：有人患癌，有人突发意外，有人元旦当天离世..

2022/09/11

05

巨蟹座：一生最旺的颜色，能旺你一生，可以不喜欢，但必须爱上它..

5个月前

06

30个暖心睡前小故事，很甜很撩的睡前小故事

2022/08/26

07

香蕉是如何种出来的？从育苗到收获，揭秘香蕉种植的全过程..

2022/06/02

08

“没有好奇心，人就死了”！喜马拉雅鬼王——杨湃的鬼故事哲学..

2022/08/27

标签云

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索