OpenAI用GPT-3与小学生比数学！小模型性能翻倍追平1750亿大模型-华威派

> 自媒体 > AI人工智能 > OpenAI用GPT-3与小学生比数学！小模型性能翻倍追平1750亿大模型

OpenAI用GPT-3与小学生比数学！小模型性能翻倍追平1750亿大模型

来源：新智元

2023-05-12

257

管理

来源：OpenAI

编辑：好困小咸鱼

【新智元导读】近日，OpenAI训练了一个系统可以解决小学数学问题。一个9-12岁的小孩子在测试中得分为60分，而OpenAI的新方法在同样的问题上可以拿到55分，已经达到了人类小学生90%左右的水平！

还记得上小学时，被「口算天天练」里面的应用题绕晕的阴影吗？

来，试一道！

「小明每半小时喝一瓶水。一个普通的数独难题要花他45分钟。一个极难的数独需要4倍的时间。做一道极难的数独那段时间他喝了多少瓶水？」

不算难吧。

但这回，OpenAI要拿这些应用题去考考自家的当家模型，GPT-3。

成绩很喜人啊！

新方法可以解决小学数学问题，60亿参数的GPT-3采用新方法，准确率直接翻倍，甚至追平了1750亿参数，采用微调方法的GPT-3模型。

更重要的是，一个9-12岁的小孩子在测试中得分为60分，而采用新方法的GPT-3在同样的问题上可以拿到55分，已经达到了人类小学生90%左右的水平！

偏科的GPT-3：重文轻理

OpenAI的GPT-3以1750亿参数的「大」这一特点，让人印象颇深。

GPT-3「文采出众」，上知天文，下知地理。模仿名家的写作风格，展示一下广博的知识，这都不在话下。

然而，GPT-3这种「大」模型却是典型的偏科生，擅长文，但不擅理。

要是指望他们能够完成精确的多步推理，比如，解决小学数学应用题，那还是别指望了。

原因何在？

其实，问题就在于，尽管GPT-3可以模仿正确解决方法的规律，但它经常会在逻辑上产生严重错误。

所以，人类要想教会大语言模型理解复杂的逻辑，就必须得让模型学会识别它们的错误，并仔细选择他们的解题步骤。

传统方法：微调

目前，要想让大模型掌握一个领域，最常用的方法就是用大模型在指定领域微调。

微调通过更新模型参数进行，最小化所有训练token的交叉熵损失。显而易见，1750亿参数的模型性能要优于其他更小的模型。

验证器具体训练方法分为「三步走」:

先把模型的「生成器」在训练集上进行2个epoch的微调。从生成器中为每个训练问题抽取100个解答，并将每个解答标记为正确或不正确。在数据集上，验证器再训练单个epoch。

「生成器」只训练2个epoch是因为2个epoch的训练就足够学习这个领域的基本技能了。如果采用更长时间的训练，生成的解决方案会过度拟合。

测试时，解决一个新问题，首先要生成100个候选解决方案，然后由「验证器」打分，排名最高的解决方案会被最后选中。

GSM8K数据集

有了新的解决方案，再来看看这次考试的「试卷」。

GSM8K由8500个高质量、高多样性、中等难度的小学数学问题组成。当然了。OpenAI表示，对于一个中学生来说，这些问题就都不是问题了。

数据集中的每个问题都需要计算2到8个步骤来得出最终答案，涉及到「加减乘除」四则运算。

高质量：GSM8K中的问题都是人工设计的，避免了错误问题的出现。

高多样性：GSM8K中的问题都被设计得相对独特，避免了来自相同语言模板或仅在表面细节上有差异的问题。

中等难度：GSM8K中的问题分布对大型SOTA语言模型是有挑战的，但又不是完全难以解决的。这些问题不需要超出早期代数水平的概念，而且绝大多数问题都可以在不明确定义变量的情况下得到解决。

自然语言解决方案：GSM8K中的解决方案是以自然语言而不是纯数学表达式的形式编写的。模型由此生成的解决方案也可以更容易被人理解。此外，OpenAI也期望它能阐明大型语言模型内部独白的特性。

6B Fine-tuning：错误

6B Fine-tuning：错误

看来，AI做数学题还是道阻且长啊。

你要不要也来尝试一下？

参考资料：

https://openai.com/blog/grade-school-math/

https://arxiv.org/pdf/2110.14168.pdf

0

点赞

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与华威派无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非华威派）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@goodmaoning.com

老同志也应该用GPT-3了

2023-05-12 14:56

我如何利用 GPT-3 在一周内赚到 1000 欧元：非常规的市场研究方法

2023-05-12 14:55

相关文章

ChatGPT爆红，百度、搜狗、360等搜索引擎尴尬吗？

关于新一代人工智能，你必须知道的8件事

韩启德院士：关于生死，我向ChatGPT提了一个问题

微信聊天小技巧！这四个字“无声胜有声”给你万能模板..

三分钟五个问题快速认识ChatGPT

Samsung Galaxy设备默认Bing AI可直接同AI聊天、更改说话语调..

ChatGPT也有不灵的时候，你知道笔画最多的汉字吗

追星女孩一个举动，妈妈卡里的45万被转走了……

如果你的口才不好如何与别人沟通和聊天

关于作者

细雨入梦(普通会员)

点击领取今天的签到奖励!

猜你喜欢

01

抛妻弃女31年，李连杰再次遇到前妻黄秋燕，泪点却在合影的位置上..

2022/09/12

02

豆瓣评分9.0以上的国产剧排行榜豆瓣评分9.0以上的国产剧前十..

2022/09/24

03

盘古和女娲（中国神话故事）

2022/08/27

04

2022离世的11位名人：有人患癌，有人突发意外，有人元旦当天离世..

2022/09/11

05

30个暖心睡前小故事，很甜很撩的睡前小故事

2022/08/26

06

香蕉是如何种出来的？从育苗到收获，揭秘香蕉种植的全过程..

2022/06/02

07

“没有好奇心，人就死了”！喜马拉雅鬼王——杨湃的鬼故事哲学..

2022/08/27

08

巨蟹座：一生最旺的颜色，能旺你一生，可以不喜欢，但必须爱上它..

3个月前

标签云

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索