> 自媒体 > AI人工智能 > 数学能力超ChatGPT,70B开源大模型火了:用AI微调AI,微软出品
数学能力超ChatGPT,70B开源大模型火了:用AI微调AI,微软出品
来源:量子位
2023-08-18
305
管理

丰色 发自 凹非寺

量子位 | 公众号 QbitAI

用AI生成的指令微调羊驼大模型,数学能力超ChatGPT——

微软最新开源大模型WizardMath来了。

HuggingFace已上线3个在线可玩版本(分别为7B、13B和70B参数),各种数学题可以直接丢进去试一试。

比如解决下面这道四次多项式方程:

或者是一道简单的微积分:

亦或者是稍微修改过的拉格朗日方程推导:

其中,深度进化的具体“进化法”,则是通过五种类型的操作来完成,包括:

添加约束(add constraints)、深化(deepening)、具体化(concretizing)、增加推理步骤(increase reasoning steps)和使输入复杂化(complicate input)。

由于所有指令均由AI完成,有时难免会出现错误。因此,指令消除器就是用于过滤失败指令的。

以下是一个具体示例,该方法从“1 1=?”开始,最终通过以上步骤自动生成了相当多的新指令。

通过重复这一生成过程,最终我们就能得到足够多的指令,然后将它们合并并随机打乱,组成一个难度级别均匀分布的指令集,就可以对基础大模型进行微调了。

在此,作者选择Alpaca的训练数据(仅由175条人工创建的种子指令生成)作为初始数据集,然后使用ChatGPT的API执行了四个进化周期,最终获得25万条指令。

为了与Vicuna的70k真实用户数据(ShareGPT)进行公平比较,作者从这25万条数据中抽取了等量的样本,训练LLaMA 7B模型,最终得到WizardLM,结果WizardLM的性能明显优于Vicuna。

(Alpaca:斯坦福在LLaMa-7B基础上微调出来的模型;Vicuna,UC伯克利在LLaMa-13B的基础上微调得来)

此外,在更为复杂的测试指令下,人类更喜欢WizardLM的输出,而非ChatGPT,这表明该方法可以显着提高LLM处理复杂指令的能力。

基于此,作者又利用Evol Instruction生成了很多数学领域相关的指令,然后微调羊驼大模型,得到了WizardMath。

其效果如开头所示,在GSM8k数据集上测得其数学能力超越包括ChatGPT、Claude Instant 1、PaLM 2-540B等一众大模型,位列第5名,仅次于GPT-4、Claud1.3和2.0,以及5400亿参数的Flan-PaLM 2之后。

以此类推,作者还在羊驼之上得到了专攻代码能力的WizardCoder,效果超越Claude和Bard(详情可戳文末地址)。

团队介绍

本文共9位作者,全华人。

一作有3位:

Can Xu,微软亚洲互联网工程院S D NLP组高级应用科学家,之前曾在微软小冰研究组和微软亚研院从事聊天机器人系统工作;

Qingfeng Sun, Microsoft Research科学家,研究方向为自然语言处理和信息检索,精通构建高效搜索系统,为Microsoft Bing和Office 365贡献了核心深度模型;

Kai Zheng,Microsoft Research科学家,研究方向为自然语言处理、搜索和推荐排名,同样为Microsoft Bing和Office 365贡献了核心深度模型。

通讯作者为姜大昕,微软全球合伙人、副总裁、前微软亚洲研究院首席科学家,在微软工作16年有余、曾作为微软必应搜索引擎和Cortana智能助手自然语言理解负责人,日前已被曝离职投身大模型创业。

另还有一位作者Jiazhan Feng,是北大学生,这篇合著论文是TA在微软实习时产出的。

项目主页: https://github.com/nlpxucan/WizardLM/tree/main/WizardMath

论文地址:https://arxiv.org/abs/2304.12244(WizardLM)https://arxiv.org/abs/2306.08568(WizardCoder)

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

0
点赞
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与华威派无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
凡本网注明 “来源:XXX(非华威派)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
QQ:2443165046 邮箱:info@goodmaoning.com
关于作者
阳光下的微笑(普通会员)
点击领取今天的签到奖励!
签到排行
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索