GPT-3被超越？解读低能耗、高性能的GlaM模型-华威派

> 自媒体 > AI人工智能 > GPT-3被超越？解读低能耗、高性能的GlaM模型

GPT-3被超越？解读低能耗、高性能的GlaM模型

来源：NLP论文解读

2023-05-21

314

管理

©原创作者 | LJ

GLaM: Efficient Scaling of Language Models with Mixture-of-Experts

https://arxiv.org/pdf/2112.06905.pdf

01 摘要

这是上个月谷歌刚刚在arxiv发布的论文，证明了一种能scale GPT-3但又比较节省耗能的架构。

GPT-3自问世以来在多项自然语言处理的任务上都有超强的表现。但是训练GPT-3这样庞大的模型非常耗费能源。

在这篇论文中，作者开发了以Mixture of Experts为基础的GlaM (Generalist Language Model)。它虽然参数量有GPT-3的7倍之多，但训练起来只需GPT-3三分之一的能耗，而且在NLP任务的表现上相比GPT-3持平甚至更优。

02 什么是Mixture of Experts Model (MoE）

MoE这个概念其实已经提出很久了。这个概念本身非常容易理解，有点类似ensemble：与其训练一个模型，我们训练数十个独立的“专家模型”(expert model)。

与简单的ensemble不同的是，在做训练或推断(inference)的时候，我们用一个gating network来“挑选专家” — 在几十个专家模型中挑选出几个适合的专家模型用来计算。通俗的讲，这些专家“术业有专攻”，根据所长而分工。

那么，为什么MoE可以省能耗呢？因为无论是训练或者推算的时候，每次真正的计算只有几个专家被激活。所以，虽然参数量很大，但每次用到的参数只是很小的一部分。

这个团队在2017年在一篇ICLR的论文[1]里已经把MoE的概念应用在了当时NLP state-of-the-art的RNN model上，并且超越了当时的state of the art。

04 结果

4.1 MoE和GPT-3的比较

GLaM在29个自然语言的任务上总的来说相比GPT-3略胜一筹。最重要的是训练的总能耗仅仅是GPT-3的三分之一。

以TriviaQA任务举例，上图中Dense指的是类似GPT-3架构的单个模型。Dense和MoE model的准确率都会因为参数量增长而增长。但是在相同的运算量下（横轴），MoE总是表现得更好。

4.2. 需要多少专家模型

相比于dense model，MoE如果想scale的话不仅可以将模型变得更宽更深，还可以增加专家的数量。只要每次被激活的专家数量不变，增加专家并不增加prediction时的运算量。

上图中，作者控制每次prediction的计算量不变，调整不同的专家数量。一般看来，专家越多，模型表现越好。

05 总结

总的来说，作者开发了以MoE为基础的GLaM模型。虽然模型参数量很多，但通过激活少量的专家，这类的模型训练和推算的能耗更低，而且结果比GPT-3更好。

0

点赞

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与华威派无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非华威派）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@goodmaoning.com

GPT-3 实测者报告 | 限制明显，保持理性（附 API 调用方法）

2023-05-21 20:15

用更少GPU完成更多计算量，中文巨量模型源1.0比GPT-3强在哪里？

2023-05-21 20:12

相关文章

这个AI聊天机器人一边帮助人类，一边偷偷写下毁灭人类的计划书..

中国各大科技公司ChatGPT技术布局，以及应用场景全析

ChatGPT革命！尝鲜者的喜与忧

关于ChatGPT的五大谎言要看清

微信迎重大更新！网友：很实用

谷歌限制员工使用AI机器人丨张朝阳：GPT不能取代人类思维能力..

微软企业级Azure OpenAI GPT-4预览版服务发布，4月1日开始计费..

国内首款支持ChatGPT的电话机器人

意料之外，这34个职业才是AI时代的“铁饭碗”！OpenAI重磅研究到底说了什么..

关于作者

天泰悠然(普通会员)

点击领取今天的签到奖励!

猜你喜欢

01

抛妻弃女31年，李连杰再次遇到前妻黄秋燕，泪点却在合影的位置上..

2022/09/12

02

豆瓣评分9.0以上的国产剧排行榜豆瓣评分9.0以上的国产剧前十..

2022/09/24

03

盘古和女娲（中国神话故事）

2022/08/27

04

2022离世的11位名人：有人患癌，有人突发意外，有人元旦当天离世..

2022/09/11

05

巨蟹座：一生最旺的颜色，能旺你一生，可以不喜欢，但必须爱上它..

5个月前

06

30个暖心睡前小故事，很甜很撩的睡前小故事

2022/08/26

07

香蕉是如何种出来的？从育苗到收获，揭秘香蕉种植的全过程..

2022/06/02

08

“没有好奇心，人就死了”！喜马拉雅鬼王——杨湃的鬼故事哲学..

2022/08/27

标签云

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索