单张GPU搞定GPT-3超参数！先训练小模型，再“一键迁移”| 已开源-华威派

> 自媒体 > AI人工智能 > 单张GPU搞定GPT-3超参数！先训练小模型，再“一键迁移”| 已开源

单张GPU搞定GPT-3超参数！先训练小模型，再“一键迁移”| 已开源

来源：量子位

2023-05-10

212

管理

丰色发自凹非寺

量子位 | 公众号 QbitAI

“一个GPU没法训练GPT-3，更别提在上面调整超参数了。”

不不不，现在情况有变——

在单个GPU上完全可以调整大规模模型的超参数。

怎么说？

原来有人发现了一种新的调参方法，无论模型规模怎么变化，所得的最优超参数都能保持性能稳定。

由此一来，我们可以先训练一个小版本的模型，在上面间接调整好超参，然后以零样本的方式直接将它们复制到全尺寸模型上，就能获得相当不错的性能。

这对手里GPU资源不够的人来说简直不要太好了吧。

目前，相关帖子也在Reddit上引起热议，得到了300 的点赞支持。

好了，这时你可能会问：能不能只缩小模型的宽度呢？

作者表示，对于“non-width stuff”，没有理论保证。

不过好消息是，他们在preLN Transformer的合理范围内对depth、batch size、sequence length和timestep的迁移效果进行了测试。

说了这么多，到底如何实现？

下表概括了如何通过fan-in或fan-out调整你的模型的initialization和learning rate。

其中粉色文本为µP，括号中的灰色文本为pytorch默认值。

当然，如果你不想自己手动操作，作者也开源了Pytorch实现，通过pip install mup就可以应用到你的模型中。

关于作者

一作名叫Greg Yang，微软高级研究员。

通讯作者为微软研究院深度学习技术中心合伙人研究经理、IEEE Fellow高剑峰。

还有两位华人作者分别为来自微软的Liu Xiaodong（北京邮电大学校友）和Chen Weizhu （已在微软工作16年）。

他们的这篇成果已被NeurIPS 2021接收。

GitHub链接：https://github.com/microsoft/mup

论文地址：https://arxiv.org/abs/2203.03466

官方博客链接：https://www.microsoft.com/en-us/research/blog/µtransfer-a-technique-for-hyperparameter-tuning-of-enormous-neural-networks/

Reddit讨论：https://www.reddit.com/r/MachineLearning/comments/tb0jm6/r_you_cant_train_gpt3_on_a_single_gpu_but_you_can/

0

点赞

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与华威派无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非华威派）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@goodmaoning.com

GPT-3开始收费！OpenAI官宣：我们只是完成伟大使命的必要成本

2023-05-10 21:47

如何打造中国版的“万能AI”GPT-3

2023-05-10 21:45

相关文章

世界上最先进机器人，模仿人类表情，通过语言模型GPT-3回答问题..

GPT-3：现实版的“贾维斯”？还是真“人工”智能？

北大的这道题火了！GPT-4挑战失败，初二学生给出标准答案..

5月12日足球分享 005荷乙芬洛vs格拉夫

与GPT-3对话：疫情何时结束？宇宙大爆炸之前是什么？..

GPT-4里套娃LLaMA 2！OpenAI创始成员周末爆改「羊驼宝宝」..

ChatGPT：预算3000元，买什么手机合适？

最近在热搜上翻滚的人工智能GPT，跟普通老百姓有关系吗？..

中国有机会做出自己的 ChatGPT 吗？

关于作者

冷冷的太阳(普通会员)

点击领取今天的签到奖励!

猜你喜欢

01

抛妻弃女31年，李连杰再次遇到前妻黄秋燕，泪点却在合影的位置上..

2022/09/12

02

豆瓣评分9.0以上的国产剧排行榜豆瓣评分9.0以上的国产剧前十..

2022/09/24

03

盘古和女娲（中国神话故事）

2022/08/27

04

2022离世的11位名人：有人患癌，有人突发意外，有人元旦当天离世..

2022/09/11

05

巨蟹座：一生最旺的颜色，能旺你一生，可以不喜欢，但必须爱上它..

6个月前

06

30个暖心睡前小故事，很甜很撩的睡前小故事

2022/08/26

07

香蕉是如何种出来的？从育苗到收获，揭秘香蕉种植的全过程..

2022/06/02

08

“没有好奇心，人就死了”！喜马拉雅鬼王——杨湃的鬼故事哲学..

2022/08/27

标签云

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索