《亲爱的数据》出品
原创:谭婧
2020年,年中。
人类历史上最大的人工智能模型,来到人间。
这个体格巨大的北鼻,哭声嘹亮,告知全世界:“我写的作文,几乎通过了图灵测试。”
那些第一次听说参数数量的人,
那些第一次翻看实验结果的人,
那些第一次口算增长速度的人,
在彼此确认了眼神之后,一致的反应是:
“哦漏,我大概是疯了吧。不,是人工智能模型疯了吧。”
同行迈出的步子,似乎要扯烂裤裆。
墙内的人,捡起惊掉的下巴。
墙外的人,他们只觉得婴儿的哭声吵闹。
“不仅会写短文,而且写出来的作文挺逼真的,几乎可以骗过人类,可以说几乎通过了图灵测试。”如果没有后两个半句,你可能会误认为这是老师对文科生学霸的评语。
《亲爱的数据》出品
理科也超级擅长,还能辅导别人编程。
“以前都是人类去写程序,现在是人类写一个人工智能算法,算法自己从数据中推导出程序。新的人工智能技术路线已经跑通。”
学渣,看破红尘,敲敲木鱼,念出乔布斯的名言:
做个吃货,做个蠢 货。
(Stay hungry,Stay foolish)。
(GPT-3来后的队列)
人工智能超大模型GPT-3和绿巨人浩克一样,都是大块头。
经常观摩,可以治疗颈椎病。
绿巨人GPT-3模型出生于美国Open AI实验室。
在看到自己的论文刷爆了朋友圈后,像他们这么低调的科研团队,一点也没有得意,只是在办公室旋转、跳跃,并巡回炫耀了24小时,而已。
《亲爱的数据》出品
2018年之后,人工智能模型的消费水平,进入了奢侈品俱乐部。驴牌教父起身站立,鼓掌欢迎。
要是俱乐部有个微信群,奢侈品品牌掌门人,会依次“拍了拍微软、百度、谷歌”。
以下,是一份预估的账单,更恰当地说,是奢侈品消费的账单。
《亲爱的数据》出品
此时此景,人工智能超级大模型,赋诗一首:
训练想得意,
先花一个亿。
性能要凶猛,
挥金得如土。
人工智能算法模型“疯狂”增长的背后,究竟意味着什么?
围绕这个问题,我采访了微软亚洲研究院前研究员,一流科技创始人袁进辉博士。
袁博士说了两层意思。
第一层,钱很重要。
袁进辉博士说道:“人工智能模型疯狂增长的背后,意味着人工智能的竞争已经进入到军备竞赛级别。长时间的使用GPU集群是非常花钱的。制造一个像GPT-3这样的超级模型的想法,可能有人能想到,但不是每个团队都有钱验证这一想法。除谷歌之外,很多公司没有财力训练BERT-Large模型,并且,实现这个想法对工程能力要求极高。”
土豪的生活就是这样,朴实无华又枯燥。训练超大GPT-3模型,须使用超大规模GPU机器学习集群。一个人工智能模型训练一次的花销是千万美金,一颗卫星的制造成本被马斯克降到50万美元以下。人工智能模型比卫星成本还昂贵。
土豪的生活又加了一点,土豪也得勤奋。
《亲爱的数据》出品
模型太大,就需要把模型拆开。比如说神经网络前几层拆在这个GPU上,后几层拆在另一个GPU上,或者神经网络中某一层被切割到多个GPU上去了。
[怎么切割是一道超纲题,暂(wo)且(ye)不(bu)答(hui)。]
把数据或模型拆分之后,就需要多个GPU频繁互动,互通有无。然而,漏屋偏逢连夜雨,设备互联带宽也不争气,没有实质改进,同机内部PCIe或多机互联使用的高速网的传输带宽,要低于GPU内部数据带宽一两个数量级。
可以用计算和数据传输之间的比例来衡量“内存墙“的压力有多大。计算机系统理论上恰好有一个叫运算强度(Arithmetic intensity)的概念可以刻画,说洋气一点,flops perbyte,表示一个字节的数据上发生的运算量。
只要这个运算量足够大,传输一个字节可以消耗足够多的计算量,那么即使设备间传输带宽低于设备内部带宽,也有可能使得设备处于满负荷状态。
进一步,如果采用比GPU更快的芯片,处理一小块儿数据的时间就比100毫秒更低,比如10毫秒,带宽不变,“调配”算法能用10毫秒的时间为下一次计算做好准备吗?事实上,即使是使用不那么快(相对于TPU 等专用芯片)的GPU,当前主流的深度学习框架对模型并行已经力不从心了。
CPU和GPU,仰天长啸:
“内存墙,How old are you(怎么老是你)?”
《亲爱的数据》出品
他认为,这是深度学习框架最应该解决的问题。人生在世,钱能解决绝大多数问题;但是,不能解决的少数问题,才是根本性的问题。训练超大人工智能模型,有钱就能买硬件,但要有技术,才能把硬件用好。
道理,很简单。
现实,很残酷。
“国内深度学习框架发展水平并不落后,有多家公司开源了水准很高的,这些够用了吗?”
袁博士答道:“现有开源框架直接拿过来,真是做不了大模型这事儿,尤其参数量上到GPT-3模型这个级别的时候。
深度学习模型进入到现在这个阶段,大规模带来的问题,仅靠开源的深度学习框架已经有点吃力了。已有开源分布式深度学习框架无论使用多大规模的GPU集群,都需要漫长的时间(几个月以上)才能训练完成,时间和人力成本极高。
弱者坐失时机,强者制造时机。
“那在开源版本上修改,能否满足工业级的用途?”
袁博士回答道:“现在市面上的深度学习框架,有选择的余地,但当前在某些场景(比如,模型并行)改造和定制也力不从心。就比如绿巨人GPT-3这件事儿,直接把现有开源深度学习框架拿来是搞不定的,OpenAI实验室对开源框架做了深度定制和优化,才可能在可接受的时间内把这个实验完整跑下来。”
一般人,只看到了模型开销的昂贵,没有看到技术上的难度。
“单个芯片或单个服务器无法满足训练大模型的需求,这就是所谓的Silicon Scaling的局限性。为解决这个难题,我们必须使用横向扩展的方法,通过高速互联手段把多个服务器连在一起形成计算资源池,使用深度学习框架等分布式软件来协同离散耦合的多个加速器一起高效工作,从而提高计算力的上限。”
袁博士继续解释。
袁博士还特别介绍了解决这个问题对人才的要求,他说:“改造深度学习框架,是一件困难的事。从团队方面来说,算法工程师难招聘,有计算机系统理论背景或者工程能力到位,又懂算法的工程师更难找。挖人也不解决问题。一位算法工程师挖走了,算法的巧思之处被带走了。但是,深度学习框架得把差不多整个团队挖走,才够用。”
“超大模型不是今天才有,也不是今天才被人注意到,而是一直以来就有这个趋势。有远见的人,较早就能看到趋势。最先发现个趋势和最先准备的人,最有机会。”
“很多深度学习框架刚开始研发的时候都没有瞄准这种问题,或者说没有看到这个问题。深度学习框架没有完成的作业,就要留给算法团队去做,考验算法公司技术团队对深度学习框架的改进能力。市面上的情况是,极少数企业搞得定,大多数企业搞不定。”
聊了很久,我抛出最后一个问题。
“GPT-3模型在企业业务里用不到,很多人觉得无用,实验室的玩意而已。其科学意义是什么呢?”
他笑了笑,用一贯低沉的声音说道:“GPT-3模型说明,OpenAI实验室很有科学洞见,不是人人都能想到往那个方向去探索,他们的背后有一种科学理念支持。思考大模型的时候,有一种假设(hypothesis)的方法论,当假设成立,能够解决与之相对应的科学问题。在这个方法论的指导下,勇于探索,肯定不是莫名其妙的一拍脑袋就花千万级别的美金往超大模型的方向上鲁莽的冒险。”
袁进辉把人工智能和人脑做了一个比较。
他说道:
“人类的大脑与我们现在的人工智能自然语言处理模型进行比较:人类大脑有100万亿个突触,这比最大的人工智能模型还要大三个数量级。这个人工智能模型,名叫GPT-3,几乎通过图灵测试了。一直以来,科研团队都在寻找‘能正常工作’的聊天机器人,这个模型让人看到了突破口。”
他在思考,当真正实现了具有百万亿参数的神经网络时,今天人工智能和深度学习模型面临的困难会不会就迎刃而解了呢?机器人进行真正智能对话的日子是不是就快到来了?
说到这里,他眼神中闪过一丝亮光。
在袁进辉看来,这种里程碑式的突破,通常需要杰出团队才能取得。OpenAI想到了,也做到了。它代表了这方面全球的最高水平,探索了能力的边界,拓展了人类的想象力。就像飞船飞往宇宙的最远处,触摸到了人工智能模型参数量增长的边界。
这种模型的问世,就像航天界“发射火箭”一样,成本高,工程要求也高。他们的成功,既实现了理论上的意义,也实现了工程上的意义。
人工智能的希望,在来的路上。
无论实验怎么苦恼,
无论效果如何不济,
GPT-3模型始终是人类迈向“智能”的无尽长阶上的一级。
没有伟大的愿景,就没有伟大的洞见。
没有伟大的奋斗,就没有伟大的工程。
(完)
《亲爱的数据》出品
相关文章
猜你喜欢