编译 | 屠敏
出品 | CSDN(ID:CSDNnews)
当昨日我们还在讨论从大厂以及个人创业的角度来看,复制一家 OpenAI 和一款强大的 ChatGPT 可行性究竟有几成之际,苦于 OpenAI 并未将 ChatGPT 开源出来,所以这趟水究竟有多深,众人并不知。
不过,2 月 14 日情人节这一天,来自加州大学伯克利分校的教授 James Demmel 和新加坡国立大学计算机系的校长青年教授尤洋及其背后的研究团队悄悄提供了一些答案,其率先呈现了一个开源的低成本 ChatGPT 等效实现流程,瞬间吸引无数 AI 爱好者的目光。
话不多说,简单来看,只需实现如下图所示的三步走,便能实现:
使用 Colossal-AI 低成本复制 ChatGPT 训练过程
那该怎么解决?
在这里,潞晨科技研究团队用上了自家研发的面向大模型时代的通用深度学习系统 Colossal-AI 带来了一个开源地成本部的 ChatGPT 等效实现流程。
想必不少 AI 从业者对 Colossal-AI 这款开源模型也有过一定的了解,它是开源的(https://github.com/hpcaitech/ColossalAI),其运用了高效多维自动并行、异构内存管理、大规模优化库、自适应任务调度等多项技术,实现高效快速部署 AI 大模型训练和推理,降低 AI 大模型应用成本。
Colossal-AI 背后的潞晨科技,其核心成员来自美国加州伯克利、斯坦福、清华、北大、新加坡国立、南洋理工等世界一流高校。这款模型于去年四月发布,通过一年不到的时间,截至目前,其获得了 8.9k 个 Star。
在单台多 GPU 服务器上,即使使用最高端的 A100 80GB GPU,由于 ChatGPT 的复杂性和内存碎片化,PyTorch 也只能启动基于 GPT-L(774M)等小模型的 ChatGPT。因此,用 PyTorch 的 DistributedDataParallel(DDP) 将多 GPU 并行扩展到 4 或 8 个 GPU,结果性能提升有限。
根据研究团队介绍,Colossal-AI 不仅在单 GPU 上有明显的训练和推理速度优势,而且可以随着并行规模的扩大而进一步提高,单服务器训练速度可达 7.73 倍,单 GPU 推理速度可达 1.42 倍,并且能够继续扩大到大规模的平行度,大大降低 ChatGPT 复制的成本。
写在最后
目前,该研究团队已经开源了完整的算法和软件设计来复制 ChatGPT 的实现过程:https://github.com/hpcaitech/ColossalAI。
不过,同样是基于成本考虑,他们表示,「对于这样一个巨型的人工智能模型,它需要更多的数据和计算资源来实际生效和部署。毕竟,用 1750 亿个参数训练一个 GPT-3 需要价值数百万美元的计算能力。因此,大型预训练模型长期以来只为少数大科技公司所拥有。」
因此,他们也希望能够以开源的方式,吸引更多的研究人员、机构共同参与进来,仅以上文中所复制 ChatGPT 训练流程的实践探索为起点,未来可以向大模型的时代做出努力。
更多详情内容可查阅官方公告:https://www.hpc-ai.tech/blog/colossal-ai-chatgpt
参考资料:
https://twitter.com/ArtificialAva/status/1623346998928723971
https://arxiv.org/abs/2106.09685
https://arxiv.org/pdf/2203.02155
https://openai.com/blog/chatgpt/
相关文章
猜你喜欢