本文为今日头条原创作者独家首发,原创不易,抄袭、洗稿必将深究。阅读文章前可以先点关注呦,谢谢支持!
标题:英伟达H100集群横扫MLPerf测试,云厂商CoreWeave与AI初创Inflection AI崭露头角
导语:
近日,英伟达引发了AI圈的一阵小小震撼,仅用11分钟训练一遍GPT-3,8秒内完成BERT的训练,这一成绩在最新的MLPerf训练基准测试中表现尤为抢眼。
英伟达H100集群横扫八项测试,创下多项新纪录,尤其在大语言模型任务中,其加速性能更是接近线性增长,引人瞩目。
文章正文:
这次的MLPerf训练基准测试成绩令人瞩目。英伟达H100集群不仅在八项测试中创下了新纪录,而且在大语言模型任务中的表现更是异军突起。H100集群的加速性能呈现出几乎线性增长的趋势,这意味着集群内GPU之间的高效通信在其中扮演了关键角色。
此外,H100还搭载了Transformer Engine,使得大模型的训练速度可以直接提升6倍。
加速网络也是这次成绩的重要因素之一。英伟达Quantum-2 InfiniBand网络在这次测试中发挥了巨大作用,这是该网络架构的第七代。官方介绍称,加速网络不仅提供软件定义网络、网络内计算、性能隔离等功能,还具备优越的加速引擎和最高达400Gb/s的安全加速能力。
在最新一轮的MLPerf测试中,共有90个系统参与,其中82个使用了英伟达的GPU,而英特尔方面则有7个系统参与,使用了64-96 Intel Xeon Platinum 8380处理器和256-389 Intel Habana Gaudi2加速器。英特尔的高配系统在LLM的训练时间上达到了311分钟。
除了英伟达的出色表现,这次测试还让人们对云厂商CoreWeave和AI初创公司Inflection AI有了更多的认识。
CoreWeave,成立于2017年,是一家大型云厂商,以提供业内最快、最灵活的大规模GPU计算资源著称。其提供的云上方案包括渲染、机器学习等,速度比大型公共云快了35倍,成本则降低了80%。英伟达曾向CoreWeave投资1亿美元,微软也与其签署了AI算力协议,预示着未来计算集群规模可能会进一步扩大。
另一家备受关注的公司是AI初创公司Inflection AI,由DeepMind创始成员穆斯塔法·苏莱曼等人创立。
该公司最近获得了2.25亿美元的融资,估值超过12亿美元。他们的大语言模型Pi是在H100集群上训练出来的,该模型旨在实现更好的人机交互,通过聊天内容逐渐了解用户,提供个性化的回答,类似于个人智能管家的角色。
据Inflection AI透露,他们计划在未来几个月内进一步扩大底层计算基础设施的规模,这显示出他们在未来的发展方向上充满信心。
总结:
英伟达H100集
群在最新的MLPerf训练基准测试中所展现的强大性能,不仅为AI领域带来了一次震撼,也突显了集群计算、加速网络等技术在大规模任务处理中的重要性。
H100集群的超线性增长性能,再次证明了高效的硬件架构与优秀的通信设计的巨大潜力。
除此之外,值得深思的是,云厂商CoreWeave以及AI初创公司Inflection AI在这次合作中所展现的成果。CoreWeave凭借其灵活且高效的GPU计算资源,成为了英伟达H100集群的重要合作伙伴,而Inflection AI则借助H100集群的强大计算能力,成功训练出了其大语言模型Pi,为人机交互领域的发展带来了新的可能性。
综合来看,英伟达H100集群在MLPerf测试中的出色表现,彰显了硬件创新在推动人工智能领域进步中的关键作用。而与此同时,云厂商CoreWeave和AI初创公司Inflection AI的崭露头角,也预示着未来计算资源的更大需求和更广泛应用。
无论是集群计算的卓越性能,还是加速网络的高效通信,都在不断地推动着人工智能领域的发展。未来,我们可以期待着更多硬件创新和合作伙伴关系的涌现,为AI技术的进步开辟更加广阔的道路。
参考链接:
[2]https://developer.nvidia.com/blog/breaking-mlperf-training-records-with-nvidia-h100-gpus/
相关文章
猜你喜欢