GGV有话说:
我们正在通用人工智能的前夜。ChatGPT在激发了全世界热情的同时,也引燃了AI大模型的竞赛。Google推出Bard对标,Amazon也加入战场,豪赌元宇宙的Meta也不甘示弱,推出了LLaMa和SAM。大洋这边,公认手握最多资源的BAT再次在生成式模型上相遇。而具身智能乘着大模型的东风,似乎也在酝酿一场巨大的变革。
一切仿佛又回到了十年前,创业热潮涌现。只是这一次,通用人工智能的奇点由大模型开启,而数据正式站到了舞台中央。
今天的GGView,就让我们一起来看看开发大模型的关键要素是什么。
来源:自动驾驶下半场
2.算法模型为中心的开发模式已过目前普遍人工智能公司的开发模式仍旧是以模型为中心的“传统”开发模式,即将数据集固定进而迭代模型。算法工程师们通常会聚焦于几个基准数据集,然后设计各式各样的模型去提高预测准确率。
虽然大模型如雨后春笋般浮现,但是实际上大部分模型背后的算法都趋于一致,并未出现大的模型改动。而数据量的堆叠让训练好的模型表现远远优于小改动的模型。比如数月前,人工智能先驱Yann LeCun发文称ChatGPT在技术上并不是什么新鲜事物,但是却取得了优异的表现。精心的算法改动,很有可能并不能比添加、迭代数据产生的效果更好。而巨量优质数据带来的模型表现,相较于某一单独数据集上训练模型的表现,是降维打击。
3.数据成为大模型开发核心要素OpenAI大模型的成功正是出自Ilya对于大数据大模型量变带来质变的坚信。例如ChatGPT用了至少40T的大规模数据进行训练,而且如果有效数据量继续增加,其能获得更好的表现。根据Google研究Emergent Abilities of Large Language Models,在模型参数的某一个临界点, 突然模型获得了令人意想不到的能力。
AI的开发模式正从以模型为中心转向以数据为中心。数据从何获取,世界上的数据够大模型们用吗?
Telsa早在2021年的AIDay上就用高速上奔跑的一家人场景和难以标注的人群训练了感知系统,令人印象十分深刻。
与此同时,在行业前沿的硅谷众多合成数据公司开始涌现,为自动驾驶服务的Parallel Domain、Applied Intuition、为广义机器视觉行业服务的Datagen、扎根自然语言处理的Gretel ai,这些公司背后站着行业领先的巨头们。
Gartner预测称,2024年,60%的训练数据会由成数据取代,而2030年合成数据将彻底取代真实数据,成为训练AI的主要数据来源。
但是国内,实际上合成数据的应用相对较少,目前大部分公司还是使用真实数据去完成模型的训练。
生成式AI让合成数据大规模取代真实数据成为可能
NVidia黄仁勋认为,人类的反思和梦境都属于合成数据的一部分,这相当于AI生成数据去训练AI。为了满足大模型的巨量数据需求,我们需要完全自动化合成数据的生产链路,让AI训练AI成为可能。
得益于最近发展迅速的Diffusion Model和NeRF,高质量的AI合成数据不再是幻想。Diffusion Model 的基于马尔科夫链的精巧数学过程让更大、更稳定的图片生成模型成为可能,也克服了对抗生成网络训练难度太大的问题。Stable Diffusion Model用巨大的图片集让人们看到了Diffusion Model的无限可能,而ControlNet 相关网络的提出也让特定领域的适配变得更加便捷。
而NeRF(Neural Radiance Fields)将3D世界的构建变成一个神经网络的学习过程,将神经场(Neural Field)与体素渲染有效结合在一起,能够非常逼真地重建3D世界,非常有希望取代繁琐的物理引擎构建过程。Waymo基于此技术发展了BlockNeRF,将旧金山高效重建出来,并且在其中进行合成数据的生产。而最近CVPR的Highlight 论文UniSim更是将NeRF的应用向前推了一大步。
基于这些技术,AIGC独角兽开始出现。StabilityAI(Diffsion Model)、Midjourney(Diffusion Model)、LumaLab AI(NeRF)用大批量的数据训练之后,图片的真实性已经无法被质疑,而由此产生的艺术效果和新数据的表现方式让我们看到了合成数据泛化的光明未来。
写在最后
ChatGPT只是起点,自然语言领域的大模型也只是星星之火。虽然ChatGPT已经基本具备初级人工智能的能力,这种能力是通过学习人类自然语言数据获取的,但是实际上,人类对世界的认知思考绝对不仅仅局限在语言和文字,而是多模态的(图、文、声、光、电、影……)。不难推论,真正的AGI必须能像人类一样即时、高效、准确、符合逻辑地处理这个世界上所有模态的信息,完成各类跨模态或多模态任务。最近具身智能的热潮也在期待着新的多模态交互方式出现。
而这也就需要多模态的数据,这又进一步加大了真实数据的获取难度,多模态的真实数据更加稀缺。
例如相较于随处可见的文字数据、图片数据,对应的高质量的3D数据集屈指可数。常用的科研图像数据集通常都包含上亿或更多图片,而很多质量较高,可用于科研的3D数据集只有数千或数万个3D模型。如果我们希望人工智能可以理解3D世界,势必需要大量包含3D模型的多模态数据。这可能也需要合成数据去解决。
自动化构建世界模型、让AI可控生成多模态数据、去训练出更加智能的大模型才是真正通向通用人工智能的道路。
温馨提示:虽然我们每天都有推送,但最近有读者表示因平台推送规则调整,有时候看不到我们的文章~
*文章观点仅供参考,不代表本机构立场。
相关文章
猜你喜欢