文丨江志强(Vitally AI 创始人)
上线短短5天,用户量破百万,两个月余时间,月活跃用户数预计已达1亿——ChatGPT的火爆,意味着我们迎来了生成式AI的大浪潮。
人工智能(AI)是一个广泛的术语,指的是任何能够进行智能行为的技术。生成式AI是其中一种特定类型的AI,专注于生成新内容,如文本、图片、音乐等。
回顾2022年的AI格局,正是由生成式AI的大模型(foundation models)所驱动。这些大模型正在迅速从研究实验室走出来,扑向真实世界的各个场景与应用,2023年影响的层面会更大,发展的速度会更快。另外两个由大型语言模型 (LLM, large language model) 技术驱动的新兴领域,则是帮助人做决策的AI代理(游戏,机器人等), 以及应用在科学领域的AI for Science。
以下是笔者总结的全球范围内生成式AI的16个方向和场景应用,大致可以分为从文本转图片、从文本转音乐、文本聊天和沟通、文本驱动机器人、文本转视频以及AI做科研等几大类。
DALLE-2 是扩散模型 (Diffusion Model) 比较具代表性的大模型之一,也是由OpenAI公司所开发的,能根据文本生成逼真的高分辨率的高质量图像,用于图像生成。它是基于原先DALL-E(原先用的是GLIDE模型)的版本来改进,具有更高的生成质量和更大的模型尺寸,推动AI在全球的艺术革命。
DALLE-2的核心主要包括CLIP模型和Diffusion模型;CLIP(Contrastive Language-Image Pre-training)是通过将文本与图像进行对比的预训练大模型,学习文本与图像之间的关系,而Diffusion负责听CLIP的引导生产图片。
DALLE-2目前还是闭源的,用户可以通过它的WEB界面或API来使用它。
继DALLE-2之后继续颠覆艺术的革命、也引起技术界轰动的 Stable Diffusion(文中简称SD),是一个基于 Latent Diffusion Models(潜在扩散模型)来实现文字转图片的大模型,类似DALLE-2和谷歌的Imagen等类似技术,SD可以在短短几秒钟内生成清晰度高,还原度佳、风格选择较广的AI图片,这让SD在同类技术中脱颖而出。
SD最大的突破是任何人都能免费下载并使用其开源代码,因为模型大小只有几个G而已!因此在短时间内 huggingface网站上有100万次模型的下载,也是破了huggingface网站的历史记录。这让AI图片生成模型不再只是业内少数公司自我标榜技术能力的玩物,许多创业公司和研究室正在快速进入,集成SD模型来开发各种不同场景的应用,包括我们Vitally AI公司。
SD以掩耳盗铃之势迅速迭代,开源社区也在不断改进SD。在SD v2.0上线不到两周时间,就迅速更新到v2.1版本。相比于前一版本,主要放宽了内容过滤的限制,减少了训练的误伤,也有这三大特色:更高质量的图片、图像有了景深、负向文本的技巧更好的约束AI生成的随机性,也支持在单个GPU上来运行。
SD官网上写着 “by the people, for the people” 的使命,与热烈追求民主化的开源,已被证明是改写了 AI 赛道的游戏规则,同时也让Stability AI公司在不到两年的时间内迅速变成独角兽公司,快速融资了1亿美金。高质量!免费开源!更新快!这几个关键词就已经决定了Stable Diffusion的出世必定绝不平凡!借助这一突破性技术尝试给你的宠物照片变个身吧!?
Imagen不同于其他已知的文本出图的大模型,其更注重深层次的语言理解。Imagen的预训练语言模型(T5-XXL)的训练集包含800GB的纯文本语料,在文本理解能力上会比有限图文训练的效果更强。Imagen的工作流程为:在输入prompt后,如“一只戴着蓝色格子贝雷帽和红色波点高领毛衣的金毛犬”(A golden retriever dog wearing a blue checkered beret and red dotted turtleneck),Imagen先使用谷歌自研的T5-XXL编码器将输入文本编码为嵌入,再利用一系列扩散模型,从分辨率 64×64 → 256×256 → 1024×1024的过程来生成图片。结果表明,预训练大语言模型和多联扩散模型在生成高保真图片方面效果很好。
Parti大模型网址: parti.research.google
与VIMA类似,GoogleAI的研究人员发布了RT-1,一种多模态机器人变换器。它将机器人的输入和输出动作(如相机图像、任务指令和电机命令)标记化,以便在运行时进行有效的推理。RT-1使用13个Everyday Robots(EDR)机器人收集的数据进行训练,包括了700多项任务、13万时间片段。与之前的技术相比,RT-1可以对新的任务、环境和物体表现出明显改善的 zero-shot 泛化能力。
Nvidia英伟达公司则有两项重要的研究成果:Magic3D和Get3D,目标是通过允许用户从文本生成3D模型,使3D内容创建更加容易。Magic3D是一种高分辨率的文本到3D内容创建方法,它采用内容从粗略到精细的渐进过程,利用低分辨率和高分辨率的扩散先验来学习目标内容的3D表现。据媒体报道,它比Google的DreamFusion快2倍,仅需40分钟即可创建高质量的3D网格模型。Get3D是一个AI模型,结合了自然语言(NLP)和计算机视觉技术,用文本描述生成逼真的3D对象。这使用户可以快速创建逼真的3D模型,无需任何先前的建模技能。
Nvidia还开发了一个名为 MineDojo的AI代理,可以根据 Minecraft中的文字提示执行操作,并获得了国际机器学习会议的杰出论文奖。微软也有一个新的AI Minecraft“代理”,它在游戏内运行 。
10 AI 发现新材料AI在材料科学领域的应用正在快速发展,其中AI发现新材料是一项重要的技术。这项技术包含了数据挖掘和机器学习两个步骤。数据挖掘通过从大量数据中提取有用信息来实现。AI通过对数据的分析,提取有关材料性能的信息。机器学习是通过利用算法从数据中学习来实现的。在这个步骤中,AI利用算法预测新材料的性能。这个可能更偏向 Analytical AI。
今年,GoogleAI发布了一种名为"Material Discovery"的模型,该模型可以根据给定的物理和化学性质生成新的材料结构。这项技术有望在未来帮助材料科学家发现更高性能的材料。然而,也存在一些挑战,其中一个是数据缺乏。这项技术需要大量数据来做出准确的预测,如果数据不足,AI可能会做出不准确的预测。另一个挑战是材料的复杂性。由于材料是复杂的系统,AI可能无法准确预测材料在不同环境中的性能。
Amazon SageMaker是在亚马逊云上的一站式大模型开发平台,可以提高大模型的开发效率。在IDC发布的报告中,Amazon SageMaker被列入“领导者”阵营,并居于图中最高最远的位置。
亚马逊云科技自研AI芯片可以提供更具性价比的方案,例如Amazon Trainium自研芯片的Amazon EC2 Trn1实例可节省高达50%的训练成本,而Inf2实例可支持横向扩展分布式推理,方便部署并提升高速推理。
(文章仅代表作者观点。责编邮箱:yanguihua@jiemian.com。)
相关文章
猜你喜欢