ChatGPT火了，生成式AI在全球都有哪些场景和应用？-华威派

> 自媒体 > AI人工智能 > ChatGPT火了，生成式AI在全球都有哪些场景和应用？

ChatGPT火了，生成式AI在全球都有哪些场景和应用？

来源：界面新闻

2023-05-23

276

管理

文丨江志强（Vitally AI 创始人）

上线短短5天，用户量破百万，两个月余时间，月活跃用户数预计已达1亿——ChatGPT的火爆，意味着我们迎来了生成式AI的大浪潮。

人工智能（AI）是一个广泛的术语，指的是任何能够进行智能行为的技术。生成式AI是其中一种特定类型的AI，专注于生成新内容，如文本、图片、音乐等。

回顾2022年的AI格局，正是由生成式AI的大模型（foundation models）所驱动。这些大模型正在迅速从研究实验室走出来，扑向真实世界的各个场景与应用，2023年影响的层面会更大，发展的速度会更快。另外两个由大型语言模型 (LLM, large language model) 技术驱动的新兴领域，则是帮助人做决策的AI代理（游戏，机器人等）, 以及应用在科学领域的AI for Science。

以下是笔者总结的全球范围内生成式AI的16个方向和场景应用，大致可以分为从文本转图片、从文本转音乐、文本聊天和沟通、文本驱动机器人、文本转视频以及AI做科研等几大类。

01 Text-to-image 前驱者 DALLE-2

DALLE-2 是扩散模型 (Diffusion Model) 比较具代表性的大模型之一，也是由OpenAI公司所开发的，能根据文本生成逼真的高分辨率的高质量图像，用于图像生成。它是基于原先DALL-E（原先用的是GLIDE模型）的版本来改进，具有更高的生成质量和更大的模型尺寸，推动AI在全球的艺术革命。

DALLE-2的核心主要包括CLIP模型和Diffusion模型；CLIP（Contrastive Language-Image Pre-training）是通过将文本与图像进行对比的预训练大模型，学习文本与图像之间的关系，而Diffusion负责听CLIP的引导生产图片。

DALLE-2目前还是闭源的，用户可以通过它的WEB界面或API来使用它。

02 开源的 Stable Diffusion 横空出世

继DALLE-2之后继续颠覆艺术的革命、也引起技术界轰动的 Stable Diffusion（文中简称SD），是一个基于 Latent Diffusion Models（潜在扩散模型）来实现文字转图片的大模型，类似DALLE-2和谷歌的Imagen等类似技术，SD可以在短短几秒钟内生成清晰度高，还原度佳、风格选择较广的AI图片，这让SD在同类技术中脱颖而出。

SD最大的突破是任何人都能免费下载并使用其开源代码，因为模型大小只有几个G而已！因此在短时间内 huggingface网站上有100万次模型的下载，也是破了huggingface网站的历史记录。这让AI图片生成模型不再只是业内少数公司自我标榜技术能力的玩物，许多创业公司和研究室正在快速进入，集成SD模型来开发各种不同场景的应用，包括我们Vitally AI公司。

SD以掩耳盗铃之势迅速迭代，开源社区也在不断改进SD。在SD v2.0上线不到两周时间，就迅速更新到v2.1版本。相比于前一版本，主要放宽了内容过滤的限制，减少了训练的误伤，也有这三大特色：更高质量的图片、图像有了景深、负向文本的技巧更好的约束AI生成的随机性，也支持在单个GPU上来运行。

SD官网上写着 “by the people, for the people” 的使命，与热烈追求民主化的开源，已被证明是改写了 AI 赛道的游戏规则，同时也让Stability AI公司在不到两年的时间内迅速变成独角兽公司，快速融资了1亿美金。高质量！免费开源！更新快！这几个关键词就已经决定了Stable Diffusion的出世必定绝不平凡！借助这一突破性技术尝试给你的宠物照片变个身吧！？

Imagen不同于其他已知的文本出图的大模型，其更注重深层次的语言理解。Imagen的预训练语言模型（T5-XXL）的训练集包含800GB的纯文本语料，在文本理解能力上会比有限图文训练的效果更强。Imagen的工作流程为：在输入prompt后，如“一只戴着蓝色格子贝雷帽和红色波点高领毛衣的金毛犬”（A golden retriever dog wearing a blue checkered beret and red dotted turtleneck），Imagen先使用谷歌自研的T5-XXL编码器将输入文本编码为嵌入，再利用一系列扩散模型，从分辨率 64×64 → 256×256 → 1024×1024的过程来生成图片。结果表明，预训练大语言模型和多联扩散模型在生成高保真图片方面效果很好。

Parti大模型网址: parti.research.google

与VIMA类似，GoogleAI的研究人员发布了RT-1，一种多模态机器人变换器。它将机器人的输入和输出动作（如相机图像、任务指令和电机命令）标记化，以便在运行时进行有效的推理。RT-1使用13个Everyday Robots（EDR）机器人收集的数据进行训练，包括了700多项任务、13万时间片段。与之前的技术相比，RT-1可以对新的任务、环境和物体表现出明显改善的 zero-shot 泛化能力。

Nvidia英伟达公司则有两项重要的研究成果：Magic3D和Get3D，目标是通过允许用户从文本生成3D模型，使3D内容创建更加容易。Magic3D是一种高分辨率的文本到3D内容创建方法，它采用内容从粗略到精细的渐进过程，利用低分辨率和高分辨率的扩散先验来学习目标内容的3D表现。据媒体报道，它比Google的DreamFusion快2倍，仅需40分钟即可创建高质量的3D网格模型。Get3D是一个AI模型，结合了自然语言（NLP）和计算机视觉技术，用文本描述生成逼真的3D对象。这使用户可以快速创建逼真的3D模型，无需任何先前的建模技能。

Nvidia还开发了一个名为 MineDojo的AI代理，可以根据 Minecraft中的文字提示执行操作，并获得了国际机器学习会议的杰出论文奖。微软也有一个新的AI Minecraft“代理”，它在游戏内运行。

10 AI 发现新材料

AI在材料科学领域的应用正在快速发展，其中AI发现新材料是一项重要的技术。这项技术包含了数据挖掘和机器学习两个步骤。数据挖掘通过从大量数据中提取有用信息来实现。AI通过对数据的分析，提取有关材料性能的信息。机器学习是通过利用算法从数据中学习来实现的。在这个步骤中，AI利用算法预测新材料的性能。这个可能更偏向 Analytical AI。

今年，GoogleAI发布了一种名为"Material Discovery"的模型，该模型可以根据给定的物理和化学性质生成新的材料结构。这项技术有望在未来帮助材料科学家发现更高性能的材料。然而，也存在一些挑战，其中一个是数据缺乏。这项技术需要大量数据来做出准确的预测，如果数据不足，AI可能会做出不准确的预测。另一个挑战是材料的复杂性。由于材料是复杂的系统，AI可能无法准确预测材料在不同环境中的性能。

16 别忘记了亚马逊云的存在

Amazon SageMaker是在亚马逊云上的一站式大模型开发平台，可以提高大模型的开发效率。在IDC发布的报告中，Amazon SageMaker被列入“领导者”阵营，并居于图中最高最远的位置。

亚马逊云科技自研AI芯片可以提供更具性价比的方案，例如Amazon Trainium自研芯片的Amazon EC2 Trn1实例可节省高达50%的训练成本，而Inf2实例可支持横向扩展分布式推理，方便部署并提升高速推理。

（文章仅代表作者观点。责编邮箱：yanguihua@jiemian.com。）

赏钱

免责声明：本文仅代表作者个人观点，与华威派无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非华威派）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@goodmaoning.com

人人都能免费用，微软开放搭载GPT的新必应和Edge浏览器

2023-05-23 09:24

ChatGPT是怎么在中国火起来的？

2023-05-22 12:18