图像版GPT3问世！打破语言与视觉界线，AI将更加聪明-华威派

> 自媒体 > AI人工智能 > 图像版GPT3问世！打破语言与视觉界线，AI将更加聪明

图像版GPT3问世！打破语言与视觉界线，AI将更加聪明

来源：DeepTech深科技

2023-07-15

184

管理

继 OpenAI 推出史上最强语言模型 GPT-3 后，这家旧金山 AI 研究公司又有新动作。

这次，他们一连推出两款强大的多模态模型 CLIP 和 DALL・E，CLIP 可以对图像进行理解、归类，而 DALL・E 则可以直接借助文本生成图像，简直就是 “图像版 GPT-3”。

OpenAI 在官博中介绍，DALL・E 是 GPT-3 的 120 亿参数版本，如此庞大的数据集，足以让它发挥 “想象力” 创造出那些不同寻常的图像。

你只用简单描述一下想要的图像特征，比如 “一个高质量的龟兔插图” “一只模仿乌龟的兔子” “一只乌龟做成的兔子”，DALL・E 就可以生成以下图像，堪称帮助设计师 “开脑洞” 的神器。

图｜DALL・E 生成的牛油果形状扶手椅以及咖啡桌

参与 DALL・E 工作的阿迪亚・拉梅什（Aditya Ramesh）表示，“最让我惊讶的是，这个模型可以把两个不相关的概念联系在一起，并赋予其功能。” 他认为牛油果与扶手椅的融合最为自然，“可能是因为牛油果被切一半，看起来有点像高背扶手椅，而果核恰好可以充当靠垫。”

就像 GPT-3 一样，DALL・E 同样是基于一个仅有解码器的 Transformer 架构，包含 1280 个文本和图像 token（文本占 256 个，图像占 1024 个），可以同时接收文本和图像作为单一数据流，并使用最大似然进行训练，一个接一个地生成所有 token。

它的 64 个自注意力层（self-attention）中的每一个都具有注意力 mask（掩盖词、掩膜），使每个图像 token 都可以匹配文本 token。DALL・E 对文本 token 使用标准的因果 mask，以行、列或卷积注意模式对图像 token 使用稀疏注意，具体取决于层数。

OpenAI 团队在其博客文章中称展示的结果并不是人工挑选的，而是通过另一款模型 CLIP 进行排序的，CLIP 会选出它认为最符合描述的 32 张图像。此过程也可以看作是一种语言指导的搜索，会对样本质量产生巨大影响。

如下图所示，使用 CLIP 对 DALL・E 中的样本进行重新排序，可以大大提高样本的一致性和质量。

图｜CLIP 可以对 DALL・E 中的样本进行重新排序

据悉，OpenAI 计划在下一篇论文中提供有关 DALL・E 架构和训练过程的详细信息。

DALL・E 和 CLIP 是从两个不同的方向来解决这个问题的。CLIP 是对搜集到的图片进行理解、分类，而 DALL・E 是根据文本生成图片，两个模型可以理解为互为逆过程。

图｜DALL・E 生成的 “竖琴制成的蜗牛”

艾伦人工智能研究所的阿尼・肯布哈维（Ani Kembhavi）说：“这个模型能从相当异想天开的文本中生成合成图像，这在我看来非常有趣。” 他的同事 Jaemin Cho 也对此印象深刻，“现有的文本 - 图像生成器还没有显示出绘制多个对象的控制水平，也没有 DALL・E 的空间推理能力，” 他说。

佐治亚理工学院从事自然语言处理和计算创造力的马克・里德尔（Mark Riedl ）则大胆质疑该模型生成的卡通图像，“我对萝卜的例子有点怀疑，从风格上看，它可能记住了一些来自互联网的艺术作品。DALL・E 所基于的 GPT-3 在记忆方面可是出了名的。” 他说。

图｜DALL・E 根据 “穿着芭蕾舞短裙遛狗的小白萝卜” 这一文本生成的图像

尽管如此，大部分 AI 研究人员仍然认为，将语言建立在视觉理解上是让 AI 更加聪明的好方法。

“未来的系统将由这样的模型组成，它们都是朝着那个系统迈进的一步。”OpenAI 首席科学家 Ilya Sutskever 说。

赏钱

免责声明：本文仅代表作者个人观点，与华威派无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非华威派）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@goodmaoning.com

GPT-3 定价揭晓，对个人用户来说，可能贵

2023-07-15 17:51

UNU专家：训练GPT3产温室气体约合伦敦纽约六百次飞行

2023-07-15 17:48