OpenAI的DALL-E 2模型或连接到GPT-3，进一步提升对世界关系的深层理解-华威派

> 自媒体 > AI人工智能 > OpenAI的DALL-E 2模型或连接到GPT-3，进一步提升对世界关系的深层理解

OpenAI的DALL-E 2模型或连接到GPT-3，进一步提升对世界关系的深层理解

来源：麻省理工科技评论APP

2023-05-22

308

管理

目前，一些公司和组织已开发出多款文本生成图像模型。比如，谷歌在 2022 年接连发布了名为 Imagen 和 Parti 的图像生成器。OpenAI 也在今年发布了 DALL-E 的升级版 DALL-E 2。

这些 AI 模型都可以依照简单的自然语言文本描述，来生成不同艺术风格的逼真图像。

比如，根据文字“一幅毕加索风格的鹦鹉翻转煎饼的画作”，DALL-E 2 可输出以下图片。

（来源：OpenAI）

人们对于 DALL-E 2 等模型的出现最初是感到惊喜的，毕竟它们可以在几秒钟内将物体和生物任意组合在一起，且各类艺术风格都能够模仿。

但后来，实验者所呈现的图像表明，DALL-E 2 仍然在图像上展示文本、科学、面孔等方面还存在一定问题。

首先，该模型很难在其图像中放置可理解的文本，这可能是由于它非常擅长理解用于生成图像的文本提示。

比如当被要求在图片下方显示“This is not a pipe”，DALL-E 2 出现了较大错误。

（来源：OpenAI）

对于这个问题，OpenAI 告诉媒体，未来的 DALL-E 版本很可能会纠正这个问题，特别是因为它的大语言模型 GPT-3 团队有着丰富的文本生成专业知识。

然后，在科学知识理解上，也许 DALL-E 2 能较容易地描绘宇航员漂浮在太空或掉落的物体坠落，但当涉及一个解剖图、X 射线图像或数学证明等比较实际的科学问题时，模型所产生的图像表面看似正确，但从根本上说都是错误的。

比如要求 DALL-E 2 提供“按比例绘制的太阳系插图”。如下图所示，该 AI 系统返回了一系列非常拥挤和奇怪的行星，包括左上角的类似煮熟鸡蛋的东西和左下角的奇怪地球。

（来源：OpenAI）

“DALL-E 2 不知道科学是什么，”OpenAI 对媒体解释说，“它只知道如何阅读标题并绘制插图，并试图在不理解含义的情况下编造视觉上相似的东西。”

最后，当 DALL-E 2 尝试生成逼真的人物图像时，该系统针对具有单一关注点的图像进行了优化。

它在单个人物肖像方面非常出色，但在集体照和人群场景中却非常糟糕。下面是分别要求“一名宇航员带着渴望的表情凝视地球”和“七名工程师聚集在白板周围”的图片。可以看到当 DALL-E 2 被要求一次生成多个人的照片时，人物图像包括一些可怕的面孔和手。

（来源：OpenAI）

除了以上问题之外，文本生成图像模型也给人带来一丝可能会被滥用的担忧。

OpenAI 告诉媒体，对于可能的滥用风险，它们非常重视。DALL-E 2尚未面向公众发布，目前只允许选定的少数人访问，主要是 AI 研究人员和艺术家，同时允许将作品进行公开分享。

据了解，OpenAI 在从网络上搜集的约 6.5 亿个图像文本数据集中，来训练 DALL-E 2 学习图像和单词之间的关系。

同时，为了防止生成不良信息，OpenAI 过滤掉了数据集中明显的有关仇恨或性内容，并集成了某些过滤器，以使符合其内容政策。另外，为了防止深度伪造， DALL-E 2 无法完全复制在训练期间看到的面孔。目前，OpenAI 还使用人工审阅者来检查被标记为可能存在问题的图像。

不过，值得注意的是，该公司已经明确表示，它们的过滤方法还有其局限性，模型仍有可能生成各种欺骗性和其他有害内容。

DALL-E 2 还会输出一些存在歧视或刻板印象的图片。比如，若用户要求生成 CEO 或技术记者的图像，DALL-E 2 通常会返回男性人物。除了复制社会对性别的刻板印象外，该系统还过度代表了白人传统及背景。

据了解，OpenAI 的一个团队已经开始尝试“机器学习缓解措施”来纠正偏见。

值得一提的是，OpenAI 的一些批评者认为，在大量未记录的数据集上训练模型的总体趋势应该受到质疑，并提出了从维基百科和电子书（包括教科书和手册）等来源创建较小但“干净”的图像文本对数据集的想法。

然后，不管怎么说，DALL-E 2 等模型还是十分强大的，在其可能对一些行业产生“破坏”上，美国图片交易公司 Getty Images 告诉媒体，它们对此并不担心。其说道：“像 DALL-E 这样的技术对我们业务的威胁并不比数十亿个手机摄像头和由此产生的数万亿张图像现实更严重。”

另外，美国插画家协会 CEO 雷切尔·希尔（Rachel Hill）也提出了在训练数据中使用图像的版权和补偿问题。

她还对媒体表示，AI 平台可能会吸引那些想要快速、低价，不追求卓越质量的人。相较图片生成模型，人类仍有很大优势。

人类插画家的作品通常依赖于人类经验来传达情感或观点，并与观众建立联系。DALL-E 2 及其等效产品是否也能做同样的事情还有待观察。

最后，DALL-E 2 团队还对媒体表示，他们渴望看到早期用户在试验其系统时发现的错误和故障，这对提高系统的一般智能会有帮助。并补充说，他们会将语言及其与世界关系的更深层次理解建立到 DALL-E 中，并尝试将 GPT-3 拥有的知识连接到图像领域。

也许有一天，OpenAI 或其他公司开发的 AI 模型会创造出接近人类艺术的东西。

参考资料：

https://spectrum.ieee.org/openai-dall-e-2

赏钱

免责声明：本文仅代表作者个人观点，与华威派无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非华威派）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@goodmaoning.com

京东副总裁何晓冬：GPT-3后，人机对话与交互何去何从？| CCF-GAIR 2020

2023-05-22 11:55

2020年AI进展及2021年技术趋势报告：GPT-3训练费用超过 1200 万美元

2023-05-22 11:53