当GPT-4学会看图文，一场生产力革命已势不可挡-华威派

> 自媒体 > AI人工智能 > 当GPT-4学会看图文，一场生产力革命已势不可挡

当GPT-4学会看图文，一场生产力革命已势不可挡

来源：机器之心Pro

2023-05-10

397

管理

机器之心原创

作者：张倩

「太卷了！」

在经历了 GPT-4 和微软 Microsoft 365 Copilot 的连续轰炸后，相信很多人都有这样的感想。

与 GPT-3.5 相比，GPT-4 在很多方面都实现了大幅提升，比如在模拟律师考试中，它从原来的倒数 10% 进化到了正数 10%。当然，普通人对于这些专业考试可能没什么概念。但如果给你看一张图，你就明白它的提升有多么恐怖了：

图源：清华大学计算机系教授唐杰微博。

链接：https://m.weibo.cn/detail/4880331053992765

这是一道物理题，GPT-4 被要求根据图文逐步解题，这是 GPT-3.5（此处指升级之前的 ChatGPT 所依赖的模型）所不具备的能力。一方面，GPT-3.5 只被训练用来理解文字，题中的图它是看不懂的。另一方面，GPT-3.5 的解题能力也很薄弱，鸡兔同笼都能把它难倒。但这一次，两个问题似乎都被解决得非常漂亮。

当所有人都以为这就是王炸的时候，微软又放出了一个重磅炸弹：GPT-4 这些能力已经被整合到一个名为 Microsoft 365 Copilot 的新应用中。凭借强大的图文处理能力，Microsoft 365 Copilot 不仅可以帮你写各种文档，还能轻松地将文档转换成 PPT、将 Excel 数据自动总结成图表……

对于第二个问题，厦门大学南强特聘教授纪荣嵘贡献了一个重要思路。他认为，语言和视觉存在着天然的联系，二者的联合学习已经是大势所趋。但面对这波浪潮，任何一个高校或实验室的力量都显得微不足道。所以他现在从自己就职的厦大开始，尝试说服研究人员将算力整合起来，形成一个网络去做多模态大模型。其实，在前段时间的一个活动上，专注于 AI for Science 的鄂维南院士也发表了类似看法，希望各界「敢于在原始创新方向上集中资源」。

不过，GPT-4 所走的路就一定会通向通用人工智能吗？对此，有些研究者是存疑的，图灵奖得主 Yann LeCun 便是其中之一。他认为，当前的这些大模型对于数据、算力的需求大得惊人，但学习效率却很低（比如自动驾驶汽车）。因此，他创立了一套名为「世界模型」（即世界如何运作的内部模型）的理论，认为学习世界模型（可以理解为为真实世界跑个模拟）可能是实现 AGI 的关键。在活动现场，上海交通大学教授杨小康分享了他们在这个方向上的工作。具体来说，他的团队着眼于视觉直觉的世界模型（因为视觉直觉信息量大），试图把视觉、直觉以及对时间、空间的感知建模好。最后，他还强调了数学、物理、信息认知与计算机学科交叉对这类研究的重要性。

「毛毛虫从食物中提取营养，然后变成蝴蝶。人们已经提取了数十亿条理解的线索，GPT-4 是人类的蝴蝶。」在 GPT-4 发布的第二天，深度学习之父 Geoffrey Hinton 发了这样一条推文。

目前，还没有人能够断定这只蝴蝶将掀起多大的飓风。但可以肯定的是，这还不是一只完美的蝴蝶，整个 AGI 世界的拼图也尚未完成。每位研究者、从业者都还有机会。

赏钱

免责声明：本文仅代表作者个人观点，与华威派无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非华威派）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@goodmaoning.com

GPT-4很强大但仍有诸多谜团，OpenAI选择只透露这么多

2023-05-10 21:17

GPT-4超强进化，未来取代孩子的却不是AI，而是他们

2023-05-10 21:15