> 自媒体 > AI人工智能 > 当GPT-4学会看图文,一场生产力革命已势不可挡
当GPT-4学会看图文,一场生产力革命已势不可挡
来源:机器之心Pro
2023-05-10
325
管理

机器之心原创

作者:张倩

「太卷了!」

在经历了 GPT-4 和微软 Microsoft 365 Copilot 的连续轰炸后,相信很多人都有这样的感想。

与 GPT-3.5 相比,GPT-4 在很多方面都实现了大幅提升,比如在模拟律师考试中,它从原来的倒数 10% 进化到了正数 10%。当然,普通人对于这些专业考试可能没什么概念。但如果给你看一张图,你就明白它的提升有多么恐怖了:

图源:清华大学计算机系教授唐杰微博。

链接:https://m.weibo.cn/detail/4880331053992765

这是一道物理题,GPT-4 被要求根据图文逐步解题,这是 GPT-3.5(此处指升级之前的 ChatGPT 所依赖的模型)所不具备的能力。一方面,GPT-3.5 只被训练用来理解文字,题中的图它是看不懂的。另一方面,GPT-3.5 的解题能力也很薄弱,鸡兔同笼都能把它难倒。但这一次,两个问题似乎都被解决得非常漂亮。

当所有人都以为这就是王炸的时候,微软又放出了一个重磅炸弹:GPT-4 这些能力已经被整合到一个名为 Microsoft 365 Copilot 的新应用中。凭借强大的图文处理能力,Microsoft 365 Copilot 不仅可以帮你写各种文档,还能轻松地将文档转换成 PPT、将 Excel 数据自动总结成图表……

对于第二个问题,厦门大学南强特聘教授纪荣嵘贡献了一个重要思路。他认为,语言和视觉存在着天然的联系,二者的联合学习已经是大势所趋。但面对这波浪潮,任何一个高校或实验室的力量都显得微不足道。所以他现在从自己就职的厦大开始,尝试说服研究人员将算力整合起来,形成一个网络去做多模态大模型。其实,在前段时间的一个活动上,专注于 AI for Science 的鄂维南院士也发表了类似看法,希望各界「敢于在原始创新方向上集中资源」。

不过,GPT-4 所走的路就一定会通向通用人工智能吗?对此,有些研究者是存疑的,图灵奖得主 Yann LeCun 便是其中之一。他认为,当前的这些大模型对于数据、算力的需求大得惊人,但学习效率却很低(比如自动驾驶汽车)。因此,他创立了一套名为「世界模型」(即世界如何运作的内部模型)的理论,认为学习世界模型(可以理解为为真实世界跑个模拟)可能是实现 AGI 的关键。在活动现场,上海交通大学教授杨小康分享了他们在这个方向上的工作。具体来说,他的团队着眼于视觉直觉的世界模型(因为视觉直觉信息量大),试图把视觉、直觉以及对时间、空间的感知建模好。最后,他还强调了数学、物理、信息认知与计算机学科交叉对这类研究的重要性。

「毛毛虫从食物中提取营养,然后变成蝴蝶。人们已经提取了数十亿条理解的线索,GPT-4 是人类的蝴蝶。」在 GPT-4 发布的第二天,深度学习之父 Geoffrey Hinton 发了这样一条推文。

目前,还没有人能够断定这只蝴蝶将掀起多大的飓风。但可以肯定的是,这还不是一只完美的蝴蝶,整个 AGI 世界的拼图也尚未完成。每位研究者、从业者都还有机会。

0
点赞
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与华威派无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
凡本网注明 “来源:XXX(非华威派)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
QQ:2443165046 邮箱:info@goodmaoning.com
关于作者
杨子(普通会员)
点击领取今天的签到奖励!
签到排行
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索