3月26日,周日晚8点,前哨科技特训营将带来【未来科技】专题直播下半场,王煜全将继续和大家分享他观察的新科技趋势。
今天,我们带大家先看看AI变革中的前沿理解,微软研究院3月22日发布了154页的GPT-4研究论文(Sparks of Artificial General Intelligence: Early experiments with GPT-4)。
研究认为:在所有任务中GPT-4 的表现都非常接近人类水平,并且经常大大超过 ChatGPT 等其他模型。鉴于 GPT-4 功能的广度和深度,我们认为可以合理地将其视为通用人工智能 (AGI) 系统的早期(仍不完整)的版本。
你如果没有时间详细了解,今天我们为你列出了文中重点,更多关于AI产业变革的分析、预测,欢迎点击文首图片加入前哨科技特训营,我们持续和你分享。
1.GPT-4可以看作通用人工智能早期版
研究开篇就提出,GPT-4除了能处理各种语言任务,还可以解决数学、编程、图像、医学、法律、心理学等多个领域的困难任务。
研究员认为,鉴于GPT-4突出的功能,已经可以视作一种早期的通用人工智能系统,也存在一个Transformer的关键缺陷。
2.GPT-4的聪明是真聪明吗?
测试智能理解程度,可以看它能否回答脑经急转弯式的问题。
一个经典的例子是:一个猎人向南走一英里,向东走一英里,向北走一英里,最后又回到了他开始的地方,射杀了一只熊,请问这只熊是什么颜色的?答案是白色的,因为唯一可能发生这种情况的地方是北极,那里有北极熊。
GPT-4做出了正确的回答,ChatGPT却放弃了,但GPT-4是真的理解,还是数据更多了呢?
3.全新的测试标准
和OpenAI采用基准测试评价GPT-4不同,微软研究员提出了更接近人的测试方法评价GPT-4对知识的理解深度,覆盖了人类智力测试、编程、数学以及多任务表现等多个方面。
例如让GPT-4以莎士比亚的风格论证定理,让它使用代码绘制独角兽,通过现有人类知识库中不存在的组合,测试了GPT-4对各种概念的理解情况。
4.GPT-4在智力测试中体现出概念迁移能力
论文的第一个评价标准是「信息综合能力」,原本是衡量人是否拥有知识迁移的能力。
测试中的GPT-4还是早期版本,并没有多模态功能,已经能将文学、医学、法律、数学的知识相互贯通,在研究中还体现了很强的图像和音频能力。
例如,要求 GPT-4“用javascript生成画家康定斯基风格的随机图像”“证明莎士比亚的文学风格中存在无限多个素数”。
5.GPT-4已经能独立完成部分编程项目
GPT-4的编程能力大家已经非常了解,在这个测试中展示了更广泛的编程能力,从基本的编程任务,到复杂的游戏制作,都体现出了非常强的理解力。
测试中要求 GPT-4 使用JavaScript在网页中编写 3D 游戏,GPT-4甚至理解了对于NPC设定的要求,一次性完成了整个任务;相比之下ChatGPT则回应它无法独立实现。
6.数学能力有飞跃,离专家还有距离
数学能力上,研究人员发现GPT-4的进步是飞跃式的,即便对比Minerva等数学模型也有明显优势,但离专家水平还相差很远,不具备数学研究的能力。
目前,GPT-4可以回答困难的高中数学问题,并且有时可以围绕高级的数学话题进行对话,但仍然会有很多基本错误,这可以直接被看作对数学概念缺乏理解。
7.与人交互进步微妙
理解他人的意图,往往被视为共情能力非常重要的组成部分,研究员使用了儿童心理领域常用的Sally-Anne测试,发现在ChatGPT的基础上,GPT-4能够对人类意图给出微妙的解释。
8.GPT-4的关键局限
虽然GPT-4呈现出了非常强的智能,但受限于技术原理,它仍然有不少限制,研究中呈现了一个非常关键的问题:一次规划导致GPT-4的思考深度不够。
GPT算法架构不允许对已生成的内容进行修改,这相当于一个人对任何问题都必须一次性想清楚正确答案,很容易犯下基础错误。研究员进行测试,对个位数的连续加法、乘法计算,GPT-4的正确率只有58%。
微软研究员将这归结为:预测下一个词的生成形式限制了AI的短期记忆长度,虽然可以通过提示词部分改进这一问题,但底层的架构不变,这个缺陷将始终存在。
这既是当前人工智能的不足,或许也是大部分人都还能保住的智能优势。
相关文章
猜你喜欢