微软最新研究：GPT-4很强，也有自己的软肋！｜前哨-华威派

> 自媒体 > AI人工智能 > 微软最新研究：GPT-4很强，也有自己的软肋！｜前哨

微软最新研究：GPT-4很强，也有自己的软肋！｜前哨

来源：王煜全

2023-05-05

375

管理

3月26日，周日晚8点，前哨科技特训营将带来【未来科技】专题直播下半场，王煜全将继续和大家分享他观察的新科技趋势。

今天，我们带大家先看看AI变革中的前沿理解，微软研究院3月22日发布了154页的GPT-4研究论文（Sparks of Artificial General Intelligence: Early experiments with GPT-4）。

研究认为：在所有任务中GPT-4 的表现都非常接近人类水平，并且经常大大超过 ChatGPT 等其他模型。鉴于 GPT-4 功能的广度和深度，我们认为可以合理地将其视为通用人工智能 (AGI) 系统的早期（仍不完整）的版本。

你如果没有时间详细了解，今天我们为你列出了文中重点，更多关于AI产业变革的分析、预测，欢迎点击文首图片加入前哨科技特训营，我们持续和你分享。

1.GPT-4可以看作通用人工智能早期版

研究开篇就提出，GPT-4除了能处理各种语言任务，还可以解决数学、编程、图像、医学、法律、心理学等多个领域的困难任务。

研究员认为，鉴于GPT-4突出的功能，已经可以视作一种早期的通用人工智能系统，也存在一个Transformer的关键缺陷。

2.GPT-4的聪明是真聪明吗？

测试智能理解程度，可以看它能否回答脑经急转弯式的问题。

一个经典的例子是：一个猎人向南走一英里，向东走一英里，向北走一英里，最后又回到了他开始的地方，射杀了一只熊，请问这只熊是什么颜色的？答案是白色的，因为唯一可能发生这种情况的地方是北极，那里有北极熊。

GPT-4做出了正确的回答，ChatGPT却放弃了，但GPT-4是真的理解，还是数据更多了呢？

3.全新的测试标准

和OpenAI采用基准测试评价GPT-4不同，微软研究员提出了更接近人的测试方法评价GPT-4对知识的理解深度，覆盖了人类智力测试、编程、数学以及多任务表现等多个方面。

例如让GPT-4以莎士比亚的风格论证定理，让它使用代码绘制独角兽，通过现有人类知识库中不存在的组合，测试了GPT-4对各种概念的理解情况。

4.GPT-4在智力测试中体现出概念迁移能力

论文的第一个评价标准是「信息综合能力」，原本是衡量人是否拥有知识迁移的能力。

测试中的GPT-4还是早期版本，并没有多模态功能，已经能将文学、医学、法律、数学的知识相互贯通，在研究中还体现了很强的图像和音频能力。

例如，要求 GPT-4“用javascript生成画家康定斯基风格的随机图像”“证明莎士比亚的文学风格中存在无限多个素数”。

5.GPT-4已经能独立完成部分编程项目

GPT-4的编程能力大家已经非常了解，在这个测试中展示了更广泛的编程能力，从基本的编程任务，到复杂的游戏制作，都体现出了非常强的理解力。

测试中要求 GPT-4 使用JavaScript在网页中编写 3D 游戏，GPT-4甚至理解了对于NPC设定的要求，一次性完成了整个任务；相比之下ChatGPT则回应它无法独立实现。

6.数学能力有飞跃，离专家还有距离

数学能力上，研究人员发现GPT-4的进步是飞跃式的，即便对比Minerva等数学模型也有明显优势，但离专家水平还相差很远，不具备数学研究的能力。

目前，GPT-4可以回答困难的高中数学问题，并且有时可以围绕高级的数学话题进行对话，但仍然会有很多基本错误，这可以直接被看作对数学概念缺乏理解。

7.与人交互进步微妙

理解他人的意图，往往被视为共情能力非常重要的组成部分，研究员使用了儿童心理领域常用的Sally-Anne测试，发现在ChatGPT的基础上，GPT-4能够对人类意图给出微妙的解释。

8.GPT-4的关键局限

虽然GPT-4呈现出了非常强的智能，但受限于技术原理，它仍然有不少限制，研究中呈现了一个非常关键的问题：一次规划导致GPT-4的思考深度不够。

GPT算法架构不允许对已生成的内容进行修改，这相当于一个人对任何问题都必须一次性想清楚正确答案，很容易犯下基础错误。研究员进行测试，对个位数的连续加法、乘法计算，GPT-4的正确率只有58%。

微软研究员将这归结为：预测下一个词的生成形式限制了AI的短期记忆长度，虽然可以通过提示词部分改进这一问题，但底层的架构不变，这个缺陷将始终存在。

这既是当前人工智能的不足，或许也是大部分人都还能保住的智能优势。

1

点赞

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与华威派无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非华威派）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@goodmaoning.com

GPT-4亮相搅动“一池春水”：读图、理解能力提升显著，技术商用未来可期

2023-05-05 19:55

100万亿参数的GPT 4 刷屏AI社区，大概率是假消息

2023-05-05 19:53

相关文章

ChatGPT-4访问被持续限流，国信证券：预计未来的算力需求缺口将会持续扩大..

GPT-4论文竟有隐藏线索：GPT-5或完成训练、OpenAI两年内接近AGI..

国产“ChatGPT”已超70多家，科大讯飞钟锟：“赛马”将跑出世界级的大模型..

免费2个月后，AI聊天机器人ChatGPT官宣收费，每月20美元，从烧钱到赚钱，AI..

全球 PC 卖不动，Windows 下滑 12%……近 18 万亿市值的微软，全靠 OpenAI ..

真正零代码部署ChatGPT

我用 GPT-3 在单个代码库中发现 213 个安全漏洞

高开暴走，史上最快达到1亿用户的应用程序，ChatGPT有多强？..

热点关注丨摘掉 Chat 标签，GPT-4 将释放更大生产力

关于作者

黑暗森林(普通会员)

点击领取今天的签到奖励!

猜你喜欢

01

抛妻弃女31年，李连杰再次遇到前妻黄秋燕，泪点却在合影的位置上..

2022/09/12

02

豆瓣评分9.0以上的国产剧排行榜豆瓣评分9.0以上的国产剧前十..

2022/09/24

03

盘古和女娲（中国神话故事）

2022/08/27

04

2022离世的11位名人：有人患癌，有人突发意外，有人元旦当天离世..

2022/09/11

05

巨蟹座：一生最旺的颜色，能旺你一生，可以不喜欢，但必须爱上它..

8个月前

06

30个暖心睡前小故事，很甜很撩的睡前小故事

2022/08/26

07

香蕉是如何种出来的？从育苗到收获，揭秘香蕉种植的全过程..

2022/06/02

08

“没有好奇心，人就死了”！喜马拉雅鬼王——杨湃的鬼故事哲学..

2022/08/27

标签云

1

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索