「真实网络世界」测试场：GPT-4的智能体也只能跑10.59%成功率-华威派

> 自媒体 > AI人工智能 > 「真实网络世界」测试场：GPT-4的智能体也只能跑10.59%成功率

「真实网络世界」测试场：GPT-4的智能体也只能跑10.59%成功率

来源：机器之心Pro

2023-08-01

235

管理

机器之心报道

编辑：陈萍

大模型能在网上完成人类给的任务吗？新的 Benchmark 来了。

随着生成式 AI 的发展，利用大语言模型构建 AI 智能体逐渐走红。比如斯坦福、谷歌联合构建了一个具有 25 个 AI 智能体的「虚拟小镇」，「小镇居民」的行为比人类角色扮演的更加真实，甚至举办了一场情人节派对。

又比如商汤、清华等机构提出的通才 AI 智能体 Ghost in the Minecraft (GITM)，在《我的世界》中比以往所有智能体都有更优秀的表现……

这些 AI 智能体的先后涌现，甚至让人认为是未来通用人工智能（AGI）的雏形。

然而，有些智能体主要是在简化的合成环境中创建和测试的，这极大地限制了它们在现实场景中的应用。强如 ChatGPT，也只能通过插件的方式与互联网进行有限的互动。

本文，来自卡耐基梅隆大学（CMU）等机构的研究者引入了一个逼真且可复现的网络环境 WebArena，旨在促进研究者开发能够执行各种任务的自主智能体。

实验

该研究使用了 gpt-3.5-turbo-0613 和 gpt-4-0613 进行实验。

在 WebArena 环境下的主要结果如表 3 所示。由 GPT-4 提供支持的推理智能体在端到端任务上的成功率为 10.63%。相同的推理智能体由 GPT-3.5 提供支持时，成功率降至 7.38%。这些结果表明在涉及长期规划任务上，尤其是在 WebArena 这样逼真环境中执行任务的智能体还面临很多挑战。

下表为本文基准和现有基准上的比较。

参考链接：

https://twitter.com/shuyanzhxyc/status/1683917253597855744

0

点赞

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与华威派无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非华威派）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@goodmaoning.com

GPT-4顶替老板\u0026程序员，这个GitHub项目火上热搜第一

2023-08-01 16:26

GPT-4变笨实锤！3个月性能暴减1/10，代码生成大不如前

2023-08-01 16:24

相关文章

ChatGPT、双碳、数字基建科学家论道产业热点

微软青睐聊天机器人 100亿美元投资ChatGPT开发商

ChatGPT革命！尝鲜者的喜与忧

苹果限制员工使用ChatGPT等外部AI工具，担心“可能会泄露机密数据”..

ChatGPT应用上架，一晚冲到排行榜第二

微信这个功能升级了！一键就能开启

ChatGPT官方iOS应用上线：中文版免费用，支持语音输入！..

一次10万token！GPT4最强对手史诗升级，百页资料一分钟总结完毕..

ChatGPT 官方 App 上架美区 App Store，支持线性马达震动

关于作者

冷熙(普通会员)

点击领取今天的签到奖励!

猜你喜欢

01

抛妻弃女31年，李连杰再次遇到前妻黄秋燕，泪点却在合影的位置上..

2022/09/12

02

豆瓣评分9.0以上的国产剧排行榜豆瓣评分9.0以上的国产剧前十..

2022/09/24

03

盘古和女娲（中国神话故事）

2022/08/27

04

2022离世的11位名人：有人患癌，有人突发意外，有人元旦当天离世..

2022/09/11

05

巨蟹座：一生最旺的颜色，能旺你一生，可以不喜欢，但必须爱上它..

6个月前

06

30个暖心睡前小故事，很甜很撩的睡前小故事

2022/08/26

07

香蕉是如何种出来的？从育苗到收获，揭秘香蕉种植的全过程..

2022/06/02

08

“没有好奇心，人就死了”！喜马拉雅鬼王——杨湃的鬼故事哲学..

2022/08/27

标签云

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索