> 自媒体 > AI人工智能 > 「真实网络世界」测试场:GPT-4的智能体也只能跑10.59%成功率
「真实网络世界」测试场:GPT-4的智能体也只能跑10.59%成功率
来源:机器之心Pro
2023-08-01
205
管理

机器之心报道

编辑:陈萍

大模型能在网上完成人类给的任务吗?新的 Benchmark 来了。

随着生成式 AI 的发展,利用大语言模型构建 AI 智能体逐渐走红。比如斯坦福、谷歌联合构建了一个具有 25 个 AI 智能体的「虚拟小镇」,「小镇居民」的行为比人类角色扮演的更加真实,甚至举办了一场情人节派对。

又比如商汤、清华等机构提出的通才 AI 智能体 Ghost in the Minecraft (GITM),在《我的世界》中比以往所有智能体都有更优秀的表现……

这些 AI 智能体的先后涌现,甚至让人认为是未来通用人工智能(AGI)的雏形。

然而,有些智能体主要是在简化的合成环境中创建和测试的,这极大地限制了它们在现实场景中的应用。强如 ChatGPT,也只能通过插件的方式与互联网进行有限的互动。

本文,来自卡耐基梅隆大学(CMU)等机构的研究者引入了一个逼真且可复现的网络环境 WebArena,旨在促进研究者开发能够执行各种任务的自主智能体。

实验

该研究使用了 gpt-3.5-turbo-0613 和 gpt-4-0613 进行实验。

在 WebArena 环境下的主要结果如表 3 所示。由 GPT-4 提供支持的推理智能体在端到端任务上的成功率为 10.63%。相同的推理智能体由 GPT-3.5 提供支持时,成功率降至 7.38%。这些结果表明在涉及长期规划任务上,尤其是在 WebArena 这样逼真环境中执行任务的智能体还面临很多挑战。

下表为本文基准和现有基准上的比较。

参考链接:

https://twitter.com/shuyanzhxyc/status/1683917253597855744

0
点赞
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与华威派无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
凡本网注明 “来源:XXX(非华威派)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
QQ:2443165046 邮箱:info@goodmaoning.com
关于作者
冷熙(普通会员)
点击领取今天的签到奖励!
签到排行
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索