> 自媒体 > AI人工智能 > 大模型掌握16000+真实世界API了,清华等机构ToolLLM不输ChatGPT
大模型掌握16000+真实世界API了,清华等机构ToolLLM不输ChatGPT
来源:机器之心Pro
2023-08-03
118
管理

机器之心报道

编辑:陈萍、梓文

本文提出了一个新的框架 ToolLLM,其增强了大型语言模型对 API 的使用。在指令调优数据集 ToolBench 上对 LLaMA 进行微调,得到的 ToolLLaMA 与 ChatGPT 性能相当。

相信大家都已经见识到了,开源大型语言模型(LLMs)及其变体(例如 LLaMA 和 Vicuna)在各种任务上取得了显著的进展。

然而,尽管 LLM 很强大,但它们在执行更高级任务方面局限性仍然很大,比如让 LLM 按照人类给出的指令使用外部工具(APIs),很多开源 LLM 就很难办到。

原因在于当前 LLM 的指令调优技术主要集中在基本语言任务上,缺乏对工具使用方面的探索。这与最先进的闭源模型如 ChatGPT 形成了鲜明的对比,后者已经展示出出色的工具使用能力。

为了让开源 LLM 更好的使用外部工具,来自清华、人大、耶鲁、腾讯、知乎等多家机构的研究者联合撰写了论文,他们引入了一个通用工具使用框架 ToolLLM,该框架包括数据构建、模型训练和评估多项功能。

值得一提的是,该研究从 RapidAPI Hub 收集了 16464 个真实世界的 RESTful API,涵盖 49 个类别。

该研究在 ToolBench(指令调优数据集)上对 LLaMA 进行微调,得到了 ToolLLaMA。ToolEval(自动评估器)评估显示,ToolLLaMA 展现出了出色的执行复杂指令和泛化到未知 API 的能力,并且在工具使用方面性能与 ChatGPT 相媲美。

从表 3 可以看出,DFSDT 在所有情况下的性能都明显优于其余两种基线方法,这表明 DFSDT 是一种更有效的方法,可以节省解路径标注的成本。并且与较简单的指令(I1)相比,DFSDT 对较难指令(即 I2 和 I3)的性能提升更为明显。这说明,除了效率之外,DFSDT 还能解决那些困难、复杂的指令,而这些指令是普通 ReACT 无论执行多少次都无法回答的。将此类 「困难示例 」纳入数据集,可以充分激发工具在这些复杂情况下的使用能力。

更多详细内容,请参阅原文。

0
点赞
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与华威派无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
凡本网注明 “来源:XXX(非华威派)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
QQ:2443165046 邮箱:info@goodmaoning.com
关于作者
乖乖(普通会员)
点击领取今天的签到奖励!
签到排行
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索