大模型掌握16000+真实世界API了,清华等机构ToolLLM不输ChatGPT-华威派

> 自媒体 > AI人工智能 > 大模型掌握16000+真实世界API了,清华等机构ToolLLM不输ChatGPT

大模型掌握16000+真实世界API了,清华等机构ToolLLM不输ChatGPT

来源：机器之心Pro

2023-08-03

162

管理

机器之心报道

编辑：陈萍、梓文

本文提出了一个新的框架 ToolLLM，其增强了大型语言模型对 API 的使用。在指令调优数据集 ToolBench 上对 LLaMA 进行微调，得到的 ToolLLaMA 与 ChatGPT 性能相当。

相信大家都已经见识到了，开源大型语言模型（LLMs）及其变体（例如 LLaMA 和 Vicuna）在各种任务上取得了显著的进展。

然而，尽管 LLM 很强大，但它们在执行更高级任务方面局限性仍然很大，比如让 LLM 按照人类给出的指令使用外部工具（APIs），很多开源 LLM 就很难办到。

原因在于当前 LLM 的指令调优技术主要集中在基本语言任务上，缺乏对工具使用方面的探索。这与最先进的闭源模型如 ChatGPT 形成了鲜明的对比，后者已经展示出出色的工具使用能力。

为了让开源 LLM 更好的使用外部工具，来自清华、人大、耶鲁、腾讯、知乎等多家机构的研究者联合撰写了论文，他们引入了一个通用工具使用框架 ToolLLM，该框架包括数据构建、模型训练和评估多项功能。

值得一提的是，该研究从 RapidAPI Hub 收集了 16464 个真实世界的 RESTful API，涵盖 49 个类别。

该研究在 ToolBench（指令调优数据集）上对 LLaMA 进行微调，得到了 ToolLLaMA。ToolEval（自动评估器）评估显示，ToolLLaMA 展现出了出色的执行复杂指令和泛化到未知 API 的能力，并且在工具使用方面性能与 ChatGPT 相媲美。

从表 3 可以看出，DFSDT 在所有情况下的性能都明显优于其余两种基线方法，这表明 DFSDT 是一种更有效的方法，可以节省解路径标注的成本。并且与较简单的指令（I1）相比，DFSDT 对较难指令（即 I2 和 I3）的性能提升更为明显。这说明，除了效率之外，DFSDT 还能解决那些困难、复杂的指令，而这些指令是普通 ReACT 无论执行多少次都无法回答的。将此类「困难示例」纳入数据集，可以充分激发工具在这些复杂情况下的使用能力。

更多详细内容，请参阅原文。

赏钱

免责声明：本文仅代表作者个人观点，与华威派无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非华威派）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@goodmaoning.com

掌握这8种ChatGPT提示技巧，发掘其全部潜力

2023-08-03 12:36

一行代码就能骗过ChatGPT，AI安全风险真的无解吗？

2023-08-03 12:35