编辑:好困 Aeneas
【新智元导读】最近,来自Google DeepMind,普林斯顿和斯坦福的顶尖华人团队提出了一种全新的框架。现在,LLM可以像人类一样制作自己的工具了!ChatGPT等大语言模型诞生以来,凭着强大的语言理解能力、生成能力、逻辑推理能力等,已经被人类玩出了花。
而OpenAI公开GPT-4后,最大的惊喜之一,莫过于插件模式的引入了。
插件使得GPT-4可以执行代码、搜索引擎、集成各种APP的功能。这无疑是对于LLM后续应用模式的一大突破。
论文地址:https://arxiv.org/abs/2305.17126
项目地址:https://github.com/ctlllll/LLM-ToolMaker
基于这个框架,LLM就变得像人类的祖先一样,能够自我开发,并且学会使用工具。
同时,这种工具制造者和使用者之间的分工,在不降低生成工具和解决方案质量的情况下,就能实现成本效益。
结果显示,当使用GPT-4作为工具制造者,GPT-3.5 Turbo作为工具使用者时,可以在成本低、速度快的GPT-3.5 Turbo上实现与GPT-4相当的性能。
让LLM自己造工具
虽然LLM很好用,但如果问题太多的话,直接丢给GPT-4这种性能很强的模型,成本会非常高。
另一方面,轻量级模型在成本效益上很高,但通常在处理复杂任务时遇到困难。
LATM通过利用强大的模型作为工具制造者,为请求中观察到的任务生成可重复使用的工具(以Python函数实现),并将工具传递给一个成本效益高的工具使用者模型,用于解决后续请求中的类似实例。
这种方法使得轻量级模型在保持更高的成本效率的同时,能够达到与强大模型相当的性能。
LATM的闭环框架
LATM可以分为两个阶段:
1. 制造工具:一个强大但更昂贵的模型作为工具制造者,从一些示例中生成通用且可重复使用的工具;
2. 使用工具:一个轻量且更便宜的模型作为工具使用者,使用工具来解决任务的各种实例。
制造工具阶段可以进一步划分为三个子阶段:
(1)工具提议:工具制造者试图从一些训练示例中生成工具(Python函数),如果工具无法执行,报告错误并生成新的(修复函数中的问题);
(2)工具验证:工具制造者在验证样本上运行单元测试,如果工具没有通过测试,报告错误并生成新的测试(修复单元测试中函数调用的问题);
(3)工具封装:封装函数代码和如何从单元测试中将问题转换为函数调用的示例,为工具使用者准备可用的工具。
LATM和思维链(CoT)的性能比较
此外,在所有的模型中,GPT-3.5 Turbo也有着最佳的性价比。
工具验证
工具封装
分派器
封装工具
逻辑推理
Dyck语言
单词排序
参考资料:
相关文章
猜你喜欢