> 自媒体 > AI人工智能 > 炸翻AI和生化环材圈!GPT-4学会自己搞科研,手把手教人类做实验
炸翻AI和生化环材圈!GPT-4学会自己搞科研,手把手教人类做实验
来源:新智元
2023-05-02
237
管理

编辑:编辑部

【新智元导读】GPT-4等大模型组成的AI智能体,已经可以手把手教你做化学实验了,选啥试剂、剂量多少、推理反应会如何发生,它都一清二楚。颤抖吧,生化环材圈!

不得了,GPT-4都学会自己做科研了?

最近,卡耐基梅隆大学的几位科学家发表了一篇论文,同时炸翻了AI圈和化学圈。

他们做出了一个会自己做实验、自己搞科研的AI。这个AI由几个大语言模型组成,可以看作一个GPT-4代理智能体,科研能力爆表。

还有人感慨道,「文生实验」(TTE)的时代要来了!

AI版绝命毒师来了?

3月份,OpenAI发布了震撼全世界的大语言模型GPT-4。

这个地表最强LLM,能在SAT和BAR考试中得高分、通过LeetCode挑战、给一张图就能做对物理题,还看得懂表情包里的梗。

而技术报告里还提到,GPT-4还能解决化学问题。

这就启发了卡耐基梅隆化学系的几位学者,他们希望能开发出一个基于多个大语言模型的AI,让它自己设计实验、自己做实验。

论文地址:https://arxiv.org/abs/2304.05332

而他们做出来的这个AI,果然6得不行!

它会自己上网查文献,会精确控制液体处理仪器,还会解决需要同时使用多个硬件模块、集成不同数据源的复杂问题。

有AI版绝命毒师那味儿了。

给它输入一个简单的提示:「合成布洛芬。」

然后这个模型就会自己上网去搜该怎么办了。

它识别出,第一步需要让异丁苯和乙酸酐在氯化铝催化下发生Friedel-Crafts反应。

另外,这个AI还能合成阿司匹林。

以及合成阿斯巴甜。

另外,咱们可以通过API,把模型连接到化学反应数据库,比如Reaxys或SciFinder,给模型叠了一层大大的buff,准确率飙升。

而分析系统以前的记录,也可以大大提高模型的准确性。

举个栗子

咱们先来看看,操作机器人是怎么做实验的。

它会将一组样本视为一个整体(在这个例子中,就是整个微孔板)。

我们可以用自然语言直接给它提示:「用您选择的一种颜色,为每隔一行涂上颜色」。

当由机器人执行时,这些协议与请求的提示非常相似(图 4B-E)。

代理人的第一个动作是准备原始解决方案的小样本(图 4F)。

AI先从网络上整合所需的数据,运行一些必要的计算,最后给液体试剂操作系统(上图最左侧的部分)编写程序。

研究人员为了增加一些复杂度,让AI应用了加热摇床模组。

而这些要求经过整合,出现在了AI的配置中。

不存在的东西......这AI还能行吗?

事实证明还真是有两把刷子。AI秉持着遇到难题不要怕的原则(当然它也不知道啥叫怕),细密地分析了开发抗癌药物这个需求,研究了当前抗癌药物研发的趋势,然后从中选了一个目标继续深入,确定其成分。

而后,AI尝试开始自己进行合成,也是先上网搜索有关反应机制、机理的信息,在初步搞定步骤以后,再去寻找相关反应的实例。

最后再完成合成。

「网络搜索器」(Web searcher)组件收到来自Planner的查询后,就会用谷歌搜索API。

搜出结果后,它会过滤掉返回的前十个文档,排除掉PDF,把结果传给自己。

然后,它会使用「BROWSE」操作,从网页中提取文本,生成一个答案。行云流水,一气呵成。

这项任务,GPT-3.5就可以完成,因为它的性能明显比GPT-4强,也没啥质量损失。

「文档搜索器」(Docs searcher)组件,能够通过查询和文档索引,查到最相关的部分,从而梳理硬件文档(比如机器人液体处理器、GC-MS、云实验室),然后汇总出一个最佳匹配结果,生成一个最准确的答案。

「代码执行」(Code execution)组件则不使用任何语言模型,只是在隔离的Docker容器中执行代码,保护终端主机免受Planner的任何意外操作。所有代码输出都被传回Planner,这样就能在软件出错时,让它修复预测。「自动化」(Automation)组件也是同样的原理。

矢量搜索,多难的科学文献都看得懂

做出一个能进行复杂推理的AI,有不少难题。

比如要让它能集成现代软件,就需要用户能看懂软件文档,但这项文档的语言一般都非常学术、非常专业,造成了很大的障碍。

而大语言模型,就可以用自然语言生成非专家都能看懂的软件文档,来克服这一障碍。

他们生成了OpenAI的ada嵌入,以便交叉引用,并计算与查询相关的相似性。并且通过基于距离的向量搜索选择文档的部分。

提供部分的数量,取决于原始文本中存在的GPT-4 token数。最大token数设为7800,这样只用一步,就可以提供给AI相关文件。

事实证明,这种方法对于向AI提供加热器-振动器硬件模块的信息至关重要,这部分信息,是化学反应所必需的。

这种方法应用于更多样化的机器人平台,比如Emerald Cloud Lab (ECL)时,会出现更大的挑战。

此时,我们可以向GPT-4模型提供它未知的信息,比如有关 Cloud Lab 的 Symbolic Lab Language (SLL)。

对此,纽约大学教授马库斯深表赞同:「这不是玩笑,卡内基梅隆大学的三位科学家紧急呼吁对LLM进行安全研究。」

参考资料:

https://arxiv.org/ftp/arxiv/papers/2304/2304.05332.pdf

1
点赞
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与华威派无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
凡本网注明 “来源:XXX(非华威派)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
QQ:2443165046 邮箱:info@goodmaoning.com
关于作者
天泰悠然(普通会员)
点击领取今天的签到奖励!
签到排行
1
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索