给机器人发命令,从没这么简单过。
我们知道,在掌握了网络中的语言和图像之后,大模型终究要走进现实世界,「具身智能」应该是下一步发展的方向。
把大模型接入机器人,用简单的自然语言代替复杂指令形成具体行动规划,且无需额外数据和训练,这个愿景看起来很美好,但似乎也有些遥远。毕竟机器人领域,难是出了名的。
然而 AI 的进化速度比我们想象得还要快。
谷歌 DeepMind 宣布推出 RT-2:全球第一个控制机器人的视觉 - 语言 - 动作(VLA)模型。
现在不再用复杂指令,机器人也能直接像 ChatGPT 一样操纵了。
RT-2 到达了怎样的智能化程度?DeepMind 研究人员用机械臂展示了一下,跟 AI 说选择「已灭绝的动物」,手臂伸出,爪子张开落下,它抓住了恐龙玩偶。
在此之前,机器人无法可靠地理解它们从未见过的物体,更无法做把「灭绝动物」到「塑料恐龙玩偶」联系起来这种有关推理的事。
跟机器人说,把可乐罐给泰勒・斯威夫特:
该字符串以一个标志开始,该标志指示机器人是继续还是终止当前情节,然后机器人根据指示改变末端执行器的位置和旋转以及机器人抓手等命令。
由于动作被表示为文本字符串,因此机器人执行动作命令就像执行字符串命令一样简单。有了这种表示,我们可以直接对现有的视觉 - 语言模型进行微调,并将其转换为视觉 - 语言 - 动作模型。
在推理过程中,文本 token 被分解为机器人动作,从而实现闭环控制。
实验
研究人员对 RT-2 模型进行了一系列定性和定量实验。
下图展示了 RT-2 在语义理解和基本推理方面的性能。例如,对于「把草莓放进正确的碗里」这一项任务,RT-2 不仅需要对草莓和碗进行表征理解,还需要在场景上下文中进行推理,以知道草莓应该与相似的水果放在一起。而对于「拾起即将从桌子上掉下来的袋子」这一任务,RT-2 需要理解袋子的物理属性,以消除两个袋子之间的歧义并识别处于不稳定位置的物体。
需要说明的是,所有这些场景中测试的交互过程在机器人数据中从未见过。
下图表明在四个基准测试上,RT-2 模型优于之前的 RT-1 和视觉预训练 (VC-1) 基线。
RT-2 保留了机器人在原始任务上的性能,并提高了机器人在以前未见过场景中的性能,从 RT-1 的 32% 提高到 62%。
一系列结果表明,视觉 - 语言模型(VLM)是可以转化为强大的视觉 - 语言 - 动作(VLA)模型的,通过将 VLM 预训练与机器人数据相结合,可以直接控制机器人。
和 ChatGPT 类似,这样的能力如果大规模应用起来,世界估计会发生不小的变化。不过谷歌没有立即应用 RT-2 机器人的计划,只表示研究人员相信这些能理解人话的机器人绝不只会停留在展示能力的层面上。
简单想象一下,具有内置语言模型的机器人可以放入仓库、帮你抓药,甚至可以用作家庭助理 —— 折叠衣物、从洗碗机中取出物品、在房子周围收拾东西。
它可能真正开启了在有人环境下使用机器人的大门,所有需要体力劳动的方向都可以接手 —— 就是之前 OpenAI 有关的报告中,大模型影响不到的那部分,现在也能被覆盖。
具身智能,离我们不远了?
最近一段时间,具身智能是大量研究者正在探索的方向。本月斯坦福大学李飞飞团队就展示了一些新成果,通过大语言模型加视觉语言模型,AI 能在 3D 空间分析规划,指导机器人行动。
稚晖君的通用人形机器人创业公司「智元机器人(Agibot)」昨天晚上放出的视频,也展示了基于大语言模型的机器人行为自动编排和任务执行能力。
预计在 8 月,稚晖君的公司即将对外展示最近取得的一些成果。
可见在大模型领域里,还有大事即将发生。
获取最新AI头条,请关注公众号:AI每日推送
参考内容:
https://www.deepmind.com/blog/rt-2-new-model-translates-vision-and-language-into-action
https://www.blog.google/technology/ai/google-deepmind-rt2-robotics-vla-model/
https://www.theverge.com/2023/7/28/23811109/google-smart-robot-generative-ai
https://www.nytimes.com/2023/07/28/technology/google-robots-ai.html
相关文章
猜你喜欢