机器人ChatGPT来了：大模型进现实世界，DeepMind重量级突破-华威派

> 自媒体 > AI人工智能 > 机器人ChatGPT来了：大模型进现实世界，DeepMind重量级突破

机器人ChatGPT来了：大模型进现实世界，DeepMind重量级突破

来源：AI每日推送的头条号

2023-08-21

281

管理

给机器人发命令，从没这么简单过。

我们知道，在掌握了网络中的语言和图像之后，大模型终究要走进现实世界，「具身智能」应该是下一步发展的方向。

把大模型接入机器人，用简单的自然语言代替复杂指令形成具体行动规划，且无需额外数据和训练，这个愿景看起来很美好，但似乎也有些遥远。毕竟机器人领域，难是出了名的。

然而 AI 的进化速度比我们想象得还要快。

谷歌 DeepMind 宣布推出 RT-2：全球第一个控制机器人的视觉 - 语言 - 动作（VLA）模型。

现在不再用复杂指令，机器人也能直接像 ChatGPT 一样操纵了。

RT-2 到达了怎样的智能化程度？DeepMind 研究人员用机械臂展示了一下，跟 AI 说选择「已灭绝的动物」，手臂伸出，爪子张开落下，它抓住了恐龙玩偶。

在此之前，机器人无法可靠地理解它们从未见过的物体，更无法做把「灭绝动物」到「塑料恐龙玩偶」联系起来这种有关推理的事。

跟机器人说，把可乐罐给泰勒・斯威夫特：

该字符串以一个标志开始，该标志指示机器人是继续还是终止当前情节，然后机器人根据指示改变末端执行器的位置和旋转以及机器人抓手等命令。

由于动作被表示为文本字符串，因此机器人执行动作命令就像执行字符串命令一样简单。有了这种表示，我们可以直接对现有的视觉 - 语言模型进行微调，并将其转换为视觉 - 语言 - 动作模型。

在推理过程中，文本 token 被分解为机器人动作，从而实现闭环控制。

实验

研究人员对 RT-2 模型进行了一系列定性和定量实验。

下图展示了 RT-2 在语义理解和基本推理方面的性能。例如，对于「把草莓放进正确的碗里」这一项任务，RT-2 不仅需要对草莓和碗进行表征理解，还需要在场景上下文中进行推理，以知道草莓应该与相似的水果放在一起。而对于「拾起即将从桌子上掉下来的袋子」这一任务，RT-2 需要理解袋子的物理属性，以消除两个袋子之间的歧义并识别处于不稳定位置的物体。

需要说明的是，所有这些场景中测试的交互过程在机器人数据中从未见过。

下图表明在四个基准测试上，RT-2 模型优于之前的 RT-1 和视觉预训练 (VC-1) 基线。

RT-2 保留了机器人在原始任务上的性能，并提高了机器人在以前未见过场景中的性能，从 RT-1 的 32% 提高到 62%。

一系列结果表明，视觉 - 语言模型（VLM）是可以转化为强大的视觉 - 语言 - 动作（VLA）模型的，通过将 VLM 预训练与机器人数据相结合，可以直接控制机器人。

和 ChatGPT 类似，这样的能力如果大规模应用起来，世界估计会发生不小的变化。不过谷歌没有立即应用 RT-2 机器人的计划，只表示研究人员相信这些能理解人话的机器人绝不只会停留在展示能力的层面上。

简单想象一下，具有内置语言模型的机器人可以放入仓库、帮你抓药，甚至可以用作家庭助理 —— 折叠衣物、从洗碗机中取出物品、在房子周围收拾东西。

它可能真正开启了在有人环境下使用机器人的大门，所有需要体力劳动的方向都可以接手 —— 就是之前 OpenAI 有关的报告中，大模型影响不到的那部分，现在也能被覆盖。

具身智能，离我们不远了？

最近一段时间，具身智能是大量研究者正在探索的方向。本月斯坦福大学李飞飞团队就展示了一些新成果，通过大语言模型加视觉语言模型，AI 能在 3D 空间分析规划，指导机器人行动。

稚晖君的通用人形机器人创业公司「智元机器人（Agibot）」昨天晚上放出的视频，也展示了基于大语言模型的机器人行为自动编排和任务执行能力。

预计在 8 月，稚晖君的公司即将对外展示最近取得的一些成果。

可见在大模型领域里，还有大事即将发生。

获取最新AI头条，请关注公众号：AI每日推送

参考内容：

https://www.deepmind.com/blog/rt-2-new-model-translates-vision-and-language-into-action

https://www.blog.google/technology/ai/google-deepmind-rt2-robotics-vla-model/

https://www.theverge.com/2023/7/28/23811109/google-smart-robot-generative-ai

https://www.nytimes.com/2023/07/28/technology/google-robots-ai.html

https://www.bilibili.com/video/BV1Uu4y1274k/

0

点赞

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与华威派无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非华威派）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@goodmaoning.com

ChatGPT：未来战争中，人类是否会完全依赖机器人士兵？

2023-08-21 14:57

北大用ChatGPT打造开发团队，无需人类干预，AI自主完成软件开发

2023-08-21 12:05

相关文章

意大利宣布禁用ChatGPT，限制OpenAI处理本国用户信息

数字媒体怎么用ChatGPT赚钱？Buzzfeed推了款收费的测试产品..

硬核观察 | 硬核观察 #1011 OpenAI 呼吁像监管原子能一样监管超级智能..

ChatGPT首个机器人诞生：能采摘西红柿

Google以\u0026#34;声誉风险\u0026#34;为理由不推出ChatGPT的类似聊天机器..

ChatGPT替代不了人类｜附AI输给人类10个原因

GPT-4刚发布就有手机APP接入，上传照片视频一键解读

从产品看ChatGPT做对了什么？

听说ChatGPT能聊天？能聊会明天不？

关于作者

雷振杍(普通会员)

点击领取今天的签到奖励!

猜你喜欢

01

抛妻弃女31年，李连杰再次遇到前妻黄秋燕，泪点却在合影的位置上..

2022/09/12

02

豆瓣评分9.0以上的国产剧排行榜豆瓣评分9.0以上的国产剧前十..

2022/09/24

03

盘古和女娲（中国神话故事）

2022/08/27

04

2022离世的11位名人：有人患癌，有人突发意外，有人元旦当天离世..

2022/09/11

05

巨蟹座：一生最旺的颜色，能旺你一生，可以不喜欢，但必须爱上它..

6个月前

06

30个暖心睡前小故事，很甜很撩的睡前小故事

2022/08/26

07

香蕉是如何种出来的？从育苗到收获，揭秘香蕉种植的全过程..

2022/06/02

08

“没有好奇心，人就死了”！喜马拉雅鬼王——杨湃的鬼故事哲学..

2022/08/27

标签云

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索