特斯拉“擎天柱”发布新进展，AI机器人的ChatGPT时刻到了吗？-华威派

> 自媒体 > AI人工智能 > 特斯拉“擎天柱”发布新进展，AI机器人的ChatGPT时刻到了吗？

特斯拉“擎天柱”发布新进展，AI机器人的ChatGPT时刻到了吗？

来源：硅谷101

2023-06-19

341

管理

5月中旬，特斯拉在股东大会上发布了人形机器人Optimus“擎天柱”的新进展。

在Demo里面，这个人形机器人已经可以很流畅地做一系列动作了，包括走路，并且利用视觉学习周围的环境；手臂力道控制很精确，可以不打碎鸡蛋；整个手掌看上去也很柔性，可以拿捏不同物品。

可以看出来，特斯拉的机器人发展还是挺快的，要知道，就在几个月前，2022年9月的特斯拉人工智能日上，马斯克首次亮相Optimus的时候，在舞台上整个机器人看着还挺笨拙的，能做的动作非常有限，连走路都做不到，还是好几个人给抬上舞台的，整个受到外界的一阵嘲讽。

现在进展如果真的这么快，或许真如马斯克所说，在不到十年的时间中，人们就可以给父母买一个机器人作为生日礼物了。ChatGPT加上AI机器人，感觉我都不用工作了，直接可以收拾行李环游世界去了。

然而，往坏了想，又感觉终结者里的机器人就要破壳而出了，很可怕。所以，我也非常矛盾，就像舆论上支持和反对AI机器人的两派在不停互相掐架一样，我到底期不期待AI机器人的到来呢？

但是，在《硅谷101》团队做完AI机器人的调研之后发现：AI机器人的ChatGPT时刻还远未到来。

所以，这篇文章我们来聊聊，为什么AI机器人这么难做？现在进展到哪儿了？特斯拉的机器人有什么优势？为什么历史上谷歌收购了十多家机器人公司但最终面临阶段性失利？为什么OpenAI放弃机器人研发？还有如今AI大模型对机器人能带来什么进展？

01 AI机器人定义

首先，要来定义一下什么叫做“AI机器人”。

这个概念其实在学术界有一个很fancy酷炫的名字，叫做具身智能，Embodied Intelligence，顾名思义，就是具有身体的人工智能，是AI进入我们物理世界进行交互的载体。但是“具身智能”这个词太学术了可能很多人不熟悉，所以在这个视频中，我们就把具身智能定义为AI机器人。

关于非智能机器人和AI机器人我们来举几个例子，帮大家辨别一下。

目前为止，基本上所有工业机器人只能被编程为执行重复的一系列的运动，这就是前者，非智能机器人，更多是像个机器。

这几年蛮流量的咖啡机器人就是一个很好的例子，比如说美国这边有个公司叫Cafe X，就是一个机械手臂来给顾客做咖啡。虽然看上去有点smart，但它是完全没有智能的。所有的运动轨迹，杯子的位置，握杯的力度，反转摇晃杯子的方式和力度都是提前编程好的。

有没有什么低成本的数据采集方法呢？现在的做法是：在虚拟世界中训练机器人，也就是模拟，Simulation。

目前，大多机器人公司的路径都是先在模拟器中训练机器人，跑通了再拿到真实事件中训练。比如说谷歌之前的EveryDay Robots就大量运用了模拟技术，在他们的模拟器中有2.4亿台机器人在接受训练，在模拟的加持下，训练机器人拿东西这个任务，原来需要50万个数据，在模拟的帮助下现在只需要5000个数据了。各个角度、不同光影的数据也可以被自动化，不用一个一个采集了。

但是，Simulation也不是万能的解决方案，首先它本身的成本也不低，需要大量的算力支持；其次虚拟世界和真实世界依旧存在着巨大的差距，在虚拟世界跑通的事儿，到了真实世界可能会遇到无数的新问题，所以，数据收集的挑战依然是巨大的。

所以讲到这里，我们总结一下，数据采集难，三层任务AI化难，再加上对硬件的控制和整合，其中的统一性和准确性都是非常严峻的难题。在过去十年，AI机器人的发展并没有人们一度想象中那么乐观。并且，在实验室中看似已经解决的问题，到了实验室外的商用探索中，又出现了各种新的问题。

讲到这里，我们就不得不说说谷歌十年押注AI机器人但最终没能成功的故事，其实也反映了AI机器人上的发展困境。

04 AI谷歌十年“整合”AI机器人的失利

再者，在数据上得到提升。在RT-1中，研究人员使用了不同型号的机器人的数据来训练模型，结果发现自己机器人执行任务的准确率提升了。虽然这方面的研究还比较早期，但如果未来有大模型能使用不同机器人的数据进行预训练，可能会进一步提高准确度，那么这意味着，机器人AI的通用训练集也能实现了。

这几个进展是目前的大模型热潮除了给AI机器人赛道带来“信心”之外，还切实带来的进步，但即使如此，我们现在还在非常非常早期的阶段。也有业内人士告诉《硅谷101》，虽然这四个模型的发布振奋了AI机器人市场的热情，但Palm-e和和RT-1的技术对于行业来说都不是全新的消息，因此，这四个模型能如何赋能AI机器人，还需要我们进一步去验证。

另外，虽然特斯拉最新发布的视频没有对Optimus做任何技术上的解析，但马斯克透露，特斯拉已经打通了FSD和机器人的底层模块，实现了一定程度的算法复用。我们知道，FSD算法指的是特斯拉全自动驾驶，是Full Self-Driving系统的缩写。FSD的这个算法让车辆可以实现自主导航和自动驾驶功能，包括让车辆能够在各种交通环境下进行感知、决策和控制。如果，这一套基于神经网络和计算机视觉的技术算法也可以移到AI机器人上，相信会对软件方面帮助不少。

但是同时，我们还想强调一点，在AI机器人流派中，还有很多其它的尝试正在进行，不一定大模型神经网络能够成为具身智能的解药，大模型也不一定是我们能达到通用人工智能的解药。我们今天讲述的具身智能发展派的做法是在人工智能上将软件和硬件分开各自迭代，然后将两者融合的方式去做AI机器人。但目前学术界，也有一些新的流派在产生，认为人类现在训练具身智能的方式还只是单纯的输入的输出，但是，具身智能也许需要更加多通道的全面的跨模态交互，因为这样的行为交互才最能体现机器对环境的认知试探和反馈，才能在和环境的互动过程中学习和成长。

06 其他发展轨迹：Unimal

与其人们设计出具身智能的最终形态身躯再强加上AI软件来驱动，李飞飞博士提出，智能生物的智能化程度，和它的身体结构之间，存在很强的正相关性，不如让AI自己选择具身的进化。而这样的具身不一定是人形机器人。也就是说，对于智能生物来说，身体不是一部等待加载“智能算法”的机器，而是身体本身就参与了算法的进化。

李飞飞博士说她通过回溯5.3亿年前的寒武纪生命大爆发找到了灵感，当时，许多物种首次出现。如今共识的科学理论认为，当时新物种的爆发部分原因，是由眼睛的出现所驱动的，视觉让生物们第一次看清楚周围的世界，而通过视觉，物种的身体“需要在快速变化的环境中移动、导航、生存、操纵和改变”，从而自行进化。

也就是说，地球上所有的智力活动，都是生物通过自己的身体，真真切切地与环境产生交互之后，通过自身的学习和进化所遗留下来的“智力遗产”。那么，具身智能，也就是AI机器人，为什么会是一个例外呢？为什么不是自己进化，还是让人类设定最终形态呢？

所以，李飞飞博士在这个DERL，也就是深度进化强化学习的论文中，提到了生物进化论与智能体进化的关系，并且借鉴了进化论的理论，制造了一个假设的智能体，名为“Unimal”。

就是图中身上长满了小棍的这个东西，是universal和animal拼起来的一个词，然后规定了模拟环境的虚拟宇宙中的三条规则：

第一条规则：这个宇宙中存在大量的虚拟生命agents，这些agents的具身，就是这些像小棍一样的肢体和头部拼接起来的虚拟生命。这些具身代表着不同的基因代码，模拟出不同环境下进化出的不同具身。大家可以看到，平地，崎岖不平的山路，和前面有障碍物的环境下，具身会进化出不同的结构，有的像八爪章鱼一样，有的像小狗一样的四足结构，反正就是非常不一样。

第二条规则是：这些形态各异的虚拟具身，都需要在自己的一生中，通过使用机器学习算法来适应不同的环境，比如平坦的地面、充满障碍的沙丘，在这些环境中完成不同的任务，像是巡逻、导航、躲避障碍物、搬运箱子等等。

第三条规则是：通过一段时间的学习训练之后，虚拟具身之间要相互比赛，只有表现最突出的一部分能够被保留下来。然后，它们的基因代码经过相互组合之后，产生大量新的身体结构，再重复第一和第二条规则中学习适应各类环境和任务的过程。

要注意的是，上一代虚拟生命遗留给下一代的，只有它们的身体结构，而不包括它们在一生中学习到的经验和算法。

通过搭建这样一个虚拟宇宙，研究人员在里面使用各种条件，对上千个具身形态进行了严酷的筛选。最终发现：一个物种在前几代通过长期和艰苦的深度学习获得的行为，在后几代中会变成一种类似本能的习惯。

如说，某个具身的祖辈花了很长时间才学会跑步，但是在经过几代进化之后，它们的后代生下来没多久就自己会跑了。

李飞飞团队的研究人员说，在学习和进化的双重压力下，最终只有那些在结构上有优势的身体结构，才能够被保留下来，进行进化。这些结构由于可以更容易学习到更先进的算法，于是在每一代的竞争中就积累下了大量的优势。研究人员把这种身体结构上的优势叫做“形态智能”。在算力相同的情况下，具备形态智能优势的生物可以更快获得学习上的优势，从而赢得残酷的生存竞争。这其实是验证了19世纪末著名的“鲍德温效应”。

所以，这篇论文得到的结论是，DERL深度进化强化学习使得大规模模拟成为现实，通过学习形态智能的进化过程可以加速强化学习。而李飞飞博士也表示：“具身的含义不是身体本身，而是与环境交互以及在环境中做事的整体需求和功能”。也就是说，将进化论放进人工智能领域，用“具身智能”而非纯粹的“算法智能”，来加快人工智能机器人的进化速度，也许是能更快推进具身智能前进的方式。

目前，研究依然还是非常早期的阶段，所有训练也还只在的模拟器中，但这已经让之后的具身智能发展充满了各种悬念：最终出现在我们面前的具身智能，可能不是我们想象中的机器人形态，更有可能是一种浑身插满各种木棍儿的小人也说不定。

所以，我们这个视频在结尾得到的结论就是：AI机器人，也就是具身智能的发展，没那么容易。这个赛道还没有等到自己的ChatGPT时刻，我们开头描述的那些场景距离实现还早着呢，所以大家既不用担心终结者很快到来、也不用兴奋很快会有AI机器人能帮我们去遛狗排队买咖啡。

但是，具身智能的出现，是“机器人”Robot这个词最开始发明的时候，就在人类的想象中的。

大家猜猜英文Robot是怎么来的？

这个词最早其实出现在1920年捷克文学家卡雷尔·恰佩克的三幕剧《罗素姆万能机器人》（Rossum's Universal Robots），而Robot这个词源于捷克语的“robota”，意思是“苦力”和“奴隶”的意思，之后成为了机器人的专有名词。

而这个三幕剧讲的什么故事呢？

这个故事讲述的是，罗素姆这个工厂大规模制造和生产机器人，本来初衷是完成所有人类不愿做的工作和苦差事，从而解放人类投身于更美好、更高的事物。但后来，机器人发觉人类十分自私和不公正，终于造反了，因此消灭了人类。但是，机器人不知道如何制造自己，认为自己很快就会灭绝，所以它们开始寻找人类的幸存者，但一直没有找到。最后，一对感知能力优于其它机器人的男女机器人相爱了。这时机器人进化为人类，世界又起死回生了。

100多年前，机器人Robot这个词诞生的时候，小说家卡雷尔·恰佩克似乎就觉得终有一天，具身智能会来到人类世界，并且和人类的关系变得破朔迷离，机器人可以消灭人类，也可以进化为人类。我不知道是否有一天，这个幻想的故事会真实抵达我们的世界，但稍微能安抚大家的是，至少在现在，我们依然距离这个故事还很遥远。

文｜Jeremy Bao Junwu Zhang 陈茜

编辑｜陈茜

排版｜何源清

赏钱

免责声明：本文仅代表作者个人观点，与华威派无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非华威派）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@goodmaoning.com

ChatGPT 来了，它竟然可以编程，程序员应该害怕吗？

2023-06-19 22:14

Chatgpt设计了一个机器人

2023-06-19 22:12