新智元报道
编辑:Aeneas 润世界上第一个「ChatGPT机器人」来了!
初创公司Figure联合OpenAI,现在直接给LLM造了个身体(具体来说,它是个OpenAI训练的多模态大模型)。
半个月前刚获得OpenAI等的6.75亿美元融资,今天初创公司Figure就来交卷了,简直神速。
这个名为Figure 01的机器人,充分展示了和人类以及环境交互的能力。它会说会看,还能给人类递食物、捡垃圾、收拾碗筷。
不仅如此,它还能够推理,自行识别、计划和执行有用的任务。
在这个过程中,由OpenAI提供视觉推理和语言理解,Figure 01的神经网络,会提供快速、低等级、灵巧的机器人动作。
OpenAI和Figure Robotics放出的这段演示,瞬间震惊了网友:大模型和真实物理世界的距离,越来越近了!
此前Midjourney创始人预测:2040年,将会有10亿机器人,2060年将有一百亿,马斯克表示同意这段视频可谓亮点满满。
首先,视频是1.0倍原速拍摄的,而且是连续拍摄,跟之前那些为了表现流畅而加速的人形机器人演示不一样。
其次,整个视频只了一个端到端的神经网络。
并且,机器人背后,并没有人在远程操作,所有动作都是由机器人自行完成的!
现在,压力给到了波士顿动力和马斯克的擎天柱这边。
高能机器人,能说会看还能推理
视频中的小哥问它:「Figure 01,你看到了什么?」
思索几秒后,它张口说话了:「我看到桌子中间的盘子中,放了一只苹果,沥水架上有几个盘子和一个杯子。我还看到你站在旁边,你的手放在桌子上。」
小哥接着问:「我能吃点东西吗?」Figure 01回答:「当然!」然后抬起手,拿起一个苹果递给他。下面,更高能的来了!小哥直接把一堆垃圾哗啦啦倒在Figure 1面前,然后问它,你能不能一边给我解释下刚才为什么会这么做的原因,一边把这些垃圾收拾干净呢?Figure 01一边有条不紊地把筐子拉到自己面前,把垃圾一个个捡进筐子里,一边回答道,「我给你苹果,是因为这是我在桌上唯一看到的能吃的东西」。接下来,小哥又向Figure 01发出了灵魂拷问:「根据你眼前所见的场景,你觉得你眼前的这些盘子应该放到哪里呢?」Figure 01自信满满地表示:像桌上这些盘子啊杯子啊,应该放到旁边的沥水架上。小哥表示,那你就帮忙放一下吧?五秒后,Figure 01抬起右手,用敏捷灵活的动作,一个一个地把盘子和杯子放到了该放的地方。最后,小哥还让Figure 01给自己的表现来个复盘:「你觉得你表现得如何?」Figure 01很满意地说:「我觉得我做得很好,我把苹果递给了你,把垃圾丢掉了,桌上的东西也都放到了该放的地方。」小哥向它表示了感谢后,Figure 01甚至还伸开双臂,耸了耸肩,表示有什么忙要帮的,欢迎随时来找我。创始人亲自下场解释原理
- 描述它看到的一切情况
- 规划未来的行动
- 思考输入的视觉和文字信息
- 语音输出它的推理结果放出的这个视频中,所有的行为都是学习的(不是远程操作的),并且没有加速播放。如下图所示,Figure AI用机器人摄像头采集的视频信息,加上麦克风捕获的语音中的文本转录到由OpenAI提供的多模态大模型中,理解图像和文本。模型能够处理对话的完整记录,包括之前的历史视频,得到语言响应,然后通过文本到语音的方式传回给人类。同时模型还负责规划机器人运行哪些学习的闭环行为来完成给定的命令,将特定的神经网络权重加载到GPU上并执行策略。将Figure 01连接到完成预训练的多模态模型,为其提供了一些有趣的新功能。Figure 01在OpenAI的大模型的加持下可以做到:- 描述机器人周围的环境;- 决策时使用常识推理。比如,「餐桌上的盘子和杯子很可能之后要放到烘干架上」;- 把「我饿了」这样模棱两可的高层次请求转化为「递给对方一个苹果」等与具体情况相适应的行为;- 用通俗易懂的英语描述为什么它执行某个特定的动作。例如,「这是我能从餐桌上为你找到的唯一能吃的东西」。理解对话内容的大模型为Figure 01提供了强大的短期记忆。比如,如果人类提出问题:「你能把它们放在那里吗?」 「它们」指的是什么?「那里」又在哪里?正确回答需要机器人拥有思考记忆的能力。通过预训练的模型分析对话的图像和文本历史记录,Figure 01可以快速形成并执行规划:1)将杯子放在晾衣架上;2)将盘子放在晾衣架上。所有行为均由神经网络视觉运动Transformer进行策略驱动,将像素直接映射到动作。神经网络以10hz的频率接收机器人拍到的图像,并以200hz的频率生成 24-DOF动作(手腕姿势和手指关节角度)。这些动作作为高速「锚点(setpoints)」,供更高速率的全身控制器跟踪。不同的部分各司其职:- 云端的预训练模型对图像和文本进行常识推理,以得出高级规划;- 学习的视觉运动策略执行规划,执行难以手动指定的快速反应行为,例如把一个袋子折叠成任何需要的形状;- 同时,全身控制器确保安全、稳定的动作。例如,保持平衡。最后Corey Lynch强调,即使就在几年前,业界都认为人形机器人进行规划和执行自己学习的行为,以及与它进行完整的对话的场景,将是几十年之后才会发生的事情。显然,因为大模型的出现,一切都被加速了。Figure AI是目前将AI能力延伸到现实世界中做得最好的地方。Figure创始人:绝不把人形机器人用于军事
Figure的目标是:开发对人类产生积极影响的通用类人机器人,并为子孙后代创造更美好的生活。这些机器人可以消除对不安全和不受欢迎的工作的需求,最终让我们过上更快乐、更有目的的生活。Adcock表示,公司接下来还要艰苦奋斗几十年,需要一支冠军团队、数十亿美元的投资和工程创新。「我们的风险极高,成功机会极低」。同时,他还宣称——
我们不会将人形机器人用于军事或国防应用,也不会将其用于任何需要对人类造成伤害的角色。我们的重点是为人类不想从事的工作提供资源。现在,随着LLM的进步,全世界机器人都疯狂开卷了!除了特斯拉的擎天柱Optimus,与亚马逊合作的人形机器人初创公司Agility,还有刚挖来前Optimus科学家领导开源机器人项目的Hugging Face,以及昨天刚成立的初创公司Physical Intelligence。
「青春版马斯克」帮人类连接天网