从ALOHA迈向Humanplus，斯坦福开源人形机器人，「高配版人类」上线

机器之心报道

编辑：陈萍、亚鹂

人形机器人的「Hello World」。

说起前段时间斯坦福开源的 Mobile ALOHA 全能家务机器人，大家肯定印象深刻，ALOHA 做起家务活来那是有模有样：滑蛋虾仁、蚝油生菜、干贝烧鸡，一会儿功夫速成大餐：

研究团队来自斯坦福，由三个人共同打造完成。Zipeng Fu 为项目共同负责人，他是斯坦福大学 AI 实验室的计算机科学博士生，师从 Chelsea Finn 教授；Tony Z. Zhao 也是斯坦福大学的计算机科学博士生，导师也是 Chelsea Finn。

现在，继 ALOHA 之后，Zipeng Fu、Chelsea Finn 等人又联合推出了一款新的机器人研究 HumanPlus，不过这次 Tony Z. Zhao 没有出现在作者栏里，而是在致谢名单上。

HumanPlus 团队成员。

这款机器人能够自主的叠衣服，然而即使是 2 倍速，动作看起来也是慢吞吞：

充当仓库的搬运工，准确的将物品放置在机器狗背上的篮子里：

给大家表演个向后跳的节目，就像人类一样，扎个马步让自己稳妥一点：

可能你都不会弹的钢琴，但这次机器人会了，它不是乱弹一通，仔细听还能听出旋律来：

化身你的乒乓球搭子，来上几个回合没有问题：

像个电脑新手一样，在键盘上努力的敲出「HELLO WORLD」

打起拳来也是有模有样

值得一提的是，这次斯坦福团队公布了论文、机器人材料清单、数据集以及代码。正如 Tony Z. Zhao 所表示的「这是唯一一篇完全开源的论文，虽然我们处在一个前沿的研究时代，但充满了闭源、竞争等其他因素的限制，这个领域需要更多开放的科学，而不是酷炫的演示。」

根据材料清单我们推测完成机器人组装大约花费 107,945 美元。

研究介绍

论文地址：https://humanoid-ai.github.io/

论文标题：HumanPlus: Humanoid Shadowing and Imitation from Humans

长期以来，人形机器人因其类似人的形态而备受关注。这主要得益于我们周围的环境、工具等都是依据人类形态而设计的，因此人类大小的机器人在解决人类从事的任务上潜力巨大。

通过模仿人类，人形机器人为实现通用机器人智能提供了一个充满希望的途径。

然而，在实际操作中，要让人形机器人从以自我为中心的视角学习自主技能仍然面临挑战。这主要是因为人形机器人在感知和控制方面的复杂性，以及其在形态结构和执行机制上与人类之间仍存在的物理差异。此外，还缺乏一套数据处理流程，可以让人形机器人通过以自我为中心的视角学习自主技能。

基于此，斯坦福团队开发了一个全栈系统，用于人形机器人从人类数据中学习运动和自主技能。该研究首先基于 40 小时的人体运动数据集，通过强化学习在模拟环境中训练低级策略。然后将这一策略迁移到现实世界中，从而允许人形机器人仅使用 RGB 相机实时跟踪人体和手部运动，称为 Shadowing 系统。

通过 Shadowing，人类操作员可以远程操作人形机器人来收集全身数据，以便在现实世界中学习不同的任务。基于收集到的数据，随后进行有监督的行为克隆，使用以自我为中心的视角来训练机器人的技能策略，使人形机器人能够通过模仿人类的技能自主完成不同任务。

研究者在定制的 33 自由度、高 180cm 的人形机器人上演示了该系统，通过多达 40 次演示，该系统可以自主完成诸如穿鞋站立和行走，从仓库货架上卸载物品，折叠运动衫，重新排列物品，打字以及与另一个机器人打招呼等任务，成功率为 60-100%。

该研究团队发布的机器人如图 2 左侧所示，具有 33 个自由度，其中包括两个拥有 6 自由度的手指、两个 1 自由度的手腕和一个有 19 自由度的身体（包含：两个 4 自由度的手臂、两个 5 自由度的腿和一个 1 自由度的腰部）。

该系统基于 Unitree H1 机器人构建，每只手臂集成了 Inspire-Robots RH56DFX Hand，通过定制手腕连接，其中每个手腕配有一个 Dynamixel 伺服电机和两个推力轴承。手和手腕均通过串行通信控制。

机器人头部安装了两个 RGB 网络摄像头（Razer Kiyo Pro），向下倾斜 50 度，瞳距为 160 毫米。手指可以施加高达 10 牛顿的力，而手臂可以举起重达 7.5 公斤的物品。腿部的电机在操作过程中可以产生高达 360Nm 的瞬时扭矩。图 2 右侧提供了该机器人的其他技术规格信息。

人体部分和手部动作使用 SMPL-X 模型进行参数化。为了重定向身体姿态，研究人员将 SMPL-X 对应的欧拉角复制到类人模型中，即髋部、膝盖、脚踝、躯干、肩膀和肘部。机器人的每个髋部和肩部关节由 3 个正交旋转关节组成，因此可以视为一个球形关节。机器人的手指有 6 个自由度：每个食指、中指、无名指和小指各 1 个自由度，大拇指 2 个自由度。为了重定向手部姿势，他们使用中间关节的旋转来映射每个手指的对应欧拉角。并且通过使用前臂和手的全局方向之间的相对旋转，计算 1 自由度的手腕角度。

如图 3 所示，身体姿势估计和重定向在 NVIDIA RTX4090 GPU 上以每秒 25 帧的速度运行。

实时手部姿势估计和重定向：该团队使用 HaMeR——一个基于 Transformer 的手部姿态估计器，通过单个 RGB 摄像头进行实时手部姿态估计。手部姿势估计和重定向在 NVIDIA RTX4090 GPU 上以每秒 10 帧的速度运行。

该研究将低级策略 Humanoid Shadowing Transformer 制定为仅解码器的 Transformer，如图 4 左侧所示。

在每个时间步中，策略的输入是人形机器人的本体感知和目标姿态。策略的输出是人形机器人身体关节的 19 维关节位置设定点，这些设定点随后通过 1000Hz 的 PD 控制器转换为扭矩。

随机化模拟环境和人形机器人的物理参数见表 2。

如图 3 所示，研究者使用单个 RGB 摄像头实时估计人体和手部姿态，并将人体姿态重定向为类人目标姿态。

如图 1 所示，人类操作员站在人形机器人附近，将他们的实时全身运动投射到人形机器人上，并使用视线观察人形机器人的环境和行为，确保远程操作系统反应灵敏。

在被远程操作时，人形机器人通过双目 RGB 摄像头收集第一视角视觉数据。通过 shadowing，研究人员为各种现实场景任务提供了一条高效的数据收集管道，从而避免了模拟环境中真实 RGB 渲染、精确软体对象模拟和多样化任务规范的挑战。

与其他远程操作方法相比，Shadowing 系统更具优势。

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

从ALOHA迈向Humanplus，斯坦福开源人形机器人，「高配版人类」上线

相关推荐