数据匮乏仍是通用具身智能面前的高墙吗？

机器之心PRO · 会员通讯 Week 28

---- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ----

1. 数据匮乏问题仍是通用具身智能面前的高墙吗？

具身智能离获得泛化能力缺什么/多少数据？数据和硬件的「鸡生蛋还是蛋生鸡问题」是什么？斯坦福团队如何在数据「昂贵」和「难用」间找到平衡？中国公司的机器人已经能泛化了？...

2. 24 年上半年中美科技巨头 AI 应用盘点，超级应用未来落在谁家？

24 年过半，AI 大模型应用卷到什么程度了？新增了多少 AI 应用？访问量如何？中美科技巨头重点发布的AI应用大盘点；科技巨头们的 AI 布局有哪些差异？AI 巨头们的下一枚棋子会落在哪？...

3. Anthropic CEO 访谈解读：AI 模型的训练成本将持续上涨

AI 模型的训练成本会越来越高？Anthropic CEO 在接受播客访谈时讲了哪些重点？为什么 Anthropic 格外关注模型的可解释性？如何平衡性能与成本？Anthropic 采取了哪些策略？在全球视野下，Anthropic 对于 AI 伦理与治理有哪些前瞻性思考？...

...本期完整版通讯含 3 项专题解读 + 29 项本周 AI & Robotics 赛道要事速递，其中技术方面 11 项，国内方面 10 项，国外方面 8 项。

本期通讯总计 27871 字，可免费试读至 12% 消耗 99 微信豆即可兑换完整本期解读（约合人民币 9.9 元）

要事解读① 数据匮乏仍是通用具身智能面前的高墙吗？

事件：具身智能所引起的关注与日俱增，大语言模型的突破让具身智能研究看到了希望，但训练具身智能大模型所需要的「数据」在哪的问题却从始至终阻挡在前。近期。MIT 博士生陈博远、上海交大教授卢策吾、北大 CGCS 助理教授王鹤博士均在不同场合分享了自己对数据问题的看法，而数据匮乏问题的高墙似乎不再看不到头。2024 年过半了，具身智能的数据匮乏还是没解决吗？1、MIT 博士生陈博远近期于知乎发布随笔文章，记录了他对自 2023 年起的具身智能的机遇与挑战的看法。文章中，他就当前以大模型做具身智能的思路展开为「大模型与大数据」，并针对「大数据」的问题展开了阐述。[1]① 陈博远指出，当我们讨论缺数据，真正缺乏的是包含动作模态的数据。② 他认为，只要有足够多的高质量机器人数据，机器人大模型实现接近通用的泛化性将是必然。但如何获取充足的机器人动作数据是不容乐观的问题。③ 他以自身在 DeepMind 实习期的论文举例，发现最好的多模态大模型都常常左右不分，以往机器人大模型实现的正确方向控制可能只是在有限的动作数据上过拟合而已。③ 他指出，当前工业界和学术界在解决机器人数据匮乏问题的努力可以概括为「灵巧性（dexterity）」与「泛化性（generalization）」两个维度。④ 灵巧性反映在单一场景和任务较为固定情况下机器人可完成任务的难度；泛化性则研究机器人在新场景下执行新任务的能力；让灵巧性和泛化性兼具是具身智能研究的终极目标。2、对于灵巧性，陈博远指出当前最流行的方向是模仿学习中的行为克隆，它依靠人工采集关节动作数据，再用监督学习的方法训练机器人，这些方法中的大多数需要给每个数据采集员配一台昂贵的机器人。① 此类工作的问题是人工采集动作数据的效率低，成本高，因此 demo 中模型泛化能力有限。② 如果要投入大量金钱用模仿学习的思路采集机器人大模型的数据，其成本高昂无法想象。（类比 Llama3 的指令微调用了一千万条人工标注的数据，机器人数据采集更贵，且预训练需要的数据是指令微调的千万倍。3、上海交大的卢策吾教授在 6 月初的一场访谈中强调了具身大模型当前关键问题是「数据魔咒」，并主张设计好模型框架，围绕构建包含物理客观事实和人类抽象概念理解的「世界模型」和稳健的执行技能两点来压缩数据训练空间，从而缓解对数据量的需求。（详见机器之心视频号：6 月 2 日「智者访谈」）① 卢策吾教授认为（机器人动作）数据采集以后会变成一个单独的学科，而具身智能的数据也存在许多研究方向。② 由于具身智能具备更多「思想性」，对数据的要求也不同。做数据收集器（卢教授称之为「数据母机」）涉及软硬件。选用什么样的框架，配合怎样的数据格式，如何对齐不同来源的数据均是需要关注的问题。4、银河通用机器人创始人、北大 CGCS 助理教授王鹤博士在 7 月 4 日 WAIC 的主题论坛上指出，目前面向通用机器人的具身多模态大模型的局限在于数据来源有限、很难高频输出动作。（详见机器之心视频号：7 月 4 日 2024 WAIC 人形机器人与具身智能发展论坛回放）。数据「昂贵」和「难用」间要如何取舍？硬件与数据间「鸡生蛋还是蛋生鸡的问题」要如何解决？陈博远在随笔中将探索具身智能大模型所需数据的工作分为「灵巧性」和「泛化性」两个维度，并指出在灵巧性方面，当前最流行的方向大多需要配备昂贵的机器人。而 Diffusion Policy 的论文作者一作迟宬也在近期的访谈中介绍了这类方法所面临的「两极分化」的问题。[2]1、迟宬在访谈中指出，当前在使用人类遥控机器人（human in the loop data collection）的数据收集路线上存在两种极端做法。2、一种方法是使用现成的人类视频（如 Youtube 视频）作为数据源的极端。这类数据不涉及机器人硬件，且理论上大量存在，但问题在于从视频训练的控制策略难以准确映射到现实机器人中。① 现有研究环境中的机器人与人类物理形态非常不同，即便能够从视频中提取人类动作，目前也没有特别好的办法将其映射到机器人身上。② 从视频中提取人类动作本身也是很难的问题。当下的方法可以提取出看似合理的动作，但真正的精确操控往往需要达到毫米级别，而如何获取如此精度的机器人动作仍是未解决的问题。3、另一种方法是采用与最终机器人完全相同的机器人进行数据收集的极端。这种模式的优势在于收集的数据不存在物理形态差异，确保数据收集和测试时的输入输出一致性，但会导致「鸡生蛋还是蛋生鸡的问题」。① 「鸡生蛋还是蛋生鸡的问题」指当没有好的数据集时难以造出好的机器人在实际环境中部署；而部署在实际环境的机器人就难以获得优质数据。4、迟宬所提到的「鸡生蛋还是蛋生鸡的问题」已经存在多年，包括他本人在内的研究者也在不断探索新的解决方案。① 迟宬曾在 2023 年底的一场访谈中分享了通过折中的方式解决上述极端情况的方法，而后在 2024 年 2 月发布论文，提出了让人手持低成本平行夹爪操作，从而采集数据的 UMI 方法。② UCSD 的程旭欣博士则探索了另一种做法。他在 2024 年 7 月提出了基于 VR头显的 Open-Television遥操作系统，可支持不同 VR 硬件平台来映射接入任意一种机器人，通过隔空操作来采集数据。③ 清华叉院的高阳博士团队提出了 ATM 模型，绕开了以往视频预测方法对训练数据的依赖，采用预测视频帧内任意点的未来轨迹为机器人提供演示，进而学习更稳健的视觉运动策略。（详情请见 Week 27 期会员通讯）采集数据全用机器人 or 全不用机器人，UMI 如何找到平衡？[3]《Universal Manipulation Interface：In-The-Wild Robot Teaching Without In-The-Wild Robots》于 2024 年 2 月 15 日上传 Arxiv，最新版更新于 3 月，现已被 RSS 2024 收录。该论文的共同一作迟宬和迟宬和许臻佳均在哥伦比亚大学获得博士学位，他们曾在宋舒然组进行机器人操纵和感知相关的研究。1、该工作提出了 UMI 通用操控接口，它是一种便携、直观、低成本的数据收集和策略学习框架。2、UMI 的演示接口设计包括手腕安装的相机、鱼眼镜头、侧镜和 IMU 感知跟踪，以及连续夹持器控制和基于运动学的数据过滤。① UMI 采用手持 3D 打印平行夹持器，配有软指和 GoPro 相机，用于捕捉动作和视觉信息。② UMI 使用 155 度鱼眼镜头增加视野范围，提供足够的视觉上下文，同时保持中心分辨率。③ UMI 通过侧镜创造隐式立体视觉，无须额外成本即可提供深度信息，同时利用 GoPro 内置 IMU 记录数据，结合视觉跟踪和惯性姿态约束，实现快速运动的精确跟踪。④接口最后会基于运动学的数据过滤，选择适合不同机器人实施的有效轨迹。3、研究者基于收集的数据训练，采用 Diffusion Policy 训练了一个视觉运动策略，该策略能够处理一系列同步观察（RGB 图像、末端执行器姿态和夹持器宽度）并输出一系列动作（末端执行器姿态和夹持器宽度）。4、基于 UMI 训练的模型在测试中表现优越，且具备一定泛化能力。① 在四个真实世界的机器人任务（单臂、双臂、动态和长视野的操控技能）中，模型均达到了 100%的成功率。② 当在 Franka Emika FR2 机器人上部署相同的策略检查点时，成功率为 90%。③ 模型在野外数据集上训练的模型在新环境和未见过的物体上分别达到了 70%和 75%的成功率，综合成功率为 71.7%。5、迟宬和许臻佳表示，UMI 的工作是希望能在「完全不使用机器人」和「使用完全一致的机器人」之间找到合适的平衡点。6、UMI 的核心是一个物理 API，在包含与机器人足够相似的物理形态的基础上，不会限制于具体的机器人形态，且成本更低。其优势具体可表现在三方面：① 优势之一在可移植性（Portability）。机器人需要运输的问题会导致获取多样化环境数据成本高昂，UMI 的手持设备便于携带，可以快速在新环境中开始数据收集，简化了获取真实世界数据的过程。② 优势之二在物理形态的相似性。学术界常用的研究机器人通常具有特定的物理形态，UMI 的设计在这种考虑下，记录的是夹爪的六维空间运动轨迹，而非具体的关节角度。这使 UMI 对机器人形态具备低关联性，适用任何具有六个自由度的机器人。③ 优势之三在数据收集的直观性。利用人类对夹子操作的直观理解，UMI 可以更快地收集数据，且能更有效利用人类经验。诸如在投掷方块和转动杯子的任务中，UMI 收集数据的速度是遥控操作机器人方式的 3 倍。遥操作不新鲜，为什么 Open-Television 用 VR 遥操采的数据更好用？[4]2024 年 7 月的论文《Open-TeleVision: Teleoperation with Immersive Active Visual Feedback》提出了基于 VR 的沉浸式遥操作系统，解决了以往方法需要操作者靠近机器人和视角空间差异等问题。该论文的共同一作之一程旭欣是 UCSD 博士生，由王小龙教授指导。他也是 2023 年人形机器人全身控制的（Expressive Whole-Body Control for Humanoid Robots）和四足狗跑酷（Extreme Parkour with Legged Robots）的作者。1、该工作提出的 Open-TeleVision 允许操作者以第一人称的视角感知机器人环境，并通过动作映射实现对机器人的精确操控。其特点在于沉浸式 3D 视觉、活动颈部、高帧率、低延迟和高效能的远程操作。① 传统遥操作需要构建与实际执行任务的机器人类似的硬件系统，成本较高。Open-television 通过适配不同的 VR 硬件平台和机器人，减少了硬件成本。② 传统方法中，操作人员看到的信息比机器人多，可能导致训练策略时的信息差异。Open-television 通过仿生的摄像头配置和活动颈部设计，提供了更自然的视觉体验。

数据匮乏仍是通用具身智能面前的高墙吗？

要事解读① 数据匮乏仍是通用具身智能面前的高墙吗？

相关推荐