论文标题:
MAAL: Multimodality-Aware Autoencoder-based Affordance Learning for 3D Articulated Objects
论文链接:https://openaccess.thecvf.com/content/ICCV2023/papers/Liang_MAAL_Multimodality-Aware_Autoencoder-Based_Affordance_Learning_for_3D_Articulated_Objects_ICCV_2023_paper.pdf
Affordance 即可供性,指环境属性使得个体的某种行为得以实施的可能性。在 3D 场景下,如果我们想要让机器人和环境中的物体做交互,让机器理解物体可供性是十分基础和必要的一个步骤。机器需要去理解物体在哪里可以施加作用力,并可以施加什么样的动作。例如,如果机器人需要操作桌面上的水瓶,它需要理解何处可以抓取和如何抓取,而后通过执行动作来移动水瓶。
进一步的,类似水瓶这样的简单物体并不要求机器有深刻的理解能力。它可以抓取瓶身、瓶颈等任意地方,都可以挪动瓶子。现实生活中,人类操作物体的需求要远比这复杂。我们会面临大量的,带有铰链的,有特殊结构的物体,比如柜子、水龙头、冰箱、洗衣机等等。这些物体存在相对复杂的内部构造,不仅仅是挪动整个物体,我们常常需要根据物体的内在结果来操作物体,比如打开柜门,按下按钮等等。这一系列带有铰链结构的,相对复杂的物体给机器人的理解和操作能力提出了更高的要求。
目前,一些针对于带铰链物体的可供性问题的研究工作已经展开。Where2act 提供了一个很好的 benchmark, 该工作提供了数据集、基准方法和评价指标等内容,为 3D 铰链物体的可供性问题的研究打下了基础。AdaAfford 更进一步,尝试去理解铰链物体的复杂的隐含的内部信息。通过多个 actor critic 网络,针对性的理解隐含信息和物体结构。
我们的工作进一步改进了可供性学习方法并使之更加高效。本文提出 Multimodality-Aware Autoencoder-based Affordance Learning(MAAL),其中主要提出两点改进:
基于 AE 的 MAAL 只需要一对 encoder 和 decoder,并不需要多个轮次多个阶段单独训练多个 actor 和 critic。整个训练过程可以一次完成,从而大大降低训练的时间。
2. MAAL进一步引入多模态学习模块,即 MultiModal Energized Encoder(MME)。之前的工作忽视了可供性问题中的多模态特性,3D 物体点云,机械臂动作所在的 SE(3) 空间,以及仿真获得的操作结果,三者的模态和数据分布并不一致。以往的工作没有特殊强调对于多模态数据的学习,往往使用简单直接的融合方法,将不同数据直接连接为一个向量送入网络学习。这一操作使网络难以高效的学习到不同模态的不同层次的信息。MME 对此提出针对性的设计,使得方法能够更有效的处理多模态信息并学习物体可供性。
本文提出的 MAAL 方法示意图如下:
其中包含三个模块:MME,action memory 和 action decoder。MAAL 的整体建构上,我们认为输入动作信息(gripper action,interact point),输入物体信息(object point cloud)和输入整体的交互信息(包含所有信息)都能够重建出当前输入的正确的动作信息。
因此,在模型中,encoder 会通过输入不同信息,分别输出三组不同的 query feature。三组 query feature 在同一个 action memory 中选择合适的 action memory feature。最后三组不同的 action memory feature 送入同一个 action decoder 得到重建的动作信息。
具体地,MME 的示意图如下:
MME 主要有两点:1. 不同于之前方法的简单前融合(early fusion)操作,我们使用相对更合理的中间层融合(intermediate fusion);2. MME 特别考虑不同模态间的交互,并设计有不同层级之间的特征融合。另外,考虑到用以选择的 action memory 对不同模态而言是通用的,因此最后的输出 query feature 的模块(action encoding module)也是 share weights 的。
接下来的 memory 部分,我们参考 memAE 在异常检测中的设计来实现。最后,在 decoder 部分,考虑到我们只需要重建 gripper action 而不需要记住所有的物体信息和交互点信息,这里设计了一个 shortcut 重新输入了point cloud feature 和交互点的信息。
在训练过程中,MAAL 只使用一个简单的重建损失来监督网络学习:
损失函数中,分别计算了不同模态的重建损失,并同时予以优化。
最后,在 MAAL 设计中,我们通过重建损失的大小来衡量当前 gripper action 的好坏。为了更加灵活的确定测试中的重建损失阈值,我们通过在 validation set 上的重建损失来训练一个 KNN model,并用于做测试。
在实验结果中,MAAL 也取得了较好的实验结果。
我们的多模态模块设计也切实的起到了很好的效果。通过更全面的考量多模态特性,MAAL 在 3D 可供性问题上的也获得了更好的效果。
此外,在训练时长上,MAAL 也体现出较大的优势:
而在可视化结果中,也较好的体现出 MAAL 习得 3D 物体可供性的有效性。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧