开放词汇3D物体检测新SOTA！港科大、华为联合发布CoDAv2

论文标题：

Collaborative Novel Object Discovery and Box-Guided Cross-Modal Alignment for Open-Vocabulary 3D Object Detection

论文链接：

https://arxiv.org/abs/2406.00830

代码主页：

https://github.com/yangcaoai/CoDA_NeurIPS2023

摘要

开放词汇 3D 物体检测（OV-3DDet）针对的是在 3D 场景中检测来自任意新类别列表的物体。如上图所示，模型仅由绿色框表示的基础类别（base category）的标注训练，但却可以检测出蓝色框表示的新颖类别（novel category）的物体。这仍然是一个非常具有挑战性的新问题。

在这项工作中，我们提出了 CoDAv2，这是一个统一的框架，旨在创新地解决有限基础类别条件下新颖 3D 物体的定位和分类问题。对于定位，我们提出的 3D 新颖物体发现（3D novel object discovery, 3D-NOD）策略利用 3D 几何先验和 2D 开放词汇语义先验在训练期间发现新物体的伪标签。

3D-NOD 进一步扩展了一个数据丰富策略（Enrichment），显著增加了训练场景中新颖物体的分布，然后提高了模型定位更多新物体的能力。带有 Enrichment 策略的 3D-NOD 被称为 3D-NODE。

对于分类，发现驱动的跨模态对齐（Discovery-driven cross-modal alignment, DCMA）模块将 3D 点云和 2D/ 文本模态的特征进行对齐，采用类不可知和类特定的对齐方式，这些对齐方式经过迭代细化，以应对不断扩展的物体词汇表。此外，2D 框指导提高了模型在复杂背景噪声中的分类准确性，这被称为 Box-DCMA。

广泛的评估证明了 CoDAv2 的优越性。CoDAv2 的表现大幅超过了最佳性能方法（在 SUN-RGBD 上的 AP_Novel 为 9.17 vs. 3.61，在 ScanNetv2 上为 9.12 vs. 3.74）。

方法

上图展示了 CoDAv2 的整体框架，该框架的检测 backbone 选择了 3DETR，采用其编码器和解码器网络。在这个设置中，物体查询和点云特征由解码器处理，以细化查询特征，然后将这些特征引导到3D物体的分类和定位头。

我们提出了一种新的方法，3D 新颖物体发现（3D-NOD），该方法利用预测中的 3D 几何先验和预训练 CLIP 模型中的 2D 开放词汇语义先验，促进在训练阶段发现新颖物体。在此基础上，我们设计了 3D 新颖物体丰富（Enrichment）方法来扩展 3D-NOD。此方法在整个训练过程中维护一个在线新颖物体数据池，并通过从该池中采样的新颖物体来增强训练场景。

带有丰富策略的 3D-NOD 被统称为 3D-NODE。发现的新颖框标签也被收集到一个在线新颖框标签池中，以支持我们的发现驱动的跨模态对齐（DCMA），该对齐包括类不可知蒸馏（class-agnostic distillation）和类特定的对比对齐（class-specific contrastive alignment）。3D-NOD 和 DCMA 之间的协同作用通过端到端的方式促进了有效的新颖物体检测和分类。

此外，我们提出用 2D 框指导扩展 DCMA，称为 Box-DCMA，该方法通过来自 OV-2DDet 模型的预测 2D 框增强了区分背景框和前景框的能力。

上图展示了 Box-DCMA。其由两个主要组件组成：类不可知蒸馏（class-agnostic distillation, 左面板）和类特定对比特征对齐（class-specific contrastive alignment, 右面板）。首先，从检测头预测的 3D 框被投影以获得 2D 图像物体区域。这些区域随后由 CLIP 图像编码器编码以生成相应的 2D 物体特征。接下来，这些从 CLIP 导出的 2D 特征和 3D 点云物体特征被输入到类不可知蒸馏模块中以实现特征对齐。

此外，通过 3D-NOD 动态更新的新颖框标签池在训练期间通过 3D-Box-guide FG Matching 将预测的 3D 前景物体框与前景类别文本对齐。背景区域使用 2D-Box-guide BG Matching 与背景类别文本对齐。我们对匹配的框执行对比对齐，以学习更具辨别性的 3D 物体特征。这些增强的 3D 物体特征随后有助于准确预测新颖物体。

实验

我们的实验在两个具有挑战性的 3D 物体检测数据集上进行，即 SUN-RGBD 和 ScanNetv2。SUN-RGBD 包含超过 5000 个训练样本，而 ScanNetv2 包含超过 12000 个训练样本。其中，SUN-RGBD 包含 10 类基础类别（base category）和 36 类新颖类别（novel category），ScanNetv2 包括 10 类基础类别和 50 类新颖类别。评估指标是交并比（IoU）阈值为 0.25 的 mAP。

上图是在 SUN-RGBD 和 ScanNetv2 上的效果对比，我们的 CoDA 和 CoDAv2 显著地领先了其他方法。其中，在 SUN-RGBD 数据集中，CoDAv2 比 3D-CLIP 高出超过 150%。同样地，在 ScanNetv2 数据集中，CoDAv2 比 3D-CLIP 高出超过 140%。这些优势充分证明了我们方法的有效性。

同时，我们也在 OV-3DET 的 setting 上进行了更多对比，如上图所示，在 ScanNetv2 数据集中，CoDAv2 模型实现了平均 AP 的显著提升，增加了 4.7 点，从而验证了我们方法的优越性。

上图是关于不同方法预测样本的对比。通过对前两列样本的比较可以观察到，借助我们 3D-NODE 的增强，CoDAv2 能够检测到更多的新颖物体，例如在 2D 彩色图像中由蓝色框标出的边桌。在分析后两列时，受益于我们的 Box-DCMA，CoDAv2 不仅识别出更多的新颖物体，例如由蓝色框标出的回收箱，还有效避免了引入额外的背景噪声框。

总结

在本文中，我们提出了一个统一的框架，称为 CoDAv2，以应对开放词汇 3D 物体检测（OV-3DDet）中的核心挑战，该挑战目标是同时定位和分类新颖物体。

为了实现 3D 新颖物体的定位，我们提出了 3D 新颖物体发现（3DNOD）策略，该策略利用 3D 几何先验和 2D 开放词汇语义先验，在训练期间增强新颖物体的发现。对于新颖物体的分类，我们设计了一个发现驱动的跨模态对齐模块（DCMA）。该模块结合了类不可知对齐和类区分对齐，以同步 3D、2D 和文本模态的特征。

进一步地，我们通过设计3D新颖物体丰富策略（Enrichment）和加入框指导（Box guidance）来增强我们的贡献。Enrichment 策略将新发现的新颖物体纳入训练 3D 场景中，从而增强模型检测新颖物体的能力，而 Box guidance 则在 DCMA 中设计，以提高背景与前景物体的区分能力。得益于我们的贡献，CoDAv2 在两个具有挑战性的数据集上，即 SUN-RGBD 和 ScanNetv2，显著优于表现最好的方法，超过 140%。

更多阅读