开放词汇3D物体检测新SOTA!港科大、华为联合发布CoDAv2



论文标题:

Collaborative Novel Object Discovery and Box-Guided Cross-Modal Alignment for Open-Vocabulary 3D Object Detection

论文链接:

https://arxiv.org/abs/2406.00830

代码主页:

https://github.com/yangcaoai/CoDA_NeurIPS2023



摘要

开放词汇 3D 物体检测(OV-3DDet)针对的是在 3D 场景中检测来自任意新类别列表的物体。如上图所示,模型仅由绿色框表示的基础类别(base category)的标注训练,但却可以检测出蓝色框表示的新颖类别(novel category)的物体。这仍然是一个非常具有挑战性的新问题。


在这项工作中,我们提出了 CoDAv2,这是一个统一的框架,旨在创新地解决有限基础类别条件下新颖 3D 物体的定位和分类问题。对于定位,我们提出的 3D 新颖物体发现(3D novel object discovery, 3D-NOD)策略利用 3D 几何先验和 2D 开放词汇语义先验在训练期间发现新物体的伪标签。


3D-NOD 进一步扩展了一个数据丰富策略(Enrichment),显著增加了训练场景中新颖物体的分布,然后提高了模型定位更多新物体的能力。带有 Enrichment 策略的 3D-NOD 被称为 3D-NODE。


对于分类,发现驱动的跨模态对齐(Discovery-driven cross-modal alignment, DCMA)模块将 3D 点云和 2D/ 文本模态的特征进行对齐,采用类不可知和类特定的对齐方式,这些对齐方式经过迭代细化,以应对不断扩展的物体词汇表。此外,2D 框指导提高了模型在复杂背景噪声中的分类准确性,这被称为 Box-DCMA。


广泛的评估证明了 CoDAv2 的优越性。CoDAv2 的表现大幅超过了最佳性能方法(在 SUN-RGBD 上的 AP_Novel 为 9.17 vs. 3.61,在 ScanNetv2 上为 9.12 vs. 3.74)。



方法

上图展示了 CoDAv2 的整体框架,该框架的检测 backbone 选择了 3DETR,采用其编码器和解码器网络。在这个设置中,物体查询和点云特征由解码器处理,以细化查询特征,然后将这些特征引导到3D物体的分类和定位头。


我们提出了一种新的方法,3D 新颖物体发现(3D-NOD),该方法利用预测中的 3D 几何先验和预训练 CLIP 模型中的 2D 开放词汇语义先验,促进在训练阶段发现新颖物体。在此基础上,我们设计了 3D 新颖物体丰富(Enrichment)方法来扩展 3D-NOD。此方法在整个训练过程中维护一个在线新颖物体数据池,并通过从该池中采样的新颖物体来增强训练场景。


带有丰富策略的 3D-NOD 被统称为 3D-NODE。发现的新颖框标签也被收集到一个在线新颖框标签池中,以支持我们的发现驱动的跨模态对齐(DCMA),该对齐包括类不可知蒸馏(class-agnostic distillation)和类特定的对比对齐(class-specific contrastive alignment)。3D-NOD 和 DCMA 之间的协同作用通过端到端的方式促进了有效的新颖物体检测和分类。


此外,我们提出用 2D 框指导扩展 DCMA,称为 Box-DCMA,该方法通过来自 OV-2DDet 模型的预测 2D 框增强了区分背景框和前景框的能力。

上图展示了 Box-DCMA。其由两个主要组件组成:类不可知蒸馏(class-agnostic distillation, 左面板)和类特定对比特征对齐(class-specific contrastive alignment, 右面板)。首先,从检测头预测的 3D 框被投影以获得 2D 图像物体区域。这些区域随后由 CLIP 图像编码器编码以生成相应的 2D 物体特征。接下来,这些从 CLIP 导出的 2D 特征和 3D 点云物体特征被输入到类不可知蒸馏模块中以实现特征对齐。


此外,通过 3D-NOD 动态更新的新颖框标签池在训练期间通过 3D-Box-guide FG Matching 将预测的 3D 前景物体框与前景类别文本对齐。背景区域使用 2D-Box-guide BG Matching 与背景类别文本对齐。我们对匹配的框执行对比对齐,以学习更具辨别性的 3D 物体特征。这些增强的 3D 物体特征随后有助于准确预测新颖物体。



实验

我们的实验在两个具有挑战性的 3D 物体检测数据集上进行,即 SUN-RGBD 和 ScanNetv2。SUN-RGBD 包含超过 5000 个训练样本,而 ScanNetv2 包含超过 12000 个训练样本。其中,SUN-RGBD 包含 10 类基础类别(base category)和 36 类新颖类别(novel category),ScanNetv2 包括 10 类基础类别和 50 类新颖类别。评估指标是交并比(IoU)阈值为 0.25 的 mAP。

上图是在 SUN-RGBD 和 ScanNetv2 上的效果对比,我们的 CoDA 和 CoDAv2 显著地领先了其他方法。其中,在 SUN-RGBD 数据集中,CoDAv2 比 3D-CLIP 高出超过 150%。同样地,在 ScanNetv2 数据集中,CoDAv2 比 3D-CLIP 高出超过 140%。这些优势充分证明了我们方法的有效性。

同时,我们也在 OV-3DET 的 setting 上进行了更多对比,如上图所示,在 ScanNetv2 数据集中,CoDAv2 模型实现了平均 AP 的显著提升,增加了 4.7 点,从而验证了我们方法的优越性。

上图是关于不同方法预测样本的对比。通过对前两列样本的比较可以观察到,借助我们 3D-NODE 的增强,CoDAv2 能够检测到更多的新颖物体,例如在 2D 彩色图像中由蓝色框标出的边桌。在分析后两列时,受益于我们的 Box-DCMA,CoDAv2 不仅识别出更多的新颖物体,例如由蓝色框标出的回收箱,还有效避免了引入额外的背景噪声框。



总结

在本文中,我们提出了一个统一的框架,称为 CoDAv2,以应对开放词汇 3D 物体检测(OV-3DDet)中的核心挑战,该挑战目标是同时定位和分类新颖物体。


为了实现 3D 新颖物体的定位,我们提出了 3D 新颖物体发现(3DNOD)策略,该策略利用 3D 几何先验和 2D 开放词汇语义先验,在训练期间增强新颖物体的发现。对于新颖物体的分类,我们设计了一个发现驱动的跨模态对齐模块(DCMA)。该模块结合了类不可知对齐和类区分对齐,以同步 3D、2D 和文本模态的特征。


进一步地,我们通过设计3D新颖物体丰富策略(Enrichment)和加入框指导(Box guidance)来增强我们的贡献。Enrichment 策略将新发现的新颖物体纳入训练 3D 场景中,从而增强模型检测新颖物体的能力,而 Box guidance 则在 DCMA 中设计,以提高背景与前景物体的区分能力。得益于我们的贡献,CoDAv2 在两个具有挑战性的数据集上,即 SUN-RGBD 和 ScanNetv2,显著优于表现最好的方法,超过 140%。

更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


···



相关推荐

  • 高效大模型答案抽取器xFinder:适用于各类LLM评估框架
  • 答案抽取正确率达96.88%,xFinder断了大模型「作弊」的小心思
  • 刚刚!Stable Diffusion 3 重磅开源,超全图像生成必备训练数据集、教程汇总
  • 字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果
  • 【机器学习】优化预测速度 部署机器学习模型的7个要点
  • 大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4
  • 公司现在只发50%的工资,我就出去面试!没想到碰上了领导,他说这公司不行,你不用面了!结果我面试后,HR给我涨薪30%。这是为啥
  • AI研究的主要推动力会是什么?ChatGPT团队研究科学家:算力成本下降
  • 网传南方医科大学老师为抢救患儿迟到29分钟,被举报扣款2000元?
  • RAG落地中的文档智能处理经验及6月份半月度大模型等进展分享回顾
  • 摸鱼网站精选分享第三番
  • 17岁中专女生姜萍拿下数学竞赛全球第12名!我试着做了这套题,给跪了...
  • 腾讯混元、北大发现Scaling law「浪涌现象」,解决学习率调参难题
  • KDD2024-WhoIsWho-Top3开源方案
  • VSCode无限画布模式(可能会惊艳到你的一个小功能)
  • 管理员如何踢掉登录用户?
  • 3D 版 SORA 来了!DreamTech 推出全球首个原生 3D-DiT 大模型 Direct3D
  • 2024阿里巴巴全球数学竞赛试题&答案
  • 65W!确实可以封神了!
  • Spring Boot集成vaadin快速入门demo