【CVPR2023】多视图对抗判别器 MAD :挖掘未知领域目标检测中的非因果因素

论文题目:Multi-view Adversarial Discriminator: Mine the Non-causal Factors for Object Detection in Unseen Domains

代码:https://github.com/K2OKOH/MAD

导读

这篇论文探讨了一个具有挑战性的问题,即如何在实际应用中将目标检测模型适应到未知的目标领域。在传统的目标检测方法中,通常基于独立同分布(i.i.d.)的假设,即训练和测试数据集具有相同的分布。然而,在现实世界中,这一假设很难成立,因为目标领域的分布通常与源领域不同,这被称为域漂移,而目标检测模型在面对域漂移问题时性能急剧下降。

为了解决这个问题,本文提出了一种全新的方法,称为Multi-view Adversarial Discriminator(MAD),旨在从多个视图中鉴别特征,以去除非因果因素并净化共同特征。为了增加源领域的多样性,作者还引入了一个Spurious Correlation Generator(SCG)。通过将MAD与SCG结合,研究人员构建了一个能够有效处理域漂移问题的新型域泛化模型。

本文贡献

  • 非因果因素的识别和去除:MAD方法通过多个视角观察源域特征,并将这些特征映射到不同的潜在特征空间(视角),以识别和去除在不同视角中非显著的非因果因素。这有助于提取更纯净的领域不变特征。

  • 模块设计:MAD模型包括两个关键模块,一个是假相关生成器(SCG),用于增加源域数据的多样性,另一个是多视图域分类器(MVDC),用于将特征映射到多个潜在空间。这两个模块协同工作,提高了非因果因素的剔除能力。

  • 实验证明:论文通过在六个标准数据集上进行大量实验,证明了MAD算法在目标检测任务中具有最佳的泛化性能,相对于传统方法取得了显著的性能提升。

相关工作

域自适应目标检测(Domain Adaptive Object Detection,DAOD)

目标检测是计算机视觉中的一个重要问题,旨在在图像中定位和分类指定的对象实例。现代目标检测方法可以分为一阶段方法和二阶段方法。传统目标检测方法在实际应用中受到域偏移的困扰,导致性能下降。

为了减轻由领域偏移引起的性能下降,提出了许多域自适应目标检测方法(DAOD),这些方法通过领域对抗学习(DAL)从有标签的源域和无标签的目标域中训练模型,以缓解领域偏移问题。DAOD方法可以分为基于对抗的方法和基于重建的方法。前者引入了领域对抗学习结构来对齐特征图,后者通过生成类似目标域的伪样本来解决问题。然而,DAOD方法仍然存在一些问题,如需要额外收集无标签目标域数据,以及不能保证特征的因果性。因此,本文希望找到领域不变但具有因果性的特征,这些特征对于未知的目标域更具鲁棒性。

域泛化(Domain Generalization)

在图像分类领域,已经研究了域泛化问题很长时间。现有的域泛化方法可以分为三个类别:域增强方法、表示学习方法和学习策略。

  • 域增强方法旨在通过将图像转移到新域来增加源域的多样性。

  • 表示学习方法旨在从源域中提取领域不变的表示。

  • 学习策略方法试图通过元学习等策略来实现域泛化。

因果机制(Causal Mechanism)

基于因果机制的方法认为,基于统计相关性的预测是不可靠的,因为统计相关性包含了既包括因果关联又包括虚假的非因果关联。一些方法尝试寻找因果因素以提高方法的泛化性能。一些方法尝试恢复因果关联。尽管已有的方法主要关注寻找因果因素,但本文认为应更关注探索潜在的非因果虚假关联,因为传统DAL学习的领域不变表示通常会偏向于一个视角,即偏向于对数据的一个特定视角或角度进行建模,而忽略了多个不同视角或角度之间的变化。

本文方法

Multi-view Adversarial Discriminator(MAD)主要包括两个部分:

  • Spurious Correlation Generator (SCG):这是MAD方法的第一个模块,旨在增加源域的多样性,使潜在的非因果因素更加显著。

  • Multi-View Domain Classifiers (MVDC):这是MAD方法的第二个模块,旨在在图像和实例级别识别非因果因素,从而使领域对抗学习更加充分,并在不同视图中丰富非因果因素的信息。

Spurious Correlation Generator (SCG)

根据之前的研究(引用了文献[19]),图像的极高频和极低频部分包含更多的领域私有特征(非因果因素)。SCG的目标是通过保持因果特征不变,同时随机化非因果频率成分,以增加源域数据的多样性。

SCG模块的实现步骤:

  1. 频率谱提取:首先,使用离散余弦变换(Discrete Cosine Transform)来获取输入图像 x 的频率谱 F(x) 。在频率谱中,极高频和极低频部分包含更多的非因果因素。

  2. 带通滤波器:接下来,通过带通滤波器来在频域中分离非因果因素和因果因素。这个滤波器通过以下公式进行定义:

  3. 非因果因素随机化:然后,将这些非因果因素 S 按照高斯分布进行随机化,具体操作为:

    image-20230904205652021
  4. 逆余弦变换:最后,通过逆离散余弦变换(Inverse Discrete Cosine Transform)来获得具有潜在非因果因素的增强图像。

Multi-View Domain Classifiers (MVDC)

Domain Adversarial Learning (DAL)

DAL是一种标准方法,用于提取不同领域之间的共同特征,它通过最小化不同领域之间提取的特征之间的A-距离(Adversarial Distance)来实现这一目标。

DAL是特征提取器F与理想域分类器之间的极大极小优化问题:

其中,H表示所有可能的域分类器的假设集

标准的DAL方法试图最大化最优领域分类器 hi 对于特定领域的错误率。然而,由于单一领域分类器 h 依赖于最具有区分性的领域专有特征,它可能忽略了特征中的不显著领域特定组件,并错误地将这些非因果组件视为共同特征。

因此,作者将DAL方法扩展到多个视图。MVDC模块能够使用编码器 ei 将特征映射到多个潜在空间,并在每个空间中使用独立的领域分类器 hi 来识别特征。这些领域分类器鼓励特征提取器 F 忽略隐含的非因果因素,并学习领域不变但因果的特征。

领域不变但因果的特征:

  • "领域不变" 表示模型学习的特征在不同的数据域或情境中具有一定的一致性,不会受到数据域变化的影响。

  • "因果的特征" 指的是那些与模型任务的因果关系相关的特征,这些特征对于解决任务是有意义的,并且不是由于数据域的变化而引入的非因果或随机特征。

Classifier Structure
图6展示了MVDC的一个分支的结构,该分支代表了多个视图中的一个,用于观察特征。完整的MVDC结构包括M个分支,分别用于图像级特征和实例级特征。每个MVDC分支包含一个自编码器(auto-encoder)和一个分类器。编码器和解码器是每个分支的基本网络结构,用于将特征映射到不同的潜在空间以显示特征的不同特性。为了探索隐藏在整个图像和每个实例中的非因果因素,对于图像级和实例级,MVDC采用不同的设计。对于图像级,重点关注图像的全局非因果因素,如照明、颜色和背景纹理等。这些全局非因果因素在整个图像中相似,因此使用卷积层构建编码器和解码器。在每个分支中,使用不同的扩张率的扩张卷积(dilated convolution)来提取不同领域的不同非因果因素。对于实例级,使用全连接层来捕捉更多语义的非因果因素,例如每个实例的相机角度等。
Loss Function
为了使用MAD方法训练目标检测器,引入了几种损失函数:

重构损失:

领域分类器损失:

多视图差异损失:

一致性损失:

图像级和实例级的MVDC损失可以表示为:

MAD的总体损失:

实验

实验结果

根据表1,可以发现,本文方法在大多数跨领域场景下都能取得更好的结果。使用有限数量的源域进行训练,SCG 方法可以在更多方向上为现有图像添加非因果因素,更好地模拟潜在的目标域分布。

根据表 2 ,将MAD 与主流的 DG 和 DA 方法进行比较。在单源和多源 DG 设置下,本文方法在 DG 方法中具有最好的泛化能力,并在大多数类别中超过了多源方法。

根据表 3,作者在六个数据集上进行了进一步的实验,以验证他们的 MAD 方法的领域泛化能力。

根据表 4,作者还在 PACS 和 VLCS 数据集上进行了单源 DG 实验,与 ERM 和 DANN 框架进行了比较,结果显示了  MAD 方法的有效性。

图z7中展示了特征分布的可视化结果,不同子图显示了不同的特征分布情况。MAD 方法能够将特征映射到不同的空间,并在每个视角下很好地对齐不同的域。

消融实验

MAD 方法包括四个部分:伪相关生成器 (SCG)、图像级和实例级多视图领域分类器 (IMG, INS) 、一致性约束 (CST)。

通过逐步添加这些部分并观察 mAP 性能的变化来研究每个部分的贡献。作者在领域 C 上训练 MAD 并在其他领域 F、R、B 上进行了消融实验。

实验结果表明,SCG 引入了潜在的非因果相关因素,而 MVDC(包括 IMG、INS 和 CST 子模块)进一步挖掘并移除了领域中不显著的非因果相关因素。每个部分都在 MAD 方法中发挥了重要的作用,以提高模型的性能和泛化能力。

结论

本论文从因果机制的角度分析了领域对抗学习(DAL)的问题。作者指出,现有的领域泛化(DG)方法未能去除潜在的非因果因素,因为DAL受到领域判别器的单视图性质的影响。为了解决这个问题,作者提出了一个多视图对抗判别器(MAD),用于学习领域不变但因果的特征。MAD包括一个生成潜在伪相关性的SCG,以增加源域的多样性,以及构建多视图领域分类器的MVDC,以删除潜在的非因果因素。最终,MAD提纯了领域不变特征,增强了因果性。作者在用于跨领域目标检测的基准数据集上进行了广泛实验,验证了对未知领域的泛化能力。


☆ END ☆如果看到这里,说明你喜欢这篇文章,请转发、点赞。微信搜索「uncle_pn」,欢迎添加小编微信「 woshicver」,每日朋友圈更新一篇高质量博文扫描二维码添加小编↓

相关推荐

  • 终于,毕业了!
  • 当行政也背上了募资KPI
  • 百川智能获阿里腾讯等3亿美元投资;vivo AI助手Jovi Copilot曝光;商汤推医疗健康大模型“大医”丨AIGC大事日报
  • 硬刚GPT-4!百度文心大模型4.0开启邀测,10余款AI原生应用炸场,国家跳水队站台
  • 开源掌门人云端盛会,你准备好成为开源创新协作的奇点吗?
  • 突发!MIUI 时代落幕,雷军官宣:全新「小米澎湃OS」来了!
  • 自动驾驶数据不用愁!港中文等发布MagicDrive:日夜、雨晴、多视角全覆盖,人、物位置随意变更
  • GPT-4V多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,OpenAI总裁激动转发
  • 微软斯坦福新算法,杜绝AI灭绝人类风险!GPT-4自我迭代,过程可控可解释
  • 大模型无法替代码农!普林斯顿芝大惊人发现:GPT-4解决GitHub编程问题成功率为0
  • 这100道练习题,带你玩转Numpy!
  • 除了自动化,数据平台的业务能力还有哪些?
  • 如何基于Apache Doris构建高性能指标引擎?
  • 开源数据库 MatrixOne 的 HTAP 分布式架构演进
  • 数据科学的业务价值转化秘籍
  • MiniGPT-4升级到MiniGPT-v2了,不用GPT-4照样完成多模态任务
  • ChatGPT重压下,Stack Overflow裁员28%,为自家生成式AI工具开源节流
  • 清华团队攻破GPT-4V、谷歌Bard等模型,商用多模态大模型也脆弱?
  • 谷歌视觉语言模型PaLI-3问世,参数仅5B,更小、更快、更强
  • 全面超越AutoGPT,面壁智能联合清华NLP实验室开源大模型「超级英雄」XAgent