论文题目:Multi-view Adversarial Discriminator: Mine the Non-causal Factors for Object Detection in Unseen Domains
代码:https://github.com/K2OKOH/MAD
这篇论文探讨了一个具有挑战性的问题,即如何在实际应用中将目标检测模型适应到未知的目标领域。在传统的目标检测方法中,通常基于独立同分布(i.i.d.)的假设,即训练和测试数据集具有相同的分布。然而,在现实世界中,这一假设很难成立,因为目标领域的分布通常与源领域不同,这被称为域漂移,而目标检测模型在面对域漂移问题时性能急剧下降。
为了解决这个问题,本文提出了一种全新的方法,称为Multi-view Adversarial Discriminator(MAD),旨在从多个视图中鉴别特征,以去除非因果因素并净化共同特征。为了增加源领域的多样性,作者还引入了一个Spurious Correlation Generator(SCG)。通过将MAD与SCG结合,研究人员构建了一个能够有效处理域漂移问题的新型域泛化模型。非因果因素的识别和去除:MAD方法通过多个视角观察源域特征,并将这些特征映射到不同的潜在特征空间(视角),以识别和去除在不同视角中非显著的非因果因素。这有助于提取更纯净的领域不变特征。
模块设计:MAD模型包括两个关键模块,一个是假相关生成器(SCG),用于增加源域数据的多样性,另一个是多视图域分类器(MVDC),用于将特征映射到多个潜在空间。这两个模块协同工作,提高了非因果因素的剔除能力。
实验证明:论文通过在六个标准数据集上进行大量实验,证明了MAD算法在目标检测任务中具有最佳的泛化性能,相对于传统方法取得了显著的性能提升。
目标检测是计算机视觉中的一个重要问题,旨在在图像中定位和分类指定的对象实例。现代目标检测方法可以分为一阶段方法和二阶段方法。传统目标检测方法在实际应用中受到域偏移的困扰,导致性能下降。
为了减轻由领域偏移引起的性能下降,提出了许多域自适应目标检测方法(DAOD),这些方法通过领域对抗学习(DAL)从有标签的源域和无标签的目标域中训练模型,以缓解领域偏移问题。DAOD方法可以分为基于对抗的方法和基于重建的方法。前者引入了领域对抗学习结构来对齐特征图,后者通过生成类似目标域的伪样本来解决问题。然而,DAOD方法仍然存在一些问题,如需要额外收集无标签目标域数据,以及不能保证特征的因果性。因此,本文希望找到领域不变但具有因果性的特征,这些特征对于未知的目标域更具鲁棒性。在图像分类领域,已经研究了域泛化问题很长时间。现有的域泛化方法可以分为三个类别:域增强方法、表示学习方法和学习策略。
域增强方法旨在通过将图像转移到新域来增加源域的多样性。
表示学习方法旨在从源域中提取领域不变的表示。
学习策略方法试图通过元学习等策略来实现域泛化。
基于因果机制的方法认为,基于统计相关性的预测是不可靠的,因为统计相关性包含了既包括因果关联又包括虚假的非因果关联。一些方法尝试寻找因果因素以提高方法的泛化性能。一些方法尝试恢复因果关联。尽管已有的方法主要关注寻找因果因素,但本文认为应更关注探索潜在的非因果虚假关联,因为传统DAL学习的领域不变表示通常会偏向于一个视角,即偏向于对数据的一个特定视角或角度进行建模,而忽略了多个不同视角或角度之间的变化。
Multi-view Adversarial Discriminator(MAD)主要包括两个部分:
Spurious Correlation Generator (SCG):这是MAD方法的第一个模块,旨在增加源域的多样性,使潜在的非因果因素更加显著。
Multi-View Domain Classifiers (MVDC):这是MAD方法的第二个模块,旨在在图像和实例级别识别非因果因素,从而使领域对抗学习更加充分,并在不同视图中丰富非因果因素的信息。
SCG模块的实现步骤:
频率谱提取:首先,使用离散余弦变换(Discrete Cosine Transform)来获取输入图像 x 的频率谱 F(x) 。在频率谱中,极高频和极低频部分包含更多的非因果因素。
带通滤波器:接下来,通过带通滤波器来在频域中分离非因果因素和因果因素。这个滤波器通过以下公式进行定义:
非因果因素随机化:然后,将这些非因果因素 S 按照高斯分布进行随机化,具体操作为:
image-20230904205652021逆余弦变换:最后,通过逆离散余弦变换(Inverse Discrete Cosine Transform)来获得具有潜在非因果因素的增强图像。
DAL是一种标准方法,用于提取不同领域之间的共同特征,它通过最小化不同领域之间提取的特征之间的A-距离(Adversarial Distance)来实现这一目标。
DAL是特征提取器F与理想域分类器之间的极大极小优化问题:
其中,H表示所有可能的域分类器的假设集
标准的DAL方法试图最大化最优领域分类器 hi 对于特定领域的错误率。然而,由于单一领域分类器 h 依赖于最具有区分性的领域专有特征,它可能忽略了特征中的不显著领域特定组件,并错误地将这些非因果组件视为共同特征。
因此,作者将DAL方法扩展到多个视图。MVDC模块能够使用编码器 ei 将特征映射到多个潜在空间,并在每个空间中使用独立的领域分类器 hi 来识别特征。这些领域分类器鼓励特征提取器 F 忽略隐含的非因果因素,并学习领域不变但因果的特征。
领域不变但因果的特征:
"领域不变" 表示模型学习的特征在不同的数据域或情境中具有一定的一致性,不会受到数据域变化的影响。
"因果的特征" 指的是那些与模型任务的因果关系相关的特征,这些特征对于解决任务是有意义的,并且不是由于数据域的变化而引入的非因果或随机特征。
重构损失:
领域分类器损失:
多视图差异损失:
一致性损失:
图像级和实例级的MVDC损失可以表示为:
MAD的总体损失:
根据表1,可以发现,本文方法在大多数跨领域场景下都能取得更好的结果。使用有限数量的源域进行训练,SCG 方法可以在更多方向上为现有图像添加非因果因素,更好地模拟潜在的目标域分布。
根据表 2 ,将MAD 与主流的 DG 和 DA 方法进行比较。在单源和多源 DG 设置下,本文方法在 DG 方法中具有最好的泛化能力,并在大多数类别中超过了多源方法。
根据表 3,作者在六个数据集上进行了进一步的实验,以验证他们的 MAD 方法的领域泛化能力。
根据表 4,作者还在 PACS 和 VLCS 数据集上进行了单源 DG 实验,与 ERM 和 DANN 框架进行了比较,结果显示了 MAD 方法的有效性。
图z7中展示了特征分布的可视化结果,不同子图显示了不同的特征分布情况。MAD 方法能够将特征映射到不同的空间,并在每个视角下很好地对齐不同的域。
MAD 方法包括四个部分:伪相关生成器 (SCG)、图像级和实例级多视图领域分类器 (IMG, INS) 、一致性约束 (CST)。
通过逐步添加这些部分并观察 mAP 性能的变化来研究每个部分的贡献。作者在领域 C 上训练 MAD 并在其他领域 F、R、B 上进行了消融实验。
实验结果表明,SCG 引入了潜在的非因果相关因素,而 MVDC(包括 IMG、INS 和 CST 子模块)进一步挖掘并移除了领域中不显著的非因果相关因素。每个部分都在 MAD 方法中发挥了重要的作用,以提高模型的性能和泛化能力。
本论文从因果机制的角度分析了领域对抗学习(DAL)的问题。作者指出,现有的领域泛化(DG)方法未能去除潜在的非因果因素,因为DAL受到领域判别器的单视图性质的影响。为了解决这个问题,作者提出了一个多视图对抗判别器(MAD),用于学习领域不变但因果的特征。MAD包括一个生成潜在伪相关性的SCG,以增加源域的多样性,以及构建多视图领域分类器的MVDC,以删除潜在的非因果因素。最终,MAD提纯了领域不变特征,增强了因果性。作者在用于跨领域目标检测的基准数据集上进行了广泛实验,验证了对未知领域的泛化能力。