代码已开源:https://github.com/yaoyao-liu/CL-DETR
本文旨在解决增量目标检测(IOD)问题,模型需要逐步学习新的目标类别,同时不忘记先前学到的知识。在这个背景下,论文提出了一种创新性的方法,称为ContinuaL DEtection TRansformer(CL-DETR),它基于Transformer架构,并允许有效地使用知识蒸馏(KD)和示例重播(ER)等技术来解决增量学习中的挑战。该方法不仅解决了目标检测中的灾难性遗忘问题,还提供了在增量学习任务中更好的性能,并通过实验证明了其有效性。
Detector Knowledge Distillation (DKD) 损失:本文引入了一种名为Detector Knowledge Distillation(DKD)的损失,该方法改进了知识蒸馏(KD)的方式,解决了蒸馏知识与新证据之间的冲突,并忽略冗余背景检测。(此处的"新证据" 指的是在增量目标检测任务中,模型在学习新的目标类别时所观察到的有关这些新类别的训练数据和标签。)
Detector Knowledge Distillation
作者提出了一种新的知识蒸馏方法,称为Detector Knowledge Distillation(DKD)。该方法从旧模型中选择最有信心的前景目标预测,并将它们用作伪标签。作者故意忽略背景预测,因为它们不平衡,并且可能与当前阶段提供的新类别的标签相矛盾。
然后,将旧类别的伪标签与新类别的地面真实标签合并,并使用双分图匹配方法来训练模型,以使模型在联合标签上进行训练。这个方法继承了原始方法的良好特性,确保了标签和假设之间的一对一匹配,并避免了重复检测。
具体步骤如下:
从旧模型的预测中确定一个前景预测的子集 F。这些前景预测是被预测为目标物体的预测。
选择具有最高自信度的 K 个预测,形成 F 的子集 P。这些预测被认为是最有把握的前景预测。
进一步限制了前景预测的子集,即 P 的子集 Q ,确保这些预测与新类别的地面真实标签没有太多重叠。
保留了一个经过筛选的伪标签集合:
从当前标签 y 和旧模型生成的伪标签蒸馏成一个一致的标签集合y^distill,这个集合包括了新类别的对象标签、伪标签和足够多的背景标签,以确保 y^distill 包含 N 个元素:
最后,模型通过使用与标准损失相同的训练损失(eq. (1))来训练
与标准损失的主要区别在于,对于新标签的类别分布 pi 是确定性的,但对于伪标签则不是。因此,知识蒸馏通过使用伪标签可以更全面地传递模型的知识,包括了模型的不确定性,以实现更好的知识传递和学习。
保持分布的校准Exemplar Replay(ER)方法的基本思想是存储一小部分样本示例(exemplars),然后在未来的训练阶段重放它们,这种思想已被证明在保留旧类别知识方面是有效的。但是,在IOD中,旧类别和新类别的注释之间存在严重的不平衡问题。因此,为了解决上述问题,作者提出了一种选择示例的算法,该方法步骤如下:选择样本来匹配训练分布:在每个训练阶段,算法会选择一组示例(exemplars),这些示例的选择是通过最小化示例子集与当前数据子集的类别分布之间的Kullback-Leibler散度来实现的:在每个训练阶段,新选择的示例子集与之前的示例子集进行合并,以形成一个新的示例子集。这确保了最终的示例子集的类别分布大致匹配整个训练数据集的类别分布。
使用平衡数据进行训练:在训练模型时,算法分两步进行。第一步,模型使用Detector Knowledge Distillation(DKD)损失函数在所有可用数据(包括当前数据子集
和示例子集)上进行训练。这一步可以看作是模型的初始训练,虽然使用了丰富的数据,但可能不太平衡。在第二步中,模型使用新的示例子集进行微调,而不使用当前数据子集。这一步的目标是进一步改进模型的校准性,因为示例子集已经与类别分布相匹配。两阶段设置(Two-phase setting):在两阶段设置中,研究人员比较了应用 CL-DETR 到 Deformable DETR 和 UP-DETR 模型的性能。这些设置分为两个阶段,每个阶段有不同数量的目标类别。实验结果表明,在这些设置中,CL-DETR 总体上表现优于其他现有的增量目标检测方法,包括最先进的方法[13]。
例如,在 70+10 和 40+40 的两阶段设置中,Deformable DETR 模型与 CL-DETR 的结合达到了最高的平均精度(AP),分别为 40.1% 和 37.5%。当第一阶段包含更多类别时,性能差距更大,这表明 CL-DETR 更容易受益于一个经过充分预训练的模型。
多阶段设置(Multiple-phase setting):在多阶段设置中,研究人员对 CL-DETR 进行了更多的评估,包括 40+20×2 和 40+10×4 这两个实验变种。实验结果显示,CL-DETR 相对于其他增量目标检测方法在这些设置中表现出更大的优势。随着阶段数量的增加,CL-DETR 的相对优势也增加。
例如,在 40+10×4 设置中,CL-DETR 将与方法 [13] 相比,将平均精度(AP)提高了 7.4 个百分点。这表明 CL-DETR 在更具挑战性的设置中表现更出色,因为在这些设置中,由于训练阶段数量较多,遗忘问题更为严重。
表 2 的1-4行:对于 DKD 方法的消融研究
表 2 的5-6行:对于 ER 方法的消融研究
表 3:伪标签选择策略的消融研究
表 3 的1-3行:选择最自信的非背景预测
表 3 的4-6行:使用预测分数的阈值进行预测