夕小瑶科技说 原创
作者 | ZenMoore相信大家对 SAM[1] 并不陌生,它是 Meta 此前发布的 Segment Anything Model (分割一切模型)。一经发布便火遍全网震惊世界,史称“视觉领域的 ChatGPT 时刻”。
正如 ChatGPT 出现后,很多 NLP 的任务都离不开 ChatGPT 等 LLM 的辅助;视觉也是一样,很多 CV 的新工作都离不开 SAM 的辅助。
但笔者一直好奇,什么时候这位视觉霸主,可以和语言霸主 ChatGPT 碰一碰来个联姻?或许这会是多模态大模型的又一个里程碑?
FYI: 目前多模态大模型的瓶颈很大程度上来自于视觉编码器组件。
所以,当笔者看到 SAM-CLIP 的时候,眼前一亮!这是 SAM 进军多模态基础模型的第一步,也是关键的一步!
来!我们看看 SAM-CLIP 做了什么...
论文标题:SAM-CLIP : Merging Vision Foundation Models Towards Semantic and Spatial Understanding
论文链接:
https://arxiv.org/abs/2310.15308
SAM[1] 顾名思义,是一个专门用来进行图像分割的模型,如下图 1 所示:
▲图1:SAM 模型结构以及功能展示。SAM 在海量的分割数据集上进行了训练,具有极强的图像理解和分割能力,但是,SAM 因为没有太多文本信息的加成,学到的更多是空间理解能力 (spatial understanding),会看不会想。
而 CLIP[2] 就不一样了。如图 2 所示,它是一个和文本编码器对齐的模型。也就是说,它的视觉组件学到的更多是语义理解能力 (semantic understanding),会想不会看。
▲图2:CLIP 模型结构和原理 (对比学习预训练)。因此,两个模型虽然都具备图像理解能力,但却着重于不同的方面:SAM 更偏视觉一些,强调局部性和空间能力;CLIP 更偏语言一些,强调整体性和语义能力。通过两个模型的融合,取长补短,打造一个兼具两类特性的视觉编码器,便是本文联姻两大模型的最大动机。
更进一步地,目前火出圈的多模态大模型如 GPT-4V 的开源平替 LLaVA, Mini-GPT4, BLIP-2 等,其原理都需要依赖一个和文本语义特征空间对齐的视觉编码器充当眼睛,一般用的都是 CLIP 及其衍生模型。这也是为什么 SAM-CLIP 很可能给多模态基础模型带来新的增长的原因。
总的来说,本文基于持续学习 (continual learning) 和知识蒸馏 (knowledge distillation) 两个方法合并两个模型。如图 3 所示。
▲图3:SAM-CLIP 方法原理。由于 CLIP 模型的既定图像分辨率的限制,本文不采取“向 CLIP 合并 SAM”的做法,而采用了“向 SAM 合并 CLIP”。
先准备好经过训练的 SAM 和 CLIP 各组件:
以及 SAM 模型 和 CLIP 模型之前训练时候的数据的小子集(<10%), 和 .
这些数据作者称为 Merged-41M.
然后按照以下步骤执行:
是 SAM 模型的几何提示 (geometric prompt),,
论文中还有更多关于分辨率提升训练的技巧,推荐阅读原文的 Implementation Details.
从上表可见,合并 SAM 和 CLIP 之后的性能下降不是很明显,极大程度上在不损害各自能力的前提下,融合了两者的优势。
从上表可见,SAM-CLIP 的语义分割能力非常强劲。
上面的实验表明:
SAM-CLIP 的出现可能标志着多模态基础模型的又一个重要技术节点。通过将 SAM(具有强大的空间理解能力)与 CLIP(具有强大的语义理解能力)相结合,该模型成功地整合了两者的优势,创造出了一个兼具图像和文本理解的强大模型。基于持续学习和知识蒸馏的融合策略使得这一结合不仅实现了两者能力的整合,还确保了性能的最大化。实验结果也进一步证实了 SAM-CLIP 在图像分类、语义分割等任务上都表现出色。这为多模态研究开辟了新的可能性,展示了融合空间与语义理解能力在实际应用中的潜力。