视觉霸主SAM和文图霸主CLIP强强联合!苹果联合UIUC,发布统一视觉模型SAM-CLIP,或掀起多模态新浪潮

夕小瑶科技说 原创
作者 | ZenMoore
相信大家对 SAM[1] 并不陌生,它是 Meta 此前发布的 Segment Anything Model (分割一切模型)。一经发布便火遍全网震惊世界,史称“视觉领域的 ChatGPT 时刻”。

正如 ChatGPT 出现后,很多 NLP 的任务都离不开 ChatGPT 等 LLM 的辅助;视觉也是一样,很多 CV 的新工作都离不开 SAM 的辅助。

但笔者一直好奇,什么时候这位视觉霸主,可以和语言霸主 ChatGPT 碰一碰来个联姻?或许这会是多模态大模型的又一个里程碑?

FYI: 目前多模态大模型的瓶颈很大程度上来自于视觉编码器组件。

所以,当笔者看到 SAM-CLIP 的时候,眼前一亮!这是 SAM 进军多模态基础模型的第一步,也是关键的一步!

来!我们看看 SAM-CLIP 做了什么...

论文标题:SAM-CLIP : Merging Vision Foundation Models Towards Semantic and Spatial Understanding

论文链接:

https://arxiv.org/abs/2310.15308

SAM 为何要与 CLIP 联姻?

SAM[1] 顾名思义,是一个专门用来进行图像分割的模型,如下图 1 所示:

▲图1:SAM 模型结构以及功能展示。

SAM 在海量的分割数据集上进行了训练,具有极强的图像理解和分割能力,但是,SAM 因为没有太多文本信息的加成,学到的更多是空间理解能力 (spatial understanding),会看不会想。

而 CLIP[2] 就不一样了。如图 2 所示,它是一个和文本编码器对齐的模型。也就是说,它的视觉组件学到的更多是语义理解能力 (semantic understanding),会想不会看。

▲图2:CLIP 模型结构和原理 (对比学习预训练)。

因此,两个模型虽然都具备图像理解能力,但却着重于不同的方面:SAM 更偏视觉一些,强调局部性和空间能力;CLIP 更偏语言一些,强调整体性和语义能力。通过两个模型的融合,取长补短,打造一个兼具两类特性的视觉编码器,便是本文联姻两大模型的最大动机。

更进一步地,目前火出圈的多模态大模型如 GPT-4V 的开源平替 LLaVA, Mini-GPT4, BLIP-2 等,其原理都需要依赖一个和文本语义特征空间对齐的视觉编码器充当眼睛,一般用的都是 CLIP 及其衍生模型。这也是为什么 SAM-CLIP 很可能给多模态基础模型带来新的增长的原因。

SAM-CLIP “联姻”方法

总的来说,本文基于持续学习 (continual learning) 和知识蒸馏 (knowledge distillation) 两个方法合并两个模型。如图 3 所示。

▲图3:SAM-CLIP 方法原理。

由于 CLIP 模型的既定图像分辨率的限制,本文不采取“向 CLIP 合并 SAM”的做法,而采用了“向 SAM 合并 CLIP”。

先准备好经过训练的 SAM 和 CLIP 各组件:

  • SAM:图像编码器,提示编码器,轻量的分割掩码解码器 ()。
  • CLIP: 图像编码器,文本编码器。

以及 SAM 模型 和 CLIP 模型之前训练时候的数据的小子集(<10%),.

  • 使用 CC3M, CC12M, YFCC-15M, ImageNet-21k 中的图像构成 40.6M 无标签图像数据;
  • 使用 5.7% 的 SA-1B 数据。

这些数据作者称为 Merged-41M.

然后按照以下步骤执行:

  1. 本文的模型 的参数使用 SAM 的参数进行初始化。
  2. 使用 SAM 的掩码解码器初始化 SAM 头 ()参数。
  3. 随机初始化 CLIP 头 ()参数。
  4. 其他组件参数冻结不训练。
  5. Head Probing: 冻结 参数,只训练 . 使用余弦蒸馏损失在 上训练:.
  6. 多任务蒸馏:解冻所有头以及 进行训练。损失函数为:,其中,.

是 SAM 模型的几何提示 (geometric prompt),,

论文中还有更多关于分辨率提升训练的技巧,推荐阅读原文的 Implementation Details.

SAM-CLIP 效果如何

从上表可见,合并 SAM 和 CLIP 之后的性能下降不是很明显,极大程度上在不损害各自能力的前提下,融合了两者的优势。

从上表可见,SAM-CLIP 的语义分割能力非常强劲。

上面的实验表明:

  • SAM-CLIP 学到了更加丰富的图像表示;
  • SAM-CLIP 在图像分类任务上,取得了和 CLIP 不相上下的结果;
  • 同时使用两个头的话,SAM-CLIP 的语义分割能力得到了进一步增强。

小结

SAM-CLIP 的出现可能标志着多模态基础模型的又一个重要技术节点。通过将 SAM(具有强大的空间理解能力)与 CLIP(具有强大的语义理解能力)相结合,该模型成功地整合了两者的优势,创造出了一个兼具图像和文本理解的强大模型。基于持续学习和知识蒸馏的融合策略使得这一结合不仅实现了两者能力的整合,还确保了性能的最大化。实验结果也进一步证实了 SAM-CLIP 在图像分类、语义分割等任务上都表现出色。这为多模态研究开辟了新的可能性,展示了融合空间与语义理解能力在实际应用中的潜力。

参考资料

 [1]SAM: https://segment-anything.com/
 [2]CLIP: https://openai.com/research/clip

相关推荐

  • 一次出手3个项目,LP会不会觉得我太冲动了?
  • 🥇 2023人工智能年度评选!还没截止,别错过了 🤩
  • 百川智能推出全球最长上下文窗口大模型Baichuan2-192K,一次可输入35万字超越Claude2
  • 豆瓣9分线代教材免费了!斯坦福伯克利都在用,新版PDF直接下载
  • ChatGPT再进化!全工具All in One,网友:多少创业项目死于今天
  • 中文最强开源大模型来了!130亿参数,0门槛商用,来自昆仑万维
  • 科学春晚,还得是B站:稚晖君机械臂搭广寒宫,院士下半身直接消失
  • AI让霉霉说中文,口音那叫一个地道!背后的中国初创公司7个月收入百万美元
  • 国外Java工程师力证:GPT-4不能解决逻辑谜题,但确实具备推理能力
  • DALL·E 3=Midjourney+PS?OpenAI悄悄推出「种子」功能,生图之后还能精修
  • 多模态大模型幻觉降低30%!中科大等提出首个幻觉修正架构「Woodpecker」啄木鸟
  • GPT-4超豪华套餐上线,全新32K模型遭泄密!文件上传分析,模型自动选择,绝杀千家AI公司
  • 刚刚,百川智能Baichuan2-192K发布,上下文窗口全球最长!一次读完《三体》,拿下7个SOTA
  • 美团面试:Redis 除了缓存还能做什么?可以做消息队列吗?
  • Node.js 21发布,升级V8引擎,带来稳定的WebSteams模块和Test Runner
  • 技术与实体加速融合,企业转型的新挑战和新机遇在哪?
  • 11 月 19-20 日,一场真正的金融科技峰会来了 | FCon
  • 是时候基于云重新设计 Kafka 了!AutoMQ 如何实现 Kafka 十倍的降本增效
  • 疯狂马斯克的“极限”计划居然成功了?!“下云”后成本降低 60%,部分功能代码精简 90%,30 天急速迁移服务器
  • 大模型工程与应用