论文地址:
https://arxiv.org/abs/2305.14381
项目主页:https://c-mcr.github.io/C-MCR/
模型&代码地址:https://github.com/MCR-PEFT/C-MCR
介绍
多模态对比表示(MCR)旨在将来自不同模态的输入映射到共享的表示空间中。由于 CLIP 在视觉-语言领域的众多下游任务上展示出的令人印象深刻的泛化性能,学习更多模态间对比表征已成为一个热度研究问题,吸引了越来越多的关注。
然而,多模态对比表示的泛化能力主要受益于大量的高质量的数据对的可行性。这就严重限制了对比表征在缺乏大规模高质数据的模态上的发展。例如,音频-视觉数据对间的语义关联性往往是模糊的,3D 点云和文本的配对数据则是稀少的难以获得的。
不过,我们观察发现,这些缺乏直接配对数据的模态,往往和同一个中间模态具有大量高质量配对数据。例如,对于音频-视觉领域,虽然音频-视觉数据质量不可靠,但音频-文本和文本-图像的配对数据是充足且语义明确的。同样,虽然 3D 点云-文本配对数据很少,但 3D 点云-图像和图像-文本数据是广泛存在的。这些中间模态可以起到一个枢纽作用,来构建起更多模态的关联。
考虑到这些有着充足配对数据的模态间往往已经存在成熟的对比表征。本文提出了连接多模态对比表示(C-MCR),一种无需配对数据的训练高效的多模态对比表征学习方法。通过利用现有多模态对比表征间可能存在的重叠模态,来连接不同的对比表征,从而学到更多模态间的对齐关系。
我们的 C-MCR 具有两个优点:1. 灵活性:C-MCR 使缺乏配对的模态上进行 MCR 学习成为可能。更重要的是,C-MCR 将每个学到的多模态对比表征空间视为一个节点,将不同多模态对比表征之间的重叠模态视为枢纽。连接各个孤立的多模态对比表征极大地扩展了获得的多模态对齐知识,并能挖掘出更广泛模态间的对比表示;2. 高效性:由于 C-MCR 只是将已经学到的表示重新投影到一个新空间中,训练过程中只需学习两个简单的投影器,它的训练参数和成本非常的小。
方法
Figure 1 中以使用文本来连接 CLIP 中的图像-文本空间和 CLAP 中的文本-音频空间为例,介绍了 C-MCR 的算法流程。文本(重叠模态)的数据分别被 CLIP 和 CLAP 的文本编码器编码为文本特征:、,同时,对于图像和音频(非重叠模态),大量非配对单模态数据也分别被编码到 CLIP 和 CLAP 空间,构成 image memory 和 audio memory 1. 特征语义增强为了更鲁棒更全面的连接不同的空间,我们首先从两个角度来增强上述特征中的语义信息:模态间语义一致性和模态内语义完整性。
模态内语义完整性
Inter-MCR的对齐
为了建立两个对比表征空间的连接,我们只需要通过两个可学习的映射器 和 分别将 CLIP 和 CLAP 空间下语义增强后的特征映射到一个新的共享空间。该过程可以表示为:在新投影的空间中,我们的目标是确保来自不同对比表征空间的具有相似语义的特征彼此接近。来源于同一文本的 (,) 特征对是自然语义一致的,可以将其视为真实标签对。此外由于各个对比表征空间中本身内在的语义对齐性,因此源自于 (,) 的 (,) 可以被视为伪标签对。为了更鲁棒地连接两个对比表征空间,我们分别对齐 (,) 和 (,)。其损失函数被定义为:
这里的 和 是互补的。(,)之间的语义高度一致,因此从它们中学习到的连接更加可靠,但它们的对齐对于音频-视觉来说是间接的学习。另一方面,(,)则更直接地有利于学习音频-视觉表征,但其语义一致性不太可靠。同时,由于(,)中的语义一致性还是源自与(,),从伪对(,)学习到的连接仍然可以被理解是基于重叠模态(即,文本)的。
我们只保留将正例拉近的机制,而去除负对之间的排斥效应,最终的公式可以被简化为:
实验
我们通过连接 CLAP 的音频-文本空间和 CLIP 的文本-视觉空间来获得音频-视觉表征,连接 ULIP 的 3D 点云-图像空间和 CLIP 的图像-文本空间来获得 3D 点云-文本表征。为了实现这种连接,我们不需要任何配对数据,只需要易于获得的音频、文本、图像、3D 点云的单模态数据即可。同时,我们的方法只需训练两个映射器,且各个空间的特征也可以预先提取并离线储存。这些极大的降低了连接两个空间的数据和计算资源要求。
1. 测试任务
音视频下游任务:3D 点云下游任务:
3D 点云物体分类:我们在 ModelNet40 数据集上测试了 zero-shot 的 3D 点云物体分类。通过在 3D 点云-文本领域的实验来验证 C-MCR 学习方法的广泛有效性。
2. 实验结果
在 AVE 和 Flickr-SoundNet 上的 zero-shot 音频图像检索结果如下:在 MUSIC-Solo 和 VGGSS 上的 zero-shot 声源定位结果如下:在 Ex-VGGSS 和 Ex-FlickrNet 上的 zero-shot 反事实音频图像识别结果如下:
在 ModelNet40 上的 zero-shot 3D 点云分类结果如下:
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧