多模态技术目前被视为一个热门方向和重点。近三年的顶会上,多模态论文占比增长最高超10%,并增设了MMNLP、ViGIL等多模态研讨会与workshop。
可以说,如今的多模态还处在大爆发早期。在后GPT时代,多模态极有可能是科研与工程领域最大的机会。
打铁还需自身硬。想要在多模态领域拥有“技术壁垒”,同学们需要更多的知识储备与实战练习。
这里分享195篇多模态论文、3节多模态基础与2节Kaggle全程实战课、以及272页《多模态深度学习》综述书PDF。欢迎大家扫码领取。
《通关多模态基础与实战》课程大纲
多模态生成
-Image caption、 Image generation
-Video caption、Video generation
多模态深度学习
-多模态任务:视觉语言问答、多模态情感分析、对话系统...
-多模态技术:GAN、VAE、CLIP...
多模态Paper精读
-CLIP— 多模态领域鸿蒙之钟巨作
Kaggle实战:Shopee商品匹配大赛
-赛题介绍与Baseline讲解
-图像特征提取与图像检索
-文本特征提取与文本检索
-商品多模态匹配
-信息检索比赛复盘
-模型融合与集成
Kaggle实战:宠物预测大赛
-赛题介绍与Baseline讲解
-CV相关理论介绍及其代码讲解
-调参技巧与数据增强设计
-多模态特征聚合理论介绍
-CV和其他模态数据讲解
-比赛总结复盘
《多模态深度学习》PDF
2023年最新发布,概述了多模态深度学习中使用的SOTA方法,以克服来自非结构化数据和组合不同模态输入的挑战。
该书内容涵盖广泛且通俗易懂,无论作为深入学习还是知识扩展都是一本极好的书籍。共272页,可以扫描下方二维码下载。