计算机视觉(CV)一直是目前深度学习领域最热的研究领域,其是一种交叉学科包括计算机科学,从刚出炉的CVPR2024来看,目标检测、三维重建、自动驾驶、SAM、图像分类等依旧是时下大热门!
为了让大家进一步了解CV热门领域,我们联合高校教授、博导、顶会审稿人/workshop、大厂算法研究员,打造了2024CV最新热点系列课程,包含SAM、自动驾驶、三维重建、AIGC等热门方向,更有经典CV论文带读课,限时免费领!
扫码免费领取课程赠导师整理100+篇热门CV论文&课程ppt原稿
(文末福利)
部分ppt原稿展示
cv系列课程概览
1
“分割万物”的超强SAM模型
1.SAM模型的劣势
2.SAM模型改进方向
3.SAM模型改进方法
2
通用医疗智能AI新里程
1.AIGC+医学图像的火花
2.大模型时代下的医学图像研究
3.医学AI的未来: 通用医学智能
3
一节课吃透感知知识蒸馏
1.知识蒸馏背景
2.知识蒸馏作用机制
3.知识蒸馏方法
4.知识蒸馏应用进展
5.CVPR22论文讲解
4
BEV视角-开启自动驾驶感知新时代
1.BEV视角-开启自动驾驶感知新时代
2.自动驾驶-多传感器融合最新研究进展
3.自动驾驶未来研究方向和热点
5
三维重建NeRF技术引爆CVPR
1.无需相机位姿的NeRF三维重建
2.高质量的NeRF三维重建
3.CVPR2023三维重建方向顶会论文带读
扫码免费领取课程赠导师整理100+篇热门CV论文&课程ppt原稿
部分热门CV论文展示
EfficientSAM 这篇工作以5/5/5满分收录于CVPR 2024!作者在某社交媒体上分享了该结果,如下图所示:
在最近的一项研究中,Meta 研究者提出了另外一种改进思路 —— 利用 SAM 的掩码图像预训练 (SAMI)。这是通过利用 MAE 预训练方法和 SAM 模型实现的,以获得高质量的预训练 ViT 编码器。
这一方法降低了 SAM 的复杂性,同时能够保持良好的性能。具体来说,SAMI 利用 SAM 编码器 ViT-H 生成特征嵌入,并用轻量级编码器训练掩码图像模型,从而从 SAM 的 ViT-H 而不是图像补丁重建特征,产生的通用 ViT 骨干可用于下游任务,如图像分类、物体检测和分割等。然后,研究者利用 SAM 解码器对预训练的轻量级编码器进行微调,以完成任何分割任务。
为了评估该方法,研究者采用了掩码图像预训练的迁移学习设置,即首先在图像分辨率为 224 × 224 的 ImageNet 上使用重构损失对模型进行预训练,然后使用监督数据在目标任务上对模型进行微调。
通过 SAMI 预训练,可以在 ImageNet-1K 上训练 ViT-Tiny/-Small/-Base 等模型,并提高泛化性能。对于 ViT-Small 模型,研究者在 ImageNet-1K 上进行 100 次微调后,其 Top-1 准确率达到 82.7%,优于其他最先进的图像预训练基线。
研究者在目标检测、实例分割和语义分割上对预训练模型进行了微调。在所有这些任务中,本文方法都取得了比其他预训练基线更好的结果,更重要的是在小模型上获得了显著收益。
我们列出了十个流行的计算机视觉项目以及它们的可用数据集,供初学者学习:1、 颜色检测在此项目中,模型的目标是检测图像中的每种颜色。模型的目标是检测图像中的每种颜色,一种流行的颜色检测项目是使用OpenCV的隐形斗篷。数据集:Google-512数据集链接:https://cvhci.anthropomatik.kit.edu/~bschauer/datasets/google-512/2、 边缘检测边缘检测是一种图像处理技术,用于检测图像中的边缘以确定图像中对象的边界。该技术通过检测亮度不连续确定边缘。一些常见的边缘检测算法包括Canny,模糊逻辑方法等。数据集:USC-SIPI图像数据库链接:http://sipi.usc.edu/database/3、 人脸检测在此项目中,该模型的目标是通过映射视频或图像中的面部特征来检测人的面部。这些项目涉及多个步骤,例如映射功能,使用主成分分析(PCA),将数据与数据库进行匹配等等。数据集:IMDB Wiki数据集链接:https://data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki/4、 手势识别手势识别是人机交互的关键主题之一。在该项目中,需要执行几项任务。这包括要从背景中提取的手部区域,然后将手掌和手指分段以检测手指的运动。手势识别的应用可以用于虚拟现实游戏,手语等。数据集:Microsoft Kinect和Leap Motion数据集链接:https://lttm.dei.unipd.it/downloads/gesture/5、 人员计数此项目的目的是计算通过特定场景的人数。该项目的应用包括民用监视,行人跟踪,行人计数等。数据集:人员计数数据集(PCDS)链接:https://github.com/shijieS/people-counting-dataset6、 图像分割图像分割是图像处理的一项必不可少的技术。该技术可用于计算机图形学,对象合成等。该项目的目的是基于分割算法在一组图像上的多个区域上设计,实现和测试。数据集:伯克利细分数据集和基准链接:https://www2.eecs.berkeley.edu/Research/Projects/CS/vision/bsds/7、 图像分类该项目的目的是对定义了一组目标类别的图像进行分类。这是一个有监督的学习问题,其中训练模型以使用标签图像识别类别。数据集:CIFAR-10数据集链接:http://www.cs.toronto.edu/~kriz/cifar.html8、 图像着色图像着色是一种为照片增添样式或对照片应用多种方法的技术。图像着色的一个流行项目是使用OpenCV转换黑白图像。该项目的目的是通过获取输入灰度图像来生成表示语义颜色和色调的输出彩色图像。数据集:图像着色数据集链接:https://www.kaggle.com/shravankumar9892/image-colorization9、 对象追踪该项目的目的是在受限环境中开发对象跟踪系统。这包括从背景检测对象并跟踪对象的位置。对象跟踪包括两部分-预测和校正。系统根据对象的当前状态预测其下一个状态,并根据真实状态校正该状态。数据集:跟踪Long和Prosper–TLP数据集链接:https://amoudgl.github.io/tlp/10、 车辆计数该项目的目的是即使在与遮挡和/或阴影存在相关的挑战性场景中,也能以非常好的准确性对车辆进行计数。车辆计数项目可用于交通监控。数据集:车辆图像数据集链接:https://www.gti.ssr.upm.es/data/Vehicle_database.html
扫码免费领取课程赠导师整理100+篇热门CV论文&课程ppt原稿
文末福利
给大家送一波大福利!我整理了100节计算机全方向必学课程,包含CV&NLP&论文写作经典课程,限时免费领!
扫码免费领取课程
-END-