何恺明和刘壮新作:消除数据集偏差的十年之战



  磐创AI分享  

来源 | 量子位(QbitAI)

编辑 | 凹非寺


MIT新晋副教授何恺明,新作新鲜出炉:

瞄准一个横亘在AI发展之路上十年之久的问题:数据集偏差。

该研究为何恺明在Meta期间与刘壮合作完成,他们在论文中指出:

尽管过去十多年里业界为构建更大、更多样化、更全面、偏差更小的数据集做了很多努力,但现代神经网络似乎越来越善于”识破”并利用这些数据集中潜藏的偏差。

这不禁让人怀疑:我们在消除数据集偏差的战斗中,真的取得了胜利吗?

数据集偏差之战,在2011年由知名学者Antonio Torralba和Alyosha Efros提出——

Alyosha Efros正是Sora两位一作博士小哥(Tim Brooks和William Peebles)的博士导师,而Antonio Torralba也在本科期间指导过Peebles。

当时他们发现,机器学习模型很容易“过拟合”到特定的数据集上,导致在其他数据集上表现不佳。

十多年过去了,尽管我们有了更大、更多样化的数据集,如ImageNet、YFCC100M、CC12M等,但这个问题似乎并没有得到根本解决。

反而,随着神经网络变得越来越强大,它们“挖掘”和利用数据集偏差的能力也越来越强了!

为了分析这个问题,何恺明团队设计了一个虚构的”数据集分类”任务。

听名字你可能就猜到了:给定一张图像,模型需要判断它来自哪个数据集。通过看模型在这个任务上的表现,就可以了解它们捕捉数据集偏差的能力。

现代AI轻松识破不同数据集

在实验中团队发现,各种现代神经网络架构,如AlexNet、VGG、ResNet、ViT等,在数据集分类任务上表现出惊人的一致性:它们几乎都能以超过80%的准确率区分不同数据集的图像!

更令人吃惊的是,这个发现在各种不同的条件下都非常稳健:

不管是不同的数据集组合、不同的模型架构、不同的模型尺寸、不同的训练数据量,还是不同的数据增强方法,神经网络始终能轻松”一眼识破”图像的数据集来源。

那么,神经网络是如何做到这一点的呢?是靠单纯的记忆,还是学到了一些更普适的规律?

为了揭开谜底,团队做了一系列对比实验。他们发现,如果把不同的数据集随机混在一起,神经网络就很难再区分它们了(准确率下降到了33%)。这说明,神经网络并不是在单纯地记忆每一张图像,而是真的学到了一些数据集特有的模式。

更有趣的是,即使在自监督学习的设置下,神经网络也展现出了惊人的”数据集辨识力”。在这种设置下,模型在训练时并没有用到任何数据集的标签信息,但当在这些自监督学习到的特征上训练一个简单的线性分类器时,它依然能以超过70%的准确率区分不同的数据集!

通过这一系列的实验,何恺明、刘壮等人的研究给我们敲响了警钟:尽管这十年我们一直在努力构建更大、更多样化的数据集,但数据集偏差这个问题似乎并没有得到根本解决。相反,现代神经网络越来越善于利用这些偏差来获得高准确率,但这可能并不代表它们真正学到了鲁棒、普适的视觉概念。

论文的最后,作者呼吁整个AI社区重新审视数据集偏差这个问题,并重新思考如何在算法和数据两个层面上来应对这一挑战。

CVPR最佳论文作者的通力合作

本文是何恺明在Meta期间,与Meta研究科学家刘壮合作完成。

现在,何恺明已经正式在MIT上岗,担任电气工程与计算机科学系的助理教授。他的“开学第一课”开课即火爆,在youtube上已经有2.9万的播放量。

和何恺明一样,刘壮本科毕业自清华,并且也是CVPR最佳论文奖得主——他是CVPR2017最佳论文DenseNet的第一作者。

2017年,刘壮从清华姚班毕业,进入加州大学伯克利分校攻读博士学位,师从Trevor Darrell,是贾扬清的同门师弟。

博士毕业后,刘壮进入Meta AI Research工作。在此之前,他已经在Meta实习了一年多时间,期间和谢赛宁合作,发表了ConvNeXt。

论文地址:
https://arxiv.org/abs/2403.08632

参考链接:
https://twitter.com/liuzhuang1234/status/1768096508082008289

✄-----------------------------------------------

看到这里,说明你喜欢这篇文章,请点击「在看」或顺手「转发」「点赞」。

欢迎微信搜索「panchuangxx」,添加小编磐小小仙微信,每日朋友圈更新一篇高质量推文(无广告),为您提供更多精彩内容。


▼     扫描二维码添加小编  ▼  ▼  

相关推荐

  • 微软正式开源专为Windows打造的sudo
  • 有FA开始前置收费了,最高60w
  • 澜舟坚持四两拨千斤:ToB场景落地,10B参数大模型足矣
  • 骁龙最强AI芯能力下放:小旗舰8s发布,端侧运行10B大模型,小米Civi首发
  • Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩
  • 英伟达B200打破摩尔定律!老黄顺便公开GPT-4的秘密
  • “宝藏AI神器”通义听悟上新:超长音视频随便问,高校师生可获500小时免费时长
  • 百万token上下文窗口也杀不死向量数据库?CPU笑了
  • 从简单中窥见高端,彻底搞懂任务可中断机制与任务插队机制
  • 年初面试,真的不难……
  • 缓存没预热,翻车了!
  • 来挖转转漏洞啦!
  • 老黄祭出新核弹B200!30倍H100单机可训15个GPT-4模型,AI迎新摩尔时代
  • 建议!千万不要再无脑背八股文了!
  • 恭喜了!全体程序员彻底狂欢吧!这个好消息来得太及时!
  • 马斯克兑现承诺,Grok模型携3140亿参数强势开源,商业用途全免费!
  • 陶大程团队联合港大等发布最新综述:374篇文献全面解析大模型知识蒸馏
  • 黄仁勋在AI界春晚GTC2024的主旨演讲: 精华及全文(附视频)
  • CVPR 2024 | 港理工联合OPPO提出统一且通用的视频分割大模型
  • CVPR最佳论文颁给自动驾驶大模型!LLM能突破行业技术“天花板”吗?