卷积网络又行了?DeepMind推翻Transformer最强传说,LeCun怒赞


  新智元报道  

编辑:编辑部
【新智元导读】DeepMind最新研究发现,只要模型设计上没有缺陷,决定模型性能的核心可能是训练计算量和数据。在相同计算量下,卷积神经网络模型和视觉Transformers模型的性能居然能旗鼓相当!

模型性能的高低,到底是模型结构决定的,还是训练模型的算力和数据决定的?

DeepMind的研究人员给出了自己的回答——Compute is all you need!

他们认为,模型性能主要由可用的算力和数据来决定。

论文地址:https://arxiv.org/abs/2310.16764

LeCun第一时间转发了这篇论文,同时也振臂高呼:Compute is all you need!

有网友评论:「我们又行了!(We are so back)」。

LeCun回复:「其实我们从未离开」。

卷积神经网络不如视觉Transformers?

研究人员最主要是通过比较卷积神经网络(CNN)和视觉Transformers(ViT)在大规模图像识别任务上的表现,来得到这个结论的。

卷积神经网络是许多早期深度学习成功的原因。

Deep ConvNets在20多年前,就被LeCun等人首次商业化部署。

而AlexNet在2012年ImageNet大赛中的成功,则重燃了人们对该领域的兴趣。

近10年来,ConvNets主导了计算机视觉的基准测试。然而,近年来,它们越来越多地被(ViTs)所取代。

与此同时,计算机视觉社区已经从主要评估随机初始化网络在特定数据集(如ImageNet)上的性能,转变为评估从网络收集的大型通用数据集上预训练的网络的性能。

这就提出了一个重要的问题: 视觉Transformers在类似的计算预算下是否优于预训练的ConvNet架构?

虽然社区中的大多数研究人员认为,ViTs具有比ConvNets更好的缩放特性,但令人惊讶的是,几乎没有证据支持这一说法。许多研究ViTs的论文将其与弱ConvNet基线进行比较。

此外,最强的ViT模型已经使用超过500k TPU-v3 Core Hour的大型计算量进行了预训练,这远远超过基线了用于预训练的计算量。

而在这项研究中,研究者评估了NFNet模型家族的缩放特性,这是一种与第一篇ViT论文同时发表的纯卷积架构,也是最后一篇在ImageNet上达到SOTA的ConvNet。

研究者没有对模型架构或训练程序进行任何更改(除了调整简单的超参数,如学习率或epoch预算)。

他们在含40亿图像的JFT-4B数据集上预训练了不同规模的NFNet模型,预训练计算量从0.4k到110k TPU-v4 Core Hour。

在ImageNet上微调后,最大的NFNet-F7+模型达到90.4%的top-1准确率,而ViT-g/14在相同计算量下预训练后的成绩是90.2%,SoViT-400m/14的成绩是90.3%。

二者表现出来的性能基本上是相当的。

而且,研究人员在实验时还发现,模型验证损失(Validation Loss)与预训练计算量呈对数关系。这和在训练Transformer模型中观察到的Scaling Law是一致的。

而且,适当调整模型大小、训练Epoch和学习率对结果有重要影响。

在固定计算预算下,模型大小和训练Epoch同时扩大效果最好。

学习率应先取一个较大值(1.6左右),然后随着模型复杂度和训练Epoch的增长逐渐减小。

网友讨论

有人表示:从音频或图像处理中取出卷积,跟与从意大利面中取出番茄差不多。

LeCun锐评道:要我说,从位置上取出本地连接和共享参数,就像从披萨中取出面包一样。除了卷积之外,许多运算符都是局部的,并且与翻译等变。

有人觉得,其实这个研究并不意味着ViT优于CNN。卷积内核分层聚合模式的方式非常有效,并以生物视觉系统为模型。在大量使用两者之后,每个人都喜欢Transformers,它们表现得很好,但不一定比我发现的经典Resnet更好。

人类大脑中的计算能力水平确实相对相似,但人类智力和表现的差异很大。这是否意味着,计算不是我们所需的全部?

「Tbh并不让我感到惊讶,所有的AI基本上都是以一种或另一种形式地将数据扔到黑盒里,看它是否能解决,所以flops可能比架构更重要。不过,在语义/大型局部任务中看到并置会很有趣。」

实验细节

NFNets的预训练过程同样遵循Scaling Laws

研究人员在JFT-4B上训练了一系列不同深度和宽度的NFNet模型。

每个模型都使用余弦衰减学习率针对0.25到8之间的Epoch预算进行训练。

在小对数网格上针对每个Epoch预算单独调整基础学习率。

在下图 2 中研究人员提供了对一组130k图像进行训练结束时的验证损失,并根据训练每个模型所需的计算预算进行绘制。

研究人员注意到F7的宽度与 F3 相同,但深度是 F3 的两倍。类似地,F3 是 F1 深度的两倍,F1 是F0深度的两倍。

F3+和F7+的深度与F3和F7相同,但宽度更大。

研究人员使用带有Momentum和自适应梯度裁剪 (AGC) 的SGD进行训练,batch大小为4096 ,图像分辨率为224×224。

图2展示了验证损失和预训练计算量之间的双对数(log-log)Scaling Law,他们之间呈现出线性关系。

这符合在训练Transformer模型中观察到的Scaling Laws。

最佳模型大小和最佳Epoch预算(实现最低验证损失)都会随着计算量的增加而增加。

研究人员还发现,以相同的速率缩放模型大小和训练Epoch的数量,训练效果最好。

对于大于5k TPU-v4 Core Hour左右的总体计算量,最佳Epoch应该是大于 1。

下图3中,研究人员绘制了3个模型在不同Epoch量中观察到的最佳学习率线条(最大限度地减少了验证损失)。

研究人员在间隔为2的对数网格上调整了学习率。他们发现 NFNet 系列中的所有模型对于Epoch量比较小的时候最佳学习率𝛼 约为1.6。

然而,随着Epoch的增加,最优学习率就开始下降,并且对于大型模型,最优学习率下降得更快。

在实践中,研究人员可以通过假设最优学习率随着模型大小和Epoch的增加而缓慢地下降,从而在2次试验内有效地调整学习率。

最后,研究人员还发现在上图2中的一些预训练模型的表现不如预期。

例如,不同预训练预算下的NFNet-F7+模型的曲线并不平滑。

研究人员认为出现这种情况是因为他们的数据加载管道(data loading pipeline)不能保证如果训练运行被抢占/重新启动,每个训练样本能在每个Epoch采样一次。

如果训练运行多次重新启动,则可能导致某些训练样本采样不足。

微调NFNets与ImageNet上的Transformer

在图1中,研究者对ImageNet上预训练的NFNets模型进行微调,并根据预训练期间使用的计算,绘制top-1错误率。

其中,研究者使用了锐度感知最小化(SAM)对每个模型进行了50个epoch的微调,并使用随机深度和dropout。

训练分辨率为384×384,评估分辨率为480×480。

随着计算预算的增加,ImageNet Top-1的准确率也在不断提高。

研究中,经过8个epoch预训练的模型NFNet-F7+,ImageNet Top-1准确率达到了90.3%,而预训练大约需要11万 TPU-v4核心小时,微调需要1.6 万TPU-v4核心小时。

此外,如果研究人员在微调过程中额外引入重复增强(repeated augmentation),增强倍数为 4,这时Top-1准确率将达到90.4%。

相比之下,NFNets在ImageNet上的Top-1准确率为86.8%,是由NFNet-F5实现的。这表明NFNet从大规模预训练中受益颇多。

尽管两种模型架构之间有很大差异,但大规模预训练的NFNets的性能与预训练的Vision Transformer的性能非常相似。

比如,谷歌在2021年研究「Scaling Vision Transformers」中,在ImageNet上使用ViT-g/14达到90.2%的Top-1,在JFT-3B上进行210k TPU-v3核心小时的预先训练后;

使用ViT-g/14达到90.45% ,在JFT-3B上进行超过500k TPU-v3核心小时的预先训练后。

另外,在谷歌最近的另一项工作「Getting vit in shape: Scaling laws for compute-optimal model design」中,优化了ViT结构,在JFT-3B上进行230k TPU-v3小时的预训练后,使用SoViT-400m/14达到90.3%的Top-1。

这次,研究人员评估了这些模型在TPU-v4上的预训练速度(使用原作者的代码库),估计ViT-g/14预训练需要120k TPU-v4核心小时,而ViT-G/14需要280k TPU-v4 核心小时,SoViT-400m/14需要130k TPU-v4核心小时。

作者在图1中使用这些估计值来比较ViT和NFNets的预训练效率。注意到,NFNets是针对TPU-v4优化的,在其他设备上评估时表现较差。

最后研究发现,JFT-4B上达到最低验证损失的预训练检查点,在微调后并不总是在ImageNet上达到最高的Top-1准确率。

特别是,研究者发现,在固定的预训练计算预算下,微调机制一致倾向于稍大的模型和稍小epoch预算。

直观地说,较大的模型容量更大,因此能更好地适应新任务。在某些情况下,(预训练期间)稍大的学习率在微调后也能获得更好的性能。

论文结尾,研究者称,决定一个合理设计模型最终性能,最重要的因素是:算力和数据量。

虽然基于Transformer的模型,比如ViT,在视觉任务中展现出非常强大的能力。

总而言之,Compute is all you need!

作者介绍

Samuel L. Smith

Samuel L. Smith的兴趣是创建聊天机器人、编写教程,并从事深度学习和自然语言处理方面的研究。他从2018年加入谷歌,今年7月,前往了加利福尼亚参加谷歌大脑驻留项目。

Soham De

Soham De是伦敦DeepMind的一名研究科学家,致力于更好地理解和改进大规模深度学习。他目前专注于优化和初始化方面的主题,最近一直致力于隐私保护机器学习。

Leonard Berrada

Leonard Berrada在DeepMind强大且经过验证的AI团队中担任研究科学家。在此之前,他在牛津大学的Andrew Zisserman和Pawan Kumar的监督下完成了DPhil/博士学位。

他的研究方向是,优化、深度学习、验证和隐私保护机器学习。

Andrew Brock

Andrew Brock在2019年入职DeepMind。他曾毕业于美国加州圣路易斯-奥比斯保分校。

参考资料:https://twitter.com/ylecun/status/1717676624865382901




相关推荐

  • 清华系ChatGLM3现场怼脸演示!多模态直逼GPT-4V,国产Code Interpreter来了
  • 如何找到一批愿意为你付费的用户?
  • 互联网人眼中的外包
  • POSIX真的不适合对象存储吗?
  • 什么是虚拟线程?一次启1000万个会OOM吗?
  • 唱衰PHP?这些言论别太离谱~《PHP综合现状分析报告》来了
  • 小米澎湃OS正式发布,Xiaomi Vela将开源
  • 微软CEO:放弃Windows Phone和移动业务,错了!
  • Java服务总在半夜挂,背后的真相竟然是...
  • 微服务设计必看:深度解析Netflix Eureka的底层实现
  • 不租只卖!软件完全开放!全球首款“云计算机”颠覆传统
  • 大模型时代,智能化操作系统面临的机遇与挑战
  • “放弃 Windows Phone 是错误的选择”,微软 CEO 纳德拉忆往事!
  • 奇舞周刊第508期:将Javascript编译为WASM以提升WEB性能
  • 10个提高Web开发效率的VS Code插件
  • 4.2K Star开源项目:让Windows网络变差的工具,模拟网络环境的神器
  • 2024 泰晤士世界大学学科排名公布
  • 一名店主的数字人生...
  • 帮客户获得7500亿融资的公司要IPO了
  • 靠这份求职指南找工作,稳了!