新智元报道
编辑:乔杨自从AI跨入大模型时代以来,Scaling Law几乎成为了一个共识。
论文地址:https://arxiv.org/abs/2001.08361
OpenAI的研究人员在2020年的这篇论文中提出,模型的性能与三方面的指标呈幂律关系:参数量N、数据集规模D以及训练算力C。除了这三方面外,在合理范围内,超参数的选择和模型的宽度、深度等因素对性能的影响很小。而且,这种幂律关系的存在没有对模型架构做出任何规定。换言之,我们可以认为Scaling Law几乎适用于任何模型架构。此外2021年发表的一篇神经科学领域的论文似乎也从另一个角度触碰到了这个现象。 论文地址:https://www.frontiersin.org/journals/computational-neuroscience/articles/10.3389/fncom.2021.625804/full他们发现,为视觉任务设计的AlexNet、VGG、ResNet等网络,即使有较大的结构差异,但在同一数据集上进行训练后,似乎能学习到非常相似的语义,比如对象类别的层次关系。但这背后的原因究竟是什么?如果超越表层经验,在本质层面上,各种网络架构究竟在多大程度上相似?UCL的两位研究者在今年发表了一篇论文,从神经网络学习到的抽象表示方面切入,试图回答这个问题。 论文地址:https://arxiv.org/abs/2402.09142他们推导出了一种理论,能够有效地概括复杂、大型模型架构中的表征学习动态,发现了其中「丰富」且「惰性」的特征。在模型足够灵活时,某些网络行为就能在不同架构中广泛存在。这篇论文已经被ICML 2024会议接收。建模过程
比如,对于数据集中的两点,如果ℎ𝜃(𝑥1)和ℎ𝜃(𝑥2)足够接近且ℎ𝜃和𝑦𝜃是平滑函数,那么可以利用两点的均值,对这两个映射函数进行线性近似:
其中𝐷ℎ和𝐷𝑦分别是ℎ𝜃和𝑦𝜃的雅可比矩阵。假定神经网络有足够的表达性和自由度,线性化参数𝐷ℎ、𝐷𝑦和可以得到有效优化,那么梯度下降的过程就可以表示为:方程(6)就描述了论文主要的建模假设,旨在作为大型复杂架构体系的等效理论,不受具体参数化方法的约束。图1是上述建模过程的可视化表达,为了简化问题,假设两个数据点在隐藏空间中只会靠近或远离,但不发生旋转。其中我们关心的主要指标是隐藏空间中的距离‖𝑑ℎ‖,可以让我们得知模型学习到的表征结构,以及模型输出的距离‖𝑑𝑦‖,有助于建模损失曲线。此外,还引入了一个外部变量𝑤控制表征速度,或者可以被看作输出对齐,表示预测输出与真实输出的角度差异。由此,我们得到了三个标量变量组成的一个独立系统:其中,神经网络的实现细节已经被抽象化表达为两个常量:1/𝜏ℎ和1/𝜏𝑦,表示有效学习率。学习动态的一致性
默认结构指20层网络、每层500个神经元,使用leaky ReLU
可以看到,虽然只有两个常数需要拟合,但是刚才描述的等效性理论依旧可以较好地拟合各种神经网络的实际情况。相同的方程可以准确描述多种复杂模型和架构在训练中的动态变化,这似乎可以说明,如果模型具有足够的表现力,最终都会收敛到共同的网络行为。放到MNIST这样更大的数据集上,跟踪两个数据点的学习动态,等效理论依旧成立。网络架构包括4个全连接层,每层包括100个神经元并采用leaky ReLU激活函数
然而值得注意的是,当初始权重逐渐增大时(图3),‖𝑑ℎ‖、‖𝑑𝑦‖和𝑤三个变量的变化模式会发生更改。因为初始权重较大时,两个数据点在训练开始时就会相距较远,因此公式(5)进行的线性近似就不再成立,上述理论模型失效。结构化表征
结论