前面我们从理论和实验上都发现了,在使用 Adam 风格优化器时最优学习率曲线就像一朵 “浪花” 一样随着 Batch size 增加会先升高后下降。同时结合 OpenAI scaling law 的结论,随着训练进行会逐渐变大。我们理论预测并实验证明了随着训练进行 “浪花” 逐渐向着大 Batch size 方向涌动:
四、理论发现
前面讨论过 Adam 风格的优化器在进行参数更新时采用类似的形式。虽然此形式看起来很简单,但是由于推导过程涉及到对更新量均值和方差的考量,所以我们在处理的时候做了一个假设和一个近似:1. 假设每个样本的参数 i 的梯度服从均值为,方差为的高斯分布2. 通过 sigmoid-style 函数对高斯误差函数进行数值近似当时,完整的 Scaling law 形式近似为:其中,H 为海森矩阵。当时:表明,Batch size 无限大时最优学习率趋于一个饱和值。