本论文作者赵博是加州大学圣地亚哥分校的三年级在读博士,其导师为 Rose Yu。她的主要研究方向为神经网络参数空间中的对称性,及其对优化、泛化和损失函数地貌的影响。她曾获 DeepMind 奖学金,并且是高通创新奖学金的决赛入围者。邮箱:bozhao@ucsd.edu 众多神经网络模型中都会有一个有趣的现象:不同的参数值可以得到相同的损失值。这种现象可以通过参数空间对称性来解释,即某些参数的变换不会影响损失函数的结果。基于这一发现,传送算法(teleportation)被设计出来,它利用这些对称变换来加速寻找最优参数的过程。尽管传送算法在实践中表现出了加速优化的潜力,但其背后的确切机制尚不清楚。 近日,来自加州大学圣地亚哥分校、Flatiron Institute、美国东北大学等机构的研究人员发布的《Improving Convergence and Generalization Using Parameter Symmetries》论文中,展示了传送不仅能在短期内加快优化过程,而且能总体上缩短收敛时间。此外,研究还发现,传送到具有不同曲率的最小值可以改善模型的泛化能力,这意味着最小值的曲率与泛化能力之间存在联系。研究者们进一步将传送技术与多种优化算法以及基于优化的元学习相结合,这些结果充分展示了在优化过程中融入参数空间对称性的潜力。