新智元报道
编辑:编辑部背景与介绍
Transformer架构中,每个块内都包含注意力层和前馈层(FFW),注意力层用于计算序列中token之间的关系,FFW网络则负责存储模型知识。我们当然希望LLM能在参数中隐式存储更多知识,但FFW的计算成本和激活内存会随之线性增加。稠密模型中,FFW层已经占据了总参数量的2/3,是扩展的主要瓶颈之一。MoE模型虽然参数量也很大,但每次推理时不会动用整个模型的能力,而是将数据路由到小型且专门的「专家模块」,因此能在LLM参数增加的同时,让推理所需的计算成本基本不变。那么专家数量(即MoE模型的「粒度」)是不是越多越好?这要考虑多个因素,包括模型参数总量、训练token数量和算力的预算。2022年的一项研究认为,模型总参数量不变时,存在一个能达到最优性能的「最佳粒度」。专家数量超过这个与之后,模型性能就会进入「平台期」。Unified Scaling Laws for Routed Language Models
论文地址:https://arxiv.org/pdf/2202.01169然而,今年年初Krajewski等人发表的一篇论文反驳了这个观点。他们发现,如果同时增加训练所用的token数量,那么更高粒度可以提高性能。 论文地址:https://arxiv.org/pdf/2402.07871受到这种细粒度MoE Scaling Law的启发,作者推断,模型容量的持续改进将带来具有高粒度的LLM,即包括大量微型专家的模型。除了能带来更高效的扩展,增加专家数量还有另外一层好处——终身学习。之前有研究表明,通过简单地添加新专家并进行适当正则化,MoE模型就可以适应连续的数据流。冻结旧专家、仅让新专家权重更新,就可以在保持可塑性的同时防止灾难性遗忘。在终身学习环境中,数据流可能达到无限长度,甚至永无止境,因此论文探索的专家数量的扩大就显得十分重要。百万MoE所系
实验
作者介绍