密集微调后一次性剪枝(Dense Fine-Tuning with One-Shot Pruning):先对一个密集模型进行微调,然后在微调数据集上进行一次性剪枝。
微调期间剪枝(Pruning During Fine-Tuning):在第一种方法的基础上,对模型进行额外的稀疏微调。
从一次性剪枝的模型开始稀疏微调(Sparse Fine-Tuning from One-Shot Pruned Models):先对预训练模型进行剪枝,然后对目标数据集进行稀疏微调。
从稀疏预训练模型开始稀疏微调(Sparse Fine-Tuning from Sparse Pretrained Models):从稀疏预训练模型开始,在微调数据集上进行稀疏微调。
有限上下文任务:对于有限上下文任务(如算术推理、摘要),微调期间的剪枝通常可以完全恢复,这表明微调数据集已经包含了模型适应所需的大部分信息。
大上下文任务:对于大上下文任务(如聊天、代码生成、指令跟随),使用标准微调期间的剪枝进行恢复要困难得多,这表明这些任务更多地依赖于预训练数据集的更广泛知识。
高稀疏度下的高恢复率:特别是对于具有大上下文窗口的复杂任务,稀疏预训练方法在高达70%的稀疏度下一致地显示出更高的准确性恢复。
简化的超参数搜索:稀疏预训练创建了一个更稳健的基础,有效避免了在微调期间进行剪枝的大范围超参数调节
减少计算:通过稀疏预训练,模型通常只需要单次微调即可实现收敛。
扫描二维码添加小助手微信
请备注:姓名-学校/公司-研究方向(如:小张-哈工大-对话系统)即可申请加入自然语言处理/Pytorch等技术交流群