大道至简:只靠单一任务训练的语言模型,效果好到惊呆网友


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。转载自 | 量子位作者 | 羿阁

训练任务越多,真的意味着泛化能力越强吗?

一项最新的研究告诉我们:No!大漏特漏!

令大部分人意外的是,其实,专攻一个训练任务的专家语言模型在这方面的表现更佳!

数据为证,在11个不同的、未经训练的数据集上,其平均准确率甚至比提示微调模型高出3.20%。

不仅如此,单个专家模型合并后还能表现出超强的组合能力,既不需要访问原始数据,还节省了计算开销。

有网友看完就表示:非常有趣!果然模型并不一定越大越好!

还有网友则感慨:这就是所谓的“简单胜过复杂”吧。

效率、准确性都更高

首先,研究者先为每个训练任务培训了一个专家模型。

从下图可以看出,在总结、问答、情绪分析等“本职任务”上,每个专家模型的表现都很优秀。

例如,当被问到“我们在星期六晚上来到这里,幸运地发现没有我想象中那么拥挤,如果从1到5打分,我会给它打几分?”

该模型精准地拿捏了这段话中“惊喜”的情绪,并回答“4分”。

那么问题就来了,只靠单一任务训练的专家语言模型,泛化能力究竟如何?

为了展示其效果,研究者找来了一个经过提示微调的多任务语言模型T0-3B进行对比。

结果显示,在11个不同的、未经训练的数据集上,专家语言模型的平均准确率比T0-3B要高3.20%。

在13个BIG-bench基准数据集上,专家语言模型的平均准确率也要高出1.29%。

不仅如此,研究者还进一步分析了专家语言模型的优点,得出三点结论:

第一,专注于单项任务的专家语言模型能有效避免指令调整过程中经常发生的负迁移问题,也就是更少受另一种学习的干扰。

第二,专家语言模型能够不断学习新的任务,而不必重新训练以前的任务,以避免灾难性遗忘。

过去,当遇到学习新任务的要求时,往往需要不断地在原始任务和额外任务的样本上进行指令调整训练,这种方法既需要访问原始数据,还会导致额外的计算开销。

而现在,仅需要为每个额外的任务培训单独的专家语言模型,并将他们简单地添加到专家库中,就可轻松做到这一点。

实验证明,新方法可以有效地保持可见任务的性能,不过会轻微降低不可见任务的性能(- 0.15%)。

第三,个别专家语言模型在合并后能显示出优越的组合能力。

举个例子,当语言模型被要求回答“总结下列英文文本的摘要,并将句子翻译成韩语”时,这其实包含了“概括”和“翻译”两个任务。

研究者分别训练了一个总结模型和5个不同语种的翻译模型,再将它们用分布式训练的方法进行合并,并对它们的组合能力进行了测试。

结果显示,该方法的性能同样优于经过提示微调的多任务语言模型,平均得分高出2.72%。

不过值得一提的是,在论文最后,研究者也特别提到,这一结论与模型大小有直接关系,目前的研究没有包括参数大于11B的模型情况。

研究团队

该研究的团队来自KAIST(韩国科学技术院)、LG AI Research和伊利诺伊大学芝加哥分校。

第一作者Joel Jang,目前是KAIST语言与知识实验室的二年级硕士生,本科毕业于高丽大学计算机科学专业。

该论文是他在LG AI Research实习期间完成。

论文链接如下,感兴趣的小伙伴们可以自取~

论文链接:
https://arxiv.org/pdf/2302.03202.pdf

参考链接:
[1]https://twitter.com/jang_yoel/status/1623169024489328640/retweets/with_comments
[2]https://joeljang.github.io/


技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注:姓名-学校/公司-研究方向(如:小张-哈工大-对话系统)即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

相关推荐

  • ChatGPT中国赛开卷!互联网大佬自掏5000万美元入坑,张朝阳反泼冷水
  • 无需代理注册,Vscode ChatGPT插件使用
  • 打电游无损儿童认知;女子小巷停车一口气撞了10辆;俄称准备好与乌克兰无条件谈判;3岁男童做手术变成脑瘫...|酷玩日爆
  • 为什么选择周末宅在家 | 每日一冷
  • 千亿充电桩市场,为何赚钱难?
  • 五粮液经销商让利了!1800多的酒,限时999(节假日就不是这价了!)
  • 中国最被低估的商业教父,是他!
  • 中国开源社区健康案例——openKylin社区
  • 前沿开源技术领域解读——开源大数据
  • 微软公布 .NET最新的编程语言支持策略
  • 这批真丝睡衣、内衣真的很贵,但真的很舒服……
  • 藏族风一出手,直接把奢侈品秒成渣了
  • 美国前副总统彭斯家中再次发现机密文件;回应西方“限价”,俄罗斯3月减产原油;乌军使用“海马斯”,全靠美国坐标 | 每日大新闻
  • ChatGPT:受惊骇的巨头们与焦虑中的军备竞赛
  • 聪哥又更新了
  • Gmail 之父:有了 ChatGPT,搜索引擎活不过两年了
  • 比尔盖茨谈恋爱了!女友是甲骨文前CEO的遗孀
  • OpenFeign的9个坑
  • ChatGPT背后的经济账
  • 程序员大杀器?带你玩转ChatGPT