▲上周新发布的轻量级模型GPT-4o mini、Mistral NeMo都在性价比上非常领先(图源:Artificial Analysis)
事实上,这股“大模型反卷小型化”的技术风向,在去年下半年已经开始酝酿。游戏规则的改变者是两家公司。一家是法国AI创企Mistral AI,去年9月用70亿参数大模型击败有130亿参数的Llama 2技惊四座,在开发者社区一战成名;一家是中国AI创企面壁智能,今年2月推出更加浓缩的端侧模型MiniCPM,用仅仅24亿参数实现了超过Llama 2 13B的性能。两家创企都在开发者社区有口皆碑,多款模型登顶开源热榜。特别是从清华大学自然语言处理实验室孵化出的面壁智能,今年其多模态模型被美国顶级高校团队“套壳”引起轩然大波,面壁的原创性工作在国内外学术圈都得到认可,令国产开源AI模型扬眉吐气。苹果也从去年开始研究能更好适配手机的端侧模型。一直走粗放式暴力扩张路线的OpenAI,倒是个相对令人意外的新入场者。上周推出轻量级模型GPT-4o mini,意味着大模型一哥主动走下“神坛”,开始顺应业界趋势,试图用更廉价易得的模型来撬动更广泛的市场。2024年,将是大模型“小型化”的关键之年!▲2024年新发布的轻量级通用语言模型不完全统计,仅计入可在端侧部署的参数量≤8B的通用语言模型,未计入多模态模型(图源:智东西)
▲更小尺寸的模型能以更低成本实现出色的性能(图源:Embedded AI)
“大语言模型尺寸的竞争正在加剧——倒退!”AI技术大神Andrej Karpathy打赌:“我们将看到一些非常非常小的模型‘思考’的非常好且可靠。”模型能力÷参与计算的模型参数=知识密度,这个衡量维度可以用来代表同等参数规模的模型能具备强的智能。2020年6月发布的GPT-3大模型有1750亿个参数。今年2月, 实现同等性能的面壁智能MiniCPM-2.4B模型,参数规模已经降到24亿,相当于知识密度提高了约86倍。 根据这些趋势,清华大学计算机系长聘副教授、面壁智能首席科学家刘知远最近提出了一个有意思的观点:大模型时代有自己的“摩尔定律”。具体而言,随着数据-算力-算法协同发展,大模型知识密度持续增强,平均每8个月翻一番。▲从OpenCompass榜单变化可以看到小参数、高性能模型成趋势
通过提高芯片上的电路密度,推动实现同等算力的计算设备从好几间屋子才装得下的超级计算机进化到能揣进口袋里的手机,接下来大模型的发展也会遵循类似的规律。刘知远将他提出的指导性规律命名为“面壁定律”。以此趋势下去,训练一个千亿参数模型,它所具备的能力,8个月后500亿个参数的模型就能实现,再过8个月只需250亿个参数就能做到。▲面壁智能MiniCPM系列模型快速迭代并提升知识密度
美国轻量级开源模型阵营中,科技大厂的参与度较高,有Meta、微软、谷歌、苹果、Stability AI等,而且高频上演“后浪把前浪拍倒在沙滩上”的剧情。Hugging Face也在上周推出135M、360M、1.7B三种参数规格的SmolLM模型,与同等尺寸模型相比性能很有竞争力,其中1.7B版本在多项基准测试的分数超过了微软Phi-1.5、谷歌MobileLLM-1.5B和阿里Qwen2-1.5B。以“封闭”闻名的苹果,在AI领域却是知名的开源派:去年10月发布Ferret多模态模型;今年4月发布参数量从27亿到300亿的4款OpenELM预训练模型;还有最新推出的DCLM模型,其中6.9B版本性能超过Mistral 7B,1.4B版本MMLU分数超过了SmolLM-1.7B。▲苹果用DCLM-Baseline训练模型(橙色),相对于闭源模型(叉)和其他开源数据集及模型(圆圈)显示出良好的性能
欧洲的代表玩家则非法国大模型独角兽Mistral AI莫属。它在上周刚发布Mistral Nemo 12B小杯模型,支持128k上下文处理,性能超过谷歌Gemma 2 9B和Llama 2 8B,推理、世界知识和代码能力都是同量级开源模型中最强的。这些进步正展现出大模型小型化的应用潜力。Hugging Face联合创始人兼CEO Clem Delangue预言道:“更小、更便宜、更快、更个性化的模型将覆盖99%的用例。你不需要一辆100万美元的F1方程式来每天上班,你也不需要一款银行客户聊天机器人来告诉你生活的意义!”▲根据苹果DataComp-LM论文,模型参数量越少,训练所需算力和时长越少
面向特定应用,轻量级模型需要的数据更少,因此能更轻松地针对特定任务进行微调,实现满足需求的性能和效率。由于架构更精简,这类模型需要的存储容量和计算能力更少,针对端侧硬件优化设计后,能够在笔记本电脑、智能手机或其它小型设备上本地运行,具备低延时、易访问、保护隐私安全等优势,确保个人数据不会外传。轻量级高性能模型虽小,但要做到“用有限的算力、能耗,把知识浓缩到更小参数的模型中”,技术门槛不低。其训练过程是先变大,再变小,从复杂大模型中蒸馏出知识的精华。例如谷歌的小杯多模态模型Gemma-2,就是用27B模型的知识提炼而成的。但在具体技术路线上,不同玩家做法各不相同。比如在训练数据方面,Meta豪气地给Llama 3喂了15T tokens训练数据。微软、苹果等则将重心放在优化训练数据集和数据方法的创新上,微软Phi-3只用了3.3T tokens,苹果DCLM 7B只用了2.6T tokens。根据苹果DataComp-LM论文,改进训练数据集能在计算和性能间取得平衡,降低训练成本。上周新发布的Mistral NeMo通过使用先进的Tekken标记器,能比以前的模型更加有效地压缩文本和代码。“变小”还需要架构创新。比如苹果OpenELM模型面向硬件瓶颈来做模型分层精调设计,以提高在端侧的运行效率;面壁智能的MiniCPM-S 1.2B高效稀疏模型实现了近88%的稀疏度,让全链接层能耗降低至84%,解码速度相比对应的稠密模型提高2.8倍,同时不折损性能。▲实现资源高效大语言模型的技术分类(图源:《Beyond Efficiency: A Systematic Survey of Resource-Efficient Large Language Models》论文)
大模型是一项系统工程,需要探索“人工智能科学化”方向,也就是通过算法、架构、数据治理、多模态融合等技术方案的持续迭代,更可靠、更可预测、更高质量地训练模型,以不断提升大模型的知识密度。要做到快速训练和优化模型,需要建立高效的生产线,既要构建全流程工具套件平台,又要形成高效可扩展的模型训练策略。比如面壁的模型沙盒机制通过用小模型预测大模型性能、大小模型共享超参数方案,实现模型能力快速形成。▲MiniCPM 1.2B和MiniCPM-S 1.2B推理解码速度实测对比
为了加速大模型赋能智能终端,面壁智能最新开源了业内首个开箱即用的端侧大模型工具集 "MobileCPM ",并提供保姆式教程,帮助开发者一键集成大模型到App。▲面壁智能端侧大模型工具集 "MobileCPM "
恰逢今年是端侧AI爆发元年,从英特尔、英伟达、AMD、高通等芯片巨头到AI PC、智能手机大厂,都在力推丰富的端侧AI应用。终端厂商开始与通用模型厂商联手,推动轻量级模型在广泛的端侧设备中落地。随着端侧芯片性能变强和模型知识密度的增加,端侧设备本地能运行的模型变得越来越大、越来越好。现在GPT-4V已经能在端侧运行,刘知远预测未来一年内可将GPT-3.5水平的模型放到端侧运行,未来两年内可将GPT-4o水平的模型放到端侧运行。