正如Karpathy所说,经过海量数据训练出来的超大模型(如GPT-4),大部分其实是用来记住大量的无关紧要细节的,也就是死记硬背资料。这与模型预训练的目的有关,在预训练阶段,模型被要求尽可能准确的复述接下来的内容,这相当于背课文,背的越准得分越高。虽然,模型能学会里面反复出现的知识,但是,数据资料有时也会出现错误和偏见,模型还要先全部记住再进行微调。Karpathy相信如果有更高质量的训练数据集,完全可以训练出一个规模更小,能力更强,更有推理能力的模型。可以在超大模型的帮助下,自动生成,清洗出质量更高的训练数据集。类似GPT-4o mini,就是用GPT-4清洗出来的数据训练的。先把模型做大,然后在此基础上「瘦身」,这可能是一种模型发展的新趋势。做个生动的比喻就像当前的大模型存在数据集过多虚胖的问题,经过数据清洗和大量训练,摇身一变一身精瘦肌肉的小模型。这个过程就像是一个阶梯式的进化,每一代模型都会帮助生成下一代的训练数据,直到我们最终得到一个「完美的训练集」。OpenAI首席执行官Sam Altman也发表了类似言论,早在2023年4月就宣布大型AI模型的「时代结束」。并且,数据质量是AI训练的关键成功因素也越来越成为共识,无论是真实数据还是合成数据。奥特曼认为,关键问题是人工智能系统如何从更少的数据中学到更多的东西。微软研究人员在开发Phi模型时也做出了相同的判断,Hugging Face AI研究人员也同意对于高质量数据集的追求,并发布了高质量的训练数据集。这意味着一味扩张不再是科技巨头们唯一的技术目标,即使是小型的高质量模型也可以受益于更多、更多样化、更高质量的数据。回到更小、更高效的模型可以被视为下一个整合阶段的目标,OpenAI的模型发布就清晰地表明未来的发展方向。