马斯克确实以其高效率和大胆的行动著称,最近他旗下的AI初创企业xAI宣布了一项引人注目的举措:开源了一个名为Grok-1[1]的混合专家模型。
这个模型拥有3140亿个参数,是目前参数量最大的开源大型语言模型之一,而允许商用、可修改和分发,对各种自研大模型是一个很大的利好!这一行为不仅展示了马斯克对开放源代码和共享技术的一贯支持,也表明了他希望推动AI领域快速发展的决心截至目前,Grok-1已经在 GitHub 上斩获获 28k 颗 Star。
让我们先看下在Github的下载地址上,它的开源声明都说了什么:
Grok-1模型拥有高达314亿个参数,采用了混合专家(MoE)层结构。MoE层的实现,在效率上存在局限,但这种结构设计选择是刻意为之,主要目的是为了简化模型验证流程,避免自定义内核的需求。Grok-1 的模型细节包括如下:
Grok-1遵循Apache 2.0许可证,赋予用户以下权利:
看到这,有网友开始好奇 314B 参数的 Grok-1 到底需要怎样的配置才能运行。对此有人给出答案:可能需要一台拥有 628 GB GPU 内存的机器(每个参数 2 字节)。这么算下来,8xH100(每个 80GB)就可以了。
因此基本上个人是没办法用的,这个模型开源就是为了便于各种企业使用的,同时模型还提供了权重下载。
Grok-1的开源对中小型企业在特定领域微调模型是一大利好。通过下载Grok进行微调,可以为基于该模型的各种有趣应用铺平道路。
与之前开源的大型模型相比,Grok-1的参数规模更大。根据理论,模型的参数量越大,其潜在智能水平也应该更高。正如OpenAI已经验证的那样,巨大的参数量可能带来意想不到的结果。
就像Stable Diffusion的开源对国内各种AI绘画工具软件产生了影响一样,Grok-1的开源可能会在各种垂直领域应用中产生启发作用,特别是在国内应用方面可能会迎来一波爆发。
知名机器学习研究者、《Python 机器学习》畅销书作者 Sebastian Raschka 评价道:「Grok-1 比其他通常带有使用限制的开放权重模型更加开源,但是它的开源程度不如 Pythia、Bloom 和 OLMo,后者附带训练代码和可复现的数据集。」
DeepMind 研究工程师 Aleksa Gordié 则预测,Grok-1 的能力应该比 LLaMA-2 要强,但目前尚不清楚有多少数据受到了污染。另外,二者的参数量也不是一个量级。
Grok-1是由xAI公司开发的人工智能模型,拥有高达314亿个参数。该模型采用了一种称为混合专家(MoE)的技术。用人类团队的比喻来说,这就像是一个团队中有多位专家共同合作,每位专家都在自己擅长的领域发挥作用。
Grok-1的训练是从头开始的,没有专门针对任何特定任务进行优化或调整。整个研发过程历时四个月,期间经历了多次迭代。使用了JAX和Rust两种编程语言,这两者共同构建了一个强大的训练基础设施。为了训练Grok-1,xAI公司投入了大量资源,动用了上千块GPU,并花费了数月时间。在训练过程中,还特别关注提高模型的容错能力。
先看看ChatGPT如何回复马斯克的嘲讽吧:随后山姆奥特曼也回复了这件事情:
Grok-1: https://github.com/xai-org/grok-1.git