新智元报道
编辑:桃子 好困单个CS-3可训24万亿参数,大GPT-4十倍
在CS-3上训练一个万亿参数模型,就像在GPU上训练一个10亿参数模型一样简单!显然,Cerebras的CS-3强势出击,就是为了加速最新的大模型训练。它配备了高达1.2PB的巨大存储系统,单个系统即可训出24万亿参数的模型——为比GPT-4和Gemini大十倍的模型铺平道路。简之,无需分区或重构,大大简化训练工作流提高开发效率。在Llama 2、Falcon 40B、MPT-30B以及多模态模型的真实测试中,CS-3每秒输出的token是上一代的2倍。而且,CS-3在不增加功耗/成本的情况下,将性能提高了一倍。除此之外,为了跟上不断升级的计算和内存需求,Cerebras提高了集群的可扩展性。上一代CS-2支持多达192个系统的集群,而CS-3可配置高达2048个系统集群,性能飙升10倍。具体来说,由2048个CS-3组成的集群,可以提供256 exafloop的AI计算。能够在24小时内,从头训练一个Llama 70B的模型。相比之下,Llama2 70B可是用了大约一个月的时间,在Meta的GPU集群上完成的训练。与GPU系统的另一个不同是,Cerebras晶圆规模集群可分离计算和内存组件,让开发者能轻松扩展MemoryX单元中的内存容量。得益于Cerebras独特的Weight Streaming架构,整个集群看起来与单个芯片无异。换言之,一名ML工程师可以在一台系统上开发和调试数万亿个参数模型,这在GPU领域是闻所未闻的。具体来说,CS-3除了为企业提供24TB和36TB这两个版本外,还有面向超算的120TB和1200TB内存版本。(之前的CS-2集群只有1.5TB和12TB可选)单个CS-3可与单个1200 TB内存单元配对使用,这意味着单个CS-3机架可以存储模型参数,比10000个节点的GPU集群多得多。除此之外,与使用GPU相比,在Cerebras平台上开发所需的代码量还减少了高达97%。更令人震惊的数字是——训练一个GPT-3规模的模型,仅需565行代码!Playground AI创始人称,GPT-3正稳步成为AI领域的新「Hello World」。在Cerebras上,一个标准的GPT-3规模的模型,只需565行代码即可实现,创下行业新纪录。
首个世界最强芯片打造的超算来了