Llama 3.1要来啦?!测试性能战胜GPT-4o


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。转载自 | 夕小瑶科技说作者 | 海野

哎呀,Meta声称将于今晚发布的Llama 3.1,数小时前就在Hugging Face上泄露出来了?泄露的人很有可能是Meta员工?

还是先来看泄露出来的llama3.1吧。新的Llama 3.1模型包括8B、70B、405B三个版本。

而经过网友测试,该base版模型在AI的基准测试中有显著进步,其性能可以超越当前大模型天花板GPT-4o。而模型的instruct版本通常会更强,也许值得期待一手。

这一模型的问世,可能会成为AI历史性的节点。它意味着开源模型首次在性能上,战胜当下最顶尖的闭源AI大模型(GPT-4o)。

不过GPT-4o好像也发布了很久了,我们一直没能等来GPT5,甚至等来的只是个更便宜的缩水版GPT-4o mini。那就是OpenAI不够努力咯。

128k上下文,15T+tokens训练最强开源模型

Llama 3.1系列不仅是405b模型成绩显著,70b的模型也在一定程度上超越了GPT-4o。不过在human eval和social sciences方面略逊一筹。

而8B和70B模型在基准测试中有了非常显著的进步,下图为Meta根据内部的评估库评估后的结果。

基础预训练模型:

指令微调模型:

而看到llama 3.1 70b和8b的数据后,我们不妨猜测这两个模型就是405b的蒸馏。

同时,作为纯文本模型,Llama 3.1专门针对多语言对话场景优化了文本指令。包括英语,法语、德语、印地语、意大利语、葡萄牙语、西班牙语和泰语等等。

Llama 3.1使用了15T+个tokens的公开数据源来进行预训练,还使用了超过2500万个人工合成的示例进行微调。预训练数据的时间截止到2023年的12月。这三个版本的模型的上下文长度都达到了128K。相比于原本Llama的8k上下文,这可以说是一次质的飞跃了。

不过嘛,泄露的文章中并没有透露使用了哪些私人的数据源,也许要等到Meta正式发布后才能知晓。

原文件地址已删除,疑似员工泄露

一经泄露,Llama 3.1在reddit上迅速引发热议,不过很快这个页面就变成404了。

还是有好心人给出了下载链接。不过Meta官方声明,正式公布时间也就在今晚,大家先按捺一下好奇心,不用急于这一时。

也有网友对泄露的原文进行了补档,对Llama3.1具体数据有兴趣的小伙伴可以去看一看:

https://web.archive.org/web/20240722214257/https://huggingface.co/huggingface-test1/test-model-1

而另一边,根据网友猜测,泄露这个模型的人的身份可能是Meta员工。

以下是上传文件的作者的主页:https://huggingface.co/samuelselvan

虽然这种偷跑的行为令人不齿,但看完Llama的表现后,个人认为开源模型能取得如此成绩,是对闭源模型的一种鞭策。长久以来,闭源模型在人力和钞能力的支持下,始终压开源模型一头。而“蚂蚁虽小可溃千里长堤”,开源模型的资源交汇织成的蛛网,终究会产生无比强大的力量。

现在我只想对OpenAI说一句:OpenAI你说句话呀!开源的模型都打赢你了,快把GPT5端上来!

参考资料

[1]https://www.reddit.com/r/LocalLLaMA/comments/1e9qpgt/meta_llama_31_models_available_in_hf_8b_70b_and/ 
技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注:姓名-学校/公司-研究方向(如:小张-哈工大-对话系统)即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

相关推荐

  • 刚刚,中国IMO奥数憾失第一,五连冠统治被美国队终结
  • [开源]真正意义上零侵入接口文档生成工具,无需增加一行配置代码
  • 成本降低10万倍!生成一周大气模拟仅需9.2秒,谷歌气候模型登Nature
  • 视频生成大战2.0!大厂狂卷底层模型,创企5个月吸金44亿
  • 面试官:加密后的数据如何进行模糊查询?
  • Spring Boot集成Spire.doc实现对word的操作
  • 不会?到底上OPC UA还是MODBUS???
  • 2K Star牛牛牛!!!全球频道,一键直达,探索IPTV新天地
  • 损失函数(Loss Function)
  • 2个月暴增10k star,新一代高颜值、现代化的 Git 可视化工具
  • 最有用的25个 Matplotlib图(含Python代码模板)
  • 吴恩达团队新作!
  • Python 面试时千万别这样命名函数,因为这个被淘汰可太不值了
  • 阿里这款多级缓存框架一定要掌握,非常不错!
  • AI替代职业,最高和最低Top25
  • 一文带你了解 Chrome AI
  • 苹果开源7B大模型,训练过程数据集一口气全给了,网友:开放得不像苹果
  • 当小说续写结合AI RPG,AI陪伴的新玩法现状如何?|专访彩云小梦
  • 快手可灵团队最新开源项目火了:大叔实时变身少女,GitHub狂揽7.5K星
  • 英特尔CPU疯狂崩溃,测评大佬揭露工艺缺陷,官方回应:修复补丁下月上线