零一万物回应“套壳 Llama”争议:基于 GPT 研发,对模型和训练的理解做了大量工作

作者 | 褚杏娟

11 月 14 日,李开复旗下 AI 企业零一万物开源大模型 Yi-34B 被指责完全使用 LLaMA 的架构 ,只对两个张量 (Tensor) 名称进行修改。

对此,零一万物表示:GPT 是一个业内公认的成熟架构,Llama 在 GPT 上做了总结。零一万物研发大模型的结构设计基于 GPT 成熟结构,借鉴了行业顶尖水平的公开成果,由于大模型技术发展还在非常初期,与行业主流保持一致的结构,更有利于整体的适配与未来的迭代。同时零一万物团队对模型和训练的理解做了大量工作,也在持续探索模型结构层面本质上的突破。

此事起源于贾扬清在朋友圈的一个吐槽,贾扬清提到,有个“大厂新模型 exactly 就是 LLaMA 的架构,但是为了表示不一样,把代码里面的名字从 LLaMA 改成了他们的名字,然后换了几个变量名。然后,海外有工程师直接指了这一点出来... 还有人在 HF 上面放了个把名字改回去的 checkpoint,说好了,现在你们可以直接用 LLaMA 的代码来 load 这个 checkpoint 了”。

一时间,大家纷纷猜测这个基于 Llama 魔改的大模型到底是哪个。贾扬清随后专门留言表示不是自己的老东家阿里的。后来,有人扒到 Hugging Face 社区的 Yi-34B 项目下讨论区的留言,留言指出,“除了两个张量被重新命名外,Yi 完全使用了 Llama 的架构。”

有网友评论称,“如果他们使用了确切的 Meta LLaMA 结构、代码库和所有相关资源,则还需要遵守 LLaMA 规定的许可协议。要求以 LLaMA 形式正式发布 Yi 模型是有问题的,因为它破坏了 Yi 许可条款的可执行性。”

点击底部阅读原文访问 InfoQ 官网,获取更多精彩内容!

今日好文推荐丢掉 LangChain、像 Docker一样编排大模型应用程序:这支十余人的年轻创业团队如何在2个月做出一个LLMOps平台?
仅凭 7 页 PPT 拿下 1 亿美元融资、半年后估值超 10 亿!“欧洲 OpenAI”杀疯了
易鲸捷否认贴牌 Oracle;鸿蒙进教材:“纯血”版不再兼容安卓应用;大叔们遭AI女友“断崖式分手” | Q 资讯
向量数据库失宠了?OpenAI 力捧检索增强生成(RAG)技术,对行业来说意味着什么?

相关推荐

  • 首周聚焦百度智能云千帆大模型平台使用,《大模型应用实践》实训营 11 月 16 日开讲!| Q推荐
  • 文生图大型实践:揭秘百度搜索 AIGC 绘画工具的背后故事!
  • “谷歌有谷歌的规矩”
  • 北大全新「机械手」算法:辅助花式抓杯子,GTX 1650实现150fps推断|NeurIPS 2023
  • LLM幻觉问题全梳理!哈工大团队50页综述重磅发布
  • ChatGPT Plus账号暂停注册!网友炸锅,卖号租号全网溢价
  • 1分钟预测10天全球天气!谷歌DeepMind全新AI天气预报登上Science,碾压行业SOTA
  • Agent4Rec来了!大模型智能体构成推荐系统模拟器,模拟真实用户交互行为
  • 微软用GPT-4V解读视频,看懂电影还能讲给盲人听,1小时不是问题
  • S-LoRA:一个GPU运行数千大模型成为可能
  • 比ChatGPT早发两周,被喷下线的Galactica成了LeCun最大的意难平
  • 实时文生图速度提升5-10倍,清华LCM/LCM-LoRA爆火,浏览超百万、下载超20万
  • WeOLAP:微信 OLAP 新场景优化实践
  • AI平台与新数据分析的应用与实践
  • 超越Midjourney?基于语境学习训练图像扩散模型【前沿】
  • 太可怕啦!我在网上发了个贴,就被GPT-4推断出了个人隐私!GPT-4化身福尔摩斯
  • 突发!奥特曼宣布暂停ChatGPT Plus新用户注册!
  • 所有技术公司老板的通病!
  • 你真的懂HTTP缓存吗?
  • 文本纠错实践:恶意短信变体字还原、鲁棒性过滤与文本纠错竞赛概述与简单变体实现