Mixtral、Solar及OpenChat三大模型融合,效果能拉多高?

随着 LLaMA,Mistral 等大模型的成功,各家大厂和初创公司都纷纷创建自己的大模型。但从头训练新的大模型所需要的成本十分高昂,且新旧模型之间可能存在能力的冗余。

为了整合不同来源、不同结构大模型的优势,减少重复预训练的昂贵开销,中山大学和腾讯 AI Lab 的研究人员提出了 FuseLLM,用于融合多个异构大模型。不同于以往的模型集成和权重合并,前者需要在推理时同时部署多个大模型,后者需要合并模型具备相同的结果,FuseLLM 从概率分布表征的角度来探讨大模型的融合,对于同样的输入文本,作者认为由不同模型生成的表征可以反映出它们在理解这些文本时的内在知识。因此,FuseLLM 首先利用多个源模型生成表征,将它们的集体知识和各自优势外化,然后将生成的多个表征取长补短进行融合,最后经过轻量级的持续训练迁移到一个目标模型。

为了实现 Chat 大模型的融合,团队提出 FuseChat 方案,其在 FuseLLM 的基础增强了可扩展性和灵活性。FuseChat 采用先融合后合并的策略,其首先对不同的源模型进行知识融合,得到具有相同结构和规模的多个目标模型,然后将这些目标模型的参数合并。这种先融合后合并的方式使得集成任意规模的新模型都是即插即用的。考虑到 Chat 大模型的频繁更新,FuseChat 在 Chat 大模型融合方面更具前景。

机器之心最新一期线上分享邀请到了 SOTA!模型社区 FuseLLM&FuseChat 项目主理人万凡琦,与大家分享使用 FuseChat 融合多个异构大模型的一手经验,并在直播期间在线对融合后的 FuseChat-7B-VaRM 和融合前的 NH2-Mixtral-8x7B、NH2-Solar-10.7B、OpenChat-3.5-7B 进行典型案例对比实测及技术分析,进行技术探讨。


分享主题:Mixtral、Solar及OpenChat三大模型融合,效果能拉多高?

环节1:FuseLLM&FuseChat技术方案分享

-异构大模型融合研究背景

-FuseLLM&FuseChat方法介绍

-实验结果分析

-手把手教你融合自己的 Base/Chat 大模型

环节2:实测分析 + QA 研讨

- 不同场景下与主流闭源/开源大模型性能对比

- 局限性&未来展望

分享嘉宾:万凡琦,FuseLLM&FuseChat 项目主理人;中山大学二年级硕士生,导师为权小军教授。其主要研究方向为自然语言处理与大语言模型,研究兴趣包含模型融合,幻觉缓解,指令微调。曾在 ICLR, ACL, EMNLP 等机器学习和自然语言处理顶级国际会议上以第一作者身份发表论文。

项目链接:

https://sota.jiqizhixin.com/project/fusellm

https://sota.jiqizhixin.com/project/fusechat

分享时间:3月27日19:00 - 20:00

直播间:关注机器之心机动组视频号,立即预约直播。

交流群:本次直播设有 QA 环节,欢迎加入活动群探讨交流。

扫码添加 SOTA!模型社区助手,回复关键词「特别活动」加入活动群机器之心 · 机动组机动组是机器之心发起的人工智能技术社区,聚焦于学术研究与技术实践主题内容,为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动,欢迎所有 AI 领域技术从业者加入。

相关推荐

  • 复刻Sora的通用视频生成能力,开源多智能体框架Mora来了
  • OpenAI进军好莱坞:电影制作用Sora指日可待
  • 成为网红,马斯克Neuralink脑机接口植入者上线表演意念发帖
  • 突发!Stability AI的CEO,跑路了
  • 今日代码 PK | 处理 Spring 事务和锁冲突
  • Redis 有几种缓存读写策略?
  • 几个有点冷门的 vscode 插件,但绝对好用!
  • 3D版Sora来了?UMass、MIT等提出3D世界模型,具身智能机器人实现新里程碑
  • GPT-4「荣升」AI顶会同行评审专家?斯坦福最新研究:ICLR/NeurIPS等竟有16.9%评审是ChatGPT生成
  • 女子早癌病变被漏诊,AI医生在X光中发现!谷歌最新AI听咳嗽就能检测新冠/结核
  • 今日arXiv最热NLP大模型论文:COLING2024发布数据集揭示从莎士比亚时期开始的性别偏见
  • 升级!Sora漫步街头的女人可以跳舞啦!科目三蹦迪多种舞姿停不下来,可精准控制动作
  • GTC 2024 回顾:揭示大模型领域的国内外前沿研究与应用
  • 一文告诉你如何用 Python 操作 ChatGPT
  • 大数据 AI 一体化解读
  • Spring 6 正式“抛弃” feign
  • 10个能用AI来提升收入的方法
  • 董宇辉与戴建业教授同游东湖,“你小子”火了!
  • 工作中最常见的 6 种 OOM 问题
  • 分库分表实战