登顶新SOTA!阿里新开源语音模型Qwen2-Audio ,实测优于 Gemini-1.5-pro,网友:离GPT-4o只差一步

SOTA水准的Qwen2家族又迎来了新成员!


阿里云发布并开源语音模型Qwen2-Audio。


GitHub:

https://github.com/QwenLM/Qwen2-Audio

论文:

https://arxiv.org/pdf/2407.10759


作为大规模的音频-语言模型,Qwen2-Audio能够接受各种音频信号输入,并执行音频分析或根据语音指令直接进行文字响应。


很妙的是,在Qwen2-Audio支持的语音聊天(但没有音频输出)和音频分析这两种交互模式之间,模型可以自主判断,并在这两种模式之间智能地切换,无需系统提示。


同样让人惊喜的是,Qwen2-Audio模型具备分析音频情绪的能力。当用户对模型说,自己马上就要考试,总是睡不着觉的时候。Qwen2-Audio会识别用户的焦虑情绪,并给予可行的建议。



Qwen2-Audio的两种模式:音频分析和语音聊天


Qwen2-Audio支持两种截然不同的模式:音频分析和语音聊天。


这两种模式通过其功能区分,但模型会自动判断,用户无需感知和进行提示。

在音频分析模式中,用户可以利用Qwen2-Audio分析各种类型的音频,包括语音、声音、音乐或各种混合音频形式。命令可以通过音频或文本发出,Qwen2-Audio将自动识别音频中的命令部分。


如下图所示,Qwen2-Audio相应用户语音发出的翻译命令,通过文字相应完成了该任务。



而在语音聊天模式中,用户可以与Qwen2-Audio进行交互,就像它是一个会话代理一样,进行不受限制的对话。


音频交互是可用的,用户可以随时选择切换到文本交互。例如,如果用户输入一个音频片段,其中初始部分是敲击键盘的声音,随后用户用口语问“这是什么声音?”,Qwen2-Audio预计将直接回应“这是键盘的声音。”


即使在较为嘈杂的环境,例如用户一边听歌,一边发出指令,让模型提取出歌词内容。Qwen2-Audio也能有较好的表现。



从论文中看,Qwen2-Audio在没有特定任务微调的情况下,超越了之前的大型音频-语言模型(LALMs),涵盖了多种任务。



Qwen2-Audio是如何炼成的?


与Qwen-Audio不同的是,Qwen2-Audio的音频编码器基于Whisperlarge-v3模型初始化,负责将音频信号转换为模型可以理解的表示。


Qwen2-Audio使用了Qwen-7B作为其基础组件,模型总参数量为82亿。


在训练素材上,Qwen2-Audio使用了多个数据集。


在对音频数据进行预处理的阶段,音频被重新采样到16 kHz的频率,使用25ms的窗口大小和10ms的跳跃大小将原始波形转换为128通道的mel-频谱图。


此外,还加入了一个步幅为2的池化层,以减少音频表示的长度。最终,编码器输出的每一帧近似对应于原始音频信号的40 ms段。


整个Qwen2-Audio分为三个阶段:


  • 第一阶段:多任务预训练,使用自然语言提示和大规模数据集进行预训练。

  • 第二阶段:监督微调,通过高质量的SFT数据集进行微调,提高模型对人类指令的理解和响应能力。

  • 第三阶段:直接偏好优化,通过DPO进一步优化模型,使其输出更符合人类的偏好。


写在最后


Qwen2-Audio虽然很优秀,但遗憾在没有涉及语音输出。而无论是语音助手、情感陪伴还是更远的具身智能,都迫切需要点亮这棵技能树。



Sora的横空出世,已经肉眼可见地催熟了文生视频的模型技术。


下一个值得关注的模态,似乎正瞄准了GPT-4o,瞄准了语音交互。


根据专家预测,AI语音交互技术将在今年年底发展到基本成熟。


快手凭借可灵获得了一片叫好,那么,语音界令我们惊艳的国产模型,又将花落谁家?



——好文推荐——


AI PC真值得入手?84%电脑发烧友拒绝买单:AI助手成了PDF加载的绊脚石!网友:真不仅仅是性能原因

GPT-4o们其实都是眼盲!OpenAI奥特曼自曝自家模型:推理比人弱。研究证明:多模态能力还差得远,杨立昆上大分


相关推荐

  • 大模型正成为钢铁行业转型升级的关键力量
  • AI 革命不会被垄断:开源力量挑战巨头主导
  • 聚宽揭秘:为什么量化研究员喜欢在Kubernetes上使用Fluid简化数据管理 ?
  • 当互联网遇上制造业,飞书项目的 IPD 解决方案能行吗?
  • 大模型“自学”后能力反下降,Llama/Mistral都没逃过
  • 断网也能用!贾扬清团队推出端侧模型Chrome插件,arXiv/B站/吃瓜一件搞定
  • 提示词用上“过去式“,秒破GPT4o等六大模型安全限制!中文语境也好使
  • GPT-4o mini背后团队揭秘:9人团华人面孔过半,清华北大同济校友在列
  • 招聘|高级NLP自然语言处理工程师(大模型)
  • 数据治理全流程实战剖析,助力业务增长
  • 从0到1:广告营销多智能体架构落地全攻略
  • new String("yupi") 一共创建了几个对象?
  • 看了鱼友的上岸经历,治好了我的内耗!
  • 快手开源大模型长序列训练加速技术,性能大幅超越SOTA方案
  • Neural Networks (CCF-B) 特刊征稿:大语言模型时代的模型压缩
  • 多模态安全偏好对齐数据集SPA-VL,全方位提升多模态大模型安全能力
  • 小红书「REDstar顶尖人才计划」全球启动!
  • LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了
  • 华为GTS LocMoE+:高可扩展性亲和度 MoE 架构,低开销实现主动路由
  • 小模型卷起来了:Mistral联合英伟达开源12B小模型,128k上下文