▲头图由天工AI生成
中国首个音乐AIGC SOTA模型,综合评分超越Suno V3。作者 | 香草▲广场舞神曲版《再别康桥》(来源:智东西)
天工3.0大模型的发布,代表了昆仑万维“All in AGI与AIGC”战略路径上的又一里程碑时刻。功力大增的天工3.0大模型,到底有多好用?能在哪些方面显著提升生产力?智东西第一时间体验了天工3.0。▲天工3.0成为全球最大开源MoE大模型
天工3.0基座大模型在逻辑推理能力、语义理解能力、应对复杂需求能力和内容创作能力4个方面大幅提升。作为多模态大模型,天工3.0集成了AI搜索、AI写作、AI长文本阅读、AI图片生成、AI音乐生成等功能,在MMBench等多项权威多模态测评结果中超越GPT-4V。▲天工3.0多模态性能超越GPT-4V
基于模型能力的提升,天工3.0还新增了多轮搜索及综合工具调用、AI搜索研究模式、AI搜索增强模式等功能,可以高效地完成产业分析、产品对比等各类复杂需求。在研究模式中,天工3.0能够围绕简单指令进行相关问题的延伸,自动生成研究大纲、图谱、实践总结、思维导图等。例如,我让天工3.0研究“OpenAI发展历程”。在全网搜索后,它能以分段提炼等形式呈现搜索结果,并自动总结大纲、绘制思维导图。▲天工3.0总结OpenAI发展历程(图源:智东西)
在增强模式中,天工3.0能够针对用户的复杂Query进行拆解、细化,通过追问、信息理解与补全,使其在自然语义理解方面性能更强,更好地面对不确定性知识。比如我输入了提示词“2024年科技圈”,这个需求的难度是比较大,会包含多种细分需求的提示词。天工3.0能立即意识到这个问题并进一步追问,它还贴心地提供了行业发展趋势、产品市场规模、投资环境等方向选择。在我选择“发展趋势”后,它基于联网获取的资料很快给出了包含AI、AIoT、新能源等趋势信息的回答。▲天工3.0增强模式(来源:智东西,视频有加速)
基于多轮搜索及综合工具调用功能,天工3.0可以将用户任务拆解成细分环节,实时判断是否需要联网或调用工具,进行单轮或多轮的联网搜索、工具调用。联网当然要考察最新的时事热点,我决定问问天工3.0“成都迪士尼”最近为什么这么火,天工3.0随即准确地解释了这个梗的来源及事件经过。然后我跳转话题,问“迪士尼游玩攻略”,天工3.0联系上下文,给出了成都的出行攻略。改成问上海迪士尼的天气也完全没问题,通过调用天气组件工具,天工3.0能够直接给出近几日上海的天气预报。▲天工3.0多轮搜索及综合工具调用功能(图源:智东西)
在图像生成方面,天工3.0的改图扩图能力取得突破,可以让它绘制一张风景图,并逐步在图中增加新的物品或元素:▲天工3.0图像绘制(图源:智东西)
对于用户而言,天工3.0不仅适用于产业分析、市场研究、产品对比、知识管理等工作场景,也适用于内容创作、教育培训、智能搜索、语音合成、图像和音乐生成等娱乐场景。学生党、打工人可以利用天工3.0的研究模式和增强模式,通过简单的查询获得全面而精炼的资料,文献搜集、资料汇总等所需的时间大幅缩短,提升工作学习效率。内容创作者可以利用天工3.0的AI音乐生成、AI语音、AI图像生成等功能,提高创作效率和质量,同时创作门槛降低,人人都可以成为“作曲家”、“插画师”。此外,在ToB领域,企业用户也可以利用天工大模型构建专属Agent,实现专属知识库,实现自动调用制定工具、完成复杂指令遵循Agent构建等,提升工作效率、优化决策过程、增强产品和服务的竞争力。▲天工SkyMusic综合性能超越Suno V3
天工SkyMusic可以生成80秒44100Hz采样率双声道立体声歌曲,支持生成说唱、民谣、放克、古风、电子等多种音乐风格,还能学习颤音、歌剧、吟唱、男女对唱、自动和声等歌唱技巧。此外,天工SkyMusic还拥有独创的参考音乐生成与方言歌曲生成能力。用户可上传或选取现有的参考音乐,生成与之风格、唱腔类似的歌曲,进一步降低了使用门槛;也可以生成粤语、成都话、北京话等方言,传播地域文化。其使用方法也非常简便,用户只需下载天工APP,填写歌词或使用AI生成歌词,再选择或上传一首参考歌曲,点击“生成”即可在不到半分钟的时间内生成音乐,并且每首歌都提供三个版本可供选择。基于天工SkyMusic的SOTA能力和情感表达优势,你可以为自己喜欢的古诗词配上旋律:▲抒情版《长恨歌》(来源:智东西)
这首《长恨歌》是我用徐佳莹的歌曲《身骑白马》作为参考生成的,天工SkyMusic生成的音乐在伴奏上层层递进,在旋律上也体现出了主歌和副歌的段落差异。也可以将网络热梗改编成说唱版:▲说唱版网络热梗(来源:智东西)
这段话是近期网络上比较火的“加密文学”,参考音乐是天工官方提供的一则说唱指南。作为“音乐小白”,我对说唱歌曲中的Verse、Flow等专业术语了解并不多,但能听出来这个AI嘴皮子确实挺快(Doge)。如果不想选择现有的歌词,可以通过AI生成歌词功能,让AI为你续写。以下是我用AI生成的关于“不想上班”的文案,基于“土味神曲”《5:20AM》生成一首新歌:▲AI创作土摇版歌曲(来源:智东西)
方言歌曲生成能力方面,智东西选取了陈奕迅经典粤语歌《富士山下》的歌词,以周杰伦的《青花瓷》作为参考曲目输入,生成了这首具有国风特色的青花瓷版《富士山下》:▲青花瓷版富士山下(来源:智东西)
如此逼真的人声“以假乱真”能力,以及高度还原音乐风格等各种环节的可控性,天工SkyMusic是如何做到的?据了解,现有AI音乐大模型企业普遍没有公开自己的技术路径,因此没有可借鉴和参考的开源音乐大模型。昆仑万维在技术路径探索上做了非常多的尝试,花费了大量研发资源,最终摸索出下图这条路:▲天工SkyMusic技术原理图(图源:昆仑万维)
在AI音乐生成领域,有两大技术路径,符号派与大模型派。天工SkyMusic选择了难度更大、效果更好的大模型音乐音频生成路线。在音频生成路径上,又有三个细分领域:Song、BGM、Speech。过去很多AI音乐研究都集中在无人声的BGM领域,有人声的Song赛道几乎没有好的解决方案。而天工SkyMusic,就是在Song领域取得了极大突破,大幅提高了AI音乐生成技术在Song领域的模型表现,开创了音频生成大模型的成功案例。具体来说,天工SkyMusic采用与Sora类似的模型架构,包含三大核心模块——Encoder、DiT(Diffusion Transformer)和Decoder。其中,Large-scale Transformer负责谱曲,学习Music Patches的上下文依赖关系,同时完成音乐可控性;DiT负责演唱,通过LDM(Latent Diffusion Model)让Music Patches被还原成高质量音频。从上述案例及跟Suno V3的横评中可以看出,相比海外其他AI音乐大模型,天工SkyMusic在AI人声合成的细腻度、可识别度上表现优秀,咬字发音,并且支持粤语、成都话等方言语种。虽然尚处于起步阶段,但天工SkyMusic已经让很多用户感受到了音乐创作的乐趣。同时,昆仑万维选择将宝贵的技术架构公开,也体现了其对开源社区生态、产业共同发展的重视。2024年中国生成式AI大会预告