混元文生图大模型正式开源:15 亿参数、首个中文原生DiT架构、与腾讯现网版本完全一致!


👉目录


1 Sora 同源的 DiT 架构

2 中文原生的理解能力提升

3 全面开放,与现网版本完全一致



5 月 14 日,腾讯正式对外开源了全面升级的混元文生图大模型——首个中文原生 DiT 架构(与 Sora 同架构)文生图开源模型,支持中英文双语输入及理解,参数量 15 亿。
升级后的混元文生图大模型不仅支持文生图,也可作为视频等多模态视觉生成的基础,目前已在 Hugging Face 平台及 GitHub 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用!
开源地址:https://dit.hunyuan.tencent.com/


以下,给大家汇报一下混元文生图大模型的技术亮点!



01



Sora 同源的 DiT 架构
大模型的优异表现,离不开领先的技术架构。升级后的腾讯混元文生图大模型采用了全新的 DiT 架构(Diffusion With Transformer),这也是 Sora 和 Stable Diffusion 3 的同款架构和关键技术,是一种基于 Transformer 架构的扩散模型。
从 2023 年 7 月起,腾讯混元文生图团队就明确了基于 DiT 架构的模型方向,并启动了新一代模型研发。今年初,混元文生图大模型已全面升级为 DiT 架构。

腾讯混元团队认为基于 Transformer 架构的扩散模型 (如 DiT)具有更大的可扩展性,很可能成为下一代主流视觉生成架构:未来,DiT 架构很可能会成为文生图、生视频、生 3D 等多模态视觉生成的统一架构。
在 DiT 架构之上,腾讯混元团队在算法层面优化了模型的长文本理解能力,支持最多 256 字符的内容输入,达到行业领先水平。同时,在算法层面创新实现了多轮生图和对话能力,可实现在一张初始生成图片的基础上,通过自然语言描述进行调整,从而达到更满意的效果。
数据显示,在通用场景下,基于 DiT 视觉生成模型的文生图效果,视觉生成整体效果提升20%,画面真实感、质感与细节、空间构图等全面提升,并在细粒度、多轮对话等场景下效果提升明显。


02



中文原生的理解能力提升
此前的主流文生图开源模型如 Stable Diffusion,核心数据集以英文为主,在此之上的中文应用本质上是通过中译英的方式处理文本,经常出现牛头不对马嘴的理解偏差,生成莫名其妙的结果图片。

混元文生图是首个中文原生的 DiT 模型,具备中英文双语理解及生成能力,在古诗词、俚语、传统建筑、中华美食等中国元素的生成上表现出色。
生成示例:请将“杞人忧天”的样子画出来


03



全面开放,与现网版本完全一致
基于此次开源的文生图模型,开发者及企业无需重头训练,即可直接用于推理,并可基于混元文生图打造专属的 AI 绘画应用及服务,能够节约大量人力及算力。透明公开的算法,也让模型的安全性和可靠性得到保障。
值得一提的是,本次开源版本与腾讯混元文生图产品(包括微信小程序、Web端、云 API 等)最新版本完全一致,基于腾讯海量应用场景训练,个人和企业开发者均可免费商用,与社会共享最新成果!
最后,欢迎各位开发者和企业客户试用,诚邀大家参与一起共建!
拍砖地址:https://dit.hunyuan.tencent.com/
-End-


你对混元文生图大模型有什么期待?使用体验如何欢迎评论留言。我们将选取1则优质的评论,送出腾讯云开发者定制眼罩1个(见下图)。5月21日中午12点开奖。


📢📢欢迎加入腾讯云开发者社群,享前沿资讯、大咖干货,找兴趣搭子,交同城好友,更有鹅厂招聘机会、限量周边好礼等你来~


(长按图片立即扫码)







相关推荐

  • 都2024年了,串口通信还在用TTL?
  • 10.1K Star零门槛上手音频转文字工具
  • React19 她来了,她来了,他带着礼物走来了
  • GPT-4o成全球网友新玩具,秒秒钟纸质原型转录初始HTML,网友:谷歌你是一点流量摊不上啊
  • 蚂蚁百灵大模型一号位:GPT-4o发布不意外,原生多模态方向已明
  • Ilya出走加剧OpenAI离职潮!RLHF作者Jan Leike同日辞职,超级对齐项目分崩离析
  • AI拉货挣钱,已经绕地球2500圈了
  • 字节跳动大模型首次全员亮相:一口气9个,价格低99%,没有参数规模和榜单分数
  • 告别3D高斯Splatting算法,带神经补偿的频谱剪枝高斯场SUNDAE开源了
  • 首个中文原生DiT架构!腾讯混元文生图大模型全面开源,免费商用
  • 谷歌反击:Project Astra正面硬刚GPT-4o、Veo对抗Sora、新版Gemini变革搜索
  • Ilya官宣离职,超级对齐负责人Jan直接辞职,OpenAI还是走散了
  • 大模型价格进入“厘”时代,豆包大模型定价每千tokens仅0.8厘
  • 使用VPN“翻墙”违法,为什么大部分人都没事?
  • 70岁洗发水之王,20亿卖了
  • 今日arXiv最热NLP大模型论文:又到美国大选年,南加大教你如何用ChatGPT影响竞选
  • 终于!OpenAI首席科学家 Ilya 离职
  • 阿里云发布通义千问2.5,中文性能全面赶超GPT-4-Turbo
  • 字节女员工:大厂被裁,带着260万存款回老家种地。每月利息4961.21元
  • 熬了快两个月,终于拿到了淘天offer!