刚刚!Stable Diffusion 3 重磅开源,超全图像生成必备训练数据集、教程汇总

Stability AI 已经正式开源 Stable Diffusion 3(简称 SD3)!SD3 是一个图像生成模型,只要给定一段描述性的文字,就能够创造出与之匹配的视觉作品。下图就是由 SD3 生成的图像。



* prompt

史诗级动漫作品:一位巫师在夜晚的山顶上向黑暗的天空施放宇宙咒语,咒语上写着「Stable Diffusion 3」,由五彩缤纷的能量组成


在 SD3 的背后,是庞大的图像-文本对训练数据集。这种模型通常需要通过训练大量的数据,学习如何将文本描述转化为图像。


如果你也想训练这样一个 SD 模型,却苦于没有合适的数据集,HyperAI超神经汇总了 10 个优质的图像-文本对数据集助你打造个性化的图像生成模型。除此之外,小编还在最后分享了 3 个基于不同架构开源的图像生成教程,供大家体验创作。


SD3 开源地址:

https://huggingface.co/stabilityai/stable-diffusion-3-medium



图像-文本对数据集




1

WIT 图像-文本数据集

发布机构:Google

发布时间:2021 年

预估大小:25.2 GB

下载地址:https://go.hyper.ai/yUtLy


WIT 全称 Wikipedia-based Image Text,是一个大型多模态多语言数据集,由 3,760 万个丰富的图像-文本示例的精选集组成。该数据集的规模使其可以用作多模态机器学习模型的预训练数据集。


2

RedCaps 图像文本对数据集


发布机构:密歇根大学

发布时间:2021 年

预估大小:1012.72 MB

下载地址:https://go.hyper.ai/DmgJl


RedCaps 是一个大规模的图像-文本对数据集,数据源自 Reddit,总数达 120 万。这些图片和文本描述了各种各样的物体和场景。


3

MMDialog 开放域多轮对话数据集


发布机构:北京大学

发布时间:2022 年

预估大小:19.19 GB

下载地址:https://go.hyper.ai/g8NUx


MMDialog 是一个大规模的多模态开放域对话数据集,包含 108 万个完整对话 session,超过 4,000 个对话主题,以及 153 万张非重复图像,每个对话 session 有平均 2.59 张图像。


4

DVQA 图像问答数据集


发布机构:罗彻斯特理工学院

发布时间:2018 年

预估大小:5.42 GB

下载地址:https://go.hyper.ai/MpEAm


DVQA 是一个在问答框架中测试条形图理解的数据集,涵盖了大量通用的柱状图风格,包含 30 万张图像对应的约 348 万个问题答案对。


5

DAQUAR 真实世界图像问答数据集


发布机构:马克斯-普朗克计算机科学研究所

发布时间:2018 年

预估大小:414.12 MB

下载地址:https://go.hyper.ai/7KUwg


DAQUAR 是一个关于图像的人类问答的数据集。该数据集的图像来自于 NYU-Depth v2 数据集,内容都是关于室内场景的 RGBD 图像,其中 795 张用于训练,654 张用于测试。


6

COYO-700M 图像-文本对数据集


发布机构:Kakao Brain

预估大小:30.31 GB

发布时间:2022 年

下载地址:https://go.hyper.ai/eFJe9


COYO-700M 包含了 7.47 亿个图像文本对以及许多其他元属性,收集了 HTML 文档中许多信息丰富的替代文本及其相关图像对。


7

TDIUC 视觉问答数据集


发布机构:罗彻斯特理工学院

预估大小:37.97 GB

发布时间:2017 年

下载地址:https://go.hyper.ai/8Nweu


该数据集是一个视觉问答数据集。数据集包括来自 MS COCO 和视觉基因组数据集的 160 万个问题及 17 万张图像,可用于评估模型稳健性及推理能力。


8

Visual7W 视觉问答数据集


发布机构:斯坦福大学

预估大小:1.76 GB

发布时间:2016 年

下载地址:https://go.hyper.ai/ZnRQE


Visual7W 是一个图像内容理解的数据集,通过对图像区域的文字描述和互相之间的关联,进行视觉问答 (Visual Question Answering) 任务,数据集中不仅包含图像本身,还包括图像区域内容相关的问答。


9

KVQA 问答数据集


发布机构:海得拉巴国际信息技术学院

预估大小:84.45 GB

发布时间:2016 年

下载地址:https://go.hyper.ai/IYGFO


该数据集是一个关于问答的数据集。数据集包含手动验证的 18.3 万个问答对,涉及超过 1.8 万人和 2.4 万张图像。


10

CxC 图像字幕数据集


发布机构:Google

发布时间:2020 年

下载地址:https://go.hyper.ai/as1Fl


该数据集是一个图像字幕数据集,包含 247,315 个人工标记的标注。




图像生成教程




1

InstantID 个性化写真生成 Demo


在线运行:https://go.hyper.ai/Eq4zl


InstantID 是一个基于扩散模型的图像生成解决方案,能实现从单一参考图像到多样化风格化写真的快速生成。只需上传一张自拍,20 秒就能得到定制版 AI 写真。


2

ComfyUI InstantID 工作流在线教程


在线运行:https://go.hyper.ai/HSPr7


ComfyUI InstantID 工作流可以将普通的人像照片转换成具有高度个性化风格的艺术作品,在风格迁移过程中,算法会将一幅图像的内容与另一幅图像的风格相结合,生成一幅新的图像,既保留了原始图像的内容,又具有了另一幅图像的艺术风格。这种技术被广泛应用于艺术创作、图像处理和视觉效果等领域。


3

ComfyUI Stable Cascade 工作流教程


在线运行:https://go.hyper.ai/lJGLF


该教程为 AI 绘画 ComfyUI Stable Casecade 工作流使用教程,教程已经搭建了好环境,内置了 Stable Cascade 默认文生图工作流,直接将节点连接完成,简化使用流程,2 秒即可出图。Stable Cascade 建立在 Würstchen 架构之上,可以同时保持高质量输出和高效的推理速度。


更多 AIGC 教程,请访问:

https://hyper.ai/tutorials

往期精彩回顾



  • 交流群

欢迎加入机器学习爱好者微信群一起和同行交流,目前有机器学习交流群、博士群、博士申报交流、CV、NLP等微信群,请扫描下面的微信号加群,备注:”昵称-学校/公司-研究方向“,例如:”张小明-浙大-CV“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~(也可以加入机器学习交流qq群772479961


相关推荐

  • 字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果
  • 【机器学习】优化预测速度 部署机器学习模型的7个要点
  • 大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4
  • 公司现在只发50%的工资,我就出去面试!没想到碰上了领导,他说这公司不行,你不用面了!结果我面试后,HR给我涨薪30%。这是为啥
  • AI研究的主要推动力会是什么?ChatGPT团队研究科学家:算力成本下降
  • 网传南方医科大学老师为抢救患儿迟到29分钟,被举报扣款2000元?
  • RAG落地中的文档智能处理经验及6月份半月度大模型等进展分享回顾
  • 摸鱼网站精选分享第三番
  • 17岁中专女生姜萍拿下数学竞赛全球第12名!我试着做了这套题,给跪了...
  • 腾讯混元、北大发现Scaling law「浪涌现象」,解决学习率调参难题
  • KDD2024-WhoIsWho-Top3开源方案
  • VSCode无限画布模式(可能会惊艳到你的一个小功能)
  • 管理员如何踢掉登录用户?
  • 3D 版 SORA 来了!DreamTech 推出全球首个原生 3D-DiT 大模型 Direct3D
  • 2024阿里巴巴全球数学竞赛试题&答案
  • 65W!确实可以封神了!
  • Spring Boot集成vaadin快速入门demo
  • 全网最佳websocket封装:完美支持断网重连、自动心跳!
  • 实用技巧,用lsof命令监控tar文件解压进度,简单有效!
  • 10个非常炫酷的 JavaScript 动画库!!!