微信公众号:[开源日记],分享10k+Star的优质开源项目
Sora
前段时间OpenAI发布了文生视频工具Sora火爆全球。Sora是一个能以文本描述生成视频的人工智能模型,由美国人工智能研究机构OpenAI开发。Sora这一名称源于日文“空”,即天空之意,以示其无限的创造潜力。其背后的技术是在OpenAI的文本到图像生成模型DALL-E基础上开发而成的。
img
img
由于Sora是闭源的,所以GitHub上出现了一个Sora的开源实现。学习研究还是很不错的。
Open-Sora介绍
Open-Sora项目是一个致力于提供高质量视频生成技术并使其普及的开源计划。通过开源原则,Open-Sora不仅使先进视频生成技术成本更低,而且提供了一个简化视频制作流程的方案,让更多人都能轻松使用。本项目让更多开发者有机会探索内容创作领域的创新、创造和协作机会。
文生视频效果展示
- 向日葵田充满活力的美丽。向日葵排列整齐,营造出秩序感和对称感。
- 宁静的水下场景,海龟在珊瑚礁中游动。乌龟,有着绿棕色的壳
- 森林地区宁静的夜景。[...] 该视频是一段延时视频,捕捉从白天到黑夜的过渡,以湖泊和森林作为恒定的背景。
功能描述
- Open-Sora-v1已经发布,提供了模型权重。只需使用400K视频片段在单卡H800上训练200天(类似Stable Video Diffusion的152M样本),就能够生成2秒长的512×512视频。
- 项目实现了从图像扩散模型到视频扩散模型的三阶段训练,提供了每个阶段的权重。
- 支持训练加速,包括Transformer加速、更快的T5和VAE,以及序列并行,使得对64x512x512视频的训练速度提高了55%。
- 提供了视频切割和字幕工具用于数据预处理,同时还有详细的数据集收集计划。
- 采用来自Stability-AI的高质量VAE,发现使用添加时间维度的采样会导致生成质量降低。
- 研究了不同架构,如DiT、Latte和STDiT,最终提出的STDiT在质量和速度之间取得更好的平衡。
- 支持剪辑和T5文本调节,从而提高用户的定制灵活性。
- 项目还支持在图像和视频上训练DiT,利用DiT、Latte和Pixart的官方权重进行推理。
功能特点
- 1.模型权重提供:Open-Sora提供模型权重,让用户能够轻松生成高质量视频。
- 2.训练加速:采用多种加速技术,提高训练速度,增强效率。
- 3.数据预处理工具:提供视频切割和字幕工具,方便用户进行数据准备。
- 4.架构研究:通过研究不同架构,找到在质量和速度之间的最佳平衡点。
- 5.定制化支持:支持剪辑和文本调节,增加用户个性化定制的能力。
使用场景
Open-Sora适用于那些希望使用先进视频生成技术来创建高质量视频内容的开发者和内容创作者。无论是想要从头开始创建视频,还是对现有视频进行增强、调整,Open-Sora都提供了一套功能强大而简单易用的工具,方便用户实现他们的视频创意。通过Open-Sora,用户可以探索不同的视频生成技术,从而提高视频创作的效率和质量,让内容创作变得更加有趣。
开源地址:https://github.com/hpcaitech/Open-Sora
微信公众号:[开源日记],分享10k+Star的优质开源项目
创作不易分享,赞,在看,三连支持一波,感谢。↓↓↓