7.4K Star文生视频Sora开源了?


微信公众号:[开源日记],分享10k+Star的优质开源项目

Sora

前段时间OpenAI发布了文生视频工具Sora火爆全球。Sora是一个能以文本描述生成视频的人工智能模型,由美国人工智能研究机构OpenAI开发。Sora这一名称源于日文“空”,即天空之意,以示其无限的创造潜力。其背后的技术是在OpenAI的文本到图像生成模型DALL-E基础上开发而成的。

imgimg

由于Sora是闭源的,所以GitHub上出现了一个Sora的开源实现。学习研究还是很不错的。

Open-Sora介绍

Open-Sora项目是一个致力于提供高质量视频生成技术并使其普及的开源计划。通过开源原则,Open-Sora不仅使先进视频生成技术成本更低,而且提供了一个简化视频制作流程的方案,让更多人都能轻松使用。本项目让更多开发者有机会探索内容创作领域的创新、创造和协作机会。

文生视频效果展示

  • 向日葵田充满活力的美丽。向日葵排列整齐,营造出秩序感和对称感。
  • 宁静的水下场景,海龟在珊瑚礁中游动。乌龟,有着绿棕色的壳
  • 森林地区宁静的夜景。[...] 该视频是一段延时视频,捕捉从白天到黑夜的过渡,以湖泊和森林作为恒定的背景。

功能描述

  • Open-Sora-v1已经发布,提供了模型权重。只需使用400K视频片段在单卡H800上训练200天(类似Stable Video Diffusion的152M样本),就能够生成2秒长的512×512视频。
  • 项目实现了从图像扩散模型到视频扩散模型的三阶段训练,提供了每个阶段的权重。
  • 支持训练加速,包括Transformer加速、更快的T5和VAE,以及序列并行,使得对64x512x512视频的训练速度提高了55%。
  • 提供了视频切割和字幕工具用于数据预处理,同时还有详细的数据集收集计划。
  • 采用来自Stability-AI的高质量VAE,发现使用添加时间维度的采样会导致生成质量降低。
  • 研究了不同架构,如DiT、Latte和STDiT,最终提出的STDiT在质量和速度之间取得更好的平衡。
  • 支持剪辑和T5文本调节,从而提高用户的定制灵活性。
  • 项目还支持在图像和视频上训练DiT,利用DiT、Latte和Pixart的官方权重进行推理。

功能特点

  • 1.模型权重提供:Open-Sora提供模型权重,让用户能够轻松生成高质量视频。
  • 2.训练加速:采用多种加速技术,提高训练速度,增强效率。
  • 3.数据预处理工具:提供视频切割和字幕工具,方便用户进行数据准备。
  • 4.架构研究:通过研究不同架构,找到在质量和速度之间的最佳平衡点。
  • 5.定制化支持:支持剪辑和文本调节,增加用户个性化定制的能力。

使用场景

Open-Sora适用于那些希望使用先进视频生成技术来创建高质量视频内容的开发者和内容创作者。无论是想要从头开始创建视频,还是对现有视频进行增强、调整,Open-Sora都提供了一套功能强大而简单易用的工具,方便用户实现他们的视频创意。通过Open-Sora,用户可以探索不同的视频生成技术,从而提高视频创作的效率和质量,让内容创作变得更加有趣。

开源地址:https://github.com/hpcaitech/Open-Sora

微信公众号:[开源日记],分享10k+Star的优质开源项目

创作不易分享,,在看,三连支持一波,感谢。↓↓↓


相关推荐

  • 一个人也能做的低成本小生意,变现了20万
  • 一个门槛很低的新方向,70k很稳!
  • 月之暗面技术重磅突破:Kimi200万字上下文窗口内测开启
  • 直击GTC 2024:英伟达推出医疗保健GenAI背后是如何运作的?
  • 无人能复刻英伟达B200!友商抄无可抄,谁能懂?预计30000美元起!黄仁勋摊牌:通用计算过时了!
  • 使用AWS Fargate为OpenCV项目创建无服务器API
  • 手把手教你用LangChain实现大模型Agent
  • 今日代码 PK | Java 使用正则表达式
  • 用了这个浏览器超级助手,效率提高 10 倍!
  • 我被刷几万元的血泪经验。。。
  • 何恺明和刘壮新作:消除数据集偏差的十年之战
  • 微软正式开源专为Windows打造的sudo
  • 有FA开始前置收费了,最高60w
  • 澜舟坚持四两拨千斤:ToB场景落地,10B参数大模型足矣
  • 骁龙最强AI芯能力下放:小旗舰8s发布,端侧运行10B大模型,小米Civi首发
  • Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩
  • 英伟达B200打破摩尔定律!老黄顺便公开GPT-4的秘密
  • “宝藏AI神器”通义听悟上新:超长音视频随便问,高校师生可获500小时免费时长
  • 百万token上下文窗口也杀不死向量数据库?CPU笑了
  • 从简单中窥见高端,彻底搞懂任务可中断机制与任务插队机制