本文主要回答以下问题:
Sora 架构是什么?
其编解码器是什么?
训练数据多大?
是否大量使用模型再生数据?
模型规模和训练成本几何?
大语言模型应扮演什么角色?
复刻 Sora 应关注的重点是什么?
01. 通用的多模态模型架构 通用的多模态模型架构:以文生视频为例由于目前还处于技术早期、没有收敛,各种视频相关模型的分类或讲法比较混乱,有的分类甚至都不在同一个维度,为人们研究文献造成了不少困惑。所以,为理解 Sora 的技术原理,我们梳理了各类文献,首先定义一个较为通用的多模态模型框架。为了描述方便,以文生视频任务作为案例。一般而言,一个多模态处理数据系统大概分为三大模块或步骤:
1. Tokenizer/Encoder(分词或编码器):通过在空间和时间维度上压缩视频数据来获得隐含表示(Latent Representation),然后切块(Patchify),即把隐含表示单元化为“时空切片”(Spacetime Patches)。
这里的 Patch 就是大家常说的 Token,数据处理的原子性单位。注意,每一个 Visual Token 的具体数值可以是离散表示(可以用 VQ-VAE),也可以是连续的表示(可以用 VAE)。
2. Cross-modality Alignment & Transfer(跨模态对齐和转换生成) :当各种模态的数据都压缩到同一个隐含的空间后,模型需要在隐含空间进行对齐或转换。具体来说,训练时是对齐,推理时是转换。
比如说文生视频,训练时主要是寻找文本和视频之间、以及视频内部在时空维度的对应关系,推理时是把文本 Prompt 转换成视频。这个步骤又有两个维度的选择:
网络框架 (U-net vs Transformer):用来表示这个对齐或转换的神经网络可以是 U-net,也可以是 Transformer。
模型 (Diffusion vs Autoregressive):如果选择扩散模型(Diffusion),优化目标是预测噪音;如果选择自回归模型(Autoregressive,比如 GPT),优化目标是预测下一个 Token。
解码器把第二步生成的 Latent Tokens 还原成 Image/Video,这个一般是第一步 Tokenizer 的反向过程,但也可以单独训练一个解码器。
上面这个框架跟大语言模型(LLM)基本上是一致的,只不过语言模型里的文本模态的 Tokenizer/De-Tokenizer 是非常简单的输入输出接口,我们熟知的 GPT 主要是第二步。
两种不同的视频生成模型架构基于上面的通用架构组件,我们可以组合出多种不同的架构。一般来说,虽然 Tokenizer/De-Tokenizer 很重要,但我们常讨论的焦点是跨模态对齐和转换生成,模型架构的核心部分。这至少有下面几种可能:
Diffusion 模型:这里有用 U-net 来建模的,代表模型包括 SD、Gen-2、Pika 等。也有把 U-net 换成 Transformer 的,代表架构是 DiT(Diffusion Transformer),Sora 被广泛认为采用了 DiT 或其变体,属于此类。相较于 U-net, DiT 利用 Transformer 强大的 scale 能力可增强视频的生成质量。
GPT 模型:这种方法借鉴 LLM(主要是 GPT)来建模文本和视频的对齐和转换。借助于 GPT 的长上下文窗口,视频生成过程中的连贯性和一致性会得到更好的保障。此外,这种 GPT 模型还天然继承了 LLM 友好的对话式 Prompt 接口,并可利用 in-context learning 加强处理各种新任务的能力。
一般来说,GPT 从文本生成视频的隐含空间的 Tokens,后续还有把 Tokens 转换成 Pixels 级别视频的过程,具体有下列几种实现方式。
GPT + Codec Decoder
GPT 模型直接输出视频的 Tokens 表示,经过 Codec Decoder 可还原为 Pixels 级别的视频输出。该方案中,Codec Decoder 的还原能力决定了最终的生成质量。
GPT + Super Resolution (non-autoregressive Transformer / Diffusion)
GPT 模型输出“视频蓝图”(video blueprint)的 Tokens 表示,蓝图经过后处理模型实现超分辨率(SR:Super Resolution)渲染。该后处理模型可以是 non-autoregressive 的 Transfomer 模型(例如 videopoet 里用到的);也可以用 Diffusion 做 SR。
End-to-end GPT(端到端的自回归模型)
上面 a 和 b 方法,除了开发 GPT 大模型外,还得有专门的后处理模型(比如 Diffusion)负责高分辨率视频的解码生成。然而,随着 GPT context 窗口不断加长(最新进展甚至可望达到数百万甚至千万 Tokens 的超长窗口),纯 GPT 模型其实也可以直接建模 Diffusion 那种从粗到细的过程,也就是说粗线条的上一版本的 Token 序列,可以成为下一个更细版本的 Token 序列的 context。
种端到端 GPT 模型特别有益于研发:研发团队只用聚焦一个模型架构,专注于把 GPT 里的每一细节做到极致,其它工作主要就是搞数据以及优化 Tokenizer/De-Tokenizer 的各模态接口。笔者非常期待这种连视频后处理都可以一体化的多模态 GPT 的出现。出门问问有自己的 LLM,同时也一直在积极探索视频生成的应用场景,所以我们也正致力于研究和尝试这种创新模型。
上述架构都预设还有专门的在视频和 Token 之间进行转换的的 Tokenizer/De-Tokenizer(编解码器)。但是,未来的发展可能会看到更多创新的尝试,比如直接使用单个 VQ-VAE Decoder 并把它 scale up 来生成视频,甚至消除中间隐含空间的存在,理论上也行得通。这样的方法进一步简化了模型架构,可望提高模型的推理速度,但同时也要求模型能够更直接地从文本或其他模态的输入中获取语义对齐信息。
02.Sora 模型架构及其编解码器 Sora 模型架构虽然无法得到 OpenAI 的确认,很多人猜测 Sora 采用的是类似 DiT 架构,但从图片生成扩展到视频生成,并真正实现了视觉模型的规模化(scale up),从而产生了惊人的效果。
Sora 的 Tokenizer/De-Tokenizer除了核心架构外,编解码器也很重要。Sora 的技术博客没有太多提及这个。笔者翻阅了一些文献,觉得下面几个项目是最相关的。
ViT(2021 年 6 月): 很早就提出 Patchify 概念,用 Transformer 把图片转换成 Tokens。
ViViT(2021 年 11 月):很早就提出时空 Patch 概念,把 ViT 从图片拓展到视频,把视频转换成 Tokens。
NaViT(2023 年 7 月):以前的 Tokenizer 一般只能处理固定的分辨率和纵横比,一般会在训练前把各种分辨率或纵横比的数据转换成系统能处理的统一格式。NaViT 主要解决了这个问题,可以处理不同分辨率和纵横比的视频数据。
MAGViT V2(2023 年 10 月):以前的 Tokenizer 针对图片和视频一般是用不同的 Vocabulary 分开处理,MAGViT V2 把图片和视频整合到同一个 Vocabulary 里,使得图片和视频能够在同一个模型中进行联合训练。另外,以前 Vocabulary 的规模一般比较小(比如说 8192),而 MAGVit V2 用了一种 Lookup-free 的办法,把 Vocabulary 的规模做到了 26 万,从而显著提高了视频的压缩和生成质量。
Sora 的技术博客强调了把视频数据转换成时空 Patch/Token,也强调了视频和图片的联合训练,还强调了它能处理不同分辨率和纵横比的训练数据。它也引用了上列文献,但就是不透露 OpenAI 具体怎么用的,做了哪些改造或创新?它甚至有点故意把大家的注意力转移到从复刻角度不那么关键的 DiT 那里。这是不是有点“狡猾”呢?
另外,你猜上述这些项目和对应论文是谁发表的?对,就是 OpenAI 隔壁那个经常起个大早赶个晚集的 Google 同学。
03. 训练数据多大?OpenAI 并没有告诉我们训练数据的规模。如果我们理性猜测,会是多少呢?
先说结论:图片可能是数十亿张、视频数据至少数百万小时;图片和视频 Tokenize 后总的 Tokens 数量可能在数十万亿级别。
为什么呢?下面提供两种思路来估算。
从过去的语音、图片、视频模型的数据规模来计算语音:语音处理的经验表明,基线数据要达到 100kh,Tokenize 后的 Token 数量大约在一百亿(10B)左右。这与亚马逊发布的“BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data”报告基本一致。如果要能生成世界多个语言的语音,至少要 1,000kh 数据,即千亿 (100B) Tokens。
图片和视频:下表是最近几年的几个代表性图片 / 视频模型的数据。图片基本上从几个亿到几十亿张,换成小时大概是数万小时,已有论文提及视频数据大概在数十万小时;Sora 模型的视频数据至少要再提升一个量级,即数百万小时。
按照 MagVit 编码压缩方案,如果 128*128 分辨率 8 fps 的视频,2.125 秒需要 1280 个 Tokens,那一分钟 60/2.125*1280 ~= 3.6 万个 Tokens,一个小时就是约 216 万 Tokens。如果是 10 万个小时视频,那就是 2160 亿 Tokens。
但 Sora 用的训练数据可能是数百万小时,而且一般视频的分辨率也超过 128*128,所以最终的 Tokens 量应该至少是十万亿级别起步。作为参考,如果 Sora 用了 500 万小时视频数据训练,那它使用的数据量大约相当于 Youtube 上 9 天的数据产出量。
从各模态的学习复杂度来推测观察学习任务的复杂度,我们看到从语音到图片再到视频是跳跃性递增的,从而对于数据量需求也相应递增。模态之间以一个量级递增的话,我们可以大体估算所需的数量。
具体来说,如果将声音数据的需求定位在千亿(100B)级别的 Tokens,那么图片数据则需要上升到万亿(1,000B)级别的 Tokens。进一步,视频数据的需求量可能要十万亿(10,000B)量级的 Tokens。这种估算与我们通过具体计算所得出的结论大致相符。
04. 是否大量使用模型再生数据?我们可以猜测 Sora 主要通过爬取大量的 Youtube 数据进行训练。Youtube 里也有大量的游戏数据,所以,很可能其中也涵盖了通过类似虚幻引擎(UE)这种 3D 渲染技术制作的 3D 运镜数据。
不像图片,视频数据往往缺少精准的文字标注。Sora 技术报告明确说,他们将所有的训练视频与文本对齐,由 Dalle-3 为之生成相应的 captions。
尽管这是自动生成的文本数据,全覆盖也是一项不小的工程。如果是外人需要 API 调用他们的模型来做这项标注工作,开销也不少。
其实,这次 Sora 比较让人意外的 practice 也正是这点:他们几乎是“无所顾忌”地大量使用再生数据。除了再生所有的 captions(相当于视频解说或“脚本”),他们也利用 GPT-4 对于用户的 Prompt 做自动扩写,增加对视频场景的细节描述,以便与训练数据 captions 更好对齐,帮助产生更加逼真并具有丰富细节的视频。
最后,不少人也相信 Sora 训练中 UE 再生的高保真游戏场景数据也不为少数,否则它模拟数字世界的高保真游戏场景如此逼真,是很难想象的。
在大模型领域,以前大家都强调使用经过清洗、去重的高品质“原生数据”(natural data),以为这才是正道。这里面的一个隐含假设是:因为原生数据是人创造的(等于是人类的自然“标注”),AI 只要跟人学,就能学到真经、修成正果。而用模型或引擎产生的再生数据,被认为是等而下之的。
所以,有一阵子有不少人或明或暗使用 GPT-4 的再生数据来训练自己的模型(所谓“蒸馏”),都有些犹抱琵琶半遮面不好意思的样子。当然,这也有 Open AI 自己给出的其实是相当荒谬而且实际上无法真正 enforce 的条款:不得大规模使用它的生成数据来训练其他模型。
说它荒谬是因为它自己据以培训 GPT 系列的很多数据其实也没有得到充分的授权,例如前不久报道,纽约时报正在起诉他们侵权,而没有对簿公堂的不知道还有多少数据没有得到授权。其实,在大数据大模型时代,过度强调版权授权可能会限制 AI 的发展。因此,人类需要找到保护版权和推动科技进步之间的合理平衡点。
实际情况是,AI 目前比较成熟的大模型,例如 GPT4v,Gemini1.5,Claude,MidjourneyV6/Dalle-3,还有国内的一些大模型(包括出门问问「序列猴子」),其数据生成的品质已经超过了人类生成的“原生”数据的平均品质。
实际上,对于很多标注任务,模型也比人类标注员更加稳定一致,平均质量往往不亚于人类标注员(在工作 / 时间压力下)的水平。
何况,在这个真假莫辨的时代,再生数据在不久的将来会与原生数据混杂在网上流转,其实没有办法与原生数据从品质上完全分开。
最后,人类的原生数据总有耗尽的一天。人类作为碳基生命体,其产生数据的效率远不及硅基模型。后者只要有电力供应,便能无限制地生成数据。
总之,Sora 给我们的一个重要启发是,只要对自己需要的数据有明确的目标,尽可以放心使用当代大模型去生成数据,以此取代昂贵而低效的人工标注。这样生成的结果,往往比只用原生数据更好。
话说回来,再生数据可以被这样规模化的利用,达成惊艳的效果,也是一个最近半年出现并被大家意识到的新现象。此前的模型还不够给力到可以让人信赖其生成品质。
现在的超大模型几乎强于任何人类个体,我们已经到了应该重视再生数据,让模型养模型的时代。
顺便提一句,“让模型养模型” 的另一个顾忌不是因为害怕机器品质不足,而是一种人类的“心理障碍”。因为理论上,再生数据的自动回流,馈送给模型去再训练和迭代,这描绘出了一幅“可怕”的前景:AI 理论上可以自主提升迭代,人类无关了、出局了。自我授予光环的自封“万物之灵”的人类,何以堪耶?
05. 模型参数规模和训练成本几何?一如既往,不再 Open 的 OpenAI 没有透露 Sora 的参数规模,更不会告诉我们用了多少算力、花了多少钱,那我们如何猜测呢?
首先,先说直觉猜测答案:Sora 的模型参数规模是百亿级别,训练成本是千万美元级别。
我们尝试用过去论文(GPT、OPT、DiT 等)里报告的 GPU 使用量,采取一种非常数据驱动的方式,自底而上来计算这个项目的规模和成本。我们也尝试了让工程师用出门问问训练序列猴子模型的实战经验来推演。但最后由于涉及的变量太多而很难得到一个一致的结论。
最后,我们决定从预算角度以 Top Down 的方式来审视这个问题。
从算力的预算来推测如果我是 OpenAI 的 CEO,鉴于视频模态的重要性,以及视频生成技术仍处于早期阶段尚未收敛,我可能决定投入与训练一次语言模型相当的预算来研发视觉模型。鉴于现在的大模型公司的 LLM 主流模型是千亿级别的,那训练一次千亿 LLM 的算力预算大概是多少?
如果 LLM 的规模是一千五百亿(150B)参数,训练数据是三万亿 Tokens,那算力成本大概在千万美金左右。
那么,千万美金级别的预算能支撑多大规模的视频模型训练呢?回答这个问题先要理解两个基本结论。
第一,训练 LLM 模型的算力消耗与“模型参数的规模”和“训练数据的 Tokens 数量”的乘积基本成正比。同样的算力预算,我们可以调整模型的参数规模和训练数据的规模之间的比例;过去一年的趋势是把模型参数规模变小、但是训练数据增多(所谓大数据、小模型)。另外,在维持训练算力不变情况下,如果模型变小,也有利于推理时的成本和速度。
第二,虽然 GPT LLM 是自回归模型,Sora 是扩散模型,但它们都是基于 Transformer 网络结构,在相同规模的模型参数和序列长度的情况下,单步训练在理论上计算量是相当的。所以,我们基本上可以用过去训练 LLM 的算力需求来推演视频扩散模型 Sora 的训练算力需求。(注意,类 DiT 扩散模型虽然在推理阶段需要进行多次采样以迭代出最终结果。但在训练阶段,扩散模型并不需要多次采样。这里的关键是,单个样本在每个训练步骤中是随机选择一个时间点来计算损失,而不是连续多次采样。所以,在同等参数规模和 Tokens 数量下,DiT 类扩散模型与 LLM 模型消耗的算力是相当的。)
基于上面两点,如果训练一个千亿参数规模的语言模型的预算是千万美金,用这个预算来训练视频模型,而且如果视频的训练数据规模跟语言模型差不多的话,那么视频模型的参数规模也会跟语言模型差不多,也就是千亿级参数。
但是,考虑到视频数据的复杂性,其 Tokens 数量可能比文本高一个数量级。所以,同样训练算力预算下,视频模型的参数量会比语言模型少一个数量级,也就是说百亿级参数。这也符合过去一年 LLM 训练的大数据、小模型的趋势。
另外一个相信 Sora 会是小模型(百亿而不是千亿级别)的理由是推理的成本考虑:由于 Diffusion 模型在推理时会采样多次(比如 20 次),如果模型太大,那推理时长和成本会不会给规模化应用造成困扰?所以,要产品化的 Sora,就算现在不是小模型,未来也必然要往小模型方向优化。
当然,上面的推测还是非常粗糙的,甚至有可能错得离谱,比如说 Sora 的训练成本往上也许是上亿美金,往下也许是百万美金。模型参数规模也有可能是更大到千亿级别,只不过预算不变的话数据规模就得变小。
任何一个因素的变化都会导致上面的估算偏离实际。比如,经过过去一年对 GPT 大语言模型训练的努力,GPT 模型的优化程度比类 Sora 扩散模型可能高很多。训练成本取决于所用的计算框架、算力单价、算法框架的优化程度、GPU 的计算利用率、工程人员训练模型的熟练度等诸多因素,所以实际各家公司成本会有数倍的区别,同一个公司在不同的阶段成本也有很大的差异。
以出门问问「序列猴子」为例,训练一个同样规模的模型成本现在可能是一年前刚开始的时候的一半,甚至更少。
值得指出的是,千万美元级成本是视频模型先行者 OpenAI 的代价。假以时日,随着认知的传播和各种细节的持续优化,这些成本预计将会大幅降低,可能减少数倍乃至一个数量级。这种训练成本的“后发者优势”在过去一年的“百模大战”中,随着开源社区和各大模型公司竞相追逐 GPT-3.5,已经变得非常明显。
另外,上面的计算是用美国公有云的价格测算的,对于中国创业者来说,算力的成本有可能会更低,这要归功于中国各类公有云厂商在提供算力方面的内卷式激烈竞争。
但不管怎样,笔者倒是相信在不久的未来,在大语言基础模型的加持下,视频和语言模型深度融合,在视频方面新增千万美元预算是大概率能复现今天 Sora 的结果的。
06. 大语言模型应扮演什么角色?Sora 到底是不是跟 Gemini 或者 RT-2 类似,把大语言模型(LLM)作为一个起点去预训练,然后再加视觉数据继续训练?还是像 SVD 那样,在训练视频模型时,语言模型是冻结(frozen)的,只是生成文本的 embedding 成为视频生成的一个条件,用来指导视频的生成?语言模型究竟扮演了什么角色?
从 OpenAI 的技术博客来看,Sora 似乎更属于后者,它尚未大规模、成系统地使用 LLM(但其实也难说,技术博客完全可能刻意回避某些核心技术议题)。
无论 OpenAI 在利用 LLM 上具体怎么选择,我们都知道,要保持较长视频的一致性,基于文本生成视频是需要很多世界知识的。从 Sora 在 demo 视频中表现出来的令人惊艳的一致性来看,感觉是有某种 LLM 的加持。这就很令人困惑了。
如果 Sora 并没有深度和 LLM 融合,难道 Sora 只从对齐数据的“少量”文本就能学到这么丰富的世界知识和逻辑?还是说视频数据本身也让学习世界知识变得比靠纯文本学习容易多了,是对齐数据帮助打通了理解物理世界的融会贯通之路?之所以说文本对齐数据“少量”,我们是跟训练 LLM 时的海量文本相比。
但不管真实情况如何,视频生成的未来版本应该尝试利用 LLM 作为起点,再加上视频及其对齐数据进行联合训练。至于后续的高质量视频生成的过程,可以是单独一个 Diffusion 模型;如果 GPT 能支持足够长的 context,也可以直接用 GPT 来建模。这里,以 LLM 为基础的多模态模型是核心,建模的是文本跟“视频蓝图”的对应关系。
为什么 LLM 的认知赋能及其与视频模型的无缝融合这么重要?
如果视频模型生成的视频得符合物理规律,那模型得有大量的世界知识。那么这些知识哪里来呢?我们可以从大量的视频数据里学习这些规律,也可以直接继承语言模型里海量的常识,而继承这些常识会大大降低对视频数据的质量和数量的需求,也会大大降低模型学习的难度。
比如,如果我们让 Sora 生成一只杯子掉在地板上的视频。今天的大语言模型,比如出门问问的「序列猴子」,就含有玻璃会碎、水会溅出等常识(见下图)。
有了这些常识,视频生成模型将不再需要大量的类似玻璃掉地的视频数据来训练,从而大大降低了生成逼真视频的难度。
语言模型还包含了对其它物理规律(比如声光电、碰撞等)的各种描述,这些知识都可以迁移到下游其它模态模型里。
LLM 对多模态的知识迁移在谷歌的 RT-2 和 Gemini 中得以一再证明。在 Sora 发布前,出门问问将基于「序列猴子」的语音大模型,正式上线于「魔音工坊」,也是这一路线的显著成就。通过用统一的 Tokens 编码语音以及统一的自回归多模态联合训练,新一代的语音合成效果非常自然。
评测表明,「魔音工坊」已生成以口语化语气为特点的新一代高品质语音,逼近于 GPT-4 的语音品质。
尤其是我们观察到,「序列猴子」的语言理解能力自然迁移到语音生成:看到报喜类的语言文字就会自然生成“兴高采烈”的语音表达,报告噩耗时会带着“哭腔”。文字传递的情绪,会被 LLM 自然融入到语音的喜怒哀乐表达中。
相比之下,统一架构前的语音系统无论如何先进,都不得不对情绪生成做专门的处理(属于“硬编码”,而不是语音能力在大模型中的“自然涌现”)。
出门问问在语音技术上深耕多年,对此体会尤深。语音的实践让我们更加相信,多模态大一统是 AGI 道路上迄今最有希望的技术方向和潮流。
07. 复刻 Sora 应关注的重点是什么?Sora 出来后,国内很多人非常悲观,觉得与美国的 AI 差距更大了。网上几乎哀鸿遍野,甚至不乏对中国 AI 从业者的冷嘲热讽。经过理性分析,我们认为,对于新技术的进展既不能视而不见,但也不必妄自菲薄。
客观地说,2023 年 2 月,当 ChatGPT 在国内引起疯狂讨论时,作为大语言模型浪潮的亲历者,很明显感觉那个时候知道大模型到底为何的人很少。在中国科技创投圈,仔细研究过 GPT 所有相关论文并深度理解的更是凤毛麟角。回想在 2020 年 6 月,当 GPT-3 刚出来时,笔者曾经向一线或准一线城市的某些高校和政府机构推介大模型,能听懂的也就上海北京个别单位,某些地方的政府甚至觉得笔者是个骗子。
而这次 Sora 的出现,尽管 OpenAI 未公开技术细节,使得人们难以迅速形成一致看法,但各类高质量的技术分析仍然随处可见。所以,笔者认为,中国在 AI 产研和认知方面跟美国的差距,相比 ChatGPT 发布时期应该是缩短了,而不是加大。
那复刻要关注的重点是什么呢?目前大部分技术分析都是翻译或解说 OpenAI 的技术博客,并没有仔细去研究背后的相关论文;注意力也过多的放在 DiT 这类比较容易理解和复刻的架构上,而忽略了其它更重要的细节。
具体来说,复刻 Sora 应该重视的要素是:
图片和视频的编解码器的细节
高质量“自然”视频数据的爬取和处理
如何利用其它模型或引擎生产数据
视频模型跟大语言模型的深度融合
图片和视频的联合训练以及各种格式(分辨率、纵横比、时长)的统一支持
当然,任何新技术的研发都是需要资源的,希望中国 AI 界能够在 Sora 这类模型上投入真金白银,修出真功夫,炼出真模型。
08. 对 Sora 关键问题的答案总结最后,小结一下开篇问题的数量化答案。一句话总结——百亿级参数、十万亿级 Tokens、千万级美元。
具体答案如下:
1. Sora 架构是什么?Sora 可能是一种采用 Transformer 替代常见 U-net 的 Diffusion 视频模型,实现了视觉模型的大规模扩展。
2. 编解码器是什么?Sora 的编解码器可能主要借鉴 MAGViT V2 将视频压缩编码为时空 Tokens,并且实现图片和视频的一体化训练。对于不同分辨率和纵横比各种格式,它很可能借鉴了 NaViT 的方法来处理。
3. 模型规模多大?Sora 的参数规模可能在 100 亿级别。
4. 训练数据多大?视频数据规模至少数百万小时,图片和视频 Tokenize 后的总 Tokens 数量可能在十万亿级别。
5. 是否大量使用模型再生数据?考虑到 Sora 的复杂性和数据需求,这是一个可能的策略。
6. 训练成本几何?Sora 的训练成本大概是千万美元级别。
7. 大语言模型应扮演什么角色?LLM 的世界知识赋能,可减轻视频生成对海量对齐数据的依赖,并提升长视频的一致性。
8. 复刻该关注的重点是什么?高效的编解码技术,高质量的原生与再生数据,深度融合视频与语言模型,图片和视频的联合训练以及各种格式(分辨率、纵横比、时长)的统一支持。
结 语在人类文明发展的进程中,我们很难想象和相信这样一个即将到来的世界。
在视频生成模型的探索中,我们立足新的起点,面向多模态大一统的未来。
回望 ChatGPT 到 Sora 的进展,通过对两种潜在的架构方案的探讨,我们试图解锁视频生成的未来,并强调结合文本理解模型和视频生成技术的重要性。
多模态大一统模型的趋势已日渐明朗,这是由数据量、模型参数、算力需求以及成本效益共同驱动的过程。随着技术收敛和开源生态的构建,未来将以更低的成本实现更高级别的模型,为人类创造和理解复杂多模态内容开辟新的可能性。
一场尊重技术本身的科学战,更需要对科技和工程的精进笃行。
这是对 Sora 的祛魅时刻,作为中国的 AI 创业者,我们不再有初见 Sora 时的茫然无措和无力之感,而是滋生更坚实的力量和信念。
相信以中国在大语言模型领域一年来的疯狂“内卷”,基于我们的认知迭代和勤于实践,基于对用户场景的独特理解,中国 AI 同仁们完全有实力迅捷追赶,而不是被迎面而来的时代困顿。
这场世界的 AI 大局,我们不只出席。希望未来中国能厚植创新沃土,有机会引领创新,不再只是紧紧跟随。
“枕戈待旦,志枭逆虏,常恐祖生先吾著鞭。”
秣马厉兵,时不吾待。
主要参考文献:
Sora:
https://openai.com/research/video-generation-models-as-world-simulators
Tokenizer/De-Tokenizer:
ViT: Image https://arxiv.org/pdf/2010.11929.pdf
ViViT: Video https://arxiv.org/pdf/2103.15691.pdf
NaViT: 不同的分辨率、纵横比 https://arxiv.org/pdf/2307.06304.pdf
MAGVit V1: Video https://arxiv.org/pdf/2212.05199.pdf
MAGVit V2: Video https://arxiv.org/pdf/2310.05737.pdf
Alignment & Generation:
VideoPoet:Transformer+Autogressive https://arxiv.org/pdf/2312.14125.pdf
W.A.L.T: Transformer+Diffusion https://arxiv.org/pdf/2312.06662.pdf
DiT: Transformer+Diffusion https://arxiv.org/pdf/2212.09748.pdf
今日好文推荐4 秒处理 10 亿行数据!Go 语言的 9 大代码方案,一个比一个快
周鸿祎首堂AI课引争议,专业性错误遭质疑;智联招聘被“挤崩”,网友:找工作更焦虑了;马斯克起诉OpenAI,要求开源 | Q资讯