栏目介绍:“T前线”是51CTO内容中心专为技术人物开设的深度访谈栏目之一,通过邀请技术界内的业务负责人、资深架构师、资深技术专家等对当下的技术热点、技术实践和技术趋势进行深度的解读和洞察,推动前沿科技的传播与发展。
Sora技术的问世,给国内外科技圈投下了重磅炸弹。自春节以来,Sora的讨论热潮不断升温,从硅谷大佬对其能否成为世界模型的争论,到OpenAI CTO在采访中对训练数据的含糊其辞,再到众多技术团队宣布要复刻并开源Sora,都使其不断地站在热议的“风口浪尖”。
深入到内容产业,Sora是否如一些创作者和电影工作者所担忧的那样,会让内容行业变天?或者这只是一种杞人忧天的幻觉?
近期,51CTO有幸邀请到了Story storm AI内容社区的发起人,有着丰富编剧和导演经验的宋东桓老师。宋老师不仅对内容行业有深厚的积累,还深入实践了利用AI工具进行内容创作的前沿技术。在与51CTO内容中心主编薛彦泽的对话中,宋老师详细介绍了Sora的技术革新,并深入探讨了以Sora为代表的视频生成模型对未来内容行业的影响。
T前线:Sora真正厉害在哪里?
宋东桓:要理解Sora的厉害之处,我们首先得审视以往的视频生成技术。早期的方法,从diffusion到各种转绘流程,其实都是在走一条错误的路。这些方法基本上是逐帧处理,本质上还是在“画”视频,而非真正地“生成”视频。
去年8月份,Runway开始尝试生成连续视频,虽然取得了一些进步,但仍然存在四秒的限制。这是因为当时的方法是在生成一张图片的基础上,通过重复和调整来减少闪烁感,但这种方法本质上还是处理图片而非视频。
Diffusion transformer则不同,它将视频视为时空连续的实体,尝试预测下一帧内容,就像语言模型处理文本一样。我们现在比较的是生成图像的能力、模型的调优,以及潜在层的处理,这些都是在不断进步的方面。
但Sora的真正厉害之处在于,它是历史上第一次使用视频数据集进行训练,并输出视频的技术。因此,它天生具备视频的连贯性。例如,如果给Sora看过一万次小猫推苹果的视频,它就能模仿出苹果落下的加速度和运动轨迹。这是因为Sora看过的视频数量远超我们的想象。
Sora的另一个厉害之处在于它为整个行业指了一条明路。如果没有像OpenAI这样的巨头,能找到一条正确的路,很多公司还会在错误的方法上耗费一两年甚至更久。Sora的出现,让整个行业看到了一条明确的前进道路,这是非常有意义的。
薛彦泽:关于Sora的厉害之处,我的第一印象是它能够生成影视级的视频效果。
具体来说,Sora在处理背景与主题人物的一致性方面做得很好,比如在东京街头散步的视频,环境的细节如红灯、雨滴的倒影都非常真实。另外,Sora在理解物理世界方面也表现出色,尽管我认为机器实际上无法真正理解我们的物理世界,但Sora生成视频能够保持物体的连贯性,比如小猫的视频,动作和镜头的延伸都非常流畅。
但Sora最厉害的不止于视频生成,它实际上在这个过程中试图寻找一种理解物理世界的新路径,OpenAI提出的这个观点是前所未有的,也是它最厉害的地方。
T前线:如何看待Sora的翻车视频?
宋东桓:我发现Sora在处理视频中的遮挡问题时偶尔会出现问题,尤其是在画面中有明确遮挡物的情况下。比如考古学家在沙漠中发现了一把塑料椅子的视频,椅子直接悬浮了起来。但是,像两只海盗船在咖啡杯里相遇这样的视频,由于船身大部分时间都在杯子上方,Sora处理得相对更好。
前段时间有人测试了电车向前延伸的视频,结果显示出三种不同的结果。这让我联想到文本生成中的合理性问题,一旦涉及到遮挡,合理性可能会受到影响。我认为Sora的“翻车”现象和文本生成中的幻觉类似,都是低概率事件。
薛彦泽:谈到Sora的翻车视频,我认为将其视为“梦境生成器”是恰当的。梦境中自然会有一些荒诞的元素,对于机器来说,这并不是问题。就像图像中会有噪声,视频中也可能出现不符合人类逻辑的场景。关键在于我们如何看待和处理这些异常。
“十年之内,见证好莱坞们的坍塌”
T前线:文生视频领域,sora是否真的能颠覆Tik Tok/好莱坞?
宋东桓:对于Sora是否能颠覆TikTok和好莱坞,我认为这是两个不同的问题。TikTok代表的是UGC(用户生成内容)生态,而好莱坞则是PGC(专业生成内容)的代表。Sora对这两种生态的影响会有所不同,尽管它的接受程度可能相同,但表现出来的影响会有差异。
在影视创作方面,Sora的能力类似于文本生成。虽然它可能还无法创作出长篇巨制,但已经能够处理短篇内容,如笑话、小诗,甚至歌词。同样,Sora在生成15秒以内的视频方面可能已经相当成熟,但对于长视频,尤其是一分钟以上的视频,可能还无法完全统一上下文,除非通过技术手段如视频转视频来辅助。
我怀疑,如果要求Sora生成长视频,它可能无法记忆上下文,并进一步出现内容上的断裂和幻觉。这种情况下,短视频内容,如广告PVC,可能会首先受到冲击。例如,以前需要高昂成本拍摄的红酒广告,现在可能通过Sora以极低的成本实现,这对传统影视制作是一个巨大的挑战。
至于好莱坞,如果一个小型团队能够利用Sora创作出与大制作电影相媲美的作品,那么传统的高成本制片流程将面临巨大的压力。Sora在制作大场面的特效镜头方面非常有潜力。它放大了内容杠杆,使得低成本制作能够与高投资作品竞争。这可能导致传统影视公司面临重组,甚至崩溃。
在TikTok层面,内容的海量增长需要出口,而短视频平台就是这个出口。短视频平台及配套的剪辑软件,如抖音的剪映正在积极配备AI功能,几乎是一种“all in AI”的状态来构建新的创作者生态,这也会相应改变专业视频制作工具的市场地位(例如达芬奇等剪辑工具)。
总的来说,Sora的出现可能会颠覆内容行业的创作流程和分发方式。
薛彦泽:我认为Sora是否能颠覆TikTok和好莱坞,这个问题可以从两个角度来看。
首先,颠覆的定义是什么?如果改变制作流程算颠覆,那么Sora无疑能做到。然而,更重要的是,用户是否会喜欢完全由AI生成的内容?
“AI教母”李飞飞教授说,AI生成的作品无法取代宫崎骏的动画,但利用AI可以创作出触动人心的内容。我认为Sora更像是一种工具,它扩展了创作者的可能性,就像3D技术让陈凯歌能够实现之前无法实现的创意一样。
总的来说,Sora在制作模式上具有颠覆性,但在艺术创作的核心价值和目的上,它并没有颠覆,而是提供了更多可能性。
“复刻Sora,最难解决的是信心”
T前线:复刻Sora,可行吗?难在哪里?
宋东桓:我们社区对Sora的复刻问题进行过深入的讨论。起初,大家都对Sora的出现感到震惊,担心未来的内容创作。
但经过魔搭社区算法工程师周文猛老师的深入分析和观点的分享,我们对复刻Sora的可能性有了更多信心。
周老师详细拆解了Sora的技术报告,同时指出Sora更多地是在工程上的创新。Sora报告中虽然对具体的搭建方法描述不够详细,但其引用的文献中包含了大量有用的信息。这些引用的文献详细讲解了Sora可能采用的训练方法和时空连续性处理等关键技术点。
巧合的是,Sora的论文很快就被官方下架了,虽然里面的内容已经广泛传播了出来。我认为复刻Sora是个需要信心倾注的事情,比较像在漆黑的隧道里蜿蜒前行。但随着开源社区的参与和资源的倾斜,复刻Sora只是时间问题。
以GPT-4为例,自发布以来,国内对其的追赶非常明显,如果GPT-4能在一年内被追赶到八成,那么Sora的复刻也大有可能——OpenAI对Sora的研发投入应该还小于GPT-4。未来一两年,我们应该能看到更多开源方案的出现,让Sora不再独领风骚。
薛彦泽:我其实对复刻Sora持相对悲观的态度,但听了宋老师的看法后,我又有了不少信心。Sora的架构并不新鲜,它的模型基础,如Transformer和Diffusion模型,已经是公开的信息。
然而,复刻Sora的工程量依然很大,难点在于训练过程,比如数据预处理、模型的微调阶段,以及如何切分视频数据(patch)的尺寸等。此外,训练模型的成本高,周期长,需要的资本也是挑战之一。
算力也是一个关键因素。尽管国内在AI算力储备上正在追赶,但仍落后于美国。视频处理的数据量级远超文本,对算力的需求巨大。如果算力问题得到解决,数据门槛将是下一个挑战。此外,需要专业的人才进行模型的权重调整,那如何吸引顶尖人才回国工作也是我们需要面对的问题。
总的来说,复刻Sora的最大难题在于算力、数据和人才。
所有人都是创作者,所有人都是消费者
T前线:未来会是一个AI视频泛滥的世界吗?
宋东桓:会。
T前线:那您支持一个这样的世界吗?
宋东桓:我认为无论支不支持,未来AI视频的泛滥是不可避免的,尤其考虑到AI视频与传统视频在成本上的巨大差异。AI视频的生成将变得极其方便,就像现在AI生成的图像一样,我们很难区分真假,也难以阻止其泛滥。
不过,AI视频的泛滥有可能转变为一个环保问题。AI视频的普及虽然能带来巨大的商业价值,让每个人都有能力成为内容的创作者。但这种能力的背后是对能源的巨大需求。例如,GPT-4的耗电量相当于1.5万个家庭的日常用电量,而Sora的耗电量可能更高。
尽管如此,限制人们生成AI视频就像限制言论自由一样。人们有权使用技术来表达自己的想法,因此立法限制可能会遇到重大阻力。
从道德和伦理角度来看,我对AI视频泛滥的未来持悲观态度,我不支持这样的世界。但人类的表达欲是无穷无尽的,而这种渴望可能会带来深远的影响。
薛彦泽:我认为未来AI视频的泛滥是必然的,就像互联网带来了信息的泛滥一样。
生活在AI视频泛滥的时代,也不一定是坏事,关键在于我们如何利用这些工具,同时能否找到约束AI工具使用的平衡点。
就像奥特曼在最新采访中谈到伊利亚时说,他挺佩服伊利亚的,因为他在研究一项技术的时候,会想到未来十年的技术发展,去考虑这项技术是不是符合造福人类的使命。虽然目前AI视频技术还没有达到侵害人类的地步,但我们仍需保持警惕,确保技术的发展方向与我们的价值观相符。
Sora将无处不在
T前线:Sora可能会推动哪些技术的更新和迭代?
宋东桓:我觉得是3D技术。
目前,我们可以通过视频来还原3D结构,尤其是当视频内容自洽且空间关系准确时。例如,如果我们有一段现实世界中茶杯的视频,可以使用神经网络(nerve)技术来还原茶杯的3D空间特征。Sora能够生成空间上合理的视频,这为从视频中生成高质量的3D数据提供了可能。
目前,3D数据的存量远低于视频、文本和图片数据。现有的3D模型数量有限,而且质量参差不齐,这限制了3D技术的商业应用。但随着Sora等技术的发展,我们可能会找到一条新的路径:通过生成视频来创建3D内容。在不考虑经济与否的情况下,这起码是一种能够不断产生优质3D数据的新方法,从而推动3D技术的进步。
薛彦泽: 我认为Sora的影响将是全方位的。因为它的定位不仅仅是一个视频生成工具,而是一个能模拟物理的世界模型。
如果将其目标提升到这个层次来看,它的影响将无处不在。如果Sora真的做到了理解世界,那么AI芯片只需要集成这个模型就可以完成很多工作。机器人只需要配备这样的芯片和相应的传感器,就能被看作是有意识地理解世界、响应世界了,这是非常大的科技飞跃。
具体到行业层面,除了刚才聊到的电影,其实还有游戏,Sora将会推动3D渲染技术的创新,以及推动RTC、编解码技术的改进。此外,面向GPU编程可能会发展出新的工具,以适应生成式AI的需求。
Sora的广泛应用还可能颠覆底层通信技术,如果未来世界依赖于大量GPU和类似Sora的模型,那将是一个全新的景象。
拥抱AI,从业者要吃“第一口馒头”
T前线:在Sora开放前,从业者需要做怎样的准备?
宋东桓:虽然Sora是一个全新的工具,但工具的掌握都是触类旁通的,例如对视频编辑软件或拍摄技巧的学习,对掌握Sora会有很大帮助。核心在于,无论是使用什么技术,审美和表达方式始终是最重要的。
对于想要成为优秀创作者的人来说,广泛阅读和积累审美经验是基础。AI可以提供辅助,但最终做出选择的还是人。技术不是优秀作品的出圈限制,想象力才是。
具体来说,电影人可以在剧本创作时就考虑如何利用Sora来实现镜头效果。即使现在还不能直接使用Sora,也可以通过与有资源的公司合作,将类似Sora的工具应用到实际拍摄中。
T前线:最先拥抱AI工具的人,会吃到相应的内容红利吗?
宋东桓:当前的信息传播环境,已经不再依赖于中心化的传递方式了。信息可以通过多种渠道迅速传播,从外网到社交媒体平台,再到微信群和朋友圈,信息的流通速度非常快。
并不是说你是第一个接触AI工具的人就能吃到红利,而是要看你如何使用这些工具。我认为从业者应该有学习意识,主动去搜索最新的资讯,自己要吃一口馒头才行。
薛彦泽: 宋老师这个比喻很形象,现在的信息差真的是件很吓人的事情。
在Sora开放前,我认为从业者需要做的准备包括心态的调整、积极学习前沿信息,以及主动采取行动。
从业者要有自己的想法和魄力,不要只是学习而不实践,至少要有敢于有尝试的勇气。Sora是个非常前沿的工具,如果能和自己的个人价值得到很好的结合,有可能就会脱颖而出。这种科技革新是时代赋予的不可多得的机会。