随着Sora模型的出圈,多模态模型开始引燃各行各业。不同于传统语言模型仅将语料作为token,多模态模型的训练方式是将视频、语音和图像等多模态数据作为token,训练出能够理解物理世界的大模型。图7 Sora模型演示请Sora根据描述生成一段SUV在山路上行进的画面,结果令人震撼,车在山路上的奔驰能够完全遵守交通规则,拐弯也轻松自如,在没有路径图和3D建模的情况下,模型完全靠“自学”模拟了这一影像。这需要模型对于物理世界的理解,可以说Sora的出现,意味着能够理解、描述和模拟现实世界的“世界模型”取得了突破,也让我们对于走向AGI更有信心。图8 世界模型指能够理解,描述和模拟现实世界的模型文生视频是Sora最令人惊叹和备受瞩目的功能,但事实上多模态模型的能力范畴不止于文生图、文生视频,更包括对图片或视频的理解和阐释——多模态模型应同时具备正向的生成与反向的理解能力。诚如美国物理学家理查德·费曼的箴言所揭示:“What I cannot create, I do not understand”。只有大模型真正理解物理世界,才能更好地创造和模拟。如何训练这样的模型?打个比方,飞行员学习驾驶飞机需要先在模拟驾驶舱中训练很长的时间,模拟驾驶舱是由空间模型和飞机动力学模拟形成,飞行员先从模拟的数据中学习一切操作再应用到现实驾驶当中。同样的道理,我们可以通过观察和描述物理世界产生新的训练数据,从而训练出能够理解和模拟物理世界的大模型。按照这个逻辑,谈及未来应用,多模态大模型很可能重新改写自动驾驶系统。过去,所有自动驾驶公司每到一个新的城市,必须花费3到6个月时间重新扫描这个城市的所有街道,未来这项工作可以由多模态大模型代劳。