CVPR 2024 冠军!视频版GPT-4o

仅作学术分享,不代表本公众号立场,侵权联系删除转载于:机器之心


  • 项目主页:https://invinciblewyq.github.io/vstream-page
  • 论文链接:https://arxiv.org/abs/2406.08085
  • 代码仓库:https://github.com/IVGSZ/Flash-VStream
  • 在线体验:https://huggingface.co/spaces/IVGSZ/Flash-VStream-demo


不同于传统视频理解 LMM,Flash-VStream 将视觉信息感知记忆和问答交互解耦,使用多进程系统实现了对长视频流的实时处理。那么这项研究具体是如何做的呢?
模型核心:STAR 记忆机制


如论文中的框架图所示,Flash-VStream 架构十分简洁,由帧处理进程和问题处理进程组成,其模型包括四个主要部分:1) 预训练的 CLIP-ViT 视觉编码器;2) 大语言模型;3)STAR 记忆机制;4)特征缓冲区。其中,后两者是 Flash-VStream 的核心。STAR 记忆包括 “空间”、“时间”、“抽象”、“检索” 四种记忆模块,用于高效融合不同粒度的语义信息,实现了帧级别的信息聚合。特征缓冲区辅助检索记忆,类似于人类回忆起印象深刻的事件一样,从历史视频中检索出关键信息,以提高模型对长视频中重要事件细节的理解能力。
其中,空间记忆和检索记忆每帧具有最多的 token 数量,时间记忆次之,抽象记忆每帧仅用 1 个 token 表示。这种设计高效表示了从最具体到最抽象的视觉特征。为了得到更小的特征图,Flash-VStream 在空间维度使用平均池化操作。


根据研究人员的描述,STAR 记忆采用了四种简洁高效的记忆更新机制:
  • 对于空间记忆和特征缓冲区,通过 FIFO(First-In-First-Out)队列更新。队列维护了最新的若干帧,确保模型对最新的细粒度空间信息有较强的感知能力。
  • 对于时间记忆,当输入 token 数量超过记忆容量时,采用加权 K-means 聚类算法进行帧级别的特征聚合。该算法将时间记忆的 token 和新输入的 token 一起聚类为一些簇(簇的数量就是记忆容量,簇的大小是其所包含帧的数量),并用这些簇的质心作为新记忆,代表相应的关键事件信息。这种方法可以简洁高效地存储时序相关的上下文信息。
  • 对于抽象记忆,引入了语义注意力模型(Semantic Attention),将空间与时间特征抽象成最高层次的语义特征。该模型用基于注意力和动量的方式更新抽象记忆,使其始终表示视频级别的高层次语义信息。
  • 对于检索记忆,通过识别关键帧特征进行更新。首先从时间记忆中选择出最大的若干簇,然后从特征缓冲区中检索出与这些簇的质心 L2 距离最近的帧的特征,以此作为关键事件的回忆,为时间记忆补充相应的细粒度信息。

Flash-VStream 凭借其创新性的 STAR 记忆机制,不仅能够高效融合不同粒度的语义信息,还能通过特征缓冲区的辅助,精确地回忆和检索长视频中重要事件的细节信息,从而显著提升模型的理解能力与性能。
VStream-QA 数据集
有了上述实现方案,还需要有合适的测试数据来评价模型对在线视频流的理解能力。回顾现有的长视频问答数据集,它们的主要目的大多是评价模型的描述性问答能力、时序理解能力、电影理解能力等,均属于离线理解能力。并且它们的视频平均长度局限在 4 分钟以内。


为了解决这些问题,研究团队筛选了 Ego4d 和 Movienet 中的一部分视频片段,为每个视频片段标注了多个问答对,并标记了答案所在的视频区间。在测试时,要求模型在多个时间点,基于到当时刻为止的视频片段回答问题,以此测试模型的在线视频流理解能力。这就是 VStream-QA 数据集,其样例如下图所示:


和主流的开放词典离线视频问答数据集相同,VStream-QA 数据集也采用基于 GPT-3.5 的评价指标。具体来说,向 GPT-3.5 输入问题、标准答案、模型的预测三元组,由 GPT 模型来判断该答案是否准确回答,以及可信度分数是多少。统计所有问题的指标即为准确率(Acc.)和可信度分数(Sco.)。
算法测评
研究团队在新提出的在线视频流问答 Real-time VStream-QA Benchmark 上评测了 Flash-VStream 的实时视频理解性能,包括 RVS-Ego 和 RVS-Movie 两个子集。得益于 STAR 记忆机制的高效设计,Flash-VStream 具有极低的回答延迟和显存占用,并且几乎不随输入帧的数量变化,为实时问答的性能提供保障。


同时,为了评价 Flash-VStream 模型对于离线视频的理解能力,研究团队在四个离线视频问答 Benchmark 上评测了 Flash-VStream 的视频理解性能。此外,还在离线版 VStream-QA 数据集进行了测试,分为 VS-Ego 和 VS-Movie 两个子集。离线版 VStream-QA 数据集针对每个问题,只输入该问题答案所在的视频片段并进行提问,相比于在线版 Real-time VStream-QA 难度较低。


在六个 benchmark 的准确率和可信度分数上,Flash-VStream 的性能均优于其他方法,证明其强大的离线视频理解能力。

相关推荐

  • 项目终于用上了 PowerJob,真香!
  • 深度学习时间序列异常检测方法
  • 为啥本科生都能发顶会,而博士一篇都没有?
  • 压箱底:10 个超强的 Web 资源汇总!
  • Node进程管理器PM2使用
  • 密歇根州立大学崔梓筠教授课题组2025春/秋博士招聘
  • 五年后的今天,训练GPT-2只需不到700刀、24小时,Karpathy又整新活
  • 美联储鲍威尔 | 货币政策众议院半年度听证 (全文+视频)
  • [开源]一个基于SpringBoot与SpringCloud构建的开源物联网云平台
  • 数百Kaggle GM的秘密宝库分享。
  • 德国宣布移除5G网络华为、中兴等组件
  • 面试官:要保证消息不丢失,又不重复,消息队列怎么选型?
  • 开源日报 | FB开源C++框架Ocean;程序员起诉GitHub后续;开源AI智能眼镜;大模型四小龙;英伟达有的AMD也要有
  • 搞大模型,没有重排工具怎么行?
  • Vue诞生10年,创始人尤雨溪推动“锈化”——通过Rust提升Web基础设施性能
  • Spring Boot集成Atomix快速入门Demo
  • 工控5年!!!只会给RS232接三根线???
  • 62.2K Star 6万人关注!!!文件同步神器,从未如此简单
  • 3人团队年入1000万,本地生活还能这么玩?
  • 百度文心旗舰模型全线降价,价格战能持续多久?哪些企业先淘汰?