CVPR 2024满分论文解读:基于可变形三维高斯的高质量单目动态重建新方法


©作者 | 机器之心编辑部来源 | 机器之心单目动态场景(Monocular Dynamic Scene)是指使用单眼摄像头观察并分析的动态环境,其中场景中的物体可以自由移动。单目动态场景重建对于理解环境中的动态变化、预测物体运动轨迹以及动态数字资产生成等任务至关重要。


随着以神经辐射场(Neural Radiance Field, NeRF)为代表的神经渲染的兴起,越来越多的工作开始使用隐式表征(implicit representation)进行动态场景的三维重建。


尽管基于 NeRF 的一些代表工作,如 D-NeRF,Nerfies,K-planes 等已经取得了令人满意的渲染质量,他们仍然距离真正的照片级真实渲染(photo-realistic rendering)存在一定的距离。


来自浙江大学、字节跳动的研究团队认为,上述问题的根本原因在于基于光线投射(ray casting)的 NeRF pipeline 通过逆向映射(backward-flow)将观测空间(observation space)映射到规范空间(canonical space)无法实现准确且干净的映射。逆向映射并不利于可学习结构的收敛,使得目前的方法在 D-NeRF 数据集上只能取得 30 + 级别的 PSNR 渲染指标。


为了解决这一问题,该研究团队提出了一种基于光栅化(rasterization)的单目动态场景建模 pipeline,首次将变形场(Deformation Field)与 3D 高斯(3D Gaussian Splatting)结合,实现了高质量的重建与新视角渲染。


研究论文《Deformable 3D Gaussians for High-Fidelity Monocular Dynamic Scene Reconstruction》已被计算机视觉顶级国际学术会议 CVPR 2024 接收。值得一提的是,这是首个使用变形场将 3D 高斯拓展到单目动态场景的工作。




项目主页:

https://ingra14m.github.io/Deformable-Gaussians/

论文地址:

https://arxiv.org/abs/2309.13101

代码地址:

https://github.com/ingra14m/Deformable-3D-Gaussians

实验结果表明,变形场可以准确地将规范空间下的 3D 高斯前向映射(forward-flow)到观测空间,不仅在 D-NeRF 数据集上实现了 10 + 的 PSNR 提高,而且在相机位姿不准确的真实场景也取得了渲染细节上的增加:


▲ 图1. HyperNeRF 真实场景的实验结果


相关工作

动态场景重建一直以来是三维重建的热点问题。随着以 NeRF 为代表的神经渲染实现了高质量的渲染,动态重建领域涌现出了一系列以隐式表征作为基础的工作。


D-NeRF 和 Nerfies 在 NeRF 光线投射 pipeline 的基础上引入了变形场,实现了稳健的动态场景重建。TiNeuVox,K-Planes 和 Hexplanes 在此基础上引入了网格结构,大大加速了模型的训练过程,渲染速度有一定的提高。然而这些方法都基于逆向映射,无法真正实现高质量的规范空间和变形场的解耦。


3D 高斯泼溅是一种基于光栅化的点云渲染 pipeline。其 CUDA 定制的可微高斯光栅化 pipeline 和创新的致密化使得 3D 高斯不仅实现了 SOTA 的渲染质量,还实现了实时渲染。Dynamic 3D 高斯首先将静态的 3D 高斯拓展到了动态领域。然而,其只能处理多目场景非常严重地制约了其应用于更通用的情况,如手机拍摄等单目场景。



研究思想

Deformable-GS 的核心在于将静态的 3D 高斯拓展到单目动态场景。每一个 3D 高斯携带位置,旋转,缩放,不透明度和 SH 系数用于图像层级的渲染。


根据 3D 高斯 alpha-blend 的公式,不难发现,随时间变化的位置,以及控制高斯形状的旋转和缩放是决定动态 3D 高斯的决定性参数。然而,不同于传统的基于点云的渲染方法,3D 高斯在初始化之后,位置,透明度等参数会随着优化不断更新。这给动态高斯的学习增加了难度。


该研究创新性地提出了变形场与 3D 高斯联合优化的动态场景渲染框架。具体来说,该研究将 COLMAP 或随机点云初始化的 3D 高斯视作规范空间,随后通过变形场,以规范空间中 3D 高斯的坐标信息作为输入,预测每一个 3D 高斯随时间变化的位置和形状参数。


利用变形场,该研究可以将规范空间的 3D 高斯变换到观测空间用于光栅化渲染。这一策略并不会影响 3D 高斯的可微光栅化 pipeline,经过其计算得到的梯度可以用于更新规范空间 3D 高斯的参数。


此外,引入变形场有利于动作幅度较大部分的高斯致密化。这是因为动作幅度较大的区域变形场的梯度也会相对较高,从而指导相应区域在致密化的过程中得到更精细的调控。即使规范空间 3D 高斯的数量和位置参数在初期也在不断更新,但实验结果表明,这种联合优化的策略可以最终得到稳健的收敛结果。大约经过 20000 轮迭代,规范空间的 3D 高斯的位置参数几乎不再变化。


研究团队发现真实场景的相机位姿往往不够准确,而动态场景更加剧了这一问题。这对于基于神经辐射场的结构来说并不会产生较大的影响,因为神经辐射场基于多层感知机(Multilayer Perceptron,MLP),是一个非常平滑的结构。但是 3D 高斯是基于点云的显式结构,略微不准确的相机位姿很难通过高斯泼溅得到较为稳健地矫正。


为了缓解这个问题,该研究创新地引入了退火平滑训练(Annealing Smooth Training,AST)。该训练机制旨在初期平滑 3D 高斯的学习,在后期增加渲染的细节。这一机制的引入不仅提高了渲染的质量,而且大幅度提高了时间插值任务的稳定性与平滑性。


图 2 展示了该研究的 pipeline,详情请参见论文原文。


▲ 图2. 该研究的 pipeline


结果展示

该研究首先在动态重建领域被广泛使用的 D-NeRF 数据集上进行了合成数据集的实验。从图 3 的可视化结果中不难看出,Deformable-GS 相比于之前的方法有着非常巨大的渲染质量提升。


▲ 图3. 该研究在D-NeRF数据集上的定性实验对比结果


该研究提出的方法不仅在视觉效果上取得了大幅度的提升,在渲染的定量指标上也有着相应的改进。


值得注意的是,研究团队发现 D-NeRF 数据集的 Lego 场景存在错误,即训练集和测试集的场景具有微小的差别。这体现在 Lego 模型铲子的翻转角度不一致。这也是为什么之前方法在 Lego 场景的指标无法提高的根本原因。为了实现有意义的比较,该研究使用了 Lego 的验证集作为指标测量的基准。


▲ 图4. 在合成数据集上的定量比较


如图 4 所示,该研究在全分辨率(800x800)下对比了 SOTA 方法,其中包括了 CVPR 2020 的 D-NeRF,Sig Asia 2022 的 TiNeuVox 和 CVPR2023 的 Tensor4D,K-planes。该研究提出的方法在各个渲染指标(PSNR、SSIM、LPIPS),各个场景下都取得了大幅度的提高。


该研究提出的方法不仅能够适用于合成场景,在相机位姿不够准确的真实场景也取得了 SOTA 结果。如图 5 所示,该研究在 NeRF-DS 数据集上与 SOTA 方法进行了对比。实验结果表明,即使没有对高光反射表面进行特殊处理,该研究提出的方法依旧能够超过专为高光反射场景设计的 NeRF-DS,取得了最佳的渲染效果。


 图5. 真实场景方法对比


虽然 MLP 的引入增加了渲染开销,但是得益于 3D 高斯极其高效的 CUDA 实现与我们紧凑的 MLP 结构,我们依旧能够做到实时渲染。在 3090 上 D-NeRF 数据集的平均 FPS 可以达到 85(400x400),68(800x800)。
此外,该研究还首次应用了带有前向与反向深度传播的可微高斯光栅化管线。如图 6 所示,该深度也证明了 Deformable-GS 也可以得到鲁棒的几何表示。深度的反向传播可以推动日后很多需要使用深度监督的任务,例如逆向渲染(Inverse Rendering),SLAM 与自动驾驶等。


 图6. 深度可视化
作者简介  About Us

论文第一作者:

杨子逸,浙江大学硕士二年级,主要研究方向为三维高斯、神经辐射场、实时渲染等。 


论文其他作者:

高新宇,浙江大学硕士三年级,主要研究方向为神经辐射场,隐式场景组合。张宇晴:浙江大学硕士二年级,主要研究方向为 3D 生成,逆向渲染。 


论文通讯作者为浙江大学计算机科学与技术学院金小刚教授。 

Email: jin@cad.zju.edu.cn 

个人主页:http://www.cad.zju.edu.cn/home/jin/


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


··

相关推荐

  • 开源模型知识编辑黑盒大模型:北邮联合美团提出postEdit
  • 大模型微调新范式:当LoRA遇见MoE
  • 粥左罗:2024年还想靠自媒体赚钱,关键在这六点
  • 每日 Prompt:纸雕,宗师
  • OpenAI的劲敌Anthropic推出Claude 3,号称性能全面超越GPT-4
  • 没有思考过 Embedding,不足以谈 AI
  • 扯淡的DevOps,我们开发根本不想做运维!
  • 工厂数据分析系统用这个开源库准没错
  • 15.8K Star开源!站长们最喜爱的网站体检工具
  • 请拿下软考,现在!立刻!马上!!
  • 面试官:说说SSO单点登录的实现原理?
  • Claude 3 大模型再度点燃 AI 战火,性能和速度全面超越 GPT-4
  • “我刚继承了一个遗留的 C++ 代码库,现在该怎么办?”
  • 尤雨溪:Vue 未来展望
  • 坏了,我把面试重点搞错了!
  • 当初分手就因为你干前端整天加班
  • Sora两大核心技术,都藏在这2本书里!
  • 开源日报 | 闭源模型就是比开源安全;起诉OpenAI不能更赞同;中国算力产业出现五个真问题
  • 2024会是Linux桌面年吗?
  • 全球最流行开源Switch模拟器Yuzu删除代码仓库、向任天堂支付240万美元——最强法务部又赢了