ICLR 2023 | 神经规范场:渲染引导空间规范变换


©作者 | 占方能

单位 | 马克斯普朗克计算机所

研究方向 | 神经渲染


近期,神经场(Neural Fields)领域的巨大进展,已经显著推动了神经场景表示和神经渲染的发展。为了提高 3D 场景的计算效率和渲染质量,一个常见的范式是将 3D 坐标系统映射到另一种测量系统,例如 2D 流形和哈希表,以建模神经场。本文将这种坐标或者测量系统的转换定义为“规范变换”(gauge transformation)。


这种规范变换通常采用预定义的函数,例如 EG3D 中的垂直投影和 Instant-NGP 中的空间哈希函数。然而,这种预先定义的函数往往并非最优选择,所以一个很自然的问题浮现出来:是否能以端到端的方式直接学习规范变换,让它与神经场一同进行优化?本研究将此问题拓展为一个广义的范式,包括连续型和离散型规范变换,并设计了统一的学习框架以共同优化规范变换和神经场。

论文地址:https://arxiv.org/abs/2305.03462

GitHub地址:

https://github.com/fnzhan/Neural-Gauge-Fields

项目地址:

https://fnzhan.com/Neural-Gauge-Fields/




介绍


规范通常表示一种测量标准或测量系统,比如温度测量中的华氏度和摄氏度。而两种规范之间的转换则被称为规范变换,比如华氏度和摄氏度之间的转换。在物理领域中,各种坐标系统的变换也可以被称之为规范变换,如图一所示的局部和总体的规范变换。

▲ 图一:物理中的规范变换


而在神经场领域中,规范变换的定义可以进一步扩展为连续变换和离散变换,如图二。

▲ 图二:神经场的规范变换


连续规范变换:如果目标规范(测量系统)是连续的,那么这种变换定义为连续规范变换。这种连续规范变换,基本等同于坐标变换。对于一个原始 3D 空间中的点x,可以通过一个神经网络 M 对它进行规范变换,从而得到它在目标规范中的新坐标即 M(x) 或者 x+M(x)。这个新坐标可以用来索引神经场,包括隐式神经场(MLP-based)和显式神经场(grid-based)。连续规范变换的典型应用包括 UV 纹理映射和学习 TriPlane 映射。


对于 UV 纹理映射,规范变换具体定义为 3D 空间到 2D UV 空间的映射,由于神经场是在 2D UV 空间进行索引,所以我们通过在 UV 空间进行均匀点采样可以得到每个点的颜色,从而得到显式的 UV,同时可以对 2D UV 进行编辑(如图)。

▲ 图三:学习 2D UV 映射和进行 UV 编辑


对于 TriPlane 映射也是类似,我们采用三个单独的网络来分别学习 3D 空间到 2D 平面的映射。我们发现这种可学习的变换可以提升 TriPlane 神经场的渲染效果和模型收敛速度,如图四所示。

▲ 图四:学习 3D 空间到 TriPlane 的规范变换


以上只是列举出两种应用,实际上这种可学习的连续规范变换可以根据目的灵活地嵌入到各种 NeRF 模型当中,比如动态场景 NeRF,和基于 NeRF 的本征分解。


离散规范变换:如果目标规范是离散的(比如哈希表空间),那么这种变换定义为离散规范变换。由于离散空间的索引参数是离散的,我们不能像连续规范变换那样直接通过网络预测索引参数值。所以,对于 3D 空间中的一个点x,我们用神经网络预测这个点在哈希表上的离散概率分布,然后通过 Top-1 操作得到最大概率点对应的哈希表索引。由于 Top-1 操作是不可微分的,所以需要通过重参数技巧来得到近似梯度进行模型优化,算法流程图五所示。

▲ 图五:离散规范变换学习中的正向/反向传播


离散规范的主要应用包括 Instant-NGP 的模型压缩,可泛化 NeRF 等。对于可泛化 NeRF,由于哈希映射变得可学习,所以多个场景都可以学习映射到同一个哈希表中,从而实现场景泛化 NeRF。




可视化分析


尽管证明了学习规范变换是可行的,但是学习到的规范变换具体遵循什么样的规律依然不清楚,所以这里对学习到的规范变换进行了可视化。对于 3D 空间和 2D 流形(球面或者平面)的规范变换,我们学习一个逆映射将 2D 流形上均匀采样的点投影到 3D 空间,如图六所示。

▲ 图六:规范变换可视化


通过观察,我们发现学习到的规范变换和场景的几何(或者说密度)有很明显的关系,物体表面的点(也就是密度比较大的点)会被很好的投影到目标平面即占有率很高,而密度小的点所在空间会被高度压缩并在目标平面只有很低的占有率。这个结果也符合直觉:物体表面对渲染结果影响最大,所以渲染损失函数倾向于让物体表面更多地占用目标平面的特征,同时压缩对渲染影响很小的低密度空间。




信息不变性规范


理想情况下,我们期望 3D 空间信息能在规范变换中保证保持不变(Information Invariant, or InfoInv),一半情况下这个很难实现,这里我们通过推导证明了神经场中的位置编码实际上实现了规范变换中的相对信息不变性,从而有助于神经场建模。而本质上,这种不变性规范是对神经场坐标施加了一个相位变换

如图七所示,将位置编码简单地和 Grid 或者 MLP-based 神经场结合都能显著提高模型效果。近期的 PET-NeuS 等工作也证明了这种方法的有效性。


▲ 图七:信息不变性规范与 Grid 和 MLP-based 神经场结合




总结


这篇文章主要介绍了神经场中的规范变换,尤其是如何通过渲染损失联合优化神经场景表示和规范变换。通过应用和实验,证明了这种可学习规范变换的优点和广泛适用性,包括 UV 映射,TriPlane 神经场等。基于这种可学习的规范变换,还有大量神经渲染任务值得深入探索和应用。



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


··

相关推荐

  • NUS、NTU团队发布医疗大模型综述,全面介绍大模型在医疗领域的最新研究进展
  • 1个token终结LLM数字编码难题!九大机构联合发布xVal:训练集没有的数字也能预测!
  • Transformer王者归来!无需修改任何模块,时序预测全面领先
  • AI读脑成真,延迟仅0.25秒!Meta里程碑新研究:MEG实时解码大脑图像,LeCun转赞
  • 4090暴涨到3万,库存险被扫光!EUV被封5nm工艺被锁死?
  • 人手一个编程助手!北大最强代码大模型CodeShell-7B开源,性能霸榜,IDE插件全开源
  • 用Python实现自动扫雷!
  • AI实时解读大脑信号,7倍速还原图像关键视觉特征,LeCun转发
  • 全都不及格!斯坦福100页论文给大模型透明度排名,GPT-4仅排第三
  • OpenAI图像检测工具曝光,CTO:AI生成的99%都能认出
  • 网易互娱这样用AIGC, 爆款游戏只是牛刀小试|量子位智库对话
  • Transformer一作来卷多模态!学术图表也能看懂,100毫秒极速响应|免费试玩
  • 10年市场规模1.3万亿美元,「模力时代」已来
  • 大模型总弄错「事实」怎么办?这有一份汇聚了300多篇文献的综述
  • 狂揽4k star,AI通过强化学习玩宝可梦,两万场后成功拿下
  • OpenAI新模型研发遇挫,稀疏性是大模型降本的钥匙吗?
  • 4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍
  • RTX 4090也被禁售了?
  • 每日 24 亿事件处理:Airbnb 的 Riverbed 技术解析
  • 国内首个“AI 原生应用商店”上线!