【ICCV2023】ScanNet++:高保真度的3D室内场景数据集

论文标题:ScanNet++: A High-Fidelity Dataset of 3D Indoor Scenes

论文链接:https://openaccess.thecvf.com/content/ICCV2023/html/Yeshwanth_ScanNet_A_High-Fidelity_Dataset_of_3D_Indoor_Scenes_ICCV_2023_paper.html代码:https://cy94.github.io/scannetpp/引用:Yeshwanth C, Liu Y C, Nießner M, et al. ScanNet++: A High-Fidelity Dataset of 3D Indoor Scenes[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023: 12-22.

导读

本文推出了ScanNet++数据集,该数据集包含了高质量的颜色和几何捕捉数据,以及普通级别的RGB-D视频,为视角合成和3D语义场景理解提供了宝贵的资源。每个场景都使用高端激光扫描仪以亚毫米级分辨率进行捕捉,同时还包括来自DSLR相机的已注册的3300万像素图像以及来自iPhone的RGB-D流数据。

论文强调了视角合成的重要性,并提出了一项新任务,即从普通级别传感器数据进行视角合成,以推动现有方法的发展。此外,作者还注重语义标注,特别是解决语义标注中可能存在的歧义情况。本研究为解决室内场景的3D理解和合成问题提供了有力的工具和数据支持,有望在计算机视觉领域引领新的研究方向。目前,ScanNet++包含460个场景,拥有28万张单反相机拍摄的图像和超过370万帧iPhone RGB-D图像。

本文贡献

  • 提出了一个新的大规模高分辨率室内数据集,包括3D重建、高质量RGB图像、通用级别RGB-D视频以及覆盖标签歧义的语义注释。
  • 该数据集使得在大规模真实世界场景中,从高质量DSLR和通用级别iPhone图像进行新视角合成的优化和基准测试成为可能。与从扫描轨迹中采样用于测试地面真实图像的方法不同,我们提供了更具挑战性的设置,其中测试图像是独立于扫描轨迹捕捉的。
  • 数据集的3D语义数据支持训练和基准测试全面的语义理解,处理了与语义标记任务固有的标签歧义相关的问题。

数据收集方法

我们使用激光扫描仪、DSLR相机和iPhone RGB-D视频记录了每个场景的三种数据模态。对于每个场景,整个捕捉过程平均需要大约30分钟,对于较大的场景,时间可能会超过2小时。接下来,我们将讨论每个传感器的捕捉过程。

激光扫描

我们使用Faro Focus Premium激光扫描仪获取场景的点云数据。每次扫描包含约4000万个点。对于每个场景,我们使用多个扫描位置,平均每个中等大小的房间使用4次扫描,并根据场景的大小和复杂性进行相应比例的增加。我们对点云数据使用Poisson重建算法[18, 19],以生成每个场景的网格表面表示。为了保持计算的可行性,我们将Poisson重建算法[18, 19]应用于重叠的点云块,将结果网格的重叠区域裁剪并合并在一起。最后,我们使用Quadric Edge Collapse[13]获得一个简化的网格,以便于可视化和标注。

DSLR相机

我们使用一台带有鱼眼镜头的Sony Alpha 7 IV DSLR相机拍摄静态图像。对于中等大小的房间,我们拍摄大约200张用于训练的图像,并按比例扩展到更大的场景。我们不使用从相机轨迹中抽样的保留视图进行评估,而是为每个场景额外捕捉了一组15-25张新的图像,以获取用于新视角合成的具有挑战性的、逼真的测试图像,如图3。

iPhone 图像和LiDAR

使用了iPhone相机的默认设置(自动白平衡、自动曝光和自动对焦),以反映最常见的捕捉情景。RGB图像以1920×1440的分辨率捕获,LiDAR深度图像以256×192的分辨率捕获,两者都以60 FPS同步记录。

对于中等大小的房间,我们记录了大约两分钟的RGB-D视频,整个数据集中总共产生了17.4小时的视频。

实验

实验结果

新视角合成方面:

在ScanNet++上不同新视图合成方法的比较:

在ScanNet++测试图像上的新视图合成:

在iPhone视频上训练的新视图合成,并在ScanNet++的DSLR测试集上进行评估:

语义理解方面

在ScanNet++验证集上的三维语义和实例分割方法的定性结果:

在ScanNet++上的三维语义和实例分割基线的定量结果:

结论

本文创建了一个新的数据集 ScanNet++,这是一个具有高保真三维几何和高分辨率的室内场景RGB图像,并展示了它如何为NVS和语义理解提供具有挑战性的基准测试。高质量的DSLR捕获允许大规模地对NVS方法进行基准测试和开发广义的NVS方法,而iPhone捕获提出了处理运动模糊和噪声姿态的挑战性任务。

此外,重构上的长尾注释和多标签注释能够实现细粒度的语义理解,同时考虑到标签的不确定性。将所有的模态注册到一个单一的坐标系统中,允许语义的多模态学习和使用语义先验来进行新的视图合成。我们希望ScanNet的++数据集和基准测试将带来新的挑战,并刺激对NVS和语义理解的新方法的发展。

局限性

由于我们为每个场景固定了DSLR的亮度设置,以确保光度一致性,因此某些部分,如光源,可能会出现过曝光,而光线较暗的区域可能会曝光不足。由于昂贵的数据收集过程,ScanNet++无法像2D数据集[22, 50]那样以同样的速度扩展。

☆ END ☆如果看到这里,说明你喜欢这篇文章,请转发、点赞。微信搜索「uncle_pn」,欢迎添加小编微信「 woshicver」,每日朋友圈更新一篇高质量博文扫描二维码添加小编↓

相关推荐

  • 7.1K Star开源项目:一个轻松将视频转换为高品质GIF的高颜值工具
  • 微软带你玩转Linux
  • DHH锐评 “打包工具”:前端根本不需要构建 (No Build)
  • 1015.AI日报:Midjourney微调动漫模型Nijijourney APP上线
  • 一看就懂:正则表达式不用背
  • 成都周报 | 中东土豪联手成都企业,五粮液再设新基金
  • 红杉投了个大模型;一家咖啡店A轮融了1个亿丨投融周报
  • CCF CED 2023完整日程公布!10月21日,一起探讨大模型时代的工程师文化
  • 21岁SpaceX实习生用AI干出重大考古事件,斩获40000美元!
  • “大大震惊”一位CTO:GPT-4V自动驾驶五连测
  • Python入门,从19个语法开始!
  • 智能风控中的因果推断实践
  • 电信网络运营事件知识图谱构建
  • 火爆外网!23岁华人博士修复22年历史漏洞,网友:我喜欢这个故事
  • 时隔9年,中国学者再获诺伯特·维纳奖!哈工大高会军教授摘得桂冠
  • 千万人围观「烧焦婴儿」图片!伯克利教授辟谣:AI图片检测器无用
  • CityDreamer:一键生成无边界的3D城市
  • 「Meta版ChatGPT」背后的技术:想让基础LLM更好地处理长上下文,只需持续预训练
  • 值得一试的开源模型!开源社区上季度都有哪些靠谱项目?
  • 字节跳动李航:对语言大模型的若干观察和思考