论文标题:ScanNet++: A High-Fidelity Dataset of 3D Indoor Scenes
论文链接:https://openaccess.thecvf.com/content/ICCV2023/html/Yeshwanth_ScanNet_A_High-Fidelity_Dataset_of_3D_Indoor_Scenes_ICCV_2023_paper.html代码:https://cy94.github.io/scannetpp/引用:Yeshwanth C, Liu Y C, Nießner M, et al. ScanNet++: A High-Fidelity Dataset of 3D Indoor Scenes[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023: 12-22.本文推出了ScanNet++数据集,该数据集包含了高质量的颜色和几何捕捉数据,以及普通级别的RGB-D视频,为视角合成和3D语义场景理解提供了宝贵的资源。每个场景都使用高端激光扫描仪以亚毫米级分辨率进行捕捉,同时还包括来自DSLR相机的已注册的3300万像素图像以及来自iPhone的RGB-D流数据。
论文强调了视角合成的重要性,并提出了一项新任务,即从普通级别传感器数据进行视角合成,以推动现有方法的发展。此外,作者还注重语义标注,特别是解决语义标注中可能存在的歧义情况。本研究为解决室内场景的3D理解和合成问题提供了有力的工具和数据支持,有望在计算机视觉领域引领新的研究方向。目前,ScanNet++包含460个场景,拥有28万张单反相机拍摄的图像和超过370万帧iPhone RGB-D图像。使用了iPhone相机的默认设置(自动白平衡、自动曝光和自动对焦),以反映最常见的捕捉情景。RGB图像以1920×1440的分辨率捕获,LiDAR深度图像以256×192的分辨率捕获,两者都以60 FPS同步记录。
对于中等大小的房间,我们记录了大约两分钟的RGB-D视频,整个数据集中总共产生了17.4小时的视频。
新视角合成方面:
在ScanNet++上不同新视图合成方法的比较:
在ScanNet++测试图像上的新视图合成:
在iPhone视频上训练的新视图合成,并在ScanNet++的DSLR测试集上进行评估:
语义理解方面
在ScanNet++验证集上的三维语义和实例分割方法的定性结果:
在ScanNet++上的三维语义和实例分割基线的定量结果:
本文创建了一个新的数据集 ScanNet++,这是一个具有高保真三维几何和高分辨率的室内场景RGB图像,并展示了它如何为NVS和语义理解提供具有挑战性的基准测试。高质量的DSLR捕获允许大规模地对NVS方法进行基准测试和开发广义的NVS方法,而iPhone捕获提出了处理运动模糊和噪声姿态的挑战性任务。
此外,重构上的长尾注释和多标签注释能够实现细粒度的语义理解,同时考虑到标签的不确定性。将所有的模态注册到一个单一的坐标系统中,允许语义的多模态学习和使用语义先验来进行新的视图合成。我们希望ScanNet的++数据集和基准测试将带来新的挑战,并刺激对NVS和语义理解的新方法的发展。