ECCV2020语义分割——Virtual Multi-view Fusion for 3D Semantic Segmentation

Virtual Multi-view Fusion for 3D Semantic Segmentation

（一）动机 Motivation

体素方法缺点：

用于3D语义分割的最新技术（SOTA）方法使用3D稀疏体素卷积运算符来处理输入数据。例如，MinkowskiNet和SparseConvNet 各自将输入数据加载到稀疏3D体素网格中，并使用稀疏3D卷积提取特征。
这些“placecentric”的方法旨在识别3D模式，因此对于具有独特3D形状的对象类型（例如椅子）效果很好，而对其他对象（例如墙面图片）效果不佳。它们还占用了大量内存，这限制了空间分辨率和/或批处理大小。

多视图方法缺点:

当可获得posed RGB-D图像时，尝试使用为处理摄影RGB图像而设计的2D网络预测密集的特征和/或语义标签，然后将它们聚集在可见的3D表面上，或者将特征投影到可见的表面上，并在3D中将它们进一步卷积。
尽管这些“view-centric”的方法利用了在大型RGB图像数据集上进行预训练的大规模图像处理网络，但由于在RGB-D扫描数据集中存在遮挡，光照变化和相机姿态未对准的困难，因此无法在标准3D分割基准上达到SOTA性能。在ScanNet基准测试的3D语义标签挑战赛中，基于视图的方法目前不在当前排行榜的上半部分。

（二）创新 Invocation

本文提出了一种新的基于视图的3D语义分割方法，该方法克服了先前方法的问题。

关键思想是使用从3D场景的“虚拟视图”渲染的合成图像，而不是将处理限制为由物理相机获取的原始摄影图像。

这种方法具有几个优点，可以解决以前以视图为中心的方法遇到的关键问题。

首先，为虚拟视图with unnaturally wide field-of-view选择相机固有特性，以增加在每个渲染图像中观察到的上下文。
其次，在与场景表面的距离/角度变化较小，对象之间的遮挡相对较少以及表面覆盖范围较大的位置选择虚拟视点。
第三，通过背面的表面渲染非照片级的图像，而没有依赖于视图的照明效果和遮挡-即，虚拟视图可以从墙，地板和天花板后面观察场景，从而提供具有相对较大上下文和很少遮挡的视图。
第四，根据确切已知的虚拟视图相机参数将逐像素的预测汇总到3D表面上，因此不会在遮挡轮廓上遇到语义标签的“bleeding”。
第五，训练和推理期间的虚拟视图可以模仿多尺度训练和测试，并避免2D CNN的尺度不变性问题。
在训练和测试期间，可以生成任意数量的虚拟视图。在训练期间，由于数据扩充，更多的虚拟视图提供了鲁棒性。在测试期间，由于投票冗余，更多视图提供了鲁棒性。
最后，本文多视图融合方法中的2D分割模型可以受益于ImageNet和COCO之类的大图像预训练数据，而纯3D卷积方法则无法使用这些数据。

（三）贡献 Contribution

本文研究了使用各种消融研究将虚拟视图用于3D表面语义分割的想法。
发现虚拟摄像机支持的更广泛的视图选择设计空间可以显着提高多视图融合的性能，因为它允许我们包括物理上不可能但有用的视图（例如，墙后）。
与使用原始摄影图像相比，使用具有原始相机参数的虚拟视图可将3D mIoU提升3.1％，使用额外的法线和坐标通道以及更高的视野可以将mIoU进一步提升5.7％，而额外的2.1％增益可以可以通过精心选择虚拟相机的姿势来实现最佳捕获场景中的3D信息并优化训练2D CNN的方法。
在ScanNet Benchmark 中的2D和3D语义标记任务上实现最新的结果，并且在很大程度上比性能最佳的以前的多视图方法要好，并且与基于3D点集和网格的卷积的最新3D方法相比非常有竞争力。
当训练场景较少时，论文提出的方法始终优于3D卷积和真正的多视图融合方法。最后，论文表明在推理阶段，用更少的视图就可以获得类似的性能。例如，每个场景具有约12个虚拟视图的多视图融合将优于每个场景具有约1700个原始视图的多视图融合。

（四）方法 Method

Training stage.

在训练阶段，首先为每个3D场景选择虚拟视图，然后为每个虚拟视图选择摄影机内在，摄影机外部，要渲染的通道以及渲染参数（例如，深度范围，背面剔除）.
然后，通过为所选通道和groudtruth语义标签渲染所选虚拟视图来生成训练数据。
使用渲染的训练数据训练2D语义分割模型，并在推理阶段使用该模型。

Inference stage.

在推理阶段，使用与训练阶段类似的方法来选择并渲染虚拟视图，但是没有groudtruth语义标签。
使用训练好的模型在渲染的虚拟视图上进行2D语义分割，将2D语义特征投影到3D，然后通过融合多个投影的2D语义特征来导出3D中的语义类别。

（五）Virtual view selection

虚拟视图选择是所提出的多视图融合方法的核心，因为它带来了超过具有原始图像视图的多视图融合的关键优势。

首先，它使我们能够自由选择最适合2D语义分割任务的摄像机参数，并使用任何2D数据扩充方法。
其次，它通过放宽真实相机的物理约束并允许来自不真实但有用的相机位置的视图来显着拓宽可供选择的视图范围，从而显着提高了模型性能，例如在墙后面。
第三，它允许2D视图捕捉其他通道，这些通道很难用真实的相机捕捉，例如法线和坐标。
最后，通过选择和渲染虚拟视图，基本上消除了相机校准和姿势估计中的任何错误，这些错误在3D重建过程中很常见。
最后，在不同比例尺上一致地采样视图可解决传统2D CNN的比例尺不变性问题。

Camera intrinsics

原始图像视图的一个重要限制是视场 field of view FOV——例如，图像可能是非常靠近物体或墙壁拍摄的，并且缺少精确分类所必需的物体特征和上下文。
论文使用的针孔相机模型的视场比原始相机高得多，可提供更大的上下文，从而导致更准确的2D语义分割。图3显示了原始视图与具有较高FOV的虚拟视图相比的示例。

Camera extrinsics

均匀采样:

均匀采样相机外部，以生成许多新颖的视图，而与3D场景的特定结构无关。
具体，使用3D场景顶部均匀采样位置的自顶向下视图，以及从场景中心看去但均匀采样位置的视图。

尺度不变采样：

由于2D卷积神经网络通常不是尺度不变的，因此如果视图的尺度与3D场景不匹配，则模型性能可能会受到影响。
为了克服此限制，针对3D场景中的片段以一定比例尺对视图进行采样。
具体来说，对3D场景进行了过度分割，对于每个片段，都将相机定位为通过沿法线方向拉回到一定范围的距离来观看片段。
进行深度检查以避免前景物体的遮挡。如果在渲染阶段禁用了背面剔除，将进行光线跟踪并删除被背面遮挡的所有视图。
3D场景的过度分割是不受监督的，并且不使用地面真实语义标签，因此尺度不变采样可以应用于训练和推理阶段。

类平衡采样：

类平衡已被广泛用作2D语义分段的数据增强方法。
通过选择查看代表性不足的语义类别的网格段的视图来进行类平衡，类似于尺度不变采样方法。
注意，这种采样方法仅适用于ground truth语义标签可用的训练阶段。

Original views sampling：

从原始摄影机视图中进行采样，因为它们代表了人工如何在具有实际物理约束的真实3D场景中选择摄影机视图。
此外，3D场景是从原始视图重建的，因此包含它们可以确保覆盖拐角情况，否则这些情况很难作为随机虚拟视图。

Channels for rendering

为了利用场景中所有可用的3D信息，渲染了以下通道:

RGB颜色、法线、归一化的全局XYZ坐标。

额外的通道使得能够超越现有的RGB-D传感器的限制。虽然深度图像也包含相同的信息，但论文认为归一化的全局坐标图像使学习问题更简单，因为现在就像法线和颜色通道一样，同一3D点的坐标值是视图不变的。

Rendering parameters

在渲染中打开背面剔除，这样背面就不会阻挡相机视图，进一步放松了3D场景的物理约束，并扩展了视图选择的设计空间。

如图6所示，在室内场景中，可以选择房间外的视图，这些视图通常包含更多的房间上下文，并可能提高模型性能；
另一方面，当背面剔除关闭时，我们要么被限制在房间内的视图中，因此限制了上下文，要么受到墙壁背面的高度遮挡。

Training vs. inference stage

在训练和推理阶段使用类似的视图选择方法，以避免产生领域差距，例如，如果我们在训练阶段采样了许多自顶向下的视图，但在推理阶段使用了许多水平视图。这两个阶段的视图选择策略的主要区别是只能在训练阶段完成的类平衡。

虽然推理成本在现实世界的应用中可能很重要，但在本文中，考虑离线3D分割任务且不在任何一个阶段优化计算成本，所以论文在任何一个阶段使用任意多的虚拟视图。

（六）Multiview Fusion

2D semantic segmentation model

用渲染的虚拟视图作为训练数据，训练一个2D语义分割模型。使用xception 65特征提取器和DeeplabV3+ 解码器。

从在ImageNet上训练的预先训练的分类模型检查点初始化模型。当使用附加输入通道(如正常图像和坐标图像)训练模型时，通过将权重平铺在附加通道上并在每个空间位置对其进行归一化来修改预训练检查点的第一层，使得沿着通道维度的权重总和保持不变。

3D fusion of 2D semantic features

在推理过程中，在虚拟视图上运行2D语义分割模型，并获得图像特征(例如，每个像素的一元概率)。为了将2D图像特征投影到3D，使用以下方法:

在虚拟视图上渲染深度通道；
对于每个3D点，将其投影回每个虚拟视图，并且仅当像素的深度与点到相机的距离匹配时，才累积投影像素的图像特征。
与从每个像素投射光线以找到要聚集的3D点的替代方法相比，该方法实现了更好的计算效率。
首先，场景中3D点的数量远小于场景的所有渲染图像中的像素总数。
其次，使用深度检查投影3D点比涉及光线投射的操作更快。

（七）实验 Experiments

（八）总结 Conclusion

本文提出了一种虚拟多视角融合的纹理meshes三维语义分割方法。这种方法引入了几个显著提高标签性能的新思想:带有附加通道的虚拟视图、背面剔除、宽视野、多尺度感知视图采样。
因此，它克服了困扰大多数以前多视角融合方法的2D-3D错位、遮挡、窄视角和尺度不变性问题。
本文得出的令人惊讶的结论是，多视图融合算法是3D纹理网格语义分割的3D卷积的可行替代方案。
虽然这项任务的早期工作考虑了多视图融合，但近年来，通用方法已被放弃，取而代之的是点云的3D卷积和稀疏体素网格。
本文表明，仔细选择和渲染虚拟视图的简单方法使得多视图融合能够优于几乎所有最近的3D卷积网络。

原文链接：https://blog.csdn.net/Dujing2019/article/details/109206794