详解3D物体检测模型 SPG: Unsupervised Domain Adaptation for 3D Object Detection via Semantic Point Generation

在这里插入图片描述

本文对基于激光雷达的
无监督域自适应3D物体检测
进行了研究，论文已收录于

ICCV2021

。

在
Waymo Domain Adaptation dataset
上，作者发现
点云质量的下降
是3D物件检测器性能下降的主要原因。因此论文提出了
Semantic Point Generation (SPG)
方法，首先
在预测的前景点区域生成语义点云，复原前景点物体缺失的部分
。然后，
将原始点云与生成的语义点云进行融合得到增强后的点云数据
，再使用通用的3D物体检测器进行检测。在
Waymo
和
KITTI
数据集上，无论是在
target domain
还是
source domain
上，本文提出的
SPG
方法都大幅提高了3D物检检测器的性能。

论文链接为：

https://arxiv.org/pdf/2108.06709v1.pdf

1. Introduction

首先是引出本文要解决的问题：
Waymo Open Dataset (OD)
数据集是在
California和Arizona
收集的，而
Waymo Kirkland Dataset (Kirk)
是在
Kirk
收集的，这里将
OD
数据当作
source domain
，
Kirk
数据当作
target domain
。

作者使用
PointpPllars
模型在
OD
训练集上训练，然后在
OD
和
Kirk
验证集上进行验证。从表1可以看出，
雨天下收集到的点云质量下降很厉害
，平均每帧缺失点数几乎是干燥天气下的两倍，检测性能也下降了27%左右；同时从
Range Image
上也可以看出雨天下物体点云缺失的区域也更不规则。

2. Semantic Point Generation

本文提出的
SPG
辅助检测方法如下图所示，
SPG
首先在预测的前景点区域生成语义点集，然后语义点集与原始点云相结合得到增强点云

PC_{aug}

$P C_{a u g}$

，最后再使用一个点云检测器得到检测结果。

在这里插入图片描述

2.1 Training Targets

设原始输入点云为

{

}

∈

PC_{raw}=\{p_1,p_2,…,p_N\} \in \mathbb{R}^{3+F}

$P C_{r a w} = {p_{1}, p_{2}, . . ., p_{N}} \in R^{3 + F}$

，

3

$3$

表示点云坐标，

F

$F$

表示点云属性。

SPG
首先将原始点云划分为一个个Voxel，对于每一个Voxel，模型首先预测其为前景Voxel的概率
$\tilde{P}^{f} P ~ f ，然后在每一个前景Voxel生成语义点集 s p ~ \tilde {sp} s p ~ ，其特征为 ψ ~ = [ χ ~ , f ~ ] \tilde{\psi}=[\tilde{\chi}, \tilde{f}] ψ ~ = [ χ ~ , f ~ ] ，分别表示语义点集的坐标和属性。$
在与原始点云融合时只保留置信度超过
$P_{thresh} P t h r e s h 的 K K K 个点，得到增强后的点云 P C a u g = { p ^ 1 , p ^ 2 , … , p ^ N , s p ~ 1 , s p ~ 2 , … , s p ~ K } ∈ R 3 + F + 1 PC_{aug}=\left\{\hat{p}_{1}, \hat{p}_{2}, \ldots, \hat{p}_{N}, \tilde{s p}_{1}, \tilde{s p}_{2}, \ldots, \tilde{s p}_{K}\right\} \in \mathbb{R}^{3+F+1} P C a u g = { p ^ 1 , p ^ 2 , … , p ^ N , s p ~ 1 , s p ~ 2 , … , s p ~ K } ∈ R 3 + F + 1 ，最后一个通道表示点为前景点的置信度，原始点云则置信度为 1.0 1.0 1 . 0 ，语义点集则置信度为 P ~ f \tilde{P}^f P ~ f 。$

在训练时，如果划分的Voxel为前景voxel

V^f

$V^{f}$

，则其对应类别

y_i^f=1

$y_{i}^{f} = 1$

，否则为

y_i^f=0

$y_{i}^{f} = 0$

。如果划分的Voxel非空的话，令

[

]

\psi_{i}=\left[\bar{\chi}_{i}, \bar{f}_{i}\right]

$ψ_{i} = [\overset{χ}{ˉ}_{i}, \overset{ˉ}{f}_{i}]$

为回归目标，其中

\bar{\chi_i}

$\overset{χ_{i}}{ˉ}$

为Voxel中所有前景点的平均坐标，

\bar{f}_i

$\overset{ˉ}{f}_{i}$

为前景点的属性平均值。

在这里插入图片描述

2.2 Model Structure

SPG
模型结构由三部分组成：

首先是Voxle特征编码模块，对每一个Voxel进行特征学习，编码成pillars投影到鸟瞰图；
然后是信息传播模块，将非空pillars语义信息传播到附近非空pillars；
最后是语义点集生成模块，在每一个前景Voxel生成语义点集
$\tilde{sp}_i=\left[\tilde{\chi}_{i}, \tilde{f}_{i}, \tilde{P}_{i}^{f}\right] s p ~ i = [ χ ~ i , f ~ i , P ~ i f ] 。$

2.3 Foreground Region Recovery

为了在
empty areas
生成语义点集，作者设计了两个策略
Hide and Predict
和
Semantic Area Expansion
。

Hide and Predict

。原始点云
$PC_{raw} P C r a w 划分为Voxel集合 V = { v 1 , v 2 , . . . , v M } V=\{v_1,v_2,…,v_M\} V = { v 1 , v 2 , . . . , v M } ，在训练时，丢弃 γ % \gamma\% γ % 的非空Voxel V h i d e V_{hide} V h i d e ， SPG 需要预测出这些隐藏的Voxel标签 y f y^f y f 和对应点特征 ψ ~ \tilde{\psi} ψ ~ 。$
Semantic Area Expansion

。作者设计了一个扩展语义区域策略（图5所示），用以在
empty space
生成语义点集。具体地，非空和空的背景Voxel为
$V_o^b,V_e^b V o b , V e b ，其对应标签为 y f = 0 y^f=0 y f = 0 ；非空前景Voxel V o f V_o^f V o f 类别标签 y f = 1 y^f=1 y f = 1 ；bounding box中空的前景Voxel V e f V_e^f V e f 类别标签为 y f = 1 y^f=1 y f = 1 ，同时增加一个权重系数 α < 1 \alpha < 1 α < 1 ；监督学习非空前景Voxel V o f V_o^f V o f 点集特征 ψ \psi ψ 。图6为是否使用Expansion生成语义点集的效果。$

2.4 Objectives

损失函数有两个，一个是
类别损失函数
，其中

V_o

$V_{o}$

为非空Voxel，

V_e^b

$V_{e}^{b}$

为空的背景Voxel，

V_e^f

$V_{e}^{f}$

为空的前景Voxel，

V_{hide}

$V_{h i d e}$

为隐藏的Voxel。

∣

∪

∣

∑

∪

focal

∣

∑

focal

∣

hide

∣

∑

hide

focal

\begin{aligned} L_{c l s} &=\frac{1}{\left|V_{o} \cup V_{e}^{b}\right|} \sum_{V_{o} \cup V_{e}^{b}} L_{\text {focal }} +\frac{\alpha}{\left|V_{e}^{f}\right|} \sum_{V_{e}^{f}} L_{\text {focal }}+\frac{\beta}{\left|V_{\text {hide }}\right|} \sum_{V_{\text {hide }}} L_{\text {focal }} \end{aligned}

$L_{c l s} = \frac{1}{∣ V _{o} \cup V _{e}^{b} ∣} V_{o} \cup V_{e}^{b} \sum L_{focal} + \frac{α}{∣ ∣ ∣ V _{e}^{f} ∣ ∣ ∣} V_{e}^{f} \sum L_{focal} + \frac{β}{∣ V _{hide} ∣} V_{hide} \sum L_{focal}$

另一个是点集回归损失函数：

reg

∣

∑

smooth-

(

)

∣

hide

∑

hide

smooth-L1

(

)

\begin{aligned} L_{\text {reg }} &=\frac{1}{\left|V_{o}^{f}\right|} \sum_{V_{o}^{f}} L_{\text {smooth- } L 1}(\tilde{\psi}, \psi) +\frac{\beta}{\mid V_{\text {hide }}^{f}} \sum_{V_{\text {hide }}^{f}} L_{\text {smooth-L1 }}(\tilde{\psi}, \psi) \end{aligned}

$L_{reg} = \frac{1}{∣ ∣ ∣ V _{o}^{f} ∣ ∣ ∣} V_{o}^{f} \sum L_{smooth- L 1} (\tilde{ψ}, ψ) + \frac{β}{∣ V _{hide}^{f}} V_{hide}^{f} \sum L_{smooth-L1} (\tilde{ψ}, ψ)$

3. Experiments

首先是在
Waymo
数据集上的检测结果：

然后是在
KITTI
数据集上的检测结果。

原文链接：https://blog.csdn.net/cg129054036/article/details/120028402

1. Introduction

2. Semantic Point Generation

2.1 Training Targets

2.2 Model Structure

2.3 Foreground Region Recovery

2.4 Objectives

3. Experiments

你可能也喜欢