模型包含三个网络:实例分辨,掩码计算,目标归类。三个网络形成级联的结构。运行时间上,使用VGG-16一张图片需360ms。在MS COCO 2015分割比赛中获取第一名。
将instance-aware语义分割分成三个子任务:1.实例分辨,使用类别无关的bbox表示实例;2.掩码估计,估计每个实例的像素级掩码;3.目标分类,预测每个掩码级别实例的类别。论文提出的多任务学习时级联结构,下一阶段依靠上一阶段的输出,如下所示:
多任务网络级联
三个阶段共享卷积特征,每个阶段包含一个损失项,但后面一阶段的损失依靠上一阶段的损失。
-
Box-级实例回归
网络结构与损失函数与RPN类似,在共享特征后,衔接一个3*3的卷积层降维,然后接两个1*1的卷积层用于bbox回归和是否目标分类。RPN损失为:
L
1
=
L
1
(
B
(
Θ
)
)
其中
Θ
表示所有需要优化的网络参数,B是此层网络的输出,即bbox。 -
Mask-级实例回归
给定阶段1的bbox,使用RoI池化提取固定长度的特征,之后衔接两个全连接层,第一个fc层将维度降为256,第二个fc层回归pixel-wise掩码,有
m
2
个输出,对应相应大小的掩码。第二层的损失函数为:
L
2
=
L
2
(
M
(
Θ
)
|
B
(
Θ
)
)
-
实例分类
只保留掩码部分对应的特征:
F
M
a
s
k
i
(
Θ
)
=
F
R
o
I
i
(
Θ
)
⋅
M
i
(
Θ
)
衔接两个4096-d的全连接层,损失函数为:
整体网络结构如下图所示:
网络训练
1. 级联结构的损失函数为:
-
RoI Warping 层
目的是生成每个box更具分辨性的特征,该层裁切一个特征图区域,使用插值法将其warp到目标尺寸。给定预测出的bbox和全图的卷积特征图,RoI warp层在box内差值,输出固定大小的特征。
增加RoI warp层是期望获取更高分辨率的特征,作用与空间转换网络(STN)类似,作者认为特征插值能够带来更具分辨力的特征。
更多层级联
第3级级联的输出可以作为新的proposals,再将第2级和第3级连接到其后,可以提升性能,示意图如下所示:
实验结果
1. 与其他实例分割方法的结果比较
2. 与Fast/Faster RCNN检测结果比较
版权声明:本文为cv_family_z原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。