图像分割“Instance-aware Semantic Segmentation via Multi-task Network Cascades”

模型包含三个网络：实例分辨，掩码计算，目标归类。三个网络形成级联的结构。运行时间上，使用VGG-16一张图片需360ms。在MS COCO 2015分割比赛中获取第一名。

将instance-aware语义分割分成三个子任务：1.实例分辨，使用类别无关的bbox表示实例；2.掩码估计，估计每个实例的像素级掩码；3.目标分类，预测每个掩码级别实例的类别。论文提出的多任务学习时级联结构，下一阶段依靠上一阶段的输出，如下所示:

这里写图片描述

多任务网络级联

三个阶段共享卷积特征，每个阶段包含一个损失项，但后面一阶段的损失依靠上一阶段的损失。

整体网络结构如下图所示：

这里写图片描述

网络训练

1. 级联结构的损失函数为：

这里写图片描述

RoI Warping 层

目的是生成每个box更具分辨性的特征，该层裁切一个特征图区域，使用插值法将其warp到目标尺寸。给定预测出的bbox和全图的卷积特征图，RoI warp层在box内差值，输出固定大小的特征。

增加RoI warp层是期望获取更高分辨率的特征，作用与空间转换网络（STN）类似，作者认为特征插值能够带来更具分辨力的特征。

更多层级联

第3级级联的输出可以作为新的proposals，再将第2级和第3级连接到其后，可以提升性能，示意图如下所示：

这里写图片描述

实验结果

1. 与其他实例分割方法的结果比较

这里写图片描述

2. 与Fast/Faster RCNN检测结果比较