图像分割“Instance-aware Semantic Segmentation via Multi-task Network Cascades”

  • Post author:
  • Post category:其他


模型包含三个网络:实例分辨,掩码计算,目标归类。三个网络形成级联的结构。运行时间上,使用VGG-16一张图片需360ms。在MS COCO 2015分割比赛中获取第一名。

将instance-aware语义分割分成三个子任务:1.实例分辨,使用类别无关的bbox表示实例;2.掩码估计,估计每个实例的像素级掩码;3.目标分类,预测每个掩码级别实例的类别。论文提出的多任务学习时级联结构,下一阶段依靠上一阶段的输出,如下所示:

这里写图片描述


多任务网络级联


三个阶段共享卷积特征,每个阶段包含一个损失项,但后面一阶段的损失依靠上一阶段的损失。

  1. Box-级实例回归

    网络结构与损失函数与RPN类似,在共享特征后,衔接一个3*3的卷积层降维,然后接两个1*1的卷积层用于bbox回归和是否目标分类。RPN损失为:












    L






    1







    =





    L






    1







    (


    B


    (


    Θ


    )


    )












    其中








    Θ











    表示所有需要优化的网络参数,B是此层网络的输出,即bbox。
  2. Mask-级实例回归

    给定阶段1的bbox,使用RoI池化提取固定长度的特征,之后衔接两个全连接层,第一个fc层将维度降为256,第二个fc层回归pixel-wise掩码,有











    m






    2
















    个输出,对应相应大小的掩码。第二层的损失函数为:












    L






    2







    =





    L






    2







    (


    M




    (


    Θ


    )




    |




    B


    (


    Θ


    )


    )










  3. 实例分类

    只保留掩码部分对应的特征:












    F










    M




    a


    s


    k








    i







    (


    Θ


    )


    =





    F










    R


    o


    I










    i







    (


    Θ


    )








    M








    i







    (


    Θ


    )












    衔接两个4096-d的全连接层,损失函数为:

    这里写图片描述

整体网络结构如下图所示:

这里写图片描述


网络训练


1. 级联结构的损失函数为:

这里写图片描述

  1. RoI Warping 层

    目的是生成每个box更具分辨性的特征,该层裁切一个特征图区域,使用插值法将其warp到目标尺寸。给定预测出的bbox和全图的卷积特征图,RoI warp层在box内差值,输出固定大小的特征。

    这里写图片描述

    增加RoI warp层是期望获取更高分辨率的特征,作用与空间转换网络(STN)类似,作者认为特征插值能够带来更具分辨力的特征。


更多层级联


第3级级联的输出可以作为新的proposals,再将第2级和第3级连接到其后,可以提升性能,示意图如下所示:

这里写图片描述


实验结果


1. 与其他实例分割方法的结果比较

这里写图片描述

2. 与Fast/Faster RCNN检测结果比较

这里写图片描述



版权声明:本文为cv_family_z原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。