图像语义分割概述

  • Post author:
  • Post category:其他



图像语义分割


一、图像语义分割含义及原理


含义:


对分割后的图像加上语义标签(用不同的颜色代表不同类别的物体),就是给分割后图像中的每一类物体加上标签,输入一般是彩色深度(RGB-D)图像。





要求


(1)分割得到的不同区域内部平整,其纹理和灰度有相似性;


(2)相邻语义分割区域对分割所依据的性质有明显的差异;


(3)分割后不同语义区域的边界有明确且规整。


二、DL(deep learning)时代的语义分割方法


1、全卷积神经网络(FCN)




FCN基本原理


可用来分类的神经网络最后几层均是全连接层,会将输入的二维图像压缩至一维,即最后的分类结果。图像语义分割要求输出是二维图像,所以我们需要将全连接层换成全卷积层(卷积核大小为输入特征图大小),即全卷积网络。



FCN的特点





1)卷积化(convolutional)


FCN直接进行像素级别的端到端的语义分割,以VGG 16为例,将传统的全连接层fc6和fc7均替换成卷积层,fc8替换成21通道(PASCAL VOC数据包含21个类别:20个对象类和一个背景类)的卷积层,作为网络最终输出,这样,网络的输入和输出均是二维图像。





2)上采样(upsample)



在池化过程中,下采样会使图片不断缩小,使得图片中的像素点不能恢复到原图,给像素级别的训练带来困扰。需要对特征图进行上采样(

upsample),即反卷积(Deconvolution),FCN中用双线性插值将特征图上采样到原图大小。


下采样倍数不同将导致语义分割结果的精细程度不同,下采样倍数越高,上采样还原后得到的分割结果越粗略,因为较浅的(靠前的)卷积层的感受域较小,学习感知细节部分的能力比较强,而较深的(靠后的)卷积层感受域比较大,适合学习较为整体的、宏观的特征,所以在较深的卷积层上进行反卷积还原,会损失很多细节特征,导致分割结果很粗糙。



所以,在进行反卷积时,会采用一部分较浅层的反卷积信息辅助叠加,来优化结果输出。





3)跳跃层(skip layer)



这个结构的作用就在于优化结果,因为如果将全卷积之后的结果直接上采样得到的结果是很粗糙的,所以

FCN将不同池化层的结果进行上采样之后来优化输出。具体结构如下:




2、条件随机场和马尔科夫随机场(CRF和MRF)








条件随机场






将图像中的每个像素点的类别都看作一个变量,考虑任意两个变量之间的关系,建立一个完全图。就是将像素点之间的语义关系考虑进去,鼓励相似的像素分配相同的标签,通过对

CRF能量函数进行优化求解,来对FCN图像语义分割预测结果进行优化,得到最终分割结果。




全连接条件随机场(

Dense CRF)



为了取得更好的分割结果,研究人员将

CRF嵌入到FCN中,就形成了全连接的条件随机场(Dense CRF),可以提高网络模型捕获图像细节的能力,CRF最后预测结果的能量函数可以直接用来指导FCN模型参数的训练。



CRF as RNN



最开始的

Dense CRF中的CRF直接加在FCN后面,比较粗糙,在深度学习中,我们都追求端到端的系统,CRF as RNN采用平均场近似的方法,将CRF真正结合到FCN中,使用相乘相加的计算,将每一步都描述成一层类似卷积的计算。这样既可以将CRF结合进神经网络中,使前向传播和后向传播不存在问题,还可以进行迭代,不同的迭代次数得到结果的优化程度也不同(一般迭代取10次以内)。




MRF



MRF模型认为图像中某一点的特征(一般是像素点的灰度值等信息)只与其附近的一小块区域有关,而与其他区域无关。这是一种基于统计的图像分割算法,模型参数比较少,空间约束力强,使用较为广泛。



3、空洞卷积(Atrous Convolutions)





在不降低空间维度的前提下,增大了相应的感受域,可以改善分割网络。由于FCN的上采样并不能将丢失的信息全部无损的找回来,所以要采用空洞卷积。池化层的下采样会带来信息损失,但去掉池化层会使网络的感受域变小,降低模型的预测精度,而空洞卷积可以去掉池化层的同时不降低网络的感受域,就是采用一个更加稀疏的卷积核来取代池化,在卷积核模板相同的情况下,每进行一次卷积都得到更多的特征图信息。






版权声明:本文为weixin_38437404原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。