关于抠图的一些文章方法收集

引言：

结合深度场景，提取支撑面，是一个渐进分割的好办法。既然可以利用深度图，那么便最大化利用深度图像；

分割支撑面以后，可以利用抠图算法，把RGB剩余的像素载进行抠图：

《”GrabCut” – Interactive Foreground Extraction using Iterated Graph Cuts》

GrabCut函数说明

void

grabCut

(InputArray

img

, InputOutputArray

mask

, Rect

rect

, InputOutputArray

bgdModel

, InputOutputArray

fgdModel

, int

iterCount

, int

mode

=GC_EVAL)

Parameters:	image – Input 8-bit 3-channel image. mask – Input/output 8-bit single-channel mask. The mask is initialized by the function when mode is set to GC_INIT_WITH_RECT . Its elements may have one of following values: GC_BGD defines an obvious background pixels. GC_FGD defines an obvious foreground (object) pixel. GC_PR_BGD defines a possible background pixel. GC_PR_BGD defines a possible foreground pixel. rect – ROI containing a segmented object. The pixels outside of the ROI are marked as “obvious background”. The parameter is only used when mode==GC_INIT_WITH_RECT . bgdModel – Temporary array for the background model. Do not modify it while you are processing the same image. fgdModel – Temporary arrays for the foreground model. Do not modify it while you are processing the same image. iterCount – Number of iterations the algorithm should make before returning the result. Note that the result can be refined with further calls with mode==GC_INIT_WITH_MASK or mode==GC_EVAL . mode – Operation mode that could be one of the following: GC_INIT_WITH_RECT The function initializes the state and the mask using the provided rectangle. After that it runs iterCount iterations of the algorithm. GC_INIT_WITH_MASK The function initializes the state using the provided mask. Note that GC_INIT_WITH_RECT and GC_INIT_WITH_MASK can be combined. Then, all the pixels outside of the ROI are automatically initialized with GC_BGD . GC_EVAL The value means that the algorithm should just resume.

Parameters:

image

– Input 8-bit 3-channel image.
mask

–

Input/output 8-bit single-channel mask. The mask is initialized by the function when

mode

is set to

GC_INIT_WITH_RECT

. Its elements may have one of following values:
- GC_BGD
  
  defines an obvious background pixels.
- GC_FGD
  
  defines an obvious foreground (object) pixel.
- GC_PR_BGD
  
  defines a possible background pixel.
- GC_PR_BGD
  
  defines a possible foreground pixel.
rect

– ROI containing a segmented object. The pixels outside of the ROI are marked as “obvious background”. The parameter is only used when

mode==GC_INIT_WITH_RECT

.
bgdModel

– Temporary array for the background model. Do not modify it while you are processing the same image.
fgdModel

– Temporary arrays for the foreground model. Do not modify it while you are processing the same image.
iterCount

– Number of iterations the algorithm should make before returning the result. Note that the result can be refined with further calls with

mode==GC_INIT_WITH_MASK

or

mode==GC_EVAL

.
mode

–

Operation mode that could be one of the following:
- GC_INIT_WITH_RECT
  
  The function initializes the state and the mask using the provided rectangle. After that it runs
  
  iterCount
  
  iterations of the algorithm.
- GC_INIT_WITH_MASK
  
  The function initializes the state using the provided mask. Note that
  
  GC_INIT_WITH_RECT
  
  and
  
  GC_INIT_WITH_MASK
  
  can be combined. Then, all the pixels outside of the ROI are automatically initialized with
  
  GC_BGD
  
  .
- GC_EVAL
  
  The value means that the algorithm should just resume.

函数原型：

void cv::grabCut( const Mat& img, Mat& mask, Rect rect,

Mat& bgdModel, Mat& fgdModel,

int iterCount, int mode )

其中：

img——待分割的源图像，必须是8位3通道（CV_8UC3）图像，在处理的过程中不会被修改；

mask——掩码图像，如果使用掩码进行初始化，那么mask保存初始化掩码信息；在执行分割的时候，也可以将用户交互所设定的前景与背景保存到mask中，然后再传入grabCut函数；在处理结束之后，mask中会保存结果。mask只能取以下四种值：

GCD_BGD（=0），背景；

GCD_FGD（=1），前景；

GCD_PR_BGD（=2），可能的背景；

GCD_PR_FGD（=3），可能的前景。

如果没有手工标记GCD_BGD或者GCD_FGD，那么结果只会有GCD_PR_BGD或GCD_PR_FGD；

rect——用于限定需要进行分割的图像范围，只有该矩形窗口内的图像部分才被处理；

bgdModel——背景模型，如果为null，函数内部会自动创建一个bgdModel；bgdModel必须是单通道浮点型（CV_32FC1）图像，且行数只能为1，列数只能为13×5；

fgdModel——前景模型，如果为null，函数内部会自动创建一个fgdModel；fgdModel必须是单通道浮点型（CV_32FC1）图像，且行数只能为1，列数只能为13×5；

iterCount——迭代次数，必须大于0；

mode——用于指示grabCut函数进行什么操作，可选的值有：

GC_INIT_WITH_RECT（=0），用矩形窗初始化GrabCut；

GC_INIT_WITH_MASK（=1），用掩码图像初始化GrabCut；

GC_EVAL（=2），执行分割。

源代码包含在：sample/cpp/grabcut.cpp

OpenCV函数库里面包含GrabCut的使用：

grabcut主要是通过

Min Cut: Global minimal enegry in polynomial time

实现，具体参考论文

（1）：利用图割法

：

图像分割之（三）从Graph Cut到Grab Cut：http://blog.csdn.net/zouxy09/article/details/8534954

OpenCV

中的GrabCut算法是依据《”GrabCut” – Interactive Foreground Extraction using Iterated Graph Cuts》这篇文章来实现的。该算法利用了图像中的纹理（颜色）信息和边界（反差）信息，只要少量的用户交互操作即可得到比较好的分割结果。那下面我们来了解这个论文的一些细节。另外OpenCV实现的GrabCut的源码解读见下一个博文。接触时间有限，若有错误，还望各位前辈指正，谢谢。

GrabCut

是微软研究院的一个课题，主要功能是分割和抠图。个人理解它的卖点在于：

（1）你只需要在目标外面画一个框，把目标框住，它就可以完成良好的分割：

（2）如果增加额外的用户交互（由用户指定一些像素属于目标），那么效果就可以更完美：

（3）它的Border Matting技术会使目标分割边界更加自然和perfect：

当然了，它也有不完美的地方，一是没有任何一个算法可以放之四海而皆准，它也不例外，如果背景比较复杂或者背景和目标相似度很大，那分割就不太好了；二是速度有点慢。当然了，现在也有不少关于提速的改进。

OK

，那看了效果，我们会想，上面这些效果是怎么达到的呢？它和Graph Cut有何不同？

（1）Graph Cut的目标和背景的模型是灰度直方图，Grab Cut取代为RGB三通道的混合高斯模型GMM；

（2）Graph Cut的能量最小化（分割）是一次达到的，而Grab Cut取代为一个不断进行分割估计和模型参数学习的交互迭代过程；

（3）Graph Cut需要用户指定目标和背景的一些种子点，但是Grab Cut只需要提供背景区域的像素集就可以了。也就是说你只需要框选目标，那么在方框外的像素全部当成背景，这时候就可以对GMM进行建模和完成良好的分割了。即Grab Cut允许不完全的标注（incomplete labelling）。

1、颜色模型

我们采用RGB颜色空间，分别用一个K个高斯分量（一取般K=5）的全协方差GMM（混合高斯模型）来对目标和背景进行建模。于是就存在一个额外的向量

k

= {k
₁
, . . ., k
_n
, . . ., k
_N
}，其中k
_n
就是第n个像素对应于哪个高斯分量，k
_n
∈ {1, . . . K}。对于每个像素，要不来自于目标GMM的某个高斯分量，要不就来自于背景GMM的某个高斯分量。

所以用于整个图像的Gibbs能量为（式7）：

其中，U就是区域项，和上一文说的一样，你表示一个像素被归类为目标或者背景的惩罚，也就是某个像素属于目标或者背景的概率的负对数。我们知道混合高斯密度模型是如下形式：

所以取负对数之后就变成式（9）那样的形式了，其中GMM的参数

θ

就有三个：每一个高斯分量的权重π、每个高斯分量的均值向量

u

（因为有RGB三个通道，故为三个元素向量）和协方差矩阵

∑

（因为有RGB三个通道，故为3×3矩阵）。如式（10）。也就是说描述目标的GMM和描述背景的GMM的这三个参数都需要学习确定。一旦确定了这三个参数，那么我们知道一个像素的RGB颜色值之后，就可以代入目标的GMM和背景的GMM，就可以得到该像素分别属于目标和背景的概率了，也就是Gibbs能量的区域能量项就可以确定了，即图的t-link的权值我们就可以求出。那么n-link的权值怎么求呢？也就是边界能量项

V

怎么求？

边界项和之前说的Graph Cut的差不多，体现邻域像素m和n之间不连续的惩罚，如果两邻域像素差别很小，那么它属于同一个目标或者同一背景的可能性就很大，如果他们的差别很大，那说明这两个像素很有可能处于目标和背景的边缘部分，则被分割开的可能性比较大，所以当两邻域像素差别越大，能量越小。而在RGB空间中，衡量两像素的相似性，我们采用欧式距离（二范数）。这里面的参数β由图像的对比度决定，可以想象，如果图像的对比度较低，也就是说本身有差别的像素m和n，它们的差||z
_m
-z
_n
||还是比较低，那么我们需要乘以一个比较大的β来放大这种差别，而对于对比度高的图像，那么也许本身属于同一目标的像素m和n的差||z
_m
-z
_n
||还是比较高，那么我们就需要乘以一个比较小的β来缩小这种差别，使得V项能在对比度高或者低的情况下都可以正常工作。常数γ为50（经过作者用15张图像训练得到的比较好的值）。OK，那这时候，n-link的权值就可以通过式（11）来确定了，这时候我们想要的图就可以得到了，我们就可以对其进行分割了。

2、迭代能量最小化分割算法

Graph Cut

的算法是一次性最小化的，而Grab Cut是迭代最小的，每次迭代过程都使得对目标和背景建模的GMM的参数更优，使得图像分割更优。我们直接通过算法来说明：

2.1、初始化

（1）用户通过直接框选目标来得到一个初始的trimap T，即方框外的像素全部作为背景像素T
_B
，而方框内T
_U
的像素全部作为“可能是目标”的像素。

（2）对T
_B
内的每一像素n，初始化像素n的标签α
_n
=0，即为背景像素；而对T
_U
内的每个像素n，初始化像素n的标签α
_n
=1，即作为“可能是目标”的像素。

（3）经过上面两个步骤，我们就可以分别得到属于目标（α
_n
=1）的一些像素，剩下的为属于背景（α
_n
=0）的像素，这时候，我们就可以通过这个像素来估计目标和背景的GMM了。我们可以通过k-mean算法分别把属于目标和背景的像素聚类为K类，即GMM中的K个高斯模型，这时候GMM中每个高斯模型就具有了一些像素样本集，这时候它的参数均值和协方差就可以通过他们的RGB值估计得到，而该高斯分量的权值可以通过属于该高斯分量的像素个数与总的像素个数的比值来确定。

2.2、迭代最小化

（1）对每个像素分配GMM中的高斯分量（例如像素n是目标像素，那么把像素n的RGB值代入目标GMM中的每一个高斯分量中，概率最大的那个就是最有可能生成n的，也即像素n的第k
_n
个高斯分量）：

（2）对于给定的图像数据

Z

，学习优化GMM的参数（因为在步骤（1）中我们已经为每个像素归为哪个高斯分量做了归类，那么每个高斯模型就具有了一些像素样本集，这时候它的参数均值和协方差就可以通过这些像素样本的RGB值估计得到，而该高斯分量的权值可以通过属于该高斯分量的像素个数与总的像素个数的比值来确定。）：