Learning to Segment Instances in Videos with Spatial Propagation Network
Jingchun Cheng Sifei Liu Yi-Hsuan Tsai Wei-Chih Hung Shalini De Mello
Jinwei Gu Jan Kautz Shengjin Wang Ming-Hsuan Yang
Tsinghua University University of California Merced 3NVIDIA Research
一、摘要
提出了一个基于深度学习的实例对象分割。
具体分为三步:
1、基于ResNet-101训练了一个通用模型用于前景背景传播;
2、通过在测试视频的第一帧使用增强对象注释微调模型以此训练实例模型和单个对象分割;
为了在视频中区分不同的实例,把实例中的每个对象都计算了像素级score map,每个score map 表明了对象的相似性并且仅在第一步中获得的前景掩模内计算。为精炼score map ,训练了空间传播网络。空间传播网络旨在训练如何基于每个帧中的成对相似性在空间传播粗分割掩码,以外还应用了滤波器,在视频中时间和空间的一致性下识别一个最好的连通区域。
3、通过比较不同实例的得分图确定每个视频中的实例对象分割。
二、介绍
关注的问题是多实例分割问题。
面临两个挑战:
1、不确定性;处理非刚性物体(例如,人类,动物)时,因为这些物体通常具有各种视角,姿势的个体运动。
2、遮挡;
2.1由于前景对象可能在某些帧中完全被遮挡
2.2不同实例之间的遮挡
解决方法:
目前大多数是CNN解决。具体讲是,CNN被训练为遵循视频序列中每帧的FCN结构输出前景/背景分割图。无监督可以训练前景模型,半监督,通过测试视频的第一帧的分割掩码微调模型到特定的前景区域。
问题:
由于前向传播的池化操作,网络生成的分段通常不与实际对象边界对齐。
解决方法:
许多现有的方法应用条件随机场(CRF)作为后处理模块来细化对象边界。
方法的缺陷:
密集连接的CRF需要复杂的潜在功能设计和精细调整的超参数。如端到端可训练的CRF,经常会引入大量内存和计算。
<