Learning to Segment Instances in Videos with Spatial Propagation Network

Post author:xfxia
Post published:2023年10月10日
Post category:其他

Learning to Segment Instances in Videos with Spatial Propagation Network

Jingchun Cheng　　Sifei Liu　　 Yi-Hsuan Tsai　　 Wei-Chih Hung　　 Shalini De Mello

Jinwei Gu 　　Jan Kautz 　　　Shengjin Wang 　　　Ming-Hsuan Yang

Tsinghua University 　　　 University of California　　　 Merced 3NVIDIA Research

一、摘要

提出了一个基于深度学习的实例对象分割。

具体分为三步：

1、基于ResNet-101训练了一个通用模型用于前景背景传播；

2、通过在测试视频的第一帧使用增强对象注释微调模型以此训练实例模型和单个对象分割；

为了在视频中区分不同的实例，把实例中的每个对象都计算了像素级score map，每个score map 表明了对象的相似性并且仅在第一步中获得的前景掩模内计算。为精炼score map ，训练了空间传播网络。空间传播网络旨在训练如何基于每个帧中的成对相似性在空间传播粗分割掩码，以外还应用了滤波器，在视频中时间和空间的一致性下识别一个最好的连通区域。

3、通过比较不同实例的得分图确定每个视频中的实例对象分割。

二、介绍

关注的问题是多实例分割问题。

面临两个挑战：

1、不确定性；处理非刚性物体（例如，人类，动物）时，因为这些物体通常具有各种视角，姿势的个体运动。

2、遮挡；

2.1由于前景对象可能在某些帧中完全被遮挡

2.2不同实例之间的遮挡

解决方法：

目前大多数是CNN解决。具体讲是，CNN被训练为遵循视频序列中每帧的FCN结构输出前景/背景分割图。无监督可以训练前景模型，半监督，通过测试视频的第一帧的分割掩码微调模型到特定的前景区域。

问题：

由于前向传播的池化操作，网络生成的分段通常不与实际对象边界对齐。

解决方法：

许多现有的方法应用条件随机场（CRF）作为后处理模块来细化对象边界。

方法的缺陷：

密集连接的CRF需要复杂的潜在功能设计和精细调整的超参数。如端到端可训练的CRF，经常会引入大量内存和计算。

原文链接：https://blog.csdn.net/weixin_42640840/article/details/84135269

Learning to Segment Instances in Videos with Spatial Propagation Network

一、摘要

提出了一个基于深度学习的实例对象分割。

具体分为三步：

二、介绍

关注的问题是多实例分割问题。

面临两个挑战：

解决方法：

问题：

解决方法：

方法的缺陷：

你可能也喜欢