关注于false positives和large scale variance。提出了contourNet,有效解决以上两个问题。
(1)尺度无关的Adaptive-RPN,通过关注predicted和ground-truth之间的IoU生成proposals。
(2)Local Orthogonal Texture-aware Module从两个方向建模,使用contour points集合表示文本区域
考虑到强单向性或弱正交性会引起误false positives
介绍:颜色、纹理、尺度变化是场景文本特有的属性。
false positives(FPs)在最近的研究中没有得到足够的关注,在[38]中被认为是任意形状文本检测任务的一个关键瓶颈。近期,基于CNN的方法通过k *k的卷积核对任意方向的纹理信息进行建模。然而,这个操作对于一些包含相似纹理特征的情况很敏感,并趋向于高的响应率。SPCNET把这个问题归咎于缺少上下文信息和准确的分类scores,因此一个文本上下文模块用于补偿全局语义信息并通过分割图改善边框。Liu[21]用四个顶点的置信度对检测结果重新打分,监督边框的紧密性。不同于这些方法,我们只使用局部纹理信息解决FPs问题,更直接,计算量更少。动机有两个方面(1)强单向纹理特征的FPs不会被其正交方向激活(2)同时考虑两个方向的响应,可以有效抑制FPs。因此有理由在两个正交方向建模纹理信息。受传统边缘检测算子的启发,在我们的方法中使用水平和垂直方向。
第二个挑战是场景文本的大尺度变化,使其很难使用基于CNN的方法学习样本。MSR使用一个多尺度的网络获得各种尺度的文本表示。DSRN通过多尺度文本的不一致激活解决这个问题,提出了一种双向操作讲卷积特征映射到一个尺度不变的空间。我们关注形状信息,使用一个尺度无关的度量来优化网络。
在本文中,我们提出一个文本检测器有效解决两个问题,实现准确的任意形状文本检测,叫做ContourNet。如图2所示。
自适应RPN首先生成文本proposal通过自动学习一系列文本区域边界点,表示文本实例的空间扩展。通过IoU训练Adaptive-RPN,是尺度无关的。与传统RPN方法相比,考虑了文本区域的形状信息,实现了更精细的定位。
为了捕获文本轮廓区域中明显的文本信息,提出了LOTM在两个方向对纹理信息进行建模,在两个不同的热度图上用轮廓点表示文本区域,每一个热度图只响应单一方向的纹理信息。最后,Point Re-scoring Algorithm有效过滤强单向性预测,通过同时考虑两个方向。文本区域被一系列高质量的轮廓点表示。
相关工作:基于回归的方法,基于分割的方法。
本文中的方法两阶段架构,通过轮廓点表示文本区域。混合方法。
Adaptive Region Proposal Network:
传统RPN网络预测x y w h的偏移量,并使用smooth l_1 loss。这个loss是与尺度相关的,具有相同IoU但是不同尺度的边框有不同的ln-norm距离通过ln优化IoU没有很强的相关性。
使用一系列预定义的点代替4-d vector的proposal表示。边框由细化的点的空间扩展获得。
Local Orthogonal Texture-aware Module
受传统边界检测算子的启发,我们巧妙地将该思想融入LOTM并通过一系列轮廓点表示文本区域。
LOTM包含两个并行的分支,上分支使用1 x k的卷积核建模水平方向上的纹理信息。下分支使用k x 1的建模垂直方向上的纹理信息。k是一个参数用于控制感受野的大小。两个sigmoid层将heatmaps规范到[0,1]的范围内。
Point Re-scoring Algorithm
两个heatmaps通过一个NMS实现一个紧的表示。然后,选择在两个热度图上均有响应的点。最后用这些高质量的轮廓点构成图形。
为了解决前景和背景不平衡的问题,使用类别平衡的交叉熵loss计算单一方向的heat map 的 loss。
实现细节:使用在ImageNet上预训练的ResNet50。
只使用官方训练图像训练模型
数据增广包括:随机旋转,随机水平翻转和随机裁剪。
180k个迭代,训练阶段使用多尺度训练。
使用spicy中的distance_transform_edt获得两点间的宽边。Adaptive-RPN的label由max min function得到。在训练阶段使用相同的监督优化两个heatmaps。边缘上的所有点被视为轮廓点。
测试阶段,使用单尺度作为输入,使用官方协议评估。Alpha-Shape Algorithm 用于根据轮廓点生成边框。