基于深度学习的立体匹配算法综述(没看完)
(1)非端到端(2)端到端(3)无监督
非端到端
限制:每个深度值下计算成本问题,有限的感受野无法推断出错误点,后续步骤还是依靠经验手动设置参数。
端到端:可生成高精度深度估计,但是在无纹理、详细结构的小物体和近边界处很难找到正确对应点。而且需要更大的存储器和相对费时,对应的地面真值训练和大量标记工作。
Kitti数据集是怎么来的,安装在车顶部的相机拍的,还有旋转激光扫描仪,测量地面真值,数据集包含真实的视差值可以用于训练,也可以给出精确度用来预测。评估指标通常是端点误差(EPE),即像素的平均平 均视差误差。对于KITTI 2012,报告了 ⾮遮挡(Non-occ)和所有(All)像素 的错误像素百分⽐和平均端点错误。对 于KITTI2015,将针对背景,前景和所 有像素评估视差离群值D1的百分⽐。 离群值定义为视差误差⼤于max (3px,0.05d *)的像素,其中d *表示 地⾯真实视差。
非端到端:原始的太费时间,需要67秒,快速结构只要0.7秒。一个是cnn完了连接到DNN,一个是在代价计算中融入了多尺度特征,cnn完了之后直接点积。Luo提出了视差范围内的多标签分类模型,可以通过概率分布的学习来获得不同视差下的关联。虽然cnn让精度大大提高,但是时间相对于sgbm也慢了100倍。
Park和Lee提出了每个像素的金字塔池化,在不丢失细节和分辨率的情况下扩大感受野。
Shaked等提出了高速网络架构基于多级加权剩余shortcuts。
深度神经网络也能用在后面的步骤,因为视差图都是光滑的,所以可以用在平滑约束上。Seki和Pollefeys提出了5X5的灰度图预测SGM中线性约束惩罚,由路径和邻域代价组成了新的代价,可使用在稀疏注释视差图上,例如LiDAR。但是SGM惩罚不能明确标注,这个网络需要三步生成弱标签去训练这使得整个过程复杂和费时。
Knobelreiter等提出了CNN和CRF混合模型,一元CNN和成对CNN提取表达特征。CRF中计算一元代价和二元代价,利用ssvm在大量数据和端到端上训练CNN+CRF。
大家都想设计更加复杂的网络,原始简单的网络限制产生丰富的语义表现。
Gidaris 和Komodakis用由检测、替换和修改错误预测三阶段组成的网络替换传统的人工视差优化后续步骤。这个网络叫DDR虽然效果好但是计算成本很好而且它在反光和无纹理区域效果不好,Displets通过在较远距离上进行物体类别特定视差建议,很好的解决了反光和无纹理区域效果不好的问题。
在这些非端到端的方法中,传统算法还是必不可少的而且有着大的计算量,有限的接受域,缺乏上下文信息,或多或少用到后续步骤。他们表现很好但是时间成本高,其中DDR快是因为用了整幅图像,其他算法匹配的是图像块。
端到端立体匹配
Mayer等人成功发明端到端算法之后,端到端的匹配算法越来越受欢迎。很多算法基于这个算法。2D编解码结构和3D卷积组成的级联优化和规则化模块是现在最流行的端到端匹配网络结构,一个是2D卷积神经网络搭配残差信息生成最终预测,3D结构是利用3D卷积神经网络提取视差维度。
Dosovitskiy等人第一次用端到端网络解决立体匹配问题,他们提出来flowNet和flowNetc网络解决光流估计问题。把这个算法用到了立体匹配问题上,光流估计和立体匹配的区别是1D和2D的区别。
受到FlowNet的启发,mayer提出了DispNet,效率高,但是在固有的不良区域(遮挡、重复和无纹理区域)仍然效果不好。
启发于DispNet,级联残差学习被pang等人提出,由两部分组成,一部分给出初始视差,另一部分通过多尺度生成残差信号优化视差,两部分汇总输出视差。越复杂表达能力越强,但同时越慢,时间大概是DispNet的8倍。
Liang等人扩展了DispNet,设计了不同视差优化子网络基于恒定的特征的两部分联合学习。与DispNet相比时间慢一点,效果好很多。CRL和iResNet网络都有相同的思想,CRL方法在两个子网络之间没有共享足够的信息,只有第一阶段子网络预测的视差信息被传递到第二阶段子网络,而iResNet则在两部分传递了更多信息,这个导致了虽然CRL更复杂但是iResNet效果更好。
其他方法尝试整合其他信息,以提高这些难匹配区域的表现。肖等人提出了一个由骨干网和边缘子网组成的网络。该模型通过嵌入和边缘感知平滑度损失规范化,集成了边缘提示,从而在 KITTI 立体声和场景流基准上实现最先进的性能。国润等人[25]提出了一个模型,将语义特征从分割中整合,并引入语义软质损失。语义提示的结合大大改进了差异估算的预测,并在 KITTI 立体声基准上取得了最先进的结果。
Kendall 等人提出了 GC-Net ,并率先使用 3D 卷积网络来汇总代价量的上下文。在计算代价量时,它们没有折叠特征维度,而是形成了一个 4D 成本量,该量与图像对沿悬殊维度的合并特征组成,然后是 3D 卷积网络,以给出差异预测。差异维度的使用大大提高了性能,达到了最先进的性能。在GC-Net的启发下,张和陈[28]提出了金字塔立体声匹配网络(PSMNet)来利用全图上下文信息。此网络由空间金字塔池和堆叠的 3D CNN 模块组成。空间金字塔池化提取多尺度表示,堆叠 3D CNN 使 4D 成本量规范化,以给出视差预测。