Appearance-Based Gaze Estimation via Evaluation-Guided Asymmetric Regression 基于评估指导的非对称回归方法

  • Post author:
  • Post category:其他


北航博士Yihua Cheng在ECCV 2018上提出了一个基于双眼的非对称回归方法,误差5度

Cheng, Y., Lu, F., and Zhang, X. (2018). Appearance-based gaze estimation via evaluation- guided asymmetric regression. In The European Conference on Computer Vision (ECCV).



Abstract

通过使用简单的眼睛图像作为输入,最近的智能系统越来越要求眼睛注视估计以完成一系列与交互有关的任务。但是,学习眼睛图片和注视方向之间的高度复杂回归并非易事,因此尚待有效解决。在本文中,我们提出了非对称回归评估网络(ARE-Net),并试图全面提高凝视评估性能。

我们方法的核心是在左右眼注视估计期间,观察到的“两只眼睛不对称”的概念。受此启发,我们设计了多流ARE-Net。一个非对称回归网络(AR-Net。通过一种新颖的非对称策略预测两只眼睛的3D凝视方向,而评估网络(E-Net)通过在优化过程中评估两只眼睛的性能来自适应地调整该策略。

通过训练整个网络,我们的方法取得了令人鼓舞的结果,并在多个公共数据集上超越了最新技术。



Introduction

眼睛及其运动携带着重要的信息,传达人的视觉注意力,目的,意图,感觉等。 因此,许多最近的智能系统都对自动追踪人眼视线的能力提出了更高的要求,其直接应用范围从人机交互[1,2],显着性检测[3]到视频监控[4]。

如[5]中所述,视线估计方法可分为两类:基于模型和基于表观(眼睛表面的样子)。通常基于模型的方法设计为提取较小的眼睛特征(例如,角膜表面上的红外反射点)以计算视线方向。但是,它们具有共同的局限性,例如1)对照明和捕获需要特定的硬件,2)在不受控制的环境中使用时具有高错误率 3)有限的工作距离(通常在60cm以内)。

与基于模型的方法不同,基于表观的方法不依赖于特定光照条件下小的眼睛特征的提取。取而代之的是,仅使用一台普通相机捕获眼睛表观,然后学习映射函数,直接从眼睛表观预测注视方向。尽管这大大提高了适用性,但具有挑战的部分是人眼的外观会受到各种因素的严重影响,例如头部姿势,照明和个体差异,使得映射函数难以学习。近年来,卷积神经网络(CNN)已证明能够在足够的训练数据下学习非常复杂的函数。因此,现阶段基于CNN的方法在视线估计领域的表现优于传统方法[6]。

这项工作的目标是进一步利用CNN的能力,将基于表观的视线估计性能提高到更高水平。 我们方法的核心是利用左眼和右眼进行非对称回归。

根据我们的观察发现,1)两只眼睛的视线方向在物理上保持一致,然而 2)即使我们使用相同的回归方法,两只眼睛的视线估计结果也会有很大差异。 这种“双眼不对称”意味着一种新的视线回归策略,该策略不再平等地对待两只眼睛,而是倾向于依靠“高质量的眼睛”来训练更有效,更强大的回归模型。

为此,我们考虑以下技术问题,即:设计一个同时的不对称的处理两只眼睛的网络,以及如何通过使用高质量数据控制不对称性来优化网络。 我们的想法是通过评估不同眼睛的回归策略的性能来指导非对称注视回归。 特别的,通过分析“两只眼睛的非对称性”(第3节),我们提出了非对称回归网络(AR-Net)来预测两只眼睛的3D视线方向(第4.2节),以及评估网络(E -Net)以自适应地评估和调整回归策略(第4.3节)。 通过集成AR-Net和E-Net(第4.4节),我们提出的非对称回归评估网络(ARE-Net)将通过学习去最大化视线估计器的整体性能。

这篇论文的贡献包括三个方面:

(1)针对双眼非对称回归提出multi-stream AR-Net(多流的非对称回归网络),以及用于评估和调整回归的E-Net

(2)我们观察到“双眼的非对称性(我的理解是:双眼视线预测的非对称性)”,在此基础上我们提出了评估指导的非对称回归的机制。

(3)基于提出的“双眼非对称”机制和网络,我们设计了最终的ARE-Net,它在两只眼睛的视线估计中都显示出不错的性能。



Related Work

提出了越来越多的针对远程人眼视线估计任务的研究,大致可分为两大类:基于模型和基于表观[5,9]。



基于模型的视线估计方法

基于模型的方法通过使用某些几何眼球模型估计视线方向[10]。他们通常从眼睛图像中提取和使用:近红外(IR)角膜反射[10-12],瞳孔中心[13、14]和虹膜轮廓[15、16]作为输入特征以拟合相应的模型[17]。尽管这类方法可以很好地预测视线方向,但提取眼睛特征可能需要由红外灯组成的硬件,立体/高清晰度摄像机和深度摄像机(RBG-D cameras,从功能上来讲,就是在RGB普通摄像头的功能上添加了一个深度测量)[15,16]。当使用许多常见设备时,这些设备可能不可用,并且它们通常工作距离有限。所以基于模型的方法更适合在受控环境(例如,实验室)中使用,而不适用于室外场景中或用户与相机之间的距离较大时(例如,用于广告分析)[18]。



基于表观的视线估计方法

与基于模型的方法相比,基于表观的方法对设备的要求要低很多。 他们通常需要一个摄像头来捕获用户的眼睛图像[19]。 从眼睛图像中产生某些非几何学图像特征,然后将其用于学习将眼睛图像映射到视线方向的视线映射函数。 到目前为止,人们已经尝试了各种映射函数,例如神经网络[20,21],局部线性插值[19],自适应线性回归[22],高斯过程回归[23]和降维[ 24,25]。 其他一些方法使用其他附加信息,例如显着性图[22]和[26]来指导学习过程。 这些方法都旨在减少所需训练样本的数量,同时保持回归精度。

但是,由于视线映射是高度非线性的,因此迄今为止,该问题仍然具有挑战性。

基于CNN的方法已经显示出它们对复杂回归任务的出色处理能力,因此其性能优于传统的基于表观的方法。 最近的一些工作介绍了基于表观的大型注视数据集[27],并提出了基于CNN的有效视线估计算法[6,28]。 最近,Krafka等人,在移动设备中实现基于CNN的视线追踪器[29](即:注视点估计)。 Zhang 等考虑全脸作为CNN的输入[30]。 邓等提出了一种具有几何约束的基于CNN的方法[7]。 通常,这些方法可以实现比传统方法更好的性能。 需要注意的是,他们对左眼和右眼的处理是一致的,而在本文中,我们尝试通过引入和利用两眼非对称性来进一步改进。



版权声明:本文为qq_41088475原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。