Graph Convolutional Networks for Temporal Action Localization

  • Post author:
  • Post category:其他


文章链接:

https://arxiv.org/abs/1909.03252

.

github代码:

https://github.com/Alvin-Zeng/PGCN

Graph Convolutional Networks for Temporal Action Localization

基于图卷积的时序行为检测



摘要

大多数最新的行为检测网络都会单独处理每个动作,而在学习过程中不会明确利用它们之间的关系。但是,提议之间的关系实际上在动作定位中起着重要作用,因为有意义的动作始终在视频中包含多个提议。在本文中,我们建议使用图卷积网络(GCN)开发提议-提议之间的关系。首先,我们构造一个行动提议图,其中每个提议都表示为一个节点,两个提议之间的关系作为边。在这里,我们使用两种类型的关系,一种用于捕获每个提议的上下文信息,另一种用于表征不同动作之间的相关性。然后,我们在图上应用GCN,以对不同提议之间的关系进行建模,并为动作分类和定位学习强大的表示形式。实验结果表明,我们的方法显着优于THUMOS14上的最新技术(49.1%比42.8%)。此外,ActivityNet上的扩充实验还验证了对行动提议关系进行建模的有效性。

p1,p2

p1,p2,p3,p4都是行为提议。作者通过图卷积来建立提议与提议之间的关系来提升行为检测效果。其主要是找到行为的开始和结束时间以及行为的类别。


贡献


1.第一个利用GCN来探索提议与提议之间的关系来提升检测效果。

2.为了将GCN应用在行为时序检测任务中,提出了怎么构建图。

3.在THUMOS14和ActivityNet1.3上取得了很好的效果。



方法

在这里插入图片描述

如图2所示,行为提议是从BSN网络得到的。根据行为提议,作者利用I3D网络提取特征。网络的proposal feature是行为内的特征,extended proposal feature是将提议长度扩大两倍以增加上下文信息来提取特征。然后分别利用两层图卷积来获得提议与提议间的关系。最终得到行为的类别,提议的完整度,提议的边界。



图的构建

作者为了构建提议图提出了两种边缘:

contextual edges and surrounding edges


contextual edges

主要通过提议与提议之间的IoU来判断提议和提议之间是否有关系。因为这个方法只能说明IoU较大或者相邻比较近的提议之间有关系,所以能够获得上下文信息。

在这里插入图片描述


surrounding edges

能够将相隔很远的提议关联起来,因为提议与提议之间更够提供有助于判别的信息。比如图1中的p4是背景,那么将p1和p4关联起来,就会使得p1不被分为背景,从而提高检测效果。

在这里插入图片描述


Adjacency Matrix.

构建图还需要构建邻接矩阵。根据上面的两种边缘得到提议与提议之间的关系,然后根据关系建立邻接矩阵。下图中的x表示的提议的特征,根据cosine来计算邻接矩阵。

在这里插入图片描述



实验

在这里插入图片描述

在这里插入图片描述

在THUMOS14上的实验结果很好。在activitynet上的结果仅仅利用P-GCN结果不是很好,作者是添加了untrimmednet网络的结果才超过了BSN的结果。在activitynet上可能是一个视频大部分都是只有一个行为,并且行为类别数比较多不能很好的发挥提议与提议之间的关系。从THUMOS14上看作者的网络确实有很大的提升。

作者在thumos14上做了大量的实验来说明效果。关于具体的实验细节我就不说了,可以看作者的论文。作者也给了源码和特征,编译后就可以直接跑。



感悟

作者提出利用图卷积来构建提议与提议间的关系确实很好,并且能够把最新的图卷积和行为检测任务结合在一起。有个初始的idea,我觉得提议与提议之间的关系是不是可以由网络自动学习到呢,毕竟初始图的关系是根据我们的规则人为定义的,可能存在误差。