Graph Convolutional Networks for Temporal Action Localization

Post author:xfxia
Post published:2023年9月5日
Post category:其他

文章链接：

https://arxiv.org/abs/1909.03252

.

github代码：

https://github.com/Alvin-Zeng/PGCN

Graph Convolutional Networks for Temporal Action Localization

基于图卷积的时序行为检测

摘要

大多数最新的行为检测网络都会单独处理每个动作，而在学习过程中不会明确利用它们之间的关系。但是，提议之间的关系实际上在动作定位中起着重要作用，因为有意义的动作始终在视频中包含多个提议。在本文中，我们建议使用图卷积网络（GCN）开发提议-提议之间的关系。首先，我们构造一个行动提议图，其中每个提议都表示为一个节点，两个提议之间的关系作为边。在这里，我们使用两种类型的关系，一种用于捕获每个提议的上下文信息，另一种用于表征不同动作之间的相关性。然后，我们在图上应用GCN，以对不同提议之间的关系进行建模，并为动作分类和定位学习强大的表示形式。实验结果表明，我们的方法显着优于THUMOS14上的最新技术（49.1％比42.8％）。此外，ActivityNet上的扩充实验还验证了对行动提议关系进行建模的有效性。

p1,p2

p1,p2,p3,p4都是行为提议。作者通过图卷积来建立提议与提议之间的关系来提升行为检测效果。其主要是找到行为的开始和结束时间以及行为的类别。

贡献

1.第一个利用GCN来探索提议与提议之间的关系来提升检测效果。

2.为了将GCN应用在行为时序检测任务中，提出了怎么构建图。

3.在THUMOS14和ActivityNet1.3上取得了很好的效果。

方法

在这里插入图片描述

如图2所示，行为提议是从BSN网络得到的。根据行为提议，作者利用I3D网络提取特征。网络的proposal feature是行为内的特征，extended proposal feature是将提议长度扩大两倍以增加上下文信息来提取特征。然后分别利用两层图卷积来获得提议与提议间的关系。最终得到行为的类别，提议的完整度，提议的边界。

图的构建

作者为了构建提议图提出了两种边缘：

contextual edges and surrounding edges

contextual edges

主要通过提议与提议之间的IoU来判断提议和提议之间是否有关系。因为这个方法只能说明IoU较大或者相邻比较近的提议之间有关系，所以能够获得上下文信息。

在这里插入图片描述

surrounding edges

能够将相隔很远的提议关联起来，因为提议与提议之间更够提供有助于判别的信息。比如图1中的p4是背景，那么将p1和p4关联起来，就会使得p1不被分为背景，从而提高检测效果。

在这里插入图片描述

Adjacency Matrix.

构建图还需要构建邻接矩阵。根据上面的两种边缘得到提议与提议之间的关系，然后根据关系建立邻接矩阵。下图中的x表示的提议的特征，根据cosine来计算邻接矩阵。

在这里插入图片描述

实验

在这里插入图片描述

在THUMOS14上的实验结果很好。在activitynet上的结果仅仅利用P-GCN结果不是很好，作者是添加了untrimmednet网络的结果才超过了BSN的结果。在activitynet上可能是一个视频大部分都是只有一个行为，并且行为类别数比较多不能很好的发挥提议与提议之间的关系。从THUMOS14上看作者的网络确实有很大的提升。

作者在thumos14上做了大量的实验来说明效果。关于具体的实验细节我就不说了，可以看作者的论文。作者也给了源码和特征，编译后就可以直接跑。

感悟

作者提出利用图卷积来构建提议与提议间的关系确实很好，并且能够把最新的图卷积和行为检测任务结合在一起。有个初始的idea,我觉得提议与提议之间的关系是不是可以由网络自动学习到呢，毕竟初始图的关系是根据我们的规则人为定义的，可能存在误差。

摘要

方法

图的构建

实验

感悟

你可能也喜欢