港大&南科大提出端到端PDVC，用DETR的方法做Dense Video Captioning！简化训练流程

关注公众号，发现CV技术之美

▊ 写在前面

密集视频字幕（Dense Video Captioning）的目的是从视频中生成多个与其时间位置相关的字幕。以前的方法遵循一个复杂的“先定位再描述（localize-then-describe） ”的方案，严重依赖于许多手工设计的组件。

在本文中，作者提出了一个简单而有效的端到端密集视频字幕(PDVC)框架 ，通过将密集字幕生成定义为一个集合预测任务（类似DETR）。在实现中，PDVC通过将事件计数器叠加在Transformer解码器的顶部，在对视频内容的整体理解下，精确地将视频分割成多个事件片段，从而有效地提高了预测字幕的连贯性和可读性。

与现有技术相比，PDVC有几个优势：

1）不依赖启发式的非极大抑制或循环事件序列选择网络来消除冗余，PDVC直接产生具有适当大小的事件集；

2）与采用两阶段方案相比，PDVC将事件查询的增强表示并行输入localization head（定位头）和caption head（标题头），使这两个子任务通过优化相互关联和相互促进 ；

3）在ActivityNet Captions和YouCuok2数据集上进行的大量实验表明，PDVC能够产生高质量的字幕结果，其性能超过了SOTA的两阶段方法 。

▊ 1. 论文和代码地址

End-to-End Dense Video Captioning with Parallel Decoding

论文地址：https://arxiv.org/abs/2108.07781

代码地址：https://github.com/ttengwang/pdvc

▊ 2. Motivation

视频字幕作为视频理解的一个新兴分支，近年来受到了越来越多的关注。然而，由于真实的视频通常很长，并且由各种背景视频片段组成，单句字幕方法往往会生成信息量非常少的句子。为了克服上述困境，密集视频字幕(DVC)任务出现了，该任务用于自动定位多个事件并生成字幕 。

直观地说，密集的视频字幕可以分为两个子任务，称为事件定位 和事件字幕 。如上图所示，以前的方法通常通过两个阶段的“先定位再描述”pippeline来解决这个问题。

它首先预测了一组具有准确边界的事件proposal。然后，提取proposal中的细粒度的语义线索和视觉特征，编码器可以基于这些视觉特征生成视频字幕。上述方案很简单，但存在以下问题：

1)这种方案的性能高度依赖于生成的事件proposal的质量 ，这限制了这两个子任务的相互促进。

2)以往方法中proposal生成器的性能取决于人工设置的anchor机制和后处理 （例如，nms）。这些手工设计的组件引入了额外的超参数，高度依赖于手动阈值策略，阻碍了端到端字幕生成的进展。

为了解决上述问题，本文提出了一种具有并行解码的端到端密集视频字幕框架 ，称为PDVC。如上图所示，作者没有用两阶段方案，而是直接将用于proposal生成的中间表示输入一个与localization head并行的caption head。

通过这样做，PDVC能够直接利用特征级别的任务间关联。中间特征向量和目标事件可以进行一对一的对应匹配，使特征表示在识别特定事件时具有更强的鉴别性。

在实现时，作者将密集视频字幕任务作为一个集合预测问题。PDVC通过用两个并行的预测头，即定位头 和标题头 ，直接将从视觉Transformer中提取的特征解码为具有位置和相应标题的事件集。

由于事件集的适当大小是密集字幕质量的一个重要指标，事件计数器 也被堆叠在Transformer解码器的顶部，以进一步预测最终事件的数量。通过引入这样一个简单的模块，PDVC可以在对视频内容的整体理解下，精确地将视频分割成多个事件片段，避免了不可靠的事件数估计导致的信息缺失和冗余标题生成。

作者在 ActivityNet Captions和YouCook2基准数据集上评估了本文的模型。即使使用了一个轻量级的标题头，本文的方法也可以实现与SOTA方法相当的性能。此外，定量和定性结果表明，本文的模型受益于并行解码设计。即使使用弱监督设置（没有位置注释），PDVC也可以隐式地从标题中学习位置感知特征。

▊ 3. 方法

为了简化密集视频字幕任务，并探索定位任务 和字幕任务 之间的互相促进，作者直接检测一组具有适当时间长度的标题，其中分别表示事件的开始时间、结束时间和事件的标题。事件数量也由PDVC预测。

具体来说，作者采用具有编码器-解码器结构的deformable transformer，通过注意机制捕获帧间、事件间和事件-帧交互，并产生一组事件查询特征。然后，两个并行的预测头同时预测每个事件查询的边界和标题。事件计数器从全局视图中预测事件数量。最后，选择置信度最高的个事件作为最终的结果。本文的结构图如上图所示。

3.1. Preliminary: Deformable Transformer

Deformable Transformer是一种基于多尺度可变形注意(MSDAtt)的编码器-解码器结构。MSDAtt通过关注参考点周围的一组稀疏采样点，缓解了Transformer在处理图像特征映射时自注意收敛慢的问题。

给定多尺度特征映射（其中），查询元素和标准化参考点，MSDAtt将跨L个尺度特征映射的个采样点进行加权求和，输出一个上下文向量：

其中，和分别为第个查询元素在第个尺度上的第个采样key的位置和注意权重。是key元素的投影矩阵。φ将标准化的参考点投影到第层的特征图中。为采样偏移量。和都是通过在查询元素上的线性投影得到的。

Deformable Transformer用deformable attention模块取代了Transformer编码器中的自注意模块和Transformer解码器中的交叉注意模块，实现了快速的收敛速度和更好的目标检测表示能力。

3.2. Feature Encoding

为了在视频中捕获丰富的时空特征，首先采用了一个预训练的动作识别网络来提取帧级的特征，并通过插值算法将特征图的时间维度缩放到固定长度，以方便batch处理。

然后，为了更好地利用多尺度特征来预测多尺度事件，作者采用了L个时间卷积层来获得多个时间分辨率的特征序列。将多尺度帧特征及其位置编码输入Deformable Transformer编码器，提取跨尺度的帧-帧关系。输出帧级特征记为。

3.3. Parallel Decoding

解码网络包含一个 deformable transformer解码器和三个并行头，一个用于标题生成的标题头 ，一个用于用置信分数预测事件边界的定位头 ，以及一个预测事件数量的事件计数器 。

解码器旨在直接用N个可学习的查询来学习事件级特征，及其对应的参考点。其中，是通过在上用带Sigmoid的线性层来预测的。输出查询特征和参考点记为。

Localization head

定位头对每个事件查询执行边界预测 和二分类 。边界预测 旨在基于参考点，预测与ground-truth的二维相对偏移量（即：中心和长度）。二分类 旨在生成每个事件查询的定位置信度。边界预测和二分类都是由多层感知机实现的。然后，就得到一组元组，，来表示检测到的事件，其中是事件查询的定位置信度。

Captioning head

作者提出了两个标题头，一个轻量级的和一个标准的。轻量级的头只是在每个时间步将事件查询输入到标准LSTM中。单词基于LSTM的隐藏层状态，用一个线性层和softmax来进行预测。

然而，轻量级标题头只接收事件级表示，缺乏语言线索和帧特征之间的交互作用。Soft Attention是视频字幕中广泛使用的模块，它可以在生成一个单词时动态地确定每一帧的重要性。传统的二阶段方法通过将注意力区域限制在事件边界内来对齐事件片段及其标题，但本文的标题头不能访问事件的边界，增加了学习语言单词和帧之间关系的优化难度。

为了缓解这一问题，作者提出了可变形的Soft Attention(DSA)来强制将Soft Attention权重集中在参考点周围的一个小区域上。具体地说，当生成第t个单词时，首先基于语言查询和事件查询，从每个中生成K个采样点，其中表示LSTM中的隐藏状态。

然后将K×L个采样点作为key/value，，作为Soft Attention中的query。由于采样点分布在参考点周围，因此DSA的输出特征被限制在在一个相对较小的区域上。LSTM将上下文特征、事件查询特征和前面的单词的concat结果作为输入。单词的概率是在上由带Softmax的FC层获得的。随着LSTM迭代，就能够得到一个句子

，，，其中为句子长度。

Event counter

太多的事件会导致重复的标题和可读性差；检测到的事件太少意味着信息缺失和不完整的故事 。因此作者提出了事件计数器 ，用于检测视频的事件数量。它包含一个最大池化层和一个具有softmax激活的FC层，该层首先将事件查询的最显著信息压缩到一个全局特征向量，然后预测一个固定大小的向量，其中每个值表示一个特定数字的可能性。

在推理阶段，预测的事件数。最终的输出是通过从N个事件查询中选择具有精确边界和良好标题的Top 个事件来获得的。每个事件查询的置信度的计算方法为：