MUREL：视觉问答的多模态关系推理

主要贡献

1、提出了一个多模态关系网络MuRel，进一步推进了对问题和图像的推理。

2、将MuRel单元嵌入到迭代推理过程中，逐步改进内部网络表示来回答问题。

本文的MuRel网络是一个迭代过程，它基于问题和视觉信息之间的向量表示，显式地

成对

建模区域关系。例如上图，经过单元的3轮迭代，得到图片中最重要的区域（绿框）和对该区域影响最大的区域（红框），最后基于区域给出问题的预测答案为”donut”。

其中q为问题句子嵌入，

si

为

N

个视觉特征，其包含盒子坐标

bi。

为了在每个可视化表示

si

中包含问题信息，本文使用双线性融合模块（

Bilinear Fusion

）将问题和区域特征向量合并，提供局部多模态嵌入，这种双线性融合模型学会了关注输入维度之间的相关性。融合后的多模态特征

mi

表示为：

与普通注意力模型跨模态融合只学习编码区域是否相关不同。在MuRel单元中，局部多模态信息以向量形式

mi

表示，它可以编码两种模态之间更复杂的相关性。这允许存储某个区域的某个特性在给定问题上下文中是不是重要的信息，能够建模更复杂的视觉推理。

为了让每个表示都能关注到它周围的空间和语义上下文，本文采用了成对关系模型（

Pairwise Relational Modeling

）。则对于区域

i

和区域

j

之间的关系向量表示为：

第一项表示进行空间建模，学习区域

i

和区域

j

之间的相对空间信息。第二项表示进行多模态特征语义建模，学习区域

i

和区域

j

之间的内容信息。其他区域与区域

i

的关系向量同理计算。然后为区域

i

计算一个相关性最大的上下文向量

，即

同时为每个区域都计算出其

。

得到特征区域

i

的

后，再以加的方式更新多模态向量

mi

，得到具有上下文信息的新多模态特征

xi

：

最后，MuREL单元的输出再通过一个残差函数，加上原视觉特征

si

，避免梯度消失问题。每个可视化特征

si

更新为：

上图为MuRel模型和attention模型在3个数据集中的实验结果。