VL任务及数据集
Image Retrieval(图像检索)
![](https://img-blog.csdnimg.cn/2b94a703d27a46dab2d5896dbf226bc1.png)
基本模型结构:
![](https://img-blog.csdnimg.cn/9af640db5dca4d5ebea64bdd630376a5.png)
Grounding Referring Expression(在图像中找到自然语言对应描述的物体)
![](https://img-blog.csdnimg.cn/3f411a99dcee4b42a5798e324272ec28.png)
基本模型结构:
![](https://img-blog.csdnimg.cn/6d5ecaafe6934fe09764c5e164c5839e.png)
Image Captioning(图像描述)
![](https://img-blog.csdnimg.cn/f1bbe7a5f8d546f59f25cacffe860864.png)
基本模型结构:
![](https://img-blog.csdnimg.cn/561f9e522f98401aa35f5ad27a4a55f0.png)
数据集:
COCO
Visual Question Answering(VQA,视觉问答)
![](https://img-blog.csdnimg.cn/b76537f269014b03bcfdcb970c9e1b3a.png)
![](https://img-blog.csdnimg.cn/181cfc60b5504d07855baa7f3aafc101.png)
基本模型结构:
![](https://img-blog.csdnimg.cn/14f18de8ab3d481d8ed0b82f109c6184.png)
两通道 VQA 模型:
![](https://img-blog.csdnimg.cn/feaa3b60ee0049f3874cba767356181c.png)
数据集:
VQA v1
,
VQA v2
,
Visual Genome
,
GQA
Visual Dialog(VD,视觉对话)
![](https://img-blog.csdnimg.cn/b9ec79edd4814b7089e3604baf006f3c.png)
![](https://img-blog.csdnimg.cn/2483d720248144e2bb492d5e92abd4e8.png)
![](https://img-blog.csdnimg.cn/a8c21024a8b8452bbd8c71137f34bf92.png)
![](https://img-blog.csdnimg.cn/6c594684450044ffa3ffd8b58428d13d.png)
基本模型结构:
![](https://img-blog.csdnimg.cn/9f5ff02d41924a13a35f69dd2d90561e.png)
数据集:
Visual Dialog
,
GuessWhat?!
demo
ViLBERT:
https://vilbert.cloudcv.org/
本文参考于 ACL 2022 tutorial:
Vision-Language Pretraining: Current Trends and the Future
版权声明:本文为Friedrichor原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。