VL任务及数据集
Image Retrieval(图像检索)

基本模型结构:

Grounding Referring Expression(在图像中找到自然语言对应描述的物体)

基本模型结构:

Image Captioning(图像描述)

基本模型结构:

数据集:
COCO
Visual Question Answering(VQA,视觉问答)


基本模型结构:

两通道 VQA 模型:

数据集:
VQA v1
,
VQA v2
,
Visual Genome
,
GQA
Visual Dialog(VD,视觉对话)




基本模型结构:

数据集:
Visual Dialog
,
GuessWhat?!
demo
ViLBERT:
https://vilbert.cloudcv.org/
本文参考于 ACL 2022 tutorial:
Vision-Language Pretraining: Current Trends and the Future
版权声明:本文为Friedrichor原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。