VL (Vision and Language) 任务简介及数据集

  • Post author:
  • Post category:其他




Image Retrieval(图像检索)



基本模型结构:



数据集:

Flickr

,

COCO



Grounding Referring Expression(在图像中找到自然语言对应描述的物体)



基本模型结构:



数据集:

RefCOCO

,

Visual7W



Image Captioning(图像描述)



基本模型结构:



数据集:

COCO




Visual Question Answering(VQA,视觉问答)






基本模型结构:



两通道 VQA 模型:



数据集:

VQA v1

,

VQA v2

,

Visual Genome

,

GQA




Visual Dialog(VD,视觉对话)












基本模型结构:



数据集:

Visual Dialog

,

GuessWhat?!




demo

ViLBERT:

https://vilbert.cloudcv.org/


本文参考于 ACL 2022 tutorial:

Vision-Language Pretraining: Current Trends and the Future



版权声明:本文为Friedrichor原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。