VL (Vision and Language) 任务简介及数据集

Post author:xfxia
Post published:2023年9月11日
Post category:其他

VL任务及数据集

Image Retrieval（图像检索）
Grounding Referring Expression（在图像中找到自然语言对应描述的物体）
Image Captioning（图像描述）
Visual Question Answering（VQA，视觉问答）
Visual Dialog（VD，视觉对话）
demo

Image Retrieval（图像检索）

基本模型结构：

数据集：

Flickr

,

COCO

Grounding Referring Expression（在图像中找到自然语言对应描述的物体）

基本模型结构：

数据集:

RefCOCO

,

Visual7W

Image Captioning（图像描述）

基本模型结构：

数据集:

COCO

Visual Question Answering（VQA，视觉问答）

基本模型结构：

两通道 VQA 模型：

数据集:

VQA v1

,

VQA v2

,

Visual Genome

,

GQA

Visual Dialog（VD，视觉对话）

基本模型结构：

数据集:

Visual Dialog

,

GuessWhat?!

demo

ViLBERT:

https://vilbert.cloudcv.org/

本文参考于 ACL 2022 tutorial：

Vision-Language Pretraining: Current Trends and the Future

版权声明：本文为Friedrichor原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

原文链接：https://blog.csdn.net/Friedrichor/article/details/127126679