VL任务及数据集
Image Retrieval(图像检索)
基本模型结构:
Grounding Referring Expression(在图像中找到自然语言对应描述的物体)
基本模型结构:
Image Captioning(图像描述)
基本模型结构:
数据集:
COCO
Visual Question Answering(VQA,视觉问答)
基本模型结构:
两通道 VQA 模型:
数据集:
VQA v1
,
VQA v2
,
Visual Genome
,
GQA
Visual Dialog(VD,视觉对话)
基本模型结构:
数据集:
Visual Dialog
,
GuessWhat?!
demo
ViLBERT:
https://vilbert.cloudcv.org/
本文参考于 ACL 2022 tutorial:
Vision-Language Pretraining: Current Trends and the Future
版权声明:本文为Friedrichor原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。