1.PASCAL VOC 2012
该数据集取自真实场景,共包含20类物体类别。大致类别可分为Person,Animal,Vehicle,Indoor这四大类。
该数据集支持三类图像理解任务:分类、物体检测、语义分割。
该数据集的分类任务可以细分为图像分类任务(20类)与动作分类任务(11类)。动作分类任务即判断图片中人体正在做的动作。动作分类任务的识别结果有两种可视化方式:用目标框框出或用一个点在人体上标记,同时都给出人的动作类别。
语义分割任务可细分为实例分割和类别分割两个任务。
2.MS COCO
COCO 数据集是一个大型丰富的物体检测和语义分割数据集。该数据集有超过30万幅已标注的图像,共标注了250万个物体,包含91类常见物体类别。
MS COCO支持三类场景图像理解任务:物体检测、语义分割和实例分割。
与PASCAL VOC相比,COCO中包含了自然图片以及生活中常见的目标图片,目标数量多,尺寸小,因此图像理解任务更难。
3.ADE20K
ADE20K数据集可用于场景感知、解析、分割、多物体识别和语义理解。该数据集一共22210张图片(室内、室外各种不同场景),共2693个物体类别。
数据集中图像Ground Truth既有物体级别的分割,也有物体部件级别的分割。
RGBD语义分割图像常用数据集
4.NYU Depth
NYU Depth数据集包括NYU V1数据集和NYU V2数据集,主要用于室内场景语义分割与场景布局估计。
其中NYU V1数据集使用微软Kinect彩色和深度相机记录,共包含卧室、会议室,商场等7个场景类型,包含未分割的108617视频帧和2284帧稠密分割的视频帧,分别采集于64个不同的室内场景。其中,2284 帧稠密分割的视频帧包含1418个语义类别和一个未知语义类别。该数据集包含 13 个语义类别:床、窗帘、书柜、橱柜、天花板、地板、图画、沙发、桌子、电视、墙、窗户、背景。
NYU V2相比于V1版本,数据集的场景类型增加到了26个,包含未分割的407024视频帧和1449帧稠密分割的视频帧,它们分别采集于464个不同的室内场景,采集设备也是微软Kinect。其中1449帧稠密分割的视频帧总共包含894个语义类别和一个未知语义类别。与NYU V1不同的是,该数据集还包含一个
实例映射表
,即区分了同一个场景中相同语义对象的不同实例。如图所示:
5.SUN RGB-D
SUN RGB-D数据集是由Song等人构建的一个室内场景数据集,主要用于场景分割、语义分割、场景布局估计、对象检测等领域。该数据集总共包含47个场景类型的10335帧RGB-D图像,包含800个语义类别,数据规模远远大于NYU Depth数据集。其数据库中每帧RGB-D图像的Groundtruth都包括二维图像的像素语义分割、二维的多边形分割、对象的三维包围盒分割、场景布局的三维多边形分割。