新闻动态
News
首页 > 新闻动态 > 产品资讯
返回

语义分割基准数据集


图像语义分割是计算机视觉最经典的任务之一,早期的图像分割主要有以下几种实现方法。


基于像素分布的分割算法:KMeans、Fuzzy C Means、 GMM、MeanShift

基于图像拓扑结构的分割算法:分水岭填充、轮廓边缘分析

基于能量最大化的分割方法:图割

 

3-220624154130520.png


随着深度学习的兴起,最近几年传统的图像分割方法已经很少被人提起,现在开始学习图像分割的都是基于深度学习的各种模型实现,这其中模型的训练需要大量的数据,所以想要了解图像分割,首先需要了解图像分割那些质量最好的各种数据集。这些数据集可以作为 benchmark 很公平地比较各种语义分割模型的性能与精度,评价一个模型的好坏。


3-2206241542121K.png


PASCAL Visual Object Classes(VOC)数据集


PASCAL VOC 数据集支持五种不同的视觉任务训练包括图像分类、对象检测、图像分割、行为分类、人体 Layout。分割是预测图像种每个像素属于哪个类别的任务,VOC 数据集总计有 21 个类别(包括背景)。分割数据集被分为训练与测试两个子集,分别有 1464 与 1449 张图像。


PASCAL Context数据集


它是 PASCAL VOC 2010 数据集的扩展,包含 10103 张基于像素级别标注的训练图像,它包含总数 540 个类别,其中 59 个类别是常见类别,被大量标注,整个类别图像的数据符合幂次法则分布。


SBD(Semantic Boundaries Dataset)数据集


它的数据来自那些在 PASCAL VOC 中没有被语义分割标注的图像数据,总计有 11355 张图像来自 PASCAL VOC 2011,实现了两个层级的标注分布是种类/类别与实例对象分割,其中 8498 张为训练集,2857 张为测试集。


COCO(Microsoft Common Objects in Context)数据集


是微软发布的图像分类、对象检测、实例分割、图像语义的大规模数据集,其中图像分割部分有 80 分类,82783 张训练图像、40504 张验证图像,测试集好感 80000 张图像,而且测试集本身被分为四种不同测试数据,分别应对开发测试、标准测试、评估挑战、过拟合测试。


Cityscapes


一个大规模的城市道路与交通语义分割数据集,8 大类别 30 种类的像素级别标注,数据集包含 5000 张精准标注的图像,20000 张标注图像。数据收集来自 50 多个城市,前后花了几个月的时间,对这个时间线与天气下的场景都进行图像采集,最初原始的数据是视频方式,通过人工选择视频帧,得到最终的数据。整个数据集支持三个级别的分割性能评估:


像素级别分割

实例级别分割

全景级别分割


其中数据采集的城市地图如下:


3-220624154543929.png

 

精准标注的图像


3-220624154555460.png

 

粗糙标注的图像

 

3-220624154603A8.png


CamVid


是来自剑桥的道路与驾驶场景图像分割数据集,图像数据来自视频帧提取,原始分辨率大小为 960x720,包括 32 个类别。分为 367 张训练图像,100 张验证图像,233 张测试图像。


KITTI


自动驾驶最常用的一个数据集,数据采集来自高分辨 RGB、灰度立体相机,3D 激光扫描等。


Youtube-Objects


数据收集来自 Youtube 视频网站,分类是 PASCAL VOC 其中 10 个子分类(aeroplane, bird, boat, car, cat, cow, dog, horse, motorbike, train) 


Adobe’s Portrait Segmentation


3-220624154Q6148.png


它是一个人体肖像分割数据集,图像分辨率为 800x600 数据来自 Flickr,多数数据是来自手机前置相机拍照的生成。数据集包含 1500 张训练图像,300 张测试图像,全部被标注了,人与背景的分类,图像标注的时候采用了半自动的标注方式。先通过程序进行人脸检测,然后人工手动 PS 生成。


Materials in Context (MINC)


全场景的物体识别数据集,包含 23 个类别,7061 张标记训练图像,5000 张作为测试,2500 张作为验证。这些图像主要来自 OpenSur face 数据集。整个数据集的图像分辨率分布从 800x500 到 500x800 之间。


Densely-Annotated VIdeo Segmentation (DAVIS)


该数据集主要是视频中对象分割数据,目的是适应实时动态视频语义分割挑战。主要有 50 段视频序列构成,其中 4219 帧是训练数据,2013 帧是验证数据,所有的视频数据都下采样至 480P 大小,像素级别的对每帧数据标注四个类别,分别是人、动物、车辆、对象。视频的另外一个特征是每帧至少有一个前景目标对象在视频帧中出现。


Stanford background


该数据集是室外场景数据集,主要数据来自 LabelMe、MSRC、PASCAL VOC、Geometric Context 公开数据集。数据集包含 715 张至少有一个前景对象图像,进行了像素级别的图像标注。主要用于评估分割模型的语义场景理解。


SiftFlow


包含 2688 完全标注的图像,是 LabelMe 数据集的子集。绝大数图像是室外八种场景,33 个类别,256x256 大小。


ADE20K

 

该数据集是全尺寸的图像语义分割标注数据集,其中训练图像 201210 张,验证图像 2000张。


上一篇:NVIDIA 推出 Isaac Nova Orin,加速自主