数据集Datasets

训练集与测试集

一般使用 80% 的数据进行训练,保留 20% 用于测试。

去哪里找数据集

Kaggle

爱竞赛的盆友们应该很熟悉了,Kaggle上有各种有趣的数据集,拉面评级、篮球数据、甚至西雅图的宠物许可证。
https://www.kaggle.com/

UCI机器学习库

最古老的数据集源之一,是寻找有趣数据集的第一站。虽然数据集是用户贡献的,因此具有不同的清洁度,但绝大多数都是干净的,可以直接从UCI机器学习库下载,无需注册。
http://mlr.cs.umass.edu/ml/

VisualData

分好类的计算机视觉数据集,可以搜索~
https://www.visualdata.io/

图像数据集

1. MNIST:手写数字数据集

image.png

2. MS-COCO

同样也是知名计算机视觉数据集,同名比赛每年都被中国人屠榜。
http://mscoco.org/

3. ImageNet

大家熟悉的ImageNet,女神李飞飞参与创建,同名比赛影响整个计算机视觉界。
http://image-net.org/

4. CIFAR-10/CIFAR-100

CIFAR-10包含10个类别,50,000个训练图像,彩色图像大小:32x32,10,000个测试图像。
CIFAR-100与CIFAR-10类似,包含100个类,每类有600张图片,其中500张用于训练,100张用于测试;这100个类分组成20个超类。图像类别均有明确标注。

5. Pascal VOC

PASCAL VOC挑战赛是视觉对象的目标分类和目标检测的一个基准测试,提供了检测算法和学习性能的标准图像注释数据集和标准的评估系统。PASCAL VOC图片集包括20个目录:人类;动物(鸟、猫、牛、狗、马、羊);交通工具(飞机、自行车、船、公共汽车、小轿车、摩托车、火车);室内(瓶子、椅子、餐桌、盆栽植物、沙发、电视)。
PASCAL VOC挑战赛在2012年后便不再举办,但其数据集图像质量好,标注完备,非常适合用来测试算法性能。

6. Fashion—MNIST

不同于MNIST手写数据集,Fashion-MNIST数据集包含了10个类别的图像,分别是:t-shirt(T恤),trouser(牛仔裤),pullover(套衫),dress(裙子),coat(外套),sandal(凉鞋),shirt(衬衫),sneaker(运动鞋),bag(包),ankle boot(短靴)。

7. Labelme

带注释的大型图像数据集。
http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php

自动驾驶数据集

CityScapes数据集(自动驾驶)

自动驾驶算法公开排行榜Cityscapes,Cityscapes主要专注于像素级别的分割和识别。
数据集 - 图2

KITTI

KITTI由德国卡尔斯鲁厄理工学院(Karlsruhe Institute of Technology)和丰田芝加哥技术研究院(Toyota Technological Institute at Chicago)于2012年联合创办,是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。
用于评测3D 目标(机动车、非机动车、行人等)检测、3D 目标跟踪、道路分割等计算机视觉技术在车载环境下的性能。KITTI包含市区、乡村和高速公路等场景采集的真实图像数据,每张图像中多达15辆车和30个行人,还有各种程度的遮挡。

Apolloscapes

百度 Apollo 计划开放的大规模自动驾驶数据集。它定义了 26 个不同语义项目,如汽车、自行车、行人、建筑物、路灯等。

Berkeley DeepDrive BDD100k

目前最大的自动驾驶人工智能数据集。包含 100000 多段视频,内容涉及一天中不同时间和天气条件下 1100 多小时的驾驶体验。注释图像来自纽约和旧金山地区。

tusimple

commom.ai