转自 man_world https://blog.csdn.net/mzpmzk/article/details/88065416

一、简介


二、VOC 常用组合、数据量统计及组织结构

  • VOC2007 train_val_test & VOC2012 train_val 百度云下载链接,提取码: jz27
  • 目前目标检测常用的是 VOC2007 和 VOC2012 数据集,因为二者是互斥的,论文中的常用组合有以下几种:
    • 07+12: 使用 VOC2007 和 VOC2012 的 train+val(16551) 上训练,然后使用 VOC2007 的 test(4952) 测试
    • 07++12: 使用 VOC2007 的 train+val+test(9963) 和 VOC2012 的 train+val(11540) 训练,然后使用 VOC2012 的 test 测试,这种方法需提交到 PASCAL VOC Evaluation Server 上评估结果,因为 VOC2012 test 没有公布
    • 07+12+COCO: 先在 MS COCO 的 trainval 上 预训练,再使用 VOC2007 和 VOC2012 的 train+val 微调训练,然后使用 VOC2007 的 test 测试
    • 07++12+COCO: 先在 MS COCO 的 trainval 上预训练,再使用 VOC2007 的 train+val+test 和 VOC2012 的 train+val微调训练,然后使用 VOC2012 的 test 测试 ,这种方法需提交到 PASCAL VOC Evaluation Server上评估结果,因为 VOC2012 test 没有公布
  • VOC2007 和 VOC2012 目标检测任务中的训练、验证和测试数据统计如下表所示,具体每一类的数据分布见 PASCAL VOC2007 Database StatisticsPASCAL VOC2012 Database Statistics
    PASCAL VOC 数据集简介 - 图2
  • 组织结构: 以 VOC 2007 为例,解压后的文件为:```shell . ├── Annotations 进行 detection 任务时的标签文件,xml 形式,文件名与图片名一一对应 ├── ImageSets 包含三个子文件夹 Layout、Main、Segmentation,其中 Main 存放的是分类和检测的数据集分割文件 ├── JPEGImages 存放 .jpg 格式的图片文件 ├── SegmentationClass 存放按照 class 分割的图片 └── SegmentationObject 存放按照 object 分割的图片

├── Main │ ├── train.txt 写着用于训练的图片名称, 共 2501 个 │ ├── val.txt 写着用于验证的图片名称,共 2510 个 │ ├── trainval.txt train与val的合集。共 5011 个 │ ├── test.txt 写着用于测试的图片名称,共 4952 个

  1. ---
  2. <a name="43a64eda"></a>
  3. ## 三、标注标准及 XML 解析
  4. - **标注标准:**[VOC2011 Annotation Guidelines](http://host.robots.ox.ac.uk/pascal/VOC/voc2012/guidelines.html)
  5. - 标注信息是用 xml 文件组织的如下:

VOC2007 000001.jpg # 文件名 The VOC2007 Database PASCAL VOC2007 PASCAL VOC 数据集简介 - 图3flickr 341012865 Fried Camels Jinky the Fruit Bat # 图像尺寸, 用于对 bbox 左上和右下坐标点做归一化操作 353 500 3 0 # 是否用于分割 dog # 物体类别 Left # 拍摄角度:front, rear, left, right, unspecified 1 # 目标是否被截断(比如在图片之外),或者被遮挡(超过15%) 0 # 检测难易程度,这个主要是根据目标的大小,光照变化,图片质量来判断 48 240 195 371 person Left 1 0 8 12 352 498

  1. <a name="2EMV2"></a>
  2. ## 四、提交格式
  3. <a name="DJoap"></a>
  4. ### Classification Task
  5. * 每一类都有一个 txt 文件,里面每一行都是测试集中的一张图片,前面一列是**图片名称**,后面一列是**预测的分数**。<br />```python
  6. ```python
  7. 000004 0.702732
  8. 000006 0.870849
  9. 000008 0.532489
  10. 000018 0.477167
  11. 000019 0.112426

Detection Task

  • 每一类都有一个 txt 文件,里面每一行都是测试集中的一张图片,每行的格式为:<image identifier> <confidence> <left> <top> <right> <bottom>,confidence 用来计算 mAP



000004 0.702732 89 112 516 466
000006 0.870849 373 168 488 229
000006 0.852346 407 157 500 213
000006 0.914587 2 161 55 221
000008 0.532489 175 184 232 201

五、评估标准


六、参考资料

1、The PASCAL Visual Object Classes Homepage
2、目标检测数据集 PASCAL VOC 简介
https://blog.csdn.net/mzpmzk/article/details/88065416