AGQA的特点

  • AGQA是在Action Genome和Charades的基础上构建的VQA数据集。

  • AGQA的制作分为三个阶段

    1. 完善Action Genome中的时空场景图
    2. 在完善后的场景图上生成Q&A
    3. 平衡生成Q&A
  • AGQA在完善Action Genome的时空场景图时具体所做的事情

主要做了四件事
(1) 利用Charades数据集中的action来扩充Action Genome时空场景图的关系;
(2) 合并Aciton Genome中相似的注释;
(3) 删除只发生在一个object类别上的关系
(4) 删除attention类关系;
(5) 调整了action的开始和结束时间,以便当前action在下一个action出现前结束。

  • 对于(1)来说,有的action如carrying a blanket和twisting the blanket,蕴含着关系holding和touching,AGQA用这样的action所蕴涵的关系来扩充场景图
  • 对于(2)来说,AGQA整合了相似地object与action,比如eating a sandwich和eating some food
  • 对于(3)来说,AGQA利用co-occurence statistic来删除只发生在一个object类别上的关系,例如关系turning off只发生在light
  • 对于(4)来说,AQGQ删除了所有attention类的关系,因为标注员无法准确的判别人的目光

AGQA时空场景图的数据结构

TODO

  1. 载入数据中...
  2. 载入数据成功
  3. -----1-----
  4. video name: 46GP8
  5. first_dic_len: 63
  6. first_dic_keys: dict_keys(['000031', '000091', '000152', '000212', '000272', '000309', '000354', '000398', '000442', '000487', 'c092/1', 'c066/1', 'o17/000031', 'o17/000091', 'o17/000152', 'o17/000212', 'o17/000272', 'o36/000309', 'o36/000354', 'o36/000398', 'o36/000442', 'o36/000487', 'r1/000031', 'r1/000091', 'r2/000152', 'r1/000212', 'r1/000309', 'r1/000354', 'r1/000398', 'r1/000442', 'r2/000487', 'r1/000487', 'r18/000031', 'r15/000091', 'r22/000091', 'r15/000152', 'r22/000152', 'r15/000212', 'r22/000212', 'r18/000309', 'r18/000354', 'r22/000398', 'r22/000442', 'r22/000487', 'r7/000031', 'r7/000091', 'r4/000152', 'r4/000212', 'r7/000309', 'r7/000354', 'r7/000398', 'r7/000442', 'r8/000487', 'v011/000031', 'v011/000091', 'v011/000152', 'v011/000212', 'v011/000272', 'v031/000309', 'v031/000354', 'v031/000398', 'v031/000442', 'v031/000487'])
  7. second_dic_len: 12
  8. second_dic_keys: dict_keys(['id', 'secs', 'type', 'metadata', 'objects', 'attention', 'contact', 'spatial', 'verb', 'actions', 'next', 'prev'])
  9. objects len: 2
  10. objects keys: dict_keys(['names', 'vertices'])
  11. objects.names: ['o17']
  12. objects.vertices.type: <class 'list'>
  13. objects.vertices.len: 1
  14. next.type: <class 'dict'>
  15. next.key: dict_keys(['id', 'secs', 'type', 'metadata', 'objects', 'attention', 'contact', 'spatial', 'verb', 'actions', 'next', 'prev'])
  16. second_dic.id: 000031
  17. second_dic.next.id: 000091
  18. o17.keys: dict_keys(['id', 'type', 'class', 'attention', 'contact', 'spatial', 'verb', 'visible', 'bbox', 'metadata', 'frame_num', 'secs', 'next', 'prev'])
  19. id: 000031
  20. secs: 1.3
  21. type: frame
  22. metadata: test