AGQA - 《Computer Vision》

AGQA的特点
AGQA时空场景图的数据结构

AGQA的特点

AGQA是在Action Genome和Charades的基础上构建的VQA数据集。
AGQA的制作分为三个阶段
1. 完善Action Genome中的时空场景图
2. 在完善后的场景图上生成Q&A
3. 平衡生成Q&A
AGQA在完善Action Genome的时空场景图时具体所做的事情

主要做了四件事
(1) 利用Charades数据集中的action来扩充Action Genome时空场景图的关系；
(2) 合并Aciton Genome中相似的注释；
(3) 删除只发生在一个object类别上的关系
(4) 删除attention类关系；
(5) 调整了action的开始和结束时间，以便当前action在下一个action出现前结束。

对于(1)来说，有的action如carrying a blanket和twisting the blanket，蕴含着关系holding和touching，AGQA用这样的action所蕴涵的关系来扩充场景图
对于(2)来说，AGQA整合了相似地object与action，比如eating a sandwich和eating some food
对于(3)来说，AGQA利用co-occurence statistic来删除只发生在一个object类别上的关系，例如关系turning off只发生在light
对于(4)来说，AQGQ删除了所有attention类的关系，因为标注员无法准确的判别人的目光

AGQA时空场景图的数据结构

TODO

载入数据中...
载入数据成功
-----1-----
video name: 46GP8
first_dic_len: 63
first_dic_keys: dict_keys(['000031', '000091', '000152', '000212', '000272', '000309', '000354', '000398', '000442', '000487', 'c092/1', 'c066/1', 'o17/000031', 'o17/000091', 'o17/000152', 'o17/000212', 'o17/000272', 'o36/000309', 'o36/000354', 'o36/000398', 'o36/000442', 'o36/000487', 'r1/000031', 'r1/000091', 'r2/000152', 'r1/000212', 'r1/000309', 'r1/000354', 'r1/000398', 'r1/000442', 'r2/000487', 'r1/000487', 'r18/000031', 'r15/000091', 'r22/000091', 'r15/000152', 'r22/000152', 'r15/000212', 'r22/000212', 'r18/000309', 'r18/000354', 'r22/000398', 'r22/000442', 'r22/000487', 'r7/000031', 'r7/000091', 'r4/000152', 'r4/000212', 'r7/000309', 'r7/000354', 'r7/000398', 'r7/000442', 'r8/000487', 'v011/000031', 'v011/000091', 'v011/000152', 'v011/000212', 'v011/000272', 'v031/000309', 'v031/000354', 'v031/000398', 'v031/000442', 'v031/000487'])
second_dic_len: 12
second_dic_keys: dict_keys(['id', 'secs', 'type', 'metadata', 'objects', 'attention', 'contact', 'spatial', 'verb', 'actions', 'next', 'prev'])
objects len: 2
objects keys: dict_keys(['names', 'vertices'])
objects.names: ['o17']
objects.vertices.type: <class 'list'>
objects.vertices.len: 1
next.type: <class 'dict'>
next.key: dict_keys(['id', 'secs', 'type', 'metadata', 'objects', 'attention', 'contact', 'spatial', 'verb', 'actions', 'next', 'prev'])
second_dic.id: 000031
second_dic.next.id: 000091
o17.keys: dict_keys(['id', 'type', 'class', 'attention', 'contact', 'spatial', 'verb', 'visible', 'bbox', 'metadata', 'frame_num', 'secs', 'next', 'prev'])
id: 000031
secs: 1.3
type: frame
metadata: test