水痘
不是EvolveGCN项目直接使用的数据集,而是GT库提供的,可能不适用EvolveGCN,但是我们需要的格式是和该数据集类似的
StaticGraph…类型不用管,有其内容即可
518张快照,共用边矩阵(形式是edge_index和edge_weight)
- edge_index(2,102),即所有快照都是102条有向边,第一行是起始节点编号,第二行是终止结点编号格式如下
- edge_weight(102,)保存每条边的权重,全为1
- features是518张快照的节点特征
- list中的每个元素是单个快照的节点特征矩阵
- (20, 4)表示每个快照有20个结点,每个结点4个特征,形式如下
- target是518张快照的标签
- 每个节点一个预测值
比特币
是EvolveGCN用于评测节点分类任务的唯一数据集
Elliptic Data Set将比特币交易映射到合法类别和非法类别
节点和边
- 节点表示交易
- 边表示支付流
- 整张图由203,769个节点和234,355条边组成。
- 2%(4,545)的节点被标记为非法类别,21%(42,019)的节点被标记为合法类别。剩下的节点没有被标记类别。
任务
将图中未分类的节点分类为合法的和非法的(半监督)
- 特征
每个节点拥有166个特征值。
- 时序特征
每个节点都有一个时间步长
时间步长从1到49,平均间隔约两周。
不同时间步长的节点间没有边连接
- 边的格式
- 节点特征
第一列是节点id,第二列是时间步长
- 标签
需要的格式
以水痘数据集格式为基础,但是需要list套list,需要注意:
- 外部list的长度是视频的个数,外部list的每个元素也一个list
- 内部的list则是每个快照的信息,注意内部list的长度要一致,即每个视频取的快照数量一致,这样后面才方便分类(固定维度方便分类)
总共需要3个list套list,分别是节点特征矩阵features、边矩阵edge_index、边权重矩阵edge_weight
以及1个list视频的行为标签
- features、edge_index、edge_weight的格式形如水痘数据集,注意节点特征的数量要一致,其他的无所谓
- 行为标签是一个向量,预计采用one-hot