水痘

不是EvolveGCN项目直接使用的数据集,而是GT库提供的,可能不适用EvolveGCN,但是我们需要的格式是和该数据集类似的

image.png

  • StaticGraph…类型不用管,有其内容即可

  • 518张快照,共用边矩阵(形式是edge_index和edge_weight)

    • edge_index(2,102),即所有快照都是102条有向边,第一行是起始节点编号,第二行是终止结点编号格式如下

image.png

  • edge_weight(102,)保存每条边的权重,全为1
  • features是518张快照的节点特征

image.png

  • list中的每个元素是单个快照的节点特征矩阵
  • (20, 4)表示每个快照有20个结点,每个结点4个特征,形式如下

image.png

  • target是518张快照的标签

image.png

  • 每个节点一个预测值

比特币

是EvolveGCN用于评测节点分类任务的唯一数据集

Elliptic Data Set将比特币交易映射到合法类别和非法类别

  • 节点和边

    • 节点表示交易
    • 边表示支付流
    • 整张图由203,769个节点和234,355条边组成。
    • 2%(4,545)的节点被标记为非法类别,21%(42,019)的节点被标记为合法类别。剩下的节点没有被标记类别。
  • 任务

将图中未分类的节点分类为合法的和非法的(半监督)

  • 特征

每个节点拥有166个特征值。

  • 时序特征

每个节点都有一个时间步长
时间步长从1到49,平均间隔约两周。
不同时间步长的节点间没有边连接

  • 边的格式

image.png

  • 节点特征

第一列是节点id,第二列是时间步长
image.png
image.png

  • 标签

image.png

需要的格式

  • 以水痘数据集格式为基础,但是需要list套list,需要注意:

    • 外部list的长度是视频的个数,外部list的每个元素也一个list
    • 内部的list则是每个快照的信息,注意内部list的长度要一致,即每个视频取的快照数量一致,这样后面才方便分类(固定维度方便分类)
  • 总共需要3个list套list,分别是节点特征矩阵features、边矩阵edge_index、边权重矩阵edge_weight

以及1个list视频的行为标签

  • features、edge_index、edge_weight的格式形如水痘数据集,注意节点特征的数量要一致,其他的无所谓
  • 行为标签是一个向量,预计采用one-hot