数据集

Elliptic Data Set

Publicly available data sets for node classification in the dynamic setting are rare. We use only one data set (Elliptic) for demonstration. This data set is the largest one in node count in Table 1. The evaluation metrics are the same as those for edge classification.

  • 描述

Elliptic Data Set将比特币交易映射到属于合法类别(交易所、矿工、合法服务等)和非法类别(诈骗、恶意软件、恐怖组织、庞氏骗局等)的真实实体。

  • 节点和边

    • 该图由203,769个节点和234,355条边组成。
    • 2%(4,545)的节点被标记为非法类别,21%(42,019)的节点被标记为合法类别。剩下的节点没有被标记类别。
    • 边表示支付流
  • 任务

将图中未分类的节点分类为合法的和非法的(半监督)

  • 特征

每个节点拥有166个特征值(由于知识产权的原因,没有特征的准确描述)。
每个节点都有一个时间步长,代表对“交易广播到比特币网络”的时间的度量。
时间步长从1到49,平均间隔约两周。
不同时间步长的节点间没有边连接

Reddit Hyperlink Network

Hyperlink Network表示两个subreddit之间的定向连接(subreddit是Reddit上的社区)。该网络取自Reddit公开的2014年1月至2017年4月的数据。

Reddit是一个子链接到子链接的超链接网络,其中每个超链接都来自源社区中的一篇文章,并链接到目标社区中的一篇文章。超链接带有情感注释。数据集可以用于情感分类。

**