该章节前面介绍了Recitation: Snap.py and Google Cloud tutorial，其他Python的图网络包：DGL、Pytorch geometric(PyG)、networkx、阿里开源的Euler等。

这一节的任务：

Subgraphs：定义、找到Motifs与Graphlets
网络中的结构作用：结构角色发现法——RolX
发现结构角色及其应用：（1）结构相似性；（2）角色概括和迁移学习；（3）理解角色。

isomorphism 类质同象；同形性；同型
isomorphic 同构；同构的；同型的
topologically 拓扑地

Subgraphs

subnetworks或subgraphs：是网络的组成部分，具有描述和区分网络的能力。
考虑所有可能的（非同构）大小为3的有向子图：

对于每个子图，假设有一个度量标准，能够对子图的“重要性”进行分类，正值表示过度表示，负值表示表示不足。我们创建一个网络重要性字典，该字典包括所有子图类型重要性取值，因此可以比较不同网络中子图的重要性。

Motifs

Network motifs: “recurring, significant patterns of interconnections”

如何定义一个网络的motif？

Pattern：小的子图，有某种模式（某种特定的结构）；
Recurring：高频率出现；
Significant：比想象中更为重要（比如说对比随机图来说，出现的频率要更高）。**

为什么需要Motifs？
帮助我们了解网络是如何运作的；
帮助我们在特定情况下预测网络。

Motifs举例
（1）Feed-forward loops：

（2）Parallel loops

（3）Single-input modules

发现Motifs

Motifs: Recurrence

Motifs的重要性
在motif定义中有提到，一个motif要比想象中更重要，“重要性”可以来对比随机网络，就是说，这个Motif在真实网络中出现的次数要远远大于随机网络中出现的次数。如下图所示，a图中的左下角定义了一个motif，这个motif在左图的真实网络中出现的频率要远远大于右图中的随机网络，因此这个motif定义的就是合理的。

从数学角度定义Motif i的重要程度：，其中表示网络中类型的子图数量，表示随机网络中类型的子图数量。
Network significance profile（SP）：，SP是一个归一化的向量，强调子图的相对重要性。
例子：

如何产生一个用来与真实图比较的随机图？
**
随机图要求：与真实图有相同的节点数、边数、度分布
目标：给定一个度序列，产生随机图

方法1 Configuration Model
如下图所示，假设要生成有4个节点的随机图，度分别为4、3、2、1，则利用ABCD四种度序列，随机选择其他连边，最终生成右图，图中忽略了自环，多重边只保留一个。

方法2 Switching
如下图所示，给定一个初始图，重复交换次，Q为超参数（足够大使迭代聚合，比如取100），交换准则：（1）每次随机选择两组边，比如AB、CD；（2）交换endpoints，边变成了AD、CB（同时要确保交换时不产生多重边和自环），基于上述方法，就可产生相同度分布的随机图。

检测Motifs
产生随机图后，检测Motifs的方法：
在真实图中，统计子图的个数；
在随机图中，统计子图的个数；
计算Z-score：

high Z-socre表示子图 03 Motifs and Structural Roles in Networks - 图30 是真实图的motif。

例子：

从上述的两张表格可知：

Neurons与Gene两个网络含有相似的motifs：feed-forward loops和bi-fan structures，两者都是具有感觉和作用成分的信息处理网络；
Food webs有parallel loops：特定捕食者的猎物共享猎物；
www网络有双向链接：允许相关页面集之间有最短路径。

Motif概念的变体
规范的定义：
Directed and undirected
Colored and uncolored
Temporal and static motifs

其他定义：

Different frequency concepts
Different significance metrics
Under-Representation (anti-motifs)
Different constraints for null model

Graphlets: Node feature vectors

Graphlets定义

Graphlets: connected non-isomorphic subgraphs
isomorphic 同构；同构的；同型的
Graphlets是对motifs的扩展，motif是从全局的角度来描述图的，全局的图有哪些motifs，而Graphlets是从局部(节点)的角度出发来描述，关注这个节点和它邻居的情况，利用局部信息来对每个节点表示。

如上图所示，为 03 Motifs and Structural Roles in Networks - 图37 时的Graphlets，其中编号代表第几类节点。
当时，有1个Graphlets，只有一类节点0，两个节点是同构的。
当时，有2个Graphlets，对应三种节点，中有节点1、2，最下面的节点等价于节点1，在图中3个节点都是等价的。
当 03 Motifs and Structural Roles in Networks - 图42 时，有6个Graphlets，11种节点，比如在中有2类节点，节点7有三个邻居，而剩余三个节点同构，都可认为是节点6。
可以看出Graphlet也是一种子图，但是更关注局部节点的性质。

如何表示Graphlets中的节点？

使用graphlets得到一个节点级别的子图度量
Graphlet degree vector（GDV）：度表示一个节点所连接的边数，将Graphlet看作边，则GDV表示一个节点所连接的Graphlets数量。

Automorphism Orbits 自同构的轨道
isomorphism同形性; 同态性

如下图所示，对于图 03 Motifs and Structural Roles in Networks - 图44 中的节点，的自同构轨迹是，其中表示图的自同构组，如G的同形是其自身。

对于下图中的，假设用节点个数为2、3的graphlet表示（即上图中的），有abcd共4类节点（对应上图的0321节点）；
对节点进行表示：
（1）a类型出现2次，即vX、vY；
（2）b类型出现1次，即vXY；
（3）c类型没有出现，vXY不能算是c类型，因为c类型最下面的边没有相连，即vXY不可以算是的子图；
（4）d类型出现2次，即vXP、vYQ；
综上，所以节点v的表示为

Graphlet degree vector对节点在特定轨迹上触及到的graphlets计数。
考虑节点数为2~5的graphlets，73个元素组成的向量是一个节点的特征，它描述了节点的邻居的拓扑结构；捕获其4跳距离内的互连性。
Graphlet degree vector提供了一个度量节点局部网络拓扑结构的方法，即通过比较两个节点的向量，提供了对它们之间局部拓扑相似性的高度约束性测量。

例子：

节点A的GDV：

GDV(A)的第个元素：在轨迹上触及A的graphlets数量；
突出显示的是从左到右在轨迹15、19、27和35处接触节点A的graphlets。

找到Motifs与Graphlets
找到大小为k的motifs或graphlets需要解决以下两个问题：
枚举所有大小为k的连通subgraphs；
统计每类subgraph出现的的数量。

然而，子图同构是一个NP-complete问题。随着motif或graphlet大小的增加，计算时间呈指数增大。可行的motif大小通常很小，一般为3~8左右。

实现算法：